e-business Solution & Service Partner ScrapMate 솔루션소개서 웹사이트수집기 Web Archiving Solution 주식회사크루메이트 137-891 서울특별시서초구양재동 97 번지문정타워 2 층 TEL. 02-573-3844 FAX. 02-573-3843 http://www.crewmate.co.kr Copyright 2005 crewmate co,ltd.all right reserved.
2 Contents 1. Introduction 2. ScrapMate 특징 3. System Architecture 4. ScrapMate 수행결과물 5. 개선점및향후방향
Introduction 3 ScrapMate is.. ScrapMate 는웹사이트를로컬스토리지에저장할수있게해주는웹아카이빙솔루션입니다. 직접개발한엔진을기반으로대규모사이트등에 ScrapMate 를적용하여보다정확한아카이빙서비스를수행할수있게합니다. 기술력 확장성및안정성 Java 기반의아키텍처로구현되어다양한비즈니스플랫폼과의연동이가능합니다. 새로운기술에대한 Parser 및 Executer 의이식이용이합니다. 지속적인버전업그레이드및기능개선으로신기술에대한변화에빠르게대응할수있습니다. 지속적인커뮤니케이션을통해고객사에적합한기능및서비스를제공합니다. 서비스 편의성 웹기반으로제공되어사용자접근성이용이합니다. 사용하기편리한인터페이스로구성되어있어기술지식이없어도쉽게사용할수있습니다.( 개발중 )
ScrapMate 특장점 4 안정적인스토리지기능 데이터를폴더링화하여안정적인스토리지기능을제공합니다. 문자셋을 UTF-8 로통일화하여다국어사이트를저장할때용이합니다. H/W 및 Network 의장애발생시재스캔기능을이용데이터누수의최소하를추구합니다. 제한적수집범위를지정해프로그램이무한적으로동작하는것을방지합니다. 효과적인병렬처리기능 간단한설정으로이미지및 Object 데이터를병렬로수집합니다. 시작점부터멀티로중복되지않는범위안에분산처리페이지를수집합니다. ( 개발진행중 ) 원본데이터의유지 마임타입의분석을통한바이너리파일들의원상태를유지합니다. 원본데이터인동영상및플레쉬파일을다운로드받아서로컬에서재현가능하게합니다.
ScrapMate 특장점 5 뛰어난기술이식능력 신기술이식이용이한구조로설계되어있습니다. 새로운컨텐츠 Parser 적용이용이합니다 현재 Html Parser / CSS Parser / Xml Parser 가내장되어있습니다. JavaScript Parser / Flash Parser 는개발예정입니다. ( 개발진행중 ) 시스템유연성 ScrapMate 는 Java 기반솔루션으로 MS Windows, Linux, Unix, IBM AIX, HP UX, Sun Solaris 등다양한 OS 지원합니다.
System Architecture 6 ScrapMate 는효율적인분산처리기능과안정적수집및스토어링이가능한구조로되어있습니다. Send Request 재구성된파일 Queue SITE Contents 재구성된파일 Index Mapping 재구성된파일 System Check Mime Type SITE Contents Parsing and Rebuilding SITE Contents SITE Contents
ScrapMate 수행결과물 7 http://www.rda.co.kr ( 농촌진흥청 2008-03-14) 2008-03-14 (6 시간동안수집 ) 원본 - http://www.rda.go.kr http://scrapmate.crewmate.co.kr/www.rda.go.kr/
ScrapMate 수행결과물 8 http://www.onemanga.com (2008-03-13) 2008-03-13 ~ 14 (14 시간동안수집 ) : 대용량만화사이트 (DOCTYPE 에의한왼쪽으로치우침현상발생 ) 원본 - http://www.onemanga.com (03/17 5:19) http://scrapmate.crewmate.co.kr/www.onemanga.com/
ScrapMate 수행결과물 9 http://www.flashgame.co.kr 2008-03-17 (5 시간수집 ) 자바스크립트플레쉬로딩에의한오류 (1), (2) 원본 http://www.flashgame.co.kr http://scrapmate.crewmate.co.kr/www.flashgame.co.kr/ (1) (2)
ScrapMate 수행결과물 10 http://www.pgr21.com ( 프로게이머랭킹 2008-03-17) 2008-03-17 (30 분동안동안수집 ) - ( 원본사이트의잘못된문법 HTML 에의한우측단면누락 ) 원본 - http://www.pgr21.com http://scrapmate.crewmate.co.kr/www.pgr21.com/
개선점및향후방향 11 개선점 자바스크립트파서를자체개발하여대상사이트의스크립트내용을 60% 이상재구성한다. 분산처리기능을강화해서시스템성능을향상시킨다. Flash 내용을분석하여내부링크를변경시스템에맞게재구성해스토리징한다. 스크래핑범위 (Depth) 를지정하여해당범위만큼만수집이가능하게한다. 향후방향 윈도우 UI(User Interface) 기능을추가함으로써사용자의사용편의성을제고한다. 다운로드된파일이나 OBJECT들을원본파일명으로스토리지에저장할수있게한다. 중간에수집및스토어링이중지되었된경우, 정보를저장해서다시그시점부터다시시작할수있게한다. 사이트를프로젝트단위로관리해서이력및프로젝트관리가가능하게한다. https/mms/ftp/file 등현재지원하지않는프로토콜을지원한다. 멀티파트리퀘스트 /POST/Apache인증/Cookie 등현재지원하지않는기능을구현한다. 인증이필요한대상사이트라도인증정보를사전에셋팅하여특정시점 ( 인증후사이트내용 ) 의데이터를저장하도록한다. 대상사이트의각종 FORM 정보를사전에저장하여특정시점에특정정보에대한데이터도저장할수있도록한다.
12 e-business Solution & Service Partner Thankyou 문의처 대표이사이호철 MOBILE 016.797.3801 MAIL nimrod@crewmate.co.kr 기술이사남인준 MOBILE 011.243.6578 MAIL ian_nam@crewmate.co.kr SI 사업부장김영한부장 MOBILE 010.3688.5219 MAIL eyebrow@crewmate.co.kr