MIR-Cruiser, MIR-Clipper 제품소개서 포스윈 COPYRIGHT (C) 2000-2006 FORCEWIN CO.,LTD. ALL RIGHTS RESERVED
Ⅰ. MIR-Cruiser MIR-Cruiser (Web Robot) MIR-Cruiser 의소개 MIR-Cruiser 는특정 Web 상에존재하는모든정보를수집하고이를색인하여검색하게함으로서포털사이트를구축할수있도록한다. MIR-Cruiser 는수집된데이터들을주기적으로갱신하고이를관리한다. MIR-Cruiser 의특징 해당 Web Site에서 Hyper Link로연결되어있는모든정보를검색할수있도록정보를수집및색인한다. 해당 Web Site를로컬시스템에 MIRroring 할수있는기능제공한다. Basic, Proxy, Cookie인증이가능하여해당 Web Site에 ID/Password만있으면어떠한정보라도수집가능하다. Multi Thread에의 Multi Cruiser 동작가능하다. Dead Link 처리및스케쥴링기능을갖는다. Web 상의 Meta정보및 Link Title과같은 Pre Meta 정보들을자동추출하여색인에반영한다. Web Site에대한 Load분산수집가능 ( 자원의효율성 ) 하다. 수집및제외를위한 URL Pattern 지정이가능하다. 중복 Link 제거기능을갖는다. CGI 및 Server Script Page 제외혹은포함기능을갖는다. Virtual Host에대한 Gathering이가능하다. HTTP/1.0, HTTP/1.1 프로토콜을지원한다. 1
Ⅰ. MIR-Cruiser MIR-Cruiser 의 Architecture 및장점 Web Server 1 Web Server 2 Web Server n Network MIR-Cruiser 의아키텍처 web Crawling 기능과 Indexing 기능을분리 Multithreading 환경에서개별적으로실행 Crawler 1 Indexer 1 Crawler 2 Indexer 2 Crawler n Indexer n Caching 기능과함께분리된 Architecture 를적용 Collection Collection Collection 검색엔진에독립적인 Indexing 기능을적용 MIR-Cruiser 장점 Web Crawling Cruiser 실행 다중 Instance 를생성하여다양한정보원에대한수집과색인을고성능으로처리 분산된시스템의요구에맞게수집, 색인을설정 Extract Indexer #1 Extract Indexer #2 2 개의주요 Component (Crawler, Indexer) 로구성된다. - Crawler : 웹페이지를수집 - Indexer : 콜렉션을생성 색인 DB 색인 DB 2
Ⅰ. MIR-Cruiser MIR-Cruiser 기능 MIR-Cruiser 는 Web 상에존재하는문서들을수집하여이를검색할수있도록색인한다. 일반적으로 Web Robot 이라불려지는기능들을수행하며, Seed URL 을제공하면 URL 을시작으로 Link 되어있는 Page 들을따라다니며수집하고이를색인한다. 웹 - 표준지원 MIR-Cruiser 는인터넷과인트라넷에사용되는웹표준지원 HTTP 1.0,HTTP1.1 을지원 표준 HREF, FRAME, IFRAME 을인식 리다이렉트 (Redirect) 페이지를따라가서실제문서의색인기능을지원하고, HTTP Basic 인증과 Cookie 메커니즘의지원으로 PASSWORD 로보호된사이트를색인 HTTP 캐싱메커니즘을지원 웹문서의캐싱을지원 고성능외부데이터수집 멀티스레딩에의한멀티웹사이트에대한동시다중수집 플로우컨트롤 (Flow Control) 에의한 Network 사용에대한최적화 DNS 에대한캐싱기능에의한 Network 자원절약 HTTP 캐싱메커니즘지원및문서캐쉬를지원 다양한기능 Advanced 한기능 수집문서크기제한, Domain 및 Host 제한 / 수집문서 Mime-Type 제한 Web Link 기반의가중치부여기능 (Google Style) HTML, CGI, Server Side Script 문서에대한수집 URL 패턴에의한수집방법제공 Cookie 를사용하는웹서버의문서수집기능 BASIC, COOKIE, PROXY 인증지원 Network 사용 Bandwidth 지정가능 Flash 문서에서 URL 추출기능 Dead Link 확인후색인에서제거 Duplicate/ Similar 문서제거 Website 에대한 Load 분산수집기능 ( 자원의효율성 ) 3
MIR-Clipper ( 선택적수집기 ) MIR-Clipper 의소개 MIR-CLIPPER 는국내사이트제작환경에최적화된우수한제품으로, 다양한형태로제작된웹페이지의컨텐츠를빠르고정확하게수집할수있는기능을제공하는웹문서수집로봇이다. 웹컨텐츠들중사용자가원하는영역만을선택하여구조화시켜저장하는웹 Agent 이다. 일반적인로봇에서처리하지못하는인증, JavaScript 링크, 특수제작사이트에대한광범위한수집기능을지원한다. MIR-Clipper 의특징 수집기 / 저장강화 인증페이지의수집 JavaScript 링크처리 자동및수동수집규칙을위자드방식으로처리 Script 방식의수집룰기능을제공하여수집영역확대 ODBC 가지원되는다양한데이터베이스접속 그룹별정보원및스케쥴별도저장 편리한도구 기타 관리기내에서로봇의구동상태점검및수집통계조회 알림메일발송 정보원등록마법사기능제공 수집룰제작중완벽한테스트환경지원 ( 시뮬레이션도구 ) 웹문서내에서다중필드수집지원 다국어지원을위한 UTF-8 포맷지원 단어규칙필터링제공 Seed URL 관리, 카테고리관리기능제공 4
MIR-Clipper 소개 ( 지원환경 ) MIR-Clipper 는일반웹문서뿐만이아니라구조화된웹문서, Web2.0 타입의웹문서도수집이가능하여, 사용자가원하는어떠한정보도수집이가능하다. 일반웹문서 구조화된웹문서 Web2.0 웹문서 MIR-Clipper 웹문서수집 원하는형태로수집 구조화문서수집자바스크립트처리 AJAX 페이지수집 RSS 수집 모든웹문서수집 (AJAX 페이지 ) 자바스크립트처리 인증페이지수집 인증페이지수집 필드별수집 필드별수집 RSS 수집 5
MIR-Clipper 구성 MIR-Clipper 는 ROBOT 과 Manager 로구성되어있다. ROBOT 은문서의수집과저장을담당하고, Manager 는수집룰및규칙을정의및테스트하고수집결과를분석하는 GUI 방식의관리환경을제공한다. MIR-Clipper ROBOT ( 웹로봇 ) Manager ( 관리기 ) Controller 자동등록기 (Wizard) Logger 수집규칙관리기 (Console) DataBase Worker 웹문서분석도구 (Analyzer) Robot Worker 수집규칙테스터 (Simulator) Watcher Processor(s) 스크립트기반프로그램도구 6
MIR-Clipper 의 Architecture MIR-Clipper 는 Manager 를통한수집룰정의를하고 Robot 을통한문서수집및 DB 저장과정순으로진행된다. 1. Manager 에서 Wizard 방식의수집규칙을정의하고테스트및시뮬레이션을통한검증과정을거쳐수집룰을저장한다. 2. ROBOT 은 Manager 에서정의된수집룰에따라문서수집을수행하고, 수집된문서를 DB 에저장한다. MIR-Clipper Clipper ROBOT ( 웹로봇 ) Clipper Manager( 관리기 ) 정보저장소 Controller 업무담당자 Console Logger DB Worker Wizard 카테고리구성 수집규칙구성 규칙등록 Robot Worker Watcher #1 Watcher #2 Clipper Robot Analyzer Simulator Script Tool 정보분석 Internet Watcher #3 Watcher #N 웹정보수집 수집정보저장 7
MIR-Clipper 기능 Windows Vista 지원 수집원마법사를통한등록기능 ( RSS 포함 ) 스크립트를이용한수집룰정의기능 ( RSS 포함 ) 강력한스크립트편집에디터 반복되는스크립트를공통으로관리하는라이브러리기능 스크립트작성하기위해웹문서를분석하는도움프로그램제공 작성한스크립트재연위한도움프로그램제공 일반적인웹로봇처럼링크를따라가며문서수집 완벽한 Javascript 링크처리기능 사용자인증정보를이용한인증처리기능 그룹별수집원관리기능 자동룰지정기능 복수개의수집테이블정의기능 웹문서내에서다중필드정의및수집기능 등록그룹및수집원별스케쥴 / 옵션별도지정기능 AJAX 페이지수집 ( 일부페이지는수집되지않을수있음 ) RSS 수집기능 본문을제공하지않는 RSS 수집기능 RSS 글을확인하기위한도움기능제공 수집대상페이지변경시관리자에게통보기능 완벽한 Multi Language지원 전체통계를한눈에볼수있는기능지원 수집, 누적수집, 에러, 수집원등록수, 수집원종류별통계를각수집원및그룹별일 / 월 / 년단위로그래프및엑셀출력기능 로그및에러제공 관리툴을통해즉각적인구동현황파악및구동상태조절 수집에러정보위주로관리자메일통보기능 이미지 / 첨부파일수집기능 수집화면저장기능 수집화면저장시지정된크기로변환하는기능 ( 썸네일 ) 웹문서에서 Frame내에있는문서를수집 다중사용자지원 FTP를통한첨부파일 / 이미지파일 / 수집화면전송기능 키워드를통한수집문서필터링기능 내부의모든정보는 XML및 UTF-8을이용한다. Informix, MS-SQL, Oracle, Sybase 연동제공 대용량수집시멀티서버운용컨트롤및로드발란싱기능 수집원의타입 ( 종류 ) 를설정하는기능 8
MIR-Clipper 기능 ( 수집원등록마법사 ) MIR-Clipper 는수집규칙을간편하게등록하고관리할수있도록수집원등록마법사기능을제공한다. 수집원등록마법사는 GUI 방식으로구성되어있어전문적인지식이없이도쉽게사용이가능하다. 수집원의룰등록을위한마법사기능지원 상세기능 테이블및레이어기반페이지설정 다음페이지링크설정 수집에필요한부분자동설정 본문영역자동설정 설정된값색상구분지원 추출된값즉시확인 게시판및방명록형태의페이지등록 자동수집룰설정 기대효과 GUI 방식으로쉽고편하게수집원등록및관리가능 전문적인지식없이누구나가쉽고편하게사용가능 9
MIR-Clipper 기능 ( 통계기능 ) MIR-Clipper 는수집된데이터의통계차트제공및정상작동여부확인등을할수있는기능을제공한다. 전체통계및수집원수, 에러건수들의통계를 GUI 방식으로사용자가쉽게확인할수있다. 전체통계및수집, 누적수집, 에러, 수집원등록, 수집원타입별통계지원 상세기능 등록기간별통계정보 수집기간별통계정보 각수집원및그룹별통계정보 일 / 월 / 년별통계정보 그래프및엑셀통계제공 수집, 누적건수통계 수집원등록수통계 전체통계화면 에러건수통계 수집원타입별통계 10
MIR-Clipper 기능 (RSS 기능 ) MIR-Clipper 는급변하는 WEB 2.0 시대에맞춰 RSS 기능을제공한다. RSS 등록은마법사를통해손쉽게설정이가능하며, 신속하게갱신되는기사및블로그데이터를수집할때유용하다. RSS 표준과버전을지원하며, 본문요약정보와실제원문정보까지수집 수집원 (RSS Feed URL) 1 요청 2 응답 상세기능및특징 RSS 등록은마법사를통해손쉽게설정가능 3 수집 기대효과 ( 활용 ) MIR-CLIPPER RSS Feed 사이트 신속하게갱신되는기사및블로그를수집하고싶은경우유용함 RSS 수집원추가 & RSS Feed URL 입력 RSS 본문확인 RSS 본문및속성필드설정 11