통합검색엔진 표준제안서

Similar documents
로거 자료실

Web Scraper in 30 Minutes 강철

160322_ADOP 상품 소개서_1.0

PowerPoint 프레젠테이션

Cloud Friendly System Architecture

H3250_Wi-Fi_E.book

TTA Journal No.157_서체변경.indd

슬라이드 1

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

6강.hwp

PowerPoint Presentation

<4D F736F F F696E74202D E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA E >

Microsoft PowerPoint - F3-1-이원석

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

요약 1

PowerPoint 프레젠테이션

1217 WebTrafMon II

untitled

vm-웨어-01장

PowerPoint 프레젠테이션

슬라이드 1

XSS Attack - Real-World XSS Attacks, Chaining XSS and Other Attacks, Payloads for XSS Attacks

View Licenses and Services (customer)

Microsoft Word - src.doc

2014 학년도종합설계 운영계획서 ( 스마트폰기반의나만의검색엔진 ) 성명학번 연락처 하희진 김태훈 담당교

PowerPoint

Windows 8에서 BioStar 1 설치하기

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

PowerPoint 프레젠테이션

Cache_cny.ppt [읽기 전용]

Microsoft Word - CrossSiteScripting[XSS].docx

FileMaker 15 WebDirect 설명서

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

Secure Programming Lecture1 : Introduction

Intra_DW_Ch4.PDF

마이크로시스템제작 lecture1. 강의소개및 MultiSIM 선덕한 마이크로시스템 1

Microsoft PowerPoint - 11주차_Android_GoogleMap.ppt [호환 모드]


server name>/arcgis/rest/services server name>/<web adaptor name>/rest/services ArcGIS 10.1 for Server System requirements - 지

Visual Studio online Limited preview 간략하게살펴보기

No

[Brochure] KOR_TunA


PCServerMgmt7

1. Windows 설치 (Client 설치 ) 원하는위치에다운받은발송클라이언트압축파일을해제합니다. Step 2. /conf/config.xml 파일수정 conf 폴더에서 config.xml 파일을텍스트에디터를이용하여 Open 합니다. config.xml 파일에서, 아

Week13


ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

<4D F736F F F696E74202D20B5A5C0CCC5CDBAA3C0CCBDBA5F3130C1D6C2F75F32C2F7BDC32E >

PowerPoint 프레젠테이션

Ç¥Áö

웹사이트 운영, 이보다 쉬울 수 없다! Microsoft Azure를 이용한 웹사이트 구축

PowerPoint 프레젠테이션


[Brochure] KOR_LENA WAS_

1. efolder 시스템구성 A. DB B. apache - mod-perl - PHP C. SphinxSearch ( 검색서비스 ) D. File Storage 2. efolder 설치순서 A. DB (MySQL) B. efolder Service - efolder

대규모 자바스크립트 웹어플리케이션개발하기 with BackboneJS and RequireJS 넷스루개발 2 팀이병주


SANsymphony-V

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

SIGIL 완벽입문

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

웹사이트제작과운영, 네이버와함께하세요! 고영수 / UI 기술랩 me2day.net/youngsuko

DBMS & SQL Server Installation Database Laboratory

PowerPoint 프레젠테이션

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

<4D F736F F F696E74202D20B5A5C0CCC5CDBAA3C0CCBDBA5F3130C1D6C2F75F31C2F7BDC32E >

*금안 도비라및목차1~9

슬라이드 1

Microsoft PowerPoint - ch02_인터넷 이해와 활용.ppt

<B1DDC0B6C1A4BAB8C8ADC1D6BFE4B5BFC7E C8A3292E687770>

Avaya G700 Media Gateway 하드웨어 설치의 빠른 시작

4? [The Fourth Industrial Revolution] IT :,,,. : (AI), ,, 2, 4 3, : 4 3.

컴퓨터과학과 교육목표 컴퓨터과학과의 컴퓨터과학 프로그램은 해당분야 에서 학문적 기술을 창의적으로 연구하고 산업적 기술을 주도적으로 개발하는 우수한 인력을 양성 함과 동시에 직업적 도덕적 책임의식을 갖는 IT인 육성을 교육목표로 한다. 1. 전공 기본 지식을 체계적으로

歯MW-1000AP_Manual_Kor_HJS.PDF

Install stm32cubemx and st-link utility

歯박지원-구운몽.PDF

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

*금안14(10)01-도비라및목차1~12

The Self-Managing Database : Automatic Health Monitoring and Alerting

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>

untitled

Backup Exec

Microsoft Word - ijungbo1_13_02

쉽게 풀어쓴 C 프로그래밍

untitled

C H A P T E R 2

3장

untitled

ODS-FM1

AVG PC TuneUp User Manual

Microsoft PowerPoint 웹 연동 기술.pptx

var answer = confirm(" 확인이나취소를누르세요."); // 확인창은사용자의의사를묻는데사용합니다. if(answer == true){ document.write(" 확인을눌렀습니다."); else { document.write(" 취소를눌렀습니다.");

SOFTBASE XFRAME DEVELOPMENT GUIDE SERIES HTML 연동가이드 서울특별시구로구구로 3 동한신 IT 타워 1215 호 Phone Fax Co

PowerPoint Presentation

공개 SW 기술지원센터

Microsoft Word - 김완석.doc

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

Transcription:

MIR-Cruiser, MIR-Clipper 제품소개서 포스윈 COPYRIGHT (C) 2000-2006 FORCEWIN CO.,LTD. ALL RIGHTS RESERVED

Ⅰ. MIR-Cruiser MIR-Cruiser (Web Robot) MIR-Cruiser 의소개 MIR-Cruiser 는특정 Web 상에존재하는모든정보를수집하고이를색인하여검색하게함으로서포털사이트를구축할수있도록한다. MIR-Cruiser 는수집된데이터들을주기적으로갱신하고이를관리한다. MIR-Cruiser 의특징 해당 Web Site에서 Hyper Link로연결되어있는모든정보를검색할수있도록정보를수집및색인한다. 해당 Web Site를로컬시스템에 MIRroring 할수있는기능제공한다. Basic, Proxy, Cookie인증이가능하여해당 Web Site에 ID/Password만있으면어떠한정보라도수집가능하다. Multi Thread에의 Multi Cruiser 동작가능하다. Dead Link 처리및스케쥴링기능을갖는다. Web 상의 Meta정보및 Link Title과같은 Pre Meta 정보들을자동추출하여색인에반영한다. Web Site에대한 Load분산수집가능 ( 자원의효율성 ) 하다. 수집및제외를위한 URL Pattern 지정이가능하다. 중복 Link 제거기능을갖는다. CGI 및 Server Script Page 제외혹은포함기능을갖는다. Virtual Host에대한 Gathering이가능하다. HTTP/1.0, HTTP/1.1 프로토콜을지원한다. 1

Ⅰ. MIR-Cruiser MIR-Cruiser 의 Architecture 및장점 Web Server 1 Web Server 2 Web Server n Network MIR-Cruiser 의아키텍처 web Crawling 기능과 Indexing 기능을분리 Multithreading 환경에서개별적으로실행 Crawler 1 Indexer 1 Crawler 2 Indexer 2 Crawler n Indexer n Caching 기능과함께분리된 Architecture 를적용 Collection Collection Collection 검색엔진에독립적인 Indexing 기능을적용 MIR-Cruiser 장점 Web Crawling Cruiser 실행 다중 Instance 를생성하여다양한정보원에대한수집과색인을고성능으로처리 분산된시스템의요구에맞게수집, 색인을설정 Extract Indexer #1 Extract Indexer #2 2 개의주요 Component (Crawler, Indexer) 로구성된다. - Crawler : 웹페이지를수집 - Indexer : 콜렉션을생성 색인 DB 색인 DB 2

Ⅰ. MIR-Cruiser MIR-Cruiser 기능 MIR-Cruiser 는 Web 상에존재하는문서들을수집하여이를검색할수있도록색인한다. 일반적으로 Web Robot 이라불려지는기능들을수행하며, Seed URL 을제공하면 URL 을시작으로 Link 되어있는 Page 들을따라다니며수집하고이를색인한다. 웹 - 표준지원 MIR-Cruiser 는인터넷과인트라넷에사용되는웹표준지원 HTTP 1.0,HTTP1.1 을지원 표준 HREF, FRAME, IFRAME 을인식 리다이렉트 (Redirect) 페이지를따라가서실제문서의색인기능을지원하고, HTTP Basic 인증과 Cookie 메커니즘의지원으로 PASSWORD 로보호된사이트를색인 HTTP 캐싱메커니즘을지원 웹문서의캐싱을지원 고성능외부데이터수집 멀티스레딩에의한멀티웹사이트에대한동시다중수집 플로우컨트롤 (Flow Control) 에의한 Network 사용에대한최적화 DNS 에대한캐싱기능에의한 Network 자원절약 HTTP 캐싱메커니즘지원및문서캐쉬를지원 다양한기능 Advanced 한기능 수집문서크기제한, Domain 및 Host 제한 / 수집문서 Mime-Type 제한 Web Link 기반의가중치부여기능 (Google Style) HTML, CGI, Server Side Script 문서에대한수집 URL 패턴에의한수집방법제공 Cookie 를사용하는웹서버의문서수집기능 BASIC, COOKIE, PROXY 인증지원 Network 사용 Bandwidth 지정가능 Flash 문서에서 URL 추출기능 Dead Link 확인후색인에서제거 Duplicate/ Similar 문서제거 Website 에대한 Load 분산수집기능 ( 자원의효율성 ) 3

MIR-Clipper ( 선택적수집기 ) MIR-Clipper 의소개 MIR-CLIPPER 는국내사이트제작환경에최적화된우수한제품으로, 다양한형태로제작된웹페이지의컨텐츠를빠르고정확하게수집할수있는기능을제공하는웹문서수집로봇이다. 웹컨텐츠들중사용자가원하는영역만을선택하여구조화시켜저장하는웹 Agent 이다. 일반적인로봇에서처리하지못하는인증, JavaScript 링크, 특수제작사이트에대한광범위한수집기능을지원한다. MIR-Clipper 의특징 수집기 / 저장강화 인증페이지의수집 JavaScript 링크처리 자동및수동수집규칙을위자드방식으로처리 Script 방식의수집룰기능을제공하여수집영역확대 ODBC 가지원되는다양한데이터베이스접속 그룹별정보원및스케쥴별도저장 편리한도구 기타 관리기내에서로봇의구동상태점검및수집통계조회 알림메일발송 정보원등록마법사기능제공 수집룰제작중완벽한테스트환경지원 ( 시뮬레이션도구 ) 웹문서내에서다중필드수집지원 다국어지원을위한 UTF-8 포맷지원 단어규칙필터링제공 Seed URL 관리, 카테고리관리기능제공 4

MIR-Clipper 소개 ( 지원환경 ) MIR-Clipper 는일반웹문서뿐만이아니라구조화된웹문서, Web2.0 타입의웹문서도수집이가능하여, 사용자가원하는어떠한정보도수집이가능하다. 일반웹문서 구조화된웹문서 Web2.0 웹문서 MIR-Clipper 웹문서수집 원하는형태로수집 구조화문서수집자바스크립트처리 AJAX 페이지수집 RSS 수집 모든웹문서수집 (AJAX 페이지 ) 자바스크립트처리 인증페이지수집 인증페이지수집 필드별수집 필드별수집 RSS 수집 5

MIR-Clipper 구성 MIR-Clipper 는 ROBOT 과 Manager 로구성되어있다. ROBOT 은문서의수집과저장을담당하고, Manager 는수집룰및규칙을정의및테스트하고수집결과를분석하는 GUI 방식의관리환경을제공한다. MIR-Clipper ROBOT ( 웹로봇 ) Manager ( 관리기 ) Controller 자동등록기 (Wizard) Logger 수집규칙관리기 (Console) DataBase Worker 웹문서분석도구 (Analyzer) Robot Worker 수집규칙테스터 (Simulator) Watcher Processor(s) 스크립트기반프로그램도구 6

MIR-Clipper 의 Architecture MIR-Clipper 는 Manager 를통한수집룰정의를하고 Robot 을통한문서수집및 DB 저장과정순으로진행된다. 1. Manager 에서 Wizard 방식의수집규칙을정의하고테스트및시뮬레이션을통한검증과정을거쳐수집룰을저장한다. 2. ROBOT 은 Manager 에서정의된수집룰에따라문서수집을수행하고, 수집된문서를 DB 에저장한다. MIR-Clipper Clipper ROBOT ( 웹로봇 ) Clipper Manager( 관리기 ) 정보저장소 Controller 업무담당자 Console Logger DB Worker Wizard 카테고리구성 수집규칙구성 규칙등록 Robot Worker Watcher #1 Watcher #2 Clipper Robot Analyzer Simulator Script Tool 정보분석 Internet Watcher #3 Watcher #N 웹정보수집 수집정보저장 7

MIR-Clipper 기능 Windows Vista 지원 수집원마법사를통한등록기능 ( RSS 포함 ) 스크립트를이용한수집룰정의기능 ( RSS 포함 ) 강력한스크립트편집에디터 반복되는스크립트를공통으로관리하는라이브러리기능 스크립트작성하기위해웹문서를분석하는도움프로그램제공 작성한스크립트재연위한도움프로그램제공 일반적인웹로봇처럼링크를따라가며문서수집 완벽한 Javascript 링크처리기능 사용자인증정보를이용한인증처리기능 그룹별수집원관리기능 자동룰지정기능 복수개의수집테이블정의기능 웹문서내에서다중필드정의및수집기능 등록그룹및수집원별스케쥴 / 옵션별도지정기능 AJAX 페이지수집 ( 일부페이지는수집되지않을수있음 ) RSS 수집기능 본문을제공하지않는 RSS 수집기능 RSS 글을확인하기위한도움기능제공 수집대상페이지변경시관리자에게통보기능 완벽한 Multi Language지원 전체통계를한눈에볼수있는기능지원 수집, 누적수집, 에러, 수집원등록수, 수집원종류별통계를각수집원및그룹별일 / 월 / 년단위로그래프및엑셀출력기능 로그및에러제공 관리툴을통해즉각적인구동현황파악및구동상태조절 수집에러정보위주로관리자메일통보기능 이미지 / 첨부파일수집기능 수집화면저장기능 수집화면저장시지정된크기로변환하는기능 ( 썸네일 ) 웹문서에서 Frame내에있는문서를수집 다중사용자지원 FTP를통한첨부파일 / 이미지파일 / 수집화면전송기능 키워드를통한수집문서필터링기능 내부의모든정보는 XML및 UTF-8을이용한다. Informix, MS-SQL, Oracle, Sybase 연동제공 대용량수집시멀티서버운용컨트롤및로드발란싱기능 수집원의타입 ( 종류 ) 를설정하는기능 8

MIR-Clipper 기능 ( 수집원등록마법사 ) MIR-Clipper 는수집규칙을간편하게등록하고관리할수있도록수집원등록마법사기능을제공한다. 수집원등록마법사는 GUI 방식으로구성되어있어전문적인지식이없이도쉽게사용이가능하다. 수집원의룰등록을위한마법사기능지원 상세기능 테이블및레이어기반페이지설정 다음페이지링크설정 수집에필요한부분자동설정 본문영역자동설정 설정된값색상구분지원 추출된값즉시확인 게시판및방명록형태의페이지등록 자동수집룰설정 기대효과 GUI 방식으로쉽고편하게수집원등록및관리가능 전문적인지식없이누구나가쉽고편하게사용가능 9

MIR-Clipper 기능 ( 통계기능 ) MIR-Clipper 는수집된데이터의통계차트제공및정상작동여부확인등을할수있는기능을제공한다. 전체통계및수집원수, 에러건수들의통계를 GUI 방식으로사용자가쉽게확인할수있다. 전체통계및수집, 누적수집, 에러, 수집원등록, 수집원타입별통계지원 상세기능 등록기간별통계정보 수집기간별통계정보 각수집원및그룹별통계정보 일 / 월 / 년별통계정보 그래프및엑셀통계제공 수집, 누적건수통계 수집원등록수통계 전체통계화면 에러건수통계 수집원타입별통계 10

MIR-Clipper 기능 (RSS 기능 ) MIR-Clipper 는급변하는 WEB 2.0 시대에맞춰 RSS 기능을제공한다. RSS 등록은마법사를통해손쉽게설정이가능하며, 신속하게갱신되는기사및블로그데이터를수집할때유용하다. RSS 표준과버전을지원하며, 본문요약정보와실제원문정보까지수집 수집원 (RSS Feed URL) 1 요청 2 응답 상세기능및특징 RSS 등록은마법사를통해손쉽게설정가능 3 수집 기대효과 ( 활용 ) MIR-CLIPPER RSS Feed 사이트 신속하게갱신되는기사및블로그를수집하고싶은경우유용함 RSS 수집원추가 & RSS Feed URL 입력 RSS 본문확인 RSS 본문및속성필드설정 11