인터넷 검색엔진

Similar documents
<4D F736F F F696E74202D E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA E >

Voice Portal using Oracle 9i AS Wireless

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

DW 개요.PDF

PowerPoint 프레젠테이션

Portal_9iAS.ppt [읽기 전용]

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

김기남_ATDC2016_160620_[키노트].key

(Microsoft PowerPoint - \260\313\273\366\277\243\301\370 \260\372\260\305\277\315-Link analysis)

DocsPin_Korean.pages

Chap 6: Graphs

160322_ADOP 상품 소개서_1.0

Intra_DW_Ch4.PDF

DBPIA-NURIMEDIA

Mstage.PDF

PowerPoint 프레젠테이션

AGENDA 모바일 산업의 환경변화 모바일 클라우드 서비스의 등장 모바일 클라우드 서비스 융합사례

solution map_....

Oracle Database 10g: Self-Managing Database DB TSC

2009년 국제법평론회 동계학술대회 일정

SchoolNet튜토리얼.PDF

PowerPoint Presentation

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

thesis

Interstage5 SOAP서비스 설정 가이드

APOGEE Insight_KR_Base_3P11

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based


example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

초보자를 위한 분산 캐시 활용 전략

1217 WebTrafMon II

DBPIA-NURIMEDIA

chapter4

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

VOL /2 Technical SmartPlant Materials - Document Management SmartPlant Materials에서 기본적인 Document를 관리하고자 할 때 필요한 세팅, 파일 업로드 방법 그리고 Path Type인 Ph

(316) =.hwp

15_3oracle

강의10

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

PCServerMgmt7

강의지침서 작성 양식

UNIST_교원 홈페이지 관리자_Manual_V1.0

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>


정보기술응용학회 발표

Social Network

DIY 챗봇 - LangCon

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

소프트웨어개발방법론

Output file

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

歯이시홍).PDF

슬라이드 1

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

2002년 2학기 자료구조

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

Week13

ARM01

<65B7AFB4D7B7CEB5E5BCEEBFEEBFB5B0E1B0FABAB8B0EDBCAD5FC3D6C1BE2E687770>

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

Database Applications - 멀티미디어 데이터베이스 – 제6장 텍스트 색인과 검색

歯1.PDF

Intro to Servlet, EJB, JSP, WS

<31342D3034C0E5C7FDBFB52E687770>

R을 이용한 텍스트 감정분석

What is ScienceDirect? ScienceDirect는 세계 최대의 온라인 저널 원문 데이터베이스로 엘스비어에서 발행하는 약,00여 종의 Peer-reviewed 저널과,000여권 이상의 도서를 수록하고 있습니다. Peer review Subject 수록된

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

Microsoft PowerPoint - XP Style

<49534F C0CEC1F520BBE7C8C4BDC9BBE720C4C1BCB3C6C320B9D D20BDC3BDBAC5DB20B0EDB5B5C8AD20C1A6BEC8BFE4C3BBBCAD2E687770>

ETL_project_best_practice1.ppt

Microsoft PowerPoint ppt

untitled


2011´ëÇпø2µµ 24p_0628

Microsoft Word - 김완석.doc

소개 TeraStation 을 구입해 주셔서 감사합니다! 이 사용 설명서는 TeraStation 구성 정보를 제공합니다. 제품은 계속 업데이트되므로, 이 설명서의 이미지 및 텍스트는 사용자가 보유 중인 TeraStation 에 표시 된 이미지 및 텍스트와 약간 다를 수

ARMBOOT 1

Microsoft PowerPoint - AC3.pptx

#Ȳ¿ë¼®

6주차.key

PowerPoint Presentation

<35312DBCB1C8A3B5B52E687770>

sna-node-ties

02( ) CPL12-16.hwp

X-VA-MT3809G-MT3810G-kor

PowerPoint 프레젠테이션

놀이동산미아찾기시스템

untitled

Microsoft Word - KSR2014S042

PowerPoint 프레젠테이션

도서관 소식 6호

PowerChute Personal Edition v3.1.0 에이전트 사용 설명서

(주)나우프로필의 이동형 대표 개편의 방향이 시민참여를 많이 하는 방향이라, 홈페이지 시안 이 매우 간편해져서 소통이 쉬워질 것 같다. 다만 웹보다 모바일 이용자가 지속적으로 급증하는 추세이므로 이에 적합한 구조가 되도록 보장해야 한다. 소셜미디어전략연구소 배운철 대표

산업입지내지6차

, N-. N- DLNA(Digital Living Network Alliance).,. DLNA DLNA. DLNA,, UPnP, IPv4, HTTP DLNA. DLNA, DLNA [1]. DLNA DLNA DLNA., [2]. DLNA UPnP. DLNA DLNA.

rmi_박준용_final.PDF

Something that can be seen, touched or otherwise sensed

J2EE & Web Services iSeminar

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Transcription:

Web Information Retrieval 2001 년 9 월 21 일 국민대학교컴퓨터학부강승식

차례 웹검색엔진 국내외검색엔진 웹의특성및사용자특성 웹검색엔진의 issues Web spider(crawler) Ranking : 문서연관성기법 PageRank, HITS 결론 2

검색엔진개발 ( 국외 ) Lycos : CMU 의연구프로젝트 (1994) Excite : Stanford 대학원생 OpenText : 워싱턴대학 HotBot U.C. Berkley 의검색엔진을발전시킴 Altavista : DEC(1995) Google : MIT 출신 InkTomi, Northernlight 등 3

검색엔진개발 ( 국내 ) Simmani : 한글과컴퓨터 까치네 : 대구대동아리 Naver(98.06) : 삼성 SDS Empas(99.11) : 숭실대 HanMir, 와카노 WiseNut(01.08) 기타 portal sites 4

http://kr.wisenut.com/ 5

http://kr.wisenut.com/ 6

검색엔진의발전과정 검색모델 boolean model vector model 질의어 Keyword 검색 자연어검색 부가기능 Image, sound 검색결과 clustering H/W Workstation PC server 7

8

검색엔진평가방법 재현율 (recall ratio) 정답문서를검색한비율 정확률 (precision ratio) 검색된문서중정답문서의비율 F-measure 재현율과정확률을하나의값으로표현 R precision(precision at rank n) 상위 n 개의검색결과에대한적합한문서비율 9

princess diana 의검색결과 Engine 1 Engine 2 Engine 3 Relevant and high quality Relevant but low quality Not relevant index pollution 10

국내검색엔진평가 ( 성공회대 ) http://green.skhu.ac.kr/~skhuir/ 평가방법 : 상위 10 개검색결과에대해 (1+1+1+3/4+4/5+5/6+6/7+7/8+7/9+8/10)/10 = 0.87 2001 년 Naver, Empas, Hanmir & Lycos, Simmani, Yahoo, MSN, Daum, Altavista 2000 년 Hanmir, Lycos, Naver & Yahoo, Simmani, Altavista 11

국내검색엔진순위변화 12

인터넷검색엔진의성능 웹문서개수 약 10 억개 (99/12) : 한글 1~3 천만개 Web spider(crawler) 검색결과의 ranking 상위 20~30 개내에적합한문서개수 Ranking algorithm 갱신주기 1 일 ~ 2 주 13

웹의특성 안정성문제 23%/day, 38%/week 다양한자료 Text, image, sound, script 다양한언어의문서 중복문서 Syntactic: 약 30% Semantic:??? High linkage : 평균 8 links/page 14

질의어및사용자특성 질의어특성 평균 2.35 terms 부정확한질의어 연산자없는질의어 : 약 80% 사용자특성 사용자 85% -- one screen only 질의어 78% -- 수정안함 Link 를따라감 15

웹검색엔진구성요소 Web Spider(crawler) 웹문서수집 Indexer 색인어추출및색인어저장구조 Search interface 질의어분석및검색 16

웹정보검색 issues 웹문서수집 Priority : 매일갱신되는 page? Load balancing : Internal, external Trap avoidance 서버가죽어있는경우 Page 가삭제된경우 문서처리 중복문서제거 색인어추출및저장구조 Query-independent ranking 문서분류 17

웹정보검색 issues ( 계속 ) 질의어처리 Query-dependent ranking 중복문서제거 질의어수정 / 확장 검색결과 clustering 18

웹문서수집 목표 : 사용자요구에적합한문서수집 Static: html, text, image, audio Dynamic: DB access 논점 URL 리스트확보 Hyperlink, 모든웹서버 (IP) Static page 수집방법 Dynamic page 학습방법 19

Web crawling Crawling process Get link at top of queue Expired pages from index Fetch page Queue of links to explore Index page and parse links Add to queue Add URL 20

Queuing discipline Standard graph exploration: Random BFS DFS (+ depth limits) Priority based on queryindependent ranking Highest indegree Highest potential PageRank 21

Load balancing Internal Response time Size of answers No. of threads, no. of open connections, etc External Server overload Queuing discipline 22

Ranking Example Query-independent ranking 각문서에대한가중치부여 Query-dependent ranking 벡터모델의 cosine measure 문서분석기법 Ad-hoc factors Publication, location Human annotation 웹광고? 문서연관성기법 Query-independent: PageRank, in-degree Query-dependent: HITS 23

문서연관성기법 (PageRank) Idea hyperlink information of the Web Assumptions Links often connect related pages A link between pages is a recommendation 24

PageRank: Query-independent ranking 웹페이지의그래프표현 (u, v) : page u 에서 page v 로 link 웹페이지의 quality In-degree 및그페이지에 link 된페이지의 quality 에의해결정 웹페이지의 PageRank 는사용자가그페이지에머무는시간에비례 Google 에서사용하는 ranking 기법중하나 25

HITS: Query-dependent ranking Given a query find: Good sources of content (authorities) Good sources of links (hubs) Better authority comes from in-edges from good hubs. Being a better hub comes from out-edges to good authorities. 26

Modified HITS 문제점 : Some edges are wrong Multiple edges from same author Automatically generated 해결방법 : Edge weighting 문제점 : Topic drift 예 ) jaguar + car pages about cars 해결방법 : Analyze content and assign topic scores to nodes 27

HITS 실험결과 10 9 8 7 6 5 4 3 2 1 0 Valuable pages within 10 top answers (averaged over 28 topics) Authorities Hubs Original Edge Weighting EW + Content Analysis 28

PageRank vs. HITS Computation: Expensive Once for all documents and queries (offline) Query-independent requires combination with query-dependent criteria Hard to spam Computation: Expensive Requires computation for each query Query-dependent Relatively easy to spam Quality depends on quality of start set Gives hubs as well 29 as authorities

Connectivity Server Basic operations InEdges(URL u, int k) OutEdges(URL u, int k) Difficulties Memory usage: 180M nodes, 1B edges Preprocessing time: days Query time: 0.0001sec/result URL 30

URL database Sorted list of URLs is 8.7 GB ( 48 bytes/url) Delta encoding reduces it to 3.8 GB ( 21 bytes/url) Original text www.foobar.com/ www.foobar.com/gandalf.htm www.foograb.com/ Delta Encoding 0 www.foobar.com/ 1 15 gandalf.htm 26 7 grab.com/ 41 15 gandalf.htm 26 size of shared prefix Node ID 31

Other I.R. issues Duplicate filtering : 중복문서제거 갱신주기문제 검색결과관련 Clustering www.northernlight.com Summarization Directory service Document classification 분야별전문화된검색엔진 32

Duplicate filtering Near-duplicate documents Computing pair-wise edit distance A short sketch for each document Near-duplicate hosts(mirrors) Pre-filtering techniques IP-based URL-string based Similar hostnames, similar paths URL-string & hyperlink based Hostname & hyperlink based 33

User interface & visualization Category or directory overview MeSHBrowse Scatter/Gather 2/3-dimensional overview Query specification Venn diagram Filter-flow visualization Block-oriented diagram visualization Current document set in the context of other information types 34

MeSHBrowse interface for category labels 35

Scatter/Gather clustering 36

Three-dim. clustering 37

Two-dim. Web pages 38

Venn diagram visualization 39

Query-terms placed in abstract graphical space 40

Graphical depiction of Web link structure 41

결론 웹검색엔진소개 웹문서특성및사용자특성고찰 웹정보검색 issues 문서수집 Ranking: 문서연관성기법 PageRank, HITS < 참고 > Monika Henzinger 의 Google 자료 Web Information Retrieval http://www.henzinger.com/~monika 42