Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

Similar documents
목차 I. 검색엔진의 발전 II. 개인화 서비스 III. 검색 개인화 IV. 오픈베이스의 개인화 검색 V. 결론 검색의 진화와 개인화의 역할 KM&ECM CONFERENCE

Intra_DW_Ch4.PDF

160322_ADOP 상품 소개서_1.0

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

인터넷 검색엔진

PowerPoint 프레젠테이션

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

EndNote X2 초급 분당차병원도서실사서최근영 ( )

김기남_ATDC2016_160620_[키노트].key

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

Chap 6: Graphs

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

취업규칙

정보기술응용학회 발표

리포트_03.PDF

1

도서관 소식 6호

자궁내막증 진단과 추적에서의 혈액 표지자의 유용성

R을 이용한 텍스트 감정분석

PowerPoint 프레젠테이션

Portal_9iAS.ppt [읽기 전용]

Social Network

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

3. 네이버검색 제 3장에서는네이버검색서비스에대한내용을살펴본다. 네이버검색은네이버에서가장대표적인서비스이다. 네이버검색서비스는계속진화하여다양하고정교한검색방법을제공하고, 다양한영역에서추출된검색결과를제공하고있다. 특히다양한영역의검색결과를한꺼번에보여주는 통합검색 방식은네이버검

uFOCS

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

동부한농화학 제안서

Chap 6: Graphs

Windows 8에서 BioStar 1 설치하기

금오공대 컴퓨터공학전공 강의자료

Microsoft Word - ijungbo1_13_02

歯mp3사용설명서

untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

第 1 節 組 織 11 第 1 章 檢 察 의 組 織 人 事 制 度 등 第 1 項 大 檢 察 廳 第 1 節 組 대검찰청은 대법원에 대응하여 수도인 서울에 위치 한다(검찰청법 제2조,제3조,대검찰청의 위치와 각급 검찰청의명칭및위치에관한규정 제2조). 대검찰청에 검찰총장,대

MS-SQL SERVER 대비 기능

2009방송통신산업동향.hwp

1217 WebTrafMon II

Data Industry White Paper

<C1A4C3A5B8DEB8F05FC1A C8A35FB0F8B0F8B5A5C0CCC5CD20B0B3B9E6B0FA20B0ADBFF8B5B52E687770>

KARAAUTO_4¿ù.qxd-ÀÌÆå.ps, page Normalize

Web-Scale Bayesian Click-Through Rate Prediction for Sponsored Search Advertising in Microsoft s Bing Search Engine Thore Graepel et al., ICML, 2010 P

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

Database Applications - 멀티미디어 데이터베이스 – 제6장 텍스트 색인과 검색

PowerPoint 프레젠테이션

±è¼ºÈñ.hwp

Index

DE1-SoC Board

(......).hwp

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

보고서를 펴내며 2009 지속가능성 보고서는 다음이 발간하는 최초 보고서입니다. 첫 보 고서 발간을 통해 다음은 다음의 이해관계자와 상호간에 미치는 영향이 무 엇인지 알게 되었으며, 앞으로 다음이 지속가능한 발전과 성장을 이뤄내기 위해서 해야 할 역할과 나아가야 할 방


빅데이터_DAY key

음악의 구성 형식에 따라 추출된 대표 선율을 이용한 내용 기반 음악 검색 시스템

DIY 챗봇 - LangCon

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Scopus 한국어이용가이드-3차수정

ecorp-프로젝트제안서작성실무(양식4)

목 차 Ⅰ. 정보기술의 환경 변화 Ⅱ. 차량-IT Convergence Ⅲ. 차량 센서 연계 서비스 Ⅳ. 차량-IT 융합 발전방향

Microsoft PowerPoint - 컨퍼런스 발표자료_Diquest

11. 텍스트를위한 화일 DBLAB, SNU 텍스트를위한화일 u 텍스트데이타로구성된문서 (documents) 나텍스트필드 (text field) 를포함하고있는레코드검색에이용할수있는화일 텍스트 (text): 긴문자열로구성된데이타 ( 예 ) 학생의자기소개, 신문기사, 사전

Service-Oriented Architecture Copyright Tmax Soft 2005

15_3oracle

<43494FB8AEC6F7C6AE5FB0F8B0A3C1A4BAB85FBCF6C1A42E687770>

untitled

untitled

슬라이드 1

ODS-FM1

PCServerMgmt7

C# Programming Guide - Types

Microsoft PowerPoint - ch07.ppt

Microsoft Word - 정한민.doc

PowerPoint Presentation

SciFinder

Voice Portal using Oracle 9i AS Wireless

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

(316) =.hwp

on ScienceDirect User Guide


슬라이드 1

경북인터넷검색엔진마케팅서비스 사업설명회

학습목표 의사결정에는어떠한유형이있으며, 의사결정과정은어떻게수행되는가? 정보시스템이개인또는그룹에서의의사결정을어떻게더욱효과적으로만들도록도와주는가? 의사결정과지식관리에서지능관련기술의사용의장점은무엇인가? 전사적지식관리를위해사용되는시스템의유형은무엇이며, 기업들에게어떻게가치를제공

전라북도 도로 연계 네트워크 효율화 방안 연구

독서대학 Vol.75

BSC Discussion 1

SchoolNet튜토리얼.PDF

디지털포렌식학회 논문양식

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

온라인게임 투자의견 종목 투자의견 목표주가(원) 투자포인트 엔씨소프트 (036570) Buy 420, B&S 4월 27일 1차 CBT 성공적으로 실시 : 게임성과 흥행성 검증 2. B&S 5월 16일 중국 현지업체(텐센트)와 퍼블리싱 계약 체결 : 아이온보다

Microsoft PowerPoint - CoolMessenger_제안서_라이트_200508

APOGEE Insight_KR_Base_3P11

<C5D8BDBAC6AEBEF0BEEEC7D C1FD2E687770>

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

thesis

Transcription:

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우 2001.6.7

목차 1. 검색엔진의역사 4. 진보된검색기술 요람기유년기성년기성숙기 개요시각화자연어검색기술문서자동분류 2. 검색서비스와검색엔진 5. 차세대검색기술 서비스와엔진의차이검색서비스분석신개념의검색서비스 MAP 기반검색엔진개인화된검색엔진추론엔진 3. 검색시나리오분석 2 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 요람기 (1945년 ~1955년 ) 정보검색이란용어의사용 1950 년초반 1 세대컴퓨터의등장시기미국에서사용 1945 년 Vannervar Bush 의논문에서처음제시 검색엔진의태동기 기계번역에대한최초의제안들이제시 1949 년 Warren Weaver, Andrew D. Booth 정보검색, 기계번역에대한모든아이디어가제시된시기 이러한이론들을바탕으로 60 년대시스템을구축하는계기마련 3 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 유년기 (1960 년대 ) 위대한경험의시대 대용량의정보검색시스템의초기모델이제시 현재거론되는모든검색기법이이시대에정립 Free-text indexing 기법이보편화 정보검색시스템평가기준완성 1966년 Cyril Cleverdon : 재현율, 정확률기준마련 Relevance feedback등의신검색기술이태동 1968년 Gerard Salton : 다국어검색기법이제시 대용량정보검색시스템구현 : BRS 4 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 성년기 (1970 년대 ) 전자문서의시대 워드프로세서의등장 처리해야할문서의수와양이비약적인증가 디스크드라이브가처음발표 : 1메가당 2000달러 대용량검색시스템들의상용화 Dialog, Orbit, BRS OCLC 등장 Online Computer Library Center 세계최대규모의도서관네트웍 64개국 26,000개도서관정보를제공 5 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 성년기 (1970 년대 ) 계속 데이터베이스시스템의등장 데이터베이스와검색엔진의차이 DB : Data관점, 관리중심, 결정구조, SQL -> MIS로발전 IR : Information 관점, 검색중심, 비정형구조, 자유검색 계층모델과네트웍모델에기반한제품이주류 인공지능분야에서분리 정보검색은인공지능의한분야로취급 70년대에와서 AI에서분리, 워드처리방식접근이보편화 AI는무용론제기, IR은고속의성장 최근다시 AI-IR 접목이시도 6 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 성숙기 (1980 년대 ) 본격적인전문검색엔진등장 컴퓨터의성능향상, 저렴한가격, CD-ROM의등장 원문검색에대한요구사항증가 도서관위주의검색기술의지속적인발달 검색엔진의과거 시대적구분 : 1945년 ~1989년까지 IT 기술적구분 : WWW의등장전 (1990년초반 ) 정보검색측면에서 WWW는새로운시대를여는계기마련 7 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

1. 검색엔진의역사 시대별검색엔진관련주요기술정리 시대년도시대적배경주요기술주요인물 요기유기성기 람년년 1945~19 55 1960 년대 1970 년대 1 세대컴퓨터등장 대용량처리시스템의등장 워드프로세서등장 OCLC 등장 하이퍼텍스트개념정립기계번력이론 Free-Text 색인기법검색엔진평가기준의정립다국어검색기법대용량정보검색시스템의상용화데이터베이스등장 Vannervar Bush Warren Weaver Cyril Cleverdon Gerard Salton E.F.Codd 성기 숙 1980 년대 CD-ROM 등장 네트워크기반의정보검색시스템 8 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

2. 검색서비스와검색엔진 검색서비스와검색엔진의차이 검색서비스 인터넷검색엔진이라부른는야후, 알타비스타, 라이코스 엔진에대한비중보다브랜드에대한비중이높다. 언제라도검색엔진은교체가가능하다. Inktomi, Google -> Yahoo에검색엔진제공 검색엔진 대량의문서를취급하는도서관이나기업이주고객 90년이전의검색엔진기술들의맥을이어오고있음 DataWare, Fulcrum, Excalibur, Search97, 9 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

2. 검색서비스와검색엔진 검색서비스분석 ( 단위 : 백만원, 총 10 억페이지 ) 검색엔진의색인데이터량비교 인터넷상의정보가기하급수적으로증가함에따라서 1 개의검색엔진이모든정보를보유할수없음 전세계웹페이지수 : 10 억페이지 16 초마다 1 개의신규사이트생성 8 개월마다사이트수가 2 배로증가 하드웨어사용의부담증가 Google : 6700 대서버운영 Yahoo : 1500 대서버운영 검색엔진 웹페이지인덱스 인덱스비율 GOOGLE 350 35% FAST 340 34% ALTAVISTA 250 25% EXCITE 214 21% INFOSEEK 50 5% LYCOS 50 5% 자료 : [SEARCHENGINE.COM], [ 조선일보 (2000.8.11)] 10 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

2. 검색서비스와검색엔진 신개념의검색서비스 www.google.com Relevance feed-back counter 기법 검색의정확도는단일문서의분석을통해서결정하기어려움 해당문서를링크하고있는다른문서의수에의해랭킹결정 세계에서가장인기있는검색엔진으로자리잡음 www.directhit.com Event information analysis 다른사용자의이벤트정보를분석해정확도를결정 질의어, 페이지에머무른시간, 선택된사이트정보 인간의사용패턴에근접한검색모델을제시 11 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

R R R 3. 검색시나리오분석 통합검색시나리오 (1) 검색원문 Oracle MS SQL File 서버 1 File 서버 2 File 서버 3 인터넷 에이전트수집 DB Gate Way Index file dispatcher 색인 색인파일 색인기 색인파일 통합색인기 색인파일 색인기 검색 & 통합검색 사용자 질의기 통합질의기 질의기 사용자 질의기 12 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

R 3. 검색시나리오분석 통합검색시나리오 (2) EDMS GroupWare MS SQL L O C A L EDMS Interface EDMS 질의기 GroupWare API GW 질의기 Oracle D A T A 색인기 로컬색인파일 로컬질의기 File 서버 1 File 서버 2 B R O K E R 통합색인파일 통합질의기 메타질의기 인터넷 13 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 진보된검색기술개요 검색기술 내용 자연어검색자동분류지식검색시각화지능형에이전트 지식베이스를기반으로질의어와가장유사한질의어를통계적인기법이나퍼지이론을통해서결과를제시한다. 문서들간의키워드가중치나위치정보를기반으로유사도를기반으로관련된문서들을그룹핑하여목차를생성시킨다. 사용자들의정보나문서에추론엔진을결합시켜서새로운정보를생성하고검색할수있도록제공한다. 검색결과의재현율이높은경우검색의효과가없어지기때문에다양한시각화기법을통해서체감정확도를높을수있도록한다. 하나의시스템에서검색을완료하는것이아니라다른에이전트들과의협력을통해서최종적인결과를구해낸다. 14 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 시각화 (Visualization) 통합 View 를통합정확율향상 지식검색에서가장상단에위치한기술 HCI 를기반으로한사용자인터페이스제공 Knowledge map Cyber folder 와같이 KMS 에서주로사용되는형태 Knowledge broker 를통해서수집된지식을추론엔진또는학습엔진을통해서사용자에게개인화된모습으로서비스 Reference Brain Search : http://www.thebrain.com 3D Bot : http://www.3dbot.com/index1.html 15 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 자연어검색 (Natural Language Processing) 지능형검색기술중상용화에성공한모델 1단계 : 실시간형태소분석을통한불리언치환모델 대표적인 1단계자연어검색모델 : 엠파스 2단계 : 지식베이스를구축한뒤퍼지집합을이용한모델 AskJeeves, Autonomy, DataWare, Excalibur 가장진보된자연어검색엔진 : Autonomy 사의 AgentWare DRE(Dynamic Reasoning Engine) 동적추론엔진내장 문장을파싱하여문맥을분석하여키워드기반의의미추출 조건부확률 (Bayesian) + 신경망 (Neural Network) 기술이용 개인화를바탕으로사용자에게가장적합한결과를제시 16 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 자연어검색엔진서비스들 http://www.askjeeves.com http://www.autonomy.com 17 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 문서자동분류 (Document Clustering) Clustering 기술이란 정보나지식들의내부를의미단계에서분석하여관련성이높은정보들끼리그룹을만들어주는기법 Clustering 기술의분류 Off-line clustering 기업내부에존재하는수많은정보와지식은정리되어있지않다. 지식관리시스템을도입하기위해서는사전작업으로반드시기존지식에대한분류작업은필수적이라할수있다. On-line clustering 인터넷상의정보를실시간으로수집하는과정에서동시에많은정보를주어진시간내에원하는방식으로분류해준다. 18 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 Clustering Engine의구조 Clustering 문제접근방법 문서들간의유사도를어떻게수치화할것인가? 어떤기준으로문서를분할할것인가? 문서간의유사도구하기 기하학적인입장에서각문서사이의거리를구하는방식 문서를단어의가중치벡터로재구성 통계적인기법을이용하여빈번히발생하는단어는제외 벡터의길이에의해정규화하는과정이중요하다. 단어의위치, 단어사이의간겨, 순서등이빈도수보다더중요 자주사용되는유사도함수 Dice 계수, Jaccard 계수, Cosine 계수 19 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 적당한수의클러스터로분류하기 적당한임계치를설정하고이를기준으로군집을판단 결과의유형에따라비계층적기법과계층적기법으로구분 비계층적기법을이용한 Clustering 계층적기법에비해서계산량이적어속도가빠름 Partitioning : 전체데이터집합을분할 Criterion : 미리정의된기준이최적이되도록문서를재배치 비계층적 Clustering 방법들 Single Pass Reallocation 20 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

4. 진보된검색기술 계층적기법을이용한 Clustering 문서의중첩을허용하며최종적으로모든데이터의집합이연결돼합쳐지는형태 Dendrogram : 계층적 Clustering 을트리모양으로나타낸것 계층적 Clustering 방법들 Single link Complete link Group average link 최소분산기법 Centroid 기법 Median 기법 클러스터구조의갱신 동적인데이터집합구조에의해기존데이터의빠른추가 / 삭제가필수적이다. ( 향후연구과제 ) 21 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

5. 차세대검색기술 MAP 기반검색엔진 방사사고 (Radiant Thinking) 의형상화 ' 중심체로부터사방으로뻗어나간다 ' 는의미를지닌방사사고의표현 인간의두뇌에는약 100 억개의뉴론이연관성을가지면서존재 정보의 MAP 각문서의중요문구에대한유사도형성 각문서에대한유사도를기준으로문서의 Grouping 각 Group의관계형상화 22 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

5. 차세대검색기술 개인화된검색엔진 개인화 (Personalization) 효과적으로개인의성향에맞는검색 Relevance feedback Filtering System 사용자의성향을 interest profile 을통해서분석 Short-term user models 한번의검색으로사용자성향파악 Long-term user models 여러번의검색으로사용자성향파악 23 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

5. 차세대검색기술 Relevance feedback 개인화를위해서는반드시필요 그러나사용자로부터 relevance information 을얻어내기어렵다 Query expansion techniques 부분적으로사용되는 relevance feedback Language Models Relevance feedback 를정의하기위한언어필요 Optimal query( Salton, 1968) Bayesian classification model of retrieval (Van Rijsbergen, 1979) 확률에기반한모델제시 (Ponte 2000) 24 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

5. 차세대검색기술 추론엔진 (Inference Engine) Inference Engine 기구축된지식을이용해서새로운지식에대한추론을한다. General Logic based Inference Engines, 알고리즘을사용하는 inference Engine General Logic based Inference Engines Higher Order Logic Full first Order Logic Description Logic Datalog and Logic Programming 25 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.

5. 차세대검색기술 알고리즘을사용하는 inference Engine Problem Solving Methods Knowledge Based Systems 에서사용되는알고리즘 expert systems 에서실제로추론함수로사용된다 26 / Copyright(c) Copyright 2000 2001 WAKANO MetaWise, Inc.