DBPIA-NURIMEDIA

Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

정보기술응용학회 발표

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

R을 이용한 텍스트 감정분석

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

03-최신데이터

Next Generation Search Engines ( 차세대검색엔진의발전방향및전망 ) 박민우

07.045~051(D04_신상욱).fm

2 차원단위블록정렬을이용한 내용기반이미지매칭 장철진 O 조환규부산대학교컴퓨터공학과 {jin, Content-based image matching based on 2D alignment of unit block tessellation C

I

Microsoft PowerPoint - kimswld ppt

[Brochure] KOR_TunA

Chap 6: Graphs

김기남_ATDC2016_160620_[키노트].key

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

±è¼ºÈñ.hwp

ICT EXPERT INTERVIEW ITS/ ICT? 차량과 인프라 간 통신(V2I) Nomadic 단말 통신(V2P) 차량 간 통신(V2V) IVN IVN [ 1] ITS/ ICT TTA Journal Vol.160 l 9

°í¼®ÁÖ Ãâ·Â

박선영무선충전-내지

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

ProQuest Congressional 미국연방의회의법률제정및개정관련정보, 청문회정보, 상하원의원들에 대한정보, 위원회자료, Code of Federal Regulations, U.S. Federal Register, 정책관련뉴스등에대한검색이가능한데이터베이스입니다.

3. 네이버검색 제 3장에서는네이버검색서비스에대한내용을살펴본다. 네이버검색은네이버에서가장대표적인서비스이다. 네이버검색서비스는계속진화하여다양하고정교한검색방법을제공하고, 다양한영역에서추출된검색결과를제공하고있다. 특히다양한영역의검색결과를한꺼번에보여주는 통합검색 방식은네이버검

PowerPoint 프레젠테이션

의정연구_36호_0828.hwp

SchoolNet튜토리얼.PDF

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Ch 1 머신러닝 개요.pptx

PowerPoint 프레젠테이션

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

<B3EDB4DC28B1E8BCAEC7F6292E687770>

¼º¿øÁø Ãâ·Â-1

Microsoft Word - ijungbo1_13_02

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

<C1F6BDC4B0E6BFB5BFACB1B83136B1C734C8A33132BFF92E706466>

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

DBPIA-NURIMEDIA

ICT À¶ÇÕÃÖÁ¾

차 례... 박영목 **.,... * **.,., ,,,.,,

문헌분류이론 13 주차 ( 김유영 / ) p. 2 {0/1990/NU/S+ +4/ 년 /NN/S}; 10월 {6/10/NU/S+8/ 월 /UM/S}; 팀 {10/ 팀 /NN/S}; 버너스 {12/ 버너스 /NR/S}; 리에 {16/ 리에 /NR/S}; 의

2017 년 1 학기 공학논문작성법 (3 강 ) 공학논문작성방법개요 좋은공학논문작성을위해서는무엇이필요한가? (1) 논리적이고정확하게글쓰기 (2강내용에연결 ) (2) Abstract 작성법의예

<333820B1E8C8AFBFEB2D5A B8A620C0CCBFEBC7D120BDC7BFDC20C0A7C4A1C3DFC1A42E687770>

MVVM 패턴의 이해

歯목차45호.PDF

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

À±½Â¿í Ãâ·Â

<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

Database Applications - 멀티미디어 데이터베이스 – 제6장 텍스트 색인과 검색

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

C# Programming Guide - Types

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

로거 자료실

이베이를 활용한 B2C 마케팅_한국무역

<33312D312D313220C0CCC7D1C1F820BFB0C3A2BCB12E687770>

(5차 편집).hwp

06_ÀÌÀçÈÆ¿Ü0926

<5BB9E8C0E7B4EBC7D0B1B35DBFACB1B8BAB8B0EDBCAD2DC3D6C1BEC3E2B7C22E687770>

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

DBPIA-NURIMEDIA

DW 개요.PDF

Art & Technology #5: 3D 프린팅 - Art World | 현대자동차

Windows 10 General Announcement v1.0-KO

목차 I. 검색엔진의 발전 II. 개인화 서비스 III. 검색 개인화 IV. 오픈베이스의 개인화 검색 V. 결론 검색의 진화와 개인화의 역할 KM&ECM CONFERENCE

<91E6308FCD5F96DA8E9F2E706466>

여행기

untitled

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

기본소득문답2

1

4장 질의 언어

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

Microsoft PowerPoint 웹 연동 기술.pptx

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

슬라이드 제목 없음

2002년 2학기 자료구조

04서종철fig.6(121~131)ok

1) 인증서만들기 ssl]# cat > // 설명 : 발급받은인증서 / 개인키파일을한파일로저장합니다. ( 저장방법 : cat [ 개인키

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

DBPIA-NURIMEDIA

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

쉽게 풀어쓴 C 프로그래밊

슬라이드 1

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API


1장. 유닉스 시스템 프로그래밍 개요

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

Figure 1: 현존하는 정적 분석 기술의 한계와 본 연구의 목표. 이러한 허위경보(false alarm)를 가질 수 밖에 없는데, 오탐율(전체 경보중 허위경보의 비율)이 정확도의 척도가 된다. 유용한 정적 분석기는 충분히 낮은 허위경보율을 가져야 한다. 대형 프로그

Main Title

EndNote X2 초급 분당차병원도서실사서최근영 ( )

SIGIL 완벽입문

, (, 2000) (public management),,, ( ), (Parasuraman, 1988), Lacobucci(1996) (consumer evaluation),,, ( ) ( E x p e c t a t i o n ) (, 2001) Parasurama

Microsoft PowerPoint - e-biz-05.ppt

.....hwp

PowerPoint 프레젠테이션

on ScienceDirect User Guide

Transcription:

정보검색기술의현황과발전방향 한국정보통신대학교맹성현 * 1. 서론정보검색기술은거의 40년전부터미국코넬대학의 Salton 과영국케임브리지대학의 van Rijsjbergen 및 Sparck Jones 등초창기선구자들을중심으로기초가세워지고 ACM 에서는약 30년전에 SIG(Special Interest Group) 로인정받은후독립된학문분야로꾸준히발전되어왔다. 1968년에출간된 Salton 의책 [1] 에서는정보검색을 정보의구조, 분석, 조직, 저장, 탐색 (searching), 검색 (retrieval) 에관한분야 로정의하고데이터베이스시스템과질의응답시스템도포함시키고있다. 인터넷과더불어디지털화된텍스트의양이급증하고정보형태및정보에대한요구형태가다양해지면서 1990년에들어정보검색에관한관심은폭발적으로증가하였고, 웹서치엔진이등장하면서일반대중에게도널리알려지게되어독립된검색엔진으로서혹은지식관리시스템이나스팸메일필터와같은다양한지식정보시스템의요소기술로서매우보편화되어있다. 국내에서정보검색기술에대한연구개발이본격적으로시작된것은 1990년대초라고할수있는데, 정보검색이텍스트검색혹은문서검색으로간주되는상황에서바로해결되어야할문제는한국어처리와관련된문제이었기때문에문서의색인을위한형태소해석기술의개발에많은시간과노력이집중되었다. 이후웹검색엔진의상업화바람에힘입어색인, 저장, 검색결과랭킹과같은기초기술및엔지니어링기술에급격한발전이이루어졌으나, 상업화에치중한결과첨단기술개발은등한시되었고연구활동이언어처리혹은데이터베이스기술의한영역으로서수행되어집중적인핵심첨단기술의개발이미흡한실정이다. 다만몇몇연구자들이세계와어깨를겨룰수있는기술을발표하고있는것은집중적인투자가이루어지는경우이분야의핵심 * 종신회원 에서선도적인역할도할수있다는가능성을보여주고있다. 본논문의목적은이러한시점에서정보검색기술에관심을갖는연구자들이이분야를이해하고발전방향을예측하여국내에서의정보검색기술개발및활용이보다체계적으로이루어지도록일조하는데있다. 기술의발전방향을예측하는데있어서의객관성을최대한유지하기위해 2002년말에미국 ARDA 의후원으로매사추세츠대학에서열린미래정보검색기술개발에대한워크샵의토의내용 [2] 을반영하였다. 2. 정보검색분야별기술현황 2.1 검색모델검색모델은검색프로세스및여기에관여하는엔티티 ( 문서내용, 질의, 사용자등 ) 를어떻게표현하는가를결정하므로, 검색기의기능및성능에직접적인영향을준다. 즉사용자의질의가찾는정보를개략적으로표현하고있고문서의내용도색인형태로개략적으로표현될수밖에없으므로검색프로세스는원천적으로불확실성을내재하고있는데, 이를고려한검색모델이필요한것이다. 정보검색모델은찾아야할정보를명확히기술할수있는질의어를가지고있는정형데이터검색용데이터베이스분야와의차별성을분명하게보여준다. 초기시스템의기반이되었고현재웹서치엔진에서도반영되고있는불리언모델은질의용어를포함하고있는문서의집합을구성한후불리언연산자를사용하여다수의집합을통합한후최종검색결과를결정하는모델이다. 그후 1970년대에소개되어꾸준히발전되어온벡터공간모델은현재까지도많은시스템에서사용되고있는모델로색인어로이루어진좌표공간에서문서와질의를벡터로표현한후그벡터간의유사도에의해검색결과를결정하고랭킹한다. 검색모델에있어서이론적으로가장튼튼한기반을가지고있는것은확률모델이라할수있다. 주어진질의에대해특정문서가적절할확률을구해서문서를랭 6 2004. 4. 정보과학회지제 22 권제 4 호

킹하는방법에기초를둔이모델은오랜동안연구가되어왔는데, 모델에출현하는확률값및파라메터를어떻게추정할것인가에따라그성능이달라진다. 1990 년도초반에개발된추론망기반모델 [3] 과 1990년도중반에개발된포아송분포기반랭킹모델 [4] 은모두 TREC(Text Retrieval Conference) 의평가대회에서매우우수한성능을보여주었다. 또한최근에많은연구가이루어지고있는언어모델 (Language Model)[5] 도문서와컬렉션의통계량을체계적인방법으로반영하는확률기반모델의하나로서다양한데이터소스나검색기능을포함해야하는미래의검색시스템개발에가장적절한모델로각광을받고있다. 이외에도퍼지 (fuzzy) 집합기반모델 [6], p-norm 모델 [7], 개념그래프 (conceptual graph) 기반모델 [8], 논리기반모델 [9], 잠재의미색인모델 [10] 등검색대상및목적에따라다양한검색모델이제시되었다. 정보검색프로세스및엔티티를보는관점에따라제안된이모델들은나름대로의장점을가지고있는데, 향후에는현재보다훨씬다양한정보형태및검색태스크를만족시키기위한모델의개발이필요하게될것이다. 체계적인검색모델없이필요한기능이주먹구구식으로기존시스템에반영된다면그성능을예측할수없을뿐만아니라확장및성능향상에도한계를가지게되는것은자명한일이다. 2.2 색인및저장정보검색에서다루는데이터는모두비정형성을가지고있다. 즉 DBMS 에서와같이테이블형태등으로구조화되어있는데이터를대상으로검색하는것이아니기때문에, 문서나이미지와같은비정형데이터로부터그내용을대변하는색인어를추출하여효율적인검색이이루어지도록해야한다. 특정정보항목을대변하는색인어집합은그정보항목의내용을충실히반영하면서동시에다른항목과의차별화가되도록선정되어야한다. 텍스트를색인하는경우현재정보검색기술의수준에서는대개단어혹은구 (phrase) 를사용하고이들을총칭하여용어 (term) 라고부른다. 로마자기반언어권에서의용어자동추출은비교적수월하여단어를단위로할때의기술은대부분이미안정화되어있다. 다만구를추출하거나단어의중의성해소를통해의미단위색인을하는기술의개발은아직도진행중이다. 반면에한국어, 중국어와같은비영어권에서는텍스트를분석하여형태소와같은의미를가진최소단위를추출하는작업이쉽지않아아직도기술개선의여지가많이남아있고자연언어처리기술이가장많이공헌하고있는분 야이다. 색인어추출외에고려할사항은추출된색인어의가중치계산및저장기술이다. 가중치계산은검색결과랭킹즉검색효과에직접적인영향을주므로지속적인연구가진행중이다. 대부분용어빈도 (TF: term frequency) 와역문헌빈도 (IDF: inverse document frequency) 와같이용어관련빈도에의존하고있으나, 두개의포아송분포를사용하는방법등새로운통계량을사용하는방법과특정용어가가지고있는구문적역할을비롯한언어지식을활용하는기술도개발되고있다. 색인어저장기술은검색의효율성을고려하여역색인 (inverted index) 구조가가장보편적으로사용되고있다. 웹검색의경우와같이대용량자료를색인해야하는경우가많아지면서역색인구성과정과질의에대한검색을효율적으로수행하는기술이상용시스템개발과정에서중요한자리를차지하게되었다. 역색인구성시파일입출력을최소화하기위한기술혹은역색인검색시디스크접근회수를최소화하기위해압축 / 복원방법등은특히상용시스템이나대용량실험을위한시스템개발에매우유용한기술이다. 2.3 사용자시스템상호작용웹서치엔진을비롯해서모든정보검색시스템의검색결과에원하지않는문서가포함되어있는근본원인은크게두가지로볼수있다. 첫번째는색인이원천적으로문서내용을그대로대변할수없다는것이고, 두번째는시스템이처리해야할질의가사용자의정보요구를제대로표현하지못하고있기때문이다. 이렇게불충분하고불확실한정보를어떻게연결시켜야하는가가매칭혹은유사도계산의문제이다. 현재의기술수준에서이러한상황을극복하는방법은정보검색의문제를단순히컴퓨터시스템이모두해결해야하는것으로보지말고, 컴퓨터시스템과사용자의협업을통해해결해야하는것으로보는것이다. 즉사용자가시스템에자신의정보요구를전달하는채널이제한되어있는상태이기때문에상호작용을통해서점증적으로시스템에게원하는바를전달할수있도록해야한다. 관련된대표적인기술로적합성피드백 (relevance feedback) 을들수있다. 이기술은사용자가자신의초기질의에대한검색결과를보고각문서에대한적합성여부를표시하면시스템이초기질의를수정하여다시검색을수행함으로써적절한문서의수를증가시키고부적절한문서의수를줄이도록한다. 여기서중요한것은적절한문서와부적절한문서의내용을어떻게분석하여초기질의를어떻게수정하도록하는가이며 Roc- 정보검색기술의현황과발전방향 7

chio 의방법 [11] 이대표적이다. 사용자의직접적인적합성피드백정보없이질의를확장하는방법으로의사피드백 (Pseudo-feedback) 기술이개발되었다. 여기서는검색결과중순위가높은문서는일반적으로적합하다는가정하에문단으로나눈상태의검색결과에서상위문단에출현하는개념어의가중치를계산하여차기질의에반영하는데, 이때지역정보와전역정보를동시에사용하여계산한다 [12]. 이외에사용자프로파일을이용하여사용자의정보요구를간접적으로파악함으로써검색효과를향상시키는방법이있다. 사용자혹은사용자그룹이가지고있는관심사를용어형태로저장한후시스템에질의가입력되었을때이를관심사에입각하여해석함으로써검색효율을향상시킬수있다 [13]. 이기술은현재웹검색에원용되고있는데실제입력된일반사용자의질의를일정기간수집하여분석을한후성향을파악하여인기있는검색어를추천한다. 개별사용자가아닌전체사용자그룹을모델링한다는면에서매우단순한방법이지만, 나아가서는특정검색어 ( 질의 ) 에대해검색된문서중어느문서를사용자가클릭하였는지를통계적으로분석하여랭킹을하는기술도개발이될것이다. 2.4 웹검색웹서치엔진기술및디렉토리기반정보서비스포탈은정보검색분야를대중화시킨요인이되었고, 일반인을위한대용량정보검색기술을발전시키는주요동인이되었다. 웹서치엔진의경우매우짧은질의에비해상대적으로많은양의정보를대상으로검색을해야하는어려움이있지만일반문서에는존재하지않은링크및앵커그리고추가적인구조정보가있다는특성을반영한새로운기술이개발되고있다. 특히하이퍼링크정보를이용하는페이지랭크기술은상업적인성공을가져다주었다. 웹검색과관련된새로운기술영역으로크롤링 (crawling) 기술을들수있다. 분산되어있는무수히많은컴퓨터에저장되어있는문서를수집하여색인하는이기술은어느부류의문서를얼마나빨리수집하여검색대상에포함시키는가에우위가결정된다. 이기술을상업적인면에서볼때초대용량의문서를수집, 저장, 서비스하는데있어발생하는엔지니어링문제를어떻게해결하는가가중요하다. 웹검색에국한되는기술은아니지만, 검색결과너무많은문서가사용자에게반환되기때문에이를정리해서결과를제시함으로써정보의과부하를줄이고사용자가원하는문서에신속하게접근할수있도록하는기술이 각광을받고있다. 일반적으로클러스터링기술을사용할수있으나속도를개선함과동시에정확성을유지해야하는어려움이있다 [14]. 웹검색의일환으로개발된메타검색 (meta-searching) 은사용자질의를웹서치엔진으로보낸후검색된결과를받아통합하여사용자에게제시하는기술이다. 검색서비스를제공하는데있어웹크롤러나초대용량문서에대한색인을구축할필요가없다는장점과효과적인통합이이루어질경우다양한원천으로부터검색될결과를활용한다는면이매력적이긴하나, 기존시스템의협력이없이는운영이불가능하다는한계를가지고있다. 그러나다양한알고리즘으로생성된랭킹과서로다른문서집합을통합하여양질의단일결과를생성하는것은기술적으로중요한문제이며아직해결해야할과제로남아있다. 2.5 자동분류및필터링텍스트나멀티미디어객체를이미정의된범주로분류하는기술은다양한분야에서그응용을찾을수있다. 예를들어전자메일을스팸메일과그렇지않은메일로분류하는기능을들수있는데, 이응용은동적으로유입되는문서를사용자가원하는것만선별해주는좀더일반적인필터링문제와동일하다. 자동분류의경우범주의개수가매우많을수도있고웹포탈의디렉터리서비스에서사용되는것같이범주가계층적으로분류되어있는경우도있다. 지난 10년간많은연구가진행되어상용화가가능한기술이되었다 [15]. 자동분류기술은대부분지도학습 (supervised learning) 방법을사용한다. 즉학습단계에서이미범주가결정된정보항목들로부터각범주별특성을표현하는자질 (feature) 을자동적으로추출한후새로운항목이어느범주에속하는가를결정하는기계학습방법을사용한다. 이방법은사용자가직접각범주별규칙을생성해야하는어려움을덜어준다. 가장많이연구되고또현재사용되고있는방법으로단순베이지언 (Naïve Bayesian) 분류기, k-nn, 결정트리 (Decision Tree), 지지벡터기계 (Support Vector Machine) 모델, 벡터기반유사도계산방법등이있는데이들에대한비교평가에서지지벡터모델이일반적인우위를차지하고있는것으로알려져있다 [16]. 그러나학습데이터의종류나규모그리고범주의특성에따라각각장단점이있어지속적인연구가요구된다. 자동분류기술을실제문제에적용하는데있어서의최대걸림돌은범주가이미결정된학습데이터를수집하는것이다. 즉상당한양의정보항목에대한범주를 8 2004. 4. 정보과학회지제 22 권제 4 호

수작업으로할당해야만분류기가작동될수있다. 이문제를극복하기위해클러스터링방법등을이용해범주가정해지지않은데이터를사용하는방법, 의사피드백 (pseudo-feedback) 방법, 동시학습 (co-training) 등의기술이개발되고있다. 분류의대상으로웹문서가중요한자리를차지하면서새로운자동분류기술이개발되고있다. 웹문서가갖는특징은하이퍼링크와같은일반문서에존재하지않는추가적인정보가존재한다는것이다. 분류에있어주어진페이지와하이퍼링크로연결된주변페이지를활용하는기술 [17] 은하이퍼텍스트에존재하는새로운정보를이용한예이며웹문서를특정페이지와그와연결된페이지를통틀어하나의문서로간주하는새로운관점을보여준다. 한편웹페이지의경우매우뚜렷한목적을가지고생성이되는데이러한목적을범주로하는장르범주기반분류기술도개발되어 [18], 문서의내용뿐만아니라새로운기준에의한문서분류의가능성을보여주고있다. 정보접근의경로를다변화시킴으로써궁극적으로는검색의효과를높일수있다는면에서다양한차원에서의분류기술이개발되어야할것이다. 2.6 주제탐지및추적주제탐지 / 추적 (TDT: Topic Detection and Tracking) 은주어진사건과연관된기사를추적하고새로운사건에대한기사를탐지하는목적으로최근에정보검색의새로운응용분야로부상하였는데 [19], 기술적으로보면자동분류및클러스터링의한지류라고할수있다. 사건기사의특성은일반문서와비교하여특정시간및장소가명시되어있는데이러한특성을자동분류및클러스터링기법에적용시켜추적기술이개발되었다. 추적기술이일반자동분류나필터링기술과다른점은크게두가지이다. 첫째, 두기사의내용이유사하더라도동일사건에대한보도가아닐수있다는것과, 둘째, 추적을위해사용되는단서기사의수가매우적어서 ( 시작시한건 ) 학습기반방법을적용하기어렵다는것이다. 전자의경우각기사에존재하는시간과장소정보를사용하여이문제를극복하는기술이개발되고있고, 후자의경우단서문서와과거기사전체와비교하여차별화되는자질을추출하여사용하는방법을쓰고있다. 최초기사탐지 (First Story Detection) 는과거에보도되지않은새로운사건에대한기사를탐지하는문제이다. 이기술은새로운사건의발발을최대한신속히탐지해야하는보안이나경제분야에매우유용하게사용될수있다. 그러나이기술은과거모든사건과비교 하여새로운사건이라는것을판단해야하고, 때로는이미보도된사건일지라도특정사용자에게새로운사건인경우도있어, 고난도의기술을요구한다. 2.7 자동요약자동요약은주어진문서혹은문서집합으로부터핵심내용을정리하여사용자에게제시함으로써정보의과부하를방지하고보다효율적인정보습득을가능하게한다. 자동요약기술의목표는주어진문서의내용이무엇인지판단하는정도의요약, 주어진문서에포함된내용을최대한충실히담아내는요약, 주어진문서의내용에대한평가의생성등다양하게설정될수있고, 이목표에따라적절한기반기술이적용되어야한다 [20]. 현재상용화수준에와있는기술은대부분핵심키워드추출이나핵심문장을추출하여제시하는방법으로, 핵심문장을예고하는문장성분을활용하는방법 [21, 22], 핵심주제어혹은주제문장을찾아낸후이와연결된문장을추출하는방법 [23] 등이사용되고있다. 추출된문장의자연스러운연결을위해대용어처리등자연언어처리기술의접목이필요하다. 문장추출수준의자동요약에는한계가있으므로보다심층적인문장분석을통해인간이작성하는수준의요약을생성하는기술의개발이필요하다. 개별문장이가지고있는의미를표현하고통합하여문서전체의의미를지식표현언어로표현한후핵심내용이요약된문장을생성하는단계를거쳐야하는데 [24], 특정영역에한정된응용이가능하나자연언어처리기술의발전이선행되어야하고보다정보검색분야와자연언어처리분야의협력이필요한분야이다. 2.8 질의응답현재연구개발이이루어지고있는질의응답시스템은자연언어로기술된질문을받아맥락정보가포함된사실 (fact) 을답으로제공하는것이주류를이룬다. 이는과거인공지능분야에서다루어왔던시스템과는달리지식기반추론과정없이주어진텍스트자원으로부터필요한답을식별하고필요하면여러정보자원으로부터의답을통합하는과정을거친다. 예를들어 백두산의높이는? 라는질문이들어왔을때, 그답을텍스트에서추출하거나그답이들어있는일정크기의텍스트를제공한다. 일반적인접근방법은자연언어처리기술을적용하여질의의유형을분류하고, 질의에포함된키워드를추출한후, 그키워드를사용하여정보자원으로부터답을포함하고있을만한문서혹은문단을먼저검색한다. 정보검색기술의현황과발전방향 9

분류된질의유형에따라정답의형태를결정하고이런형태의정답이존재할만한문장및문서를패턴매칭에의해찾아나간다. 여기서문제의유형과답안의유형에대한시소러스나지식베이스를사용하게되는데이들의완성도와품질이답안의정확도를좌우한다. 또한질의및문장의부분에대한자연언어처리기술이시스템성능에많은영향을미친다. 2.9 교차언어검색교차언어검색 (Cross Language IR) 은질의를표현한언어와문서에사용된언어가다른경우의검색을지칭한다. 흔히자국어로질의를표현하여외국어로쓰여진문서를찾거나여러가지언어로기술된문서를찾는경우사용되는데, 후자의경우는특히다중언어검색 (Multilingual IR) 이라한다. 교차언어검색에서흔히사용되는방법은사용자질의를문서에사용된언어 ( 목적언어 ) 로변환을하는것이다. 이를위해사용되는기술은대역어사전을통해원시질의어에나타난단어혹은구를목적언어로번역을하는것이가장보편화된방법인데, 원시단어및구의의미상의애매성을분별하여적절한번역어를찾는기술과번역된단어및구에가중치를계산하는기술이개발되었다 [25,26]. 사전이존재하지않거나사전이불충분한경우, 병행코퍼스 (parallel corpus) 나비교코퍼스 (compatible corpus) 를사용하여코퍼스에서대역어를찾아내거나직접적인대역어는아니더라도원시질의를대변하는질의를생성하는기술도개발되었다. 여러가지통계량을사용하거나기계번역분야에서개발된문장배열 (alignment) 방법을적용하기도하고, 잠재의미색인 (latent semantic indexing) 에서사용된방법을적용하여원시언어및목적언어가공존하는공간을구성하여원시질의단어와의미적으로가까운목적질의단어를선택하는방법 [26] 도개발되었다. 교차언어검색기술의완성도는동일한질의에대하여단일언어검색결과의성능과비교하여몇퍼센트까지도달하는가의척도를사용하는데, 그동안많이연구된언어쌍에대해서는단일언어검색성능과유사한결과를보이고있다. 다만새로운언어쌍에대한기술개발이필요하며, 오히려교차언어검색에사용되는자원을이용하여단일언어검색의효과를향상시키는방향으로기술개발이진행되고있다. 다중언어검색의경우는다양한언어로쓰여진문서가각각검색되었을때이들을효과적으로통합하는문제가생기는데이에대한지속적인연구가필요하다. 교차언어검색은스위스, 캐나다, 싱가폴등다국어를사용하는국가나다국적기업등에서필요성이많이대두되었고, 또인터넷에존재하는문서의절반이상이영어가아닌언어로작성되어있어이를활용하기위한기술로발전이되었다. 비록연구관점에서단일언어수준의검색결과를생성할수있다고는하나, 이기술이실제로사용되기위해서는사용자와의상호작용에다양한장치가필요하게된다. 예를들어검색된결과문서의내용을자국어로요약하여제시함으로써완전번역과정을거칠문서를선별하게해주거나, 질의생성시혹은검색과정에서생기는피드백을자국어로지원하는장치등은교차검색시스템의실용화에필수적일것이다. 2.10 분산검색원천 (source) 데이터가분산되어있는상황에서의검색은데이터가중앙에집중되어있는경우에고려할필요가없는다른문제를안고있다. 분산검색상황을크게보면두가지로대별할수있다. 웹에서의메타검색과같이동일데이터를대상으로분산검색한후결과를통합하는경우가있는데이를데이터퓨젼 (fusion) 이라하고, 분산저장소에서로다른데이터가있어사용자질의처리시검색데이터소스의선택, 질의변환, 검색결과통합을수행해야하는경우를컬렉션 (collection) 퓨젼이라한다. 데이터퓨젼에서는일반적으로각각의소스에서검색된결과에적합성점수가존재하므로각소스로부터의적합성점수범위를정규화 (normalize) 하여타소스로부터의검색결과와비교가가능하게한후랭킹을통합하는방법을사용한다. 컬렉션퓨전에있어서의결과통합은데이터원천이다르기때문에각컬렉션마다통계량과검색방법이상이하다. 따라서결과통합에있어서점수범위를정규화하는방법보다는각컬렉션이질의에적절한문서를포함할확률값을계산하여그확률에따라편향된라운드로빈형식을사용하기도한다 [27]. 컬렉션퓨전의경우질의를보낼컬렉션을선정해야하고각컬렉션에서검색이된후결과를통합해야한다. 일반적으로각검색기에서허용하는컬렉션관련정보가제한되어있기때문에외부에서관찰가능한정보를사용하여야하는데, 각용어가각컬렉션에서갖는문헌빈도수와각용어의컬렉션빈도수즉특정용어가출현하는컬렉션의수를활용하여검색대상컬렉션을랭킹하는방법 [28] 이있다. 분산검색결과의정확성측면이외에실용시스템에서해결되어야할문제는검색속도이다. 다양한하부검색시스템마다의속도가근본적으로다르기도하고질 10 2004. 4. 정보과학회지제 22 권제 4 호

의에따라혹은시간대에따라사용자가느끼는검색속도가변하기때문에통합되어야할검색기의개수가많은경우통합검색기의속도는항상가장느린검색기보다늦어지게된다. 이를해결하는방법으로시간제한을둘수있으나이경우특정검색기의결과를수용못하는결과를초래해같은질의에대해일정하지못한결과를사용자에게제공하게된다. 이외에엔지니어링문제가존재하는데, 예를들면각검색기의질의인터페이스나검색결과인터페이스가변하는경우통합기도수정되어야한다. 이러한상황에서수작업을최소화하고동시에새로운검색기를통합할경우의수작업도최소화하는방법으로프로토콜에기반한분산통합기기술도개발되었다 [29]. 2.11 멀티미디어검색정보검색기술의발전이대부분텍스트검색에집중되었으나, 최근에멀티미디어컨텐츠의생성및활용이급증하면서멀티미디어색인, 검색, 가공기술에대한관심이높아지고있다. 색인 / 검색대상이되는멀티미디어객체는소리 ( 예 : 음악, 음성 ), 이미지 ( 예, 사진, 클립아트, 스캐닝된문서 ), 비디오 ( 예 : 디지털 TV, 보안카메라출력, DVD) 등이있는데종류에따라이들로부터색인을생성하고검색하는기술의종류와수준이매우다양하다. 멀티미디어검색을위한접근방법은크게네가지경우로나누어볼수있다. 1) 비디오자료의캡션과같이멀티미디어객체에연관된텍스트가이미존재할경우사용하는접근방법 2) 음성인식이나문자인식등의기술을이용하여객체의일부를텍스트로변환할수있는경우의접근방법 3) 멀티미디어객체에대한메타데이터가수작업으로생성되어있는경우의접근방법 4) 자동적으로멀티미디어객체에대한자질을추출할수있는경우의접근방법 1) 의경우텍스트를기반으로색인생성이가능하므로텍스트기반정보검색기술을그대로적용할수있으나, 다른자질의추출이가능할때다중모달리티 (modality) 하에서의통합검색기술의개발이효과적이다. 2) 의경우인식결과에오류가항상존재하므로텍스트의경우보다색인의정확도가떨어질수밖에없다. 따라서이런오류에강건한검색모델의개발이중요하다. 3) 의경우메타데이터에의한검색은정형데이터및비정형데이터검색과동일하므로기존의기술을적용할수있지만, 메타데이터의생성시모든사용자의정보요구를만족시키는메타데이터스키마를구축할수없 다는한계를갖는다. 4) 의경우자질의자동추출은멀티미디어종류를불문하고고난도의기술을요구한다. 예를들어이미지로부터의자질추출은색상히스토그램 (color histogram), 객체의윤곽 (shape), 질감 (texture) 정도가가능하므로 [30] 주어진이미지와유사한이미지를검색하는데있어이들자질밖에사용할수가없다. 즉이미지가가지고있는객체간의관계나다양한관점에서의의미등을추출하는기술은아직매우미흡한실정이다. 자동으로추출된자질은오류를포함하고있거나검색목적에충분히부합되지않는경우가많으므로이방법은특정도메인이나응용에국한시켜사용되는것이대부분이다. 3. 전반적발전방향 3.1 기술발전위에서정보검색의세부기술별현황을기술하면서현재개발되고있거나가까운미래에해결되어야할기술적인문제는각각언급하였으므로, 여기서는정보검색분야를총체적으로볼때의중장기적발전방향을기술한다. 3.1.1 의미기반상세정보검색현재까지정보검색의발전은단어에대한통계적인모델을기반으로이루어졌다. 텍스트, 문장, 문장구성성분이가지고있는의미가명시적으로분석, 표현되어사용되기보다는통계적인방법으로동일한효과를얻어내는성과를이루었다. 미래에는자연언어처리기술이보다적극적으로적용되어양질의색인어를추출하는방법에만그치지않고, 텍스트및문장의구성요소를분석하여문서의내용을단어집합보다풍부한의미를내포하는형식으로표현함으로써보다정교한검색이수행될수있도록하여야한다. 위에서언급한자동분류, 질의응답혹은정보추출과같은텍스트마이닝기술이동원되어접목되는경우상세정보검색의실현을보다앞당길수있을것이다. 3.1.2 시맨틱웹서비스기술과의접목웹서비스는웹상에서다양한기능을가진서비스를표준적인방법으로정의하고존재를등록하게함으로써이들서비스를호출 / 연계하여필요한기능을구현할수있도록한다. 시맨틱웹은웹상의정보를의미에기반하여표준적인방법으로기술하도록하고이들간의의미적호환성을제공하여에이전트프로그램들이웹정보를활용하여사용자태스크를수행할수있도록하는환경이다. 시맨틱웹서비스는이들을통합한환경으로서비스에관한온톨로지와개념온톨로지를사용하여의미 정보검색기술의현황과발전방향 11

기반웹서비스를가능하게한다. 따라서다양한정보검색기능을웹서비스로정의하고이들간의의미적정보교환이이루어지게함으로써고차원의사용자정보요구를만족시킬수있다. 이러한환경이구축되기위해서는보다실용적인텍스트마이닝기술이개발되어현재웹문서에대한의미기반메타데이터가생성이되어야하고, 온톨로지가구축이되어야하며, 이들을활용하는검색기술이개발되어야한다. 이러한환경에서는분산통합검색문제가다루는검색시스템들간의호환성문제가자연스럽게해결될것이다. 3.2 산업전망정보검색및저장, 관리기술의대상시장은웹페이지검색및번역, 전자도서관자료검색등의서비스요구사항으로부터도출된멀티미디어정보검색엔진, 국제표준기반문서관리시스템, 상품정보검색, 디지털방송자료검색등의직접시장과이를활용하여형성되는디지털방송, 군사정보시스템, 교육정보화등응용시장으로나눌수있고이러한환경은그림 1과같다 [31]. 3.1.3 다중언어정보서비스웹과글로벌환경의발전에따라다양한언어로기술된정보의습득이어느때보다중요한역할을할것이다. 단순한교차언어검색기술을초월하여교차언어질의응답, 교차언어요약, 교차언어정보추출등의고급서비스기술이개발되어보다상세하고압축된정보를얻을수있게함으로써다중언어정보서비스의활용성을높일수있다. 예를들어검색된모든문서를번역서비스에맡기는것보다추출된상세정보만번역하는것이보다현실적인대안이될것이다. 3.1.4 사용자혹은태스크의맥락정보활용기술위에서언급한바와같이간단한사용자질의만을가지고사용자의정보요구에충실한양질의정보를제공하는것은매우어려울수밖에없다. 따라서사용자의속성, 선호도, 환경, 태스크등을모델링하여질의처리에반영함으로써보다적절한정보를찾아줄수있다. 3.1.5 멀티미디어검색기술멀티미디어데이터의양이급증하고그활용도가높아지면서멀티미디어데이터의메타데이터를생성하고주석을자동적으로붙이는작업에대한필요성이날로높아지고있다. 이러한기술의발전과더불어추출된자질이나메타데이터를활용한검색모델이개발되어야하고사용자태스크맥락에서의검색기술이적용되어야할것이다. 3.1.6 무선유비퀴터스환경에서의정보검색서비스무선장치의개발이급진전되면서피어간 (peer-to-peer) 네트워크가동적으로자유자재로형성이되는환경이도래하고있다. 이러한환경에서는새로운정보검색응용이창출될것이며이에대한기술개발이요구된다. 예를들어여행중현지에서가장가까운식당을찾거나현지일기예보를알아보기위해 PDA 로질문하고답을받을뿐만아니라특정유적지에도착했을때관련된정보를즉석에서받아볼수있는서비스는정보검색관점에서새로운도전을요구한다. 그림 1 정보검색시장응용분야는사회전분야에서정보화가이루어짐에따라정보검색관리시스템에대한필요성이제기되고있어매우다양하다고할수있다. 교육정보, 군사정보, 디지털도서관, 디지털방송, 유전자분야, 의료정보, 전자상거래, CRM 등의분야를들수있다. IDC 보고서 [32] 에의하면세계의정보검색시장은 2002년에 8억6 천만불의규모로조사되었으며, 2005년에는 263 억불의규모로성장하고연평균 49.7% 의높은성장률로시장이확대되어 2012년에는세계시장규모 443 억불의큰시장을형성할것으로예상된다. 4. 결론정보검색분야는웹의보편화및컨텐츠산업의발전과더불어기술적인면이나산업적인면에서국내외적으로급성장하였다. 기술관점에서전통적인검색분야뿐만아니라텍스트마이닝의대부분이정보검색의뿌리를가지고있다. 향후에도독립된분야로지속적인기술개발이이루어지겠지만, 학문간의간격이좁아지고융합기술에대한중요성이어느때보다강조되고있는현추세를볼때, 자연언어처리, 데이터베이스, 인공지능, 멀티미디어분야와의합작기술개발이활발하게진행될것으로보인다. 12 2004. 4. 정보과학회지제 22 권제 4 호

참고문헌 [ 1 ] G. Salton, Automatic Information Organization and Retrieval, McGraw-Hill, New York, 1968. [ 2 ] J. Allan et al. Challenges in Information Retrieval and Language Modeling. http://ciir. cs.umass.edu/irchallenges/presentations/ irchallenges428.pdf [ 3 ] H. Turtle & B. W. Croft, Evaluation of an inference network-based retrieval model, ACM Transactions on Information Systems, 9 (3), pp. 187-222, 1991. [ 4 ] Robertson, S.E. and Walker S., Some simple effective approximations to the 2-poisson model for probabilistic weighted retrieval, in Proceedings of the 17 th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 232-241, 1994. [ 5 ] J. Ponte & W. B. Croft (1998). A language modeling approach to information retrieval, in Proc. of the 21 st ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 275-281. [ 6 ] R. Baeza-Yates & B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison- Wesley. [ 7 ] Salton, G., Fox, E,, & Wu, H., Extended Boolean information retrieval, Communications of ACM, 26 (12), pp. 1022-1036, 1983. [ 8 ] S. H. Myaeng, S. H. & C. Khoo (1993). On Uncertainty Handling in Plausible Reasoning with Conceptual Graphs in Conceptual Structures : Theory and Implementation. H. D. Pfeiffer & T. E. Nagle, Springer- Verlag, 1993. [ 9 ] C. J. van Rijsbergen (1986). A non-classical logic for Information Retrieval, The Computer Journal, 29: 481-485, 1986. [10] S. Deerwester et al. (1990). Indexing by latent semantic analysis, Journal of the American Society for Information Science, 41 (6), pp. 391-407. [11] J. J. Rocchio (1971). Relevance feedback in information retrieval, in The SMART Retrieval System - Experiments in Automatic Document Processing (ed: G. Salton), Prentice Hall Inc., Englewood Cliffs, NJ. [12] J. Xu & W. B. Croft (1996). Query expansion using local and global document analysis, in Proc. ACM SIGIR Conference on Research and Development in Information Retrieval, Zurich, Switzerland, pp. 4-11. [13] S. H. Myaeng & R. R. Korfhage, R. R. (1990). Integration of User Profiles: Models and Experiments in Information Retrieval. Information Processing and Management, Vol. 26, No. 6, pp. 719-738. [14] O. Zamir & O. Etzioni (1998). Web Document Clustering: A Feasibility Demonstration, Proc. of the 21 st ACM SIGIR Conference on Research and Development in Information Retrieval, Melbourne, 1998, pp. 46-54. [15] F. Sebastiani et al. (2002). Proc. of the Workshop for Operational Text Classification Systems, held at the 25 th ACM SIGIR Conference on Research and Development in Information Retrieval, August, Tampere, Finland. [16] Y. Yang (1999). A re-examination of text categorization methods, Proc. of the 22nd ACM SIGIR Conference on Research and Development in Information Retrieval, August, Berkeley, CA, pp. 42-49. [17] H. J. Oh, S. H. Myaeng, & M. H. Lee (2000). A practical hypertext categorization method usiing links and incrementally available class information, in Proc. of the 22nd ACM SIGIR Conference on Research and Development in Information Retrieval, Athens, Greece, pp. 264-271. [18] Y. B. Lee & S. H. Myaeng (2002). Text Genre Classification with Genre-Revealing and Subject-Revealing Features, Proc. of the 25th ACM SIGIR Conference on Research and Development in Information Retrieval, Tampere, Finland, August, pp. 정보검색기술의현황과발전방향 13

145-150. [19] J. Allan (ed.) (2002). Topic Detection and Tracking: Event-based Information Organization. Kluwer Academic Publishers. [20] K. Sparck Jones (1999). Automatic summarizing: factors and directions, in Advances in Automatic Text Summarization (eds: Mani & Maybury), the MIT Press. [21] Kupiec, J., Pedersen, J., and Chen, F., A Trainable Document Summarizer, Proceedings of the 18th ACM SIGIR Conference on Research and Development in Information Retrieval, 1995. [22] S. H. Myaeng & D. H. Jang (1999). Development and evaluation of a statistically based document summarization system, in Advances in Automatic Text Summarization (eds: Mani & Maybury), the MIT Press. [23] R. Barzilay & M. Elhadad, Using Lexical Chains for Text Summarization, in Advances in Automatic Text Summarization (eds: Mani & Maybury), 1999. [24] K. McKeown et al. (1999). Generating concise natural language summaries, in Advances in Automatic Text Summarization (eds: Mani & Maybury), 1999. [25] G. Grefenstette (1998). The problem of cross-language information retrieval, in Cross-Language Information Retrieval (ed: G. Grefenstette), Kluwer Academic Publishers. [26] G. Grefenstette (ed.) (1998). Cross-Language Information Retrieval, Kluwer Academic Publishers. [27] E. Voorhees et al. (1995). Learning collection fusion strategies, Proc. of ACM SIGIR, Seattle, WA. [28] J. P. Callan et al. (1995). Searching distributed collections with inference networks, in Proc. of the 18th ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 21-29. [29] S. H. Myaeng, C. Jeong (2001), A Protocol-Based Architecture for Federated Searching in Digital Libraries, Proceedings of th 4th International Conference of Asian Digital Libraries, p116-p124. [30] M. Flickner et al. (1995), Query by image and video content: the QBIC system, IEEE Computer, 28(9). [31] 과학기술부 (2002). 국가과학기술지도. [32] IDC, Search and Retrieval Technologies Market Forecast, 2001. 9. 맹성현 1983 미국캘리포니아주립대학학사 1987 미국 Southern Methodist University(SMU) 석사및박사미국 Temple University 조교 Syracuse University 종신교수충남대학교교수역임현재한국정보통신대학교공학부교수 2002 ACM SIGIR Conference Program Committee Chair ACM Transactions on Asian Language Processing 편집부위원장 Information Processing & Management Journal of Natural Language Processing Journal of Computer Processing of Oriental Languages 편집위원등으로활동 Home page:http://ir.cnu.ac.kr 관심분야 : 정보검색, 텍스트마이닝, 디지털도서관, 시맨틱웹등 E-mail:myaeng@icu.ac.kr 14 2004. 4. 정보과학회지제 22 권제 4 호