주간기술동향통권 1431 호 2010. 2. 3. 시맨틱검색기술동향 정휘웅 * 김경선 ** 정한민 *** 시맨틱검색이란검색결과의정확도를향상시키기위해전적으로검색알고리즘에의존하던방식에서탈피하여보다능동적으로사용자의의도를파악하고, 기존의정보를가공ㆍ분석하여정교한검색결과를도출하는일련의활동및방법론을통칭한다. 과거에는데이터정제와관련기술성숙도측면에서시맨틱검색기술을적용하는데어려움이많았으나, 최근에는시맨틱검색기술이네이버, 네이트등국내포털에도도입되었으며, 기업용검색시장에서도시맨틱검색기술의적용이시도되고있다. 본고는시맨틱검색에대한개념을소개하고, 적용사례중심으로국내 외연구개발현황을살펴본다. 목 I. 서론 II. 시맨틱검색기술 III. 해외기술현황 IV. 국내기술현황 V. 결론 차 I. 서론 2009 년 5 월마이크로소프트는새로운검색엔진인 Bing 을발표하였다. 연관정보를시각적으로나기능적으로일관되게보여주는것이핵심인데, 이기술은마이크로소프트가 2008 년인수한파워셋 (Powerset) 이라는시맨틱검색회사의기술을활용한것이다 [1]. 시맨틱검색 (Semantic Search) 이라는키워드로구글트렌드 (http://trends.google.com) 에서검색해보면 ( 그림 1) 과같이검색빈도수가 Enterprise Search, Information Retrieval 과같은전문용어에비해서도현저히떨어지고그출현빈도역시주로한국이나인도등비서구권에서높음을알수있다. 이는세가지로해석이될수있는 * 다이퀘스트기술기획팀 / 차장 ** 다이퀘스트연구소장 *** KISTI 정보기술연구실 / 책임연구원, 교신저자 데, 하나는한국등일부지역에서만시맨틱검색에 관심을가지고있고해외에서는별다른관심이없다 14
( 그림 1) 구글트렌드검색결과 (2009.11.14 기준 ) 는해석과이미해외에서는시맨틱검색이상용화단계에이르러이용어가더이상학술적으로나시장적으로나호기심의대상이되지않는다는해석과실제적용사례들에서아직까지가시적인성과가나타나지않아이용어사용을회피하고있다는해석등으로나누어볼수있다. 우리는마이크로소프트 Bing 이나 Wolfram Alpha 등의최근시도를분석해볼때두번째해석이좀더적절하다고본다. 시맨틱검색은이미많은검색엔진들과분야들에적용되고있으며, 최근의네이버와네이트의시도에서보듯이국내포털에서도적극적으로도입을시도하고있다. 이러한추세에발맞추어본고에서는시맨틱검색의개념을살펴보고, 국내외적용사례들을통해현황과발전방향을조망해보고자한다. II 장에서는시맨틱검색의개념을일반적 IT 관점에서소개하며, III 장과 IV 장에서는국내외시맨틱검색현황을살펴본다. 마지막결론에서는시맨틱검색의미래와향후전망으로본고를끝맺고자한다. II. 시맨틱검색기술 사용자가검색창에 자장면 이란단어를입력한다고가정해보자. 이검색어를입력받은검 색서비스는자장면의정의를찾아야할것인가, 자장면의유래를찾아야할것인가, 아니면가 15
주간기술동향통권 1431 호 2010. 2. 3. 까운맛집을찾아야할것인가? 또한검색어자체가애매성을가진경우도있는데, 힐튼 이검색어라면, 힐튼가문의상속녀 패리스힐튼 을찾아야할것인가? 힐튼호텔을찾아야할것인가? 이와같이검색엔진또는검색서비스가사용자와상호작용하는공간이검색창하나밖에없는현실에서는현재대다수키워드기반검색서비스처럼가장연관도가높은, 즉가장검색어를많이포함하는, 문서들을통계적으로찾아서정확도, 날짜순으로정렬하여제공하는방법밖에없다. 웹문서라면구글처럼부가적으로페이지링크 (Page Rank) 와같은하이퍼링크정보를추가적으로활용하여좀더사용자의도에근접할가능성이큰검색결과를제시할수도있지만, 근본적으로사용자가원하는정보인지정확히판단하기에는무리가있다. 시맨틱검색은바로이러한질문에서출발하였다. 검색서비스입장에서는자연어처리기술과통계기술등을이용하여보유하고있는정보를가공하고분석한후사용자에게제공하려고노력하지만사용자가현재시점에서원했던결과인지아닌지는전혀알수가없는것이다. 이를해결하기위한방법들을살펴보면다음과같다. 하나는보유정보를분석해본후사용자에게질문을다시하여검색어의의미를명확히만들어보는방법이고, 둘째는위치, 성향등사용자정보를추가적으로이용하는방법이며, 셋째는사용자가원하는정보를선택할수있도록검색결과를정리하여제공하는방법이다. 이러한방법들을통해정의하여본다면시맨틱검색은 검색의전주기 (Lifecycle) 에있어서키워드이외의정보까지받아들여, 보유정보를대상으로분석하고추론하는등의능동적해석을수행하고, 사용자가만족할때까지지속적으로검색결과와재질의를통해대화하는일련의활동및방법론 이라고할수있다. 정보흐름관점에서의시맨틱검색은 ( 그림 2) 와같이마이크로소프트에서정의한선순환 (Virtuous Circling) 개념에서도확인할수있다 [2]. 이개념의핵심은정보의생성, 연결, 소비 Consumption Enhanced Modes of Discovery read, watch, listen, buy, download, email, blog, share, publish, network, tweet, Connection New Value in Combining Data Simplified Authoring & Participation review, annotate, collect, organize, save, tag, clip, Creation ( 그림 2) 정보시스템의선순환개념 16
의과정을거치는일련의과정을통해해당정보는확대ㆍ재생산되고사용자에게보다높은가치를부여하는정보체계로제시될수있다는것이다. 이과정을시맨틱검색에도동일하게적용한다면정보를보유하고연결, 가공하며제공하는정보흐름속에서사용자의도에부합하는결과를생성할수있을것이다. 최근 ReadWriteWeb 에서인터넷창시자인 Tim Berners Lee 와인터뷰한내용을살펴보면, 시맨틱검색에서의화두는어떻게연관정보를잘구축하고연결하여사용자가효율적으로접근할수있도록만드느냐에있다고볼수있다 [3]. 앞서제시한 키워드이외의정보, 능동적해석, 사용자와의상호작용 이이러한화두를만족시킬수있는핵심요소들인데, 이들을기술적관점으로재해석한다면, 정보연결기술, 정보검색기술, 정보시각화기술, 정보접근기술로나눌수있다. 시맨틱검색을표방하는각주체들은이들에대해서자신만의고유한방법론을개발하고있다. 기존검색과시맨틱검색의차이점을살펴보기로하자. 첫째, 기존검색은검색어에전적으로의존하였으나, 시맨틱검색은사용자가검색어만을제시한다고전제하지않는다. 다만사용자가자신의의도를표현하는수단으로검색어를사용한다고가정할뿐, 검색의시작이검색어로부터출발해야한다고단정하지않는다. 둘째, 기존검색은검색결과를제시하는순간목표를달성한것으로간주하나, 시맨틱검색은사용자가원하는정보를획득하는것까지를목표로둔다. 다시말해서, 검색서비스가제시한검색결과는사용자스스로좀더자신이원하는정보에대한통찰력 (Insight) 을얻을수있게해주는과정의부산물로서해석될수있다. 결국기존검색이사용자와검색서비스사이의단방향적모델이었다면, 시맨틱검색은탐사적세션 (Exploratory Session) 에기반한사용자와검색서비스간의양방향적모델이다. 정보검색의핵심은사용자의질의의도를정확하게파악하고, 관련정보를검색하며, 사용자가한눈에쉽게이해할수있는형식으로시각화하고, 효율적으로접근할수있게하는것이기때문에, 시맨틱검색역시일반적인정보검색에서와같이정보색인과질의로그구성을나눌수있다. 색인은정보를수집하고식별체계, 정보관리체계를 1) 이용하여정보를구축하며, 자연어처리, 추론기술을적용하여정보를확장하는등검색기반을마련하는작업이다. 수집대상은기본적으로문서이지만, GPS 에서전달되는위치정보, 디지털카메라로촬영된이미지정보, 녹음된음성정보등그내용과형식에는제약이없다. 수집정보는먼저기계가독형 (Machine-readable) 정보로변환된다. 이단계에서는검색엔진에서처리하는최소정보단위 1) 시맨틱웹기술에서사용하는온톨로지가그대표적인예이다. 17
주간기술동향통권 1431 호 2010. 2. 3. 에 URI(Uniform Resource Identifier) 와같은식별자가부여된다. 정보관리체계는정보의애매성을최소화시키는방식으로효율적인검색이될수있도록정보를구축할수있게해준다. 온톨로지를이용하는경우에정보간연결과추론이용이하기때문에새로운연결관계를발견하는데도움을준다. 개체명인식, 정보추출등의자연어처리기술은구조화되지않은문서로부터정형화된정보를획득할수있게해준다. 질의는사용자로부터요구사항을받아검색결과를생성하는작업이다. 질의처리는다양한과정을필요로하는데, 검색어로부터의미나문맥을파악하는분석과정, 논리적인결함이없는지확인하는검증과정, SPARQL 과같은시맨틱웹질의언어로검색어를매핑시키는변환과정, RDF(Resource Description Framework) 트리플저장소나데이터베이스등에서정보를찾는탐색과정등이그것에해당한다. 정보시각화는앞서설명한대로단순히검색결과를효과적으로제공하는것뿐만아니라재질의가능성도고려하여사용자경험 (User Experience: UX) 에기반한결과제시를할수있어야한다. 결국, 정보시각화는단순정보를제공하는시각화와사용자를위한통찰력을제공하는시각화, 사용자와정보서비스사이의상호작용을지원하는시각화로나누어볼수있다. 이상에서살펴본바와같이시맨틱검색은단순히한두가지의검색기능을향상시킨다고얻어질수있는것이아니다. 시맨틱검색은정보수집단계에서부터이를가공, 분석, 추론하고시각화하는단계에이르기까지정보관점에서의전주기적흐름으로볼수있기때문이다. 그렇다면국내외시맨틱검색은현재어디까지연구되고있으며어느과정에집중하고있는지적용사례들을중심으로살펴보기로하자. III. 해외기술현황 해외시맨틱검색기술과검색엔진에대한리뷰정보는 Search Engine Journal 에잘나타나있다 [4]. 시맨틱검색기술은특정영역을위한기술과범용기술로나눌수있으며, 엔터프라이즈기반시맨틱검색에, 후자는포털시맨틱검색에주로이용된다. III 장과 IV 장에서는 Semantic Search Survey 에서제공하는다음의시맨틱검색기준들을중심으로적용사례들을살펴보기로한다 [5]. - 검색어생성 (Query Construction) 1 자연어입력 (Free Text Input): 자연어는우리가일상적으로사용하는언어로서, 단일키워드, 각종기호들도포함할수있다. 18
2 연산자 (Operators): 일반적으로 AND, OR, NOT 과같은불리언 (Boolean) 연산자들과키워드들이결합된다. 3 통제어휘 (Controlled Terms): 의학, 생물학, 문헌정보학등특정분야에서주로적용하는검색어형식으로사용자어휘집합을통제하거나추가정보로제공하여검색어의애매성을제거한다. 4 사용자피드백 (User Feedback): 유의어를제공하거나자동완성기능을제공하는등사용자검색어에서발생할수있는입력오류를줄인다. - 검색알고리즘 (Search Algorithm) 1 문법적일치 (Syntactic Matching): 형태소분석, 전ㆍ후방일치, 스테밍 (Stemming) 등의일반적검색알고리즘이다. 2 의미적일치 (Semantic Matching): 의미유사도계산, DL(Description Logic) ㆍ규칙기반추론등의의미적검색알고리즘이다. - 결과표현 (Presentation of Results) 1 자료선택 (Data Selection): 정보형태의선택에관한것이다. 2 정렬 (Ordering): 연관정보제시기준에관한것이다. 3 구성 (Organization): 사용자가원하는정보의배열에관한것이다. - 사용자피드백 (User Feedback) 1. Quintura 2) 퀸투라 (Quintura) 는질의과정을효율적으로개선하고자검색어를정제하고검색결과를제시하는사용자인터페이스를하나로통합하였다. 예를들어, 검색어와연관도가높은키워드들을좌측에배치하고우측에검색결과를배치함으로써 ( 그림 3) 과같이마우스오버 (Mouseover) 만으로도화면전환없이좌측의키워드들에대한검색결과를획득할수있다. 2. 마이크로소프트 Bing 3) 2008 년 Microsoft 는 PowerSet 이라는시맨틱검색전문기업을인수하면서자사의 Live.com 검색기술에새로운시맨틱검색기술을도입하기시작하였다. 그결과로탄생된검색서비스가 2) http://www.quintura.com 3) http://www.bing.com 19
주간기술동향통권 1431 호 2010. 2. 3. ( 그림 3) Quintura 의검색결과예 ( 그림 4) 마이크로소프트 Bing 의검색결과예 20
Bing 이다. Bing 의가장큰특징은검색어에대한연관정보를제공하고사용자가좀더자세한정보를입력할수있는영역을제공한다는점이다. 기존검색패러다임을한단계진보시킨것으로평가받고있는데, 최근에는검색기술에시각화를접목시키고있다 (( 그림 4) 참조 ). Bing 의검색결과화면을보면기존검색결과화면과별다른차이점이없어보이지만, 좌측의분류영역과관련정보, 우측의이미지검색과유사이미지검색등여러곳에서시맨틱검색결과를제공하는것을확인할수있다. 3. Wolfram Alpha 4) 볼프럼알파 (Wolfram Alpha) 는 Computational Knowledge Engine 이라는모토하에일종의질의응답 (Question Answering) 서비스를제공하고있는시맨틱검색서비스이다 (( 그림 5) 참조 ). 기존검색서비스와의가장큰차이점은 Wolfram Alpha 의검색결과가검색어와연관성을 ( 그림 5) Wolfram Alpha 의검색결과예 4) http://www.wolframalpha.com 21
주간기술동향통권 1431 호 2010. 2. 3. 가진웹페이지들이아니라는데있다. 검색창에입력되는검색어는기호의조합으로간주하고검색어에대한정답을제시한다. 예를들어, $10.25/hr 를검색어로입력하면, 최근 1 년동안의환율, 시간당 / 일당 / 주당 / 월당가격, 다른통화로의환산가격등수치나통계를검색결과로제시하며, Seoul Washington DC 를입력하면, 두도시의인구 / 시각 / 고도, 두도시간거리등을제시한다. 아직까지는실험적인관점에서연구되고있으나기계에의해추론된지식정보를시각화하는데있어가장진보된형태의시맨틱검색이라고볼수있다. IV. 국내기술현황 1. 한국과학기술정보연구원 OntoFrame 서비스 5) 2005 년부터한국과학기술정보연구원 (KISTI) 에서개발하고있는시맨틱웹기반서비스플랫폼온토프레임 (OntoFrame) 과기반서비스들 (OntoFrame 2008, OntoFrame S3 등 ) 은기존시맨틱검색에시맨틱웹기술을결합시킨추론기반검색서비스를제공하는것을특징으로한 ( 그림 6) 한국과학기술정보원 OntoFrame S3 의검색결과예 5) http://www.ontoframe.kr/2008, http://www.ontoframe.kr/s3 22
다. OntoFrame 은정보를수집하고시맨틱지식으로변환하는시맨틱관리도구인 OntoURI, 사용자정의규칙에따라추론을수행하고정보간연결을생성하는추론엔진인 OntoReasoner, 대용량정보검색엔진인매리너 (Mariner) 로구성되며, 시맨틱검색서비스구현을위한개발플랫폼역할을한다. 이를통해수십만에서수백만건의해외논문지를대상으로개발된 OntoFrame 2008 과 OntoFrame S3 를서비스하고있다. 2. 시맨틱스 Qrobo 6) 시맨틱스의큐로보 (Qrobo) 는국내최초의포털성격을가진시맨틱검색서비스라고볼수있다. 지금까지국내시맨틱검색이주로특정분야에적용되었다면, 큐로보는포털시맨틱검색을표방하며분야에상관없이시맨틱검색에의한추천검색결과와연관검색결과를제공한다. 특히검색결과분류에있어보다유사도높은정보들을제공하는데, 예를들어 고래 를검색어로입력하면, 로봇추천결과라고명명된영역을통해검색결과를분야별로분류하여제공한다. ( 그림 7) 큐로보의검색결과예 6) http://www.qrobo.com 23
주간기술동향통권 1431 호 2010. 2. 3. 3. 네이트시맨틱검색 7) 검색서비스전영역에걸쳐시맨틱검색기술을도입한네이트시맨틱검색은검색어에대해유사도를이용하여분석한관련정보와기구축관련정보를결합하여연관정보로제공한다. 예를들어, 스폰지밥 이라는검색어를입력하면이와관련된연관어들을제시하고그들에대한검색결과를재검색하지않더라도바로확인할수있게해준다. ( 그림 8) 네이트시맨틱검색의검색결과예 4. 네이버랩 : 시맨틱영화검색 8) 네이버는네이버랩을통해심화된검색기술을실험적으로제공하고있는데, 시맨틱영화검색이그대표적인예이다. 예를들어, 영화감독의이름을입력하면해당개체가가질수있는속성 (Property) 들을보여주고, 속성선택은그검색결과와함께또다른속성을제시하는방식 7) http://www.nate.com 8) http://semantic.lab.naver.com 24
( 그림 9) 네이버랩 : 시맨틱영화검색의검색결과예으로탐색적세션을유지한다. 또한, 동명이인과같은개체애매성을해소할수있도록식별체계기반으로정보를관리하며, 사용자에게특정개체를선택할수있는장치도제공한다. 결국, 하나의검색어를통해기계와사용자가상호작용하면서사용자가원하는정보를찾을수있도록지원하는검색환경을제공하는하나의예라고볼수있다. 5. 솔트룩스 Owlim 9) 솔트룩스의어울림 (Owlim) 은시맨틱스의큐로보나네이트시맨틱검색과같이포털검색을지향하는시맨틱검색서비스이다. 입력된키워드를바탕으로관련검색어를브라우징해주고그검색결과를바로확인할수있게해준다는측면에서는사용자인터페이스는퀸투라와유사하다고할수있다. 관련검색어브라우징을통해사용자와상호작용을가질수있으며, 구글트렌드와같이좌측하단에검색트렌드도제공한다. 9) http://www.owlim.com 25
주간기술동향통권 1431 호 2010. 2. 3. ( 그림 10) 솔트룩스 Owlim 의검색결과예 V. 결론 과거에시맨틱검색이방향을잡지못하고여러가지기술들을이용한실험적인수준에머물렀었다면, 지금은포털검색서비스나엔터프라이즈검색서비스에서활발히적용되면서사용자피드백을통해그방향을찾아가고있다고말할수있다. 아직까지모든사용자를만족시킬수있는시맨틱검색이존재하지는않지만, 특정응용분야와사용자집단을대상으로한정할때는상당히높은관심과만족도를확인할수있다. 구글이웹의특성을이용한페이지링크를시도하여현재의성공에이른것처럼, 시맨틱검색은문서의웹 (Web of Documents) 이데이터의웹 (Web of Data) 으로진화하는현시점에서기존검색으로얻을수없는수준의결과를만들어낼수있는충분한잠재력을가지고있다고보여진다. 마이크로소프트나구글의노력에서엿볼수있듯이, 미래검색의방향은얼마나많은정보를빠르게수집하고정확하게검색하느냐보다, 사용자가원하는정보를좀더쉽게찾을수있도 26
록기반정보를제공하고그환경을마련하는방향으로발전하게될것이다. 이런측면으로본다면시맨틱검색기술은데이터수준으로분해된웹상에서의초대용량정보처리기술, 온톨로지모델링기술, 추론기술, 사용자경험기술등다양한관련기술들과더욱밀접하게융합될것으로예측된다. 다만시맨틱검색기술은아직까지시장의주력기술이아니고정보의증가에따른시맨틱지식의대용량처리등아직까지기술적으로해결해야할문제들도여전히남아있는실정이다. 향후시맨틱웹기술이진화되고, 온톨로지모델링이보편화된다면시맨틱검색은실질적인차세대검색의주역으로자리매김할것이다. < 참고문헌 > [1] Tech Crunch, Ok, Now It s Done. Microsoft to Acquire Powerset, http://www.techcrunch.com/2008/07/01/ok-now-its-done-microsoft-to-acquire-powerset, 2008. [2] T. Nathan, Searching for Virtue Virtuous Cycles as A Model for Successful Search Implementations, Microsoft Enterprise Search Blog: http://blogs.msdn.com/enterprisesearch/archive/2009/09/14/searching-for-virtue-virtuouscycles-as-a-model-for-successful-search-implementations.aspx, 2009. [3] ReadWriteWeb Interview with Tim Berners-Lee, Part 2: Search Engines, User Interfaces for Data, Wolfram Alpha, And More, http://www.readwriteweb.com/archives/search_options_google_search_evolves.php, 2009. [4] A. Radhakrishnan, 9 Semantic Search Engines That Will Change the World of Search, Search Engine Journal: http://www.searchenginejournal.com/semantic-search-engines/9832/, 2009. [5] Semantic Web User Interaction Group, Semantic Search Survey, SWUIWiki: http://swuiwiki.webscience.org/index.php/semantic_search_survey, 2007. * 본내용은필자의주관적인의견이며 NIPA 의공식적인입장이아님을밝힙니다. 27