232 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) 메타데이타와텍스트정보의통합검색모델 (A Hybrd Informaton Retreval Model Usng Metadata and Text) 유정목 맹성현 김성수 이만호 (Jeong-Mok Yoo) (Sung-Hyon Myaeng) (Sung-Soo Km) (Mann-Ho Lee) 요약메타데이타를위한검색모델은질의에사용자의정보요구를정확하게반영하기때문에정확율 (precson) 은높지만질의조건에만족하지않는정보를배제하므로재현율 (recall) 은낮다. 반면전문 (full-text) 텍스트검색모델은사용자질의에대하여모든문서를검색대상으로하므로정확율은낮고재현율은높다. 메타데이타검색모델의높은정확율은사용자가메타데이타의구조적특성에맞게질의를구성할경우가능하지만일반적으로사용자가메타데이타의구조정보를반영한사용자질의를구성할수있다고기대하기는어렵다. 또한메타데이타에포함된정보의양은전문텍스트가가진정보의양보다적기때문에텍스트를검색한결과보다재현율이떨어진다. 본논문에서는이러한특성을반영하여메타데이타검색시, 사용자의다양한질의를메타데이타의특성에맞게재구성하고메타데이타뿐아니라텍스트에대해서도검색을수행하여두모델의장점을함께고려한통합검색모델을제안한다. 키워드 : 메타데이터검색모델, 메타데이터필드확장, 구조질의, 하이브리드검색모델 Abstract Metadata IR model has hgh precson and low recall because the query n Metadata IR model s strct that s, the query can express user nformaton need exactly, whle Full-text IR model has low precson and hgh recall because the query n Full-text IR model s a knd of smple keyword query whch expresses user nformaton need roughly. If user can translate one's nformaton need nto structured query well, the retreval result wll be mproved. However, t s lttle possble to make relevant query wthout understandng characterstcs of metadata. Unfortunately, most users do not nterested n metadata, then they cannot construct well-made structured query. Amount of nformaton contaned n metadata s less than text nformaton. In ths paper, we suggest hybrd IR model usng metadata and text whch can provde users wth lots of relevant documents by retrevng from metadata feld and text feld complementarly. Key words :Requrements Change Management, Requrements Change Management Process, Software Product Lnes 1. 서론 메타데이타란일반적으로데이타에관한데이타로서 정보자원의다양한속성을기술하는부가적인데이타를 의미한다. 즉메타데이타란물리적인의미의데이타 ( 예 를들어, 비디오, 오디오, 텍스트등 ) 는아니지만, 해당 정회원 : 한국전자통신연구원디지털홈연구단인터넷서버그룹연구원 jeongmok@gmal.com 종신회원 : 한국정보통신대학교공학부교수 myaeng@cu.ac.kr 정회원 : 한국통신비지니스부문프로젝트관리부사원 kss@cu.ac.kr 종신회원 : 충남대학교전기정보통신공학부교수 mhlee@cnu.ac.kr (Correspondng author임 ) 논문접수 : 2006년 2월 24일 심사완료 : 2007년 3월 20일 데이타와직간접적으로관련된정보를제공하는데이타를의미한다. 이와같은메타데이타를정보검색과같은응용분야에서사용하면사용자가원하는정보를좀더쉽고빠르게찾아낼수있다. 이러한이유로여러응용분야에서다양한메타데이타표준들이존재하며현재연구되고있다. 그러나응용분야에서메타데이타를효율적으로사용하기위해서는각메타데이타의구조적특성을반영한사용자질의를구성하여야한다. 즉, XML 형식의메타데이타를정의할때사용한 XML Schema 또는 XML DTD에기술된구조정보를반영한사용자질의작성이중요하다. 그러나, 일반적으로사용자는메타데이타의복잡한구조정보를이해하고, 그특성을반영한사용자질의를구성하는것에익숙하지않다. 따라서사용자가원하는정보요구를적절히
메타데이타와텍스트정보의통합검색모델 233 파악하여메타데이타의구조적특성에맞게사용자질의를재구성하는작업이필요하다. 앞에서언급한바와같이현재다양한형식의데이타를위한메타데이타표준들이존재한다. 본논문에서는그중에서텍스트데이타를위한메타데이타를대상으로정보검색응용분야에서사용자에게좀더효율적인검색결과를제공해줄수있는방안에대해기술한다. 텍스트를위한메타데이타는텍스트자원의다양한부가속성을기술하였기때문에자원자체, 즉텍스트보다는소량의정보를가지고있다. 이러한한계점으로인해, 메타데이타내기술되지않은정보를찾는사용자질의를이용하여검색서비스를요청한경우적합한정보를찾을수없다. 반면, 메타데이타를이용하여부가정보를기술한자원인텍스트데이타는메타데이타보다양적으로더많은정보를가지고있다. 사용자가검색대상을메타데이타뿐만아니라텍스트데이타로확장하여검색할경우사용자가원하는정보를찾을확률이높아진다. 그림 1은특정질의에대한텍스트문서적합성분포다이어그램이다. 사용자가텍스트데이타와텍스트데이타에대한메타데이타를대상으로검색서비스를수행할경우, 실제사용자질의에적합한문서는메타데이타내에존재할수도있으며, 텍스트데이타내에존재할수도있다. 또한, 사용자가메타데이타에대한질의를작성할때지정한메타데이타필드외에다른메타데이타필드에존재할가능성도있음을보여준다. 그림 1의다이어그램을참고해볼때세가지경우를고려해볼수있다. 첫째, 정보검색시스템에서메타데이타특정필드만을대상으로검색하였을경우사용자가지정한필드만을이용함으로써사용자에게제한된검색결과만을제공할수가있다. 둘째, 텍스트만을대상으로시스템이검색할경우메타데이타에기술된부가정보들을제외한텍스트부분의정보만을제공할수있다. 마지막으로, 메타데이타특정필드와메타데이타그림 1 적합문서분포다이어그램 가설명하는텍스트를함께검색하는경우, 앞에서언급한두가지경우보다더많은검색결과들을사용자에게제공할수있다. 이를위해서는사용자는메타데이타필드들중에서사용자질의에가장적합한필드를선택하여질의에이용하고, 또한메타데이타검색결과를보완해주기위해텍스트데이타를검색에직접이용하는방법이필요하다. 그러나다양한응용분야에서복잡한구조정보를가진메타데이타표준이연구되고제안되는현시점에서개별적인메타데이타의구조적특성을일일이사용자가파악하여사용자질의를작성하는것은매우어려운일이다. 따라서본논문에서는사용자의키워드기반질의어들을메타데이타검색에적합한사용자질의로자동적으로변환하여메타데이타를대상으로검색할수있는방법을제시한다. 사용자가작성한키워드집합과메타데이타필드집합사이의유사도값을이용하여사용자가이용한검색키워드들과메타데이타필드들사이의상호연관성을검색에반영하여일반적으로사용하는키워드기반질의어들을이용하여메타데이타구조정보를반영한사용자질의를자동생성한다. 또한텍스트부분을메타데이타를구성하는메타데이타필드들과함께상호보완적으로검색하여메타데이타만을대상으로한검색결과를보완하여좀더향상된검색결과들을사용자에게제공하는모델을제안한다. 2. 관련연구키워드중심의질의를메타데이타의특성에맞게변환하는방안은이전에연구되었다. [5] 에서는단순히키워드중심으로구성된질의를비구조형질의 (Unstructured query), 메타데이타필드와키워드로구성된질의를구조형질의 (Structured query) 라고정의하였고구조형질의를이용한검색이비구조형질의를이용한검색보다우수한결과를보인다는것을증명하였다. Goncalves et al[8] 에서는 [5] 에서언급한내용들을기반으로하여 Bayesan network 모델기법을응용하여비구조형질의를구조형질의로자동적으로변환하는방안을제시하였다. [8] 에서는사용자의질의와문서의모든메타데이타필드를조합함으로써가능한모든구조형질의후보군을생성한다. 각후보질의들이생성될수있는확률을 Bayesan network 모델기법을이용하여계산하고확률이높은상위 5개의구조형질의만을사용자의정보요구에부합하는질의로가정한다. 이상위 5개의구조형질의를이용하여메타데이타검색을수행하고추출된결과를통합한다. [8] 에관한주요알고리즘은유사연구비교 (5장) 에서자세히설명한다. [8] 에서사용한 Bayesan network 모델은 Turtle &
234 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) Croft[14] 에의해처음으로정보검색모델에응용되었으며후에 Rbero-Neto & Muntz[13] 에의해발전되었다. Bayesan network은문서간의순위를결정하는기법뿐아니라 relevance feedback[9], query expanson [4], nformaton flterng[2], classfcaton[3,16], SGML 구조문서검색 [10] 등다양한정보검색분야에응용되고있다. 구조문서에대한검색과질의를위해다양한검색모델들과질의언어들에대한연구가지속적으로연구되고있다 [17-20]. 그러나, 본논문에서는구조문서가아닌메타데이타를그대상으로하고있으며, Bayesan network 모델을이용하여메타데이타검색에제일적합한사용자질의를작성하여메타데이타에대한검색효율을증진하는접근방법에대해가장참고할만한관련연구내용은 [5,8] 이다. 3. 정의 본논문에서의검색대상은메타데이타 ( M ) 와텍스트 ( T ) 로구성되거나혹은메타데이타만으로구성된문서 ( d ) 들이며각문서들은문서집합 ( D ) 를구성한다. D = { d1, d2,..., d,..., dn} n 1 d =< M, T > T = or T,..., =< t1 tj > dn 은컬렉션 D 를구성하는 n번째문서를의미한다. 문서를구성하는메타데이타 ( M ) 는한개이상의메타데이타필드 ( F k ) 와필드값 ( v k) 을갖는다. 또한문서가텍스트필드를갖는다면텍스트는한개이상의용어 ( t ) 로구성된다. M =< ( F1, v1 ),( F2, v2),...,( Fk, vk) > k 1. IF T, T =< t 1,..., t,.., tl > l > 1 예를들어특정문서 d 이 ttle, author, publsher의메타데이타필드로구성되며각각필드값으로서 난중일기, 이순신, 민음사 를갖는다면, d =<(ttle, 난중일기 ), (author, 이순신 ), (publsher, 민음사 )> 로나타낼수있다. 질의는비구조형질의 (UQ, Unstructured Query) 와구조형질의 (SQ, Structured Query) 로분류한다. 비구조형질의는키워드로만구성된질의이며구조형질의는메타데이타에대한질의 ( Q M ) 와텍스트에대한질의 ( Q T ) 로이루어진다. UQ t t t t =< 1, 2,..,,.., l > l 1 SQ =< Q, Q > 메타데이타에대한질의 ( Q M ) 는메타데이타필드 ( F ) 와필드값 ( v q ) 의쌍으로구성된질의이고텍스트에대한질의 ( Q T ) 는비구조형질의 (UQ) 와같다. 또한각질의값 ( v q ) 은하나이상의용어 ( t ) 로구성된다. 이들은아래와같이표현한다. QM =< ( F1, v1 q),( F2, v2q),..,( F, vq),..,( Fm, vmq) > m 1 QT M = UQ vq =< t1, t2,.., t,.., tl > l 1 예를들어질의가단순히키워드들로구성되어 이순신, 한산도대첩, 임진왜란 이라면비구조형질의는 UQ =< 이순신, 한산도대첩, 임진왜란 > 으로표현할수있다. 질의가메타데이타필드와짝을이루어제목은 난중일기, 저자는 이순신 이라고하면, 구조형질의로써 SQ=<(ttle, 난중일기 ), (author, 이순신 )> 로표현할수있다. 본논문에서는구조형질의를구성하는필드를크게두가지로나눈다. 하나는사용자가지정한필드 ( F user _ select ) 이며또다른하나는시스템이지정한필드 ( F system _ select ) 이다. 만일사용자가구조형질의를 SQ=<(ttle, 난중일기 ), (author, 이순신 )> 와같이작성하였다면 Fuser _ select 는 ttle과 author필드이다. 또한사용자가비구조형질의를한경우자동적으로구조형질의로변환이되는데이때변환된필드는 Fsystem _ select 에해당된다. 4. 검색환경 본논문에서다음과같이가정한다. 첫째, 사용자는비구조형질의로도질의할수있으며구조형질의로도질의할수있다. 둘째, 사용자는구조형질의를효율적으로구성하지못할수있다. 따라서사용자가선정한메타데이타필드보다질의에더적합한메타데이타필드가존재할가능성이있다. 셋째, 메타데이타필드검색만으로는충분한정보를사용자에게제공할수없으며따라서텍스트를보완적으로검색한다. 본논문에서제안하는모델은아래와같은절차로진행된다. 1. 가장질의에적합한메타데이타필드선정 : 사용자질의와메타데이타필드간의적합성을측정한다. T
메타데이타와텍스트정보의통합검색모델 235 측정한적합성을바탕으로가장적합성이높은메타데이타필드를선정하여구조형질의로변환한다. 예를들어 UQ=< 이순신 > 이며 이순신 이라는질의가 author필드와가장적합하다면 SQ= <(author, 이순신 )> 으로전환된다. 2. 선정된필드에대하여메타데이타검색수행 : SQ=<(author, 이순신 )> 인경우, author필드내에 이순신 을갖는문서와유사도를측정한다. 3. 텍스트에대하여병행검색수행 : SQ = <(text, 이순신 )> 의질의를구성하여검색한다. 4. 메타데이타필드검색과텍스트검색을수행한결과에대하여하나의유사도로통합후순위결정 : SQ=<(author, 이순신 )> 로부터얻은결과와 SQ = <(text, 이순신 )> 로부터얻은결과를하나의문서유사도로통합하여순위를결정한다. 의의양에따라서매우다양하게나타날수있다. VT 에서는이러한후보질의들에순위를할당하여상위 5개의질의만을검색에적합한구조형질의로가정한다. 5.2 후보질의간의순위결정 VT에서는후보질의간의순위를결정하기위하여 Bayesan network 모델을이용한다. 설명을용이하게하기위하여문서는두개의필드로구성되어있다고가정하며 VT 모델은그림 2처럼표현할수있다. 5. 유사연구비교 본연구의목표는사용자가메타데이타의특성을이해하지못하는경우에도가장적합한질의를자동생성하여검색하며텍스트필드를상호보완적으로검색하여질의와가장적합한문서를찾아내는것이다. 관련연구에서이미언급하였듯이사용자의다양한질의를자동적으로구조형질의로전환해주는연구는 Goncalves et al[8] 에서먼저수행되었다. 따라서본논문에서는 [8] 에서제안된방안을실험을통해본연구에서제안하는방안과비교하였으며그들의제안방안을간단히 VT(Vrgna Tech) 로명기하였다. 5.1 질의처리 VT에서질의처리는다음과같은세단계로나뉜다. 1) 사용자의비구조형질의를입력받는다. 2) 모든조합가능한구조형질의를구성한다. 3) 후보구조형질의들의순위를결정한다. 단계별처리과정을자세히설명하기위하여먼저컬렉션을구성하는문서는 ttle과 author로구성되며초기비구조형질의가 UQ =< t1, t2, t3 > 라가정한다. 후보질의들을구성하기위해문서를구성하는메타데이타필드들과용어들의쌍의형태로조합한다. 만일 t 1이 tle 과 author에나타나며 t2, t3 는 ttle에만나타난다면메타데이타필드와용어로이루어진쌍의구성은 (author, t 1 ), (ttle, t 1) 과 (ttle, t 2 ), (ttle, t 3 ) 가된다. 이를바탕으로후보질의는다음과같이구성된다. Q =< ( author, t ),( ttle, t ),( ttle, t ) >, 1 2 1 1 Q =< ( ttle, t ),( ttle, t ),( ttle, t ) > 2 2 후보질의들은문서가갖는메타데이타필드수와질 3 3 그림 2 후보질의순위결정을위한 Bayesan network 모델 그림 2는문서집합을구성하는특정문서 (O) 가두개의메타데이타필드 ( A 1, A 2 ) 로구성되며각기여러개의필드값 ( A11 ~ A 1n, A 21 ~ A 2 n ) 들로구성됨을보여준다. 필드값들은다양한용어들 ( a 11 ~ a1 k, a ~ a 1 21 2k2 ) 로구성되며이러한메타데이타필드에나타날수있는모든용어들은하나의벡터 ( a uur 1, a uur 2 ) 를이룬다. Q 는후보구조형질의들을의미하며 Q j 는메타데이타필드 j에관한질의이다. 그림 2에서 Q1 은하나의메타데이타필드에대해서질의를하며 Q2 는두개의메타데이타필드에대하여질의를한다. 메타데이타에대한질의 Qj 는다양한용어 ( a 11 ~ a1 k 1, a21 ~ a2k 2 ) 들을질의에이용한다. 후보질의들의우선순위는문서에대한컬렉션 O 가주어졌을때 Q 가구성될수있는확률 ( PQ ( O ) ) 로결정된다. PQ ( O) 는구조질의를구성하는메타데이타필드의필드값들과 Qj 에나타나는질의값들, 즉활성화된질의벡터내의질의값들과코사인유사도를구한후일반화하여메타데이타필드와질의와의적합성을계산
236 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) 한다. PQ ( O) 의공식은아래와같다. n1 2 1 ur n PQ ( O) = η * [1 (1 cos( A, a)) + 1 (1 cos( A uur, a))] 1j 1 2 j 2 2 j= 1 j= 1 n1 과 n 2 는필드를구성하는용어의개수를나타내며 VT 에서지정한 η 는상수이다. VT 에서는결정된후보질의들중가장우수한질의를 검색에이용하는방안 (1 순위의질의를검색에활용한다 는의미에서 VT1 으로명기한다.) 과상위 5 개의질의를 이용하여결과를통합하는방안 (VT1~VT5) 을연구하 였다 본논문에서는 VT1 과 VT1~VT5 의결과와본논문 에서제안하고자하는방안을실험을통하여비교한다. 6. 통합검색모델 6.1 구조형질의처리 본논문에서는사용자가구조형질의를효율적으로 작성하기가어렵다고가정하였고질의에더적합한메타데이타필드가존재할수있다고가정하였다. 따라서사용자가선정한메타데이타필드보다더적합한필드가있는지확인하여야한다. 먼저사용자가지정한필드와질의간의적합성을측정한다. 즉, SQ=<(ttle, nformaton retreval ), (author, 김 )> 인경우에사용자가지정한필드 Fttle 과 nformaton retreval 의조합이적절한지, Fauthor 와 김 의조합이적절한지를판단하여야한다. VT에서는 Bayesan network 모델을활용하였으나본논문에서는이적합성의판단기준으로벡터모델의유사도 [1] 개념을채택하였다. 두벡터간유사도를측정하기위해서는문서벡터와질의벡터, 두벡터가필요하다. 이를위하여컬렉션내의모든문서들의용어들을필드를기준으로재구성하여가상의문서 ( C feld ) 를생성하였다. 즉 Cttle 은컬렉션내의 ttle필드에나타나는모든용어들로구성된가상의문서이다. 가상의문서 C feld 와질의간의유사도는아래와같이표현한다. ur r Sm( C feld, q) 사용자가지정한필드 ( F user _ select ) 에나타나는용어로구성된가상의문서는 Cuser _ select 라고정의하며시스템이지정한필드 ( F system _ select ) 에나타나는용어로구성된가상의문서는 Csystem _ select 라고정의한다. C ur user _ select 는사용자가지정한필드에나타나는모든 용어들로구성된가상문서의벡터를의미하며, 조형질의를이루는필드값벡터를의미한다. 예를들어 SQ=<(ttle, nformaton retreval )> 인경우 ttle과 Cttle nformaton retreval 과의적합성은가상의문서와질의벡터 nformaton retreval 과의유사도로서측정된다. 사용자는잘못된구조형질의를구성할수있다고가정하였으므로, 사용자가지정하지않은필드들과질의간의적합성을측정한다. 사용자가지정한메타데이타필드를제외한나머지메타데이타필드들을대상으로질의와의적합성을측정한후, 이들중가장유사도가높은메타데이타필드를적합한필드로가정하며가장적합성이높은필드가시스템이지정한필드이다. ( F system _ select ) ur r uurr uurr Sm( C, q) = max[ Sm( C, q),..., Sm( C, q)] system _ select 1 user _ select 예를들어 SQ=<(ttle, nformaton retreval )> 인경우 ttle을제외한나머지필드들과 nformaton retreval 과의적합성을측정한다. 나머지필드들과적합성을측정하여가장높은적합성을보인필드가 Fsystem _ select 가되며가장높은적합성을시스템이지정한필드와질의간의적합성으로간주한다. 이러한경우다음과같이두가지경우가발생한다. ur r ur r 1) Sm( C system _ select, q) Sm( Cuser _ select, q) ur r ur r Sm( C system select, q) > Sm( Cuser select, q) 2) 첫번째, 사용자가지정한메타데이타필드와질의간의적합성이다른메타데이타필드와질의간의적합성에비교해볼때더높은적합성을가진다고생각할수있다. 따라서사용자는적합한구조형질의를생성하였다고볼수있다. 그러나두번째경우와같이사용자가지정한메타데이타필드와질의간의적합성보다그외메타데이타필드와질의간의적합성이더높으므로, 사용자가올바르게구조형질의를구성하였다고볼수없다. 그러므로, 사용자가작성한구조형질의보다시스템에서추천한구조형질의를이용하여검색서비스를제공하는것이더적합하다는것을알수있다. 메타데이타를구성하는메타데이타필드와질의사이의적합성을판별하여어떤메타데이타필드를구조형질의에사용할것인지결정하였다. 앞에서언급한바와같이, 본논문에서는메타데이타필드뿐만아니라메타데이타가부연설명하는텍스트데이타를검색대상에포함하여더넓은검색서비스범위를제공한다. 이를위해, 텍스트데이타를다른메타데이타와같은하나의
메타데이타와텍스트정보의통합검색모델 237 메타데이타필드로정의하고사용자질의의대상으로간주한다. 텍스트데이타에대한검색을메타데이타에대한검색과함께수행하는경우, 앞에서선택한메타데이타필드외에추가검색대상필드는 1) 의경우사용자가지정한필드와텍스트필드이며, 2) 의경우는사용자가지정한필드와시스템이추천한필드, 그리고텍스트필드이다. 앞에서언급한바와같이시스템이지정한필드의적합성이사용자의필드보다높음에도불구하고사용자가지정한필드를함께검색하는이유는사용자의정보요구를반영하기위해서이다. 구조형질의가SQ= <(ttle, nformaton retreval ), (author, 김 )> 일경우를가정해보자. 먼저가상의문서Cttle 와질의벡터 nformaton retreval 과의유사도를측정하여적합성을판단하고 Cauthor 와질의벡터 김 과의유사도를측정하여적합성을판단한다. 만일 김 이 김의전쟁 과같이 author 필드가아닌 ttle 필드에더적합한경우가발생한다면사용자가지정한필드, 시스템이지정한필드, 그리고텍스트필드가검색대상으로선정되어최종적으로 SQ= <(ttle, nformaton retreval ), (text, nformaton retreval ), (author, 김 ), (ttle, 김 ), (text, 김 )> 으로작성된다. 6.2 비구조형질의처리비구조형질의일경우시스템이구조형질의를생성해주어야한다. 비구조형질의인경우, 사용자가메타데이타필드를지정하지않았으므로모든메타데이타필드를검색대상으로하며이들중가장질의와적합성이높은필드를선정하여구조형질의를생성한다. 따라서검색대상은시스템이추천한메타데이타필드 ( F system _ select ) 와텍스트필드이다. ur r uurr uurr Sm( C system _ select, q) = max[ Sm( C1, q),..., Sm( C, q)] 만일 UQ = <nformaton, retreval, 김 > 이라면 UQ 를구성하는질의값 3개에대하여각각필드간의적합성을판단한다. nformaton 과 retreval 둘다 ttle 필드에가장적합하다면 (ttle, nformaton retreval ) 로구성되며 김 이 author에적합하다면 (author, 김 ) 으로전환되어시스템이지정한필드와텍스트필드가검색대상으로선정되어최종적으로는 SQ = <(ttle, nformaton retreval ), (text, nformaton retreval ), (author, 김 ), (text, 김 )> 으로구성된다. 6.3 질의와필드간의적합성측정질의와필드간의적합성측정은벡터모델 [1] 을기반으로하였다. 벡터모델은문서또는질의에서의중요도에따라추출된용어들에가중치를부여함으로써, 문서 와질의를가중치가부여된용어들의벡터로표현한다. 가상의문서 C feld 와질의와의유사도는 C feld 에출현하는가중치가부여된 ( w k ) 용어의벡터와질의에출현하는가중치가부여된질의벡터 ( gk ( uur q )) 의내적으로표현된다. 각용어에대한가중치는 C feld 에대한중요도를반영하며특정필드내에자주나타나고전체필드중에서적은수의필드에출현하는용어에보다높은가중치를부여한다. 또한가상의문서 C feld 는각각 2 벡터의길이가다르므로정규화요소 ( w tk T k, g uur 2 k ( q ) tk T ) 로서벡터의길이를일치시켜공정한유사도를측정할수있다. 질의와필드간의적합성을측정하는방식은아래와같다. uur ur uur ur uur wk gk ( q ) tk T Sm( C, q ) = cos( C, q ) uur, 2 2 w * g ( q ) w = ftf ( k)* fdf ( k) k tk T k tk T 여기서 ftf ( k) 는메타데이타필드 내에서나타나는용어 k의빈도수를의미하며 fdf ( k) 는용어 k가나타나는필드의역수를말한다. 메타데이타필드 는컬렉션을구성하는문서들의 번째메타데이타필드에나타나는용어들로구성된다. gk ( uur q ) 는질의벡터내의용어 k의가중치를의미한다. T 는 번째필드 F 내에존재하는모든용어의집합이다. 6.4 질의와선정된필드를갖는문서들과의유사도측정 6.3에서설명한바와같이, 벡터모델 [1] 에서제시한유사도공식을이용하여질의와필드간의적합성을측정한후선정된필드에대하여선정된필드를갖는문서들을검색한다. 예를들어 SQ=<(ttle, 이순신 )> 이라면 ttle필드를갖는모든문서가검색대상이며 ttle필드내에질의어 이순신 을갖는문서들을검색한다. 선정된필드에서검색된문서들과질의어사이의유사도를측정하기위해서는선정된필드 ( F ) 에질의어가출현하는문서 ( d uur j ) 의벡터와질의벡터 ( q ) 가필요하며두벡터간의유사도를측정한다. 6.3에서언급한바와같이특정문서내특정필드에자주나타나는용어에대하여보다높은가중치를부여하고각문서내의필드의벡터길이를정규화하여공정한유사도를측정한다. 선정된필드를갖는문서들과질의간의유사도측정 k
238 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) 공식은아래와같다. uur ur uur ur uur wk gk ( q ) tk T Sm( d j, q ) = cos( d j, q ) uur, w * g ( q ) w = ftf ( k)* df ( k) k j 2 2 tk T k tk T k ftfj( k) 는 j번째문서의 번째필드내의용어 k의빈 도수이다. df ( k) 는 번째필드에서용어 k가나타나는 문서들의역수를의미하며두변수를곱하여가중치를계산한다. 6.5 문서우선순위결정 6.1과 6.2에서기술하였듯이본논문에서는하나의질의에대하여비구조형질의의경우에는 2개의필드 ( 시스템이지정한필드와텍스트필드 ), 구조형질의의경우에는 2개혹은 3개의필드 ( 사용자가지정한필드, 시스템이지정한필드, 그리고텍스트필드 ) 를검색대상으로한다. 따라서각필드를검색한결과를통합하여유사도를기준으로검색순위를결정할수가있다. 그림 3은질의에대하여적합성을판단하여 ( 적합성판단은 6.3 참조.) 적합하다고판단된필드 F1 과필드 F2 에대하여검색을수행하고 F 1 에질의가출현하는 문서 d 11, d 12 d13 가검색 ( 필드내문서와질의간의유사도측정은 6.4 참조.) 되며 F2 에질의가나타나는문서 d 21, d 23, d 24 가검색되어이러한결과순위들을통합한하나의문서유사도를생성하는과정을보여준다. 그림 3 필드검색결과들의통합 예를들어 d11 의유사도가 0.2이고 d 21 의유사도또한 0.2라면평균처리할경우 d1 의유사도는 (0.2+0.2) /2이다. 그러나첫번째필드에나타나는용어로구성된 ur uur 가상문서 C1 과질의간의유사도는 Sm( C1, q ) =0.5이며두번째필드에나타나는용어로구성된가상문서 C2 ur uur 와질의간의유사도는 Sm( C 2, q ) =0.1 이라면 d11 과 d21 의유사도가같더라도 d 11 의유사도에가중치를부 여하여통합하는것이타당할것이다. 즉, 메타데이타필드와질의간의적합성이높으면높을수록보다많은가중치를부여하여통합시이러한특성을반영해야한다. 따라서본논문에서는통합시에 Bayesan network의 lnk matrx[13] 개념을응용하여통합한다. Bayesan network란변수를표현하는노드와변수들간의의존관계를표현하는호 (arc) 의방향성비순환그래프이다. 노드 P에서노드 Q까지호가있다면 P는 Q의부모노드라부른다. 부모노드가자식노드에미치는영향은조건부확률로서표현하고이러한부모노드들이자식노드에영향을미치는확률을행렬로서표현한것이 lnk matrx이다. 자식노드 C에부모노드 S 1, S 2 로연결되어있다면아래와같은lnk matrx를가지며이에대한통합값을구할수있다. P( C S1, S2) P( C S1, S2) P( C S1, S2) P( C S1, S2) LC = [ ] PC ( S1, S2) PC ( S1, S2) PC ( S1, S2) PC ( S1, S2) B( C) = P( C S1, S2)* B( S1)* B( S2) + PC ( S1, S2)* B( S1)* BS ( 2) + PC ( S1, S2)* BS ( 1)* B( S2) + PC ( S, S)* BS ( )* BS ( ) 1 2 1 2 구체적인예로노드 Q가 A, B, C라는부모노드를가지며부모노드들은각기아래와같은값을갖는다고가정하자. P( A = true) = a, P( B = true) = b, P( C = true) = c OR 결합의경우, A, B, C 중하나라도 true라면 Q는 true이며 A, B, C 모두 false일경우만이 Q는 false가된다. 따라서이것은아래와같은 lnk matrx를갖는다. 1 0 0 0 0 0 0 0 L OR = [ ] 0 1 1 1 1 1 1 1 위 lnk matrx의상단은 Q가 false일때이며하단은 true일경우를의미한다. 각각의컬럼에해당하는값들은부모노드들의값의조합에해당한다. 따라서첫번째컬럼 0 ( 0002 ) 은 A, B, C모드 false일때이며, 두번째컬럼 1( 0012 ) 은 A와 B는 false이고 C만 true일경우이다. Q가 true일때의값은부모노드의확률들과하단의열들의값들과곱함으로써얻을수있다. Q가 true일경우를계산하면아래와같다. P( Q = true) = (1 a)(1 b) c + (1 a) b(1 c) + (1 a) bc + a(1 b)(1 c) + a(1 b) c + ab(1 c) + abc 이러한 lnk matrx를이용하기위하여메타데이타필드와질의간의적합성들을 lnk matrx로간주한다. ur uur ur uur 즉, P( F1 Q) = Sm( C1, q) 와 P( F2 Q) = Sm( C2, q) 로가정한다. 따라서그림 [3] 의 d11 과 d 21 을하나의 d 1 으로
메타데이타와텍스트정보의통합검색모델 239 통합하기위해서아래와같은 lnk matrx 를만들수 있으며이를이용하여통합유사도를구할수있다. ur r ur r 1 1 Sm( C 2, q) 1 Sm( C1, q) 0 LD = [ ur r ur r ] 0 Sm( C 2, q) Sm( C1, q) 1 하단의첫째컬럼 0 은두개의필드가모두존재하지 않을때이며두번째값은 F2 만이존재할때, 네번째컬 럼은 F 1, F 2 모두통합에영향을줄때를의미한다. 따라 서아래와같이통합식을구성할수있다. ur r r r Smd ( 1, Q) = SmC ( 2, q)* Smd ( 21, q)*(1 Smd ( 11, q)) + ur r r r r r Sm( C, q)* Sm( d, q)*(1 Sm( d, q)) + Sm( d, q)* Sm( d, q) 2 11 21 11 21 7. 실험 실험목적은비구조형질의를이용하여텍스트검색을수행한경우 (UQ) 와사용자가작성한구조형질의를이용하여구조검색을수행한경우 (SQ), 자동적으로구조형질의를구성하여구조검색을수행한경우 ([8] 에서제안한방법으로 VT로명기한다 ), 마지막으로본논문에서제안하는구조형질의를이용하여구조검색과텍스트검색을병행하여상호보완하는경우 (HQ) 의검색결과들을평가하여상호비교하는것이다. SQ는 SQ (AND) 와 SQ(OR) 로분류하여비교하였다. SQ(AND) 는복합질의시에 AND연산으로서결과를얻은것이며 SQ(OR) 는 OR연산으로검색하였을경우얻은결과이다. 그리고 VT는 VT1과 VT1~VT5로분류하여비교하였는데 VT1은가장우선순위가높은구조형질의에대해서구조검색을수행하는것이며, VT1~VT5는상위 5개의구조형질의에대해서모두검색을수행하고이에대한결과들을통합하는것이다. 측정기준은총질의에대한평균정확율, 평균재현율, 평균 10-precson, 평균 F1이다. 10-precson은상위 10개의검색결과에대해서정확율을계산한것인데일반적으로사용자들은상위검색결과에대해서주목하고하위검색결과들은크게관심을두지않기때문에 10-precson은중요하다. F1은정확율 (Precson) 과재현율 (Recall) 을하나의값으로나타내어검색모델의전체적인성능을간단히보여준다. F1은 2PR/(P+R) (P: 정확율, R: 재현율 ) 로정의된다. 본실험에서사용한테스트컬렉션은 Vrgna Tech 로부터제공받은CITIDEL 컬렉션이다. CITIDEL은 ACM을비롯한 DBLP 등다양한과학분야의저널에대한문서로구성되어있다. 이중 ACM의메타데이타로구성된 98,000여건의문서에서초록 (abstract) 을포함하고있는문서 39,698건을실험대상으로하였다. 실험대상이되는문서들은모두 4개의메타데이타필드 - ttle, abstract, publcaton, author-로구성되어있다. 적합문서판단을위한질의는단순질의와복합질의의두가지종류로구성하였는데, 단순질의란하나의필드에대해서만질의를구성하는것이며복합질의란두개의메타데이타필드를이용하여질의를구성한것이다. 본실험에서는적합문서판단을위한두가지형태의질의는 Vrgna Tech에서제공받은것으로같은질의형태및질의를사용함으로써결과비교를용이하게하고자하였다. 단, 질의에해당하는적합문서들은제공받지못하여적합문서판단은 ICU의 IRNLP 연구실의학생들에의해수행되었고따라서 Vrgna Tech의결과와다소상이할수도있다. 단순질의는하나의메타데이타필드에대하여질의를하는것으로서 ttle에대한질의, author에대한질의, publcaton에대한질의, 그리고 text에대한질의로 4종류로분류할수있다. 즉단순질의는 <ttle, author, publcaton, text> 중하나로구성한다. 복합질의는두개의메타데이타필드에대하여질의를하는것으로서단순질의의메타데이타필드중두개의필드조합으로구성된다. 따라서복합질의는 <ttle + author, ttle + publcaton, ttle + text, author + publcaton, author + text, publcaton + text> 중하나로구성되며총 6종류로구분된다. 단순질의는각종류별로 8개의질의로구성하였고복합질의는각종류별로 5개의질의로구성하여총 62개의질의로서실험을수행하였다. 표 1은각질의형태에따른종류별질의를예로보여준다. 위의질의들을이용하여 UQ, SQ(AND, OR), VT(VT1, VT1~VT5), 그리고 HQ에대하여검색을수행하였으며평균정확율, 재현율, 10-precson 그리고 F1으로성능을측정하였다. 성능비교는아래테이블 1 과같다. 7.1 UQ, SQ, VT1의결과비교결과에서볼수있듯이, 구조검색 (SQ) 이비구조검색 (UQ) 보다우수하다. 이것은비구조검색 (UQ) 보다구조검색 (SQ) 이보다사용자의검색의도를정확하게반영하였기때문이며사용자의의도에맞지않는메타데이타필드들에대해서는검색을수행하지않았기때문이다. 구조검색과 VT1은그검색결과는비슷하다. 이는사용자가직접구조질의를작성한경우와 VT의자동적으로변환한구조질의가유사하기때문이다. 7.2 SQ, VT1, VT1~VT5의결과비교자동적으로구조질의로변환하여상위 5개의질의를구성하여검색하여통합한경우 (VT1~VT5) 는 SQ보다다소좋은결과를보인다. 왜냐하면 SQ나 VT1은단하나의메타데이타필드에대해서만검색을수행하지만
240 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) 표 1 실험결과비교 구분 ( 개수 ) 종류 ( 개수 ) 예 단순질의 (32) 복합질의 (30) Ttle(8) author(8) publcaton(8) text(8) Ttle+author(5) Ttle+publcaton(5) Ttle+text(5) author+publcaton(5) author+text(5) Text+ publcaton(5) mage retreval, dynamc query edward fox, shnederman toms, jacm, ACM SIGMOD user profle, natural language processng mage retreval + nascmento mage retreval + tos mage retreval + relevance feedback susan brennan + tos susan brenan + nterface desgn user profle + tos 테이블 1 실험결과비교 평균 UQ SQ(AND) SQ(OR) VT1 VT1~VT5 HQ 정확율 26.05% 55.08% 50.10% 50.52% 51.05% 54.37% 재현율 40.72% 39.55% 79.87% 79.79% 80.62% 86.30% 10-Precson 28.24 65.87 72.50 80.08 82.01 84.12 F1 30.01 46.29 60.17 60.59 62.51 66.71 VT1~VT5는적어도두개이상의메타데이타필드를검색하기때문이다. 예를들어질의가 nformaton retreval 일경우 SQ나 VT1은 <(ttle, nformaton retreval )>, <(text, nformaton retreval )>, <(publcaton, nformaton retreval )>, <(ttle, nformaton ), (text, retreval )>, <(text, nformaton ), (ttle, retreval )>, 등다양하게구성될수있는구조형질의중하나의구조형질의만을선정하여검색하게되지만 VT1~VT5는이러한구조형질의중에서상위 5개의구조형질의에대해서검색을수행하여결과를얻기때문에사용자가지정하지않은필드에서도적합한문서를찾아낼수있다. 7.3 VT1~VT5 와 HQ 결과비교질의와가장적합한필드를검색하여구조형질의로변환하여검색하고텍스트를보완적으로검색하여통합한방안 (HQ) 이이들중가장좋은성능을나타낸다. 이러한이유는VT1~VT5는다음과같은세가지의단점을갖기때문이다. 1) 필요이상의메타데이타필드의확장 VT1~VT5는질의가나타날수있는모든필드를검색하고그중상위 5개의구조형질의를작성하므로질의에따라서상위 5개의구조형질의라하더라도좋지않은구조형질의가발생할수도있다. 좋지않은질의란구조형질의의메타데이타필드를검색하지않았다면더좋은결과를얻을수있는경우를말한다. 예를들어질의가 nformaton retreval 일경우상위 5개의질의로서 <(publcaton, nformaton retreval )> 이포함될경우이구조형질의에대해서도검색을수행하 고결과를통합하게된다. Publcaton 필드를검색하였을경우 nformaton retreval 에관련된적합한문서를찾을가능성보다는그렇지못할가능성이더크다. 왜냐하면많은 publcaton들이 nformaton retreval 과관련이없어도 nformaton 이라는명칭을가질수있기때문이다. 2) 질의어의분할이미상술하였듯이, VT에서는사용자의질의에대하여가능한모든구조형질의를구성하여 Bayesan network를기반으로메타데이타필드와질의간의발생확률을계산하여우선순위를결정한다. 질의가 nformaton retreval 일경우다음과같은상위 5개의구조형질의가생성된다고가정하자 (Q1~Q5). Q1 = <(ttle, nformaton retreval )> Q2 = <(text, nformaton retreval )> Q3 = <(ttle, nformaton ), (text, retreval )> Q4 = <(ttle, retreval ), (text, nformaton )> Q5 = <(publcaton, nformaton retreval )> VT는상위 5개의구조형질의에대하여검색하고결과를통합한다. Q1, Q2와는달리 Q3, Q4는질의가메타데이타필드에따라분리되어있다. 질의가분리됨에따라 nformaton system, nformaton processng, nformaton management 등 nformaton retreval 과는관련이없는정보들이검색될수있다. 이것은사용자는질의는 nformaton retreval 임에도불구하고이를분리하여각필드에질의함에따라사용자의정보
메타데이타와텍스트정보의통합검색모델 241 요구를잘못추론함으로써좋지않은결과를초래한것으로볼수있다. 3) 구조화질의순위에따른가중치반영부재 VT에서는상위 5개의질의의우선순위를정할때복잡한 Bayesan network 기법을도입하였음에도생성된구조형질의간의순위를결정할때만사용할뿐검색에직접적으로이용하지않는다. 즉, Q1은가장높은우선순위를갖는구조형질의이며, Q5는가장낮은우선순위를갖는구조형질의이지만 Q1으로부터얻은결과와 Q5로부터얻은결과를차별화하지않고있다. 다시말하면 Q1으로부터검색된결과는 Q5로부터검색된결과보다높은가중치를반영하여야하지만 VT에서는그러한가중치반영을하지않고있다. 본논문에서제시하는 HQ는 2개의필드 ( 시스템지정필드와텍스트필드 ) 혹은 3개의필드 ( 사용자지정필드, 시스템지정필드, 그리고텍스트필드 ) 만을검색대상으로하기때문에 VT의단점인 1) 불필요한메타데이타필드의검색을제한하였으며가장우선순위가높은메타데이타필드를검색대상으로하고텍스트를보완적으로검색하므로위예제의경우 Q1과 Q2의구조형질의만을검색하게되며VT와는달리질의를분할하여검색하지않는다. 그리고메타데이타필드와질의간의적합성을가중치로반영하기때문에우선순위결정시 Q1으로부터얻은결과에더많은가중치를부여할수있다. 8. 결론및향후연구방향본논문에서는사용자가메타데이타의특성을이해하지못하여도질의와필드간의적합성을측정하여사용자의정보요구를추론함으로써자동적으로구조형질의로변환하는방안을제시하였으며구조형질의를이용하여구조검색만수행하는것이아니라텍스트검색을병행하여상호보완하며, 검색된결과들을통합할때질의와필드간의적합성을가중치로활용하여통합에반영하는방안을제안하였다. 제안된기법은사용자가메타데이타의특성을이해하지못함에따라잘못된구조질의를하는경우에도사용자의오류를감안하여적합한결과를제공해줄수있다. 또한사용자가적합하게구조질의를작성하였을경우에도얻을수없는결과를다른메타데이타필드나텍스트를보완검색함으로써사용자가원하는결과를제공할수있다. 실험을통하여구조검색이비구조형질의를이용한텍스트검색보다우수하다는것을보였으며사용자의구조형질의뿐아니라시스템이추론하여구성한시스템의구조형질의도이용하여구조검색하며, 텍스트를 보완적으로검색하여이들결과들을가중치를부여하고통합할때가장우수하다는것을보였다. 구조형질의를자동적으로구성할때중요한것은여러메타데이타필드중, 어떤필드를검색대상으로결정하는것이다. 너무많은필드를검색하게되면효율이나결과면에서좋지않은결과를얻게되며너무적은필드를검색하게되면적합한결과들을충분히찾아낼수가없다. [8] 에서는상위 5개의구조형질의로검색을결정하였다. 상위 5개의구조형질의를검색하는것은질의에따라서잘못된구조질의가상위로랭크될가능성이있다. 즉, 너무많은필드를검색대상으로포함시킬수가있다. 이에본논문에서는 Bayesan network 가아닌벡터모델을기반으로간단히구조질의로전환하고전환된메타데이타필드를검색한후텍스트필드를보완적으로검색하여이두결과를가중치를반영하여통합하였다. 다양한필드가있을때검색할필드와검색하지않을필드를명확히결정하고가장적합한필드에서도출된결과들은다른필드에서얻은결과보다차별화하여순위를결정할때사용자의정보요구에적합한결과들을효율적으로찾아낼수있을것이다. 적합한메타데이타필드와텍스트필드를병행하여검색한다고하여도찾을수없는적합한문서가분명히있다. 이를모두찾기위해서는전체메타데이타필드를검색대상으로하여야하는데이는분명득보다는실이많다. 또한전체메타데이타필드를검색대상으로하여도찾을수없는적합한문서가있다. 예를들어질의가 이순신 이라하면 이순신 에대한질의를대상으로문서를검색할뿐이다. 만일 충무공 이라는문서가존재한다면 이순신 이라는질의로만은적합한문서로판단하기어렵다. 따라서온톨로지 [10] 를기반으로하여질의를확장 [4] 한다면보다많은적합한문서를얻을수있을것이다. 온톨로지를구축하여검색할경우질의에대한적절한확장이가능해지고또한상호이질적인특성을가진메타데이타들을동시에검색할수있다. 차후연구로서온톨로지를구성하여기법에도입하면보다월등한결과를얻을수있을것으로기대된다. 참고문헌 [ 1 ] Baeza-Yates, R., Rbero-Neto, B.: Modern Informaton Retreval. Addson Wesley, New York, NY (1999). [ 2 ] Callan, J, P.: Document flterng wth nference networks. In Proceedngs of the 19 th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Zurch
242 정보과학회논문지 : 데이타베이스제 34 권제 3 호 (2007.6) Swtzerland (1996) 262-269. [ 3 ] Calado, P., Crsto, M., Moura, E., Zvan B., Goncalves, M, A.: Combnng lnk-based and content-based methods for web document classfcaton. In Proceedngs of the 12 th Internatonal Conference on Informaton and Knowledge Management, New Orleans LA USA (2003) 394-401. [4] Campos, L, M., Ferenandez-Luna, J, M., Huete, J, F.: Query Expanson n Informaton Retreval Systems Usng a Bayesan Network-Based Thesaurus. In Proceedngs of the 14 th Annual Conference on Uncertanty n Artfcal Intellgence (UAI-98), San Francsco CA (1998) 53-60. [ 5 ] Calado, P., Slva, A, S., Vera, R, C., Laender, A, H, F., Rbero-Neto, B, A.: Searchng Web Databases by Structurng Keyword-based Queres. In proceedngs of the 11 th Internatonal Conference on Informaton and Knowledge Management, McLean VA USA (2002) 26-33. [6] Dumas, S, T., Platt, P., Hecherman, D., Saham, M.: Inductve learnng algorthms and representatons for text categorzaton. In Proceedngs of the 7 th Internatonal Conference on Informaton and Knowledge Management CIKM 98, Bethesda Maryland USA (1998) 148-155. [7] Denman, D., Sumner, T., Davs L., Bhushan, S., Jackson.: Mergng Metadata and Content-Based Retreval. In proceedngs of Journal of Dgtal Informaton, Volume 4 Issue 3. [8] Goncalves, M, A., Fox, E, A., Krowne, A., Calado, P., Laender, A, H, F., Slva, A, S., Rbero-Neto, B, A.: The effectveness of Automatcally Structured Queres n Dgtal lbrares. In proceedngs of the 2004 jont ACM/IEEE conference on Dgtal lbrares - Volume 00, Tuscon AZ USA (2004). [9] Hanes, D., Croft, W, B.: Relevance feedback and nference networks. In Proceedngs of the 16 th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Pttsburgh, PA, USA, June (1993) 2-11. [10] S. H. Myaeng, D.-H. Jang, M.-S. Km, and Z.-C. Zhoo. A flexble model for retreval of SGML documents. In Proceedngs of the 21st Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, pages 138-145, Melbourne, Australa, August 1998. [11] Passn, T, B.: Explorer s Gude to the Semantc Web, Mannng press (2004). [12] Rbero-Neto, B., Muntz, R.: A belef network model for IR. In proceedngs of the 19 th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Zurch, Swtzerland, August (1996) 253-260. [13] Slva, I., Rbero-Neto, B., Calado, P., Moura, E., Zvan, N.: Lnked-based and Content-Based Evdental Informaton n a Belef Network Model. In Proceedngs of the 23 rd Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Athens Greece (2000) 96-103. [14] Turtle, H, R., Croft, W, B.: Inference networks for document retreval. In Proceedngs of the 13 th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, Brussels, Belgum, September (1990) 1-24. [15] Turtle, H, R., Croft, W, B.: Croft. Evaluaton of an Inference network-based Retreval Model. ACM Transactons on Informaton Systems 9,3 (1991), 187-222. [16] Valle, R, F., Rbero-Neto, B, A., Lma, L, R, S., Laender, A, H, F., Junor, H, R, F, F.: Improvng text retreval n medcal collectons through automatc categorzaton. In Proceedngs of the 10 th Internatonal Symposum on Strng Processng and Informaton Retreval SPIRE 2003, Manaus Brazl (2003) 197-210. [17] T. T. Chnenyanga and N. Kushmerck. Expressve retreval from XML documents. In Proceedngs of the 24th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, pages 163-171, New Orleans, Lousana, USA, September 2001. [18] N. Fuhr and K. Gross. XIRQL: a query language for nformaton retreval n XML documents. In Proceedngs of the 24th Annual Internatonal ACM SIGIR Conference on Research and Development n Informaton Retreval, pages 172-180, New Orleans, Lousana, USA, September 2001. [19] G. Navarro and R. Baeza- Yates. Proxmal nodes: A model to query document databases by content and structure. ACM Transactons 15(4):400-435, Oct. 1997. 서버그룹연구원 유정목 1996 년 2 월충남대학교자연과학대학전산학과이학사. 1998 년 2 월충남대학교자연과학대학전산학과이학석사. 2004 년 2 월충남대학교공과대학컴퓨터과학과이학박사수료. 2005 년 1 월 ~ 현재한국전자통신연구원디지털홈연구단인터넷
메타데이타와텍스트정보의통합검색모델 243 맹성현 1983 년미국캘리포니아주립대학학사 1985 년미국 Southern Methodst Unversty (SMU) 석사. 1987 년미국 Southern Methodst Unversty (SMU) 박사. 1987 년 ~1988 년미국 Temple Unversty 교수. 1988 년 ~1994 년미국 Syracuse Unversty 교수 (tenured). 1994 년 ~2003 년충남대학교컴퓨터과학과교수. 2003 년 ~ 현재한국정보통신대학교교수 김성수 1997년강원대학교사범대학영문학사 2005년한국정보통신대학교공학부공학석사. 2007년 KT Bz컨설팅본부 이만호 1975년 2월서울대학교공과대학응용수학과공학사. 1977년 2월한국과학기술원전산학과이학석사. 1991년 2월미국인디아나대학교전산학박사. 1980년 5 월~1984년 8월충남대학교계산통계학과조교수. 2000년 8월~2001년 8월미국 Vrgna Tech. 방문교수. 1991년 4월~현재충남대학교공과대학전기정보통신공학부컴퓨터전공교수