636 정보과학회논문지 : 소프트웨어및응용제 33 권제 7 호 (2006.7) 구성정보와문맥정보를이용한전문용어의전문성측정방법 (Determining the Specificity of Terms using Compositional and Contextual Information) 류법모 배선미 최기선 (Pum-Mo Ryu) (Sun-Mee Bae) (Key-Sun Choi) 요약어떤용어가전문적인개념을많이내포하고있을때전문성이높다고말한다. 본논문에서는용어의내부구성정보와외부문맥정보를이용하여정보이론에기반한방법으로전문용어가내포하는전문성을정량적으로계산하는방법을제안한다. 용어의전문성은용어간상하위어관계설정에서중요한필요조건으로사용될수있다. 제안한방법은전문용어의내부구성정보를이용하는방법, 문맥정보를이용하는방법그리고두정보를모두이용하는방법으로나눈다. 구성정보를이용하는방법에서는전문용어를구성하는단어의빈도수, 가중치, 바이그램, 내부수식구조등을이용하고, 문맥정보를이용하는방법에서는전문용어를수식하는단어들의분포를이용한다. 본논문에서제안한방법은분야에독립적으로적용될수있고, 전문용어생성절차에대한특징을잘반영할수있는장점이있다. MeSH 트리에포함된질병이름의전문성값을계산한뒤상위어의전문성값과비교한결과 82.0% 의정확률을보였다. 키워드 : 용어의전문성, 상하위관계, 전문용어, 정보이론, 코퍼스, 구성정보, 문맥정보 Abstract A term with more domain specific information has higher level of term specificity. We propose new specificity calculation methods of terms based on information theoretic measures using compositional and contextual information. Specificity of terms is a kind of necessary conditions in term hierarchy construction task. The methods use based on compositional and contextual information of terms. The compositional information includes frequency, tf idf, bigram and internal structure of the terms. The contextual information of a term includes the probabilistic distribution of modifiers of terms. The proposed methods can be applied to other domains without extra procedures. Experiments showed very promising result with the precision of 82.0% when applied to the terms in MeSH thesaurus. Key words :Term specificity, Hypernymy, Terminology, Information theory, Corpus, Compositional information, Contextual information 1. 서론 사회가빠른속도로발전하면서새로운전문분야가지속적으로만들어지고있으며, 기존의전문분야도시대에따라성격이변하고있다. 지금까지대부분의전문분야지식은해당분야전문가들이관리하고있다. 그러나이방법은빠르게변화되는지식을효율적으로반영하 학생회원 : 한국과학기술원전산학과 pmryu@world.kaist.ac.kr 비회원 : 한국과학기술원인문사회과학부교수 sunmee@kaist.ac.kr 종신회원 : 한국과학기술원전산학과교수 kschoi@cs.kaist.ac.kr 논문접수 : 2004년 4월 20일심사완료 : 2006년 5월 12일 기어려운단점이있기때문에자동으로전문분야지식을관리는방법이활발히연구되고있다. 전문용어는전문분야의개념이언어적으로표현된형태이다 [1]. 따라서전문용어는전문분야지식의기본단위로사용되고있으며, 전문용어관리는전문분야지식관리에서핵심적인부분을차지한다. 용어의전문성 (specificity) 은용어가포함하는전문적인정보의양을정량적으로표현한것이다. 어떤용어가도메인전문적인정보를많이포함하고있을때전문성이높고, 반대로일상적인용어일수록전문성이낮다고가정한다. 본연구에서는용어의구성정보와문맥정보를이용하여주어진도메인 D 에서사용되는용어 t의전문성을식 (1) 과같이실수로표현하는방법을제안한다.
구성정보와문맥정보를이용한전문용어의전문성측정방법 637 표 1 MeSH 1) 트리의일부분. 노드번호는용어사이의계층구조를나타낸다. 노드번호 용어 C18.452.297 diabetes mellitus ( 당뇨병 ) C18.452.297.267 insulin-dependent diabetes mellitus ( 인슐린의존형당뇨병 ) C18.452.297.267.960 Wolfram syndrome ( 볼프람증후군 ) Spec( t D) R + (1) 전문분야개념은자신을다른개념들과구분시킬수있는고유한특징집합을가진다. 비슷한특징집합을가지는개념들은유사한의미를표현한다. 어떤개념을표현하는특징집합에새로운특징을추가하여더전문적인개념을만들수있다. 일반적으로기존의개념 X 와 X에새로운특징을추가하여생긴개념 Y 사이에는상하위관계가성립된다. 즉 X는 Y의상위개념이고, X의특징집합은 Y의특징집합의부분집합이다 [2]. 전문분야개념이전문용어로표현될때다음과같은두가지특징을관찰할수있다. 첫째, 기존의전문용어에새로운특징을추가하는수식어를부가하여더전문적인개념을표현하는용어가만들어진다. 예를들어표 1 에서 insulin-dependent diabetes mellitus 는 diabetes mellitus 에 insulin-dependent 라는수식어가부가되어만들어진더전문적인용어이다. 이방법으로생성된전문용어는추가된수식어의전문성만큼전체용어의전문성이증가한다. 이경우에는용어의구성단어들이용어의특징을표현하는정보로사용된다. 둘째, 기존전문용어의구성단어와전혀다른단어를이용하여더전문적인개념을표현하는경우가있다. 예를들어표 1에서 Wolfram syndrome 은상위어 insulin- dependent diabetes mellitus 의구성단어와전혀다른단어들로구성되어있다. 이경우에는용어의문맥정보가용어의특징을표현하는정보로사용된다. 따라서본연구에서는전문용어의전문성결정에서용어의구성정보와문맥정보가중요한정보가된다는가정을기반으로용어의전문성을측정하는방법을제안하고, 기존의용어계층구조에포함된용어들을대상으로제안한방법의유효성을평가한다. 용어의전문성은또한용어간상하위관계자동설정과정에서적용될수있다. 전문적인용어일수록구체적인개념을표현하며용어계층구조에서하위에나타나는경향이있기때문에, 용어의전문성은용어간상하위관계를결정하기위한하나의필요조건으로사용할수있다. 주어진도메인 D의전문용어로구성된용어계층 1) 미국의학도서관 (NLM, National Library of Medicine) 에서관리하는의학용어리스트이다. 용어들을주제어라고부르며, 주제어사이의상하위관계트리도제공한다. 본논문에서는 MeSH 2003 버전을사용하였다. (http://www.nlm.nih.gov/mesh/) 구조 H D 에서용어 t 1 이용어 t 2 의상위어인경우 t 1 의전문성은 t 2 의전문성보다낮다. 그림 1에서와같이두용어 t 1 과 t 2 가의미적으로충분히유사하고, t 1 의전문성이 t 2 의전문성보다작을경우, t 1 이 t 2 의상위어가될가능성이높다. 그러나용어의전문성은상하위어관계표현을위한충분조건은되지못한다. 예를들어그림 1 에서 t 1 의전문성이 t 3 의전문성보다작지만의미적으로유사하지않기때문에두용어사이에상하위어관계가성립할가능성은낮다. 그림 1 전문분야용어계층구조 H D 에서용어의전문성과용어간유사도. 두용어사이의거리가가까울수록유사도가높고, 용어의계층깊이가깊을수록전문성이높다. 본논문은다음과같이구성된다. 2장에서는용어의구성정보와문맥정보를이용하여정보이론에기반한방법으로용어의전문성을측정하는방법을설명하며, 3장에서는제안한방법에대한실험과평가가소개되고, 마지막으로 4장에서는결론및향후연구를소개한다. 2. 전문성계산방법이장에서는용어의구성정보와문맥정보를정보이론에기반한방법으로정량화하는방법을설명한다. 정보이론에서는정보량을 불확실성 또는 놀라움 의개념으로설명한다. 출현확률이낮은메시지가채널의출력에서나타나기전에는 불확실성 이높다고이야기한다. 불확실성 이높은메시지가실제로나타난경우 놀라움 의정도는커지고, 그메시지를표현하기위한비트수는다른출력에비해길어진다. 따라서그메시지의정보량은높아진다 [3]. 도메인 D와관련된코퍼스에서나타나는용어들이어떤채널의출력에서관찰되는일련의메시지라고가정하면, 용어 t가관찰되는사건 x 의정보량 I(x) 를코퍼스의각종통계정보를이용하여계산할수있다. 그리고 I(x) 를식 (2) 와같이용어 t
638 정보과학회논문지 : 소프트웨어및응용제 33 권제 7 호 (2006.7) 의전문성 Spec(t D) 으로사용한다. Spec( t D) I() x (2) 이경우, 정보량 I(x) 는식 (3), (4), (5) 와같은성질을가진다. I( x) = 0, p( x) = 1 일때 (3) 코퍼스에서나타날확률이 1인용어 t가실제코퍼스에서출현할경우얻을수있는정보량은없다. I( x) 0, 0 p( x) 1 일때 (4) 용어 t가코퍼스에서나타날경우, 정보의손실을초래하는경우는없다. 즉코퍼스에서나타나는모든용어는정보량을계산할수있으며, 0 이상의값을가진다. I( xi) > I( xj), p( xi) p( xj) 일때 (5) 용어 t i 가 t j 보다코퍼스에서나타날확률이낮을때, 실제코퍼스에서 t i 가나타날경우, 얻을수있는정보량이 t j 가나타날경우얻을수있는정보량보다많다. 즉코퍼스에서출현확률이낮은용어일수록정보량이많아지고전문성이높아진다. 다음장에서는식 (2) 의 I(x) 를계산하는여러가지방법을자세히설명한다. 2.1장에서는용어의내부구성정보를이용하는방법, 2.2장에서는용어의문맥정보를이용하는방법, 2.3장에서는두가지정보를모두이용하는방법을설명한다. 2.1 구성정보기반계산방법 ( 방법 1) 구성정보를이용한방법은기존의용어에개념을제한하는단어를추가하여새로운용어를만드는신조어생성특징을반영하는전문성계산방법이다. 구성단어의특징으로는구성단어의출현빈도수, 구성단어의가중치, 그리고구성단어의바이그램정보등이있다. 또한용어의구성단어들이수식어-피수식어관계를가지면서상호의존적이라는정보를추가적으로이용한다. 2.1.1 구성단어의특징을이용한계산방법한용어를구성하는각각의단어에그용어의특징들이분할되어저장되어있다는가정을하고, 각구성단어의특징을정량화하여전체용어의전문성을계산한다. 이계산방법을위하여용어 t는식 (6) 과같이여러개의단어로구성되어있다고가정한다. t = ww... 1 2 wm (6) 여기에서 t 는한개의용어이고, w i (1 i m) 는 t 를구성하는단위단어를나타낸다. 예를들어 gestational diabetes mellitus ( 임신당뇨병 ) 는세개의단위단어 gestational, diabetes, mellitus 로구성된다. 용어를구성하는각단어들이서로독립적이라고가정을하면식 (2) 의 I(x) 는식 (7) 과같이각구성단어들의정보량의합으로정의된다. m Spec( t D) = I() x = p( xi)log p( xi) (7) i= 1 여기에서 p(x i) 는단어 w i 가코퍼스에서나타나는사건 (x i) 의확률을나타낸다. 따라서 p(x i) 를추정하면해당용어의전문성을계산할수있다. 다음은 p(x i) 를추정하기위한 3가지정보를차례로설명한다. 정보 1. 구성단어의출현빈도수이방법에서는채널의출력에서관찰될확률이낮은단어가실제로관찰된경우높은정보량을가진다는정보이론의기본적인아이디어를따른다. 즉코퍼스에서출현확률이낮은단어들로구성된용어가더전문적이라는가정에기반한다. 발생빈도수가높은단어는여러개의전문용어에공통적으로나타나는일반적인단어이기때문에, 자신을포함하는전문용어의특징을차별화시킬수있는능력이낮다. 반대로발생빈도수가낮은단어들은적은수의전문용어에만포함되기때문에, 자신을포함하는전문용어의특징을차별화시킬수있는능력이높다. 예를들어 MeSH 트리에서다음의두용어를생각해보자. inborn metabolic brain disease (C18.452.100.100, 선천성대사성뇌질환 ) Refsum disease (C18.452.100.100.680.760, 레프섬병 ) 상위어 inborn metabolic brain disease 를구성하는단어 inborn, metabolic, brain 의빈도수는각각 1,296회, 34,407회, 18,735회 2) 이고, 하위어 Refsum disease 를구성하는단어 Refsum 의빈도수는 13회이다. 따라서 Refsum 은 inborn, metabolic, brain 에비하여다른용어에나타날확률이낮기때문에자신을포함하는용어를차별화시키는역할을하므로 Refsum disease 가 inborn metabolic brain disease 보다높은전문성값을가진다. 이가정에서식 (7) 의 P(x i) 는식 (8) 과같이추정한다. px ( i) pmle( wi) = freqw ( i)/ freqw ( j) j (8) 여기에서 freq(w) 는전체코퍼스에서단어 w 의빈도수를나타낸다. 전문용어자동인식과관련된연구에서는용어의빈도수가높을수록전문용어일가능성이높다고가정하고, 빈도수가높은전문용어후보에높은점수를부여하였다 [4,5]. 그러나이방법에서는전문용어의빈도수가아니고전문용어를구성하는단어의빈도수를이용한다는점에서기존의전문용어인식논문에서제안하였던방법과차이가있다. 2) 단어의빈도수는통계정보를추출하기위하여사용된코퍼스의종류에따라다르다. 여기에서제시한단어의빈도수는 3장의실험방법에서설명하는코퍼스에서추출한값이다.
구성정보와문맥정보를이용한전문용어의전문성측정방법 639 정보 2. 구성단어의가중치정보검색에서는단어빈도수 (term frequency: tf) 에문서빈도수의역수 (inverted document frequency: idf) 를곱한 tf idf 를색인어의가중치계산에가장널리사용한다 [6]. 단어 t 의 tf idf 값은식 (9) 와같이계산된다. N (1+ log tf ( t)) log if tf ( t) 1 tf idf () t = df () t 0 if tf ( t) = 0 (9) 여기에서 N 은전체문서의개수를나타낸다. 빈도수가높으면서제한된문서에집중적으로나타나는단어가높은가중치를가진다. 가중치가높은단어는특정문서를다른문서와차별화시키는대표적인단어의역할을하기때문에전문적인정보를많이포함하고있다고할수있다. 따라서용어 t 에가중치가높은단어들이많이포함된경우전문성이높다고가정한다. 용어를구성하는모든단위단어들이독립적으로나타난다는가정을하면식 (7) 의 P(x i) 는식 (8) 과같이추정된다. tf idf ( wi ) px ( i) pmle( wi) = 1 tf idf ( wj ) (10) 이식에서는가중치값이높은단어일수록낮은 P(x i) 를가진다. 정보 3. 구성단어바이그램확률이방법은용어를구성하는단어들이바로앞단어에만영향을받고, 코퍼스에서인접해서나타날확률이낮은단어쌍이포함된용어의전문성이높아진다는가정을기반으로한다. 코퍼스에서인접해서나타날확률이낮은단어쌍은제한된용어에만나타나기때문에자신을포함하는용어의특징을대표할수있다. 이방법은어떤용어의특징을표현하기위하여각각의구성단어들이독립적인역할을하는지, 아니면여러개의단어들이집합적으로역할을하는지를판단하기위하여도입되었다. 이가정에서식 (7) 의 P(x i) 는식 (9) 와같이추정된다. p ( wi ) = freq( wi ) / freq( wj ) i = 1 인경우 MLE px ( i ) p ( wi wi j ) = freq( wi 1wi )/ freq( wi 1wj ) i > 1 인경우 j (11) 1 MLE 여기에서 P MLE(w 1) 은 t 를구성하는단어중첫번째단어가나타날확률을나타낸다. P MLE(w i w i-1) 은 t에서 i-1 번째위치에단어 w i-1 가나타났을때 i 번째위치에단어 w i 가나타날확률을나타낸다. freq(w 1w 2) 는단어 w 1 과 w 2 가코퍼스에서인접하여주어진순서대로나타나는빈도수를나타낸다. 2.1.2 구성단어간수식관계를이용한계산방법전문용어는복합명사로표현되는경우가많기때문에 j 전문용어내부의수식구조를알수있으면상대적으로정확한전문성값을계산할수있다. 2.1.1장에서는모든구성단어를독립적이라고가정하였지만, 이장에서는구성단어사이에수식어-피수식어관계가있다고가정하고, 이관계를이용하여용어의전문성을계산한다. 즉전문용어에서기반명사와수식어를분리하여전문성값을독립적으로계산한뒤, 두전문성값의합을전체용어의전문성값으로사용한다. 이방법으로계산된전문성은기반명사의전문성보다항상큰값을가지는장점이있다. 그러나전문용어구성단어들사이의정확한수식구조를분석하기어렵다는단점이있다. 따라서본연구에서는전문용어사이의내포관계를이용한단순화된수식구조를이용한다. 용어 X 가다른용어 Y 의일부로포함되면 X 는 Y 에내포되었다고정의한다 [4]. 예를들어, 용어 diabetes mellitus 는용어 insulin dependent diabetes mellitus 에내포된다고말한다. 두개의용어 X 와 Y 가동일한분류를나타내는용어이고, Y 가 Mod X 와같은형태로 X 를내포하고있을경우, X 는기반용어이고 Mod 는 X 의수식어라고정의한다. 이경우 Spec(Y D)>Spec(X D) 관계가성립한다. 위의예에서 diabetes mellitus 와 insulin dependent diabetes mellitus 는모두질병이름이고, diabetes mellitus 가 insulin dependent diabetes mellitus 에내포하기때문에 diabetes mellitus 는기반용어이고, insulin dependent 는수식어이다. 한개의용어에여러개의용어가내포될경우길이가가장긴용어를기반용어로선택한다. 예를들어세개의용어 neuropathy ( 신경병증 ), amyloid neuropathy ( 아밀로이드신경병증 ), familiar amyloid neuropathy ( 가족성아밀로이드신경병증 ) 에서 familiar amyloid neuropathy 는다른두개의용어모두를내포하지만길이가더긴 amyloid neuropathy 가기반용어이고, familiar 가수식어이다. 수식관계를이용한용어의전문성은식 (12) 와같이정의된다. Spec( Y D) = Spec( X D) + α Spec( Mod D) (12) 여기에서 Spec(X D), Spec(Mod D) 는 2.1.1 장에서제안한 3가지정보중에서한가지를선택하여계산한다. 단두개의전문성값모두동일한정보를사용하여계산한다. α 는 0과 1 사이의값을가지며, Spec(Y D) 가지나치게커지는것을방지하기위하여사용한다. 일반적으로내포관계를이루는두용어에서내포되는용어는내포하는용어의상위어가된다. 따라서이방법으로전문성을계산하면하위어는상위어보다항상높은전문성값을가지기때문에본연구의가정과일치한다.
640 정보과학회논문지 : 소프트웨어및응용제 33 권제 7 호 (2006.7) 2.2 문맥정보기반계산방법 ( 방법 2) 상하위어관계를가지는두용어를구성하는단어들이상이할경우는기존의용어에수식어를추가하여새용어를만드는신조어생성특징에위배된다. 따라서방법 1만을이용하여이현상을설명하기매우어렵다. 이장에서는이단점을보완하기위하여용어의문맥정보를이용하여전문성을계산하는방법을설명한다. 코퍼스에서어떤용어를중심으로주위에나타나는단어들의분포를문맥정보라고한다. 용어와공기하는단어들의분포, 용어를논항으로가지는술어의분포, 용어를수식하는수식어의분포등이문맥정보로사용될수있다. 일반적으로일상적인용어일수록다른단어의수식을받을확률이높고, 전문적인용어일수록용어내부에많은정보를내포하고있기때문에다른단어의수식을받을가능성이낮다 [7]. 따라서용어를수식하는단어들의분포를전문성계산을위한문맥정보로사용한다. [7] 에서는코퍼스에서추출한용어의최우측전방수식어의분포만을문맥정보로이용한경우가장좋은실험결과를보였다. 그러나전문용어일수록다른단어의수식을받는경우가적기때문에통계적으로충분한문맥정보를추출하는작업이매우중요하다. 따라서주어진전문용어가나타나는문장을의존구조파서 3) 를이용하여분석한뒤, 그용어의수식어를추출하여문맥정보로이용한다. 그림 2에서 developed, established 두개의단어가 diabetes mellitus 를수식한다. 따라서 diabetes mellitus 의수식어집합에서 develop 와 establish 의빈도수를 1씩증가시킨다. 그림 2 문장 The risk of having developed established diabetes mellitus 의의존구조 용어 t 를수식하는단어들의분포를이용하여계산된엔트로피를식 (13) 과같이계산한다. Hmod ( t) = p( modi, t)log p( modi, t) i (13) 여기에서 p(mod i,t) 는 mod i 가 t 를수식할확률을나타내고, 식 (14) 와같이추정된다. pmle ( modi,) t = freq( modi,)/ t freq( mod j,) t j (14) 3) 본연구에서는영어구문분석을위하여 Conexor functional dependency parser (http://www.conexor.fi) 를사용하였다. 이파서에서사용하고있는많은구문관계중에서 mod (postmodifier), attr (attributive nominal) 관계를사용하여각용어의수식어를추출하였다. 여기에서 freq(mod i,t) 는전체코퍼스에서 mod i 가 t 를수식하는회수를나타낸다. 식 (13) 에서계산된엔트로피는모든 (mod i,t) 쌍의평균정보량을나타낸다. 전문적인용어일수록수식어의분포가단순하기때문에낮은엔트로피를가지고, 일상적인용어일수록수식어가복잡하기때문에높은엔트로피를가진다. 따라서전문적인용어일수록높은정보량을가지도록하기위하여, 식 (15) 와같이최고엔트로피에서그용어의엔트로피값을뺀값을그용어의정보량으로정의하고, 식 (2) 의 I(x) 에대응시킨다. Spec( t D) = I() x max H mod () ti H mod ( tk ) 1 i n (15) 이계산방법은용어자체또는그용어의수식어가코퍼스에서나타나지않는경우에전문성을계산할수없는단점이있다. 2.3 구성 / 문맥정보기반계산방법 ( 방법 3) 용어를구성하는단어들이상위어를구성하는단어들과전혀다를경우, 내부구성정보를이용하여얻어진전문성값을상위어의전문성값과객관적으로비교하기어렵다. 한편실험코퍼스에서충분한문맥정보를구할수가없는용어들은문맥정보를이용하여정확한전문성값을계산할수없다. 두방법의단점을극복하기위하여식 (2) 의 I(x) 를식 (16) 과같이두방법을혼합하여계산할수있다. 1 Spec( t D) = I() x 1 1 γ( ) + (1 γ)( ) IComp( x) ICtx( x) (16) 여기에서 I Comp(x) 와 I Ctx(x) 는각각 t 의구성정보를이용한정보량과문맥정보를이용한정보량을 0과 1사이의값으로정규화한값이다. γ(0 γ 1) 는두값의가중치를나타내고, γ = 0.5 인경우는두값의조화평균이다. 따라서두값이공통적으로높은값을가질경우에높은전문성값을가진다. 3. 실험및평가 3.1 시스템구성전체시스템의구성은그림 3과같이세개의모듈로구성되고각각의기능은다음과같다. 전문용어관리자 : 통계정보추출또는전문성계산의대상이되는전문용어리스트를관리한다. 용어의전문성값이계산된후평가기준에맞게평가한다. 통계정보관리자 : 코퍼스에서전문성계산을위한통계정보를추출하고, 전문성관리자에게통계정보를서비스한다. 전문성관리자 : 용어의전문성값을논문에서제안한다양한방법으로계산한다.
구성정보와문맥정보를이용한전문용어의전문성측정방법 641 표 2 실험대상용어하위트리의요약정보 항목값예제 용어수 436 트리의최대깊이 7 용어의평균구성단어 2.22 최대구성단어용어의단어수 5 상위어를내포하는용어수 62 Tay-Sachs disease (C18.452.100.100.435.825.300.300.840, 테이삭스병 ) carbamoyl-phosphate synthesis I deficiency disease (C18.452.100.100.162, 카르바밀인산신테시스 I 결핍증 ) 그림 3 전체시스템구성도 3.2 실험방법및평가기준제안방법의유효성을측정하기위하여기존의용어계층구조에서상하위어관계를가지는용어사이의전문성값을비교하였다. MeSH 트리중에서 metabolic diseases (C18.452, 대사성질환 ) 를루트노드로가지는하위트리에포함된용어 436개를대상으로전문성계산방법을실험하였다. 이하위트리의특징은표 2에정리되어있다. 용어 436개를검색어로사용하여 MED- LINE 4) 데이타베이스에서 170,000개의논문요약문 ( 약 20,000,000 단어 ) 을추출하였다. 추출된요약문에서제목과요약부분을 Conexor 파서로분석한뒤다음과같은통계정보를추출하였다. 전문용어의빈도수, tf idf, 전문용어가포함된문서의빈도수 전문용어의수식어분포 전문용어구성단어의빈도수, tf idf, 구성단어가포함된문서의빈도수 전문용어구성단어의바이그램정보적용율 (coverage) 과정확률 (precision) 을이용하여제안한방법을평가한다. 적용율은식 (17) 과같이주어진방법으로전문성값을계산할수있는용어의비율로 정의된다. 방법 2에서는코퍼스에서해당용어가나타나지않는경우전문성값을계산할수없기때문에적용율이낮아진다. 이와반대로, 방법 1은전체구성단어중일부단어만코퍼스에서나타나도전문성값을계산할수있기때문에적용율이높다. 주어진방법으로전문성을계산할수있는전문용어의수적용율 = 전체전문용어의수 (17) 정확률은식 (18) 와같이전문성값을비교할수있는모든부모-자식관계중에서올바른전문성값을가지는관계의비율로정의된다. 올바른전문성값을가지는 R( parent, child) 개수정확률 = 트리에서전체 R( parent, child) 개수 (18) 여기에서 R(parent, child) 는부모-자식관계를가지는용어쌍중에서두용어모두전문성값을가지는관계를나타낸다. 이용어쌍에서상위어의전문성이하위어의전문성보다낮을경우올바른전문성값을가진다고말한다. 예를들어, 그림 4에서두개의용어 metabolic diseases 와 diabetes mellitus 모두전문성값을가지고있는경우 R( metabolic diseases, diabetes mellitus ) 관계가성립하고, Spec( metabolic diseases disease)< Spec( diabetes mellitus disease) 인경우이관계가올바른전문성값을가진다고판단한다. 용어의상하위관계를두가지유형으로나누어정확률을계산하였다. 유형 I은상위어가하위어에내포된경우이고, 유형 II는그렇지않은경우이다. 전체관계중유형 I은 62개이고, 유형 II는 374개이다. 유형 I 은 2.1.2장의용어내부수식구조를이용하는방법을사용하면두용어의전문성값은항상올바른관계를가진다. 4) MEDLINE 은미국 National Library of Medicine(NLM) 에서관리하는의료분야서적데이타베이스이다.(http://www.nlm.nih.gov/pubs/factsheets/medline.html) 그림 4 MeSH 트리의일부분
642 정보과학회논문지 : 소프트웨어및응용제 33 권제 7 호 (2006.7) 먼저정확률의상한선 (upper bound) 를알아보기위하여종합병원내과전문의와전공의 10명에게 436개의용어를부모노드의용어와함께제시하고더전문적인용어를선택하는실험을실시하였다. metabolic diseases 는내과와가장관련이있는분야이다. 테스트결과에서유형 I, 유형 II에대해서각각평균정확률 96.6% 와 86.4% 를보였고, 전체관계에대해서는평균정확률 87.4% 를보였다. 이결과들이이논문에서제안한방법들로얻을수있는정확률의상한선이라고판단된다. 유형 I은간단한규칙으로판단이가능하지만정확률이 100% 가되지않은것은테스트에참가한사람의실수라고추정된다. 3.3 실험결과및분석표 3과같이방법 1, 방법 2, 방법 3으로용어의전문성값을각각계산한뒤평가하였다. 방법 1에서는빈도수, 가중치, 바이그램정보를이용한경우와각각의경우에수식구조정보를이용한경우를나누어서실험하였다. 방법 3은방법 1과방법 2에서가장좋은결과를보인두가지방법을혼합하였다. 또한전문용어를구성단어단위로나누지않고용어자체의빈도수와가중치 (tf idf) 를이용하여전문성을계산하는방법을추가로실험하였다. 이추가실험의목적은전문성계산에서구성단어단위의정보를이용하는경우와, 용어전체단위의정보를이용하는경우를비교하는것이었다. 실험결과방법 1에서는구성단어의가중치와용어의수식구조정보를이용한경우정확률 78.9%, 적용율 100% 로가장좋은성능을보였다. 방법 1에서구성단어의빈도수와바이그램정보를이용하는경우에도수식구조정보를같이이용하면모두좋은성능을보였다. 그림 5는용어의내부수식구조를이용하여전문성을계산할때수식어가중치의변화에따른정확률의변화를보여준다. 이그래프는어떤수식어가기존용어와결합할때그수식어의정보량중일부분만큼만전체전문성증가에반영된다는사실을설명한다. 즉수식어의특징집합과기존용어의특징집합사이에교집합이있을경우, 새용어의전문성은두단어의전문성의합에서교집합만큼줄어든다는사실을간접적으로보여주고있다. 그림 5 방법 1에서 값의변화에따른정확률의변화 구성정보 ( 방법 1) 구분 전문가평가 ( 평균 ) 용어빈도수 용어가중치 빈도수 빈도수 + 수식구조 (α= 0.2) 가중치 가중치 + 수식구조 (α= 0.2) 바이그램 바이그램 + 수식구조 (α= 0.3) 문맥정보 (mod cnt>1) ( 방법 2) 구성정보 + 문맥정보 ( 방법 3) ( 가중치 + 수식구조, γ=0.8) 표 3 용어의전문성실험결과 (%) 96.6 (41.55/43) 정확률 유형 I 유형 II 전체 86.4 (339.45/393) 57.9 (22/38) 52.6 (20/38) 0.37 (16/43) (43/43) 44.2 (19/43) (43/43) 37.2 (16/43) (43/43) 90.0 (18/20) 95.0 (19/20) 61.0 (130/213) 59.2 (126/213) 72.5 (285/393) 72.8 (286/393) 75.3 (296/393) 76.6 (301/393) 59.5 (234/393) 60.6 (238/393) 66.4 (75/113) 79.6 (90/113) 87.4 (381/436) 60.6 (152/251) 58.2 (146/251) 69.0 (301/436) 75.5 (329/436) 72.2 (315/436) 78.9 (344/436) 57.3 (250/436) 64.4 (281/436) 70.0 (93/133) 82.0 (109/133) 적용율 89.5 (390/436) 89.5 (390/436) 70.2 (306/436) 70.2 (306/436)
구성정보와문맥정보를이용한전문용어의전문성측정방법 643 한편, 용어전체를이용한방법또는구성단어의바이그램정보를이용한방법보다구성단어를독립적으로이용한방법이더좋은성능을보였다. 이결과는용어를구성하는각각의단어들이용어의전체특징집합을분할하여가지고있는경향이강하다는사실을설명한다. 즉전문적인개념은기존의개념에새로운특징을추가하여생기는경우가많고, 이개념을전문용어로표현할때기존의용어에추가되는특징을나타내는단어를수식어로사용하는경우가많다는이논문의가정을뒷받침한다. 방법 2에서는수식어의빈도수가 2 이상인경우에정확률 70.0%, 적용율 70.2% 로가장좋은성능을보였다. 빈도수기준을높이면충분한수식어를얻지못하는단점이있고, 그반대의경우는각용어들이비슷한수식어들을가지게되어변별력이낮아지는단점이있다. 이방법은방법 1의용어구성단어의빈도수와가중치를이용하는방법보다낮은성능을보였다. 그이유는전문용어는그자체로충분한정보를가지고있고, 일반용어와는달리다른단어의수식을받는경우가적기때문에코퍼스에서충분한문맥정보를얻을수없기때문이라고추측된다. 방법 1과방법 2에서가장좋은성능을나타낸두가지방법을혼합한실험 ( 방법 3) 에서는식 (16) 에서 =0.8 인경우에정확률 82.0%, 적용율 70.2% 의성능을보였다. 이방법은전체실험중가장높은정확률을보였지만, 방법 2에서전문성값을계산하지못하는용어들은이방법에서제외하였기때문에낮은적용율을보였다. =0.8 인경우가장높은정확률을나타낸것은전문용어는용어의내부구성정보가문맥정보보다더중요하다는사실을설명한다. 그림 6은방법 3에서 값의변화에따른정확률의변화를보여준다. =1.0은용어의구성정보만사용한경우이고, =0은용어의문맥정보만사용한경우이다. 정확률 82.0% 는상한선 87.4% 에상당히근접한결과로판단된다. 같은용어쌍에대하여방법 1, 방법 2의결과와방법 3의결과를비교하면표 4와같다. 방법 3은표 3에서와같이방법 1과방법 2의결과중각각가장좋은두결과를선택하여결합하였다. 방법 1, 방법 2에서올 그림 6 방법 3에서 값변화에따른정확률변화바른전문성관계를가진용어쌍은방법 3에서도모두올바른전문성관계를가졌다. 방법 1에서만올바른전문성관계를가지는용어쌍은모두방법 3에서올바른전문성관계를가졌고, 방법 2에서만올바른전문성관계를가진용어쌍에서 6.7% 만이방법 3에서올바른전문성관계를가졌다. 이두가지결과는전문분야용어의전문성계산에서는용어의구성정보가더중요하다는사실을다시한번더설명한다. 두방법에서모두올바르지않은전문성관계를가지는용어쌍은방법 3 에서모두올바르지않는전문성관계를가졌다. 결과적으로방법 1에서올바른전문성관계를가지는용어쌍은방법 3에서도모두올바른전문성관계를가졌고, 추가적으로방법 2에서만올바른전문성관계를가지는용어쌍중일부분이방법 3에서올바른전문성관계를가진다. 표 5는방법 1의오류를방법 2의결과를이용하여보정한예를보여준다. 방법 1에서는상위어의전문성이더높지만방법 2와방법 3에서는하위어의전문성이더높다. 이예에서는방법 1의결과에서두용어의전문성의차이가충분히작기때문에방법 2의결과를이용하여보정할수있었다. 전체적인결과분석에서용어의내부구성정보가전문성계산에서중요한역할을하고있음을알수있었다. 상대적으로문맥정보를이용한방법은자체적으로도낮은정확률과적용율을보였고, 혼합한방법에서도보 방법 1 ( 가중치 + 수식구조, =0.2) 표 4 방법 1, 2, 3 의전문성계산결과비교 ( 용어쌍의개수 ) 방법 2 (mod cnt>1) Correct 방법 3 ( =0.8) Incorrect Correct Correct 71 0 71 Correct Incorrect 36 0 36 Incorrect Correct 2 14 16 Incorrect Incorrect 0 10 10 계 109 24 133 계
644 정보과학회논문지 : 소프트웨어및응용제 33 권제 7 호 (2006.7) 상위어 하위어 표 5 방법 1 과방법 2 의결과가결합하여방법 3 에서올바른전문성관계를계산한예 calcinosis ( 석회침착증 ) 전문성 ( 방법 1) 전문성 ( 방법 2) 전문성 ( 방법 3) 43.100 2.269 0.105 Crest syndrome (CREST 증후군 ) 42.619 3.395 0.106 평가 Incorrect Correct Correct 조적인역할만수행하였다. 따라서문맥정보의정확률을높이는방법에대한추가적인연구가필요하다. 시스템의성능을향상시키기위하여실험과정에서향후개선하여야할부분이몇가지있었다. 첫째, MeSH 트리의상위또는중간노드가질병의분류를나타내는경우를구분할필요가있다. 예를들어 acid-base imbalance 는흔히사용하는질병의이름이아니고 산염기평형이상 ( 酸鹽基平衡異常 ) 이라는질병의분류이름을나타내기때문에코퍼스에서하위어보다상대적으로출현빈도수가낮다. 5) 따라서하위어보다높은전문성값을가지는오류가발생한다. 질병의분류와질병의이름의구분은전문가의판단에의존하여야한다. 둘째, 전문용어의이형태를고려하지않아서정확한통계정보를추출하지못한경우가많았다. 예를들어 diabetes mellitus 와 diabetes 는같은의미를가지지만실험에서서로다른용어로인식하는문제가있었다. 이문제또한전문가의판단에따르거나전문용어사전을참조하여야한다. 향후용어의이형태를함께이용하여통계정보를추출할필요가있다. 셋째, 전문용어조어법분석이가능하면성능을높일수있다. 방법 2에의한오류도코퍼스에서추출한문맥정보가상하위어관계에대한가정과일치하지않아서발생한다. 예를들면 nephrocalcinosis (C18.452.174.130.560, 신석회침착증 ) 가 calcinosis (C18.452.174.130, 석회침착증 ) 의하위어인경우, 조어법분석을통하여 nephrocalcinosis 가수식어 nephro 와기반단어 calcinosis 로구성된다는사실을파악하면, 2.1.2에서설명한수식구조를이용한전문성계산방법을적용할수있다. 그러나전문용어의조어법은분야마다특징이다르기때문에분야별로별도의조어법분석이필요하다. 3.4. 기존연구와의차이점용어의전문성측정방법과관련된연구는정보검색분야에서시스템의정확률을높이기위하여분야의특징을대표하는색인어추출과관련된연구에서주로연구되었다. Aizawa[8] 와 Wong[9] 은용어의전문성을정보이론에기반한방법으로측정하였다. 이연구들은정 5) acid-base imbalance 의빈도수는 85회이고, 하위어인 acidosis 와 alkalosis 는각각 10,192회, 2,394회나타났다. 보검색시스템에서많이사용되는용어의가중치계산방법을수학적으로해석하려고시도하였다. 문서또는전체코퍼스에서용어의빈도수를이용하여용어의가중치를계산하였다. 전문분야용어를가정하지않았기때문에용어의구성정보와문맥정보를이용하지않았다는점에서본연구와의차이점이있다. 용어간계층관계설정을위한연구에서도용어의전문성이논의되었다. Caraballo[7] 는본연구의방법 2와유사하게전문적인정보를많이포함한명사일수록코퍼스에서나타날때다른수식어의수식을받는경우가적고, 반대로일상적인명사일수록수식어의수식을받는경우가많다는가정을기반으로하였다. 따라서수식어의엔트로피가높을수록다양한수식어를가지기때문에일반적인명사이고, 엔트로피가낮을수록전문적인명사라고판단하였다. 이연구는일반명사들의전문성을측정하였기때문에전문용어와달리비교적풍부한수식어를코퍼스에서수집할수있었다. 따라서구문분석과정을거치지않고, 각명사들의가장오른쪽전방수식어 (rightmost prenominal modifier) 만추출하여엔트로피를계산하였다. 또한이연구는대상명사가대부분단일단어로구성되어있기때문에문맥정보만을이용하여전문성을계산하였다. 4. 결론및향후연구본논문에서는용어가전문적인정보를많이포함할수록전문성이높다고가정하고, 용어의구성정보와문맥정보를이용하여용어의전문성의정도를정량적으로계산하는방법을제안하였다. 제안한방법은적용분야의특징적인정보를이용하지않기때문에다른분야에쉽게적용할수있는장점이있다. 실험에서용어의내부구성정보를이용하는방법, 문맥정보를이용하는방법, 그리고두가지방법을조합한방법으로용어의전문성을계산하였고, 의학용어분류체계인 MeSH 트리에적용하여평가하였다. 실험결과용어의구성정보와문맥정보를함께사용한경우가장높은정확률 (82.0%) 를보였다. 향후제안한방법이용어의이형태를고려할수있도록하는방법과, 전문용어조어법분석을통하여단어내부에포함된정보도추출할수있는방법에대한연
구성정보와문맥정보를이용한전문용어의전문성측정방법 645 구도필요하다. 또한용어구성단위의의미정보를이용하는정교한모델을개발할예정이다. 마지막으로제안한방법을용어간자동계층관계설정에적용할계획이다. 참고문헌 [1] Sager, J.C., "Section 1.2.1 Term formation," in Handbook of Terminology Management Vol.1, John Benjamins publishing company, 1997. [2] ISO 704, "Terminology work-principle and methods," ISO 704 Second Edition, 2000. [3] T.M. Cover & J.A. Tomas, Elements of Information Theory, New York: John Wiley and Sons Inc., 1991. [4] Katerina Frantzi, Sophia Anahiadou, Hideki Mima, "Automatic recognition of multi-word terms: the C-value/NC-value method," Journal of Digital Libraries, Vol. 3, Num 2, pp. 115-130, 2000. [5] 오종훈, 이경순, 최기선, 분야간유사도와통계기법을이용한전문용어의자동추출, 정보과학회논문지 : 소프트웨어및응용제 29 권제 1 호, pp. 258-269, 2002. [6] Christopher D. Manning and Hinrich Schutze, "Foundations of Statistical Natural Language Processing," The MIT Press, 1999, p. 543. [7] Sharon A. Caraballo and Eugene Charniak, "Determining the Specificity of Nouns from Text," in the Proceedings of the 1999 Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, pp. 63-70, 1999. [8] A. Aizawa, An information-theoretic perspective of tf-idf measures, Journal of Information Processing and management Vol. 39, 2003. [9] S.K.M Wong and Y.Y. Yao, An Information- Theoretic Measure of Term Specificity, Journal of the American Society for Information Science, Vol. 43, Num. 1, 1992. 배선미 1992년이화여자대학교불어불문학과졸업 ( 학사 ). 1994년이화여자대학교대학원불어불문학과졸업 ( 석사 ). 1997년이화여자대학교대학원불어불문학과수료 ( 박사 ). 1998년미국산호세주립대학전산학과수학. 2002년프랑스마른라발레대학교대학원전산학과전산언어학전공 ( 박사 ). 2003년프랑스마른라발레대학교 Gaspard Monge 연구소박사후연구원. 2003년~2005년한국과학기술원정보전자연구소 BK 21 박사후연구원. 2006년~현재한국과학기술원인문사회과학부연구교수. 관심분야는전산형태론, 전산통사론, 시소러스, 전문용어 최기선 1978년서울대학교자연과학대학수학과졸업 ( 학사 ). 1980년한국과학기술원전산학과졸업 ( 석사 ). 1986년한국과학기술원전산학과졸업 ( 박사 ). 1987년~1988년일본 NEC C&C 정보연구소연구원. 1988 년~현재한국과학기술원전산학과교수. 1997년~1998년미국스탠포드대학 CSLI 객원교수. 2002 년~2003년일본 NHK 방송기술연구소초빙연구원. 2006 년~현재한국인지과학회회장. 2003년~현재국가지정언어자원특수소재은행장 http://bola.kaist.ac.kr. 2002년~현재 ISO/TC37/SC4 언어자원관리표준 Secretary. 2002년~현재 TermNet 회장. 2000년~현재 ACM TALIP, IJCPOL 편집위원, IAMT council member. 1998년~현재전문용어언어공학연구센터 http://korterm.or.kr/. 관심분야는온톨로지, 텍스트마이닝, 인공두뇌, 지식획득, 창의계산론, 언어공학, 시맨틱웹 류법모 1995년경북대학교컴퓨터공학과졸업 ( 학사 ). 1997년포항공과대학교대학원컴퓨터공학과졸업 ( 석사 ). 2000년~현재한국과학기술원전산학과박사과정. 1997 년~1999년한국전자통신연구원 (ETRI) 자연어처리연구실연구원. 1999년~2004 년 ( 주 ) 케이포엠기술연구소연구원. 관심분야는자연언어처리, 온톨로지학습