258 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 분야간유사도와통계기법을이용한전문용어의자동추출 (Automatic Term Recognition using Domain Similarity and Statistical Methods) 오종훈 이경순 최기선 (Jong-Hoon Oh) (Kyung-Soon Lee) (Key-Sun Choi) 요약지금까지전문용어를자동으로추출 (Automatic Term Recognition: ATR) 하기위한많은연구들이있어왔다. 이들연구들은주로문서내의용어의빈도수와같은단순한통계정보를이용하여전문용어를추출하였다. 하지만전문분야의기계가독형사전의구축으로인하여전문용어를추출하는데있어전문분야사전의사용이가능하게되었다. 본논문에서는이러한기계가독형전문분야사전들을이용하여사전간의계층관계를구축하고이를이용하여전문용어를추출하는방법을제시한다. 또한전문용어사전에서나타나지않는전문용어를추출하기위하여용어의빈도수, 외래어및외국어, 내포관계등을포함한통계기법을이용한다. 본논문에서제안하는기법은기존의방법에비해좋은성능을나타내었다. 키워드 : 전문용어추출, 전문용어, 분야유사도, 사전간계층관계, 통계기법 Abstract There have been many studies of automatic term recognition (ATR) and they have achieved good results. However, there are scopes to improve the performance of extracting terms still further by using the additional technical dictionaries. This paper focuses on the method for extracting terms using the hierarchy among technical dictionaries. Moreover, a statistical method based on frequencies, foreign words, and nested relations assists extracting terms which do not appear in dictionaries. Our method produces relatively good results for this task. Key words : ATR, Term, Domain similarity, Dictioanry hierarchy, Statistical method 1. 서론 지금까지통계정보를이용하여용어를자동으로추출 (Automatic Term Recognition: ATR) 하는많은연구들이있어왔다 [1, 2, 3, 4, 5]. 이들연구들이비교적좋은성능을보였지만, 전문용어사전에나타나는기존의전문용어정보와같은여러다른정보를이용하여성능의향상을이룰수있는여지는여전히남아있다. 용어추출분야에있어기계가독형사전이사용되기어려웠던것은사전을구축하는데있어상당한노력이필요했기때문이다. 하지만기계가독형언어자원을구축 비회원 : 비회원 : 종신회원 : 논문접수심사완료 : : 한국과학기술원전산학과 rovellia@world.kaist.ac.kr 일본 NII(National Institute of Informatics) kslee@world.kaist.ac.kr 한국과학기술원전산학과교수 kschoi@world.kaist.ac.kr 2001 년 4 월 17 일 2002 년 1 월 3 일 하기위한도구들의점진적인개발은전문용어추출분야에이러한사전을이용할수있는새로운계기를마련하고있다. 하지만, 전문용어는계속적으로생성되고사전에등재되지않은경우도많기때문에전문용어사전그자체만으로는전문용어를효율적으로추출할수없다. 따라서, 전문용어사전정보뿐만아니라문서내의통계정보와같은용어의정보도여전히전문용어를자동적으로추출하는데중요한요소가될수있다. 전문용어사전정보는전문용어자동추출기법에사용되는기존전문용어의언어자원으로서사용될수있다. 예를들어, 컴퓨터분야용어인 분산데이타베이스 는기존의용어인 분산 과 데이타베이스 에의해만들어졌다. 한분야의전문용어와이를지칭하는개념은관련된다른분야의용어로부터비롯된것도많다. 예를들어, 전자분야의단어인 지리정보시스템 (GIS : Geographical Information System) 은전자분야의사
분야간유사도와통계기법을이용한전문용어의자동추출 259 전에만존재하지만컴퓨터분야에서도사용되는전문용어이다. 이처럼전문용어는기존의용어로부터새로이생성될뿐만아니라유사한분야의용어를이용하는경우도있기때문에전문용어를효율적으로추출하기위해서는이러한전문분야들간의상호연관성을고려할필요가있다. 본논문에서는정보검색분야에서사용되는계층적클러스터링방법을이용하여전문분야간의관계를구축하여전문용어추출에이용하고자한다. 계층적클러스터링방법을이용해사전간 ( 분야간 ) 의계층관계를구축할수있으며, 이를통하여분야간의연관성을유추할수있다. 예를들어, 전자분야의용어는다른분야에비하여컴퓨터분야의용어와일치되는수가많기때문에계층적클러스터링방법에의해구축된트리의단말노드사이에서관계를가지게된다. 이를통하여전자분야와컴퓨터분야는아주밀접한관계를가진다는것을유추할수있다. 따라서, 다른분야에비해서전자분야전문용어사전의용어는컴퓨터분야의용어가될확률이높게된다 [6]. 본논문에서는이러한특성을반영하여특정분야문서에서나타나는해당분야의전문용어를효율적으로추출하는방법론을제안하고자한다. 본논문의구성은다음과같다. 2장에서는관련연구에대하여기술하고, 3 장에서는본논문에서제안하는방법론들을자세히설명한다. 4장에서는실험및결과를제시하고 5장에서는본논문의결론을맺는다. 2. 관련연구 2.1 빈도수에기반한전문용어추출 [2, 4, 5] 빈도수에기반한전문용어추출연구는자동용어추출 (ATR) 분야에서가장일반적이고간단한방법으로사용되며, 분야에독립적이고다른자원이필요없다는장점을가진다. 이들연구에서는문서에대하여형태소분석을하고언어필터 (linguistic filter) 라고하는명사구에대한정규표현을이용하여문서에서정규표현에해당하는명사구를추출한다. 해당명사구는빈도수로가중치가부여되며이를이용해전문용어를추출한다. 예를들어 [4] 의연구에서는명사, 관형사, 전치사로구성된언어필터인 "((A N)+ ((A N)* (N P)?) (A N)*)N" 를사용하였다. 여기서 A는관형사, N은명사, P는전치사를각각나타낸다. 또한식 (1) 에의해해당명사구에대한가중치를계산하였다. Score(α)=f(α) (1) 여기서 α는언어필터에의해추출된명사구를나타 내고 f( α) 는 α 의문서내빈도수를나타낸다. 이들방법들은문서에서자주나타나는고정된형태의용어에대하여비교적좋은성능을나타낸다. 하지만문서에서빈도수가작게나타나는용어의경우제대로추출하지못하는단점을가지고있다. 또한한국어의경우띄어쓰기가자유로워 분산데이타베이스 와 분산데이타베이스 같이같은용어라도서로다른형태로나타나기때문에올바른결과를기대하기어렵다. 2.2 빈도수와명사구간의내포관계에기반한전문용어추출 [3] [3] 에서는빈도수와명사구사이의내포 (nested) 관계를이용하여전문용어를추출하였다. 언어필터를이용하여추출한후보명사구에서어떠한명사구 A가다른명사구 B의일부로포함되면, A는 B에내포되었다고정의했다. 예를들어명사구 데이타베이스 와명사구 분산데이타베이스 에대하여 데이타베이스 는 분산데이타베이스 에내포된다라고말한다. [3] 에서는길이가긴명사구이면서내포되지않은명사구는전문용어일가능성이높은반면, 빈도수가낮은경우가많기때문에, 명사구의길이와빈도수와의관계를고려하여해당명사구의가중치를결정하였다. 또한, 길이가짧은명사구이면서다른명사구에내포된명사구는전문용어일가능성은낮지만그자체로높은빈도수를가지므로, 그명사구를내포한명사구의종류와내포된빈도수에따라해당명사구의가중치를결정하였다. [3] 에서는이를 C-value라정의하고식 (2) 와같이나타내었다. log2 α f ( α); if α S C value( α) = 1 log2 α f ( α) P( Tα ) N f ( β ) ; Tα β (2) if α S 여기서, α는후보명사구, S N 은다른명사구에내포되는명사구의집합, α 는 α의길이, T α 는명사구 α 를내포하는명사구의집합, f(α) 는문서에서의 α의빈도수, P(T α) 는명사구 α를내포하는명사구의종류를각각나타낸다. [3] 에서제안한 C-value는용어의길이를 2어절이상으로제한하여, 1어절의전문용어를추출할수없다는문제점과명사구간내포관계의적용에있어문제점을가진다. 같은빈도수를가지는내포된두명사구에대하여내포하는명사구의종류가많은명사구에높은가중치를할당한다. 이는전문용어를구성하는일반적인명사에높은가중치가부여되는문제점을가지게된다. 예를들어일반적인용어 `방법 ' 은 `전문용어추출방법 ', `페트리네트의구성방법 ' 등의전문용어에내포되는경우가많다. 따라서 [3] 의방법을이용하면, 이러한일반적인용어가높 N
260 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 은가중치를가져, 전문용어로추출되는경우가발생한다. 기존의전문용어추출기법들이사용하는빈도수나명사구간의내포관계만으로는한국어전문용어를추출하는데는어려움이있으며, 한국어에맞는전문용어추출기법이필요하다. 본논문에서는기존의기법의문제점을보완하기위하여사전에서추출한정보와빈도수및외래어에기반한문서내통계정보를이용하여한국어전문용어를추출하는효과적인방법을제안하고자한다. 3. 사전계층관계에기반한분야간유사도와통계기법을이용한전문용어자동추출기법 본논문에서제안하는전문용어추출방법의전체과정은 ( 그림 1) 과같다. 본논문에서제안하는방법은네단계의과정으로이루어진다. 첫번째단계에서는클러스터링기법에의해사전간의계층관계가구축된다. 두번째단계에서는부분구문정보 1) 를이용하여명사구를추출하며, 세번째단계에서는추출된명사구에대하여가중치를부여한다. 사전에의한가중치기법은해당명사구가나타난전문용어사전의개수에기반하여가중치를부여하며, 사전에수록되어있지않은미등록어와일반용어에대한처리를위하여분야정보가표시된문서를이용한다. 통계기법에의한가중치기법은명사구의출현빈도와내포관계등을이용한다. 음차표기단어및외국어를이용한가중치기법에의해서주어진후보명사구는음차표기외래어나영어가포함된어절수에의해가중치가정해진다. 네번째단계에서는각각의가중치값을하나의값으로통합하여전문용어를추출한다. 품사부착코퍼스 약어및대역어추출 빈도및약어, 대역어를이용한가중치계산 통계가중치 부분구문정보 후보용어 음차표기단어및외국어인식 음차표기단어및외국어기반가중치계산 음차표기및외국어단어가중치 A B C D.. 미등록용어보완 일반어제거 사전기반가중치계산 사전가중치 계층에의한점수화 전문용어사전 계층구축 분야부착문헌 3.1 사전간계층관계를이용한용어의가중치계산특정분야의전문용어는유사한다른분야의전문용어로부터비롯된경우가많기때문에전문분야간의상호연관성은전문용어를추출할때중요한요소가될수있다. 이는어떠한분야의전문용어를추출할때, 해당분야혹은인접분야의사전에나타나는용어와전혀다른분야에서나타나는용어를구별한다는것을의미한다. 본논문에서는이러한분야간의상호연관성을구축하기위하여계층적클러스터링방법을이용하고, 구축된계층관계를통해사전간 ( 분야간 ) 상호연관성을유추하여전문용어추출에사용한다. 본장에서는사전간의계층관계를구축하는방법과이를이용하여용어의가중치를결정하는방법에대하여기술한다 3.1.1 사전간계층관계구축을위한데이타사전간의계층관계는이중언어사전 ( 영어-한국어 ) 을이용하여구축한다. 사전은과학기술분야의 57개분야사전 2) 을이용한다. 그리고모든사전에나타나지않은미등록어와사전에나타나는일반용어를처리하기위하여분야정보가표시된 ETRI-Kemong 문서집합 [7] 을이용하였다. 3.1.2 사전간계층관계구성을통한분야간유사도계산본논문에서는분야간의유사도를계산하기위하여사전간의계층관계를구축한다. 이를위하여정보검색분야에서사용되는클러스터링방법을사용한다. 클러스터링방법은문서간의유사성을이용하여문서들간의구조를구성하는통계적기법으로계층적클러스터링과비계층적클러스터링이있다 [8]. 본논문에서는이러한클러스터링방법중에서계층적클러스터링방법을사용하였다. 계층적클러스터링방법에의해구축된문서들간의구조는트리형태를가진다. 본논문에서는클러스터링될문서로각분야사전을사용하였다. 또한각분야사전에나타나는표제어를이용하여클러스터링을수행한다. 계층적클러스터링방법에의해구축된트리에서분야간유사도는트리내각분야사전의위치를이용하여계산한다. 그런데트리형태가편향 (skewed) 된형태로구성되면, 클러스터간관계나분야와클러스터간관계가많아져분야간의유사성을올바르게유추하기힘들다. 따 용어인식 그림 1 전문용어자동추출시스템구조도 1) 부분구문정보는명사구를추출하기위한규칙을나타낸다. 본논문에서사용한부분구문규칙은 Noun+(jcm? Noun+)" 의정규표현으로나타낼수있다. 여기에서 Noun은명사, jcm은관형격조사를나타낸다. 2) 사용된사전은 한림원과학기술분야용어집 으로가정, 건축, 국토, 금속, 기계, 기초과학, 농공, 농기, 농생, 농화학, 대기, 물리, 산업공학, 생물, 설비, 섬유, 소방, 수문, 수산, 수의, 수학, 식품, 약학, 영약, 요업, 용접, 원예, 원자, 육수, 육종, 응용과학, 의학, 인쇄, 임학, 자동, 자원, 작물, 잠사, 전기, 전산, 전자, 조선, 주조, 지리, 지질, 천문, 체육, 축산, 치과, 토목, 토지비료, 통계, 통신, 항공, 해약, 화공, 화학의 57 개분야약 446,500 개표제어를포함한다.
분야간유사도와통계기법을이용한전문용어의자동추출 261 라서단말노드 (leaf node) 사이의결합이보다많은형태로나타나는대칭적인형태의트리를구성할필요가있다. 3) 이를위해본논문에서는계층적클러스터링방법중에서비교적대칭적인계층구조를만들어내는 [9] 상호최근인접이웃알고리즘 (a reciprocal nearest neighbor algorithm) [10] 을사용하였다. 계층구조를형성하기위한알고리즘의수행과정은다음과같다. 1. 모든사전간의유사도를결정한다. 2. 가장유사한개체 4) 를하나의클러스터로구성한다. 3. 2단계에서구성된새로운클러스터와다른개체간또는이미만들어진클러스터간의유사도를재계산한다 ( 새로운클러스터와의유사도외에다른개체간유사도는변하지않는다.) 4. 모든개체가하나의클러스터로구성될때까지 2단계와 3단계과정을반복한다. 상호최근인접이웃알고리즘에서는모든개체들이 O i ={x i1,x i2,...,,x il } 와같은벡터로나타내어진다 : 여기서 O i 는 i번째개체를나타내며, x ij 은 i번째개체내에서의 j번째용어를나타낸다. 1단계에서개체간유사도는유클리디안거리 (Euclidian distance) 를이용하여계산되고, 2단계에서상호가장유사한개체는상호최근인접이웃에의해결정된다. 주어진개체 i와 j에대하여 i와가장유사도가높은개체가 j이고, j와가장유사도가높은개체가 i일때이들 i와 j는상호최근인접이웃 (reciprocal nearest neighbor) 이라고정의된다. 가장유사한개체는두개체가통합되었을때, 평균에대한그룹내분산의증가가가장작은개체쌍이된다. 주어진두개체 O i 와 O j 에대하여분산의증가는식 (3) 과 (4) 에의해나타내어진다. I ij = m i m j m i +m j d 2 ij (3) d 2 ij = L (x ik -x jk ) 2 (4) k =1 여기서, m i 는개체 O i 내개체수를나타내고, d 2 는 ij 유클리디안거리의제곱을나타낸다. 이알고리즘을이용하여구축된사전간의계층관계는 ( 그림 2) 와같이나타내어진다. ( 그림 2) 에서계층관계 3) 계층적클러스터링방법에의해구축된트리에서단말노드 (leaf node) 간의결합이많다는것은클러스터링간의결합보다는분야간에결합이더많다는것을의미한다. 따라서편향된트리보다대칭된형태가분야간의관계를유추하는데좋은형태이다. 4) 여기서개체는사전뿐만아니라여러사전이하나로묶여진형태인클러스터도포함한다. 를구성하고있는사전은 5개분야의사전이며, 전체 57 개분야의사전으로구성된계층관계의일부를나타내고있다. 육종 C2 생물 C1 천문 C3 물리 C4 그림 2 구축된사전간계층관계의예 기초과학 3.1.3 분야간유사도를이용한용어의가중치계산계층관계를이용한용어의가중치부여는, 추출하고자하는분야의사전에나타나는용어와그분야와연관성이많은분야의사전에나타나는용어는전문용어추출에있어긍정적인지시자 (positive indicator) 로작용될수있으며, 해당분야와연관성이적은분야의사전에나타나는용어는부정적인지시자 (negative indicator) 로작용될수있다는전제에기반한다. 본논문에서는클러스터링방법에의해구축된계층관계에서분야간상호연관성을계산하고이러한연관성에기반하여용어의가중치를부여한다. 이를위해다음과같은 3가지단계의과정이필요하다. 1. 식 (5) 를이용하여분야간유사도를계산한다 [11]. 2 similarityij = ( depthi + depthj 2 Commonij ) 2 i j i = j (5) 여기서, depth i 는사전간계층에서분야 i의깊이정보를, Common ij 는사전간계층에서분야 i와분야 j간에공유하는가장깊은노드의깊이정보를나타낸다. 식 (5) 에서계층의노드깊이는계층의루트 (root) 로부터해당노드까지의거리를나타낸다. - 루트의깊이는 1로가정한다. 예를들어 ( 그림 2) 에서노드 C1을루트노드라가정하였을경우 물리 와 기초과학 의유사도는 < 표 1> 과같이계산된다. 표 1 Similarity ij 의계산 분야물리기초과학 2 루트 (root) 로부터의경로 루트 ->C3-> C4-> 물리 Depth 4 4 Common 3 유사도 (Similarity) 2/(4+4-2*3) = 1 루트 ->C3-> C4-> 기초과학
262 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 2. 추출하고자하는분야와용어가나타난사전의분야와의거리는식 (6) 에의해계산된다. N match 1 Score( term, t) = similarity ti term N i= 1 (6) 여기서 N은용어가나타난사전의개수, t는추출하고자하는분야 (target domain), Similarity ti 는식 (5) 에서계산된추출하고자하는분야와용어가나타난사전의분야와의유사도, term 은주어진용어의어절수, match 는사전의수록용어와최장일치를통하여일치된주어진용어의부분열 (sub-string) 의어절수를각각나타낸다. 따라서, 주어진용어전체가사전의수록용어와일치될때에는 match = term 이된다. 식 (6) 에서주어진용어가추출하고자하는분야의사전에만나타나며, 주어진용어전체가해당분야사전에수록되어있을경우에는가장높은가중치를가지게된다. 하지만, 용어가가장높은가중치를가지는최적의경우외에도나타날수있는두가지경우가있다. 첫번째로주어진용어가추출하고자하는분야의사전에나타나지않고다른분야의사전에만나타날경우이며, 두번째로주어진용어가추출하고자하는분야의사전뿐만아니라다른분야의사전에도나타날경우이다. 이러한경우들에서는식 (5) 에의해계산된분야간의관계 (similarity ti) 를이용하여, 주어진용어에가중치를부여한다. 주어진용어와사전에수록되어있는용어와의비교는전체용어일치기법 (exact matching method) 과부분용어일치기법 (partial matching method) 을사용한다. 주어진용어의전체형태가어떠한사전에수록되어있는경우전체용어일치기법을사용하며, 그렇지않을경우에는부분용어일치기법을이용한다. 부분용어일치기법을사용할때용어의다음과같은특성을이용한다. 일반적으로, 여러단어로구성된용어 (Multi-word term) 에있어서가장중요한의미를가지고있는단어를중심단어라하며, 이는대부분용어의끝에위치한다. 또한중심단어는전체용어의의미를용어의다른부분에비해잘표현한다. 따라서주어진용어에서전체용어가사전에포함되어있지않다하더라도중심단어를포함하는부분열이다른부분보다해당단어의의미를보다명확히한다고할수있다. 예를들어, 오염된방사능원소 의경우중심단어를포함하는 방사능원소 가 오염된방사능 또는 오염된원소 보다는 오염된방사능원소 의의미를보다잘표현한다고할수있다. 이러한특성을이용하여, 본논문에서사용한부분용어일치기법 은오른쪽에서왼쪽으로의최장일치기법 (right-to-left longest matching procedure) 5) 을사용한다 [11]. 표 2 식 (6) 에의해부여된 오염된방사능원소 에대한가중치의예 N 3 t 물리분야 similarity 물리-생물 0.5 similarity 물리-물리 2 similarity 물리-기초과학 1 term : 오염된방사능원소 의어절수 3 match : 부분용어일치된 방사능원소 의 2 어절수 Score(' 오염된방사능원소 ) 2/3*1/3*(0.5+2+1) =0.78 예를들어추출하고자하는분야가물리이고, 주어진용어가 오염된방사능원소 라고하였을때, 주어진용어가어떠한사전의용어와도전체용어일치가되지않은용어이고, 부분용어일치에의해 방사능원소 가물리, 기초과학, 생물분야사전에나타났다고가정하자. 주어진용어가전체용어일치가되지않았지만부분용어일치기법을이용하여식 (6) 에의해가중치가부여되며, 부여된가중치는 < 표 2> 와같이계산된다. 3. 사전미등록어의보완 : 분야정보가부착된문서집합의이용주어진용어가전체나부분의형태로사전에출현하지않을경우, 식 (6) 에기술한방법으로는용어의가중치를부여할수없다. 하지만이러한용어들은해당분야의전문용어일가능성이있으므로, 이들에대한처리도고려해야한다. 본논문에서는이러한경우의용어를처리하기위하여분야가태그된문서집합 [7] 을이용한다. 용어를구성하는모든단어에대하여분야태그된문서집합에출현하는가의여부를판별할수있으며, 해당단어가얼마나많은분야의문서에나타났는가를계산할수있다. 이러한계산결과를통하여, 출현한분야의개수가많을경우분야변별성이떨어지므로, 일반용어일가능성이높고, 출현한분야의개수가작을경우에는분야변별성이높으므로, 전문용어일가능성이높다. 본논문에서는식 (7) 을사전계층관계를이용한사전가중치라하고 W Dic 으로나타낸다. 5) 주어진후보용어에대하여용어의오른쪽으로부터사전에수록된용어와일치되는가장긴용어가부분적으로일치된용어로판정한다.
분야간유사도와통계기법을이용한전문용어의자동추출 263 W score( α) W ( α) = W dofi i= 1 if Dic( α) = 1 if Dic( α) = 0 Dic (7) 여기서, α는주어진후보용어, Dic(α) 는 α가부분이나전체의형태로사전에나타날경우 1의값을그렇지않을경우 0의값을나타내는함수, W는용어후보에포함된단어의개수, dof i 는분야정보가부착된문서집합에서나타난단어의분야개수를나타낸다. 3.2 문서내통계정보를이용한용어의가중치계산문서내통계정보를이용한용어의가중치계산은크게두가지요소로이루어진다. 첫번째요소는통계가중치 ( W Stat ) 라나타내며, 용어들이문서에나타난출현빈도와용어들사이의내포관계에기반한가중치이고, 두번째요소는음차표기단어및외국어가중치 ( W Trl ) 라나타내며, 해당용어가포함하는음차표기된외래어및영어의개수에기반한가중치이다. 3.2.1 통계가중치 : 용어의문서내빈도수와용어간내포관계에기반한가중치통계가중치를계산하기위하여문서에서나타나는괄호표현에의한대역어쌍과약어쌍, 그리고용어들의문서에서의출현빈도와용어들간의내포관계를고려한다. 우선대역어쌍과약어쌍은다음과같은휴리스틱을이용하여추출한다. 주어진괄호표현 A(B) 에대하여, 1. A와 B가약어와그확장어의쌍인지를검사한다. 이를위해 A와 B의영어대문자를비교하여반이상이순서적으로일치하면약어쌍이라고판단한다 [12]. 예를들어, GIS(Geographical Information System) 의 GIS 와 Geographical Information System 은약어쌍이라판단된다. 2. A와 B가대역어쌍인지를검사한다. 이를위해이중언어사전을이용한다. 약어쌍과대역어쌍을추출한후식 (8) 에의해통계가중치 W Stat 를계산한다. f ( γ ) γ T ( β ) β f ( β ) + if β SN β S ( α ) { α} C( T ( β )) W α = Stat ( ) (8) ( ) β f ( β ) if β SN β S ( α ) { α} 여기서, α는후보용어, S N 은다른명사구에내포되는명사구의집합, α 는용어 α의어절수, S( α) 는 α 의약어쌍이거나대역어쌍인용어들의집합, T( α) 는용 어 α 를내포하는용어들의집합, f( α) 는문서에서용어 α의출현빈도, C(T( α)) 는용어 α를내포하는용어의종류를각각나타낸다. 식 (8) 에서내포관계는다음과같이정의된다. A와 B 를용어라하고, A가 B를포함하면 A가 B를내포한다고정의한다. 예를들어, 이진탐색트리 와 탐색트리 에서 이진탐색트리 는 탐색트리 를내포한다라고말한다. 식 (8) 은주어진용어가약어및대역어를가질경우해당용어의통계정보뿐만아니라약어나대역어의통계정보도같이계산된다. 또한용어 α가 α를포함하는다른용어를만들경우, α는보다높은가중치를가진다. 이는해당분야에서용어의생산성 (productivity of terms) 이높은용어일수록전문용어일가능성이높다는것을나타낸다. 또한, [3] 등과같은기존연구가여러어절로구성된용어만을추출대상으로한것과는달리식 (8) 은여러어절로구성된용어뿐만아니라단일어절로된용어를추출할수있다. 이는 GUI (Graphical User Interface) 에서의 GUI 와같이약어의경우단일어절로구성되어있으며, 영어에서는여러어절로나타나는용어가한국어에서는단일어절의용어로번역되는경우가많기때문에단일어절로구성된경우를고려하여야한다. (e.g. distributed database => 분산데이타베이스 ) 3.2.2 음차표기외래어및외국어기반가중치 : 용어에포함된음차표기된외래어단어와외국어의개수에기반한가중치외국언어에어원을두는전문용어는주로음차표기되는경우가많기때문에음차표기된용어는주어진분야의용어를추출하기위한중요한단서가될수있다. 하지만음차표기된외래어는표기에대한표준이있음에도불구하고사용자마다달리표기하기때문에사전에수록되어있지않은경우가많다 [13]. 어떠한용어가음차표기된단어를포함하는가를사전에의존해서판단하는것은어려움이있으며, 이를자동으로추출하는방법이필요하다. 본논문에서는은닉마르코프모델을이용한외래어자동추출모델 [14, 15] 을이용하여외래어를자동으로추출하였다. 외래어추출방법은한국어와외국언어가음운학상으로서로다르기때문에, 음차표기된외래어의구성과순수한국어의구성은서로다르다는전제에기반한다. 특히영어의경우, 영어에서자주사용되는자음인 p, t, c, f 는각각한국어자음인 ᄑ, ᄐ, ㅋ, ᄑ 로음차표기된다. 그런데, 한국어에서이들자음들은순수한국어에서자주사용되지않는자음들이다. 이러한특
264 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 성은외래어를추출할때중요한단서가될수있다. 예를들어, 시스템 이라는단어에서 템 은순수한국어에서 λ 1 =0.3,λ 2 =0.4,λ 3 =0.3으로정해지며, 에대한실험은 4.2.2장에기술하였다. λ 1,λ 2,λ 3 자주사용되지않는자음 ᄐ 을초성으로사용하기때문에음차표기된외래어가될가능성이높다. 어떠한단어를구성하는각음절의자음정보는외래어를추출하는데중요한정보로사용될수있다. 은닉마르코프모델을이용한외래어추출모델은주어진단어의각음절이순수한국어의음절인지음차표 본논문에서는식 (11) 에의해통합된가중치를이용하여 사전에수록되어있는전문용어 와 사전에수록되어있는용어를이용하여새로이생성된용어 뿐만아니라 사전에수록되어있지않는용어들 도문서내에나타나는용어의정보를이용하여전문용어를자동으로추출한다. 기된외래어의음절인지를결정한다. 이를위해순수한 국어의음절인경우에는 K 라는태그를할당하고, 음차표기된외래어의음절인경우에는 F 라는태그를할당한다. 예를들어 시스템은 은 시 /F + 스 /F + 템 /F+ 은 /K 이라고음절태깅 (syllable-tagging) 할수있다. 외래어자동추출모델에서는음절정보를품사 (Partof-Speech) 태깅에서의어휘정보와같이사용하였다. 식 (9) 는은닉마르코프모델을이용한외래어추출모델을나타낸식이며, 식 (10) 은추출된외래어에따라주어진용어의가중치를할당하는식이다. 식 (10) 을 W Trl 라고정의하고전문용어추출에사용한다. 식 (10) 은음차표기된외래어를많이포함할수록전문용어일가능성이높다라는의미를내포하고있다. 4. 실험및평가컴퓨터분야와전기전자분야의문서를포함하는정보검색테스트집합인 KT문서집합 [16] 을사용하여컴퓨터분야의용어를추출하는실험을수행하였다. 본논문에서는전체 4,413개문서중컴퓨터분야의논문의초록을포함하는 1,000개문서약 67,250어절을사용하였다. 또한명사구를추출하기위한품사정보를얻기위하여품사태거 [17] 로자동으로태깅하었다. 부분구문분석에의하여추출된전체용어의개수는총 12,915개이며, 이중전문용어는 10,226개, 일반용어는 2,689개이다. < 표 3> 은어절의길이에따른 KT문서집합에포함된전문용어의분포를나타낸다. < 표 3> 에 n n P( T S) P( S) = p( t1 ) p( t2 t1) p( ti ti 1, ti 2) p( ti si, si 1, ti 1) 서전체전문용어비율이약 80% 정도로비교적높게 (9) i= 3 i= 1 나타나는데, 이는문서집합이논문의요약문으로전문 여기서, s i 는주어진용어의 i번째음절을 t i 는주어 용어가많이포함되어있기때문으로분석된다. 또한, 1 진용어의 i번째음절의태그 ( F or K ) 를나타낸다. 어절용어의경우 2어절이상의용어보다전문용어의 trans( α) 비율이낮은것을알수있는데이는 1어절의경우 논 W Trl ( α) = (10) α 문, 방법 과같은일반용어가 2어절이상의용어보다 여기서 α 는용어 α의어절수를, trans( α) 는용어 많기때문으로분석된다. α에서음차표기된외래어및외국어를포함하는어절 수를나타낸다. 표 3 KT문서집합에나타난어절별전문용어의분포 3.2.3 용어의가중치위에서기술한 3가지가중치는식 (11) 에의하여통 전문용어 1어절용어 2394 (61.31%) 2어절이상용어 7832 (86.93%) 총계 10,226 (79.18%) 합되어, W Term 이라정의된다. 각각의가중치기법인 일반용어 1511 (38.69%) 1178 (13.07%) 2,689 (20.82%) W Stat,W Trl,W Dic 은서로다른정보에기반하기때문에각용어의가중치가포함하는용어의범위또한다르다. 총계 3905 9010 12,915 따라서각각의가중치기법만으로는효율적으로전문용어를추출할수없기때문에식 (11) 과같이각각의가중치를통합한다. 각요소의유용성과정보의통합이전문용어추출의성능에어떠한영향을미치는지를알아보기위하여다음의경우에대하여비교실험하였다. W α) = λ f ( W ( α)) + λ g( W ( α)) + λ h( W ( )) (11) Term( 1 Stat 2 Trl 3 Dic α 여기서, α는후보용어를나타내며, f,g,h는각가중치를정규화시켜주는함수를나타낸다. 또한 λ 1,λ 2,λ 3 은 W Stat,W Trl,W Dic 에대한가중치이며, λ 1 +λ 2 +λ 3 =1 이다. 실험에의해 각 W Stat,W Trl,W Dic 들을통합하지않고전문용어를추출하는경우 각 W Stat,W Trl,W Dic 에대한가중치 ( λ 1,λ 2,λ 3 ) 를달리했을경우의전문용어추출결과 W Stat -W Trl 를통합하여이용한경우
분야간유사도와통계기법을이용한전문용어의자동추출 265 W Stat -W Dic 를통합하여이용한경우 W Trl -W Dic 를통합하여이용한경우 W Stat,W Trl,W Dic 를통합하여이용한경우또한빈도수에기반한용어추출방법 [4] 과 C-value 방법 [3] 을비교평가함으로써본논문이제안하는기법의효용성을살펴보고자한다. 4.1 평가기준두명의분야전문가가제안된전문용어추출방법에의해추출된용어에대한평가를하였으며, 평가된결과에서두명모두가전문용어라고판단한경우에만전문용어로인정하였다. 이는한명이이러한평가작업을수행할경우에나타나는주관적평가를배제하기위한것이다. 결과는전문용어추출방법에의해추출된전문용어중에전문용어라판단된용어의비율을나타내는정확률 (precision) 로서평가된다. 이를수식으로나타내면식 (12) 와같다. 정확률 = 추출한용어중전문용어의개수추출한용어의개수 (12) 본논문에서는정확률을평가하기위하여후보용어들에부여된점수를높은순에서낮은순으로정렬한뒤 10개부분으로똑같이나누어서독립적으로평가하였다. 따라서 10개부분중상위에존재하는부분의정확률은높을수록, 하위에존재하는부분은낮을수록전문용어를효과적으로추출한다고말할수있다 [3]. 여러방법들의전체적인성능을비교하기위하여정보검색분야에서사용되는 11-포인트평균정확률 (11-point average preceision) 을사용하였다. 11-포인트평균정확률은재현율이 0%, 10%, 20%, 30%,..., 90%, 100% 지점일때의재현율에따른정확률을계산한뒤, 각지점의정확률을합하고이를평균하여나타내어진다. 따라서, 각재현율의지점에서의높은정확률을보일경우 11-포인트평균정확률이높게나타난다. 이는상위에적합한용어가많이존재할수록높은 11- 포인트평균정확률을얻을수있음을의미한다 [18]. 본논문에서는 11-포인트평균정확률을구하기위하여, < 표 3> 에서의전문용어후보 12,915개중전문용어로판별되는 10,226개의후보를모두추출하였을때재현율이 100% 라고가정한다. 이를기준으로재현율 0%~100% 지점을찾아해당지점에서의정확률을계산한다. 4.2 W Stat,W Trl,W Dic 의통합여부에따른전문용어추출비교실험 4.2.1 각가중치만사용한전문용어추출실험 < 표 4> 는각가중치만으로전문용어를추출하였을때의성능을나타낸다. 표 4 각가중치만을사용한전문용어추출결과 부분 W Stat W Trl W Dic 1 89.61% 93.1% 88.37% 2 89.30% 89.53% 87.60% 3 83.10% 96.89% 86.28% 4 84.73% 92.87% 82.64% 5 90.93% 94.80% 83.80% 6 87.13% 71.62% 78.06% 7 78.14% 62.95% 81.86% 8 80.93% 60.23% 81.71% 9 71.40% 66.04% 78.53% 10 36.28% 63.49% 42.71% 11pt-avg 88.12% 90.11% 86.65% 실험결과에서 W Trl 의상위부분 ( 부분 1~5) 은평균약 93% 의정확률을보이며, 하위부분 ( 부분 7~10) 은평균약 63% 의정확률을보인다. 이는 W Trl 의가중치기법특성상해당용어에음차표기된외래어가많을수록높은값을부여하고외래어를포함하지않는용어에대해서는모두일정한가중치를부여하기때문으로분석된다. 용어후보중외래어나외국어가포함된용어는 7,034개로전체 12,915개후보의약 54% 를차지하며, 7,034개중 6,584개가전문용어로판별되어외래어나외국어가포함된용어가전문용어가될경우가약 93% 로나타난다. 따라서 W Trl 에의해추출된부분 1에서부분 5까지는외래어나영어를포함하는용어들이나타나며비교적높은성능을보이는반면, 용어에외래어나외국어가없는부분 7에서부분 10까지는일정한정확률을보인다. W Stat 의경우해당용어가문서에서높은빈도수로나타날수록, 대역쌍이나약어쌍으로판별되었을경우높은값을가지게된다. 이러한특성으로인하여, W Stat 의경우 `Graphic User Interface', `GUI', `Graphical User Interface', `그래픽사용자인터페이스 ' 가유사어관계로서상위에위치한다. 하지만 W Stat 만으로는추출할수없는전문용어가있을뿐만아니라, 문서에서나타난빈도수가많은용어를전문용어로추출하는경우가발생한다. 예를들어, `task scheduling' 은전문용어임에도불구하고, 문서에서나타난빈도수가작아전문용어로추출되지못한다. 또한 `추출 ' 은전문용어가아님에도불구하고문서에서나타난빈도수가많아상위에위치
266 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 한다. 따라서 W Stat 이제대로추출하지못하는부분을 W Trl 과 W Dic 을이용하여보완할필요가있다. W Dic 은추출하고자하는분야의정보가전문용어를추출하는데중요한정보로사용될수있다는전제에기반한다. 추출하고자하는분야와이와밀접하게연관된분야의사전들에수록되어있는용어들은전문용어를추출하는데긍정적인지시자로작용할수있고, 추출하고자하는분야와관계없는분야의사전에나타나는용어는전문용어추출에부정적인지시자로작용할수있다. 사전간계층관계는이러한분야간의연관성을유추하기위하여구성된다. 하지만 Signalling Network Operations System' 을나타내는 `SIGNOS' 와같은전문용어는사전에수록되어있지않아미등록어로낮은순위를가진다. 새로이생성된전문용어나약어와같은전문용어사전의미등록어에대해서는사전정보만으로전문용어추출이어렵다. 각가중치기법인 W Stat,W Trl,W Dic 은서로다른정보에기반하기때문에각가중치가포함하는용어의범위또한다르다. 본논문에서는이러한각가중치들을상호보완적으로통합하여전문용어추출의성능을향상시키고자한다. 4.2.2 각 W Stat,W Trl,W Dic 에대한가중치를달리했을경우의전문용어추출실험본장에서는 W Stat,W Trl,W Dic 에대한가중치 ( 식 (11) 의 λ 1,λ 2,λ 3 ) 를달리하여전문용어추출실험을하였다. 0.1 λ 1,λ 2,λ 3 0.9 범위내에서 λ 1,λ 2,λ 3 이가질수있는가능한값 6) 에대하여전문용어추출결과를비교평가한다. < 표 5> 는 λ 1,λ 2,λ 3 에따른 11-포인트평균정확률값이높은상위 5가지경우의 λ 1,λ 2,λ 3 의값과그때의 11-포인트평균정확률값을나타낸다. < 표 5> 에서재현율이 0% 일경우, 정확률은 100% 라고가정한다 [18]. < 표 5> 에서 λ 1 =0.3,λ 2 =0.4,λ 3 =0.3의경우, 다른가중치조합에비하여 11-포인트평균정확률이높게나타남을알수있다. 따라서본논문에서는 11포인트평균정확률값이가장높게나타난 λ 1 =0.3, λ 2 =0.4, λ 3 =0.3으로 λ 1,λ 2,λ 3 의값을정하고전문용어추출실험을하였다. 4.2.3 각가중치의통합에따른전문용어의추출실험 6) 본논문에서는 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9의값에대해서만평가하였다. 표 5 재현율 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% 11pt -avg λ 1,λ 2,λ 3 에따른 11-포인트평균정확률값이높은상위 5개의 λ 1,λ 2,λ 3 의값과그때의 11-포인트평균정확률 λ 1 =0.3 λ 2 =0.4 λ 3 =0.3 100% 97.71% 94.15% 92.54% 93.31% 93.38% 93.60% 92.08% 89.59% 87.20% 79.28% λ 1 =0.3 λ 2 =0.3 λ 3 =0.4 100% 93.93% 93.38% 92.68% 93.23% 92.94% 92.73% 91.80% 88.77% 85.21% 79.31% λ 1 =0.3 λ 2 =0.5 λ 3 =0.2 100% 94.02% 93.12% 92.49% 93.44% 93.38% 93.63% 91.86% 89.07% 85.56% 79.28% λ 1 =0.4 λ 2 =0.3 λ 3 =0.3 100% 94.45% 93.25% 92.52% 93.46% 93.44% 92.84% 91.89% 89.20% 85.76% 79.27% λ 1 =0.2 λ 2 =0.5 λ 3 =0.3 100% 92.41% 93.12% 92.49% 93.48% 93.37% 93.56% 91.82% 88.72% 85.03% 79.31% 92.08% 91.27% 91.44% 91.46% 91.21% < 표 6> 은각가중치의통합에따른전문용어의추출결과를나타낸다. 표 6 W Stat,W Trl,W Dic 통합에따른전문용어추출결과 부분 W Stat -W Trl W Stat -W Dic W Trl -W Dic W Term 1 96.51% 89.46% 91.94% 96.59% 2 89.22% 87.52% 92.40% 93.64% 3 94.03% 87.52% 94.80% 93.72% 4 93.80% 85.35% 94.42% 93.95% 5 84.88% 84.65% 90.15% 89.38% 6 73.10% 82.25% 87.13% 84.42% 7 72.56% 77.60% 71.62% 74.03% 8 72.56% 78.76% 63.79% 75.50% 9 64.34% 78.37% 69.61% 63.18% 10 32.57% 40.08% 37.90% 27.44% 11pt-avg 91.07% 88.41% 91.05% 92.08% 실험결과에서 W Term 의 11- 포인트평균정확률이 W Stat -W Trl, W Stat -W Dic, W Trl -W Dic 의 11-포인트평균정확률보다높은것을알수있으며, 이를통하여 W Term 에의해순위화된용어들은상위에는많은전문용어가포함되어있고, 하위에는비교적적은전문용어가포함됨을알수있다. < 표 6> 에서 W Stat -W Dic 와 W Term 의실험결과를비교하였을때 W Stat -W Dic 에 W Trl 이통합된 W Term 의성능이높게나타난다. 이러한성능향상이 W Trl 에의해이
분야간유사도와통계기법을이용한전문용어의자동추출 267 루어졌는가를분석하기위하여, W Stat -W Dic 에의해추출된전문용어중외래어나외국어를포함하는것의분포와 W Trl 을포함하는 W Stat -W Trl, W Trl -W Dic, W Term 에의해추출된전문용어중외래어나외국어를포함하는것의분포를살펴보았다. < 표 7> 은각부분별외래어나외국어를포함하는용어후보의개수를나타낸다. 총 7,034개의용어후보가외래어나외국어를포함하는것으로나타났으며, 이들중 6,584개가전문용어로판별되었다. < 표 7> 에서나타나듯이 W Stat -W Dic 의경우상위뿐만아니라하위에도외래어나외국어를포함하는전문용어후보들이많이나타나는것을알수있다. 하지만, W Trl 을이용한결과 ( W Stat -W Trl, W Trl -W Dic, W Term ) 에서는부분 1에서부분 7까지에서만외래어나외국어를포함하는전문용어후보가나타나는것을알수있으며, 외래어나외국어를포함하는용어가전문용어가될확률이높기때문에상위뿐만아니라하위에서도 W Stat -W Dic 을이용한경우보다좀더좋은성능을나타냄을알수있다. 표 7 각방법에서의외래어, 외국어를포함하는전문용어후보의분포 부분 W Stat -W Trl W Stat -W Dic W Trl -W Dic W Term 1 1,290 849 1,290 1,286 2 1,290 803 1,290 1,282 3 1,289 830 1,284 1,264 4 1,289 837 1,246 1,200 5 1,275 818 1,117 1,146 6 601 743 788 827 7 0 748 19 29 8 0 607 0 0 9 0 575 0 0 10 0 224 0 0 총계 7,034 7,034 7,034 7,034 본장의실험결과를통하여 W Stat,W Trl,W Dic 이상호보완적으로전문용어를추출하는데유용한정보로사용됨을알수있다. 4.3 기존연구와의비교실험본장에서는제안한전문용어추출기법과기존의연구와의성능을비교한결과를나타낸다. < 표 8> 은기존연구와의비교실험결과를나타낸다. < 표 8> 에나타난결과는다음과같이해석될수있다. 결과의첫번째부분에서 3번째부분까지 ( 상위 30%) 에서제안된방법은기존방법 [3][4] 보다높은정확률을보인 다. 또한본논문에서제안방법이상위부분에서기존연구보다많은전문용어가포함되고하위부분에서기존연구보다보다적은전문용어를포함하는양상을보이기때문에, 전문용어의분포도기존의방법보다좋은결과를보여준다. 이는본논문에서제안한방법에의해높은가중치가용어에부여되면해당용어는전문용어가될확률이높다라는의미를내포한다. 또한, < 표 8> 에서 8번째부분부터 10번째부분까지의정확률이급격히감소하는것을알수있는데이는대부분의전문용어가상위에존재하고하위에는전문용어가적게나타남을나타낸다. 본논문의기법은상위 3부분에서 [3] 보다평균 12.60%, [4] 보다평균 29.00% 의성능향상을보였으며, 하위 3부분에서는 [3] 보다평균 20.54%, [4] 보다평균 7.20% 의성능향상을나타내었다. 특히상위에서기존연구보다높은성능을나타내는데이는본논문의기법이 B+ 트리, HMM", " 데이타베이스 와같은 1어절의전문용어를효과적으로처리하고, 논문, 방법 과같은 1어절의일반용어를효과적으로배제시키기때문으로분석된다. 또한 11-포인트평균정확률에있어서도본논문의기법이기존연구 [3][4] 보다전체적으로높은성능을나타냄을알수있으며, 약 10%~13% 정도의성능향상을보였다. 부분 표 8 기존연구와의비교실험결과 제안한방법 ( W Term ) C-value 방법 [3] 빈도수기반방법 [4] 1 96.59% 72.17% 63.57% 2 93.64% 87.67% 77.98% 3 93.72% 92.33% 91.09% 4 93.95% 86.05% 92.87% 5 89.38% 91.78% 92.64% 6 84.42% 81.47% 90.78% 7 74.03% 71.55% 80.62% 8 75.50% 66.36% 79.46% 9 63.18% 73.88% 63.49% 10 27.44% 68.84% 59.07% 11-pt avg 92.08% 83.06% 81.20% 본장에서는전문용어추출성능을기존연구와비교실험하였다. 본논문에서제시한기법은기존연구보다좋은성능을나타내었다. 4.4 오류분석실험결과다음과같은오류에의해전문용어가추출되지못하는경우가있었다.
268 정보과학회논문지 : 소프트웨어및응용제 29 권제 4 호 (2002.4) 첫번째는태깅오류이다. 예를들어, 전문용어로판별되지않은전문용어후보중에 여러개의모노미디어데이타 가있었다. 여러개의모노미디어데이타 의경우, 여러 와 개 가각각관형사와의존명사로태깅되어야함에도불구하고, 모두일반명사로태깅되어 모노미디어데이타 라는전문용어를추출하는문제점이발생하였다. 두번째는내포된전문용어의오류이다. 예를들어, 기계번역시스템 의경우 기계번역 과 기계번역시스템 모두가전문용어이지만문서에서 기계번역시스템 이나타날경우, 기계번역시스템 은전문용어로추출될수있지만, 기계번역 은전문용어로추출하지못할가능성이있다. 세번째는모든가중치가낮은경우전문용어를추출하지못하는경우가발생한다. 예를들어 신경망의학습 은문서에서의빈도수가낮고, 음차표기된외래어가없다. 또한, 57개분야사전에 학습 만이등재되어있고, 학습 의경우 [ 기초과학 ], [ 생물 ], [ 의학 ], [ 전기 ], [ 전산 ], [ 전자 ] 분야에나타났다. 이러한이유로 W Stat,W Trl,W Dic 각각에의해낮은가중치가할당되어전문용어를효율적으로추출하지못하였다. 향후이러한태깅오류, 내포된전문용어처리, 그리고모든가중치가낮은경우에대한보완이필요하다고하겠다. 5. 결론 본논문에서는사전간의계층관계를이용한분야유사도와빈도수와음차표기된외래어에기반한문서내통계정보를이용하여전문용어를추출하는방법에대하여기술하였다. 본논문에서는사전간의계층관계와문서내통계정보를이용한용어의가중치를계산하여 사전에수록된전문용어 와 사전에수록된용어를이용하여새로이생성된전문용어 그리고 사전에수록되어있지않은새로운전문용어 를자동적으로추출하였다. 사전간의계층관계는클러스터링방법에의해구축되고구축된사전계층관계로부터분야간의유사도를유추하여전문용어를추출하는데사용되었다. 문서내통계정보에의한가중치는빈도수에기반한방법과음차표기된외래어와외국어에기반한방법을이용하였다. 빈도수를이용한방법은괄호표현에의해나타나는대역쌍과약어쌍과용어의생산성을용어의빈도수와결합하여가중치를부여하였다. 용어의생산성은내포관계로서파악하고용어의생산성이높을수록, 즉새로운전문용어를생성하는데많이사용되는용어에대하여높은 가중치를부여한다. 또한음차표기된외래어와외국어를주어진용어에서추출하여주어진용어에서많은부분을차지할수록높은가중치를부여하였다. 본논문에서는효율적으로전문용어를추출하기위하여이들가중치들 ( 사전가중치, 빈도수에기반한가중치, 음차표기된외래어및외국어에기반한가중치 ) 을하나로통합하여사용하였다. 실험결과는본논문의기법이기존의연구 [3][4] 보다좋은성능을나타내었으며, 특히본논문의기법이보다효율적으로전문용어를추출함을알수있었다. 향후연구로는명사가아닌전문용어 [19], 전문용어를구성하는형태소의변형 [20], 문맥정보의이용 [11] 등을이용한전문용어추출에대한연구가필요하다. 또한, 본논문의기법의효용성을검증하기위해서는정보검색시스템과형태소분석기와같은자연언어처리시스템에적용하는것이필요하다. 참고문헌 [1] Bourigault, D., "Surface grammatical analysis for the extraction of terminological noun phrases," In Proceedings of the 14th International Conference on Computational Linguistics, COLING92, pp. 977-981, 1992. [2] Dagan, I. and K. Church, "Termight: Identifying and translating technical terminology," In Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics, EACL95, pp 34-40, 1995. [3] Frantzi, K.T. and S.Ananiadou, "The C-value/ NC-value domain independent method for multiword term extraction," Journal of Natural Language Processing, Vol. 6, No.3, pp. 145-180, 1999.9. [4] Justeson, J.S. and S.M. Katz, "Technical terminology : some linguistic properties and an algorithm for identification in text," Natural Language Engineering, Vol.1, No.1, pp. 9-27, 1995. [5] Lauriston, A., "Automatic Term Recognition: performance of Linguistic and Statistical Techniques," Ph.D. thesis, University of Manchester Institute of Science and Technology. 1996. [6] Felber Helmut, Terminology Manual, International Information Centre for Terminology(Infoterm), 1984. [7] ETRI, Etri-Kemong set, 1997. [ 8 ] Anderberg, M.R, Cluster Analysis for Applications, New York: Academic, 1973
기계 분야간유사도와통계기법을이용한전문용어의자동추출 269 [9] Murtagh, F., "A Survey of Recent Advances in Hierarchical Clustering Algorithms," Computer Journal, Vol.26, pp. 354-359, 1983. [10] Lorr, M., "Cluster Analysis and Its Application," Advances in Information System Science, Vol.8, pp.169-192, 1983. [11] Maynard, D. and Ananiadou, S., "Acquiring Context Information for Term Disambiguation," In First Workshop on Computational Terminology Computerm98, pp 86-90, 1998. [12] Hisamitsu, Toru and Yoshiki Niwa, "Extraction of useful terms from parenthetical expressions by using simple rules and statistical measures," In First Workshop on Computational Terminology Computerm98, pp 36-42, 1998. [13] 이재성, 다국어정보검색을위한영 - 한음차표기및복원모델박사학위학위논문, 한국과학기술원전산학과, 1999 [14] 오종훈, 최기선, 은닉마르코프모델을이용한과학기술문서에서의외래어자동추출모델, 제 11 회한글및한국어처리학회논문집 pp. 137-141, 1999. [15] Oh, Jong-Hoon and Key-Sun Choi, "Automatic Extraction of Transliterated Foreign Words using Hidden Markov Model," ICCPOL'2001, pp. 433-438, 2001. [16] 박영찬, 최기선, 김재군, 김영환, 한국어정보검색을위한시험용데이타모음 2.0 개발, 1996 년도한국정보과학회인공지능연구회춘계학술대회, pp.59-65, 1996. [17] 강인호, 김길창, 최대엔트로피모델을이용한한국어품사태깅, 제 10 회한글및한국어정보처리학술대회, pp.9-14, 1998. [18] Ricardo B-Y. and Berthier R-N., "Mordern Information Retrieval," ACM-Press New York and Addison-Wesley, 1999. [19] Klavans, J. and Kan M.Y., "Role of Verbs in Document Analysis," In Proceedings of the 17th International Conference on Computational Linguistics, COLING98 pp. 680-686, 1998. [20] Jacquemin, C., Judith L.K. and Evelyne, T., "Expansion of Muti-word Terms for indexing and Retrieval Using Morphology and Syntax," 35th Annual Meeting of the Association for Computational Linguistics, pp 24-30, 1997. 약학 육종 생물 천문 물리 의학 기과 산공 전자 전기 전산 통계 농기 수학 농공 화학 부록. 사전계층관계구성도 임학 화공 지질 주조 항공 금속 소방 용접 설비 자동 오종훈 조선 응과 토목 작물 건축 원예 육수 통신 가정 1998 년성균관대학교정보공학과졸업 ( 학사 ). 2000 년한국과학기술원전산학과졸업 ( 공학석사 ). 2000 년 ~ 현재한국과학기술원전산학과박사과정. 관심분야는자연언어처리, 전문용어, 정보검색등 이경순 1994 년계명대학교컴퓨터공학과졸업 ( 학사 ). 1997 년한국과학기술원전산학과졸업 ( 공학석사 ). 2001 년한국과학기술원전산학과졸업 ( 공학박사 ). 2001 년 ~ 현재일본 NII(National Institute of Informatics) 연구원. 관심분야는정보검색, 정보추출, 언어처리등 최기선 1978년서울대학교수학과졸업 ( 학사 ). 1980년한국과학기술원전산학과졸업 ( 공학석사 ). 1986년한국과학기술원전산학과졸업 ( 공학박사 ). 1985년 ~ 1986년한국외국어대학교전산학과조교수. 1987년 ~ 1988년일본 NEC C&C 정보연구소초빙연구원. 1988년 ~ 현재한국과학기술원전산학과교수. 1998년 ~ 현재한국과학기술원전문용어언어공학연구센터소장. 관심분야는자연언어처리, 기계번역, 정보검색, 전문용어등 인쇄 토비 농생 원자 축산 잠사 섬유 해양 자원 수산 수의 치과 요업 대기 체육 농화 수문 식품 영양 국토 지리