01( ) SAV12-12.hwp

Similar documents
<30385FC1A4C3A2C8C42E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft PowerPoint - 27.pptx

Microsoft PowerPoint - 26.pptx

05( ) CPLV12-04.hwp

°í¼®ÁÖ Ãâ·Â

untitled

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Microsoft PowerPoint Relations.pptx

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특


Software Requirrment Analysis를 위한 정보 검색 기술의 응용

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

14.531~539(08-037).fm

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on

R을 이용한 텍스트 감정분석

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

(5차 편집).hwp


12È«±â¼±¿Ü339~370

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>

#Ȳ¿ë¼®

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi

< FB1B9BEEEB1B3C0B0BFACB1B C1FD5FC3D6C1BE2E687770>

Journal of Educational Innovation Research 2019, Vol. 29, No. 2, pp DOI: * Early Childhood T

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 10, Oct ,,. 0.5 %.., cm mm FR4 (ε r =4.4)

04김호걸(39~50)ok

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

Analysis of objective and error source of ski technical championship Jin Su Seok 1, Seoung ki Kang 1 *, Jae Hyung Lee 1, & Won Il Son 2 1 yong in Univ

<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

자연언어처리

00내지1번2번

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA


<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

정보기술응용학회 발표

03±èÀçÈÖ¾ÈÁ¤ÅÂ

11¹Ú´ö±Ô

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: * The Grounds and Cons

Rheu-suppl hwp

07.045~051(D04_신상욱).fm

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

03-서연옥.hwp

06_ÀÌÀçÈÆ¿Ü0926

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

À±½Â¿í Ãâ·Â

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: * Strenghening the Cap

레이아웃 1

서론 34 2

2

<B1A4B0EDC8ABBAB8C7D0BAB8392D345F33C2F75F E687770>

[ISBN ] 기술기회발굴을위한텍스트마이닝기술 기반플랫폼개발연구 전홍우정창후최성필최윤수송사광정한민 한국과학기술정보연구원

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Dec.; 27(12),

PowerPoint 프레젠테이션

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 1, pp DOI: * The

Æ÷Àå82š

Vol.258 C O N T E N T S M O N T H L Y P U B L I C F I N A N C E F O R U M

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

09구자용(489~500)

45-51 ¹Ú¼ø¸¸

DBPIA-NURIMEDIA

09권오설_ok.hwp

발간사 반구대 암각화는 고래잡이 배와 어부, 사냥하는 광경, 다양한 수륙동물 등 약 300여점의 그림이 바위면에 새겨져 있는 세계적 암각화입니다. 오랜 기간 새겨진 그림들 가운데 고래를 잡는 배와 어부모습은 전 세계적으로 유례를 찾기 힘들 정도로 그 중요성과 가치가 큽

Output file

IKC43_06.hwp

pdf 16..

07_À±ÀåÇõ¿Ü_0317

., (, 2000;, 1993;,,, 1994), () 65, 4 51, (,, ). 33, 4 30, 23 3 (, ) () () 25, (),,,, (,,, 2015b). 1 5,

<91E6308FCD5F96DA8E9F2E706466>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Mar.; 28(3),

. 45 1,258 ( 601, 657; 1,111, 147). Cronbach α=.67.95, 95.1%, Kappa.95.,,,,,,.,...,.,,,,.,,,,,.. :,, ( )

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

<C5EBC0CFB0FA20C6F2C8AD2E687770>

자연채무에대한재검토 1. 서론 2. 선행연구 9 Journal of Digital Convergence 214 May; 12(5): 89-99

제19권 제3호 Ⅰ. 문제제기 온라인을 활용한 뉴스 서비스 이용은 이제 더 이 상 새로운 일이 아니다. 뉴스 서비스는 이미 기존의 언론사들이 개설한 웹사이트를 통해 이루어지고 있으 며 기존의 종이신문과 방송을 제작하는 언론사들 외 에 온라인을 기반으로 하는 신생 언론사

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

07변성우_ok.hwp

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Sep.; 26(10),

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

<C7F6B4EBBACFC7D1BFACB1B F3136B1C72032C8A3292E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: * Suggestions of Ways

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

Journal of Educational Innovation Research 2016, Vol. 26, No. 2, pp DOI: * The Mediating Eff

정보화정책 제14권 제2호 Ⅰ. 서론 급변하는 정보기술 환경 속에서 공공기관과 기업 들은 경쟁력을 확보하기 위해 정보시스템 구축사업 을 활발히 전개하고 있다. 정보시스템 구축사업의 성 패는 기관과 기업, 나아가 고객에게 중대한 영향을 미칠 수 있으므로, 이에 대한 통제

Transcription:

술어 - 논항구조의어휘패턴을이용한스트링커널기반관계추출 927 술어 - 논항구조의어휘패턴을이용한스트링커널기반관계추출 (String Kernel-based Relation Extraction using Lexical Patterns of Predicate-Argument Structure) 정창후 전홍우 송사광 (Chang-Hoo Jeong) (Hong-Woo Chun) (Sa-Kwang Song) 홍순찬 정한민 최성필 (Soon-Chan Hong) (Hanmin Jung) (Sung-Pil Choi) 요약문서내에존재하는핵심개체들간의다양한상호작용을정확하게파악하고활용하기위해서는관계추출기술이필수적이다. 스트링커널을이용한관계추출은커널의입력으로사용되는스트링을효과적으로구성하는것이커널계산속도나정확성측면에서중요한요소임에도불구하고기존연구에서는입력스트링을효과적으로구성하지못했다. 본논문에서는개체쌍사이에존재하는술어-논항구조의어휘패턴문자열을정규화해서스트링커널에적용하는방법을제안한다. 술어-논항구조패턴은문장을구성하는모든단어에대한술어-논항관계그래프에서중요하게지정된두개체를연결하는최소집합의술어-논항으로구성된순서열로서, 문장내에서상호작용하는두개체간의연관관계를표현해주는중요한단서정보가된다. 제안된시스템의평가를위해서과학기술문헌에존재하는핵심개체들간의연관관계추출성능을평가하는테스트컬렉션을구축하여실험을진행하였다. 정확도측정결과, 스트링커널의입력으로문장전체를사용한경우에는 55.07%, 개체쌍사이의문자열을사용한경우에는 61.04%, 그리고술어-논항구조의어휘패턴문자열을사용한경우에는 69.14% 로, 술어-논항구조의어휘패턴문자열을사용했을때성능이가장좋게나타났다. 결론적으로문장내의술어-논항구조를분석하여정규화된어휘패턴을생성하고이렇게생성된문자열을스트링커널에적용하는방법이관계추출에유용한방법임을알수있었다. 키워드 : 정보추출, 관계추출, 스트링커널, 술어-논항구조패턴, 테스트컬렉션 Abstract The relation extraction is one of the most essential parts in text mining in order to capture various detailed interactions between entities found in documents. The previous research has not shown good results on how to effectively construct the input string of the kernel. Actually, it is very important in terms of efficiency and effectiveness of kernel computation. Therefore, we propose a string-kernel method which normalizes the syntactic pattern strings consisting of predicate-argument structures (PAS) existing between a pair of entities in a sentence. The pattern string is the minimumlength sequence of PASs out of all kinds of possible sequences for any pair of words in a sentence, which is a very important clue revealing the interconnection between two entities in a sentence. The 이논문은 2012 한국컴퓨터종합학술대회에서 술어-논항구조의어휘패턴을이용한스트링커널기반관계추출 의제목으로발표된논문을확장한것임 종신회원 : 한국과학기술정보연구원소프트웨어연구실실장 jhm@kisti.re.kr 정회원 : 한국과학기술정보연구원소프트웨어연구실선임연구원 논문접수 : 2012년 7월 5일 chjeong@kisti.re.kr 심사완료 : 2012년 11월 19일 hw.chun@kisti.re.kr esmallj@kisti.re.kr spchoi@kisti.re.kr (Corresponding author 임 ) 정회원 : 한국과학기술정보연구원소프트웨어연구실책임연구원 schong@kisti.re.kr CopyrightC2012 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회논문지 : 소프트웨어및응용제39권제12호 (2012.12)

928 정보과학회논문지 : 소프트웨어및응용제 39 권제 12 호 (2012.12) proposed method has been implemented and performed experiments to prove its usefulness upon our own test collection designed for verifying the relationship between the entities in documents. The experiments shows that the proposed methods performed the best since its accuracy reaches 69.14% whereas 55.07% and 61.04% are the results of the other two comparison settings: one uses entire strings as the input for the kernel, the other receives all strings between two target entities. Consequently, we proved that the better performance could be obtained from the proposed string-kernel based method, which extracts the normalized lexical pattern consisting of predicate-argument structure in a sentence and then applies it to the string kernel method. Key words : Information Extraction, Relation Extraction, String Kernel, Predicate-Argument Structure Pattern, Test Collection 1. 서론 논문이나신문기사와같은자연어문서에서중요한개체를인식하고그것들간의상호작용을파악하는작업은정보추출의핵심이라고할수있다 [1,2]. 개체를인식함으로써문서가설명하고있는핵심주체를파악할수있으며, 관계를추출함으로써핵심주체의행위를파악할수있기때문이다 [3,4]. 따라서여러시스템들의근간이되는이러한정보추출을성공적으로수행하는것이무엇보다중요한작업이다 [5,6]. 본논문에서는이러한정보추출작업중에서도개체들간의관계를추출하는연구를수행하는데, 관계추출이란텍스트내에존재하는개체들간의기정의된다양한의미적관계를효과적으로식별하고추출하는방법론을연구하는분야이다 [7,8]. MUC(Message Understanding Conference) 1), ACE(Automatic Content Extraction) 2), TAC(Text Analytics Conference) 3) 등의중요한기술경쟁워크숍들을통해서무수히많은관계추출기법들이개발되고발표되었는데, 이중에서커널기반방법은관계추출에가장적합한커널함수를직접고안하여이를학습에적용하는방법이다 [2,7,9]. 여기서커널함수란기계학습의대상이되는두개의인스턴스의유사도를측정하는함수를의미한다. 커널기반방법은기존에많이연구되었던자질기반방법 [10,11] 보다우수한성능을나타내고있기때문에최근들어패턴인식, 데이터및텍스트마이닝그리고웹마이닝분야에서매우활발하게활용되고있다. 본논문에서는이러한커널기법중의하나인스트링커널을활용하여관계추출을수행한다. 본논문의구성은다음과같다. 우선 2장에서기존의스트링커널기반관계추출에대해서살펴보고, 이어서 3장에서술어-논항구조의어휘패턴을스트링커널에적용하는방법을제안한다. 그리고 4장에서는과학기술 1) http://www.itl.nist.gov/iaui/894.02/related_projects/muc 2) http://www.itl.nist.gov/iad/mig/tests/ace 3) http://www.nist.gov/tac 문헌의정보추출성능평가를위해서구축된테스트컬렉션에대해서설명하고, 제안된시스템의성능을평가한다. 마지막으로 5장에서결론과향후연구방향을논의한다. 2. 관련연구특정문장의구문적정보를자질벡터로직접표현하기위해서는고차원의공간이필요하며때에따라서는한정된공간내에서자질벡터로의표현이거의불가능한경우도있다 [12]. 커널기반방법은추가적인자질표현없이학습예제의원형을그대로유지하면서두예제간의커널함수를계산함으로써학습을수행하는방법이다 [12]. 커널함수는입력공간 (input space) 에서유사도점수 로의사상 로정의될수있다. 여기서 는입력공간 에존재하는학습예제를보다고차원의자질공간 (feature space) 으로사상시키는함수이다. 커널함수는대칭적이고 (symmetric) 양의준정부호 (positive semi-definite) 적인특성을나타낸다. 이커널함수를이용하면모든자질들을일일이계산할필요가없이두학습예제간의유사도만을이용하여기계학습을수행할수있는장점이있다. 학습예제간의모든유사도행렬을기반으로학습을수행할수있는모델로주로지지벡터기계 (Support Vector Machines) 가사용되고있다 [13]. 두문장사이의구조적정보를활용하기위해서트리커널 [4,9], 그래프커널 [14,15], 스트링커널 [16,17] 과같은다양한방법들이제안되어왔다. 이러한방법들중에서본논문에서는스트링커널을사용하는데, 스트링커널은문장내부에포함된부분스트링을이용하여두문장이얼마나유사한지를판단한다 [16]. 즉, 두문장이포함하는공통되는부분스트링이많으면많을수록문장끼리더욱유사하다고판단할수있다. 따라서입력문자열을효과적으로잘구성해야한다. Bunescu et al. (2006) 는이러한스트링커널을이용하여관계추출을

술어 - 논항구조의어휘패턴을이용한스트링커널기반관계추출 929 그림 1 입력문장에대한세그먼트분리수행하였는데, 문자열자질로문장의세그먼트 (segment) 를사용하였다 [17]. 우선입력문장 를그림 1과같이 3개의세그먼트 (fore: 첫번째개체 이전의세그먼트 ), (between: 첫번째개체 과두번째개체 사이의세그먼트 ), (after: 두번째개체 이후의세그먼트 ) 로나누고, 개체쌍의상호작용이가장잘표현되는세그먼트의조합 (fore-between), (between), (between-after) 를생성하여스트링커널에적용하는방법을사용하였다. 그러나이러한방법은세그먼트에존재하는불필요한어휘자질까지도커널계산에포함시킴으로써정확도를감소시킬수있다. 본논문에서는문장내에존재하는개체들간의관계를추출하기위해서술어-논항구조어휘패턴의문자열유사도를이용하는스트링커널기반관계추출방법을제안한다. 문장을단순히개체의위치에의한세그먼트로나누는것이아니라, 술어와논항사이의의미적관계를분석하여개체쌍사이의상호작용을가장잘표현하는어휘패턴을정규화해서사용한다. 3. 술어-논항구조의어휘패턴을이용한스트링커널기반관계추출스트링은유한한알파벳에서선택된유한한기호열을의미하는데, 스트링커널은이러한스트링내부에존재하는부분스트링을검사하여두스트링간의유사도를측정한다. 스트링커널중가장기본적인커널은스펙트럼커널 (spectrum kernel) 로서정해진길이만큼인접해있는부분스트링을공통적으로얼마나많이포함하고있는지를계산함으로써두스트링을비교하는방법이다. 스펙트럼커널에서 -스펙트럼은 길이의연속된부분스트링을의미하고, 커널은두스트링에공통적으로포함된 -스펙트럼의개수를계산한다. 즉, 알파벳을, 를 -스펙트럼, 를스트링 에포함된 의개수라하고, 스트링 를특징벡터 로나타낼때, 스트링 의 -스펙트럼커널은 으로정의한다. 여기서 은일반적인벡터간의내적이다. 따라서커널함수 는두개의스트링 에서 길이의공통적인부분스트링의수를나타낸다. 이를수학적으로표현하면다음과같다. if 여기서 는스트링 의길이를의미하고, 부분스트링 는스트링 에서길이가 인부분스트링을의미한다. 결과적으로 -스펙트럼커널은차수 를고정하고공통되는부분스트링의개수를계산한다. 스트링커널의입력으로사용되는문자열생성을위해서본논문에서는술어-논항구조의어휘패턴을사용한다. 술어-논항구조는문장을구성하는각단어에대한술어와논항관계를분석하여문장내에존재하는각단어간의유의미한관계를표현하는구조이다 [18]. HPSG (Head-driven Phrase Structure Grammar) 를사용하는파서는효과적으로문장의구문적 / 의미적구조를분석하여술어와논항관계를제공한다 [19]. 따라서사용자는파싱결과로부터직접적으로문장에있는단어들사이의의미적연관관계를파악할수있다. 파서의분석결과를이용하여술어-논항구조패턴을추출할수있는데, 이것은문장을구성하는모든단어에대한술어-논항관계그래프에서중요하게지정된두개체를연결하는최소집합의술어-논항으로구성된순서열을의미한다. 이러한특성때문에술어-논항구조패턴은문장내에서상호작용하는두개체간의연관관계를표현해주는중요한단서정보가된다. 따라서한개체로부터시작해서다른개체로까지의의미적연결고리를제공해주는술어 -논항구조의어휘패턴을이용하여관계추출을수행할수있다. 파서에서제공된결과를이용하여각단어의술어-논항관계그래프를그리면그림 2와같이표현된다. 그림 2에서실제적으로문장내에존재하는두개체간의유의미한관계를표현하는술어-논항구조만을추출하여패턴을구성하면그림 3과같다. 그림 3에서화살표의연결은한개체로부터상호작용하는다른개체로까지의술어-논항관계를추적할수있다는것을의미한다. 따라서 radon_exposure 와 lung_cancer 사이의관계를추적해보면 is cause of 와같은중요한어휘패턴을기반으로관계가형성되어있음을알수있다. 결과적으로개체 1과개체 2의관계는두개체를유의미한관계로연결해주는술어-논항구조의어휘패턴에의하여식별될수있다. 따라서이어휘패턴을스트링커널의입력으로사용하여개체간의관계를추출하는데사용할수있다.

930 정보과학회논문지 : 소프트웨어및응용제 39 권제 12 호 (2012.12) 그림 2 술어 - 논항관계그래프의예 그림 3 술어-논항구조패턴의예그림 4는술어-논항구조의어휘패턴을사용하여관계추출을수행하는예를보여준다. 관계추출에서커널함수의핵심은해당문장의의미를가장잘반영하는것이아니라, 두개체가가지고있는관계를가장잘표현하는특징을찾아서또다른인스턴스와효과적으로비교를수행하는것이다. 따라서문장 1에서의 BadaOS 와 Samsung 사이의관계를표현하는단서와문장 2 에서의 Apple 과 ipad 사이의관계를표현하는단서를잘추출하여두문장의관계가서로비슷한지를효과적으로비교해야한다 ( 본예제에서는 기업 개체와 제품 개체사이의 발표하다 라는관계를가지고있는문장을보여준다 ). 술어-논항구조패턴을사용하는경우문장 1은비록수동태로되어있더라도의미적주어인 Samsung 이의미적목적어인 BadaOS 를 announce 했다는사실을정규화해서표현할수있고, 문장 2도마찬가지로비록종속절로연결되어있지만의미적주어인 Apple 이의미적목적어인 ipad 를 announce 했다는사실을정규화해서표현할수있다 ( 점선으로연결된어휘집합의원형을두개체를연결하는패턴으로추출한다 ). 따라서문장 1에서추출된어휘패턴 announce 와문장 2에서추출된어휘패턴 announce 를스트링커널의입력으로사용하면두인스턴스간의유사도값은매우크게계산된다. 만일이때술어-논항구조의어휘패턴을사용하지않는다면문장내에서의두개체사이의거리가멀고종속절과같은복잡한문법적변형이존재하기때문에불필요한어휘자질들이반영되어두인스턴스간의유사도값이낮아지게된다. 따라서수동태나종속절뿐만아니라부정사나동명사와같은다양한문법적변형에대해서도두개체간의연관관계를표현해주는패턴을정규화해서일관된형태로기술할수있기때문에, 술어-논항구조의어휘패턴을사용한스트링커널기반관계추출은효과적인방법임을알수있다. 이때관계추출의정확도 (accuracy) 는관계종류가정확하게인식된인스턴스의개수를평가집합으로입력된전체인스턴스의개수로나눈값을의미한다. 그림 4 술어 - 논항구조의어휘패턴을이용한스트링비교예

술어 - 논항구조의어휘패턴을이용한스트링커널기반관계추출 931 4. 실험및분석본장에서는과학기술문헌에존재하는핵심개체간연관관계추출성능평가를위해서자체적으로구축한관계추출테스트컬렉션 (KREC) 을활용하여실험을수행하고결과를분석한다. 과학기술분야문헌의경우사람, 지명, 조직명과같은일반개체뿐만아니라단백질, 유전자, 질병명과같은분야특화된개체를인식할필요가있고, 더나아가서문헌에서중요하게사용되는전문용어까지인식할필요가있다. 따라서과학기술문헌을대상으로정보를추출할때에는다양한개체명과전문용어를동시에인식하고그것들간의관계를추출하는작업이필요하다. 본논문에서는과학기술분야의정보추출시스템을평가하고성능을향상시키기위해서과학기술분야에적합한테스트컬렉션을새롭게구축하였는데, 대상문헌은과학기술뉴스 4) 와 NDSL 5) 에서보유하고있는해외학술지에서선정하였다. KREC 구축과정에대해서좀더구체적으로살펴보면, 우선과학기술뉴스데이터는웹에서수집한 2000년도이후의문서를대상으로문서크기가상위 80% 이상에해당되는것들만을연도별로임의로선정하여전체 11,185건을수집하였다. 그리고해외학술지데이터는 SCI급, 인용지수 (impact factor), 초록크기등여러가지요소들을고려하여수집하였다. 그기준으로는첫째, 해외학술지중에서인용지수를기준으로상위 50종을우선선별하였다. 둘째, 동일한종에서개별초록의크기가평균초록크기의 90% 이상인문서를선정하였다. 셋째, 발행연도가 2000년이후인최신문서를선정하였다. 넷째, 선정된종에서종별로각 25% 의문서를선정하여최종적으로 10,310건의문서를수집하였다. 선정된문서에대해서미리정의된개체타입과연관관계집합을참조하여태깅작업을수행하였다. 실제테스트컬렉션에존재하는연관관계의수는 39개이지만, 본실험에서는비슷한성질의연관관계를통합하여표 1과같이총 7개로재구성하여실험을진행하였다. 테스트컬렉션구축은전문가 2인에의해수행되었고, 서로교차검토하여오류를최소화하였다. 이때개체및관계를지정할때평가자의주관이개입될수있기때문에평가자들간의의견일치도 (Inter-Annotator Agreement) 를함께측정해야하는데, 본연구에서는의견일치도의척도로보편적으로사용되는 Fleiss의카파점수 (kappa score) 를사용하였다. Fleiss의카파점수는 0보다작으면 Poor agreement, 0.01-0.20에서는 Slight agreement, 0.21-0.40 에서는 Fair agreement, 0.41-0.60에서는 Moderate agreement, 0.61-0.80 에서는 Substantial agreement, 0.81-1.00에서는 Almost perfect agreement 를나타내는데 [20], 본연구에서측정한카파점수는 0.71로 Substantial agreement 수준을보여주었다. 테스트컬렉션구축시발생되는철자오류및태그부착오류등을방지하고작업속도를높이기위하여그림 5에서보이는테스트컬렉션구축도구를자체적으로개발하여사용하였다. 테스트컬렉션구축도구는문장분리및합병, 개체지정및취소, 개체분류코드선택, 개체추천, 연관관계설정, 오류검증등의기능을제공하고, 완성된문서를테스트컬렉션의 DTD에맞는 XML문서로저장한다. 구축된테스트컬렉션의세부정보는표 2와같다. 술어-논항구조의어휘패턴문자열이관계추출에얼마나유용한지를확인해보기위해서다음과같이실험을진행하였다. 첫번째로, 개체쌍을제외한문장전체를자질로사용하여관계추출실험을수행하였다 ( 그림 2에서 _ is the second leading cause of _ in the general popu- 표 1 실험대상관계종류 관계종류 relate change produce own connect analyze cause 4) http://www.eurekalert.org 5) http://www.ndsl.kr 의미관계하다변경하다생산하다소유하다연결하다분석하다야기하다 그림 5 테스트컬렉션구축도구 표 2 KREC 세부정보 문서 문장 개체 연관관계 1,090 14,341 22,125 2,441

932 정보과학회논문지 : 소프트웨어및응용제 39 권제 12 호 (2012.12) lation ). 이는개체쌍이문장내에존재하므로해당문장은개체쌍의관계추출을위해서중요한정보를포함하고있을가능성이크기때문이다. 두번째로, 개체쌍사이에존재하는문자열을자질로사용하여관계추출실험을수행하였다 ( 그림 2에서 _ is the second leading cause of _ ). 해당문장전체를사용하는경우불필요한용어나구가자질에반영되어오히려좋지못한결과를초래할수도있기때문에개체와개체사이에서관계추출에직접적으로영향을미칠가능성이큰부분만을대상으로실험을수행하였다. 마지막세번째로, 술어-논항구조의어휘패턴문자열을대상으로실험을수행하였다 ( 그림 2에서 _ is cause of _ ). 두번째방법역시개체와개체사이에존재하는문자열에서실제적으로는관계추출과관련없는용어들이존재할수있기때문에술어와논항관계로직접관련을맺고있는어휘들만을선정하여관계추출의자질로사용하였다. 본논문에서는 10-fold 교차평가 (cross validation) 로정확도를측정하여각방법의성능을비교하였는데, 실험결과는표 3과같다. 표 3에서보는바와같이, 술어-논항구조의어휘패턴문자열을스트링커널에적용하였을때성능이가장좋게나타나는것을확인할수있었다. 이것은개체들간의관계를추출할때두개체를연결하는술어-논항구조를분석하여어휘패턴을생성하는방법이관계추출에도움이된다는것을의미한다. 기존연구와관련해서, Bunescu et al. (2006) 은문자열외에도추가적으로다양한형태의부가단어정보 ( 품사, 개체유형, 워드넷신셋등 ) 들을활용하여비교함수를구성하였기때문에, 본논문에서제안한방법과직접적으로비교를수행할수는없다. 하지만간단히문자열자질의선택측면에서비교를수행하였을때, 개체쌍사이의문자열만을사용한두번째방법의성능을넘어서지는못하였다. 이것은 Bunescu et al.(2006) 가스트링커널의입력으로사용되는문자열자질을선택할때, 문장을단순히개체의위치에의한세그먼트분리및새로운조합생성이라는방법을사용했기때문이다. 이러한방법은세그먼트에존재하는불필요한어휘자질까지도커널계산에포함시킴으로써정확도를감소시키기때문에, 술어-논항구조의어휘패턴문자열을사용하는방법이보다효과적이다. 표 3 사용된어휘자질에따른정확도실험결과사용된정보정확도 1) 문장전체사용 55.07% 2) 개체쌍사이의문자열사용 61.04% 3) 술어-논항구조의어휘패턴문자열사용 69.14% 그림 6 술어-논항구조어휘패턴의가중치증가에따른정확도의변화추가실험으로첫번째실험에서성능이좋게나타난두가지방법을결합하여정확도를다시측정해보았다. 첫번째실험을통하여술어-논항구조의어휘패턴문자열이관계추출에긍정적인영향을미치고있다는사실을확인하였지만, 개체쌍사이의문자열을함께사용하였을경우에어느정도의성능향상이추가적으로이루어지는지를확인해보기위해서개체쌍사이의문자열에대한커널값과술어-논항구조의어휘패턴문자열에대한커널값을결합하여다음과같이새로운커널을구성하였다. 수식에서 는입력스트링 와 에대해서개체쌍사이의문자열에대한유사도를계산하는스트링커널이고, 는술어-논항구조의어휘패턴문자열에대한유사도를계산하는스트링커널이다. 는술어-논항구조의어휘패턴문자열에대한가중치조절역할을수행한다. 실험결과는그림 6과같은데, 그림 6은술어-논항구조어휘패턴의문자열유사도에대한가중치를증가시키면서측정한정확도의변화를보여준다. 그림 6에서보는바와같이, 값이증가함에따라전체적인성능이좋아지는것을확인할수있다. 물론 값이 1.0인경우보다 0.9인경우에최고값을나타내기는하지만, 술어- 논항구조만을단독으로사용하더라도비슷한성능을얻을수있기때문에술어-논항구조의어휘패턴에대한문자열유사도의중요성이매우크다는사실을알수있다. 따라서본연구에서얻어진결과들을활용하면좀더성능좋은관계추출시스템을개발할수있다. 5. 결론본논문에서는문장내에존재하는개체들간의유의미한관계를표현해주는술어-논항구조의어휘패턴을스트링커널에적용하여관계를추출하는방법을제안

술어 - 논항구조의어휘패턴을이용한스트링커널기반관계추출 933 하였고, 실험을통하여술어-논항구조의어휘패턴이관계추출을위한중요한자질로활용될수있음을증명하였다. 향후본논문에서사용한스트링커널과다른커널기법들을결합하여혼합커널을구성하는방법에대한연구가필요하다. 문자열의유사도를이용하여관계추출을수행하는스트링커널과문법적구조의유사성을이용하여관계추출을수행하는트리커널이나그래프커널을결합하면보다성능좋은관계추출시스템을개발할수있을것이다. 참고문헌 [1] R. C. Bunescu, R. J. Mooney, "A Shortest Path Dependency Kernel for Relation Extraction," Proc. of the Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing, pp.724-731, 2005. [2] A. Culotta, J. Sorense, "Dependency Tree Kernels for Relation Extraction," Proc. of the 42nd Annual Meeting on Association for Computational Linguistics, 2004. [3] Y. Choi, C. Jeong, H. Cho, "A Study on the Integration of Recognition Technology for Scientific Core Entities," Journal of the Korean Society for Information Management, vol.28, no.1, pp.89-104, Mar. 2011. (in Korean) [4] S. Choi, Y. Choi, C. Jeong, S. Myaeng, "Extraction of Relationships between Scientific Terms based on Composite Kernels," Journal of KIISE : Computing Practices and Letters, vol.15, no.12, pp.988-992, Dec. 2009. (in Korean) [5] J. Cowie, W. Lehnert, "Information extraction," Communications of the ACM, vol.39, no.1, pp.80-91, 1996. [6] O. Etzioni, M. Banko, S. Soderland, D. S. Weld, "Open information extraction from the web," Communications of the ACM, vol.51, no.12, pp.68-74, 2008. [7] D. Zelenco, C. Aone, A. Richardella, "Kernel Methods for Relation Extraction," Journal of Machine Leanring Research, vol.3, pp.1083-1106, 2003. [8] M. Zhang, G. Zhou, A. Aiti, "Exploring syntactic structured features over parse trees for relation extraction using kernel methods," Information processing & management, vol.44 no.2, pp.687-701, 2008. [9] M. Zhang, J. Zhang, J. Su, "Exploring syntactic features for relation extraction using a convolution tree kernel," Proc. of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, pp.288-295, 2006. [10] N. Kambhatla, "Combining Lexical, Syntactic, and Semantic Features with Maximum Entropy Models for Extracting Relations," Proc. of the ACL on Interactive poster and demonstration sessions, 2004. [11] G. Zhou, J. Su, J. Zhang, M. Zhang, "Exploring various knowledge in relation extraction," Proc. of the 43rd Annual Meeting on Association for Computational Linguistics, pp.427-434, 2005. [12] N. Cristianini, J. Shawe-Taylor, An Introduction to Support Vector Machines and Other Kernel-based Learning Methods, Cambridge University Press, 2000. [13] C.-C. Chang, C.-J. Lin, "LIBSVM: A library for support vector machines," ACM Transactions on Intelligent Systems and Technology (TIST), vol.2, no.3, 2011. [14] S. V. N. Vishwanathan, N. N. Schraudolph, R. Kondor, K. M. Borgwardt, "Graph Kernels," Journal of Machine Learning Research, vol.11, pp.1201-1242, 2010. [15] A. Airola, S. Pyysalo, J. Bjorne, T. Pahikkala, F. Ginter, T. Salakoski, "All-paths graph kernel for protein-protein interaction extraction with evaluation of cross-corpus learning," BMC Bioinformatics, vol.9(suppl 11):S2, 2008. [16] H. Lodhi, C. Saunders, J. Shawe-Taylor, N. Cristianini, C. Watkins, "Text Classification using String Kernels," Journal of Machine Learning Research, vol.2, pp.419-444, 2002. [17] R. C. Bunescu, R. J. Mooney, "Subsequence Kernels for Relation Extraction," Proc. of the 9th Conference on Natural Language Learning, pp.9-16, 2006. [18] A. Yakushiji, Y. Miyao, T. Ohta, Y. Tateisi, J. Tsujii, "Automatic Construction of Predicate-argument Structure Patterns for Biomedical Information Extraction," Proc. of the 2006 Conference on Empirical Methods in Natural Language Processing, pp.284-292, 2006. [19] Y. Miyao, J. Tsujii. "Feature Forest Models for Probabilistic HPSG Parsing," Computational Linguistics, vol.34, no.1, pp.35-80, 2008. [20] J. L. Fleiss, "Measuring nominal scale agreement among many raters," Journal of Psychological Bulletin, vol.76, no.5, pp.378-382, 1971. 정창후 1999년충남대학교컴퓨터과학과졸업 ( 학사 ). 2002년충남대학교대학원컴퓨터과학과졸업 ( 석사 ). 2003년~현재한국과학기술정보연구원선임연구원. 관심분야는정보검색및추출, 텍스트마이닝

934 정보과학회논문지 : 소프트웨어및응용제 39 권제 12 호 (2012.12) 전홍우 2002 년고려대학교컴퓨터학과졸업 ( 학사 ). 2004 년고려대학교대학원컴퓨터학과졸업 ( 석사 ). 2007 년일본동경대학대학원컴퓨터과학전공졸업 ( 박사 ). 2009 년 ~ 현재한국과학기술정보연구원선임연구원. 2008 년 ~2009 년 Japan Research Organization of Information Systems, Database Center for Life Science, Project researcher. 2007 년 ~2008 년 Japan National Institute of Advanced Industrial Science and Technology (AIST), Japan Biological Information Research Center (JBIRC), 박사후과정. 관심분야는자연어처리, 기계학습 송사광 1997 년충남대학교통계학과졸업 ( 학사 ) 1999 년충남대학교대학원컴퓨터과학과졸업 ( 석사 ). 2011 년한국과학기술원대학원전산학과졸업 ( 박사 ). 2005 년 ~2010 년한국전자통신연구원바이오인포매틱스팀연구원. 2010 년 ~ 현재한국과학기술정보연구원선임연구원. 관심분야는텍스트마이닝, 자연어처리, 정보검색, 시맨틱웹, 빅데이터 홍순찬 1981 년서울대학교항공공학과졸업 ( 학사 ). 1983 년서울대학교대학원항공공학과졸업 ( 석사 ). 1993 년일본나고야대학대학원항공우주공학전공졸업 ( 박사 ) 1983 년 ~ 현재한국과학기술정보연구원책임연구원. 관심분야는데이터마이닝, 슈퍼컴퓨팅시뮬레이션 정한민 1994년 POSTECH 전자계산학 ( 공학석사 ) 2003년 POSTECH 컴퓨터공학 ( 공학박사 ) 2004년~현재한국과학기술정보연구원책임연구원. 2005년~현재과학기술연합대학원대학교겸임교수. 2009년~현재한국콘텐츠학회이사. 관심분야는시맨틱웹, HCI, 자연어처리 최성필 1996년부산대학교전자계산학과졸업 ( 학사 ). 1998년부산대학교대학원전자계산학과졸업 ( 석사 ). 2012년한국과학기술원대학원정보통신공학과 ( 박사 ). 1998 년~현재한국과학기술정보연구원선임연구원. 관심분야는기계학습, 정보검색, 자연어처리, 정보추출, 텍스트마이닝