06-특집11-01.hwp

Save this PDF as:
 WORD  PNG  TXT  JPG

Size: px
Start display at page:

Download "06-특집11-01.hwp"

Transcription

1 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석 한국과학기술정보연구원최성필 * 송사광 * 정한민 ** 황미녕 * 1. 서론 1) 전세계적으로텍스트간의심층의미적관계식별및추론을위한다양한연구가진행되고있다. 텍스트추론 (Textual Inference) 이란두텍스트간의의미적연관성측정을토대로이들간의논리적관계를파악하는기술로정의될수있다 [1]. 이러한텍스트추론기술의대표적인두가지요소분야가바로텍스트함의인식 (Textual Entailment Recognition) 과패러프레이즈식별 (Paraphrase Recognition) 이다. 그중, 텍스트함의인식 (Textual Entailment Recognition) 은 두텍스트 T(Text) 와 H(Hypothesis) 에대해서, T 를기반으로 H 를유추할수있는가를판단 하는문제로정의할수있다 [2]. 이러한정의는추론의범위를문헌전체나문헌컬렉션으로확장하기보다는특정문장혹은단락중심의지역적추론문제로제한하고있다. 예를들어, 다음과같은두문장에대해서유추여부관계를판단하는것이텍스트함의인식의핵심이다. (1) Korea was the host city of the 2002 FIFA World Cup. (2) A series of World Cup games have been held in Korea. 문장 (1) 에서우리는문장 (2) 를자연스럽게유추할수있다. 하지만추가적인기반지식이없이 (2) 번문장에서 (1) 번문장을유추할수는없다. 따라서텍스트함의 ( 含意, entailment) 인식은단일방향으로의유추가능여부인식을말한다. 만약유추관계가양방향으로성립된다면이들한쌍의언어표현은서로의미적으로동일한패러프레이즈관계에있다고볼수있다. 비록텍스트함의인식의일부로서인식되기도하지 ** 정회원 ** 종신회원 만, 텍스트추론에서또하나의중요한연구분야가바로패러프레이즈인식및추출 (Paraphrase Recognition and Extraction) 이다 [3-8]. 패러프레이즈란텍스트내에서 거의 동일한 ( almost equivalent) 정보를제공하기위해선택할수있는다양한표현방법들이다. 나는책을본다 와 나는책을읽는다 는동일한의미로인식된다. 우리는밥을먹는다 와 우리는식사를한다 도역시동일한의미를나타낸다. 일반적으로일상언어생활혹은텍스트내에서많은패러프레이즈를발견하거나스스로만들수있다. 자연어처리연구에서패러프레이즈에대한식별이중요한이유는정보검색, 질의응답그리고문서요약등에서특정의미에대한서로다른표층적언어표현들이성능저하의중요한요인중의하나였기때문이다 [3,5,6]. 초기에는특정분야에종속된연구로서성능개선방법의하나로연구되었으나, 그중요성이강조됨에따라최근에는독립적인분야로서연구되고있다. 일반적으로텍스트추론분야에서현재까지의연구된접근방법을크게네가지, 즉, (1) 논리적의미표현전이기법 (Logical Meaning Representation Transfer Methods), (2) 유사도기반방법 (Similarity-based Methods), (3) 기계학습기법 (Machine Learning Methods), (4) 규칙기반변형기법 (Rule-based Transformation Methods) 등으로구분하고있다 [2]. 논리적의미표현전이기법은심층적인언어분석을통하여한쌍의입력언어표현 1) 을일차술어논리 (First Order Predicate Logic, 1) 본논문에서 문장 (sentence) 라는용어보다 언어표현 (language expression) 이라는개념을사용한이유는텍스트기반추론에서텍스트 (T) 가하나이상의다중문장으로구성될수있기때문이다. 이럴경우, 문장단위의의미표현메커니즘을확장하여다중문장기반의의미표현이가능하도록해야한다 정보과학회지 9

2 FOPL) 형태로변형하고, 지식공리 (world knowledge axiom) 집합을기반으로추론을수행하는방법이다. 이러한추론에는주로정리증명 (theorem proving)[9,10] 과모델충족 (model satisfaction)[11] 기법들을주로활용하였다. 이와달리, 유사도기반방법은두개의입력언어표현에대해서의미적거리 (semantic distance) 측정이가능한정형화된형태로변형하거나확장하여거리기반유사도를계산함으로써유추여부를판단한다. 유사도계산방법에따라서 (1) 벡터기반의미표현기법 [12,13] 과 (2) 직접비교기법 [14-16] 등으로나눌수있다. 세번째로기계학습기법은텍스트간추론가능여부가미리지정된말뭉치를기반으로기계학습을통해서학습모델을생성하고, 추론여부판단을자동분류문제로귀결시켜접근한방법이다. 한쌍의입력언어표현에서다양한기계적변형기법들을적용하여, 중요자질이효율적으로추출될수있는형태로변환한다음, 두표현간유추여부판단에중요한자질을추출하여학습을수행함으로써문제를해결하고자하였다. 기계학습을이용한많은기법중에서대표적인접근방법은 [17] 에의해서제안된구문트리커널 (syntactic tree kernel) 기반방법이있다. 입력언어표현들에대한두가지구문트리를하나로결합하여그래프형태로확장하고, 커널기법을통해서해당그래프의클래스 ( 유추, 비유추 ) 를추정하는기법을제시하였다. 마지막으로규칙기반변형기법은위에서제시한방법들중에서가장오래되고광범위하게활용되는방법이다. WordNet 등과같은기반자원이나웹 (WWW) 을통해동의어및유사어구 2) 들을자동으로수집하여변형규칙 (transformation rule) 집합으로구성하고이를두언어표현에적용, 변형함으로써궁극적으로는두표현이서로같은표현으로수렴될수있는지를판단하는방법이다 [18-20]. 추가적인성능개선을위해서, 수집된변형규칙의신뢰도를측정하여이를점수화하는기법 [15] 이나문맥에따른변형규칙의동적적용기법 [21] 등을추가적으로적용하기도한다. 본논문에서는앞에서간단하게정리하여언급한텍스트추론의세부분야별로, 현재까지진행된연구결과들을세부적으로소개하고이들각각의특징을분석한다. 또한지금까지수행된연구의문제점과한계점을살펴보고이를개선할수있는방향을알아본다. 논 2) ~ is fond of ~ ~ likes ~, ~ killed ~ ~ assassinated ~ 등과같은어휘적패러프레이즈를의미한다. 문의구성은다음과같다. 우선 2장에서는현재까지활발한연구가지속되고있는분야인질의응답 (Question Answering) 의성능향상을위해수행된텍스트추론관련연구를살펴본다. 아울러 3장에서는텍스트추론의직접적인하부연구분야인텍스트함의인식에대한연구동향을분석한다. 4장은두텍스트간의동질성여부파악을위한패러프레이즈식별에관한기존연구를분석하고, 이어 5장에서는텍스트추론의성능개선을위한방법론으로볼수있는추론패턴추출 (Inference Pattern Extraction) 분야에대해소개한다. 마지막으로결론에서는현재까지연구된방법론들의특징을되짚어보고이들의한계점과함께이를극복할수있는방안을알아본다. 또한텍스트추론이한글에적용되기위한전제조건들을설명하고연구방향을설명한다. 2. 질의응답시스템 (Question Answering System) 질의응답 (Question Answering) 은언어처리기법과정보검색기술을결합하여자연어로표현된사용자질의를입력받고이를분석하여그에해당하는 정확한답 을제공해주는시스템이다 [22]. 입력질의와연관성이있는문서집합 (relevant documents) 을제공하는정보검색 (information retrieval) 과는달리, 질의응답은사용자의상세질의에대한정확하고세부적인정답을대상문서집합에서찾아서, 이를단답형혹은문장형태로제공해야한다. 이를위해서, 자연어질의와문서내에서의텍스트표현간의심층적인의미적연관관계를인식하기위한많은의미표상 (meaning representation) 기법과이들간의추론기법들이개발되어왔다. 특히구문분석을비롯하여개체명인식 (namedentity recognition), 개체간관계추출 (relation extraction), 그리고의미역부착 (semantic role labeling) 등과같은심화된분석을통해서, 하나의언어표현을의미적모호성이거의대부분제거된형태의논리형식 (logic formation) 으로표현하고이를통해서질의응답이나텍스트기반추론에적용하는연구가매우활발하게전개되고있다 [11,23-25]. 이들연구대부분이사용하는논리표현방법들은대부분일차술어논리 (First Order Predicate Logic, FOPL) 형식이다. [25] 는질의응답을위한의미표현메커니즘으로다층적일차논리표현 (Multi-layered FOPL Representation) 모델을제시하였다. 크게세가지수준 (level) 으로구분되는이논리적의미표현기법은구문층 (syntactic 10 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석

3 layer), 의미층 (semantic layer), 그리고문맥층 (contextual layer) 로구성되어있다. [26] 은 WordNet 동의어집합 (synset) 의모든주해 (gloss) 들을구문분석하여일차술어논리형태로변형한다음, 이를질의응답시스템의의미표현확장용부가규칙집합으로활용하여그가능성을보였다. 이논문에서사용한일차술어논리변환기법을그대로채택하여구성한것이바로 [25] 의구문층이다. 구문층 (syntactic layer) 은구문분석결과를바탕으로각단어간의문법적관계를일차술어논리로표현하는단계이다. 문장내에서모든명사, 동사, 형용사, 그리고부사는술어 (predicate) 가될수있다. 예를들어, a system that searches useful information quickly. 에서 system:n, search:v, useful:a, information:n quickly:adv 등이술어가된다. 이러한술어 (predicate) 는그품사에따라다양한형태의논항 (argument) 이함께할수있다. 우선명사는그자신을나타내는변수가논항으로할당된다. 위의예에서, system:n(x 1) 과같이 system 을가리키는변수 x 1 이해당술어의논항이되며, 이변수는전체문장의논리표현내에서다른술어의논항으로활용된다. 명사와는달리동사는더복잡한형태의논항집합을가지게된다. [26] 은 [27] 의동작술어 (action predicate) 표현모델에근거하여동작 (action), 상태 (status), 이벤트 (event) 등을나타내는모든술어에기본적으로세가지논항을부여하였다 3). 위의문장에서 search:v 의완전한술어-논항구조는 search:v(e 1, x 1, x 2) 로서 x 1 은 system 을 x 2 는 information 을가리킨다. 부차적으로형용사나부사도위와비슷한구조를가지며, 각각이수식하는대상이논항으로포함된다. 이를기반으로위에서제시한문장에대한전체논리적표현은다음과같다. (1) A system that searches useful information quickly. (2) system:n(x 1 ) ^ search:v(e 1, x 1, x 2 ) ^ useful:a(x 2 ) ^ information:n(x 2 ) ^ quickly:r(e 1 ) 위변환과정에서언어표현의의미에직접적인영향을주지않는관사등은생략한다. 또한전치사구나등위접속사에대한처리도동시에이루어진다. 위예에서각술어표현부분에는그술어의품사정보가표시된다. search:v(e 1, x 1, x 2 ) 에대한지시자가부사술어 3) action/state/event-predicate(e, x 1, x 2) 로표현되며, e 는술어 - 논항자체를가리키는지시자, x 1 은술어의주어, x 2 는술어의목적어를나타낸다. 만일목적어를두개취하는동사 (ditransitive verb) 는논항이추가될수있다. 그림 1 cp will quickly copy the files 에대한 Minimal Logic Form(MLF)[28] quickly:r(e 1 ) 의논항에사용되어수식관계표현을가능하게한다. 그외에추가적으로세부적인표현기법에대한자세한사항은 [26] 을참고하면된다. 전문데이터베이스를기반으로수행되는특수분야질의응답시스템에서는기술용어에대한처리가매우중요하게부각될수있다. [28] 은항공및유닉스시스템분야매뉴얼에대한질의응답시스템을개발하기위한효과적인의미표현기법을제시하였다. 기술매뉴얼에는다양한형태로출현하는기술용어패러프레이즈가존재하며, 이들기술용어가포함된사용자의질문에대한직간접적인정답을찾기위한방법론이필수적이라고강조하였다. 이를위해서 [28] 에서는복잡하거나비문법적인문장에대한의미표현도손쉽게가능한최소논리형식 (Minimal Logic Form, MLF) 이라는의미표현기법을고안하였다. 아래그림은유닉스운영체제매뉴얼에출현하는 cp will quickly copy the files. 라는문장을 MLF로표현하고있다. 그림 1에서보는바와같이문장내에서동사를중심으로한이벤트 (event) 를식별하고, 명사형객체 (object) 와형용사및부사로나타내어지는특성 (property) 을파악하여이를연결한형태로의미표현을수행하였다. 특히이연구에서는사용자의질의나문서내에서발생하는기술용어에대한간접적서술표현을어휘적패러프레이즈 (lexical paraphrase) 와구문적패러프레이즈 (syntactic paraphrase) 로구분하였다. 이중어휘적패러프레이즈는 [29] 에서제시한용어변형식별엔진인 Fastr 4) 를사용하여처리하였으며, 구문적패러프레이즈는위에서나타낸 MLF 기반의프롤로그 (Prolog) 추론을기반으로식별하였다. 구성된전체시스템에대한엄밀한성능평가결과를제시하지않았음에도불구하고, 위논문은기술용어패러프레이즈식별의필요성을최초로강조하였다는점에서주목받을만하다. 4) 정보과학회지 11

4 3. 텍스트함의인식 (Textual Entailment Recognition) 앞에서도언급하였으나, 텍스트함의인식의핵심은 방향성 (directionality) 이다. 텍스트 T에서유추될수있는또다른텍스트 H에대한판정은두텍스트간의유사성판단을능가하는작업이다. 그러나현재까지진행된대부분의연구들은논리기반접근방법 (logicbased approaches) 을제외하고는이러한방향성에대한고려가거의없다 [2,30-35]. [32] 는두문장의문법적차이를자질로구성하여기계학습기반의텍스트함의인식을수행하였다. 부가적으로의존문법관계중첩정도 (dependency relation overlap) 와단어중첩정도 (term overlap) 도함께활용하였다. 비교대상이되는두텍스트에는함의관계 (entailment relation) 를추정하는데불필요한요소들이존재함을가정하고, 이를제외하기위해서각각의텍스트에서명사와동사로구성되는토픽단어들을이용하여의존문법구조기반의정렬을수행하면보다엄밀한의미적차이를발견할수있다는점에주목하여연구를수행하였다. 그림 2에서보는바와같이, 단일문장에대해서그 문장의의존문법트리 (dependency tree) 의루트 (root) 가되는주요동사 ( 혹은명사 ) 를중심으로의존관계를따라각각좌 / 우측으로펼쳐지는 Tree Skeleton(TS) 을구성하면, 토픽단어들을연결한하나의시퀀스가최종적으로생성된다. 이렇게구성된한쌍의시퀀스들에대한정렬을통해서그차이점을발견할수있고, 이차이점들이기계학습의자질로서활용된다. [34] 는기존텍스트함의인식방법론들의한계점을설명하면서, 비교대상이되는두텍스트의길이가매우길고복잡하면기존의단순표상적접근방법의성능이매우떨어짐을역설하였다. 이러한문제점의해결책으로개별텍스트에서 Discourse Commitment(DC) 5) 를자동으로추출하여, 두텍스트간의의미적연관성판정을추출된 DC를기반으로수행하는모델을제안하였다. 아래그림 3은특정텍스트에서자동으로추출된 DC 리스트를보여준다. 두텍스트에서추출된 DC 집합을바탕으로가장유사한 DC 쌍을선택하고, 선택된 DC 쌍에서다양한자질들을추출하여최종적으로결정트리 (decision tree) 기반의이진분류를수행하게된다. 개별텍스트의길이가길고두텍스트의길이차이가큰표준 RTE 평가말뭉치 [25] 에서매우우수한성능을보였으나, DC 그림 2 Dependency Tree Skeleton[32] 그림 3 두텍스트에대한 Discourse Commitments 예시 [57] 5) 사람이특정텍스트를읽고이해하였을때도출될수있는다양한사실적명제집합을의미함. 12 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석

5 추출에상당한휴리스틱규칙이필요하다는단점이있으며, 동일한의미를나타내지만길이가짧고, 표상적차이가매우큰두텍스트간의함의인식성능은낮아질위험이있다. 텍스트에대한의미표현에있어서전통적으로활용되었던또다른효과적인방법은의존그래프 (dependency graph) 이다. [36] 에서는문장의의미표현을의존문법기반의그래프로표현하고이들그래프간의유사도를측정함으로써함의관계를판정하였다. 두의존그래프의동형성 (isomorphism) 판정을위해서는비용기반의그래프매칭모델 (Cost-based Graph Matching Model) 을정의하여노드매칭 (vertex matching) 과관계매칭 (edge matching) 을개별적으로계산함으로써, 수많은그래프매칭방법중에서최소비용을가지는매칭방법의비용을유사도로활용하였다. 의존그래프에서의노드는개별단어를의미하므로노드매치비용산정을위해서단어간의완전일치 (exact match), 동의어일치 (synonym match), 상위어일치 (hypernym match), 워드넷일치 (WordNet match) 등과같은순차적인비용산정모델을정의하여활용하였다. 또한의존관계매치를위해서는노드일치가완료된상황에서두노드간의경로가두그래프에서다르게표현될수있음을감안하여두노드간의경로거리가멀면멀수록비용이더산정되는방법을적용하였다. 또한그래프정렬 (graph alignment) 로해결하기가쉽지않은부정 (negation), know, realize 와같은사실전제동사 (factive verb), 반의어 (antonym) 등과같은정교한분석을필요로하는부분들은 checks 라고정의한후반부특수처리로서해결하고있다. 그러나그래프정렬모델의구조적장점에도불구하고실험결과, 그성능이그리높지않다. 그이유중의하나는앞에서도언급하였듯이비록처리대상이그래프로서복잡한구조를가지지만, 이방법도결국은정렬 (alignment) 기법이며, 특히이방법에서의노드일치는기계번역에서의어휘기반정렬과동일하다. 따라서노드일치의정확도가전체시스템의성능을가름하는중요한요소가되는 데, 앞에서지적한바와같이단일언어표현에대한어휘적정렬의성능이현재수준에서는그리높지않으므로이점이성능저하의주된요인이되는것이다. 따라서텍스트내의어휘와문법적관계가결합된형태의핵심적인의미요소를결정하고, 이들요소에대한정렬을수행한다면보다정확한유사도측정이가능하다. 4. 패러프레이즈인식 (Paraphrase Recognition) 패러프레이즈인식은텍스트에서동일한의미를나타내는상이한형태의문장, 구절등을찾아내는작업이다. 주지한바와같이, 대부분의연구가심도깊은자연어처리를통한두텍스트간의유사도측정모델에근간을두고있다. 지금까지매우활발한연구가이루어졌으며많은논문이발표되었으나 [37-41] 여기서는이들중본연구와관련하여가장중요하다고판단되는연구결과를중심으로소개한다. 우선 [39] 는두문장간의의미적연관성을측정함에있어서, 유사점 (similarity) 뿐만아니라차이점 (dissimilarity) 도함께고려되어야한다고주장한다. 문장비교를위해서 정보덩어리 (Information Nugget) 라는비교요소를정의하는데이는의미역부착 (Semantic Role Labeling, SRL) 결과로도출되는술어-논항구조 (Predicate-Argument Structure, PAS) 이다. 예를들어, Oswald killed Kennedy 라는문장에대한의미역부착결과는 killed(oswald, Kennedy) 이다. 유사도비교는이들 PAS 간의중첩정도를바탕으로이루어지는데, 이때, 개별 PAS의중요도를계산하여적용하게된다. 즉문장의의미표현에직접적으로연관되지않은 PAS들은아무리중첩이되어도유사도가높지않게된다. 예를들어, It is said ~ 나 He told me that ~ 등과같은구절은 PAS로는구성될수있으나문장내에서의미적인관점에서의역할이매우낮다. 아래그림 4는이와같은 PAS 기반의문장유사도비교예를보여주고있다. 그림 4 PAS 기반문장비교예시 [39] 정보과학회지 13

6 문장을구성하는개별 PAS의중요도측정을위해서 [39] 에서는문장내에서의구문적위치정보를활용하여자질화하고기계학습을이용한이진분류기를구성하여처리하였다. 접근방법의참신함에도불구하고이연구는몇가지한계점이있는데, 그중하나는전체시스템의성능이의미역부착성능에상당부분의지하고있다는점과, 개별 PAS의중요도측정기법이매우단순한형태의자질활용에기인할수있는오류가능성을가지고있다는점등이다. [14] 는보는시각에따라서매우단순하고극단적인방법을사용하여두문장간의유사도를측정한다. 이논문의핵심은복잡한자연어처리나의미표현기법등을사용하지않고, 다양한형태의단순유사도기반자질들을추출하여기계학습모델을활용한다면충분히기존성능에버금가는패러프레이즈인식시스템을구성할수있다는것이다. 이를위해서 [14] 에서는두문장에대한다양한종류의유사도계산수치로구성되는자질벡터를정의하였다. 원본문장에대한토큰기반문자열유사도, WordNet 기반의동의어치환문자열유사도, 의존문법관계겹침정도로구성되는세가지종류로구성된총 136가지의유사도를계산하고, 자질선택기법을통해걸러진 133가지자질을중심으로지도학습기반패러프레이즈인식시스템을구성하였다. MSRPC[42] 를이용한실험에서우수한성능을나타냈으나, 활용한말뭉치역시기계적인유사도측정을통해구축된말뭉치인관계로, 표층적인유사도계산방법이효과를나타낼수있기때문에접근방법의범용성측면에서는아직고려할사항이많다. 5. 추론패턴추출 (Inference Pattern Extraction) 텍스트추론분야에서의미하는추론규칙 (inference rule) 혹은패턴 (pattern) 이란동일한의미를나타내거나서로함의관계에있는언어표현집합을말한다. 6) 정확하고포괄적인추론규칙집합은텍스트함의인 6) ( X like Y X eat Y ), ( under control, in check ) 등과같은템플릿혹은구절기반변형규칙을의미한다. 일반적으로통계적기계번역에서다중언어간의구절변환테이블 (phrase transformation table) 의내용과거의유사하나, 동일언어사이의의미적연관성에의해구성되며, 방향성 (directionality) 에따라서함의규칙혹은패러프레이즈규칙등으로구분될수있다. 위의예에서첫번째예는단방향함의규칙 (unidirectional entailment rule) 이고두번째는동일한의미를가지는패러프레이즈규칙 (paraphrase rule) 이다. 식이나패러프레이즈식별및생성성능에핵심적인역할을수행할수있으므로, 비교적활발한연구가진행되어왔다 [19,43-45]. 우선 [46] 은영-중병렬말뭉치 (parallel corpora) 를기반으로추론패턴을수집하는연구를수행하였다. 복수개의영어표현이단일중국어표현에정렬된다면, 이들복수개의영어표현은패러프레이즈일가능성이높다는사실을활용한접근방법을시도하였다. 기계번역분야에서구축된다국어병렬말뭉치는단일언어로구성된비교말뭉치 (comparable corpora) 에비해활용할수있는가용자원이매우풍부하다는것과 GIZA++ 7) [47], BerkeleyAligner 8) [48] 과같은다국어병렬말뭉치정렬도구들의성능이비교적우수하다는사실이이연구를수행한계기라고볼수있다. 보다정확한추론패턴추출을위해서의존구문구조를활용하였으며, 추출된추론패턴에대한확률기반패러프레이즈우도 (Paraphrase Likelihood) 를계산하여적용하였다. 패러프레이즈패턴과는달리함의규칙 (entailment rule) 은방향성 (directionality) 이반드시존재한다. [44] 은현재까지추출된대부분의추론패턴들이방향성이없는패러프레이즈패턴에제한된다라는점에주목하고, 추출되는패턴의방향성을자동으로판별하기위한방법론을제시하였다. 예를들어 X eats Y X likes Y 는가능하지만, X likes Y X eats Y 는성립하는경우가매우제한적이므로이러한차이를식별하기위해, 추론패턴의성립가능성을계산하기위한 타당성가설 (Plausibility Hypothesis) 과방향성설정을위한 방향성가설 (Directionality Hypothesis) 을수립하고이에기반한확률모델을제안하였다. 부가적으로단일언어로구성된비교말뭉치 (comparable corpora) 를이용하여패러프레이즈패턴을직접적으로추출하는대표적인연구는 [4] 에서수행되었다. 이논문에서는문장단위패러프레이즈생성을위한패턴집합을추출하기위해서군집화된문장집합을효과적으로정렬하고그결과를바탕으로슬롯화된패턴 (slotted patterns) 을추출하기위한다중시퀀스정렬 (Multiple-Sequence Alignment, MSA) 기법을고안하였다. 하나의클러스터로군집화된문장집합전체를간단한단어유사도기반정렬기법을사용하여연결하면다음과같은단어격자 (word lattice) 가도출된다. 이단어격자구조에서점선원형으로표시된것과같이단어의가변성 (variability) 이높은부분을다양한 7) 8) 14 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석

7 그림 5 문장정렬 (sentence alignment) 에의한단어격자 (word lattice)[4] 단어들이치환될수있는변수 (variable) 혹은슬롯 (slot) 으로지정하고나머지에대해서는패러프레이즈패턴으로설정하면, 그림 5의아래와같은슬롯화된패러프레이즈패턴을구성할수있다. 추가적으로이가변성이높은영역을다시매개변수가변성 (argument variability) 영역과동의어가변성 (synonym variability) 영역으로구분하여, 더많은문장단위패러프레이즈패턴을추출하도록하였다 9). 그외에도 [49] 는웹에서동사중심의추론패턴 (e.g., X prevent Y X stop Y ) 을효과적으로추출하기위한부트스트래핑 (bootstrapping) 기법에대한연구를수행하여그가능성을보이기도하였다. 6. 텍스트추론분야연구동향분석 현재까지진행된텍스트추론은주로두텍스트간의유사도판정모델에관한연구중심으로이루어졌다. 그러나기존에정보검색이나문서분류에서자주활용하였던 Bag-Of-Words(BOW) 기반의문헌간유사도측정모델은길이가짧고유사도측정에필요한통계적문맥데이터가매우부족한문장이나구절에적용하기에는한계가있다. 정렬기반유사도측정 (alignment-based similarity measure) 방법은이러한한계점을극복하고텍스트간의보다심층적인의미적연관성을감지하기위한대안으로텍스트추론분야에서활발하게활용되고있다. 현재까지수행된관련연구를바탕으로정렬기반유사도측정의종류는다음과같이크게 4가지로구성될수있다. 9) 매개변수가변성 (argument variability) 영역은서로다른의미의단어들이출현하므로슬롯영역일가능성이높고, 동의어가변성 (synonym variability) 영역에는동일한의미를나타내는단어들이출현하기때문에패턴을확장시킬필요가있다. 예를들어, in [café/station/grocery/restaurant/store] near 는매개변수가변성영역이며, were (injured/wounded/arrested) near 는동의어가변성영역이다. 첫째, 어휘적정렬 (lexical alignment) 이다. 두텍스트내에존재하는서로같거나유사한단어들을일치시키는방법으로, 예전부터통계적기계번역에서의병렬말뭉치정렬기법을그대로채용한것으로서비교적단순한방법이다 [43]. 유사도는단어들의일치정도에의해서산정되며, 정확한단어정렬을위해서다양한사전이활용된다. 둘째, 구문적정렬 (syntactic alignment) 이다. 텍스트추론에서는대부분완전구문분석 (complete parsing) 보다는의존구분분석 (dependency parsing) 을활용한다. 그이유는문장간의의미적연관성측정을위해서는완전한구문구조보다는단어간의문법적관계가더효과적이기때문이다 [75]. 구문적정렬에서는대부분어휘적정렬결과를활용하여문법적관계의중복성을검사하거나단어와문법적관계를하나로결합한의존관계트리플 (dependency relation triple) 형태의요소단위로정렬을수행하기도한다. 셋째로술어-논항구조정렬은앞에서설명하였듯이의미역부착결과로도출되는 PAS를기반으로정렬을수행하는방법이다. 마지막으로의존그래프의동형성 (isomorphism) 판정을통한유사도측정기법이있다. 의존그래프의구조적특성을활용하여유사도측정을한다는점에서는다를수있으나, 내부적으로는단어를나타내는노드 (vertex) 와단어간의문법적관계를나타내는연결선 (edge) 을개별적으로정렬하므로결국은어휘적정렬과구문적정렬을결합한유형에속한다. 비록비교적단순하고쉽게구현이가능하다는장점이있는반면이러한정렬기반유사도측정방법의가장큰한계점은동일한뜻을가지지만형태적인차이가큰두텍스트에대한텍스트추론이어렵다는것이다. 이러한한계점을극복하기위해서는어휘, 구문, 의미수준을모두포괄하여분석된텍스트표현방법을고안하고이들표현간의비교가이루어져야한다. 현재한글에대한텍스트추론연구는거의전무한 정보과학회지 15

8 상태이다. 한글에대한텍스트추론이가능하기위해서는크게두가지측면에서의연구가시급하다. 첫째, 텍스트추론평가집합의구축이다. 미국의 NIST에서는이미 2008년부터 Text Analysis Conference(TAC) 10) 를통해서매년마다지속적인평가집합을구축하여출시하고있다. 이를통해서영어에대한텍스트추론연구수준은이미상당한위치에올라와있다. 추가적으로한글분석엔진의고도화를들수있다. 어휘적인수준의방법론만으로도가능한정보검색이나문서분류등과는달리텍스트추론은구문적, 의미적분석이병행되어야한다. 이를위한한국어구문분석시스템이나의미분석시스템의개발및고도화가필수적이다. 7. 결론본논문에서는현재전세계적으로활발하게연구되고있는텍스트추론분야에대한최신연구동향을분석하고그장단점등을살펴봄으로써동연구분야의발전방향과향후한글을위한텍스트추론연구의방향성을제시하였다. 텍스트추론연구를크게네가지연구분야, 즉질의응답, 텍스트함의인식, 패러프레이즈인식그리고추론패턴추출분야로나누어지금까지의연구성과를세부적으로분석하였다. 추가적으로두텍스트간의의미적연관성추정을위한현재까지대부분의연구결과가두텍스트간의정렬 (alignment) 에의한유사도측정방법임을밝히고이를상세히설명하였다. 본고에서제시한두가지중요한과제가해결될수있다면한글에대한텍스트추론연구도활발히진행되어보다심층적인한국어정보처리의기반을만들수있을것이다. 참고문헌 [ 1 ] J. Van Eijck, Natural logic for natural language, Logic, Language, and Computation, pp , [ 2 ] I. Androutsopoulos and P. Malakasiotis, A Survey of Paraphrasing and Textual Entailment Methods, Journal of Artificial Intelligence Research, Vol. 38, pp , [ 3 ] R. Barzilay and K. R. McKeown, Extracting paraphrases from a parallel corpus, in ACL 01: Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, 2001, pp [ 4 ] R. Barzilay and L. Lee, Learning to paraphrase: an unsupervised approach using multiple-sequence align- 10) ment, in NAACL 03: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003, pp [ 5 ] B. Pang, K. Knight, and D. Marcu, Syntax-based alignment of multiple translations: extracting paraphrases and generating new sentences, in NAACL 03: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003, pp [ 6 ] Y. Shinyama and S. Sekine, Paraphrase acquisition for information extraction, in Proceedings of the second international workshop on Paraphrasing, 2003, pp [ 7 ] C. Quirk, C. Brockett, and W. Dolan, Monolingual machine translation for paraphrase generation, in Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, 2004, pp [ 8 ] X. Wang, D. Lo, J. Jiang, L. Zhang, and H. Mei, Extracting paraphrases of technical terms from noisy parallel software corpora, in ACL-IJCNLP 09: Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, 2009, pp [ 9 ] M. Tatu and D. Moldovan, A semantic approach to recognizing textual entailment, in HLT 05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005, pp [10] M. Tatu and D. Moldovan, COGEX at RTE3, in RTE 07: Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, 2007, pp [11] J. Bos and K. Markert, Recognising textual entailment with logical inference, in HLT 05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005, pp [12] Pado Sebastian and M. Lapata, Dependency-Based Construction of Semantic Space Models, Comput. Linguist., Vol. 33, No. 2, pp , [13] D. Clarke, Context-theoretic semantics for natural language: an overview, in GEMS 09: Proceedings of the Workshop on Geometrical Models of Natural Language Semantics, 2009, pp [14] P. Malakasiotis, Paraphrase recognition using machine learning to combine similarity measures, in ACL- IJCNLP 09: Proceedings of the ACL-IJCNLP 2009 Student Research Workshop, 2009, pp 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석

9 [15] S. Harmeling, Inferring textual entailment with a probabilistically sound calculus, Nat. Lang. Eng., Vol. 15, No. 4, pp , [16] A. Burchardt, M. Pennacchiotti, S. Thater, and M. Pinkal, Assessing the impact of frame semantics on textual entailment, Nat. Lang. Eng., Vol. 15, No. 4, pp , [17] F. M. Zanzotto and L. Dell Arciprete, Efficient kernels for sentence pair classification, in EMNLP 09: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009, pp [18] R. Bar-Haim, I. Dagan, I. Greental, I. Szpektor, and M. Friedman, Semantic inference at the lexical-syntactic level for textual entailment recognition, in RTE 07: Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, 2007, pp [19] R. Bar-Haim, J. Berant, and I. Dagan, A compact forest for scalable inference over entailment and paraphrase rules, in EMNLP 09: Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009, pp [20] R. Bar-Haim, J. Berant, I. Dagan, I. Greental, S. Mirkin, E. Shnarch, and I. Szpektor, Efficient Semantic Deduction and Approximate Matching over Compact Parse Forests, in Proceedings of the First Text Analysis Conference (TAC 2008), [21] I. Szpektor, I. Dagan, R. Bar-Haim, and J. Goldberger, Contextual Preferences, in Proceedings of ACL-08: HLT, 2008, pp [22] J. Prager, E. Brown, A. Coden, and D. Radev, Ranking potential answers to natural language questions, in 6th Conference on Applied Natural Language Processing, [23] D. Moldovan, C. Clark, S. Harabagiu, and S. Maiorano, COGEX: a logic prover for question answering, in NAACL 03: Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology, 2003, pp [24] B. MacCartney and C. D. Manning, An extended model of natural logic, in IWCS-8 09: Proceedings of the Eighth International Conference on Computational Semantics, 2009, pp [25] D. I. Moldovan, C. Clark, S. M. Harabagiu, and D. Hodges, Cogex: A semantically and contextually enriched logic prover for question answering, J. Applied Logic, Vol. 5, No. 1, pp , [26] D. I. Moldovan and V. Rus, Logic form transformation of WordNet and its applicability to question answering, in ACL 01: Proceedings of the 39th Annual Meeting on Association for Computational Linguistics, 2001, pp [27] D. Davidson, The Logical Form of Action Sentences, in The Logic of Decision and Action, N. Rescher, Ed. University of Pittsburgh Press, [28] F. Rinaldi, J. Dowdall, K. Kaljurand, M. Hess, and Moll a Diego, Exploiting paraphrases in a Question Answering system, in Proceedings of the second international workshop on Paraphrasing, 2003, pp [29] C. Jacquemin, J. L. Klavans, and E. Tzoukermann, Expansion of multi-word terms for indexing and retrieval using morphology and syntax, in ACL-35: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997, pp [30] M. Kouylekov and B. Magnini, Recognizing Textual Entailment with Tree Edit Distance Algorithms, in PASCAL Challenges on RTE, 2005, pp [31] A. Burchardt, N. Reiter, S. Thater, and A. Frank, A semantic approach to textual entailment: system evaluation and task analysis, in RTE 07: Proceedings of the ACL-PASCAL Workshop on Textual Entailment and Paraphrasing, 2007, pp [32] R. Wang and G. Neumann nter, Recognizing textual entailment using a subsequence kernel method, in AAAI 07: Proceedings of the 22nd national conference on Artificial intelligence, 2007, pp [33] P. Malakasiotis and I. Androutsopoulos, Learning textual entailment using SVMs and string similarity measures, in RTE 07: Proceedings of the ACL-PAS- CAL Workshop on Textual Entailment and Paraphrasing, 2007, pp [34] A. Hickl, Using discourse commitments to recognize textual entailment, in COLING 08: Proceedings of the 22nd International Conference on Computational Linguistics, 2008, pp [35] F. massimo Zanzotto, M. Pennacchiotti, and A. Moschitti, A machine learning approach to textual entailment recognition, Nat. Lang. Eng., Vol. 15, No. 4, pp , [36] A. D. Haghighi, A. Y. Ng, and C. D. Manning, Robust 정보과학회지 17

10 textual inference via graph matching, in HLT 05: Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing, 2005, pp [37] Y. Zhang and J. Patrick, Paraphrase Identification by Text Canonicalization, in Proceedings of the Australasian Language Technology Workshop 2005, 2005, pp [38] Z. Kozareva and A. Montoyo, Paraphrase Identification on the Basis of Supervised Machine Learning Techniques, in Advances in Natural Language Processing, Vol. 4139, T. Salakoski, F. Ginter, S. Pyysalo, and T. Pahikkala, Eds. Springer Berlin / Heidelberg, 2006, pp [39] L. Qiu, M.-Y. Kan, and T.-S. Chua, Paraphrase recognition via dissimilarity significance classification, in EMNLP 06: Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing, 2006, pp [40] S. Fernando and M. Stevenson, A Semantic Similarity Approach to Paraphrase Detection, in Computational Linguistics UK (CLUK 2008) 11th Annual Research Colloquium, [41] V. Rus, P. M. McCarthy, M. C. Lintean, D. S. Mc- Namara, and A. C. Graesser, Paraphrase Identification with Lexico-Syntactic Graph Subsumption, in FLAIRS Conference, 2008, pp [42] B. Dolan, C. Quirk, and C. Brockett, Unsupervised construction of large paraphrase corpora: exploiting massively parallel news sources, in COLING 04: Proceedings of the 20th international conference on Computational Linguistics, 2004, p [43] D. Lin and P. Pantel, DIRT-discovery of inference rules from text, in KDD 01: Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining, 2001, pp [44] R. Bhagat, P. Pantel, and E. Hovy, LEDIR: An Unsupervised Algorithm for Learning Directionality of Inference Rules, in Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007, pp [45] D. Lin and P. Pantel, Discovery of inference rules for question-answering, Nat. Lang. Eng., Vol. 7, No. 4, pp , [46] S. Zhao, H. Wang, T. Liu, and S. Li, Pivot Approach for Extracting Paraphrase Patterns from Bilingual Corpora, in Proceedings of ACL-08: HLT, 2008, pp [47] J. Jiang and C. Zhai, A Systematic Exploration of the Feature Space for Relation Extraction, in NAACL HLT, [48] P. Liang, B. Taskar, and D. Klein, Alignment by Agreement, in Proceedings of NAACL 2006, 2006, pp [49] I. Szpektor, H. Tanev, I. Dagan, and B. Coppola, Scaling Web-based Acquisition of Entailment Relations, in Empirical Methods in Natural Language Processing (EMNLP) 2004, July 2004, Barcelona, Spain, 최성필 1998 부산대학교전자계산학이학석사 2012 한국과학기술원 (KAIST) 정보통신공학과공학박사 1998~ 현재한국과학기술정보연구원선임연구원관심분야 : 자연어처리, 정보검색, 텍스트마이닝 송사광 1997 충남대학교통계학과졸업 ( 학사 ) 1999 충남대학교대학원컴퓨터과학과졸업 ( 석사 ) 2011 KAIST 대학원전산학과졸업 ( 박사 ) 2005~2010 한국전자통신연구원바이오인포매틱스팀연구원 2010~ 현재한국과학기술정보연구원소프트웨어연구실선임연구원관심분야 : 텍스트마이닝, 자연어처리, 정보검색, 시맨틱웹 정한민 1992 포항공과대학교전자계산학과 ( 공학사 ) 1994 포항공과대학교전자계산학과 ( 공학석사 ) 2003 포항공과대학교컴퓨터공학과 ( 공학박사 ) 1994~2000 한국전자통신연구원선임연구원 2000~2004 ( 주 ) 다이퀘스트연구소장 / 기술이사 2004~ 현재한국과학기술정보연구원소프트웨어연구실실장관심분야 : 시맨틱웹, 정보검색, 자연어처리, HCI 황미녕 2000 부산대학교전자계산학과 ( 학사 ) 2002 부산대학교전자계산학과 ( 이학석사 ) 2002~ 현재한국과학기술정보연구원선임연구원관심분야 : 시맨틱웹, 온톨로지, 데이터마이닝 18 특집원고 II 텍스트추론 (Textual Inference) 연구동향분석