Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Similar documents
이학석사학위논문 규칙과기계학습을이용한한국어 상호참조해결 박천음 강원대학교대학원 컴퓨터과학과

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


step 1-1

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

DIY 챗봇 - LangCon

슬라이드 1

130726_트렌드씨_6월_rgb_s

PowerPoint Presentation

자연언어처리

PowerPoint Presentation

<4D F736F F F696E74202D E DB0FCB0E820BBE7BBF3BFA120C0C7C7D120B0FCB0E820B5A5C0CCC5CDBAA3C0CCBDBA20BCB3B0E8>

DBPIA-NURIMEDIA

게시판 스팸 실시간 차단 시스템

2015

PHP & ASP

어댑터뷰

Microsoft PowerPoint 웹 연동 기술.pptx

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

(132~173)4단원-ok

LM 가이드

hwp

유니티 변수-함수.key

Microsoft PowerPoint Predicates and Quantifiers.ppt

Vertical Probe Card Technology Pin Technology 1) Probe Pin Testable Pitch:03 (Matrix) Minimum Pin Length:2.67 High Speed Test Application:Test Socket


Microsoft PowerPoint - TimeTable System.pptx

arcplan Enterprise 6 Charting Facelifts

PowerPoint Template

*º¹ÁöÁöµµµµÅ¥-¸Ô2Ä)

Spring Data JPA Many To Many 양방향 관계 예제

HLS(HTTP Live Streaming) 이용가이드 1. HLS 소개 Apple iphone, ipad, ipod의운영체제인 ios에서사용하는표준 HTTP 기반스트리밍프로토콜입니다. 2. HLS 지원대상 - 디바이스 : iphone/ipad/ipod - 운영체제 :

Science Cube 1.0 User Guide

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

English Language and Linguistics 20(2) 93 영어우향전위구문에대한소고 말뭉치자료를중심으로 김옥기 김종복 경희대학교 서론 영어에서흔히사용되는이른바전위구문 은아래 에서제시된좌향전위구문 과 와같은우향전위구문 으로구분될수있다 위예문에서알수있듯이두

PART 01 문장의구성요소와문형의이해 G R A M M A R 단어가모여이루어진것을문장 (sentence) 이라고한다. 의미전달을위해반드시필요한주요성분과문장의주요성분을좀더꾸며주는수식어구가함께어우러져 문장을구성하게된다. 01. 문장의구성요소문장의주요성분 : 주어, 술어

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

백서2011표지


Observational Determinism for Concurrent Program Security

C# Programming Guide - Types

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

HW5 Exercise 1 (60pts) M interpreter with a simple type system M. M. M.., M (simple type system). M, M. M., M.

슬라이드 제목 없음

USER GUIDE

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

pagoda21.com/pagodatoeic 319_Part 5 [ 문법 : 어휘 = 21 : 전치사, 3 2 문장구조 / 수일치, 2 명사, 2 형용사, 2 부사, 2 대명사, 2 접속사, 2 1 태, 1 관계사, 1 부정사, 1 분사, 1 0 시제, 0

Your title goes here

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

17장 클래스와 메소드

레이아웃 1

DocsPin_Korean.pages

Microsoft Word be5c802da7d2.docx


[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

src.xls

::: Korea Handball Federation ::: [ 대학핸드볼리그 ( 대학부 ) ] Match Team Statistics :50 원광대체육관 Referees : Technical o

Naver.NLP.Workshop.SRL.Sogang_Alzzam

Microsoft Word - CSWP_sample(KOR).docx

03 ¸ñÂ÷

문서 템플릿

JUNIT 실습및발표

hwp

Sequences with Low Correlation

05_2012_표준품셈_설비.hwp


::: Korea Handball Federation ::: [ 제 48 회전국소년체육대회 ( 중등부 ) ] Match Team Statistics :10 국민체육센터 Referees : 이두규 / 박현진 Technic

어니스트펀드_HF-1호_투자설명서_151204(3차수정)

Microsoft PowerPoint - 26.pptx

유의사항 Information marking example 1 3 4

<3130BAB9BDC428BCF6C1A4292E687770>

step-2-1

목차 윈도우드라이버 1. 매뉴얼안내 운영체제 (OS) 환경 윈도우드라이버준비 윈도우드라이버설치 Windows XP/Server 2003 에서설치 Serial 또는 Parallel 포트의경우.

0405_ITB-5000FHD매뉴얼

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

The Pocket Guide to TCP/IP Sockets: C Version

PowerPoint 프레젠테이션

<30342DBCF6C3B3B8AEBDC3BCB33228C3D6C1BE292E687770>

부서: 감사담당관 정책: 행정의 투명성 제고 단위: 민원발생사전예방 1)민원심의위원 수당 70,000원*9명*3회 1, 업무추진비 5,800 5, 시책추진업무추진비 5,800 5, )민원심의 업무추진 250,000원*4회 1,000

PowerPoint Presentation

80 경찰학연구제 13 권제 2 호 ( 통권제 34 호 ) Ⅱ. 이론적논의와선행연구검토

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

PDF

공개 SW 기술지원센터

UML

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

금오공대 컴퓨터공학전공 강의자료

JAVA PROGRAMMING 실습 05. 객체의 활용

PowerPoint Presentation

Transcription:

한국어대명사및한정명사구에대한상호참조해결 박천음, 최경호, 이홍규, 이창기 강원대학교 Intelligent Software Lab.

목차 관련연구 상호참조해결 대명사및한정명사구 RAP 알고리즘 대명사상호참조해결방법확장 실험및결과 질의응답

관련연구 대명사해결을위한기존연구들 상호참조해결및대용어해결을적용. 다단계시브 (Multi-pass sieve) 상호참조해결 (Stanford) 중심화이론, Hobbs 알고리즘, RAP 알고리즘등 선행연구 한국어상호참조해결에다단계시브상호참조해결적용 대명사해결을위해중심화이론의개념적부분적용 본연구 대명사상호참조해결확장 위세가지모델중 RAP 알고리즘적용 한정명사구상호참조해결적용

상호참조해결 : 소개 상호참조 (coreference) 문서내에서이미언급된객체에대하여별칭, 약어그리고대명사와같이표현이다른단어로다시언급하는것, 즉서로다른표현을하는단어가같은객체를가리키는것. 상호참조해결 (coreference resolution) 상호참조가가능한지판단하고, 가능한단어 ( 또는멘션 ) 끼리하나의 entity 로참조를만드는것. 영국전원지방을무대로사랑과연애를다룬다. 대용어해결 영국전원지방 = 무대 상호참조해결 영국전원지방 무대

상호참조해결 : 순서 Sequence Pass 1 Sieve 1 Sieve 2 Sieve 3-5 Pass 2 Sieve 6 Sieve 7 Sieve 8 Pass 3 Model Name Mention Detection Exact String Match Precise Constructs Strict Head Match A-C Proper Head Noun Match Relaxed Head Match Pronoun Resolution Post Processing

상호참조해결 : 시스템 상호참조해결단계별결과 [1] Pass1: Mention Detection 에서가능한모든명사 ( 명사구 ) 들추출 Pass2: 앞서설명한다단계시브에따라상호참조해결진행 Pass3: 후처리단계를통해싱글톤제거 [1] Multi-pass Sieve 를이용한한국어상호참조해결, 박천음, 최경호, 이창기

대명사및한정명사구 대명사 앞서언급된명사에대해다시언급할때사용하는표현 세종코퍼스에서추출한 188 개의대명사사전사용 한정명사구 대명사와같이특정단어를재언급할때사용 지시관형사와명사가함께쓰임 ex) 그남자, 그동물, 이호랑이등 보통한정명사구의중심어는지시관형사가선행사를가리키고있으므로, 지시하는대상보다상위어가등장 지시관형사에대명사속성을부여하고중심어에멘션정보를포함시켜상호참조해결진행 시소러스를이용하여계층관계의멘션해결

대명사및한정명사구의등장 질의응답도메인에서주로대명사뿐만아니라한정명사구도빈번하게등장 질문문서 [ 이사람 ] 0 1은 1945년지구의자전속도와같은속도를갖는정지궤도위성을창안했는 데, 그공로로 [ 지구정지궤도 ] 1 2 를 [ [ 이사람 ] 0 4 궤도 ]1 3 라고부르기도한다. [ 스텐리큐브릭의영화 <2001 스페이스오디세이 > 의원작자 ] 0 5 로잘알려진 [ 이사람 ] 0 6 은? 정답문서 [[ 아서찰스클라크경 ] 0 0 은 [ 영국의작가, 발명가이자미래학자 ] 0 1 이다. [[[ 자신 ] 0 4 의과학소설 ]1 3 2001 스페이스오디세이 ] 1 2 로가장잘알려져있으며, 동명의영화에서스탠리큐브릭감독과함께작업하기도했다.

지시관형사 Sieve 거치면서 entity 구축 String match 시, 동물 No!! 수식어필요 조건 ( 다음을만족하는경우 ) singular person: 3 (NE label) 특징 경성분 착하고아름다운저여성 ( 중성분 ) ( 경성분 ) ( 순서 ) 지시관형사 수관형사 성상관형사 ex) 저많은새옷을보아라. [ 이동물 ] 대명사속성부여 pronouns match 에서수행 semclass 적용 하위어들에 weight 부여 종류특성형태 고유어계 근칭 중칭 원칭 미정칭 이, 이런 그, 그런 저, 저런 어느, 어떤, 아무, 무슨 1 인칭본 ( 本 ), 당 ( 當 ), 차 ( 此 ), 한자어계 2 인칭귀 ( 貴 ) 3 인칭해 ( 該 ), 피 ( 被 ), 타 ( 他 )

RAP 알고리즘 : Lappin and Leass 문법적요소에따라문법구조상특징을점수화하여참조해결진행 Factor type Initial weight (1) Sentence recency 100 (2) Subject emphasis 80 (3) Existential emphasis 70 (4) Accusative emphasis 50 (5) Indirect object and oblique emphasis 40 (6) Head noun emphasis 80 (7) Non-adverbial emphasis 50 각멘션마다가중치를부여하고, 새로운문장이등장할때모든가중치를반으로줄인다.

RAP 알고리즘 in action Factor type Initial weight (1) Sentence recency 100 (2) Subject emphasis 80 (3) Existential emphasis 70 (4) Accusative emphasis 50 "Sue found a plastic unicorn in the garden." "She handed it to Jill." "She liked it very much." (5) Indirect object and oblique emphasis 40 (6) Head noun emphasis 80 (7) Non-adverbial emphasis 50 step 1. // sentence 1 scoring... Sue: 100 + 80 + 80 + 50 = 310 unicorn: 100 + 50 + 80 + 50 = 280 garden: 100 + 80 + 50 = 230 step 3. // sentence 2 find... & scoring... Sue - she: 155 + 310 = 465 unicorn - it: 140 + 280 = 420 garden: 115 Jill: 100 + 40 + 80 + 50 = 270 step 2. half... Sue: 310/2 = 155 (top) unicorn: 280/2 = 140 (high) garden: 230/2 = 115 (low) step 4. half... Sue - she: 232.5 unicorn - it: 210 garden: 77.5 Jill: 135 step 5. // sentence 3 이미 she와 it은 Sue와 unicorn으로참조됐으므로더이상참조할필요없다.

대명사상호참조해결방법확장 선행연구의대명사상호참조해결방법을확장한것 선행연구의방법 대명사의속성과멘션의개체명정보를비교하여가중치부여 현재등장한대명사로부터떨어진문장의거리로가중치부여 현재등장한대명사와멘션후보들간에거리를이용하여가중치부여 각멘션후보마다속해있는문장에서의위치를고려하여가중치부여 확장된방법 a. 선행사와현재멘션이둘다대명사일경우에같은문자열이면, 가중치부여 대명사문자열매치 b. 선행사와한정명사구의중심어가서로같은문자열이면가중치부여 c. 선행사의개체명과한정명사구의개체명이같은부류이거나서로계층관계이면가중치부여 선행사와한정명사구의중심어간의의미매치 ( 의미적접근 ) d. 재귀대명사는현재문장의주어와상호참조 재귀대명사는같은레벨의문법구조와참조됨

실험및결과 상호참조해결성능 MUC: Recall = ( SS ii pp SS ii ( SS ii 1, Precision = ( SS ii pp SS ii ( SS ii 1 B-cube: Recall = ii KK mmii RR mmii CEAF-e: Φ 4 KK ii, RR ii KK mmii, Precision = ii KK mmii RR mmii RR mmii = 2 KK ii RR ii, Recall = Φ(gg ) Φ(gg ), Precision = KK ii + RR ii ii Φ(KK ii,kk ii ) ii Φ(RR ii,rr ii ) CoNLL F1: MUC, B-cube, CEAF-e 의세방법의 F1 값을평균 일치도 엔티티일치도, Cohen 의카파계수 (Cohen`s Kappa Coefficient) 한정명사구처리방법에따른성능 최적의가중치파라미터 각대명사해결방법에따른성능비교 RAP 와본논문의성능비교

실험및결과 : 일치도 일치도 A: 연구원 1+ 연구원 2, B: 연구원 2+ 연구원 3, C: 연구원 3+ 연구원 1 A B C Mean Kappa coefficient 54.16% 55.65% 73.63% 61.12% 카파계수결과 : 평균 61.12% 카파계수지표 0~20%( 근소한일치 ), 21~40%( 적당한일치 ), 41~60%( 평균일치 ), 61~80%( 상당한일치 ), 81~100%( 완벽히일치 )

실험및결과 : 한정명사구처리방법에따른성능 한정명사구의처리방법비교 Sieve Recall Precision CoNLL-F1 선행연구 64.20% 57.57% 60.65% 전체시브에서처리 60.74% 61.22% 60.96% 대명사시브에서만처리 59.39% 61.32% 60.33% 한정명사구를기본멘션으로추출 전체시브에서처리함

실험및결과 : 각대명사해결방법에따른성능비교 최적의가중치파라미터 ( 앞서언급한조건순서, a, b, c, d) 50 / 20 / 40 / 20 결국, 본논문에서제안한대명사상호참조해결확장된방법과한정명사구에대하여해결하는것이약 0.8% 더좋은성능을보임

실험및결과 : RAP 알고리즘과본논문의성능비교 Model Recall Precision CoNLL-F1 RAP 알고리즘 61.76% 60.23% 60.98% 본논문 61.54% 61.38% 61.45% RAP 알고리즘과비교하여약 0.47% 더높은성능측정 RAP 알고리즘 가중치적용방법은문법규칙에만의존적 영어에최적화되었기때문에한국어에적용할수없는규칙 ( 유도부사, 간접목적어등 ) 도있음 본논문 선행연구의개체명기반상호참조해결을확장하여의미적접근가능 추가로개체명정보확장 한정명사구의멘션특징과대명사속성정보이용

질의응답