한국어대명사및한정명사구에대한상호참조해결 박천음, 최경호, 이홍규, 이창기 강원대학교 Intelligent Software Lab.
목차 관련연구 상호참조해결 대명사및한정명사구 RAP 알고리즘 대명사상호참조해결방법확장 실험및결과 질의응답
관련연구 대명사해결을위한기존연구들 상호참조해결및대용어해결을적용. 다단계시브 (Multi-pass sieve) 상호참조해결 (Stanford) 중심화이론, Hobbs 알고리즘, RAP 알고리즘등 선행연구 한국어상호참조해결에다단계시브상호참조해결적용 대명사해결을위해중심화이론의개념적부분적용 본연구 대명사상호참조해결확장 위세가지모델중 RAP 알고리즘적용 한정명사구상호참조해결적용
상호참조해결 : 소개 상호참조 (coreference) 문서내에서이미언급된객체에대하여별칭, 약어그리고대명사와같이표현이다른단어로다시언급하는것, 즉서로다른표현을하는단어가같은객체를가리키는것. 상호참조해결 (coreference resolution) 상호참조가가능한지판단하고, 가능한단어 ( 또는멘션 ) 끼리하나의 entity 로참조를만드는것. 영국전원지방을무대로사랑과연애를다룬다. 대용어해결 영국전원지방 = 무대 상호참조해결 영국전원지방 무대
상호참조해결 : 순서 Sequence Pass 1 Sieve 1 Sieve 2 Sieve 3-5 Pass 2 Sieve 6 Sieve 7 Sieve 8 Pass 3 Model Name Mention Detection Exact String Match Precise Constructs Strict Head Match A-C Proper Head Noun Match Relaxed Head Match Pronoun Resolution Post Processing
상호참조해결 : 시스템 상호참조해결단계별결과 [1] Pass1: Mention Detection 에서가능한모든명사 ( 명사구 ) 들추출 Pass2: 앞서설명한다단계시브에따라상호참조해결진행 Pass3: 후처리단계를통해싱글톤제거 [1] Multi-pass Sieve 를이용한한국어상호참조해결, 박천음, 최경호, 이창기
대명사및한정명사구 대명사 앞서언급된명사에대해다시언급할때사용하는표현 세종코퍼스에서추출한 188 개의대명사사전사용 한정명사구 대명사와같이특정단어를재언급할때사용 지시관형사와명사가함께쓰임 ex) 그남자, 그동물, 이호랑이등 보통한정명사구의중심어는지시관형사가선행사를가리키고있으므로, 지시하는대상보다상위어가등장 지시관형사에대명사속성을부여하고중심어에멘션정보를포함시켜상호참조해결진행 시소러스를이용하여계층관계의멘션해결
대명사및한정명사구의등장 질의응답도메인에서주로대명사뿐만아니라한정명사구도빈번하게등장 질문문서 [ 이사람 ] 0 1은 1945년지구의자전속도와같은속도를갖는정지궤도위성을창안했는 데, 그공로로 [ 지구정지궤도 ] 1 2 를 [ [ 이사람 ] 0 4 궤도 ]1 3 라고부르기도한다. [ 스텐리큐브릭의영화 <2001 스페이스오디세이 > 의원작자 ] 0 5 로잘알려진 [ 이사람 ] 0 6 은? 정답문서 [[ 아서찰스클라크경 ] 0 0 은 [ 영국의작가, 발명가이자미래학자 ] 0 1 이다. [[[ 자신 ] 0 4 의과학소설 ]1 3 2001 스페이스오디세이 ] 1 2 로가장잘알려져있으며, 동명의영화에서스탠리큐브릭감독과함께작업하기도했다.
지시관형사 Sieve 거치면서 entity 구축 String match 시, 동물 No!! 수식어필요 조건 ( 다음을만족하는경우 ) singular person: 3 (NE label) 특징 경성분 착하고아름다운저여성 ( 중성분 ) ( 경성분 ) ( 순서 ) 지시관형사 수관형사 성상관형사 ex) 저많은새옷을보아라. [ 이동물 ] 대명사속성부여 pronouns match 에서수행 semclass 적용 하위어들에 weight 부여 종류특성형태 고유어계 근칭 중칭 원칭 미정칭 이, 이런 그, 그런 저, 저런 어느, 어떤, 아무, 무슨 1 인칭본 ( 本 ), 당 ( 當 ), 차 ( 此 ), 한자어계 2 인칭귀 ( 貴 ) 3 인칭해 ( 該 ), 피 ( 被 ), 타 ( 他 )
RAP 알고리즘 : Lappin and Leass 문법적요소에따라문법구조상특징을점수화하여참조해결진행 Factor type Initial weight (1) Sentence recency 100 (2) Subject emphasis 80 (3) Existential emphasis 70 (4) Accusative emphasis 50 (5) Indirect object and oblique emphasis 40 (6) Head noun emphasis 80 (7) Non-adverbial emphasis 50 각멘션마다가중치를부여하고, 새로운문장이등장할때모든가중치를반으로줄인다.
RAP 알고리즘 in action Factor type Initial weight (1) Sentence recency 100 (2) Subject emphasis 80 (3) Existential emphasis 70 (4) Accusative emphasis 50 "Sue found a plastic unicorn in the garden." "She handed it to Jill." "She liked it very much." (5) Indirect object and oblique emphasis 40 (6) Head noun emphasis 80 (7) Non-adverbial emphasis 50 step 1. // sentence 1 scoring... Sue: 100 + 80 + 80 + 50 = 310 unicorn: 100 + 50 + 80 + 50 = 280 garden: 100 + 80 + 50 = 230 step 3. // sentence 2 find... & scoring... Sue - she: 155 + 310 = 465 unicorn - it: 140 + 280 = 420 garden: 115 Jill: 100 + 40 + 80 + 50 = 270 step 2. half... Sue: 310/2 = 155 (top) unicorn: 280/2 = 140 (high) garden: 230/2 = 115 (low) step 4. half... Sue - she: 232.5 unicorn - it: 210 garden: 77.5 Jill: 135 step 5. // sentence 3 이미 she와 it은 Sue와 unicorn으로참조됐으므로더이상참조할필요없다.
대명사상호참조해결방법확장 선행연구의대명사상호참조해결방법을확장한것 선행연구의방법 대명사의속성과멘션의개체명정보를비교하여가중치부여 현재등장한대명사로부터떨어진문장의거리로가중치부여 현재등장한대명사와멘션후보들간에거리를이용하여가중치부여 각멘션후보마다속해있는문장에서의위치를고려하여가중치부여 확장된방법 a. 선행사와현재멘션이둘다대명사일경우에같은문자열이면, 가중치부여 대명사문자열매치 b. 선행사와한정명사구의중심어가서로같은문자열이면가중치부여 c. 선행사의개체명과한정명사구의개체명이같은부류이거나서로계층관계이면가중치부여 선행사와한정명사구의중심어간의의미매치 ( 의미적접근 ) d. 재귀대명사는현재문장의주어와상호참조 재귀대명사는같은레벨의문법구조와참조됨
실험및결과 상호참조해결성능 MUC: Recall = ( SS ii pp SS ii ( SS ii 1, Precision = ( SS ii pp SS ii ( SS ii 1 B-cube: Recall = ii KK mmii RR mmii CEAF-e: Φ 4 KK ii, RR ii KK mmii, Precision = ii KK mmii RR mmii RR mmii = 2 KK ii RR ii, Recall = Φ(gg ) Φ(gg ), Precision = KK ii + RR ii ii Φ(KK ii,kk ii ) ii Φ(RR ii,rr ii ) CoNLL F1: MUC, B-cube, CEAF-e 의세방법의 F1 값을평균 일치도 엔티티일치도, Cohen 의카파계수 (Cohen`s Kappa Coefficient) 한정명사구처리방법에따른성능 최적의가중치파라미터 각대명사해결방법에따른성능비교 RAP 와본논문의성능비교
실험및결과 : 일치도 일치도 A: 연구원 1+ 연구원 2, B: 연구원 2+ 연구원 3, C: 연구원 3+ 연구원 1 A B C Mean Kappa coefficient 54.16% 55.65% 73.63% 61.12% 카파계수결과 : 평균 61.12% 카파계수지표 0~20%( 근소한일치 ), 21~40%( 적당한일치 ), 41~60%( 평균일치 ), 61~80%( 상당한일치 ), 81~100%( 완벽히일치 )
실험및결과 : 한정명사구처리방법에따른성능 한정명사구의처리방법비교 Sieve Recall Precision CoNLL-F1 선행연구 64.20% 57.57% 60.65% 전체시브에서처리 60.74% 61.22% 60.96% 대명사시브에서만처리 59.39% 61.32% 60.33% 한정명사구를기본멘션으로추출 전체시브에서처리함
실험및결과 : 각대명사해결방법에따른성능비교 최적의가중치파라미터 ( 앞서언급한조건순서, a, b, c, d) 50 / 20 / 40 / 20 결국, 본논문에서제안한대명사상호참조해결확장된방법과한정명사구에대하여해결하는것이약 0.8% 더좋은성능을보임
실험및결과 : RAP 알고리즘과본논문의성능비교 Model Recall Precision CoNLL-F1 RAP 알고리즘 61.76% 60.23% 60.98% 본논문 61.54% 61.38% 61.45% RAP 알고리즘과비교하여약 0.47% 더높은성능측정 RAP 알고리즘 가중치적용방법은문법규칙에만의존적 영어에최적화되었기때문에한국어에적용할수없는규칙 ( 유도부사, 간접목적어등 ) 도있음 본논문 선행연구의개체명기반상호참조해결을확장하여의미적접근가능 추가로개체명정보확장 한정명사구의멘션특징과대명사속성정보이용
질의응답