자연어처리와 기계학습

키워드를활용한기계독해모델 1007 이예진, 한미래

목차 문제정의및해결방법 제안모델 파이프라인키워드추출 (Sequence Labeling) 모델검색 (Information Retrieval) 모델기계독해 (Machine Reading Comprehension) 모델 실험및성능평가 결론 2

1. 문제정의및해결방법 문제정의 - 검색어로전문적인지식을검색할경우, 검색결과가광범위함 - 논문과같은전문적인문서에서직접문서를읽고이해하기어려움 - 사람이긴논문텍스트에서직접원하는정보를찾기에는시간이오래걸림 데이터마이닝 Q. 데이터마이닝의 6 단계는? A.? 3

1. 문제정의및해결방법 기계독해 (Machine Reading Comprehension; MRC) 기계가주어진문서를이해하고입력받은질문에대한답변을추출하는질의응답작업 A. 데이터마이닝은 ~ Q. 데이터마이닝의 6 단계는? 4

1. 문제정의및해결방법 해결방법 데이터의 66% ( 질문난이도중, 하 ) 의경우, 정답과키워드가동일한문장내에존재 키워드와키워드를포함한단서문장 (Evidence sentence) 활용 기존의 MRC 모델보완 검색어매칭의문제해결 A. 데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현 Q. 데이터마이닝의 6 단계는? 단서문장 : 데이터마이닝은일반적으로데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현의 6 단계로되어있다. 5

2. 제안모델 Pipeline 질문 & 문서 키워드추출모델질문에서키워드추출 검색모델 (IR) 정답과관련된 Passage 검색 기계독해모델 (MRC) 정답 질문 : 데이터마이닝의 6 단계는? 키워드 : 데이터마이닝정답 : 데이터선택, 데이터정제, 데이터변환, 단서문장후보추출데이터마이닝, 패턴평가, 지식표현 데이터마이닝은일반적으로데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현의 6 단계로되어있다. 필터링된문서구성 6

2. 제안모델 모델전체구조 7

2. 제안모델 키워드추출모델 : 입력시퀀스에레이블시퀀스를부여 (Sequence Labeling) - 질문에서키워드에해당하는토큰추출 Query : 한국정부에서늘어나는폐기물발생량을줄이기위해수립한것은? Label : 0,0,0,0,0,0,0,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0 8

2. 제안모델 검색모델 (Information Retrieval) : Lucene 을사용해서데이터로부터 관련된정보를추출 - 데이터의 85% 는키워드가질문에대한정답앞에존재 - 전체논문을 3문장씩 (Passage) 색인 ( 현재문장 + 다음 2문장 ) - 질문 (Query) 을입력하여질문에대한정답이될수있는상위 10개의 Passage 검색 검색된 Passage를필터링된문서 (Filtered context) 로사용 9

2. 제안모델 검색모델 (Information Retrieval) 에서의인덱싱 (Indexing) 방법 1 본연구에서는 UC 의서비스를선정하는데있어서보다사용자의관점에서접근함으로써사용자에게실제적인편익을줄수있는방법을제안하고자한다. 2 일찍이 Jeff Moore 는 Crossing the Chasm 이라는책을통하여많은 IT 기업이좋은기술과아이템을가지고도 90% 에이르는실패율을보이고있는것을아래와같이설명하려하였다. 3 일반적으로어떤기술이개발되면초창기에는혁신을추구하거나기술매니아들혹은소위 Early Adopter 들이구입을하게되고이들에의해편익성 (convenience) 가검증되고이의결과에따라개방적인대중들, 보수적인대중들이순차적으로구입하게된다는것이다. 4 그러나많은기술의경우여기서말하는기술과성능 (Performance) 에중점을두어실제로대중이원하는해결안 (Solution)/ 편익성 (Convenience) 을간과하게되는경우가많고이것은 90% 의실패율을보이는것으로설명하였다. 5 < 그림 1> Moore 의 Chasm 곡선이러한결과는 u- 서비스에서더욱확장이될수밖에없는데그이유는 u- 서비스라는것이아직존재해보지않은것이기때문에검증이되어있지않고더더구나눈에보이지않으며조용한기술 (Calm Technology) 를추구하고있기때문이그하나의이유이다. 6 이렇게이루어진서비스가실제사용환경에적용되었을때사용자가정말편리함을느끼고자신이원하던문제가해결되는가는다르다. Indexing : 1,2,3 / 2,3,4 / 3,4,5 / 4,5,6... 10

2. 제안모델 기계독해 (Machine Reading Comprehension) 기계독해모델고도화 - 키워드임베딩 (Keyword Embedding) : 질문에있는핵심키워드가답변추론에잘반영되도록사용 - 단서문장임베딩 (Evidence Sentence Embedding) : 키워드를포함하거나단서문장이답변추론에반영되도록사용 - 답변길이가긴논문데이터의특성을반영하여답변길이에제한을두지않고예측 11

3. 실험및평가 국내논문데이터질의응답셋 논문 : 279,143 개 논문 QA 쌍 : 831,182 개 12

3. 실험및평가 실험데이터 학습데이터셋 전체논문데이터의 5% 사용 논문약 14,000 개 논문 QA 쌍약 41,500 개 검증데이터셋 논문약 3,350 개 논문 QA 쌍약 10,000 개 13

3. 실험및평가 성능평가 평가지표 : EM, F1 사용 - Exact Match (EM) 정답텍스트의어절과예측텍스트어절간의단순비교정답 1, 오답 0 으로계산 - F1 Score 정답텍스트와예측텍스트어절간의정밀도 (precision) 와재현율 (recall) 을구해서 F1 점수계산 14

3. 실험및평가 성능평가 키워드추출모델 IR 모델 Model F1 Recall Precision RoBERTa-base 83.1 86.97 79.57 RoBERTa-large 82.33 87.46 77.77 Rank Recall Top 1 59.67 Top 2 68.64 Top 3 72.74 Top 4 76.12 Top 5 77.85 Top 6 79.49 Top 7 80.65 Top 8 81.66 Top 9 82.19 Top 10 82.87 15

3. 실험및평가 성능평가 MRC 모델 Model EM F1 RoBERTa-base (Our Implements) RoBERTa-base w/o 답변길이제한 RoBERTa-base + keyword 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 + filtered context 20.91 46.25 17.51 73.67 16.92 74.99 18.81 77.40 17.21 72.24 + 31.15%p + 3.73%p 16

3. 실험및평가 성능평가 MRC 모델 시간 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 Proposed model RoBERTa-base + keyword 임베딩 + evidence 임베딩 + filtered context 1330 초 101 초 7 100 로시간단축 - 검증데이터논문약 600 개, QA 쌍 1800 개에대해서추론시걸리는시간 - 검색모델로필터링된 context 사용시기존 MRC 모델들보다 7/100 의추론시간단축 17

3. 실험및평가 성능평가 MRC 모델 질문감정의색인과검색과정은어떤특징을가지고있는가? 예시 1 정답 예측 색인가와이용자사이의주관적인판단과함께이를표현하는용어사용의차이로인해검색결과의불일치로이어지는경향이있다 감정의색인과검색은색인가와이용자사이의주관적인판단과함께이를표현하는용어사용의차이로인해검색결과의불일치로이어지는경향이있다. 질문 PC 재질의튜브램프의단점은? 예시 2 정답 저온 (?35 이하 ) 에서는사용환경조건에따라파손되는단점 예측 저온 (?35 이하 ) 에서는사용환경조건에따라파손되는단점이있어냉동창고와같은저온용으로는사용하기가적합하지않다. - 정답과예측답변의길이가길기때문에정량평가점수가낮지만 정성평가시예측답변이정답과같은문장임을확인 18

4. 결론 키워드검색이아닌질문 (Query) 검색가능 질문 (Query) 으로전문적인지식에대한구체적인답변획득 검색시간단축 사람이직접긴텍스트를읽고이해하지않아도원하는정보추출 키워드가존재하지않는경우에도검색가능 키워드가포함된데이터가구축되어있지않아도질문에서키워드를추출하여검색 키워드검색 : 데이터마이닝 질문검색 : 데이터마이닝의 6 단계는? 정답 : 데이터선택, 데이터정제, 데이터변환, 데이터마이닝, 패턴평가, 지식표현 19

5. 향후연구 키워드모델및검색모델의성능향상 전처리및후처리 현재는어떠한전처리및후처리도하지않음 단서문장이여러개인경우고려 Multi-hop QA 적용 20