저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우, 이저작물에적용된이용허락조건을명확하게나타내어야합니다. 저작권자로부터별도의허가를받으면이러한조건들은적용되지않습니다. 저작권법에따른이용자의권리는위의내용에의하여영향을받지않습니다. 이것은이용허락규약 (Legal Code) 을이해하기쉽게요약한것입니다. Disclaimer
공학석사학위논문 태그 정보와 복사 방법론을 활용한 수치 텍스트의 문서 요약 Document Summarization for Numeric Text using Tag Information and Copy Mechanism 2018 년 2 월 서울대학교 대학원 산업공학과 송석민
초 록 대용량 텍스트에서 중요한 부분을 빠르게 요약하는 기술의 필요성이 꾸준히 증 가함에 따라 문서요약은 지속적으로 연구되는 분야이다. 최근에는 기계 번역에서 딥러닝을 적용한 모델들이 가시적인 성능을 보임에 따라 문서요약에도 딥러닝을 적용한 생성형 요약의 연구가 새로운 트렌드로 자리잡았다. 이러한 연구는 대부분 Recurrent Neural Network을 사용한 Sequence-to-Sequence 알고리즘을 사용하여 길이가 긴 뉴스 기사를 요약하고, 뉴스의 제목을 생성하는 방식으로 이루어진다. 그러나 이러한 방식은 정해진 단어 집합 내의 단어로만 문장을 생성하며, 텍스트 내부의 수치는 일괄적으로 ##로 변환하기에 수치형 텍스트에 대해서는 요약하지 못한다는 단점이 있다. 본 연구에서는 이러한 단점을 보완하기 위해 원문의 수치 를 복사하여 요약문에 활용하는 방식을 제안한다. 복사 방법으로는 원문 시퀀스의 인코더 출력을 활용한 복사 방법론을 사용하며, 모델이 수치, 고유 명사 등의 문 맥을 인식할 수 있도록 형태소 분석을 한 태그 정보를 추가적으로 입력 정보로 활용하였다. 그 결과 복사 방법론이 기존의 Seq2Seq 모형이 요약하지 못했던 수치 데이터를 요약하는데 성공하였으며, 이에 태그 정보를 덧붙인 제안하는 모형이 수 치 텍스트를 더 잘 요약할 수 있음을 확인하였고, 인코더에 태그 정보를 입력하는 방식에 있어서 효과적인 방법을 제안한다. 주요어: 수치 텍스트, 문서 요약, 생성형 요약, Seq2Seq, 복사 방법론 학 번: 2016-21110 i
목 차 초 록 i 목 차 iii 표 목차 iv 그림 목차 v Chapter 1 서 론 1 Chapter 2 관련 연구 4 2.1 신경망 기반 기계 번역 모델..................... 4 2.2 문서요약의 정량적 평가........................ 7 2.3 생성형 요약.............................. 8 2.4 한국어 문서요약............................ 9 Chapter 3 제안하는 방법 11 3.1 RNN 인코더.............................. 12 3.2 RNN 디코더.............................. 14 Chapter 4 실험 결과 및 활용방안 16 4.1 데이터 설명.............................. 16 4.2 정량적 평가.............................. 18 ii
4.3 정성적평가.............................. 19 Chapter 5 결론 23 참고문헌 25 Abstract 29 iii
표 목차 표 4.1 실험에 사용한 태그 종류..................... 17 표 4.2 태그 정보 입력 방식별 Rouge 지표 비교............. 18 표 4.3 모델 별 Rouge 지표 비교..................... 19 표 4.4 제안하는 모델의 정성적 평가-1.................. 20 표 4.5 제안하는 모델의 정성적 평가-2.................. 21 표 4.6 제안하는 모델의 정성적 평가-3.................. 22 표1 모델 별 Rouge : RNN unit size=64............... 27 표2 모델 별 Rouge : RNN unit size=128 표3 모델 별 Rouge : RNN unit size=256............... 28 iv.............. 27
그림 목차 그림 1.1 일반적인 문서요약 데이터셋 일부 : CNN/Daily Mail Dataset 1 그림 1.2 수치 텍스트 : 연합뉴스(2017.11.09-조재영 임은진 기자)... 2 그림 2.1 RNN Encoder-Decoder 모델.................. 4 그림 2.2 Sequence to Sequence 모델................... 5 그림 2.3 Attention Mechanism...................... 6 그림 2.4 Copy Mechanism........................ 9 그림 3.1 제안하는 문서요약 프레임워크................. 11 그림 3.2 RNN Encoder 구조....................... 12 그림 3.3 태그정보 입력방식 그림 3.4 Copy Decoder 구조....................... 14 그림 4.1 경제뉴스(이데일리 2017.08.03 발췌).............. 16....................... 13 v
제1장서론 대규모 텍스트 데이터가 빠르게 생성되는 최근의 현실에 발맞추어 텍스트를 효과적으로 요약하는 기술의 필요성이 증대되고 있다. 문서요약은 크게 생성형 (Abstractive) 요약과 추출형(Extractive) 요약으로 구분할 수 있다. 생성형 요약은 전체 데이터셋의 문서를 통해서 각 문서를 읽는 방법을 학습하고 각 문서를 압축하 여 원문에 존재하지 않는 문장으로 요약하는 기법이고, 추출형 요약은 원문에 포 함되어 있는 문장이나 표현 가운데 중요하다고 판단되는 문장을 추출하여 별도로 수정하지 않은 채 요약문으로 출력하는 기법이다. 최근의 생성형 요약에 관한 연구 는 기계 번역 태스크(Task)에서 큰 향상을 보인 Sequence-to-Sequence(Seq2Seq) 모델의 연장선에서 그림 1.1과 같은 뉴스 문서 데이터를 요약하는 방식으로 연구가 되어왔다. 그림 1.1: 일반적인 문서요약 데이터셋 일부 : CNN/Daily Mail Dataset 이러한 알고리즘은 기본적으로 정해진 단어 집합의 단어를 활용하여 문장을 생성해내기 때문에 정해진 단어 집합에 포함되지 않는 단어(Out Of Vocabulary:OOV)가 포함된 문장을 요약하지는 못한다. 또한 그림 1.1의 13 countries, February 14 과 같이 원문 속의 숫자를 모델에 입력하는 과정에서 일괄적으로 1
## 로 치환하여 사용하기에 수치 정보에 대한 요약을 수행하지 못했다. 그러나 이는 실제로 문서요약 기술이 활용될 분야를 고려하면 기술 도입에 큰 장벽이 된다. 이러한 분야는 매일 새로운 텍스트가 생성되거나 하나의 텍스트가 너무 많은 정보를 담고 있다. 즉, 기존 단어 집합에 포함되지 않은 새로운 단어 (OOV)가 자주 생성되며, 텍스트 내에 표, 그래프, 수치와 같은 정보들을 담고 있는 것이다. 수치를 일괄적으로 ## 로 치환해서는 요약 알고리즘이 수치를 정 확하게 입력받을 수 없으며, 이러한 점이 문서요약 기술의 상용화에 큰 문제점으로 지적되어 왔다. 따라서 본 연구에서는 이러한 실제 산업 분야 데이터의 특징을 반영하여 수치 데이터가 텍스트에 포함된 한국어 수치 텍스트를 요약하는 알고리즘을 제시하여 생성형 문서요약 기술을 좀 더 산업에 유용하게 쓰일 수 있도록 하는 발판을 제공 하고자 한다. 본 연구는 수치 데이터가 텍스트 내부에 포함된 한국어 데이터셋을 찾고, 이에 대하여 생성형 요약을 효과적으로 수행하도록 개선된 Seq2Seq 모델을 제안한다. 기존의 알고리즘이 수치형 자료를 일괄 처리하는데 비하여 본 연구에서는 수치라 는 것을 알아볼 수 있도록 태그를 붙이고, 어떠한 문맥에서 수치가 등장하였는지 파악할 수 있도록 형태소 분석기의 태그 정보를 추가하여 모델의 입력으로 사용하 였다. 또한 단어 집합에 포함되지 않는 원문의 수치를 복사하여 요약문에 제시하기 위하여 Gu et al. (2016)의 복사 방법론을 변형하여 사용하였다. 그림 1.2: 수치 텍스트 : 연합뉴스(2017.11.09-조재영 임은진 기자) 2
또한 수치 텍스트의 요약 성능을 검증하기에 적합한 그림 1.2과 같은 새로 운 데이터셋을 제시하고 이에 대하여 제안하는 프레임워크의 알고리즘이 기존의 Seq2Seq 모델 및 단순한 복사방법론 모델보다 우수한 요약 성능을 보임을 확인하 였다. 정리하면, 본 연구는 수치 정보를 포함한 텍스트 형태의 뉴스 본문을 입력으 로 삼아 본문의 요약된 형태인 뉴스 제목을 생성하는 방식의 생성형 문서 요약 모델을 제안한다. 제안하는 모델의 평가는 재현율 기반의 Rouge 지표로 측정되며 구체적인 프레임워크는 그림 3.1의 구조를 가진다. 본 연구의 구성은 다음과 같다. 2장을 통해 RNN을 사용한 기본적인 자연어 처리 모델들과 이를 문서요약에 적용한 연구들을 살펴본다. 3장에서 한국어 수치 텍스트 요약에 적합한 데이터셋을 설명하고, 이를 요약하는 프레임워크를 제안한 다. 4장에서 실험 환경과 실험 방법을 설명하고 5장에서 실험의 결과를 보인다. 마지막으로 6장에서 결론 및 추후 연구 방향을 제시한다. 3
제 2 장 관련 연구 문서 요약에 대한 연구는 오랫동안 자연어 처리 기술의 연장선에서 수행되어 져 왔다. 이러한 점에 바탕하여 본 연구에서는 먼저 딥러닝을 활용한 자연어 처리 기법인 RNN Encoder-Decoder 모델을 살펴본다. 또한 문서 요약 Task에 대한 정량적 지표인 Recall Oriented Understanding for Gisting Evaluation(Rouge)를 소개하고, 생성형 요약에 딥러닝을 적용한 연구들을 살펴본다. 마지막으로 한국어 문서에 대하여 이를 적용한 국내 연구들을 소개한다. 2.1 신경망 기반 기계 번역 모델 Cho et al. (2014)은 그림 2.1과 같은 구조의 Gated Recurrent Unit(GRU) 을 활용한 RNN Encoder-Decoder 모델을 제안하고 이를 통하여 효과적으로 기계 번역을 수행할 수 있음을 보였다. 그림 2.1: RNN Encoder-Decoder 모델 4
입력이 되는 문장을 N 개의 토큰으로 쪼개고 각 토큰 xi 를 임베딩 공간상에 사영한 임베딩값을 인코더(Encoder) RNN에 입력으로 사용하여 고정된 길이의 문맥 벡터(Context vector), c를 추출하고 이 c가 다시 디코더(Decoder) RNN의 매 스텝, t에서의 입력변수로 사용되어 최종적으로 번역 문장(Y )을 생성하게 된다. 이러한 방식은 입력문의 정보를 요약하고 있는 c를 사용하여 디코더가 시점 t에 생성할 단어 yt 의 확률분포 P (yt {y1,..., yt 1 }, c) 를 RNN을 사용하여 모델링함으 로써 번역문을 생성한다. 입력 X = (x1,..., xn ), 출력 Y = (y1,..., yτ )에 대하여 이를 수식으로 표현하면 아래와 같다. P (Y X) = t=n Y P (yt {y1,..., yt 1 }, c) (2.1) t=1 또한 t번째 RNN을 한번 통과시켰을 때의 출력을 h, 내부적으로 일어나는 일련의 계산식을 f 라고 할 때 ht = f (ht 1, yt 1, c)이며, 이를 바탕으로 모델링한 조건부 확률은 아래와 같이 나타난다. P (yt {y1,..., yt 1 }, c) = g(ht, yt 1, c), (2.2) 이때, g는 출력을 확률로 바꾸기 위한 함수로 주로 Multi Layer Perceptron(MLP) 를 활용한다. 이렇게 모델링한 확률을 바탕으로 전체 문서에 대하여 log 확률을 합 P 한 값, (logpθ (Y X))가 최대가 되는 θ를 찾는 방식으로 학습이 이루어진다. 그림 2.2: Sequence to Sequence 모델 Sutskever et al. (2014)은 RNN Encoder-Decoder 모델과 유사한 Sequence- 5
to-sequence Learning(Seq2Seq)을 제안하였다. 그림 2.2에서 나타나듯 Seq2Seq 은 별도의 문맥 벡터를 추출하지 않고 인코더의 마지막 상태값(h)을 디코더의 초기값으로 설정하고 번역 문장을 생성하는 모델이다. LSTM 을 RNN셀로 사용 하여 여러 층으로 쌓음으로써 별도의 문맥 벡터나 복잡한 함수를 설정하지 않고 도 기계 번역 태스크에서 좋은 성능을 보였다. Seq2Seq 모델 역시 조건부 확률 P (yt {y1,..., yt 1 }, X)을 RNN을 사용하여 모델링하고 번역문을 생성한다는 공통 점이 있다. 그림 2.3: Attention Mechanism 이후 Bahdanau et al. (2014)는 RNN Encoder-Decoder 모형에 주의 집중 방법 론을 도입하였다. 주의 집중 방법론은 그림 2.3처럼 인코더의 각 시퀀스의 출력을 사용하여 디코더의 각 시퀀스마다 새로운 문맥 벡터, ct 를 생성하고 이를 디코더 RNN이 받아 번역문을 생성하는 발전된 모델이다. ct 는 인코더의 스텝별 출력값인 hi 의 가중합으로 나타나게되며, 디코더의 시점 t마다 새로 계산되게 된다. 이때 t시 6
점의 가중치 αt,i 는 ht 와 디코더의 이전 스텝 출력 st 1 을 사용한 새로운 신경망을 통해서 학습된다. exp(et,i ) αt,i = P i exp(et,i ) (2.3) et,i = a(st 1, hi ) 이 모델은 이전의 모형들이 고정된 벡터 c를 사용했던 점을 개선하여 디코더가 번 역문의 t번째 단어 yt 를 생성할 때마다 새로운 ct 에 사용하도록 하므로써, 번역의 순서에 맞추어 원문에서 특정 부분에 집중할 수 있도록 하였다. 이러한 주의 집중 방법론의 구조는 다소 변형을 거쳐 딥러닝을 사용한 자연어처리에 있어 필수적인 요소로 자리잡게 되었다. 2.2 문서요약의 정량적 평가 문서요약 태스크의 정량적 성능 평가지표는 기계 번역과는 다르게 모델이 요약 한 정답에서 정보가 얼마나 누락되었는지를 더 집중적으로 측정한다. 따라서 정밀 도(Precision) 기반의 BLEU가 아닌 재현율(Recall) 기반의 측정 지표인 Rouge를 사용하게 된다(Lin, 2004). Rouge는 정답이 되는 요약문(Reference Summary)와 모델의 요약문(Candidate Summary) 사이의 재현율을 바탕으로 스코어를 매기며 N-gram에 기반한 Rouge-N과 최장 공통 부분순열(LCS)를 바탕으로 한 Rouge-L 등의 변형이 존재한다. 본 논문에서는 Uni-gram에 기반한 Rouge-1과 bi-gram 기 반의 Rouge-2, 그리고 Rouge-L을 평가 지표로 사용하며 Rouge-N과 Rouge-L을 수식으로 나타내면 아래와 같다. P Rouge-N = P Countmatch (gramn ) S {Ref erencesummaries} gramn S P P S {Ref erencesummaries} gramn S Rlcs = LCS(X, Y ) m 7 Count(gramn )
Plcs = LCS(X, Y ) n Rouge-L = 2Rlcs Plcs Rlcs + Plcs X를 모델 요약문의 토큰, Y를 정답 요약문의 토큰이라고 할 때 LCS(X,Y)는 X 와 Y의 사이의 LCS를 의미하며, m과 n은 각각 X와 Y의 길이를 의미한다. LCS 에 기반한 Rouge-L은 정답과 모델의 요약문을 비교하여 공통인 가장 긴 시퀀스에 대해 측정하기 때문에 같은 Rouge-1 지표를 보이는 요약문의 경우에 Rouge-L이 더 높은 쪽이 원래의 요약문과 더 비슷하다고 할 수 있다. 2.3 생성형 요약 Rush et al. (2015)는 주의 집중 기반 인코더(Attention based encoder)를 사 용한 신경만 언어 모형 기반 문서요약 모델을 제안하고, Giga-Word 데이터셋을 사용하여 제목을 생성하는 연구를 수행하였다. Chopra et al. (2016)은 입력 원문 에 합성곱(Convolution)과 주의 집중 방법론을 도입한 Attentive 인코더와 RNN 디코더를 결합한 모델을 제안하였다. 위의 두 모델들은 크기 C의 합성곱 필터를 사 용하여 N그램 문제를 해결하면서 동시에 조건부 확률 P (yt {yi C +1,..., yi }, x; θ) 를 모형화하였다. 이와 유사하지만 인코더와 디코더에 모두 RNN을 활용한 연구들도 수행된바 있는데, Nallapati et al. (2016),Nallapati et al. (2017)은 RNN Encoder를 사용 하여 입력문을 압축하는 과정에서 단어 단위의 입력 뿐만 아니라 문장 단위로도 압축하여 Decoding에 활용하는 기법을 소개하였다. 이 과정에서 Seq2Seq 기반의 문장 생성 모델의 단점이었던 OOV 문제를 해결하기 위하여 외부적으로 게이팅 방법론(Gating Mechanism)을 도입하여 원문 표현의 일부를 복사하는 방법을 제 안하였다. 이와 유사하게 원문의 입력을 복사하는 방법으로 Gu et al. (2016), Zeng et al. (2016)는 복사 방법론(Copy Mechanism)을 제안하여 디코더로 하여금 디코 8
딩의 대상이 되는 단어 집합을 각 문서에 대해 확장시키는 방식으로 OOV 문제를 해결하였다. 그림 2.4: Copy Mechanism 복사 방법론은 인코더 출력 속에 녹아있는 구문적, 의미적 정보를 활용하여 이를 디코딩 임베딩에 추가할 수 있도록 변환시키는 방식으로 작동한다. 그림 2.4 과 같이 인코더 출력 Memory를 변환시켜 이를 바탕으로 각 원문의 토큰마다 점수 ψc 를 계산한다. 이렇게 계산된 원문의 토큰 별 점수를 기존 단어 집합 속 단어의 점수와 결합하고 그 최대가 되는 단어를 매 스텝마다 출력하게된다. 이러한 방식 을 통해서 디코더는 OOV더라도 원문에 존재하는 단어라면 이를 복사할 수 있게 된다. 본 연구에서는 이러한 복사 방법론을 활용하도록 한다. 2.4 한국어 문서요약 한국어 문서요약에 대한 연구는 대부분 추출형 모델에 기반하여 연구되어왔 다. 추출형 요약은 대부분 그래프에 기반하여 연구되어왔다. 이동욱 et al. (2012) 은 LSA를 사용하여 한국어 문서를 요약하였고, 이상구 (2016)은 Lexical Rank 9
를 사용한 한국어 문서요약 패키지를 발표하였다. 생성형 요약과 관련한 연구는 최근에 수행되기 시작하여 이창기 (2017), 김학수 (2017)는 Seq2Seq 모델에 복사 방법론을 한국어에 적용하여 제목 생성 모델을 만들었다. 그러나 위의 모형들 역시 기존의 문서요약 태스크와 같은 접근 방법을 취하여 수치 정보를 요약하는 연구는 별도로 수행되지 않았다. 10
제 3 장 제안하는 방법 본 연구에서는 수치 정보를 포함한 텍스트를 요약하는 방법으로써 Gu et al. (2016)의 복사 방법론을 변형하였다. 위 연구에서 활용하지 않았던 태그 정보를 활용하였으며, 수치를 담은 토큰도 하나의 새로운 OOV로 간주하여 복사할 대 상으로 삼았다. 또한 RNN 인코더의 출력을 디코더의 임베딩 공간으로 변환하는 과정에서 좀 더 복잡한 변환을 사용했다. 이를 정리하면 아래 그림 3.1과 같다. 그림 3.1: 제안하는 문서요약 프레임워크 전체 데이터셋에서 요약의 대상이 되는 데이터를 선정한다. 이후 특수 문자 변 환, 고유명사 추출, 형태소 분석등의 전처리과정을 원문과 요약문에 적용하여 태그 정보와 함께 단어 토큰을 얻는다. 이 과정에서 정규표현식을 사용하여 수치 정보 를 담은 토큰을 분리해 <Number>라는 별도의 태그를 붙인다. 전처리의 결과로 얻은 단어 집합를 바탕으로 단어 사전을 정의하였으며, 각 단어를 임베딩 공간에 사영하여 얻은 임베딩 벡터와 단어의 태그 정보를 RNN 인코더의 입력으로 사용한 11
다. RNN 인코더는 문맥 벡터, c를 만들고 RNN 디코더는 이 c를 사용하여 임베딩 공간 상에서 가장 적합한 단어를 단계별로 생성하게 된다. 이 과정에서복사 방법 론을 활용하여 원문의 토큰 중 복사할 토큰을 결정하여 요약문으로 복사한다. 본 연구는 이러한 프레임워크가 우수함을 보임과 동시에 태그 정보를 RNN 인코더의 입력으로 사용하는 효과적인 방법을 제안한다. 문서 요약의 실질적인 역할을 담당하는 요약 모델은 크게 원문의 정보를 요약 하는 인코더와 요약한 정보를 바탕으로 요약문을 생성하는 디코더로 나누어지며 각 부분은 LSTM, GRU를 사용한 RNN셀을 사용하였다. 디코더가 요약문을 생성 하는 단계에 있어서는 인코더에서 각 토큰의 출력값을 변환시켜 확률화하고, 그 확률을 최대화할 수 있도록 복사 방법론의 아이디어를 차용하였다. 3.1 RNN 인코더 그림 3.2: RNN Encoder 구조 인코더는 원문을 읽고 해석하여 정보를 요약하는 역할을 수행한다. 원문의 정 보를 요약함에 있어서 인코더의 RNN셀은 그림 3.2와 같이 N개의 원문의 토큰 xi 을 순차적으로 입력받게 된다. 이 때, 각 RNN셀은 단어의 임베딩 벡터 이외에도 12
토큰의 태그 정보를 함께 입력받고 각 스텝마다 의미적, 구조적 정보를 요약한 hi 를 출력한다. 이렇게 출력된 hi 는 각 스텝을 나타내는 변수로 이후 디코더에서 주의 집중과 복사 방법론에 사용된다. 또한 마지막 N 번째 RNN셀의 출력 hn 은 문맥 벡터로 이후 디코더의 초기값으로 사용된다. (a) Simple concatenation (b) Add to word embedding (c) Projection to new embedding space 그림 3.3: 태그정보 입력방식 태그 정보를 입력하는 방식은 그림 3.3에서 보여지는 것처럼 3가지로 나누어 실험하였다. 먼저 그림 3.3a은 단어 임베딩벡터에 원-핫 인코딩한 태그 정보를 단순 히 덧붙여서 RNN셀에 입력하는 방식이며, 그림 3.3b은 태그 정보를 단어 임베딩 공간으로 사영시키고, 그 벡터를 단어 임베딩 벡터와 더하는 방식이다. 마지막으로 그림 3.3c는 그림3.3a의 벡터를 단어 임베딩 공간의 크기와 같은 새로운 공간으로 변환시켜 이를 RNN셀의 입력으로 사용하게 된다. 13
3.2 RNN 디코더 복사 방법론을 사용하는 디코더의 구조는 아래 그림 3.4과 같이 인코더의 출력 인 hi 의 집합(M)를 사용하여 주의 집중과 복사 방법론을 작동시키게 된다. 먼저 주의 집중 방법은 디코더가 출력할 요약문의 t번째 단어를 만드는데 있어서 각 t 번째마다 서로 다른 문맥 벡터, ct 를 생성한다. 복사 신경망은 M의 정보를 입력 으로 활용하여 N개의 원문 토큰 중, 기존 단어 집합(V )에 포함되지 않은 토큰의 원문에서의 위치(j)를 파악하고 그 위치의 인코더 출력값(hj )를 기존 단어의 임베 딩 공간과 같은 크기의 공간으로 변환시키는 역할을 수행한다. 즉, 기존 방법에서 UNK 로 일괄 처리된 원문의 토큰 xj 에 대해서 xj 의 임베딩 벡터로 사용할 새로 운 벡터를 찾아내고 기존 임베딩 공간에 덧붙이는 것이다. 이를 통해 디코더는 더 넓은 크기의 단어 집합에서 요약문을 생성할 수 있다. 그림 3.4: Copy Decoder 구조 위의 그림에서 실제로 Decoder가 행하는 작업을 수식적으로 보면 다음과 같다. Decoder RNN Cell은 요약문의 t번째 단어를 선정함에 있어서 수식 3.1의 결과의 14
확률을 비교하여 가장 높은 확률의 yt 를 선택하는 방식으로 단어를 생성한다. p(yt st, yt 1, ct, M ) = p(yt, gen st, yt 1, ct, M ) + p(yt, copy st, yt 1, ct, M ) (3.1) 위 수식에서 보여지듯이 yt 의 확률은 생성 확률과 복사 확률의 합으로 구성 되어있는데 생성 확률은 V에 속하지 않는, 즉 새로운 단어일 경우에는 0이 된다. 반대로 복사 확률은 V에 속한 단어일 경우에는 0이 되도록 설계한다. 이를 정리하 면 아래와 같다. 1 eψg (yt ) p(yt, gen ) = Z 0 (yt V ) (3.2) (otherwise) 1 X ψc (xj ) e Z j:x =y t j p(yt, copy ) = 0 (yt V ) (3.3) (otherwise) 또한 각 확률을 구함에 있어 ψg, ψc 은 아래와 같은 식을 통해 얻어지고, Z는 표준화 변수(Normalizing Factor)이다. 수식 3.4는 기존 단어 vi 가 요약문의 t번째 단어일 확률을 계산하는데 사용되는 식이며 수식 3.5는 원문의 j번째 표현 xj 가 복사되는 경우의 확률을 계산하는데 사용되는 식이다. ψg (yt = vi ) = vit Wo st (3.4) ψc (yt = xj ) = σ htj Wc + bc st (3.5) σ는 비선형함수로 본 연구에서는 tanh를 사용하였다. 15
제 4 장 실험 결과 및 활용방안 4.1 데이터 설명 본 연구에서는 수치형 텍스트의 요약을 수행하기 위하여 경제 뉴스 데이터를 활 용한다. 경제 뉴스는 그림 4.1과 같이 본문에 여러 수치를 포함하고 있으며 기사의 제목이 본문의 수치를 요약한 경우가 많다. 또한 매일 새로운 텍스트가 생성된다는 점에서 문서요약 기술의 활용도가 높은 산업 분야라고 볼 수 있다. 따라서 앞서 제기한 기존 문서 요약 기법의 문제에 비추어 볼 때, 이번 연구에서 가장 적합한 데이터셋이라고 볼 수 있다. 그림 4.1: 경제뉴스(이데일리 2017.08.03 발췌) 본 연구에서는 2012년 9월부터 2017년 9월까지 5년간의 일일 주요 경제 뉴스, 약 25000건에 대하여 문서요약을 수행하였다. 각 뉴스는 3 35개의 문장으로 구 성되어 있으며, 금리, 환율, 증권과 같이 경제 분야의 여러 주제를 다루고 있다. 연구에서는 문서요약 모델의 입력으로 뉴스의 본문을 사용하고 출력으로 뉴스의 16
제목을 사용하여, 뉴스의 본문을 읽은 모델이 요약문인 제목을 생성하도록 한다. 학습 데이터, 검증 데이터, 테스트 데이터의 크기는 각각 70%, 20%, 10%로 하였다. 전처리에 사용된 형태소 분석기로는 트위터(Twitter) 형태소 분석기를 활용 하였고, 경제 분야의 도메인 특정 키워드(지수명, 회사명, 기관)를 하나의 단어로 취급하기 위하여 금융감독원 전자공시시스템을 활용하였다. 이렇게 추출한 도메인 특정 키워드는 FIRM 과 같은 형태의 별도의 태그를 붙여주었다. 경제 도메인에 맞는 스탑 워드(Stop Words)를 설정한 이후 형태소 분석을 수행하였으며, 그 결과 에 바탕하여 명사, 동사, 형용사등의 의미있는 단어들로만 단어 집합을 구축하였다. 단어 집합의 크기는 실험을 수행함에 있어서 항상 12K로 일관되게 유지하였다. 수치는 각 뉴스에서 유니크하게 등장하는 것으로 간주하여 단어 집합에 포함되 지 않으며, 문서 내의 수치는 정규표현식을 사용하여 2천100원, 20.2% 과 같은 부분들을 [ 2100, 원 ], [ 20.2, % ]과 같이 처리하여 숫자와 단어 부분을 분리하여 태깅하였다. 이렇게 하여 사용한 전체 태그는 아래 표4.1과 같다. 이에 속하지 않는 다른 모든 태그는 <ETC>로 변환하였다. 표 4.1: 실험에 사용한 태그 종류 태그명 설명 태그명 설명 태그명 설명 <s> 문장 시작 </s> 문장 종료 <Noun> 명사 <Verb> 동사 <Number> 수치 <Adjective> 형용사 <Punctuation> 문장 부호 <Firm> 회사명 <Determiner> 관형사 <Adverb> 부사 <Alpha> 영문자 <Conjuction> 접속사 학습이 끝난 이후 테스트에 사용할 모델을 고르는 과정에서는 검증 데이터에 대한 Rouge가 가장 높은 것이 아닌, Loss가 낮은 모형을 사용하였다. 그 이유는 학습 루프가 종료된 이후, 학습 과정 중 Loss와 Rouge의 변화를 관찰하면 검증 데 17
이터에 대한 Loss가 증가함에도 외부적 평가지표였던 Rouge가 증가하는 경우가 관찰되었기 때문이다. Rouge는 P (yt )의 값이 가장 높은 yt 를 사용하여 측정되는 반면에 Loss는 Negative Loglikelihood로 연속적인 값을 취하기 때문에 Rouge가 상대적으로 덜 강건한 측면이 있다. 따라서 본 연구에서는 내부적으로 측정되는 학습 정도인 Loss를 바탕으로 Early Stopping하는 방식을 채택하였다. 4.2 정량적 평가 인코더에 태그 정보를 입력하는 방식에 대하여 실험한 결과는 아래 표4.2와 같 다. 크기 320의 GRU셀을 인코더 RNN셀로 사용하여 모델을 학습하는 실험을 수행 하였다. 가장 높은 성능을 보였던 것은 단어 임베딩과 태그 정보를 Concatenation 한 이후 새로운 임베딩 공간으로 사영시키는 방식 c 였다. 표 4.2: 태그 정보 입력 방식별 Rouge 지표 비교 Encoder-Type Rouge-1 Rouge-2 Rouge-L a) Simple concatenation 15.28 4.05 14.47 b) Add to word embedding 15.22 3.75 14.42 c) Projection to new embedding space 17.21 4.46 16.67 이러한 결과는 두 정보를 결합하여 새로운 임베딩 공간으로 사영시키는 과정 에서 가장 적절한 사영 행렬 Wprojection 를 학습했기 때문으로 판단된다. 이 결과를 바탕으로 태그 정보를 입력하는 방식을 결정하여 RNN셀의 종류와 크기를 바꿔 가며 제안하는 모델과 기존 모델들을 비교해보았다. RNN셀의 히든 유닛의 개수에 따라 베이스 모델들과 제안하는 모델의 성능의 차이를 평가한 결과 RNN 히든 유닛의 크기가 320인 경우에 대해서 표 4.3과 같 은 결과를 얻을 수 있었다. 표에서 보여지듯 복사 방법론을 도입한 모델과 그렇지 18
표 4.3: 모델 별 Rouge 지표 비교 Model Rouge-1 Rouge-2 Rouge-L (# of rnn unit : 320) Seq2Seq + LSTM 13.96 3.27 13.49 Attention GRU 13.75 3.1 13.2 LSTM 15.27 3.63 14.26 GRU 16.18 4.42 15.43 LSTM 16.84 4.119 16.06 GRU 17.21 4.46 16.67 Copy Only Proposed Model 않은 모델의 성능은 다소 차이를 보이고 있으며, 제안하는 모델이 태그 정보를 활용하였기 때문에 보다 높은 성능을 보임을 확인할 수 있었다. 이는 다른 RNN 히든 유닛의 크기에 대해서 실험한 결과에서도 비슷한 양상을 보였다. 다른 크기의 유닛에 대한 실험 결과는 Appendix에 첨부하였다. 4.3 정성적 평가 실제로 제안하는 모델이 수치 정보를 요약문에 요약했는지를 확인하기 위하여 정성적인 평가를 수행하였다. 정성적인 평가는 실제 원문과 정답 요약문, 그리고 Copy가 없는 기존 모델과 제안하는 모델의 요약 결과를 비교하였다. 아래의 표들에서 보여지듯이 기존 모델인 Seq2Seq+Attention 모델은 수치 정보를 요약하지 못했지만 제안하는 모델은 수치 정보를 요약할 수 있는 능력이 있음을 알 수 있다. 뿐만 아니라 넘었다-돌파, 숨고르기-안착 시도 등과 같이 원문의 의미를 지닌 다른 표현을 찾아 생성해내는 것을 확인할 수 있었다. 19
표 4.4: 제안하는 모델의 정성적 평가-1 3일 코스피가 또다시 2000포인트를 넘어섰다. 코스피는 전날 잠시 2000을 넘어섰다가 펀드환매 등 경계매물에 가 로막혀 번번이 실패했다. 이날은 외국인의 7일 연속 순 매수에 힘입어 2000포인트 돌파에 성공했다. 전문가들은 코스피 박스권 상단이 2050인 점을 감안할 때 경계매물이 나올 가능성이 높은데다, 이달 중순부터 발표되는 1분기 기업실적 발표가 발목을 잡을 가능성도 높지만 2분기 중 뉴스 본문a 에 2100포인트 돌파도 가능할 것으로 전망하고 있다. 이날 머니투데이 오전 11시 31분 현재 코스피지수는 전일대비 5.87포인트 (2014.04.04) (0.29%) 오른 2003.12를 나타내고 있다. 코스피가 세달 (이군호 기자) 만에 2000포인트를 돌파한데는 외국인의 순매수가 결정 적이다. 외국인은 현재 1481억원을 순매수, 7거래일 한국 주식을 사들이며 지수 상승을 주도하고 있다. 외국인 순 매수는 미국이 한파에서 벗어나 경기가 본격적인 반등 추 세를 보이고 있고, 중국이 경기 부양책 기대감이 높아지는 등 G2의 경기반등에 대한 기대감 때문이다...(후략) 뉴스 제목 코스피 2000 넘어 2050 찍을까? 기존 모델 코스피 <UNK>선 제안 모델 코스피 2050 선 돌파 Seq2Seq+Attention a http://news.mt.co.kr/mtview.php?no=2014040310074273143 20
표 4.5: 제안하는 모델의 정성적 평가-2 13일 코스피지수는 마디지수 인 2000선 회복을 앞두고 숨 고르기 를 할 것으로 전망된다. 미국의 양적완화 축소 에 대한 경계심리가 재부각되고 있는 점은 2000선 돌파의 걸림돌이다. 지난 밤 미국 뉴욕 증시는 사흘 만에 소폭 하 락했다. 미 중앙은행(Fed)의 양적완화 축소 우려가 다시 부각되면서 약세를 보였다. 최근 상승에 따른 차익매물도 하락세를 부추겼다. 전날 코스피는 연기금과 투신권 등 기관 매수세에 힘입어 7거래일 만에 반등했다. 500선 붕 한국 경제 뉴스 본문b 괴 직전까지 몰렸던 코스닥지수도 1.55% 오르며 한숨을 돌렸다. 국내 증시는 주중 남은 기간 2000선 회복을 시도 (2013.11.13) 할 것으로 예상된다. 기대할만한 상승모멘텀(동력)이 없 (이민하 기자) 다는 점과 외국인 수급이 개선되지 않았다는 부분은 부담 요인이다. 박성훈 우리투자증권 연구원은 외국인은 국내 증시에서 7거래일 연속 순매도하는 등 양적완화 축소 우 려로 투자자금 이탈이 지속되고 있다 며 오는 14일 재닛 옐런 Fed 총재 지명자의 상원 인사청문회를 통해 시각을 가늠해볼 수 있을 것 이라고 말했다...(후략) 뉴스 제목 2000 앞두고 숨고르기 테이퍼링 경계감 커져 기존 모델 <UNK>앞 경계 제안 모델 코스피 2000 선 안착 시도 예상 Seq2Seq+Attention b http://stock.hankyung.com/news/app/newsview.php?aid=2013111353776 21
표 4.6: 제안하는 모델의 정성적 평가-3 기준금리가 연 3.0%로 동결됐다. 한국은행은 8월 9일 김 중수 총재 주재로 금융통화위원회(금통위)를 열고 기준금 리를 연 3.0%로 유지하기로 했다. 기준금리는 2011년 5월 3.0%에서 6월 3.25%로 오른 뒤 13개월 만인 올해 7월 시 장의 예상과 달리 0.25% 포인트 인하됐다. 지난 7월 금리 뉴스 본문c 인하의 효과를 당분간 지켜봐야겠다는 판단이 이달 동결 한경비즈니스 요인으로 작용했다. 미국 중앙은행인 연방준비제도이사회 (2012.08.17) (Fed)와 유럽중앙은행(ECB)이 금리 동결을 유지하고 있 (이강원 기자) 어 글로벌 공조 가 필요하다고 판단한 것으로 보인다. 그 러나 6월 중 생산(-0.3%) 소비(-0.5%) 설비투자(-6.3%) 모두 전월 대비 마이너스를 기록하는 등 경기 침체가 가 속화돼 추가 금리 인하 압박이 커졌다...(후략) 뉴스 제목 한국은행 기준금리 동결 연 3.0% 기존 모델 한은 기준금리 동결 제안 모델 기준금리 3.0 동결 Seq2Seq+Attention c http://news.naver.com/main/read.nhn?sid1=004&oid=050&aid=0000025854 22
제 5 장 결론 본 연구에서는 태그 정보와 복사 방법론을 결합하여 수치가 포함된 텍스트를 요약할 수 있는 모델을 제안했다. 기존의 문서요약 방법론에서 요약하지 못했던 수치 정보가 복사 방법론을 통해 요약문에 잘 포함됨을 정량적, 정성적 지표를 통 해 확인할 수 있었다. 또한 여기에 각 토큰의 구조적 정보인 태그 정보를 입력으로 사용함으로써 더 높은 성능을 갖는 문서 요약 모델을 개발하였다. 태그 정보를 활 용하는 방법에 있어서는 3가지의 방법을 비교한 결과, 태그 정보와 단어 임베딩을 결합하여 새로운 임베딩을 만들어 이를 RNN 인코더의 입력으로 활용하는 방안이 가장 효과적임을 알 수 있었다. 본 연구에서 제안하는 모델은 단어 임베딩 뿐만 아니라 태그 정보를 활용함으 로써 수치 정보의 토큰을 제대로 인식하여 요약에 활용하였다. 제안하는 모델을 활용하여 경제(증권) 보고서 요약을 통한 손쉬운 비교 서비스나 수치 텍스트에 대 한 질문에 답하는 챗봇등의 실제 서비스로 연결될 수 있는 길이 생기기를 희망한다. 또한 기존의 연구가 집중한 데이터가 아닌 실제 산업군 데이터(법률, 의료 정보) 를 활용하여 보다 필드에 잘 접목될 수 있는 문서요약 모델이 활용될 수 있기를 바란다. 한편 본 연구에서 제안하는 모델은 수치를 해석함에 있어서 수치를 새로운 단어 토큰으로 가정하였다. 따라서 원문에 실제 수치가 등장하더라도, 이를 반올 림하거나 새로운 연산을 통해 요약문에 활용하는 태스크는 수행하지 못했다. 이런 문제는 숫자를 단어와 같은 이산적 변수로 다루었기 때문에 발생했는데 본래 숫자 는 연속적인 변수이다. 따라서 보다 정확하게 수치 사이의 관계와 의미를 파악하고 그 정보를 요약하기 위해서는 수치를 연속적인 변수로 처리하는 연구가 필요하다. 23
이런 경우에 대해서는 연속적 변수인 수치와 이산적 변수인 텍스트가 섞여 있는 상황에서의 Loss를 어떻게 정의해야 하는지, 그리고 수치 사이의 관계(증감, 비율 등)를 어떻게 연산할 수 있도록 할지에 대한 것들을 주제로 연구를 수행할 수 있을 것이다. 24
참고문헌 Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. translation by jointly learning to align and translate. Neural machine arxiv preprint arxiv:1409.0473, 2014. Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. Learning phrase representations using rnn encoder-decoder for statistical machine translation. arxiv preprint arxiv:1406.1078, 2014. Sumit Chopra, Michael Auli, and Alexander M Rush. Abstractive sentence summarization with attentive recurrent neural networks. In Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 93 98, 2016. Jiatao Gu, Zhengdong Lu, Hang Li, and Victor OK Li. Incorporating copying mechanism in sequence-to-sequence learning. arxiv preprint arxiv:1603.06393, 2016. Chin-Yew Lin. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out: Proceedings of the ACL-04 workshop, volume 8. Barcelona, Spain, 2004. Ramesh Nallapati, Bowen Zhou, Caglar Gulcehre, Bing Xiang, et al. Abstractive text summarization using sequence-to-sequence rnns and beyond. arxiv preprint arxiv:1602.06023, 2016. 25
Ramesh Nallapati, Feifei Zhai, and Bowen Zhou. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents. hip (yi= 1 hi, si, d), 1:1, 2017. Alexander M Rush, Sumit Chopra, and Jason Weston. A neural attention model for abstractive sentence summarization. arxiv preprint arxiv:1509.00685, 2015. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. Sequence to sequence learning with neural networks. In Advances in neural information processing systems, pages 3104 3112, 2014. Wenyuan Zeng, Wenjie Luo, Sanja Fidler, and Raquel Urtasun. summarization with read-again and copy mechanism. Efficient arxiv preprint arxiv:1611.03382, 2016. 이현구 와 김학수. 주의집중 및 복사 작용을 가진 sequence-to-sequence 순환신경 망을 이용한 제목 생성 모델. 정보과학회논문지, 44(7):674 679, 2017. 이동욱, 백서현, 박민지, 박진희, 정혜욱, and 이지형. Lsa 를 이용한 문장 상호 추천과 문장 성향 분석을 통한 문서 요약. 한국지능시스템학회 논문지, 22(5): 656 662, 2012. 설진석 와 이상구. lexrankr: Lexrank 기반 한국어 다중 문서 요약. 한국정보과학회 학술발표논문집, pages 458 460, 2016. 최경호 와 이창기. 복사 방법론과 입력 추가 구조를 이용한 end-to-end 한국어 문서요약. 정보과학회논문지, 44(5):503 509, 2017. 26
Appendix 표 1: 모델별 Rouge : RNN unit size=64 Model Rouge-1 Rouge-2 Rouge-L Seq2Seq + Attention Copy Only Proposed Model LSTM 7.4 1.07 7.26 GRU 6.81 1.07 6.57 LSTM 11.21 2.25 10.77 GRU 8.52 1.45 8.32 LSTM 7.8 1.47 7.28 GRU 10.45 2.18 10.66 표 2: 모델별 Rouge : RNN unit size=128 Model Rouge-1 Rouge-2 Rouge-L Seq2Seq + Attention Copy Only Proposed Model LSTM 7.8 1.2 7.6 GRU 8.56 1.79 8.32 LSTM 11.6 2.3 11.12 GRU 11.96 3.02 11.47 LSTM 12.02 2.7 11.6 GRU 12.96 3.25 12.37 27
표 3: 모델별 Rouge : RNN unit size=256 Model Rouge-1 Rouge-2 Rouge-L Seq2Seq + Attention Copy Only Proposed Model LSTM 12.8 3.26 12.36 GRU 13.07 2.25 12.47 LSTM 14.07 3.4 13.31 GRU 14.41 3.71 13.7 LSTM 15.4 3.2 14.4 GRU 15.42 3.81 14.61 28
Abstract As the need for technology to quickly summarize important portions of large text volumes increases, document summaries are an ongoing area of study. As the deep-running models have shown visible performance in machine translation recently, the study of the generated summary with deep-running has become a new trend in paper summaries. Most of these studies are done by using the sequential - to - sequence algorithm using the repair network to summarize long news articles and generate a headline for the news. However, this method generates sentences with words only within a given set of words, and the numerical values inside the text can not be summarized for numerical text that will collectively convert to ##. To compensate for this disadvantage, the study suggests that the text s numerical values are copied and used in the summary. Copy method uses original sequence encoder output, and additional tag information with morpheme analysis was used to help the model recognize the context of numerical, unique nouns, and so on. As a result, the copy methodology has successfully summarized numerical data that the existing Se q q Seq model failed to summary.the proposed model that contains the tag information can be summarized better for the encoders : the encoders that will be added with the tag information. Keywords: Numerical Text, Abstractive Summarization, Sequence to Sequence Learning, Copy Mechanism Student Number: 2016-21110 29