ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 22, No. 1, pp. 50-55, 2016. 1 http://dx.doi.org/10.5626/ktcp.2016.22.1.50 구문의미이해기반의 VOC 요약및분류 (VOC Summarization and Classification based on Sentence Understanding) 김문종 이재안 한규열 안영민 (Moonjong Kim) (Jaean Lee) (Kyouyeol Han) (Youngmin Ahn) 요약 VOC(Voice of Customer) 는기업의제품또는서비스에대한고객의의견이나요구를파악할수있는중요한데이터이다. 그러나 VOC 데이터는대화체의특징으로인해내용의분절이나중복이다수존재할뿐아니라다양한내용의대화가포함되어유형을파악하는데어려움이있다. 본논문에서는, 문서에서중요한의미를갖는키워드와품사, 형태소등을언어자원으로선정하였고, 이를바탕으로문장의구조및의미를이해하기위한 LSP(Lexico-Semantic-Pattern, 어휘의미패턴 ) 를정의하여구문의미이해기반의주요문장을요약문으로추출하였다. 요약문을생성함에있어분절된문장을연결하고중복된의미를갖는문장을줄이는방법을제안하였다. 또한카테고리별로어휘의미패턴을정의하고어휘의미패턴에매칭된주요문장이속한카테고리를기반으로문서를분류하였다. 실험에서는 VOC 데이터를대상으로문서를분류하고요약문을생성하여기존의방법들과비교하였다. 키워드 : 요약, 문서분류, 구문분석, 구문의미이해, VOC Abstract To attain an understanding of customers' opinions or demands regarding a companies products or service, it is important to consider VOC (Voice of Customer) data; however, it is difficult to understand contexts from VOC because segmented and duplicate sentences and a variety of dialog contexts. In this article, POS (part of speech) and morphemes were selected as language resources due to their semantic importance regarding documents, and based on these, we defined an LSP (Lexico- Semantic-Pattern) to understand the structure and semantics of the sentences and extracted summary by key sentences; furthermore the LSP was introduced to connect the segmented sentences and remove any contextual repetition. We also defined the LSP by categories and classified the documents based on those categories that comprise the main sentences matched by LSP. In the experiment, we classified the VOC-data documents for the creation of a summarization before comparing the result with the previous methodologies. Keywords: summarization, text classification, sentence analysis, sentence understanding, VOC 이논문은 2015년도 ( 주 ) 알티베이스의지원을받아수행된연구임 (R0190-15- 2016, (1세부) 분산환경인메모리기술기반의복합형고속스트림빅데이터처리기술개발 ) 이논문은 2015 한국컴퓨터종합학술대회에서 구문의미이해기반의 VOC 요약시스템 의제목으로발표된논문을확장한것임 정회원 : 와이즈넛성장기술본부 penbell@wisenut.co.kr sept102@wisenut.co.kr maniac@wisenut.co.kr(wisenut) (Corresponding author 임 ) 비회원 : 와이즈넛성장기술본부 jalee@wisenut.co.kr 논문접수 : 2015년 9월 11일 (Received 11 September 2015) 논문수정 : 2015년 10월 27일 (Revised 27 October 2015) 심사완료 : 2015년 11월 10일 (Accepted 10 November 2015) CopyrightC2016 한국정보과학회ː 개인목적이나교육목적인경우, 이저작물의전체또는일부에대한복사본혹은디지털사본의제작을허가합니다. 이때, 사본은상업적수단으로사용할수없으며첫페이지에본문구와출처를반드시명시해야합니다. 이외의목적으로복제, 배포, 출판, 전송등모든유형의사용행위를하는경우에대하여는사전에허가를얻고비용을지불해야합니다. 정보과학회컴퓨팅의실제논문지제22권제1호 (2016. 1)
구문의미이해기반의 VOC 요약및분류 51 1. 서론 VOC는기업이제공하는제품또는서비스에대한고객의각종문의, 불만, 제안등의피드백을포함한데이터를말한다. 기업은이러한데이터로부터고객의요구를파악하고반영함으로써고객의불만을해소할수있으며장기적인관점에서기업의경쟁력강화를기대할수있다. 이에따라기업은상담데이터를축적하고그내용을파악하여고객의요구를해소하길원했으나대화체의특징으로인해문장의구분이어렵고대화의분절이생기거나중복된의미가자주등장하여그내용을파악하기어려운점이있었다. 또한기업의서비스가늘어날수록고객의상담유형이다양해질뿐아니라, 상담내용이여러의미를내포하는경우도존재하기때문에기업이원하는 VOC 데이터를선정하기에더욱어려운점이있었다. 본논문에서는 VOC 데이터의특징으로발생하는분석의어려움을해결하기위해중요한의미를갖는문장을추출하여요약하고, 이를기반으로 VOC의카테고리를분류하는시스템을구축하였다. 이를위해 VOC 데이터의특징을잘표현하는키워드들을선별하고, 선별된키워드가포함된구문의의미를분석하기위한어휘의미패턴을구축하여의미기반의주요문장을추출하였다. 선정된주요문장을요약하는과정에서는구문의미분석을통해분절된문장을연결하고중복된의미를갖는문장들을줄이는방법을고안하였다. 분류의단계에서는각문서의주요문장이포함하는어휘들이갖는의미가가장높은확률로해당되는카테고리로 VOC 분류를수행하였다. 2. 관련연구문서요약의전통적인접근법은기존의문장들중에서중요하다고판단되는문장을추출하는방법이다. 주로문장에존재하는고빈도키워드와같이통계정보를이용하여주요문장을추출하였다. Bazilay와 Elhadad[1] 는단어간의의미적거리를워드넷의분류체계를통해계산하고, 문장이갖는단어로부터생성되는어휘체인 (lexical chain) 의강도에따라주요문장을추출하여요약문을생성하였다. TextRank[2] 는문서에서나타나는각각의단어들사이의동시출현성을이용하는방법으로요약문을생성하였다. 담화이론 (discourse theory) 에따른연구 [3] 에서는수사구조분석을통해담화트리 (discourse tree) 를생성하여중요도가높은구 / 문장을요약문으로제시하였다. 문서분류에관한기존접근법은단어나문장이비슷한유형으로분류하는방법이다. 규칙기반방법으로는단락에가중치를부여하고키워드지지도를계산하여문서를분류하는연구등키워드를활용하는연구가진행되었다. 기계학습기반방법으로는 knn[4] 그리고 SVM[5] 등문서에대한학습모델을만들어문서를분류하는연구가진행되었다. 기계학습방법은주로특정단어나모델에대한통계나유사도기반으로문서를분류하는방법이다. 최근에는언어모델을구축 [6] 하여문서를분류하는방법들이연구되었다. 이러한방법은각단어나문장들의관계를통해문서의카테고리를결정하지만구문이가지는의미를파악하기에는여전히어려움이있었다. 그림 1 VOC 요약및분류과정 Fig. 1 Process of VOC summarization and classification
52 정보과학회컴퓨팅의실제논문지제 22 권제 1 호 (2016. 1) 3. VOC 요약및분류시스템본장에서는제안한 VOC 데이터의요약및분류시스템과이를위한언어자원을구축하는과정을설명한다. 그림 1은 VOC의요약및분류의과정을나타낸다. 3.1 언어자원구축컴퓨터가문서의주요내용을파악하고요약하기위해서는언어자원이반드시필요하다. 문장에는의미를가지는형태소및해당형태소의품사등의문법정보가내포되어있는데, 문장의주된의미를나타내는요소를판단하기위해서는조사나부사, 어미등이중요한정보가된다. 예를들어, 그림 2에서 속도가조금느려요 라는문장에는 속도, 느려요 와같이문장의주된의미를나타내는요소와 가 와같은명사의격을표현하는조사, 조금 과같이용언을수식하는부사가부가적인요소로포함되어있다. 본논문에서는, 언어자원구축을위해서이러한요소들을의미자질로구축하고어휘의미패턴의구성요소로활용하였다. 그림 2 의미자질추출과어휘의미패턴구축 Fig. 2 Feature extraction and LSP building 3.2 문장판별및분리상담데이터는고객과상담사의대화를담은정보로서여러문장이이어져등장하는경우가빈번할뿐아니라, 기계적인방법으로음성이텍스트로변환된문서는구두점이생략되는문제가발생한다. 어휘의미패턴은고유한의미에대해구문유형을정의한문법이다. 어휘의미패턴을통해구문을바르게분석하기위해서, 각구문이하나의의미를갖도록문장의범위를인식할필요가있다. 문장은기호, 어휘, 형태소, 품사등을이용하여다양한형태로분리될수있다. 예를들어, -니까, -구요 와같은어휘나구두점, 종결어미는한문장이끝 났음을의미한다. 본논문에서는이러한요소를문장분리를위한규칙사전으로구축하고문장을분리하였다. 분리된문장은요약문을만들때필요한문장만을효율적으로추출할수있는장점이있다. 그림 3은문장을분리규칙을이용하여문장을분리하는예이다. 3.3 의미분석을통한요약 3.3.1 주요문장추출하나의어휘의미패턴을구축하게되면같은의미를가진여러문형을분석하게된다. 중요한의미를가지는문형들에대한언어자원을구축하고새로운문장의의미여부를판단하여주요문장으로선정하였다. 하지만이문장들을요약문으로만들기에는부족한점이있다. 왜냐하면상담데이터는고객과상담사의대화로인해문장이분절되어중요한의미를갖는문장을추출하지못하거나같은의미가중복되어등장하는복잡한요약문이생성될수있기때문이다. 따라서추출한문장의의미를이해하여의미의연속성을갖는문장을결합하고의미가중복되는문장을제외하는과정이필요하다. 3.3.2 문장결합문장결합은연속되는문장이결합요소를가질때두문장을결합하는방법이다. 한사람의대화가상대방의대답으로인해분절되었을경우대화를결합하면의미를갖는하나의문장을형성할수있다. 문장을결합하기위해서는특정한의미자질이연속하여하나의의미패턴을형성해야한다. 두문장이하나의어휘의미패턴으로묶이면이문장을결합하여요약문으로추출한다. 문장을결합하는과정에서상대방의대답으로인한문장은결합요소에서제외된다. 그림 4의예는특정한의미자질로어휘의미패턴을구성하여두문장을결합하는과정으로, 티비가요 와 잘안나와요 라는문장이결합되어의미를갖는문장으로요약하는것을보여주고있다. 그림 4 문장결합 Fig. 4 Context connection 그림 3 문장판별및분리예 Fig. 3 Example of sentence detection and tokenization 3.3.3 중복의미문장제거중복의미문장제거는같은의미를갖는구문이연속해서등장할때, 중복된의미의문장을제거하는방법이다. 연속으로추출된문장이동일한카테고리에속할
구문의미이해기반의 VOC 요약및분류 53 그림 5 중복의미문장제거 Fig. 5 Removal of contextaul repetition 경우에는중복된의미를갖는다고판단하여처음문장을요약문으로추출한다. 이는같은의미를갖는문장이중복되지않게요약문을생성하여분석된내용을쉽고빠르게파악하도록하기위함이다. 그림 5는상담데이터의중복되는문장을제거하여요약문으로추출하는방법을나타내고있다. 3.4 구문의미이해기반의문서분류 3.4.1 카테고리별어휘의미패턴구축추출한주요문장들이포함되는카테고리를결정하기위해서는특정카테고리로인식될수있는별도의어휘의미패턴정의가필요하다. 본논문에서는 VOC 데이터의분류체계에따른각카테고리의고유한특징을나타내는의미자질을선정하고, 문서분류를위한어휘의미패턴을구축하였다. 그림 6은 VOC 데이터가포함하는의미자질과그의미자질을사용하여정의하는어휘의미패턴의예이다. 속도가조금느려요 와같은문장의유형은 데이터서비스 의 다운로드불가 카테고리에속하도록어휘의미패턴을정의한다. 각기다르기때문에문장에서의미를가장많이내포하는어휘의미패턴이속한카테고리를선정하였다. 하지만상담데이터는상담원과고객의다양한대화가존재하기때문에, 추출한문장들이여러카테고리에속하고이를확률적으로가장높은카테고리로문서를분류하는작업이필요하다. 3.4.3 문서분류상담데이터의카테고리분류를위해서, 주요문장이속한카테고리의 N-Best 정보로문서의카테고리를결정하였다. 요약문으로추출된문장을활용하여문서의카테고리를정하면상담데이터의중요하지않은부분은제외하고주요문장을중심으로카테고리를결정할수있다. 그림 7은상담데이터로부터구문분석을통해주요문장을추출하고카테고리의 N-Best를계산하여문서를분류하는과정을나타낸다. 그림 7에서는, 고객이 다운로드불가 에대해서언급했지만구문의의미를분석하여 WIFI존인증실패 로문서를분류하였다 그림 7 상담데이터분류알고리즘 Fig. 7 VOC classification algorithm 4. 실험및평가 그림 6 카테고리별어휘의미패턴정의 Fig. 6 LSP construction by category 3.4.2 주요문장카테고리분류카테고리별로구축한어휘의미패턴을통해문서에서주요문장을추출하였다. 한문장이다수의어휘의미패턴을통해추출되었을경우, 문장은여러카테고리를가지게된다. 추출한문장에서의미를가지는범위가 실험에서는 VOC 요약과분류에대해서언어자원을구축하고실험환경을구성하여실험한결과를기존의방법론과비교하여평가한다. 4.1 실험환경및데이터구축실험을위해고객과상담사의실제대화를담은 VOC 데이터를수집하였다. 수집한데이터에서같은의미범주에속하는문서들로카테고리를정의하였다. 전체 VOC 데이터중 60% 로카테고리별언어자원을구축하고언어자원을구축하는데사용하지않은 40% 의 VOC 데이터중 200개를무작위로추출하여제안한시스템으로요약문과문서분류를수행하였다. 사람은문서를요약할때자신이중요하다고판단되는문장을요약문으로
54 정보과학회컴퓨팅의실제논문지제 22 권제 1 호 (2016. 1) 추출하기때문에요약문에대해정답셋을미리구축하기가어렵다. 요약문성능평가를위해서생성된요약문을임의의평가자를대상으로중요하다고판단되는상위 15개의문장을정답문장으로선정하여 F1-Measure 방법으로그값을계산하였다. Fβ-Measure는식 (1) 과같이정의된다. F B pr ecision recall B Precision recall (1) Precision of D i The count of correct sentenses of D (2) The count of extracted sentenses f r om D The count of correct sentences of D Recall of D i Total count of sentences in D (3) 식 (2) 와식 (3) 에서 D i 는 VOC 한문서를의미하며, 전체문서에대해서평가자가선정한문장을기준으로정확률과재현율을계산하였다. 요약의최종성능평가는각문서의 F 1-Measure의평균값으로비교하였다. 문서분류의성능평가를위해 VOC 문서로부터카테고리를분류하였다. knn과 SVM 방법은키워드기반의통계적방법으로문서분류에대한학습을하였고제안한방법에서는구문에서중요한의미를가지는의미자질을추출하여문서분류시스템을구축하였다. 문서분류의성능평가를위해서미리정의된정답셋과비교하여 F 1-Measure 방법으로그값을계산하였다. 그림 8 실험평가데이터사례 Fig. 8 Example for experiment evaluation Precision of C i The count of correctly classified D c in C The count of D c classified as C (4) The count of correctly classi fied D c in C Recall of C i Total count of D c classified as C (5) 식 (4) 와식 (5) 에서 C i 는문서가분류된카테고리를의미하며 D t 는분류한모든문서를나타낸다. 문서분류는모든카테고리를기준으로각분류의 F 1-Measure 의평균값으로비교하였다. 그림 8은실험평가의데이터사례이다. 그림 8의 [O], [X] 는임의의평가자가선정한정답이고 V 로표시한문장은제안한방법의분석결과이다. 그림 8의정답셋을기준으로분석결과를비교하여요약및분류의정확률과재현률을계산하였다. 4.2 평가요약문의성능평가를위해두가지기존방법론과비교하였다. 첫번째는 TF-ISF[7,8] 알고리즘을이용한방법이고, 두번째는 TextRank 방법이다. 그림 9는 F1- Measure로요약문에대한성능을평가한결과이다. 그림 9 요약문평가결과 Fig. 9 Results of evaluation for summary 요약실험에서는, 그림 9에서알수있듯이제안한요약방법이 TF-ISF와 TextRank 방법에비해모든평가자에대해서높은성능을보였다. TF-ISF의방법은키워드를기반으로주요문장을추출하였기때문에같은의미를갖는문장이요약문으로생성되어 precision 이떨어졌다. TextRank 방법은단어와문장을적합하게사용하여 TF-ISF보다높은값을가졌지만이두가지방법은구문구조를반영하지못하기때문에요약문의 precision 측면에서제안한방법보다떨어졌다. 분류에대한성능평가를위해기계학습기반인두가지기존방법론과비교하였다. 첫번째는 knn 알고리즘을이용한방법이고, 두번째는 SVM을이용한방법이다. 그림 10은 VOC 분류의성능을 F 1-Measure로계산하여성능을비교한결과이다.
구문의미이해기반의 VOC 요약및분류 55 그림 10 VOC 분류평가결과 Fig. 10 Results of evaluation for VOC classification 분류실험에서는, 그림 10에서알수있듯이제안한방법이기존의 knn과 SVM 방법보다높은성능을보였다. 기계학습방법은문서에대한모델을학습하는방법이기때문에뉴스기사나논평처럼카테고리가잘분류될수있는문서와다르게 VOC와같이다양한대화를담고있는문서에서는분류성능이떨어지게된다. 반면, 제안한방법에서는의미자질을구축하고구문구조를반영하여주요문장을추출하였고, 구문의의미가가장높은확률을가지는카테고리로문서를분류했기때문에높은성능을보였다. 5. 결론및향후연구과제 본논문에서는문서요약을하는데있어구문의미분석이기반이되었기때문에중요한의미를갖는문장만을추출하였다. 분류에있어 VOC는고객이상담사와대화를진행하면서필요한내용을다양하게서술하기때문에구문의의미를파악하여분석하는제안된방법이 Bag of words 에기반한통계방법론들보다더높은성능을가질수있었다. 향후에는데이터도메인에따른언어자원을구축하고핵심이되는키워드나구문의중요성에따라 VOC 요약과분류의성능을높이는방안에대해연구하고자한다. References [1] R. Barzilay and M. Elhadad, "Using Lexical Chains for Text Summarization," Proc. of the TIPSTER Text Phase III Workshop, 1998. [2] Rada Mihalcea and Paul Tarau, "TextRank: Bringing Order into Texts," Proc. of the Conference on Empirical Methods in Natural Language Processing, pp. 404-411, 2004. [3] J. WoonChul, "Automatic Text Summarization with Two Step Sentence Extraction," KIISE, 2004. [4] L. JaeMoon, "An Improvement Of Efficiency For knn By Using A Heuristic," Proc. of KIPS, 2003. [5] T. Joachims, "Text Categorization with Support Vector Machines: Learning with Many Relevant Features," Proc. of ECML, pp. 137-142, 1998. [6] Y. Yang and X. Liu, "A re-examination of text categorization methods," Proc. of SIGIR-99, 1999. [7] H. KyouYeol, K. MoonJong and A. YoungMin, "The method for related keyword extraction using normalized keyword weight," KIISE, 2014. [8] Joel Larocca Neto, Alexandre D. Santos, Celso A.A. Kaestner and Alex A. Freitas, "Document Clustering and Text Summarization," Postgraduate Program in Applied Computer Science, 2000. 김문종 2009 년성결대학교정보통신공학학사 2013 년서강대학교컴퓨터공학부석사 2013 년 ~ 현재 ( 주 ) 와이즈넛성장기술본부대리. 관심분야는기계학습, 텍스트마이닝, 추천시스템. 이재안 2007 년경일대학교컴퓨터공학전공학사 2009 년경북대학교컴퓨터공학부석사 2010 년 ~ 현재 ( 주 ) 와이즈넛성장기술본부과장. 관심분야는기계학습, 데이터분석빅데이터처리 한규열 2007년충북대학교전기전자및컴퓨터공학학사. 2009년충북대학교컴퓨터공학부석사. 2009년~현재 ( 주 ) 와이즈넛성장기술본부과장. 관심분야는자연언어처리, 기계학습, 텍스트마이닝 안영민 2000년충북대학교컴퓨터공학과학사 2002년충북대학교컴퓨터공학과석사 2008년충북대학교컴퓨터공학과박사 2008년~현재 ( 주 ) 와이즈넛성장기술본부부장. 관심분야는자연어처리, 빅데이터, 기계학습