Similar documents
KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

자연언어처리

Naver.NLP.Workshop.SRL.Sogang_Alzzam

제5장 형태소분석

2015 년도 제 27 회한글및한국어정보처리학술대회 위원회 Ÿ 대회장 : 김재훈 ( 한국해양대 ) Ÿ 조직위원장 : 이상곤 ( 전주대 ) Ÿ 조직위원 (34 명 ) : 강승식 ( 국민대 ) 강현규 ( 건국대 ) 권혁철 ( 부산대 ) 김경선 ( 다이퀘스트 ) 김덕봉 (

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

04 Çмú_±â¼ú±â»ç

슬라이드 1

2016 학년도대학별논술고사일정 대학명 논술고사시행일 가톨릭대 [ 일반 ] 10 월 11 일 ( 일 ) / [ 의예 ] 11 월 15 일 ( 일 ) 건국대 [ 인문 ] 10 월 9 일 ( 금 ) / [ 자연 ] 10 월 10 일 ( 토 ) 경기대 10 월 18 일 (

08학술프로그램

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

OCW_C언어 기초

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

PowerPoint 프레젠테이션

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

Chap 6: Graphs

RNN & NLP Application

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

PowerPoint Presentation

실험 5

2017 년 6 월한국소프트웨어감정평가학회논문지제 13 권제 1 호 Abstract

R을 이용한 텍스트 감정분석


<B3EDB9AEC0DBBCBAB9FD2E687770>

국어 순화의 역사와 전망

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

소성해석

설계란 무엇인가?

Microsoft Word - PLC제어응용-2차시.doc

Chap 6: Graphs

PowerPoint 프레젠테이션

DIY 챗봇 - LangCon

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

슬라이드 1

웹 기반 네트워크 모니터링 및 분석 시스템의 설계와 구현

Microsoft PowerPoint - 26.pptx

adfasdfasfdasfasfadf

03_queue

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

열거형 교차형 전개형 상승형 외주형 회전형 도해패턴 계층형 구분형 확산형 합류형 대비형 상관형 (C) 2010, BENESO All Rights Reserved 2

chap 5: Trees

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CBED0C3E0C7C1B7CEB1D7B7A55C D616E2E637070>

Microsoft PowerPoint - chap05-제어문.pptx

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

유의사항 Information marking example 1 3 4

Microsoft PowerPoint Relations.pptx

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

2002년 2학기 자료구조

김기남_ATDC2016_160620_[키노트].key

컴파일러

패션 전문가 293명 대상 앙케트+전문기자단 선정 Fashionbiz CEO Managing Director Creative Director Independent Designer

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

MySQL-.. 1

chap x: G입력

PowerPoint 프레젠테이션

에듀데이터_자료집_완성본.hwp


<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

Chap 6: Graphs

03-서연옥.hwp

정보기술응용학회 발표

2015 개정교육과정에따른정보과평가기준개발연구 연구책임자 공동연구자 연구협력관

1)2) 1

PowerPoint Template

나하나로 5호



PowerPoint 프레젠테이션

Microsoft PowerPoint 웹 연동 기술.pptx

1_12-53(김동희)_.hwp

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

Microsoft Word - logic2005.doc

금오공대 컴퓨터공학전공 강의자료

Microsoft PowerPoint - chap06-1Array.ppt

2 Journal of Disaster Prevention

2013 년 Maker's Mark Academy 추석 Program 2013 ~ 2014 년 ACT Test 일정 2013/09/ /10/ /12/ /04/ /6/14 9 월 21 일 ACT 대비추석특강반 ( 이이화 / Jo

08( ) CPLV15-64.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 3강 역함수의 미분과 로피탈의 정리

MVVM 패턴의 이해

DBPIA-NURIMEDIA

ePapyrus PDF Document

제 12강 함수수열의 평등수렴

C# Programming Guide - Types

강의 개요

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

C++ Programming

¼øâÁö¿ª°úÇÐÀÚ¿ø

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

PowerPoint 프레젠테이션

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

DBPIA-NURIMEDIA

Transcription:

ISSN 2005-3053 2013 년도 제 25 회한글및한국어정보처리학술대회 한글및 한국어정보처리 일시 : 2013 년 10 월 11 일 ( 금 ) ~ 12 일 ( 토 ) 장소 : 국민대학교경상관 n 주최 : 한국정보과학회, 한국인지과학회 n 주관 : 한국정보과학회언어공학연구회, 국민대학교공개소프트웨어연구소 n 후원 : 한국전자통신연구원, KISTI, ( 주 ) 다음소프트, SK 플래닛, 네이버, 국민대학교, ( 주 ) 나라인포테크, 유니닥스 ( 주 )

ISSN 2005-3053 2013 년도 제 25 회한글및한국어정보처리학술대회 한글및 한국어정보처리 일시 : 2013 년 10 월 11 일 ( 금 ) ~ 12 일 ( 토 ) 장소 : 국민대학교경상관 n 주최 : 한국정보과학회, 한국인지과학회 n 주관 : 한국정보과학회언어공학연구회, 국민대학교공개소프트웨어연구소 n 후원 : 한국전자통신연구원, KISTI, ( 주 ) 다음소프트, SK 플래닛, 네이버, 국민대학교, ( 주 ) 나라인포테크, 유니닥스 ( 주 )

위원회 Ÿ 조직위원장 : 강승식 ( 국민대 ) Ÿ 조직위원 : 권혁철 ( 부산대 ), 김경선 ( 다이퀘스트 ), 김덕봉 ( 성공회대 ), 김덕준 ( 윕스 ), 김성묵 (SK텔레콤), 김영길 (ETRI), 김영섬 ( 코난테크놀로지 ), 나동열 ( 연세대 ), 박동인 (KISTI), 박상규 (ETRI), 박세영 ( 경북대 ), 박종철 (KAIST), 성열원 (SK텔레콤), 심광섭 ( 성신여대 ), 안동언 ( 전북대 ), 옥철영 ( 울산대 ), 윤준태 ( 다음소프트 ), 이근배 (POSTECH), 이민행 ( 연세대 ), 이용석 ( 전북대 ), 이재성 ( 충북대 ), 이하규 ( 성공회대 ), 이호석 ( 호서대 ), 임해창 ( 고려대 ), 임희석 ( 고려대 ), 장두성 (KT), 최재웅 ( 고려대 ), 황규백 ( 숭실대 ) Ÿ 학술위원장 : 남기춘 ( 고려대 ), 이재원 ( 성신여대 ) Ÿ 학술위원 : 강현규 ( 건국대 ), 고영중 ( 동아대 ), 김나리 ( 코난테크놀로지 ), 김병창 ( 대구가톨릭대 ), 김성동 ( 한성대 ), 김유섭 ( 한림대 ), 김재훈 ( 해양대 ), 김판구 ( 조선대 ), 김학수 ( 강원대 ), 김현기 (ETRI), 문유진 ( 호남대 ), 박성배 ( 경북대 ), 박소영 ( 상명대 ), 양단희 ( 평택대 ), 여상화 ( 경인여대 ), 윤보현 ( 목원대 ), 윤성희 ( 상명대 ), 이경순 ( 전북대 ), 이공주 ( 충남대 ), 이도길 ( 고려대 ), 이상곤 ( 전주대 ), 이승우 (KISTI), 이창기 ( 강원대 ), 이현아 ( 금오공대 ), 장명길 (ETRI), 정한민 (KISTI), 차정원 ( 창원대 ), 최성필 (KISTI), 최시영 ( 싸이브레인연구소 ), 최호섭 ( 국립현대미술관 ), 황영숙 (SK 플래닛 ),

후원기관 : 한국전자통신연구원, KISTI, ( 주 ) 다음소프트, SK 플래닛, 네이버, 국민대학교, ( 주 ) 나라인포테크, 유니닥스 ( 주 )

초대의말씀 한글및한국어정보처리학술대회는 1989년 10월에제1회학술대회를시작으로매년한글날전후에개최하였는데지난 25년동안한해도거르지않고올해로 25번째학술대회를개최하게되었습니다. 언어처리기술을주요내용으로하고있는우리학술대회는자연어처리기술을기반으로기계번역과정보검색, 말뭉치구축, 시맨틱웹, 온톨로지, 대화체질의응답시스템, 텍스트마이닝, 빅데이터, SNS 분석등다양한분야로발전되어왔습니다. 미국의경우오래전부터마이크로소프트, 구글등선도적인기업들이자연어처리의중요성을인지하고언어처리그룹을구성하여차세대핵심기술로매우활발하게연구-개발을진행하고있습니다. 국내에서는대학, 연구소, 벤처기업을중심으로기계번역과정보검색솔루션을개발해왔으나, 최근에는매우많은기업체들이자연어처리기술을적용한소프트웨어를개발하고있습니다. 언어처리분야의연구, 개발이활성화됨에따라우리학술대회는 2009년부터문화체육관광부와국립국어원의후원으로 " 국어정보처리경진대회 " 를시작하면서부터 5년동안계속해서학술대회와함께경진대회를개최해왔으며, 2011년부터는한국음성학회워크샵을병행개최함으로써우리학술대회의규모가커지고시너지효과를가져오고있습니다. 이번학술대회에는 37편의논문이접수되어소정의심사과정을통하여 16편을구두발표논문으로선정하였으며, 21편의논문에대해서는전시 (poster) 발표를통해서연구가한층더발전되고여러연구자들의다양한의견을수렴할수있는기회를제공하였습니다. 바쁘신와중에서도논문모집에서부터심사에이르기까지많은수고를아끼지않으신학술위원장을비롯한학술위원님들께진심으로감사드립니다. 언어처리기술과관련된많은학자들이모여서연구및학술의교류와활발한토론이이루어지는학술대회가되기를기원합니다. 마지막으로이번행사를위하여후원해주신여러후원기관들에게진심으로감사의말씀을전합니다. 또한, 학술대회를준비하고진행을맡아주신조직위원및행사진행요원들께도이자리를빌어서고마움을전하고싶습니다. 2013 년 10 월 11 일 제 25 회한글및한국어정보처리학술대회조직위원장강승식 ( 국민대학교 ) 한국정보과학회언어공학연구회운영위원장강승식 ( 국민대학교 ) 한국인지과학회회장이성환 ( 고려대학교 )

프로그램전체일정표 10 월 11 일 ( 금요일 ) 장소 : 국민대학교경상관, 7 호관 시간 한국음성학회워크샵, 경상관 301 호 일정 국어정보처리경진대회, 7 호관 629 호 13:00 개회식 13:20 개회식 지정공모발표작품 13:30 주제발표-1 ( 주제 : 세종말뭉치형태소분석기 ) - 감성세부분류및소셜빅데이터분석기술, 14:00 김현기박사 (ETRI) 14:20 - 감성기반대화형탐색및큐레이션기술, 장두성박사 (KT) BREAK 14:40 - 감성과인지의상호작용연구, 최문기교수 ( 위덕대 ) 15:00 BREAK 15:10 주제발표 -2 15:40 - 감정상태에따른발성변이, 음향특징분석, 윤기덕박사 ( 서울대 ) 자유공모발표작품 ( 주제 : 구문분석기, 표절검사 S/W, 옛한글입력기, 유사문서분석기 ) 16:00 - 트렌드분석및마이닝검색, BREAK 윤준태박사 ( 다음소프트 ) 16:10 16:40 17:00 [ 초청강연 ] 사회 : 옥철영교수 ( 울산대 ) " 언어자원활용방안 : 구문분석코퍼스를중심으로 ", 이민행교수 ( 연세대독문과 ) "ExoBrain: 지능진화형 WiseQA", 박상규센터장 (ETRI) 17:20 패널토의 : 언어자원과빅데이터, 그리고 NLP 활용기술 17:40 (Language Resources, Big Data, and NLP Technologies) 18:00 시상식 SIG-HLT 운영위원회회의 ( 장소 : 북악정 ) ( 참석자 : 운영위원, 조직위원, 학술위원, 튜토리얼 / 패널토의연사 )

10 월 12 일 ( 토요일 ) 장소 : 국민대학교경상관 시간 일정 경상관 301 호 경상관 113 호 09:00 09:20 09:40 10:00 논문발표 1A 좌장 : 김성동교수 ( 한성대 ) 논문발표 2A 좌장 : 박혁로교수 ( 전남대 ) 10:20 10:40 포스터발표 ( 경상관 301 호입구 ) 11:00 11:20 11:40 12:00 논문발표 1B 좌장 : 이상곤교수 ( 전주대 ) 논문발표 2B 좌장 : 이창기교수 ( 강원대 ) 12:20 폐회

프로그램 10 월 11 일 ( 금 ) 한국음성학회워크샵 ( 국민대학교경상관 301호 ) 13:20 ~ 16:10 13:20 ~ 13:30 개회식 13:30 ~ 15:00 - 감성세부분류및소셜빅데이터분석기술, 김현기박사 (ETRI) - 감성기반대화형탐색및큐레이션기술, 장두성박사 (KT) - 감성과인지의상호작용연구, 최문기교수 ( 위덕대 ) 15:00 ~ 15:10 휴식 15:10 ~ 16:10 - 감정상태에따른발성변이, 음향특징분석, 윤기덕박사 ( 서울대 ) - 트렌드분석및마이닝검색, 윤준태박사 ( 다음소프트 ) 초청강연 ( 국민대학교경상관 301호 ) 16:10 ~ 18:00 사회 : 옥철영교수 ( 울산대 ) 초청강연 - 언어자원활용방안 : 구문분석코퍼스를중심으로, 이민행교수 ( 연세대독문과 ) - ExoBrain: 지능진화형 WiseQA, 박상규센터장 (ETRI) 패널토의 언어자원과빅데이터, 그리고 NLP 활용기술 (Language Resources, Big Data, and NLP Technologies) 시상식, 감사패 ( 국민대학교경상관 301호 ) 18:00 ~ 18:30 시상식 2013년국어정보처리시스템경진대회시상식 감사패 이근배 (POSTECH), 박종철 (KAIST)

10 월 12 일 ( 토 ) 구두발표 1A ( 국민대학교경상관 301 호 ) 09:00 ~ 10:20 좌장 : 김성동교수 ( 한성대 ) 09:00 ~ 09:20 09:20 ~ 09:40 09:40 ~ 10:00 10:00 ~ 10:20 래티스상의구조적분류에기반한한국어형태소분석및품사태깅 / 나승훈, 김창현, 김영길 Semi-CRF or Linear-Chain CRF? 한국어형태소분할및품사태깅을위한결합모델비교 / 나승훈, 김창현, 김영길 CRF 기반한국어형태소분할및품사태깅에서두단계복합형태소분해방법 / 나승훈, 김창현, 김영길 대화형개인비서시스템을위한하이브리드방식의개체명및문장목적동시인식기술 / 이창수, 고영중 구두발표 1B ( 국민대학교경상관 301 호 ) 11:00 ~ 12:20 좌장 : 이상곤교수 ( 전주대 ) 11:00 ~ 11:20 중간언어와단어정렬을통한이국어사전의자동추출에대한성능개선 / 권홍석, 서형원, 김재훈 11:20 ~ 11:40 준지도학습을통한세부감성분류 / 조요한, 오효정, 이충희, 김현기 11:40 ~ 12:00 바이오 - 이벤트추출을위한피쳐개발 / 이석준, 김영태, 황민국, 임수종, 나동열 12:00 ~ 12:20 질의응답시스템을위한반교사기반의정답유형분류 / 박선영, 이동현, 김용희, 류성한, 이근배 구두발표 2A ( 국민대학교경상관 113호 ) 09:00 ~ 10:20 좌장 : 박혁로교수 ( 전남대 ) 09:00 ~ 09:20 상품평가텍스트에암시된사용자관점추출 / 장경록, 이강욱, 맹성현 09:20 ~ 09:40 읽기매체의다양성과흥미도를고려한가독성측정 / 김아영, 박성배, 이상조 09:40 ~ 10:00 토픽모델표현에기반한모바일앱설명노이즈제거 / 윤희근, 김솔, 박성배 10:00 ~ 10:20 Latent Structural SVM을확장한결합학습모델 / 이창기 구두발표 2B ( 국민대학교경상관 113호 ) 11:00 ~ 12:20 좌장 : 이창기교수 ( 강원대 ) 11:00 ~ 11:20 토픽모델을이용한수학식검색결과재랭킹 / 양선, 고영중 11:20 ~ 11:40 개체명인식을위한개체명사전자동구축 / 전원표, 송영길, 최맹식, 김학수 11:40 ~ 12:00 한국어의존파싱을이용한트리플관계추출 / 곽수정, 김보겸, 이재성 12:00 ~ 12:20 P 언어를이용한한글프로그래밍 / 최시영

포스터발표 ( 국민대학교경상관 301 호입구 ) 10:20 ~ 11:00 P01 P02 P03 P04 영한기계번역시스템의개선을지원하는영어구문규칙관리도구 / 김성동, 김창희, 김태완 음식메뉴개체명인식을위한음식메뉴사전자동구축방법 / 구영현, 유성준 주식관련기사분류및긍정부정판단을통한종목추천시스템 / 이유준, 박정우, 전민재, 최준수, 한광수 학생답안정보를활용한반자동정답템플릿구축도구 / 장은서, 강승식 P05 P06 P07 P08 P09 P10 P11 P12 P13 P14 P15 P16 P17 P18 P19 P20 P21 상품평분석을통한상품평가요약시스템 / 김제상, 정군영, 권인호, 이현아 LDA 를이용한트윗유저의연령대, 성별, 지역분석 / 이호경, 천주룡, 송남훈, 고영중 문장길이축소를이용한구번역테이블용어추출성능향상 / 정선이, 이공주 빅데이터기반의오피니언마이닝을이용한기업가치평가시스템개발 / 이정태, 천민아, 임상우, 전병석, 김재훈, 한영우 CopyCheck : 한글문서표절검사시스템 / 박소영, 장은서, 권도형, 강승식 연관어휘추출을통한질의어관련이슈탐지 / 김제상, 김동성, 조효근, 이현아 CRFs 를이용한의존구조구문레이블링 / 정석원, 최맹식, 김학수 음절 ngram 기반의미등록어휘추정기구현 / 신준수 한국어부분언어에대한문법정의및 GLR 파싱 / 김지현, 정병채, 이재성 등급재현율 : 이중언어사전구축에대한평가방법 / 서형원, 김재훈 한국어품사및동형이의어태깅을위한마르코프모델과은닉마르코프모델의비교 / 신준철, 옥철영 Y-HisOnto: Q&A 시스템에서의활용을위한역사온톨로지모형 / 이인근, 정재은, 황도삼 블로그포스트의자동분류시스템 / 김수아, 조희선, 이현아 코사인유사도기법을이용한뉴스추천시스템 / 김상모, 김형준, 한인규 어휘지도 (UWordMap) 를이용한용언의다의어처리 / 배영준, 옥철영 모바일기기에서일정관리를위한개체명인식 / 장은서, 강승식, 이재원, 김도현 접속부사의사용에따른설득과보도의대응분석 / 김혜영, 강범모

목차 l 구두발표 1A( 국민대학교경상관 301 호 ) 래티스상의구조적분류에기반한한국어형태소분석및품사태깅 - 나승훈, 김창현, 김영길 Semi-CRF or Linear-Chain CRF? 한국어형태소분할및품사태깅을위한결합모델비교 - 나승훈, 김창현, 김영길 CRF 기반한국어형태소분할및품사태깅에서두단계복합형태소분해방법 - 나승훈, 김창현, 김영길대화형개인비서시스템을위한하이브리드방식의개체명및문장목적동시인식기술 - 이창수, 고영중 l 구두발표 1B( 국민대학교경상관 301 호 ) 중간언어와단어정렬을통한이국어사전의자동추출에대한성능개선 - 권홍석, 서형원, 김재훈준지도학습을통한세부감성분류 - 조요한, 오효정, 이충희, 김현기바이오 - 이벤트추출을위한피쳐개발 - 이석준, 김영태, 황민국, 임수종, 나동열질의응답시스템을위한반교사기반의정답유형분류 - 박선영, 이동현, 김용희, 류성한, 이근배 l 구두발표 2A( 국민대학교경상관 113 호 ) 상품평가텍스트에암시된사용자관점추출 - 장경록, 이강욱, 맹성현읽기매체의다양성과흥미도를고려한가독성측정 - 김아영, 박성배, 이상조토픽모델표현에기반한모바일앱설명노이즈제거 - 윤희근, 김솔, 박성배 Latent Structural SVM 을확장한결합학습모델 - 이창기 l 구두발표 2B( 국민대학교경상관 113 호 ) 토픽모델을이용한수학식검색결과재랭킹 - 양선, 고영중개체명인식을위한개체명사전자동구축 - 전원표, 송영길, 최맹식, 김학수한국어의존파싱을이용한트리플관계추출 - 곽수정, 김보겸, 이재성 P 언어를이용한한글프로그래밍 - 최시영

l 포스터발표 ( 국민대학교경상관 301 호입구 ) 영한기계번역시스템의개선을지원하는영어구문규칙관리도구 - 김성동, 김창희, 김태완음식메뉴개체명인식을위한음식메뉴사전자동구축방법 - 구영현, 유성준주식관련기사분류및긍정부정판단을통한종목추천시스템 - 이유준, 박정우, 전민재, 최준수, 한광수학생답안정보를활용한반자동정답템플릿구축도구 - 장은서, 강승식상품평분석을통한상품평가요약시스템 - 김제상, 정군영, 권인호, 이현아 LDA 를이용한트윗유저의연령대, 성별, 지역분석 - 이호경, 천주룡, 송남훈, 고영중문장길이축소를이용한구번역테이블용어추출성능향상 - 정선이, 이공주빅데이터기반의오피니언마이닝을이용한기업가치평가시스템개발 - 이정태, 천민아, 임상우, 전병석, 김재훈, 한영우 CopyCheck : 한글문서표절검사시스템 - 박소영, 장은서, 권도형, 강승식연관어휘추출을통한질의어관련이슈탐지 - 김제상, 김동성, 조효근, 이현아 CRFs 를이용한의존구조구문레이블링 - 정석원, 최맹식, 김학수음절 ngram 기반의미등록어휘추정기구현 - 신준수한국어부분언어에대한문법정의및 GLR 파싱 - 김지현, 정병채, 이재성등급재현율 : 이중언어사전구축에대한평가방법 - 서형원, 김재훈한국어품사및동형이의어태깅을위한마르코프모델과은닉마르코프모델의비교 - 신준철, 옥철영 Y-HisOnto: Q&A 시스템에서의활용을위한역사온톨로지모형 - 이인근, 정재은, 황도삼블로그포스트의자동분류시스템 - 김수아, 조희선, 이현아코사인유사도기법을이용한뉴스추천시스템 - 김상모, 김형준, 한인규어휘지도 (UWordMap) 를이용한용언의다의어처리 - 배영준, 옥철영모바일기기에서일정관리를위한개체명인식 - 장은서, 강승식, 이재원, 김도현접속부사의사용에따른설득과보도의대응분석 - 김혜영, 강범모

l 래티스상의구조적분류에기반한한국어형태소분석및품사태깅 Semi-CRF or Linear-Chain CRF? 한국어형태소분할및품사태깅을위한결합모델비교 CRF 기반한국어형태소분할및품사태깅에서두단계복합형태소분해방법 대화형개인비서시스템을위한하이브리드방식의개체명및문장목적동시인식기술

래티스상의구조적분류에기반한한국어형태소분석및품사태깅 나승훈 O, 김창현, 김영길한국전자통신연구원 nash@etri.re.kr, chkim@etri.re.kr, kimyk@etri.re.kr Lattice-based discriminative approach for Korean morphological analysis and POS tagging Seung-Hoon Na O, Chang-Hyun Kim, Young-Kil Kim Natural Language Processing Laboratory Electronics and Telecommunication Research Institute 요약 본논문에서는래티스상의구조적분류에기반한한국어형태소분석및품사태깅을수행하는방법을제안한다. 제안하는방법은입력문이주어질때어휘사전을참조하여, 형태소를노드로취하고인접형태소간의에지를갖도록래티스를구성하며, 구성된래티스상가장점수가높은경로상에있는형태소들을분석결과로제시하는방법이다. 실험결과, ETRI 품사부착코퍼스에서기존의 1 차 linear-chain CRF 에기반한방법보다높은어절정확률그리고문장정확률을얻었다. 주제어 : 래티스, 구조적분류, 형태소분석, 품사태깅 1. 서론 한국어형태소분석을위한규칙기반방법 [6,7,8,9,18,20,22,23,26] 은분석에필요한규칙을수작업으로구축하기때문에, 개발비용이높고, 새로운도메인에대해적응력이떨어지는단점을지닌다. 통계기반방법은대규모품사부착말뭉치로부터형태소분할및품사태깅에필요한규칙및확률모델을자동또는반자동으로학습하는방식으로 [3,4,11,14,15,16,24,25,27], 수작업이거의필요없고, 성능이우수하며, 타도메인으로의적용성이높고, 기존의어휘사전과의하이브리드가가능하다는점등의장점으로인해, 현대의대부분의품사태깅연구가이에기반을두고있다. 그러나, 자동번역등과같은실제응용을목표로하는응용지향형태소분석기에서는어휘사전은여전히필수적인자원이다. 특히, 자동번역에서는목적언어의대역어가원시언어의어휘로부터얻어지기때문에, 어휘사전은기본적인리소스가된다. 응용지향형태소분석기에서는최종응용에서의성능을높이기위해, 오랜기간동안튜닝과정을거쳐사전의규모화가이루어진경우가많다. 이러한사전의규모화는최근웹의크기가빅데이터화되고, 개체명 (named entity) 을자동으로추출하는웹마이닝기법이지속적으로발전되고있는추세속에서더욱용이해지고있다. 반면, 응용지향형태소분석기에서는일반적으로통용되는형태소단위 (Sejong 코퍼스에서정의되는단위 ) 를사용하지않고자체적으로형태소단위를재정의하여사용하기도한다 [19]. 그런데, 이러한경우해당단위의품사부착말뭉치는규모화가이루어져있지않고소규모에그치고있기도하다. 예를들면, ETRI 의자동번역을 위해구축된품사태깅말뭉치는 10 만문장정도로, 이는 2011 년에배포된세종말뭉치의 80 만문장보다현저히적은규모이다. 본논문에서는어휘사전은규모화되어있으나학습데이터가소규모인경우, 형태소분석의정확도를높이기위해학습기반구조적분류모델 (structured classification) 을적용하는방법을제안한다. 제안하는방법은래티스기반의구조화분류방법으로, 먼저입력문으로부터어휘사전을참조하여, 사전에나타난개별형태소를노드로취하고인접형태소간에에지를구성하여, 입력문의래티스 (lattice) 를구성한다. 다음으로, 이렇게얻어진래티스상에서가장점수가높은최적의경로를찾아, 이최적경로상에있는형태소열을분석결과로제시한다. 경로의점수는구성하는에지의점수의합으로이루어지며, 각에지의점수는에지의자질벡터와자질가중치벡터의내적으로정의된다. 이때, 자질가중치벡터는학습데이터로부터구조적분류알고리즘을통해학습된다. 이러한래티스기반한국어형태소분석은기존의전통적인규칙기반방법에서활용되었던방식이나, 기존의연구는모두 HMM 의생성모델에기반을둔반면, 본논문은래티스상의구조적분류모델을적용한다는점에서기존연구와차별점이있다. ETRI 한국어품사부착코퍼스상에서실험결과제안방법은 1 차 linear-chain CRF 기반방법에비해높은성능을보여주었다. 2. 관련연구제안방법과가장유사한기존연구는일본어형태소분석을위해 CRF 를적용한연구인 [2] 이다. [2] 에서는, 본 - 3 -

연구와마찬가지로, 입력문에대해어휘사전으로부터래티스를구성하고, 래티스상의임의의경로에대한확률을입력문에대한조건부확률 (conditional probability) 로모델링하여, 가장높은확률을갖는경로를찾는문제로형태소분석문제를형식화했다. 그러나, 제안방법과기존연구 [2] 와는다음의차이가있다. 첫째, [2] 에서는가질가중치학습방법이 CRF로, 분류모델 (discriminative model) 에속하나, 제안방법은별도의조건부확률을정의하지않는 SVM과같은분류함수 (discrimiantive function) 방법에속한다. 둘째, [2] 에서는사용되는자질이에지에참여하는두노드로국한된 first-order 방식만을사용하고있으나, 제안방법은참고하는자질이에지의갯수가 2개인 second-order의자질의사용까지포함한다. 셋째, [2] 는미등록어에대한문제를남겨두었으나, 본연구에서는 linear-chain기반 CRF를이용하여미등록어를추가하는방법도함께제시한다. 본연구과밀접하게관련된다른연구로 [5] 의그래프기반의존파싱을들수있다. 제안방법과유사하게, [5] 에서는의존파싱문제를, 입력문에대해의존성을에지로하여그래프를구성하고, 해당그래프에서최적의트리 (tree) 를찾는문제로파싱문제를형식화했다. 본논문의방법은 [5] 의그래프기반의존파싱에서그래프가래티스로, 트리가경로로제한된특수한경우라고볼수있다. 그러나, 본논문은그래프기반분류방법을품사태깅문제에적용하여, [5] 의의존파싱목적과근본적인차이가있다. 저자의지식에따르면, 현재까지래티스기반구조적분류방식을한국어에적용하여성능평가를수행한연구는없었다. 3. 제안방법그림 1 은제안하는래티스상구조적분류에기반한한국어형태소분석의흐름도를보여준다. 다음절에서제안방법을보다형식적으로기술하기로한다 ( 이해를위해, [5] 의표기를주로채택한다 ). 3.1 문제정의입력문 에대해서, 래티스 는방향성그래프로, 은입력문 에서부분문자열중사전에있는모든형태소 [ 표층문자열, 품사태그 ] 를, 는인접하는모든형태소간의가중치를갖는에지 (weighted edge) 집합을의미한다. 모든래티스는 {0,1} 이라는 2 개특수노드를갖는다. 여기서, 은문장의시작을가리키는시작형태소를 1 은문장의끝을가리키는마지막형태소이다. 에지 는노드 에서노드 로의전이 (transition) 를의미한다. 입력문의래티스상의경로 (path) 는시작노드 과마지막노드 를연결하는경로로, 구성하는에지순차열 (edge sequence) 이라고볼수있다. 그림 1. 제안방법의흐름도 경로 의점수는 로표기하며, 다음과같이구성에지의점수의합으로정의된다. (1) 에서, 는래티스 의노드 에대한자질벡터 (feature vector) 를, 는자질가중치벡터 (feature weight vector) 이다. 입력문 에대해시작노드 0 과마지막노드 1 을연결하는모든가능한경로집합을 라고하자. 형태소분석문제는 중에서점수가가장높은경로를찾는것으로, 다음의최적화문제를푸는것으로귀결된다. arg 그림 1 은입력문 나는간다 에대한래티스의예를보여준다. 그림에서, BOS 와 EOS 는각각시작노드 0 와끝노드 1 를가리킨다. 기존의그래프기반의존파싱연구와유사하게, 앞의형식화는 2 차 (second-order) 자질을고려하여확장될수있다. 1 차 (first-oder) 자질은자질벡터를구성할때참조하는에지가 1 개인경우를말하며, 2 차자질은참조하는에지들이연속된두개의인접한에지인경우를일컫는다. 결국, 2 차자질은연속된세개의형태소노드로부터추출된다. 2 차자질을사용하여식 (1) 을확장하면다음과같다. 식 여기서, 로다음과같이형식화된다 - 4 -

는노드 에서추출된 2 차자질벡터이다. [5] 의그래프의존파싱에서와같이, 최종적으로 는 1 차자질의점수와통합되어사용된다. 3.2 디코딩알고리즘 식 (2) 의최적화문제는에지의점수 를 로간주할때, 그래프상의최단경로를찾는문제로 Viterbi 알고리즘을이용하여풀수있다. 그림 2은 2차자질을사용할때의최적경로를찾는 Viterbi 알고리즘의 pseudo code을보여준다. 0 while( ){ for each } max arg for each } if 의모든노드가이전에방문되었으면, 그림 2. 래티스상최적경로를찾는 Viterbi 알고리즘 (2 차자질을사용하도록확장된버전 ) 3.3 자질가중치벡터학습자질가중치벡터 를학습하기위해서, 본논문은 [1] 의 averaged perceptron 을사용한다. 그림 3 은자질가중치벡터를학습하기위한 averaged perceptron 알고리즘의 pseudo code 을보여준다. arg 그림 3. Averaged perceptron 에기반한자질가중치벡터학습알고리즘 3.4 래티스구성 (Lattice Construction) 래티스를구성할때, 일본어나중국어와달리, 한국어에서는활용 / 변이로인해표층형과사전형이달라지는문제를고려해야한다. 이른바표층형과사전형간의불일치문제를해결하기위해, 본논문에서는별도로음절매핑테이블 (syllable mapping table) 을참조하여래티스를구성한다 1). 아래, 음절매핑테이블의예들을보여준다. 했게내왔와 표층형 사전형하았거이, 것이나의, 나어오았오아 한국어에서래티스구성은다중입력문 (multiple input sentences) 으로부터각입력문의부분음절열에대해사전참조하여래티스를구성하는방식과동일하다. 다시말해, 주어진음절열에대해, 입력문내각음절마다음절매핑테이블을참조하여사전형으로치환하여새로운입력문을만들어낸다. 예를들어, 처리했다 의경우, 했 을사전형 하았 으로치환하여 처리하았다 라는새로운입력문을파생시키는것이다. 결국최종래티스는가능한모든변이입력문을모아서 N 개의다중입력문을구성한후에각각의입력문에대해서래티스를생성한후, 이렇게얻어진 N 개의래티스를병합하여얻어진다. 다중입력문의수 N 는매핑테이블을참조하여음절변이가일어나는음절의갯수에따라지수적으로증가하는데 (exponentially increasing), 이를효율적으로처리하기위해 dynamic programming 기법을사용한다. 1) 음절매핑테이블은학습코퍼스로부터대부분자동으로획 득된다. - 5 -

래티스생성단계는어휘사전에등재된형태소만을대상으로하기때문에, 미등록어문제를해결하지못한다. 미등록어처리를위해, 본논문에서는 [11] 의 linear-chain CRF 를입력문에적용하여얻어진 1-best 형태소분석결과를어휘사전에추가하였다. 3.5 자질벡터본논문에서사용하는자질은 1 차자질과 2 차자질으로나뉜다. 사용되는정보는형태소노드의표층형 (surface form), 품사 (POS tag), 해당표층형의시작음절앞또는끝음절다음에띄어쓰기가있었는지여부 (spacing information), 형태소노드의시작과끝음절이변이를통해얻어졌는지여부등이다. 사용하는자질집합을보다구체적으로기술하기위해, 먼저, 노드 i 에대한기본자질 (basic features) 을다음과같이정의하도록한다. 기본자질이름 lspace(i) rspace(i) lopen(i) ropen(i) surface(i) tag(i) length(i) surfaceext(i) 정의현재형태소시작전에띄어쓰기가 있는지여부현재형태소다음에바로띄어쓰기 가있는지여부현재형태소의시작음절이, 음절 매핑테이블을참조하여변이되었는 지여부현재형태소마지막음절이음절매 핑테이블을참조하여변이되었는지 여부현재형태소의표층문자열형태소 i의품사태그형태소 i의표층형길이 lopen(i), ropen(i) 을고려한표층문 자열 : surface(i), lopen(i), ropen(i) 의 세정보의조합으로구성된다. 여기서, lopen, ropen 의자질값의예를들기위해, 갔 으로부터 갔 => 가았 의음절매핑테이블을참조하여, 가 /VV, 았 /EP 의두가지형태소노드가만들어졌다고가정하자. 이렇게얻어진두형태소노드에대한 lopen, ropen 정보는다음과같다. 반면, 주어진형태소의시작과끝음절이모두변이가없이얻어진경우에는 lopen, ropen 값이모두 false 가된다. 1 차자질과 2 차자질은위에서정의된기본자질로부 터파생되는데, 간편한기술을위해, 다음과같은표기를정의하도록하자. 표기 Pt Ct Nt Plen Clen Pr Cr Pls Cls Pw Cw Nw Pw2 Cw2 Nw2 내용 tag(i) tag(j) tag(k) length(i)+lopen(i)+ropen(i) length(j)+lopen(j)+ropen(j) ropen(i) ropen(j) lspace(i) lspace(j) surface(i) surface(j) surface(k) surfaceext(i) surfaceext(j) surfaceext(k) 여기서 + 는여러개의자질들의조합연산자이다. 최종적으로, 1차자질과 2차자질은다음과같다. 1) 1차자질 : Ÿ CtClen, CtPlenClen, PtCtPlenClen, PtCtPr, CtPr, CtCr, CtCl, CtCr, CtClsCl, CtCrsCr, CtCw, CtCw2, PwCw, Pw2Cw, PtCtCw, PtCtCw2, PtCtCw, Pw2CtCw2, PtPwCw, Pw2CtCw2, PtPwCw, PtPw2Cw2, PtPwCt, PtPw2Ct, PtPwCtCw, PtPw2CtCtw2 Ÿ window기반지역문맥정보 (local context): 각형태소의시작과끝음절을기준으로앞뒤 3음절까지의부분음절열을지역정보로사용한다. Ÿ penality: 경로상하나의에지를취할때드는패널티로, 최장일치휴리스틱처럼, 경로의노드의수를가능한한적게 ( 또는많게 ) 하기위해서사용한다. 2) 2차자질 Ÿ PtCwNt, PwCtNt, PtCtNw, PtCtNtNw, PtCtNtCwNw, PtCtNtPwCwNw, PtCtNtCw, PtCtNtPw, PtCtNtPwCw 1 차및 2 차자질모두자질명 (feature name) 과자질값 (feature value) 으로구성되며, penalty 만제외하고나머지는모두이진값 (binary value) 를자질값으로취한다. 4. 실험결과 실험을위해 ETRI 품사부착대화체말뭉치약 10 만문장을사용한다. 이중 90% 를학습용으로나머지 10% 는테스트용으로사용하였다. 참조하는어휘사전의크기는총약 380 만엔트리로, 대부분복합명사나전문용어로구성되었다. 최종어휘사전은원래의 380 만어휘사전외에학습데이터에나타나는어휘까지추가하여구성하였다 ( 대부분은사전에포함된다 ). 제안방법을포함본실험에서평가대상으로하는형태소분석방법들은다음과같다. - 6 -

Ÿ Ÿ Ÿ 베이스라인시스템 (CRF): [11, 25] 의 linear-chain CRF에기반한방법을확장한것으로, [25] 과유사한음절태깅에기반하여형태소분할과태깅을동시에수행하는결합모델을사용하였다. 복합형태소를단위형태소로분해하기위해 [12] 의방법을사용한다. [12] 에서는복합형태소에대한기분석과기능형태소에대한기분석의두가지기분석패턴을사용하는데. 먼저, 복합형태소전체에대한기분석을적용하여분해를시도하고, 여기에나타나지않는복합형태소에대해서는기능형태소에대한기분석에참조하여분해를시도한다. 래티스기반구조화분류 (Lattice): 제안하는래티스기반구조화분류를적용한방법으로, 별도의미등록어추출없이원래의어휘사전만을이용한결과이다. 사용자질유형에따라두가지모델이얻어지는데, Lattice는 first-order자질만사용한것을, Lattice(2nd order) 는 second-order자질까지함께사용한모델을가리킨다. 래티스기반구조화분류 + 미등록어자동추출 (Lattice+unkProc): 앞에서설명한제안래티스기반구조화분류방법에더하여, 3.4절에서 CRF기반미등록어자동추출까지적용한방식을가리킨다. 표 1. 제안 lattice 기반방법의성능 0.9086 0.8649 0.5543 0.9262 0.8886 0.6322 0.9393 0.9103 0.6920 0.9407 0.9127 0.6938 표 1 은네가지방법을비교한결과이다. F-measure 는형태소단위의 F-measure 를, EA (eojeol accuracy) 는어절정확률을, SA 는문장정확률 (sentence accuracy) 을가리킨다. 표 1 에보다시피, 제안래티스기반방법은 CRF 기반방법대비세가지지표에서모두높은성능을보여주었다. 또한, 1 차자질에더해 2 차자질까지확장할때, 성능이더욱향상됨을알수있다. 미등록어자동추출을적용하여어휘사전을확장한경우, 최종성능에서증가가있었으나그차이는크지않았다. 이는어휘사전이이미충분히있어, 미등록어현상이거의발생하지않았기때문이다. 기존연구 [11] 과비교하여, 어절정확률이낮은이유는상당부분대부분복합명사분해애매성으로부터기인하는것으로보인다. 다시말해, 복합명사의경우형태소단위가코퍼스구축자의판단에의존하는데, 분석결과는다른관점에서보면올바르나, 정답은한가지경우만기술되어있어나머지들이모두오류로잡혀정확률 을감소시킨것이다. 향후, 복합명사분해에대해보다완화된평가방식을고안하여, 더욱정교하게성능을비교할필요가있다. 5. 결론 본논문은래티스기반의구조적분류에기반한한국어형태소분석및품사태깅방법을제안하였다. 실험결과, ETRI 품사부착말뭉치에대해, 제안래티스기반방법은기존의 linear-chain CRF 기반방법에비해우수한성능을보여주었다. 물론, 본실험에서사용된 linear-chain CRF 은 [11] 의특정 1 차자질셋에기반을둔것이므로, 래티스기반방법이모델적으로 ( 일반적으로 ) linear-chain CRF 보다우수하다고결론을이끌어낼수는없다. 더욱객관적인결론도출을위해서는보다다양한자질집합에서엄밀한실험을수행하여야할것이다. 향후, Sejong 코퍼스에서본논문에서제안방법의실험을확장하여, 코퍼스가대규모인경우에어떠한차이를보이는지비교해볼계획이다. 또한, 래티스구성시, 형태 / 음운론적제약과접속정보등을사용하여제안방방법에대한상세한실험을수행할것이다. 그리고, 미등록어자동추출시 CRF 결과의 1-best 결과외에 n-best 결과를함께이용하는방법도향후연구주제로서흥미로울것이다. 마지막으로, 본논문에서는자질가중치벡터를학습하기위해 averaged perceptron 을이용하였으나, SVMStruct 등의다른학습방법도활용하여비교하는것도흥미로운연구주제가될것이다. 참고문헌 [1] Collins, M. (2002). Discriminative Traning Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms. EMNLP, 1 8. [2] Kudo, T., Yamamoto, K., & Matsumoto, Y. (2004). Applying Conditional Random Fields to Japanese Morphological Analysis. EMNLP, 230 237. [3] Lee, D., & Rim, H. (2005). Probabilistic Models for Korean Morphological Analysis. IJCNLP (pp. 197 202). [4] Lee, G. G., Cha, J., & Lee, J. (2002). Syllable-Pattern-Based Unknown- Morpheme Segmentation and Estimation for Hybrid Part-of-Speech Tagging of Korean. Computational Linguistics, 28(1). [5] Mcdonald, R., Grammer, K., & Pereira, F. (2005). Online Large-Margin Training of Dependency Parsers. ACL, 91 98. [6] Shim, K., & Yang, J. (2002). MACH - A Supersonic Korean Morphological Analyzer. COLING. 939 945. [7] 강승식. (1994). 다층형태론과한국어형태소분석모델. 한글및한국어정보처리학술대회 (HCLT) 140 145. [8] 강승식, & 장병탁. (1996). 음절특성을이용한범용한국어형태소분석기및맞춤법검사기. 정보과학회 - 7 -

논문지, 23(5). [9] 강승식. (2002). " 한국어형태소분석과정보검색 ", 홍릉과학출판사. [10] 권오욱, 정유진, 김미영, 류동원, 이문기, & 이종혁. (1999). 음절단위 CYK 알고리즘에기반한형태소분석기및품사태거. MATEC `99 대회. [11] 나승훈, 양성일, 김창현, 권오욱, 김영길. (2012). CRF 에기반한한국어형태소분할및품사태깅. 한글및한국어정보처리학술대회. [12] 나승훈, 김창현, 김영길. (2013). CRF 기반한국어형태소분할및품사태깅에서두단계복합형태소분해방법. 한글및한국어정보처리학술대회. [13] 박철제, 이종혁, & 이근배. (1997). 확률접속표를이용한일본어형태소분석결과의후처리기법. 정보과학회논문지, 24(1). [14] 신준철, & 옥철영. (2012). 기분석부분어절사전을활용한한국어형태소분석기. 한국정보과학회논문지, 39(5), 415 424. [15] 심광섭. (2013). 음절단위의한국어품사태깅에서원형복원. 정보과학회논문지 : 소프트웨어및응용, 40(3), 182 189. [16] 심광섭. (2011). 형태소분석기사용을배제한음절단위의한국어품사태깅. 인지과학, 22(3), 327 345. [17] 심광섭. (2011). CRF 를이용한한국어자동띄어쓰기. 인지과학, 22(2), 217 233. [18] 심광섭, & 양재형. (2004). 인접조건검사에의한초고속한국어형태소분석. 정보과학회논문지, 31(1), 89 99. [19] 양성일, 홍문표, 김영길, 최승권. (2003). 띄어쓰기정보를이용한한국어복합형태소분석. 한국정보과학회학술발표논문집, 612 616. [20] 여상화, 김용호, 이학주, & 이정현. (1991). 다단계필터링능력을갖는형태소분석기의설계및구현. 한국정보과학회가을학술발표논문집. [21] 오진영, & 차정원. (2009). 엔트로피지도 CRF 를이용한한국어어절구문태그예측. 한국정보과학회논문지, 15(5), 395 399. [22] 이성진, 김덕봉, 서정연, 최기선, & 김길창. (1992). Two-level 모델을이용한한국어용언의형태소해석. 한국정보과학회가을학술발표논문집. [23] 이은철, & 이종혁. (1992). 계층적기호접속정보를이용한한국어형태소분석기의구현. 한글및한국어정보처리학술발표논문집 (HCLT). [24] 이재성. (2011). 한국어형태소분석을위한 3 단계확률모델. 정보과학회논문지, 38(5). [25] 이창기. (2013). Structural SVM 을이용한한국어띄어쓰기및품사태깅. 한국컴퓨터종합학술대회, 604 606. [26] 최재혁, & 이상조. (1993). 양방향최장일치법에의한한국어형태소분석기에서의사전검색횟수감소방안. 한국정보과학회논문지, 20(10). [27] 홍진표, & 차정원. (2008). 어절패턴사전을이용한새로운한국어형태소분석기. 한국컴퓨터종합학술대회논문집 (Vol. 35). - 8 -

Semi-CRF or Linear-Chain CRF? 한국어형태소분할및품사태깅을위한결합모델비교 나승훈 O, 김창현, 김영길한국전자통신연구원 nash@etri.re.kr, chkim@etri.re.kr, kimyk@etri.re.kr Semi-CRF or Linear-chain CRF? A Comparative Study of Joint Models for Korean Morphological Analysis and POS Tagging Seung-Hoon Na O, Chang-Hyun Kim, Young-Kil Kim Natural Language Processing Laboratory Electronics and Telecommunication Research Institute 요약 본논문에서는한국어형태소분할및품사태깅방법을위한결합모델로 Semi-CRF 와 Linear-chain CRF 에대한초기비교실험을수행한다. Linear-chain 방법은출력레이블을형태소분할정보와품사태그를조합함으로써결합을시도하는방식이고, Semi-CRF 는출력의구조가분할과태깅정보를동시에포함하도록표현함으로써, 디코딩과정에서분할과태깅을동시에수행하는방법이다. Sejong 품사부착말뭉치에서비교결과 Linear-chain 방법이 Semi-CRF 방법보다우수한성능을보여주었다. 주제어 : 성능비교, Semi-CRF, Linear-chain CRF, 형태소분석, 품사태깅 1. 서론 한국어형태소분석을위한통계기반방법은대규모품사부착말뭉치로부터형태소분할및품사태깅에필요한규칙및확률모델을자동또는반자동으로학습하는방식으로 [3,4,10,12,13,14,15,16,17], 수작업이거의필요없고, 성능이우수하며, 타도메인으로의적용성이높고, 기존의어휘사전과의하이브리드가가능하다는점등의장점으로인해, 현대의대부분의품사태깅연구가이에기반을두고있다. 통계기반방법중, 최근들어입력문전체에대해 CRF 나 structured SVM 등과같은기계학습방법을한국어형태소분석에적용하는연구들이제안되었다 [10, 14,15,16]. 이들연구중, [10] 에서는한국어분석을중국어의단어분할및품사태깅방법을그대로적용할수있는방법을제안했다. 이방법은실험결과 SEJONG 코퍼스에서높은효과성을보였으며, [16] 에서는음절기반결합모델로성능이더욱향상되었다. 본연구에서는형태소분할과품사태깅을동시수행하는결합모델로 linear-chain CRF [2] 와 Semi-CRF [5] 을성능평가를수행하여경험적으로비교한다. 먼저, linear-chain CRF 방식은 [16] 의음절기반결합모델로, 음절의태깅출력레이블을형태소분할정보와품사태그를조합하여구성함으로써, 결합을수행하는방식이다. Semi-CRF 는디코딩과정에서분할과태깅을동시에수행할수있는방법이다. Sejong 품사부착말뭉치에서비교결과, 기본자질집합에서, linear-chain CRF 가 Semi-CRF 보다더욱높은성능을보여주었다. 2. 관련연구최근의한국어형태소분석의연구는입력문전체에언어학적형태소분석이없이통계기반모델을수행하는방식으로연구가진행되고있다. 이들연구는표층형과사전형간의불일치문제를해소하는방법에따라다음의두가지접근법으로구분할수있다. 먼저, 표층형과사전형불일치를복합형태소 (compound morpheme) 의도입을통해해결하는방식이다 [10,16]. [10,16] 에서는순차태깅을통해, 형태소분할과태깅을수행, 입력문을단위형태소또는복합형태소로분해한다. 이후, 복합형태소는후처리단계에서기분석패턴을참조하여단위형태소로상세분해한다 [10,15]. 기분석패턴에나타나지않은미등록복합형태소를위해 [10] 은이에더나아가래티스 (lattice) 기반 HMM 방식을제안하였다. 다른접근법은 [13,14] 의음절단위의접근법이다. 이방법은 [12] 과기본적으로동일하나, 표층형과사전형간의불일치를해소하기위해복합형태소를도입하는대신, 복합음절을도입한다. 복합음절은, 두가지서로다른태그의부분음절들이표층화단계에서한음절로표현된것으로, [13,14] 은복합음절을분해하기위해, 별도의음절복원기분석사전에기반한다. 복합음절의경우에는음절단위로처리하므로, 미등록복합음절이거의발생하지않는다는장점이있어, 별도의미등록복합음절처리과정까지는제안되지는않았다. 3. 형태소분할및태깅을위한결합방법본논문에서비교하고자하는형태소분할및품사태깅의기본절차는 [10] 의다음 3 단계로이루어진형태소 - 9 -

분석과정이다. 1. 형태소분할 : 예 ) < 나, 는, 학교, 에, 갔, 다 > 2. 품사태깅 : 예 ) < 나 /NP, 는 /JX, 학교 /NNG, 에 /JKB, 갔 /VV~EP, 다 /EF> 3. 복합형태소분해 : 예 ) < 나 /NP, 는 /JX, 학교 /NNG, 에 /JKB, 가 /VV, 았 /EP, 다 /EF> 위 3 단계절차중본논문에서결합하고자하는과정은형태소분할과품사태깅의두단계이다. 다음절에 linear-chain CRF 및 Semi-CRF 에기반한두결합방법을기술한다. 3.1 Linear-chain CRF Linear-chain CRF [2] 에기반한결합모델은음절기반태깅으로, [16] 와유사하게, 분할과품사태그정보를조합하여태깅의출력레이블로사용한다. 예를들어, 입력문 학교에갔다 에대해출력레이블 <B-NNG,I-NNG, B-JKB, B-VV~EP, B-EF> 와같이출력결과를구성하는것이다. 레이블에서 B 는해당음절에서새로운형태소가시작한다는것을, I 는해당음절이이전음절의형태소단위에포함된다는것을의미한다. {B,I} 태그의의미에따라해석하면다음의분할 / 태깅열을얻는다. < 학교 /NNG, 에 /JKB, 갔 /VV~EP, 다 /EF> 여기서 갔 은복합형태소로, VV~EP 는복합태그가된다, 복합태그는 [10] 의정의에따르는데, VV~EP 는복합형태소의시작형태소의태그가 VV 이고마지막형태소의태그가 EP 를취한다는뜻이다. 복합형태소분해단계는 linear-chain CRF 및 Semi-CRF 공통으로사용하는것으로 3.4 절에서자세히설명한다. 3.2 Semi-CRF Linear-chain CRF 에서는품사태그에 {B, I} 의분할태그를덧붙여서음절의레이블집합을구성함으로써, 분할과태깅을동시에수행한다. 그러나, Semi-CRF [5] 는구조적분류를통해순차열의출력구조를분할과태깅정보를동시에내포하도록구성함으로써, 디코딩과정에서동시에분할과태깅을수행할수있도록하는방법이다. 형식적으로기술하기위해, 먼저일반적인구조적분류문제 (structured output problem) 를살펴보자. 주어진입력문 에대해분할 / 태깅결과가 라고하면, 구조적분류문제는다음과같이형식화된다. arg Semi-CRF [5] 는구조적분류문제의특수한예인데, 형식적으로, 입력 는순차열로 로기술되고. 이 때 는주어진입력의 번째단어 ( 또는음절 ) 을 은 음절열의길이로 로도표현된다. 는세그먼트열로 으로기술되는데, 각 로 는 번째 세그먼트의시작위치 (start position) 를, 는 끝위치 (end position) 를, 는레이블 (label) 을가리키며, 은세 그먼트열의길이로 로도표기된다. 예를들어, 입력문 학교에갔다 에대한세그먼트결과 = <(1,2,NNG), (3,3,JKB), (4,4,VV~EP), (5,5,EF)> 는 linear-chain CRF 의출력레이블 <B-NNG,I-NNG,B-JKB,B-VV~EP, B-EF> 에대응이된다. 3.3 Semi-CRF 와 linear-chain CRF 의관계 Semi-CRF 와 linear-chain CRF 는다음의관계를갖는다. 1. Semi-CRF 는 linear-chain CRF 를특수한경우로포함한다. 형식적으로 Semi-CRF 는 linear-chain CRF 의일반화된형태로, 각세그먼트 의최대길이를 1 로제한하면 Semi-CRf 는 linear-chain CRF 와형식적으로등가가된다. 2. 분할 / 태깅결합모델의 1 차 Linear-chain CRF 에대해, 디코딩결과가등가가되는 Semi-CRF 가존재한다. 여기서 linear-chain CRF 는 {B,I} 에기반한분할 / 태깅의결합모델로가정하고, 자질벡터를다음두가지로분류하자. 1. : 위치 의레이블 와입력문 의함수 로표현되는모든자질벡터의결합된형태. 이에대응되는자질벡터는 로기술한다. 2. : 레이블 에서 로의전이자질로 scalar 이다. 이에대응되는자질가중치는 로기술한다. 위의자질을사용하는 linear-chain CRF 와등가가되는 Semi-CRF 은다음의자질을사용한다. 1. : 시작위치 와끝위치 에대응되는품사태그 에대한자질벡터로, [ ] 로표현된다 ( 여기서 ; 은여러 개의벡터를하나의벡터로결합하는연산자이다 ). 여기서, 는태그 의시작음절을, 는태그 의중간또는끝음절을의미하는음절단위의레이블이다. 대응되는자질가중치벡터는 = [ ] 로정의한다. 2. : 세그먼트 와 의전이자질벡터로, 이면 을, 그렇지않으면 로정의된다. 이에대한자질가중치벡터는 로 이면 그렇지않으면 가된다. - 10 -

위의 linear-chain CRF 와 semi-crf 는분할 / 품사태깅결과가등가임을쉽게보일수있다. 즉, 이론적으로, 분할 / 태깅문제에서 1 차 semi-crf 는 1 차 linear-chain CRF 를특수한자질을사용한경우로포함하고있음을알수있다. 3.4 복합형태소분해 Semi-CRF 와 Linear-chain CRF 의복합형태소분할은 [12] 의방법을따른다. [12] 에서는복합형태소처리는기분석에패턴에기반을두며, 기분석패턴은두종류로, 복합형태소에대한기분석과복합기능형태소 (compound functional morpheme) 으로나뉜다. 예를들면, 복합형태소의입력으로 살려줬 /VV~EP 이주어졌다고하자. 먼저, 살려줬 /VV~EP 이복합형태소기분석패턴에있는지를파악한다. 만약, 복합형태소기분석패턴에없다면, 다음두단계로나뉘어분할이된다. 먼저, 첫번째단계에서는 살리 /VV 를내용형태소로분해하고, 어줬 /EP 를복합기능형태소분해한다. 이때, EP 는복합기능형태소에대한복합태그로서, 가장마지막단위형태소의태그로지정하였다. 두번째단계에서는, 복합기능형태소 어줬 /EP 에대해서기분석패턴에기반하여분해를시도한다. 기분석을참조하여, 어줬 /EP: 어주 /VX+ 었 /EP 를후보로얻어내어, 최종적으로해당복합형태소에대해 살리 /VV+ 어주 /VX+ 었 /EP 의분해결과를얻게된다. 위의두과정을요약하면다음과같다. 살려줬 /VV~EP è ( 내용형태소와기능형태소분해 ) 살리 /VV+ 어줬 /EP è ( 기능형태소상세분해 ) 살리 /VV+ 어주 /VX+ 었 /EP 3.5 자질벡터앞에서설명한두가지결합방법에대한자질벡터를정리하면다음과같다. Linear-chain CRF 에서자질벡터 [10] 의형태소분할을위한자질벡터와동일하며, 다음과같이기술된다. 표 1. Linear-chain CRF 에서사용하는자질유형 Feature symbol Desciption 1음절 (uni-char) 정보 2 음절 (bi-char) 정보 3 음절 (tri-char) 정보 1 음절띄어쓰기정보 2 음절띄어쓰기정보 3 음절띄어쓰기정보 Semi-CRF 에서자질벡터 Semi-CRF 에서사용하는자질표기를위해, 를 번 째위치에서표층음절을, 는 를, 를 번째 위치바로이전에띄어쓰기가있었는지여부를, 는 를가리키는표기라고하자. 세그먼트 에 대해서 Semi-CRF 에서사용하는자질은다음과같다. Feature symbol 4. 실험결과 표 2. Semi-CRF 에서사용하는자질유형 Desciption 세그먼트에대한표층정보 세그먼트와주변 1-2음절에대한공기정보세그먼트에대한띄어쓰기 정보 1 음절 (uni-char) 정보 2 음절 (bi-char) 정보 3 음절 (tri-char) 정보 1 음절띄어쓰기정보 2 음절띄어쓰기정보 3 음절띄어쓰기정보 두가지결합모델의형태소분할및품사태깅성능평가를위해, 세종품사부착말뭉치를이용하였는데이는총 253,884 개의문장, 1,008,925 개의어절로구성된다. 성능평가측도로형태소단위의 F-measure, 어절정확률 (EA) 를사용하였으며, 이중 80% 를학습데이터로 20% 는테스트데이터로사용했다. Linear-chain CRF 와 Semi-CRF 의가질가중치벡터는모두 [1] 의 Averaged perceptron 을사용하여학습하였다. 전체학습데이터에서최대반복횟수를총 30 회로제한하였다. - 11 -

표 3 Linear-chain CRF 와 Semi-CRF 의성능비교 분할만 CRF 분할 + 태깅 형태소분석전과정 Semi- CRF 분할만 분할 + 태깅 형태소분석전과정 표 3 은 Sejong 데이터에서사용한성능결과를보여준다. 표 3 에서 CRF 에대한결과는 linear-chain CRF 의성능추치를보여준다. 표 3 에서보다시피, 3.5 에서사용된자질집합에대해서, linear-chian CRF 가 Semi-CRF 보다전과정에서다소높은성능을보여주었다. Semi-CRF 가이론적으로 linear-chain CRF 를포괄함에도불구하고, 본연구에서는 linear-chain CRF 의성능을뛰어넘지못했다. 3.5 의자질의형태로는 Semi-CRF 의성능이한계를보여준다는것을의미한다. Linear-chain CRF 의경우상태전이의개수가일정하는점이세그먼트의개수에따른선호나편향성없이학습될수있도록하는장점이된것으로보인다. 물론, 이러한결과는본연구에서사용되는자질집합으로국한된것이므로, 두방법에대한비교의최종결론을도출하기위해서는보다다양한자질집합에서엄밀한성능비교를해야할것이다. 5. 결론 본논문은형태소분할과품사태깅을위한결합모델로 linear-chain CRF 와 Semi-CRF 를비교했다. 실험결과, Semi-CRF 가이론적으로 linear-chain CRF 를포괄함에도불구하고, 본연구에서는 linear-chain CRF 의성능을뛰어넘지못했다. 본연구는 Semi-CRF 의적용의초기연구로, 향후개선의여지가남아있음을물론이다. 후속정교한비교연구를통해, 위의이슈에대해보다엄밀한실험을수행할예정이다. 학습단계에서, Linear-chain CRF 와등가가되는고유자질을고정시키고, Semi-CRF 에서추가로사용되는자질만을선택적으로가중치학습하는것도 Semi-CRF 의성능개선을위한한방법이될것이다. [4] Lee, G. G., Cha, J., & Lee, J. (2002). Syllable-Pattern-Based Unknown- Morpheme Segmentation and Estimation for Hybrid Part-of-Speech Tagging of Korean. Computational Linguistics, 28(1). [5] Sarawagi, S., & Cohen, W. W. (2004). Semi-Markov Conditional Random Fields for Information Extraction. In NIPS. [6] Shim, K., & Yang, J. (2002). MACH - A Supersonic Korean Morphological Analyzer. COLING (pp. 939 945). [7] 강승식. (1994). 다층형태론과한국어형태소분석모델. 한글및한국어정보처리학술대회 (HCLT) (pp. 140 145). [8] 강승식, & 장병탁. (1996). 음절특성을이용한범용한국어형태소분석기및맞춤법검사기. 정보과학회논문지, 23(5). [9] 강승식. (2002). " 한국어형태소분석과정보검색 ", 홍릉과학출판사 [10] 나승훈, 양성일, 김창현, 권오욱, 김영길. (2012). CRF 에기반한한국어형태소분할및품사태깅. 한글및한국어정보처리학술대회 [11] 나승훈, 김창현, 김영길. (2013). CRF 기반한국어형태소분할및품사태깅에서두단계복합형태소분해방법. 한글및한국어정보처리학술대회 [12] 신준철, & 옥철영. (2012). 기분석부분어절사전을활용한한국어형태소분석기. 한국정보과학회논문지, 39(5), 415 424. [13] 심광섭. (2013). 음절단위의한국어품사태깅에서원형복원. 정보과학회논문지 : 소프트웨어및응용, 40(3), 182 189. [14] 심광섭. (2011). 형태소분석기사용을배제한음절단위의한국어품사태깅. 인지과학, 22(3), 327 345. [15] 이재성. (2011). 한국어형태소분석을위한 3 단계확률모델. 정보과학회논문지, 38(5). [16] 이창기. (2013). Structural SVM 을이용한한국어띄어쓰기및품사태깅. In 한국컴퓨터종합학술대회 (pp. 604 606). [17] 홍진표, & 차정원. (2008). 어절패턴사전을이용한새로운한국어형태소분석기. 한국컴퓨터종합학술대회논문집 (Vol. 35) 참고문헌 [1] Collins, M. (2002). Discriminative Traning Methods for Hidden Markov Models: Theory and Experiments with Perceptron Algorithms. In EMNLP (pp. 1 8). [2] Lafferty, J., Mccallum, A., & Pereira, F. C. N. (2001). Conditional Random Fields : Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML (Vol. 2001). [3] Lee, D., & Rim, H. (2005). Probabilistic Models for Korean Morphological Analysis. IJCNLP (pp. 197 202). - 12 -

CRF 기반한국어형태소분할및품사태깅에서 두단계복합형태소분해방법 나승훈 O 김창현, 김영길한국전자통신연구원 nash@etri.re.kr, chkim@etri.re.kr,kimyk@etri.re.kr Two-Stage Compound Morpheme Segmentation in CRF-based Korean Morphological Analysis Seung-Hoon Na O, Chang-Hyun Kim, Young-Kil Kim Natural Language Processing Laboratory Electronics and Telecommunication Research Institute 요약 본논문은 CRF 기반한국어형태소분석및품사태깅과정에서발생하는미등록복합형태소를분해하기위한단순하고효과적인방법을제안한다. 제안방법은 1) 복합형태소를내용형태소와복합기능형태소로분리하는단계, 2) 복합기능형태소를분해하는두단계로구성된다. 실험결과, 제안알고리즘은 Sejong 데이터에대해, 기존의 lattice HMM 대비높은복합형태소분해정확률및두드러진속도개선을보여준다. 주제어 : 형태소분석, 복합형태소분해, 복합기능형태소, 내용형태소, 최장일치 1. 서론최근의한국어형태소분석연구는입력문전체에대해통계기반모델을수행하는방법이주된축을이루고있다 [1,7,9,10,11]. 이중, [7] 은한국어형태소분석을형태소분할및품사태깅으로나누어각단계에 CRF 를적용하는방법을제안했으며, [11] 는이를확장하여띄어쓰기, 형태소분할및품사태깅단계를모두통합하는 joint 모델을제안했다. 그러나, 이들연구에서는복합형태소처리과정이별도로필요하다. 복합형태소 (compound morpheme) 란복수개의단위형태소 (atomic morpheme) 로구성되는형태소를일컫는데, 표층형이입력문과일치하는특징을가지고있다. 복합형태소를단위형태소로분할하는간단한방법은학습데이터에나타나는기분석패턴을이용하는것이다 [7,11], 그러나, 복합형태소는용언류의활용형이많아대부분개방어이므로미등록어가필연적으로발생하게된다. 미등록복합형태소처리를위한일반적인모델로, [7] 은 lattice HMM 기반방식을제안하였다. 그러나, 이방법은높은시간복잡도를지니며, 결과적으로 CRF 와이질적인생성모델의도입으로형태소전분석과정을한가지모델로통일시키지못했다. 본논문은미등록복합형태소처리를위해보다단순하고효율적인방법을제안한다. 제안방법의핵심은기능형태소만을기분석화하는것으로, 다음의두단계로이루어진다. 1) 복합형태소를내용형태소와복합기능형태소로분리하는단계, 2) 복합기능형태소를분해하는단계이다. Sejong 품사부착코퍼스에서실험결과, 제안방법은기존 lattice HMM 방식에비해복합형태소분해정확률을향상시킬수있을뿐아니라두드러진속도향상 을보여주었다. 본논문의구성은다음과같다. 2 장에서는관련연구를다루고, 3 장에서는제안하는두단계복합형태소분해방법을소개하고, 4 장에서는실험을, 5 장에서는결론및향후계획에대해서언급한다. 2. 관련연구최근의한국어형태소분석의연구는입력문전체에별도의언어학적지식사용없이통계기반모델을수행하는방법이주된축을이룬다 [1,7,9,10,11]. 그러나, 한국어는축약 / 불규칙변이로인해, 사전형과표층형과일치하지않은문제가있어, 중국어의경우와달리단어분리 (word segmentation) 및품사태깅 (POS tagging) 방법을직접적용할수없다. 이른바표층형과사전형불일치문제를해소하는방식에따라, 최근통계기반한국어형태소분석연구는다음의두가지방식으로나눌수있다. 먼저, 형태소단위의접근법으로, 표층형과사전형불일치를복합형태소의도입을통해해결하는방식이다 [7,11]. 서론에서언급했듯이, 복합형태소분해의대표적인방법은학습코퍼스에발생하는복합형태소와분해결과를기분석패턴을사용하는것이다. 미등록복합형태소의일반적처리를위해, [7] 는 lattice HMM 의생성모델의사용을제안했다. 두번째방법은 [9,10] 의음절단위의접근법이다. 표층형으로부터사전형으로원형복원을위해음절복원사전을사용하는데, 이는일종의음절레벨에서의기분석패턴으로, 해당음절 / 태그에대해원래사전형에대응되는음절열 / 태그열을저장해놓은것이다. 가령, 축약의 - 13 -

경우, 복합음절을도입하여, 복합음절 / 음절복합태그에대해원래의사전형의음절열 / 태그열을얻어낼수있도록음절복원사전을구성한다 ( 가 /VVEP=> 가 /VV+ 았 /EP). 3. 제안방법 3.1. 개요 제안방법은다음의두단계로구성된다. 1) 내용형태소와복합기능형태소로분할 ( 음절테이블활용 ) 2) 복합기능형태소분할 ( 기분석활용 ) 그림 1에제안방법의도식도를보여준다. 첫번째단계에서는복합형태소를내용형태소 (content morpheme) 와기능형태소 (functional morpheme) 로분할한다. 내용형태소는단위형태소로구성, 기능형태소는여러개의단위형태소로이루어진복합기능형태소 (compound functional morpheme) 이다. 두번째단계에서는, 복합기능형태소를기분석패턴을이용하여단위기능형태소로분해하는방식으로 [7] 과동일한방법을사용한다. 이해를높기위해, 아래, 그림 1 의제시된예를보다상세히기술한다. 복합형태소의입력예는 살려줬 /VV~EP 이며, VV~EP 는복합태그이다. 우선 살려줬 /VV~EP 이복합형태소기분석패턴에있는지를조사한다. 기분석패턴에없을경우제안하는 2 단계과정을통해분해가시도된다. 첫번째단계에서는주어직복합형태소가내용형태소인 살리 /VV 와복합기능형태소인 어줬 /EP 으로분핸해된다. 여기서, EP 는복합기능형태소의복합태그로서 3.2 절에서보다명확히정의된다. 다음으로, 두번째단계에서는, 복합기능형태소 어줬 /EP 에대한기분석패턴에기반하여분해를시도한다. 기분석패턴으로부터 어줬 /EP: 어주 /VX+ 었 /EP 을얻어내, 최종적으로 살리 /VV+ 어주 /VX+ 었 /EP 의분해결과를얻는다. 제안분해방법은본래복합형태소단위로기분석패턴 중, 기능형태소에대한기분석리스트만유지하면되기때문에원칙적으로기분석패턴의개수를대폭감소시킬수있게된다. 무엇보다복합기능형태소는 1 개의단일형태소로이루어지고, 2 개이상이많지않다는점, 기능형태소는용언류보다는 closed word 에해당되어대부분은사전에등재가능하는점으로인하여, 복합기능형태소의기분석패턴의사용은복합형태소기분석패턴기반방법보다현실성이높다고할수있다. 두단계복합형태소분해를위한지식 / 사전은모두학습데이터로부터자동으로얻어진다. 다음절부터, 분해지식 / 사전을어떻게학습하는지상세히기술하도록한다. 3.2. 복합형태소분해지식학습제안복합형태소분해를수행하기위해서는다음의세가지정보가필요하다. Ÿ 음절매핑테이블, ST (syllable mapping table): 입력표층형 s에대해서 ST(s) 는원래사전형과해당되는빈도수의리스트를리턴한다. ST의예는다음과같다. Ÿ ST( 했 )= { 하았 } ST( 려 )= { 리어 } ST( 줬 )= { 주었 } ST( 써 )= { 쓰어 } ST( 겨 )= { 기어 } ( 표기의단순화를위해빈도수는생략하였다 ) 본논문에서는축약문제로한정, 입력음절열을한음절, 출력음절로 2음절로제한하여설명한다. 물론, 제안방법은불규칙활용등을포괄하는형태로알고리즘을손쉽게확장될수있다. Ÿ 복합기능형태소기분석사전, FLEX (preanalyzed patterns for compound functional morpheme): 입력형태소, 에대해서 FLEX(m,t) 는단위기능형태소분해결과및빈도수의리스트를리턴한다. Ÿ 내용형태소사전, CLEX (lexicon of content morphemes): 입력형태소, 에대해서 CLEX(m,t) 는내용형태소분해결과및빈도수의리스트를리턴한다. 위의세가지정보중음절매핑테이블 (ST) 와복합형태소기분석사전 (FLEX) 은복합형태소의기분석리스트로부터, 내용형태소사전 (CLEX) 은학습코퍼스의단위형태소로부터얻어진다. ST, FLEX, CLEX 모두리스트는빈도수로정렬 (sorting) 하여, 가장빈도수가높은엔트리가리스트의첫번째에위치하도록배치한다. 보다명확한설명을위해, 아래, ST, FLEX, CLEX 의학습과정을형식적으로기술한다. 복합형태소에대한기분석엔트리가 로주어졌다고하자. 는 의음절갯수를, 는 의 번째음절을, - 14 -

는 의 부터 까지의음절열을, 는 의 부 터마지막음절까지의음절열을가리킨다고하자. + 는음절열의결합 (concatenation) 연산자라고정의하자. 학습의핵심은주어진복합형태소음절열 과이를구성하는단위형태소들로부터, head, tail, compressed ( 축약음절 ), decompressed1 ( 분해요소음절 1), decompressed2 ( 분해요소음절 2) 의정보를추출하는것으로, 각각에대한정의는다음과같다. 정의 1. head 는처음단위형태소 의 번째까지 의음절열로정의한다 head = 정의 2. tail 은복합형태소의 의 부터마지막까 지의음절열로정의한다. tail = 여기서 은 의길이이다. 정의 3. compressed 는복합형태소의 의 번째 음절을축약된음절로정의한다. compressed = 정의 4. 축약된음절 compressed 에대응되는사전형두음절은 decompressed1 와 decompressed2 다음과같이정의된다. decompressed1 = decompressed2 = 여기서, 두개의분해요소음절, decompressed1, decompressed2 은축약음절 compressed 에대응되는정보이다. 예를들어, 구겨진 /VV~ETM: 구기 /VV+ 어 /EC+ 지 /VX+ ㄴ /ETM 의경우, 위의정의에따라, head, tail, compressed, decompressed1, decompressed2 정보는다음과같이주어진다. head tail compressed decompressed1 decompressed2 구진겨기어 정의 5. 위의정의로부터, 내용형태소의사전형 cm, 복합기능형태소표층형 fm 은각각다음과같이정의된다. cm = fm = decomposed2 + tail 앞서의예에서, cm 과 fm 은다음과같이정의된다. cm 구기 fm 어진위의정보에기반, ST, FLEX는아래와같이학습된다. 축약음절 compressed에대해분해요소음절 decompressed1+decompressed1에대한매핑을음절매핑테이블의한엔트리로구성한다. 기능형태소 fm 에대한단위형태소들은 임 로, 이들은복합기능형태소기분석패턴의엔트리로추가한다. 여기서, 복합기능형태소의복합태그 ft 는 와 에의존하는데, 다음은몇가지예시들이다. 1. 마지막태그만사용 : 예 ) 해진 /ETM ( 행해진 /VV~ETM: 행하 /VV+ 아 /EC+ 지 /VX+ ㄴ /ETM) 2. 시작태그만사용 : F- 예 ) 해진 /F-VV ( 행해진 /VV: 행하 /VV+ 아 /EC+ 지 /VX+ ㄴ /ETM) 3. 시작및마지막태그 : - 예 ) 해진 /EC~ETM ( 행해진 /VV~ETM: 행하 /VV+ 아 /EC+ 지 /VX+ ㄴ /ETM) 4. 시작부터마지막태그 : = 예 ) 해진 /EC~VX~ETM ( 행해진 /VV~ETM: 행하 /VV+ 아 /EC+ 지 /VX+ ㄴ /ETM) 본논문에서는, [7] 의복합형태소의복합태그의정의를참조하여복합기능형태소의복합태그를다음과같이정의한다. 즉, 용언류에대해서는시작과마지막태그가주어지므로, 방법 1 을사용, 나머지형태소에대해서는모두방법 2 를사용한다. 즉, 방법 3-4 는복합형태소가복합태그가해당정보를제공해줄수있을때에만활용될수있는것으로본논문에서는고려되지않는다. 위의두정보 ST, FLEX 와달리, 단위형태소사전은품사부착학습코퍼스전체로부터얻어진다. 사전의엔트리는단위형태소의사전형과품사태그그리고빈도수로구성된다. 3.3. 최장일치기반복합형태소분해알고리즘위의세가지지식, ST, FLEX, CLEX 를바탕으로, 본논문에서복합형태소분해알고리즘은최장일치법에기반한다. 분해알고리즘의핵심적인가정은복합형태소내의축약음절은최대단한개만이존재한다는것이다. 즉, 복합형태소내의어느위치에서축약이발생했는지를판단하는것이알고리즘의메인이된다. 분해알고리즘은복합형태소표층형의마지막음절부터순차적으로해당음절이축약음절인지를조사한다. 축약여부는음절매핑테이블을참조하여이를 2 음절로분해하고분해된음절앞부분은내용형태소로, 뒷부분은기능형태소로포함된다고가정하고, 이들이실제 CLEX, FLEX 사전에있는지확인한다. 만약, 모두사전에있으면바로해당음절위치에서축약이이루어진것이다. 그렇 - 15 -

지않으면, 음절위치를앞으로한칸이동하여, 다시축약음절인지아닌지조사한다. 상세한분해알고리즘은다음과같다. input: ; 복합형태소 ct = getctag( ); 내용형태소태그 ft = getftag( ); 기능형태소태그 for ( = ; ; --) syllset = ST( ); 분해요소음절획득 if syllset == NULL: continue for each decomps in syllset: cm = + decomps[1] ; 내용형태소 fm = decomps[2] + ; 기능형태소 if CLEX(cm,ct) is not empty && FLEX(fm,ft) is not emptry: return 해당분해결과 return NULL 여기서, getctag( ) 와 getftag( ) 는복합태그 로부터각각내용형태소의태그및복합기능형태소의태그를얻어내는함수이다. 위의알고리즘에서 CLEX, FLEX 에모든복수개의엔트리가있는경우에는기분석결과를제시할때, 애매성이발생하게된다. 에매성이발생하는경우, 가장높은빈도수를갖는엔트리를취했다. 4. 실험실험을위해, 세종코퍼스약 25 여만문장중 80% 는학습데이터로, 20% 는테스트데이터로사용하였다. 형태소분할및품사태깅모델로 [11] 과유사하게, 형태소분할과태깅을동시에수행하는음절기반결합모델을적용하였다. 이때사용되는자질은 [7] 의형태소분할을위해사용되는자질과동일하다. 표 1 은 [7] 의 CRF 기반형태소분할 / 품사태깅과정에서, 제안방법과기존방법의복합형태소분해정확도를비교한결과이다. 표 1 에서보다시피제안방법은기존 lattice HMM 기반방법보다높은분해정확률을보여주고있다. 표 1. 복합형태소분해에서제안두단계방법과 lattice HMM 방법비교 ( 복합형태소만을대상으로평가 ) 표 2 는전체형태소분석에서 [7] 의 CRF 기반방법의복합형태소분해단계가끝난후최종성능을비교한것이다. 표 2 에서보다시피최종성능에서도, 제안방법은기존 CRF 기반방법대비다소높은성능을보여준다. 표 3 는전체테스트문장에대해복합형태소분해소요시간에대해기존방법과제안방법을비교한것이다. 표에서확인되는것처럼, 제안방법은기존방법과비교하여훨씬적은시간을소요하였다. 요약하면, 제안방법은기존방법대비, 분해정확률을높일뿐아니라, 시간복잡도를두드러지게개선할수있음을보여준다. 표 2. 음절기반형태소분할 / 태깅에서분석결과에서제안복합형태소분해방법과기존방법과의비교 ( 전체형태소대상 ) 표 3. 제안방법과기존방법의복합형태소분해의시간복잡도비교 65.76 sec 4.77 sec 5. 결론본논문은미등록복합형태소분해를위해단순하고효율적인두단계방법을제안하였다. 제안방법은두단계로구성되는데먼저복합형태소를내용형태소와복합기능형태소로분해하고, 다음으로복합기능형태소를기분석패턴으로처리한다. 결국, 제안방법은복합기능형태소에대해서만기분석패턴을유지하기때문에기존의방식에비해서기분석패턴의수를크게줄일수있는장점이있다. 실험결과, 제안방법은기존의 lattice HMM 기반분해보다정확도와시간복잡도를모두개선하였다. 본논문에서는음절매핑테이블을구성할때축약음절만을고려하였으나, 일반적으로는불규칙변형등보다다양한유형을포괄하도록확장하는것이필요하다. 또한, 제안분해알고리즘은최장일치방식에기반을두고있으나, 전체적으로가장개연성이높은분해결과를찾는글로벌분해방법을도입하여분해알고리즘을보다정교화하는것도흥미로운주제가될것이다. 참고문헌 [1] Lee, D., & Rim, H. (2005). Probabilistic Models for Korean Morphological Analysis. IJCNLP (pp. 197 202). [2] Lee, G. G., Cha, J., & Lee, J. (2002). Syllable-Pattern-Based Unknown- Morpheme Segmentation and Estimation for Hybrid Part-of-Speech Tagging of Korean. Computational Linguistics, 28(1). [3] Shim, K., & Yang, J. (2002). MACH - A Supersonic Korean Morphological Analyzer. COLING (pp. 939 945). [4] 강승식. (1994). 다층형태론과한국어형태소분석모델. 한글및한국어정보처리학술대회 (HCLT) (pp. 140 145). [5] 강승식, & 장병탁. (1996). 음절특성을이용한범용 - 16 -

한국어형태소분석기및맞춤법검사기. 정보과학회논문지, 23(5). [6] 강승식. (2002). " 한국어형태소분석과정보검색 ", 홍릉과학출판사 [7] 나승훈, 양성일, 김창현, 권오욱, 김영길. (2012). CRF 에기반한한국어형태소분할및품사태깅. In 한글및한국어정보처리. [8] 신준철, & 옥철영. (2012). 기분석부분어절사전을활용한한국어형태소분석기. 한국정보과학회논문지, 39(5), 415 424. [9] 심광섭. (2011). 형태소분석기사용을배제한음절단위의한국어품사태깅. 인지과학, 22(3), 327 345. [10] 심광섭. (2013). 음절단위의한국어품사태깅에서원형복원. 정보과학회논문지 : 소프트웨어및응용, 40(3), 182 189. [11] 이창기. (2013). Structural SVM 을이용한한국어띄어쓰기및품사태깅. In 한국컴퓨터종합학술대회 (pp. 604 606). - 17 -

1. 서론 대화형개인비서시스템을위한하이브리드방식의 개체명및문장목적동시인식기술 1) 이창수 O, 고영중동아대학교 blue772001@gmail.com, youngjoong.ko@gmail.com A Simultaneous Recognition Technology of Named Entities and Objects for a Dialogue Based Private Secretary Software ChangSu Lee O, YoungJoong Ko Donga University, Computer Engineering 요약 기존대화시스템과달리대화형개인비서시스템은사용자에게정보를제공하기위해앱 (APP) 을구동하는방법을사용한다. 사용자가앱을통해정보를얻고자할때, 사용자가필요로하는정보를제공해주기위해서는사용자의목적을정확하게인식하는작업이필요하다. 그작업중중요한두요소는개체명인식과문장목적인식이다. 문장목적인식이란, 사용자의문장을분석해하나의앱에존재하는여러정보중사용자가원하는정보 ( 문장의목적 ) 가무엇인지찾아주는인식작업이다. 이러한인식시스템을구축하는방법중대표적인방법은사전규칙방법과기계학습방법이다. 사전규칙은사전정보와규칙을적용하는방법으로, 시간이지남에따라새로운규칙을추가해야하는문제가있으며, 규칙이일반화되지않을경우오류가증가하는문제가있다. 또두인식작업을파이프라인방식으로적용할경우, 개체명인식단계에서의오류를가지고문장목적인식단계로넘어가기때문에두단계에걸친성능저하와속도저하를초래할수있다. 이러한문제점을해결하기위해우리는통계기반의기계학습방법인 Conditional Random Fields(CRF) 를사용한다. 또한사전정보를 CRF 와결합함으로써, 단독으로수행하는 CRF 방식의성능을개선시킨다. 개체명과문장목적인식의구조를분석한결과, 비슷한자질을사용할수있다고판단하여, 두작업을동시에수행하는방법을제안한다. 실험결과, 사전규칙방법보다제안한방법이문장단위 2.67% 성능개선을보였다. 주제어 : 개체명인식, 하이브리드, Conditional Random Fields, 문장목적인식, 대화시스템 모바일기술의발달로, 대화시스템이기존의오프라인대화시스템으로부터, 실시간정보획득및질의응답을목적으로한온라인대화시스템으로변화되고있다. 온라인대화시스템의하나인대화형개인비서시스템의가장큰장점은앱 (APP) 을구동할수있는데있다. 기존의대화시스템은규칙이나학습을통해정해진질문에정해진대답만을할수있는데반해, 이시스템은앱을통해사용자의질문에따라사용자가원하는화면을보여주며, 실시간으로정보를제공한다. 사용자가앱을통해정보를얻고자할때, 시스템에서사용자가필요로하는정보를제공해주기위해서는사용자의목적을정확히인식하는작업이중요하다. 이러한작업중중요한두가지요소는개체명인식과문장목적인식이다. 개체명인식은질의응답시스템과정보검색분야에서 본연구는산업자원통상부및한국산업기술평가관리원의산업 융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10041678, 다중영역정보서비스를위한대화형개인비서 소프트웨어원천기술개발 ] 유용하게사용되고있는정보추출의한단계이다. 개체명은인명, 지명, 조직명, 시간, 날짜, 화폐등의고유명사이며, 개체명인식은문장에서개체명을식별하고식별된개체명의종류를결정하는작업이다. 이작업은문장에서중요한핵심어를추출해문장의의미를파악하는데도움을준다. 개체명인식방법은크게세가지방법으로나눌수있다. 첫번째방법은규칙기반개체명인식 [1][2][3] 이며, 규칙기반개체명인식은사전정보나규칙만을사용하기때문에다음과같은문제점을가지고있다. 1. 사전정보나규칙이포함되어있지않은문장인식문제. 2. 시간이지남에따라, 규칙을지속적으로추가해줘야하는문제. 3. 규칙이일반화되지않을경우많은오류를유발하는문제. 두번째방법은통계기반의기계학습방법이다 [4][5][ 6][7]. 통계기반의방법을사용하기위해선양질의말뭉치가필요하며, 자질을색출하는작업을거쳐야한다. 마지막으로규칙기반과기계학습을결합한방법도있다 [8][9]. 문장목적인식이란, 앱구동을통해실행된하나의앱 - 18 -

에서는여러정보가있을수있는데, 그정보들중사용자가필요로하는정보를제공하기위해문장의목적을찾는작업이다. 예를들어, 날씨앱을구동했을때, 사용자는오늘비가올것인지, 기온이어떻게되는지, 날씨가맑은지, 바람이많이부는지등여러정보중원하는하나의정보가있을것이다. 문장목적인식은사용자의문장을분석해, 위와같은여러정보중사용자가필요로하는정보가무엇인지찾아주는인식작업이다. 기존의대화시스템에서는이러한문장목적을인식하는시스템이존재하지않았다. 하지만앱을구동하는대화형개인비서시스템에서는문장목적을인식하는것은사용자가원하는정보를앱에서찾아사용자에게정확히제공해주기위해반드시필요한인식작업이다. 대화형개인비서시스템에선개체명인식, 문장목적인식을통해앱에서사용자에게제공해야할정보가무엇인지파악한다. 예를들어, 사용자가 오늘기온 에대한정보를얻고자할때, 사용자는 오늘기온이어때? 라는질의를시스템에게보내고, 개체명인식작업을통해 오늘 이라는개체명을인식한후, 문장목적인식작업을통해문장의목적이 기온 에대한정보라는것을파악한다. 이러한과정을거쳐시스템은날씨앱을실행시켜, 오늘의기온에대한정보를앱에서찾아사용자에게제공해주는것이다. 본논문에서는개체명및문장목적인식을위해통계기반의기계학습기법인 CRF 와사전정보를함께사용하는하이브리드방식을제안한다. 또한개체명과문장목적을인식하는방법의구조를분석한결과, 서로비슷한자질로분류가가능하다고판단하여서로다른두개의인식시스템을단한번의기계학습을통해동시에인식하는방법을제안한다. 2 장에서는관련연구에대해살펴보고, 3 장에서는개체명인식시스템, 문장목적인식시스템, 개체명및문장목적동시인식시스템에대해각각사전규칙, CRF, 하이브리드방식으로나누어설명하고, 4 장에서는 3 장에서제안한하이브리드시스템을사전규칙시스템과 CRF 만을사용한시스템과비교하여하이브리드시스템의유용성을살펴보며, 본논문에서제안한하이브리드기반의개체명및문장목적동시인식기술이사전규칙방식이나단독 CRF 방식을사용해두인식을수행한것보다더합리적인것을살펴본다. 5 장에서는결론및향후연구과제에대하여기술한다. 2. 관련연구 개체명인식은질의응답시스템과정보검색분야에서유용하게사용되고있는정보추출의한분야로서문서나문장내에서개체명을추출하고추출된개체명의종류를식별하는작업을말한다. 개체명인식에관한연구는 1990 년대에정보추출 (Information Extraction) 의목적으로개최되었던 Message Understanding Conference (MUC) 에서본격적으로연구되기시작해, MUC 이후개체명에대한연구가꾸준히진행되어왔으며, Conference on Computational Natural Language Learning 2002(CoNLL 2002) 와 CoNLL2003 을통해서더욱많은발전 이있었다 [10]. 개체명인식은크게 3 가지방법으로연구되었다. 첫번째는규칙기반방법이며이방법에서는주로정규표현식 [3] 이나자연어특징을이용한규칙과사전정보 [2] 를사용했다. 두번째로통계기반의기계학습방법이며, 대표적인방법으로 Hidden Markov Model, Maximun Entropy Model, Conditional Random Fields, Decision Tree 등이있다 [4][5][6][7]. 마지막으로규칙기반과기계학습을함께사용한하이브리드방법도연구되었다 [8][9]. 개체명인식연구가시작된 1990 년대에는대부분영어만을대상으로개체명인식연구가이루어졌지만최근에서영어뿐만아니라한국어 [5], 일본어, 중국어등다양한언어에대해서개체명인식시스템이연구되고있다. 3. 개체명및문장목적인식 우리는사전정보와 CRF 를결합하는하이브리드방법을통해개체명및문장목적인식의성능을높이는방법을시도하며, 개체명과문장목적인식이라는각각의작업을동시에수행하는방법을제안한다. 대화형개인비서시스템에서사용자의목적을파악해원하는정보를실시간으로제공하기위해서는개체명과문장목적을인식하는작업이필요하다. 이에따라본논문은다음의 3 가지인식작업을나눠서살펴본후, 개체명과문장목적을동시에인식하는방법이합리적인접근방법임을보인다. 1. 개체명인식 2. 문장목적인식 3. 개체명과문장목적의동시인식대화형개인비서시스템은 6 개의도메인을가지며, 이 6 개의도메인에서출현하는개체명과문장목적을인식대상으로한다. 표 1. 도메인종류 교통날씨시계알람일정환율 3.1 개체명인식 개체명의종류는표 2 와같이 8 가지로분류된다. 표 2. 개체명종류 인명 (Person) 반복 (Cycle) 지명 (Location) 타이틀 (Title) 날짜 (Date) 통화 (Currency) 시간 (Time) 숫자 (Number) 개체명종류에서반복은 매년, 매주, 매월 같은단어이며, 논문계획, 미팅일정, 점심약속 같은단어를타이틀이라고명명한다. 개체명인식시스템은비교를위해사전규칙, CRF, 하이브리드방식으로각각시스템을구축한다. 먼저, 사전규칙기반은각도메인별로사전과규칙을다르게적용하여, 도메인별로사전이나규칙이중복되어오류를유발할수있는부분을최대한줄였다. 다음은사전정보와규칙적용방식을보여준다. - 19 -

그림 1. 사전매치방법 ( 왼쪽 ) 과규칙적용방법 ( 오른쪽 ) 규칙은여러가지타입에유연하게적용할수있도록, 어휘정보및형태소정보, 정규표현등 5 가지의타입규칙을사용하였다. 또한사전정보는최장길이일치법을적용했다. 하이브리드방식에서는개체명인식시스템의성능향상을위해 CRF 에사전정보를결합함으로써개체명인식시스템의성능을높이는방법을시도했다. 또한사전정보와 CRF 를각각단독으로사용하는시스템을구축해하이브리드방식이합리적인지평가했다. 그림 2 는하이브리드기반의개체명인식시스템의구조도이다. 그림 2. 하이브리드기반의개체명인식시스템구조도 이존재한다. 대표적인문장목적종류는알람 (Alarm), 지역시간 (LocationTime), 버스스케줄 (busschedule), 날씨정보 (weatherinfo) 등이있다. 문장목적인식에서는문장의목적을파악하기위해다음과같은두가지학습방법을사용할수있다. 1. 문장전체를학습시켜목적을찾아내는방법 2. 문장에서중요한실마리가되는부분의구간을정해그구간이존재하는지확인해목적을찾아내는방법. 문장전체를학습시키는방법은개체명과문장목적인식을수행하기위해서로다른기계학습기법을사용해야하는단점이있다. 그이유는, 인식단위의차이때문이다. 즉, 개체명인식에서는형태소별, 목적인식에서는문장별로분류하게된다. 실시간시스템에서는속도가매우중요하기때문에, 우리는두가지인식을동시에수행하기위한기반을마련하기위해실마리구간탐색방법을사용했다. 그림 4. 문장의실마리구간 그림 4 에서는문장의목적이기온정보인경우문장에서기온정보의실마리구간을 기온 라는단어를실마리라고정해이문장이기온정보에대한목적을가진문장인지를식별하게해준다. 문장목적인식사전규칙시스템은개체명인식과같은방법으로각도메인별사전과규칙을적용시켜오류를최소화시켰다. 통계기반의문장목적인식시스템도마찬가지로사전정보와 CRF 를결합하는하이브리드방식을통해성능을높이는방법을시도했다. 또한사전정보와 CRF 를각각단독으로사용하는시스템을구축해하이브리드방식이합리적인지평가했다. 그림 5 는문장목적인식의구조도이다. 사전정보를이용해사전에매치된단어는개체명후보로인식하며, 개체명인식중날짜와시간은정해진템플릿이존재하기때문에기존의규칙시스템에서사용한방법을그대로사용한다. 그리고사전에매치된단어는그림 3 과같이 BIO 태그를부착해 CRF 를사용할때개체명사전자질을사용할수있도록구성했다. 그림 5. 하이브리드기반의문장목적인식시스템구조도 3.2 문장목적인식 그림 3. BIO 태그가부착된사전정보 문장목적의종류는 6 개의도메인에서 28 개의세부목적 3.1 절의개체명인식과같은단계를거쳐목적구간을찾아문장의목적인식작업을수행하도록구축했다. 3.3 개체명문장목적동시인식 3.1 과 3.2 절에서개체명과문장목적을인식하는구조 - 20 -

도를보였다. 두시스템의비교결과, 문장목적인식에구간정보를사용함으로써, 개체명인식과같은시스템구조를사용할수있으며, 따라서우리는두인식시스템이서로비슷한자질로분류가가능할것이라고판단했다. 이에따라개체명과문장목적을동시에인식하는시스템을구현하는것은합리적인방법일것이라고생각했다. 우리가생각한방법이올바른지판단하기위해사전규칙, CRF, 하이브리드기반시스템을각각구현해비교했다. 사전규칙기반시스템은개체명과문장목적인식을파이프라인방식으로수행한다. 그림 6 은사전규칙기반시스템의구조도이다. 하이브리드기반시스템은사전정보를활용해, 사전에매치된개체명후보와문장목적구간후보를인식해, CRF 를사용할때사전자질을사용할수있도록구성했다. 3.4 자질집합 자질집합은형태소어휘, 형태소태그, 어절내자질등기본적으로사용하는자질집합과함께, 인식성능을높이기위해본논문에서구축한사전자질, 개체명자질, 문장목적자질을추가하였다. 표 3 는전체자질집합을보여준다. 표 3. 시스템에사용된자질집합 형태소어휘태그자질 1. 형태소어휘 / 태그 2. 3. 4., 형태소어휘자질 5. 6. 7. 8. 9. 그림 6. 개체명과문장목적인식을파이프라인방식으로수행하는사전규칙기반시스템의구조도 사전규칙기반은파이프라인방식을수행함에있어, 다음과같은문제점을가지게된다. 1. 개체명단계에서생긴오류를가지고문장목적단계로넘어가기때문에두단계에걸친성능저하. 2. 두단계의순차적수행으로인한속도저하. 반면, 본논문에서제안한시스템은두인식시스템이같은구조를갖는다는것을바탕으로개체명과문장목적을동시에수행함으로써위의문제점을해결한다. 동시인식시스템또한사전정보와 CRF 를결합하는하이브리드방식을통해성능을높이는방법을시도했다. 또 CRF 를단독으로사용하는시스템을구축해제안한방법이합리적인지평가했다. 그림 7 은제안한하이브리드기반시스템의구조도이다. 형태소태그자질어절내자질사전자질개체명자질문장목적자질 10. 11. 12. 13. 14. 15. 16. 17. 18. 형태소어절내위치 19. 형태소태그 / 어절길이 20. 형태소어휘 / 태그 + 레이블정보 21. 현재위치의앞에나온모든개체명정보 22. 현재위치의앞에나온모든개체명의시퀀스정보 (NULL 포함 ) 23. 형태소어휘 / 태그와문장에존재하는모든개체명정보 24. 형태소어휘 / 태그와문장에존재하는모든개체명의시퀀스정보 (NULL 포함 ) 25. 현재위치의앞에나온모든문장목적정보 26. 현재위치의앞에나온모든문장목적의시퀀스정보 (NULL 포함 ) 27. 형태소어휘 / 태그와문장에존재하는모든문장목적정보 28. 형태소어휘 / 태그와문장에존재하는모든문장목적의시퀀스정보 (NULL 포함 ) 그림 7. 개체명과문장목적을동시에인식하는하이브리드기반시스템의구조도 시스템에사용된자질집합은총 28 개로구성된다. 형태소어휘자질은현재형태소어휘 ( ) 를중심으로이전 / 이후의연속된형태소어휘이다. 형태소태그자질도마찬가지로현재형태소태그 ( ) 를중심으로이전 / 이후의연 속된형태소태그이다. 형태소의어절내위치자질은형태소가어절의시작, 중간, 끝을나타내는정보이며, 형태소태그 / 어절길이자질은형태소태그와형태소를포함하는어절의길이정보이다. 마지막으로사전자질은형태소어휘 / 태그와형태소의레이블정보이다. 레이블은사전매치를통해후보가된개체명이나문장목적에 BIO 태그가부착된정보이다. - 21 -

4. 실험결과 모든실험결과는정확도 (Accuracy) 를측정해성능을평가하며, 개체명과문장목적을동시에인식하는시스템은문장내에모든개체명과함께문장의목적을정확히인식했을경우에만맞는문장이라고간주한다. CRF 및하이브리드기반시스템에사용한자질중실험결과가장좋은성능을보이는자질집합을각실험결과의하위에기재했다. 또한모든자질은표 3 에기재한자질만을사용했으며, 각실험에서사용한자질을쉽게보여주기위해자질별로번호를부여해, 자질번호나열을통해사용한자질을보여주는방식으로구성했다. 4.1 실험데이터 개체명과문장목적인식을위해 ETRI 개체명사전을사용했으며, 학습데이터를통해문장목적구간사전을구축했다. 또한말뭉치는전문적으로태깅을하는전문가를통해 6 개의도메인에서 2972 개의문장을태깅한것을사용했다. 표 4 는 6 개의도메인에대한문장의분포이다. 표 4. 도메인에따른말뭉치분포 교통 날씨 시계 알람 일정 환율 355 603 246 658 895 215 본논문에서는학습데이터에 1925 개의문장을사용했고, 테스트데이터는 1047 개의문장을사용했다. 4.2 개체명인식결과 개체명인식은 4 개의버전으로성능을비교했다. 표 5 는개체명인식에대한실험결과이다. 표 5. 개체명인식성능 개체명인식방법 문장단위정확도 (Accuracy) 사전 86.72% 사전 + 규칙 93.50% CRF 91.88% 하이브리드 ( 사전 +CRF) 93.50% 표 5 에서개체명인식성능은사전규칙기반시스템과하이브리드기반시스템이높은것을확인할수있다. 하이브리드기반시스템에서는 CRF 에개체명자질과사전자질을추가함으로써, CRF 를단독으로사용한방법보다높은성능을낼수있음을보였다. 서로비슷한의미를지닌문장은같은개체명종류가나올것이라는가정을통해구축한개체명사전자질의타당성을실험을통해입증했으며, 하이브리드방식에서개체명인식성능을개선하는데기여했음을알수있다. 개체명인식방법중 CRF 자질은형태소어휘 / 태그자질 (1), 형태소어휘자질 (2,3,4,9), 형태소태그자질 (10,11,1 2,13,14,17), 어절내자질 (18,19) 을사용했다. 하이브리드방법은형태소어휘 / 태그자질 (1), 형태소어휘자질 (2,3,4,5,6,7,8,9), 형태소태그자질 (10,11,12,1 3,14,15,16,17), 어절내자질 (18,19), 사전자질 (20), 개체명자질 (21,22,23,24) 을사용해성능을평가했다. 4.3 문장목적인식결과 문장목적인식또한 4 개의버전으로성능을비교했다. 표 6 은문장목적인식에대한결과이다. 표 6. 문장목적인식성능 문장목적인식방법 문장단위정확도 (Accuracy) 사전 80.80% 사전 + 규칙 95.41% CRF 99.71% 하이브리드 ( 사전 +CRF) 99.31% 문장목적인식은사전규칙기반시스템보다 CRF 와하이브리드기반시스템을수행한결과가더높은성능을보이는것을결과를통해확인할수있었다. 그리고문장목적인식은문장목적사전자질을추가했을때보다기본적인자질만을사용했을때, 더높은성능을보이는것을확인했다. 그이유는문장목적인식은구간을통해문장의목적을식별하기때문에, 완전히같은단어와단어집합, 태그정보가반복적으로구간에나타나는경향이많았다. 그런이유로, 기본적인자질을사용했을때성능이더높은것으로분석되었다. 문장목적인식방법중 CRF 자질은형태소어휘 / 태그자질 (1), 형태소어휘자질 (2,3,4,5,6,7,8,9), 형태소태그자질 (10,11,12,13,14,15,16,17), 어절내자질 (18,19) 을사용했다. 하이브리드방법에서는사전자질및문장목적자질을추가할때마다인식성능이떨어지는것이확인되었다. 그러므로 CRF 에서사용한자질중사전자질 (20) 만을추가한결과를사용해성능을평가했다. 4.4 개체명문장목적동시인식결과 개체명문장목적동시인식방법은 3 가지버전으로성능을비교했다. 표 7 은개체명문장목적동시인식에대한결과이다. 표 7. 개체명및문장목적동시인식성능 개체명및문장목적인식방법 문장단위정확도 (Accuracy) 사전 + 규칙 88.92% CRF 91.50% ( 개체명 91.69%, 문장목적 98.80%) 하이브리드 ( 사전 +CRF) 91.59% ( 개체명 93.12%, 문장목적 98.09%) 사전규칙기반시스템은파이프라인을통해수행되기 - 22 -

때문에개체명과문장목적인식성능을따로기재하지않고, 전체성능만을기재했다. 사전규칙기반시스템은오류가축적됨에따라개체명인식, 문장목적인식을각각수행할때보다문장단위정확도가많이떨어진것을확인할수있었다. 하이브리드기반시스템에서는기본적인자질과사전자질을사용해, 동시에두개의작업을수행함으로써, 사전규칙기반시스템보다 2.67% 의성능이향상된것을확인할수있었다. 개체명문장목적동시인식실험에서확인할수있었던것은문장목적은기본적인자질 ( 시퀀스자질 ) 이높은성능을보이는데반해, 개체명은기본적인자질과함께개체명사전자질을사용했을때더높은성능을보였다. CRF 를단독으로사용한시스템에서는개체명인식성능은상대적으로낮은성능을보였지만, 문장목적인식결과가상당히높은성능을보여, 문장단위성능이높게나온것을확인했다. 동시인식방법중 CRF 자질은형태소어휘 / 태그자질 (1), 형태소어휘자질 (2,3,4,5,6,7,8,9), 형태소태그자질 (10,11,12,13,14,15,16,17), 어절내자질 (18,19) 을사용했다. 하이브리드방법은형태소어휘 / 태그자질 (1), 형태소어휘자질 (2,3,4,5,6,7,8,9), 형태소태그자질 (10,11,12,13,1 4,15,16,17), 어절내자질 (18,19), 사전자질 (20), 개체명자질 (21,22,23,24) 을사용해성능을평가했다. 5. 결론 본논문에서는대화형개인비서시스템에서중요한작업인개체명인식과문장목적인식을동시에수행하는방법을제안했다. 6 개의도메인에서 8 개의개체명과 28 개의문장목적을대상으로개체명과문장목적분류를수행한결과, 사전규칙기반의파이프라인방식을통해두인식을수행한성능보다 CRF 와사전자질을이용해하이브리드방식으로두인식을동시에수행한결과가문장단위 2.67% 의성능이향상된것을확인할수있었다. 향후연구로는문장목적구간이학습데이터에서는문장당한구간만존재했지만, 서로다른목적을가진구간이한문장에 2 개이상출현했을경우여러목적구간중가장확률이높은것을선택하는방법을연구할것이며, 대화형개인비서시스템에서는개체명인식과문장목적인식이외에형태소분석, 화행분석, 도메인인식등여러절차가존재하는데, 그절차중도메인인식은본논문에서제안한방법과결합이가능할것으로생각된다. 그러므로개체명, 문장목적, 도메인인식을동시에수행하는방법을연구할것이다. 공학연구회학술발표논문집 16 pp.40-45, 2004 [3] Mesfar, S. "Named Entity Recognition for Arabic Using Syntactic Grammars." 12th International Conference on Application of Natural Language to Information Systems, pp. 305-316, 2007. [4] Nadeau, D. and Sekine, S. "A Survey of Named Entity Recognition and Classfication" Lingvisicae Investigationes, 30(1), pp.3-26, 2007. [5] 이창기, 황인규, 오효정, 임수종, 허정, 이충희, 김현진, 왕지현, 장명길 Conditional Random Fields 를이용한세부분류개체명인식 한국정보과학회언어공학연구회학술발표논문집, pp.268-272, 2006. [6] Lafferty, J. McCallum, A.Pereira, F., "Conditional random fields : Probabilistic models for segmenting and labeling sequence data", ICML, pp.282-2289, 2001. [7] Ratnaparkhi, A., "A Simple Introduction to Maximum Entropy Models for Natural Language Processing." University of Pennsylvania Institute for Research in Cognitive Science Technical Report No. IRCS-97-08, 1997. [8] Petasis, G., Vichot, F., Wolinskim, F., Paliouras, G., Karkaletsis, V. and Spyropoulos, C. D. "Using Machine Learning to Maintain Rule-based Named-Entity Recognition and Classification Systems." Proceeding Conference of Association for Computational Linguistics, pp.426-433, 2001. [9] Mai Mohamed Oudah, Khaled Shaalan "A Pipeline Aribic Named Entity Recognition Using a Hybrid Approach" COLING, pp.2159-2176, 2012. [10] Kim Sang, E. F. T., de meulder, F., "Introduction to the CoNLL-2003 shared task : Language-independent named entity recognition" CoNLL 2003. 참고문헌 [1] Krupka, G.R. and Hausman, K. "Description of the netowl text extraction system as using for MUC-7." In proceedings of the Seventh Message Understanding Conference(MUC-7) 1998. [2] 이경희, 이주호, 최명석, 김길창, 한국어문서에서개체명인식에관한연구 한국정보과학회언어 - 23 -

l 중간언어와단어정렬을통한이국어사전의자동추출에대한성능개선 준지도학습을통한세부감성분류 바이오 - 이벤트추출을위한피쳐개발 질의응답시스템을위한반교사기반의정답유형분류

중간언어와단어정렬을통한이중언어사전의자동추출에대한성능개선 권홍석 O, 서형원, 김재훈한국해양대학교, 컴퓨터공학과 hong8c@naver.com, wonn24@gmail.com, jhoon@kmou.ac.kr Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool Hong-Seok Kwon O, Hyeung-Won Seo, Jae-Hoon Kim Korea Maritime and Ocean University, Department of Computer Engineering 요약 본논문은잘알려지지않은언어쌍에대해서병렬말뭉치 (parallel corpus) 로부터자동으로이중언어사전을추출하는방법을제안하였다. 이방법은중간언어 (pivot language) 를매개로하고문맥벡터를생성하기위해공개된단어정렬도구인 Anymalign 을사용하였다. 그결과로초기사전 (seed dictionary) 을사용한문맥벡터의번역과정이필요없으며통계적방법의약점인낮은빈도수를가지는어휘에대한번역정확도를높였다. 또한문맥벡터의요소값으로특정임계값이상을가지는양방향번역확률정보를사용하여상위 5 위이내의번역정확도를크게높였다. 본논문은두개의서로다른언어쌍한국어 - 스페인어그리고한국어 - 프랑스어양방향에대해서각각이중언어사전을추출하는실험을하였다. 높은빈도수를가지는어휘에대한번역정확도는이전연구에서보인실험결과에비해최소 3.41% 최대 67.91% 의성능향상을보였고낮은빈도수를가지는어휘에대한번역정확도는최소 5.06%, 최대 990% 의성능향상을보였다. 주제어 : Word alignment, Pivot language, Bilingual Lexicon Extraction, Parallel corpus 1. 서론 이중언어사전은기계번역, 교차언어정보검색등분야에서중요한자원으로사용되고있다. 이중언어사전의추출에있어가장직접적인방법으로는병렬말뭉치로부터대역쌍 (translation equivalence) 을추출하는것이다 [1]. 그러나잘알려지지않은언어쌍에대해서병렬말뭉치를모으는일은쉽지않으며특정도메인에제한되어있다. 이러한이유들때문에비교말뭉치 (comparable corpus) 로부터이중언어사전을추출하는연구 [2][3][4] 가많이이루어지고있다. 그러나잘알려지지않은언어쌍에대해서는비교말뭉치또한구축이쉽지않다. 이와같은문제를해결하기위해중간언어를매개로이중언어사전을추출하는연구들 [5][6][7] 이있다. 다른한편으로는이중언어사전추출에정보검색기법을도입한연구 [8][9][10] 도있다. 정보검색기법을사용한방법은간략하게다음과같다. 서로다른두언어 과 각각에대해서모든어휘단위들을수집한다. 그리고수집된모든어휘단위에대해서문맥벡터 와 를각각생성하고 과 의초기사전을이용하여각 문맥벡터 와 를번역한다. 이때초기사전은사람에의해서수동으로구축되어진사전이며그용량이클수록정확한번역이가능해진다. 마지막으로문맥벡터 와 의유사도를서로비교하여최종번역쌍을추출한다. 본논문에서는잘알려지지않은언어쌍에대해서중간언어를사용하고정보검색기법을기반으로이중언어사전을자동으로추출하는간단하고효과적인방법을제안한다. 중간언어는원시언어 (source language) 와대상언어 (target language) 의문맥벡터를표현하는데사용되고정보검색기법은중간언어로표현되어진원시언어문맥벡터와대상언어문맥벡터사이의유사도를비교하는데사용된다. 기존연구와는다르게우리는두개의병렬말뭉치 ( 예 : 한국어 - 영어, 영어 - 스페인어 ) 를사용한다. 여기서영어가중간언어로서사용된다. 그리고우리는문맥벡터를쉽게생성하기위해공개되어진단어정렬도구인 Anymalign[11] 을사용한다. 우리가제안한방법은다음과같은장점들이있다. 첫째로영어와같은중간언어를사용하여잘알려지지않은언어쌍에대해서도쉽게적용이가능하다. 둘째로복합단어로표현된어휘에도쉽게확장이용이하며마지막으로큰규모의초기사전을수동으로구축해야하는수고스러움이없다. 본논문의구성은다음과같다. 2 장에서는우리가제안한방법의전체구성과각단계에대해서설명하고, 3 장에서는실험과그결과에대해서설명한다. 마지막으로 4 장에서는결론및향후연구에대해서논의한다. 2. 제안방법 - 27 -

본논문에서는잘알려지지않은언어쌍에대해서중간언어와정보검색기법을사용하여간단하고효과적으로이중언어사전을추출하는방법을제안한다. 우리는더정확한어휘정렬정보를얻기위해서비교말뭉치가아닌병렬말뭉치를사용한다. 그러나잘알려지지않은언어쌍들에대해서병렬말뭉치를모으는일은쉽지않다. 이러한이유들때문에우리는잘알려진영어를중간언어로써사용한다. 중간언어는원시언어와대상언어의문맥벡터를표현하기위해사용된다. 비교말뭉치를사용하는기존연구와는다르게우리는두종류의한국어 - 영어그리고영어 - 스페인어병렬말뭉치를사용하며중간언어로표현되어진원시언어문맥벡터와대상언어문맥벡터의유사도비교에정보검색기법을사용한다. 기존연구에서는큰용량의초기사전을사용해문맥벡터들을번역하는과정이필요했다. 그러나본논문에서는문맥벡터들을번역하는과정은더이상필요하지않다. 게다가공개된단어정렬도구를사용하여문맥벡터들을생성했다. 제안한방법의전체적인구조는그림 1 과같다. 그리고제안한방법은크게세단계로설명할수있다. (1) 원시언어와중간언어단어정렬 두종류의독립적인병렬말뭉치 ( 한국어 - 영어, 영어 - 스페인어 ) 에서원시언어 ( 예. KR) 와대상언어 ( 예. ES) 각각의단어들에대해원시언어문맥벡터와대상언어문맥벡터를각각생성한다. 여기서문맥벡터의요소가되는모든단어 ( 영어 ) 들은단어정렬도구인 Anymalign 에의해가중치가결정된다. Anymalign 이제공하는정보의예는표 1 과같다. 는원시단어가주어졌을때대상단어로번역 될확률이며 는대상단어가주어졌을때원시단어로번역될확률을의미한다. 본논문에서는문맥벡터의요소로써 Anymalign이제공하는모든단어정렬정보를사용하지않고, 양방향번역확률, 특정임계값 ( ) 이상이고, 양방향번역확률의차 0.5일경우올바른단어정렬정보라고 판단하고 를가중치로사용하였다. 이러 한이유는문맥벡터의잡음을줄이기위해서이다. 아래표 1 의예를보면올바른단어정렬정보는양방향번역확률의차이가크지않고번역확률또한높은것을확인할수있다. 그러나잘못된정렬정보의경우양방향번역확률의차이가크고어느한쪽의번역확률이낮거나양방향번역확률이모두낮은것을볼수있다. (2) 유사도계산 모든원시언어문맥벡터와모든대상언어문맥벡터들사이의유사도를계산한다. 여기서유사도비교에코사인유사도 (cosine similarity) 를사용한다. (3) 번역후보순위결정 계산된코사인유사도의값에따라번역후보중상위 - 28 -

개의단어쌍을추출한다. 본논문에서는문맥벡터를생성하기위해중간언어 ( 영어 ) 를공유하는두개의병렬말뭉치를사용했다. 그이유는공개된한국어 - 스페인어의병렬말뭉치가없었기때문이다. 그리고공개단어정렬도구인 Anymalign 은문맥벡터의모든단어들에가중치를결정하는데사용되었다. Anymalign 은무작위샘플링과문자열차이를기반으로단어들을정렬하며, 낮은빈도수를가지는단어들에대해서정확한번역후보들을추출하는데높은정확도를보였다. 앞서언급했듯이기존연구에서는원시언어와대상언어의문맥벡터들을초기사전을이용하여번역하는과정이필요했으나본논문이제안하는방법에서는더이상필요하지않다. 또한양방향번역정보를활용하고이전연구 [12] 에서보인불용어들이번역후보로추출되는문제점을품사태깅후제거함으로서해결하였다. 그리고문맥벡터들이생성되고나면모든원시언어문맥벡터들과모든대상언어문맥벡터들사이코사인유사도를통해두문맥벡터간의유사도가측정된다. 마지막으로유사도가큰순으로정렬하고상위 개의단어쌍을번역후보로추출한다. 3. 실험및결과 본논문에서는두개의서로다른언어쌍인한국어 (KR)- 스페인어 (ES) 그리고한국어 - 프랑스어 (FR) 에서명사들을대상으로임계값 에따른이중언어사전추출실험을하였고이전연구 ( 양방향번역확률, 양방향번역확률의차를고려하지않은방법 ) 와그성능을비교실험하였다. 3.1. 실험설정 3.1.1. 병렬말뭉치 본논문에서사용된병렬말뭉치로는뉴스기사로부터수집된 433,151 문장으로구성된한국어 - 영어 [13] 병렬말뭉치와 Europarl[14] 병렬말뭉치로부터무작위로 500,000 문장을추출한스페인어 - 영어그리고프랑스어 - 영어병렬말뭉치이다. 각언어에서하나의문장이구성하고있는단어의수는표 2 와같다. 표 2 를보면 ES-EN 과 FR-EN 에서각언어의문장당단어의개수는비슷하나 KR-EN 의경우는조금차이가있다는것을볼수있다. 그이유는영어와는다르게한국어의경우하나의단어가한개또는그이상의형태소로구성되기때문이다. 만약형태소의개수가아니라단어의개수를세면한문장당단어의수는비슷할것이다. 3.1.2. 데이터전처리 각언어들은다음과같은도구에의해서토큰이분리되었다. 한국어의경우창원대학교형태소분석기 Espresso[15] 를사용하여토큰을분리하고품사태깅을하였다. 영어, 스페인어그리고프랑스어는 Tree-Tagger[16] 를사용하여토큰이분리되고원형복원되었다. 또한모든언어에서명사를제외한품사들은문장에서제거되었다. 그이유는앞서언급했듯이 Anymalign 은단어정렬시에문맥을고려하는것이아니라무작위샘플링과문자열의차이를이용하기때문에본논문에서의이중언어사전구축대상인명사를제외한품사들은단어정렬시에잡음으로작용할수있기때문이다. 3.1.3. 평가사전의구축 본논문이제안하는방법의성능을평가하기위해우리는네집합 (KR-ES, KR-FR, ES-KR, FR-KR) 의평가사전을인터넷사전 1) 으로부터수동으로구축하였다. 각평가사전은단방향으로구축되어있으며, 즉한언어에서다른언어로의번역을말하며, 말뭉치내에서가장빈도수가높은 100개의명사 (HIGH) 와가장빈도수가낮은 100개의명사 (LOW) 들로구성되어있다. 표 3는각평가사전에서하나의명사에대한평균번역수를나타낸것이다. 여기서평균번역수는그명사의모호성정도를의미한다고볼수있다. 3.1.4. 평가방법 제안한방법의이중언어사전구축성능을평가하기위해서정보검색의평가방법과유사하게정확도 (accuracy) 와 MRR(Mean Reciprocal Rank)[17] 을이용하였다. 정확도는모든평가단어에대하여평가기준상위 개이내에정답이적어도한개있는평가단어들의수의조화평균을구한것이며, MRR 은모든평가단어에대해평가기준상위 개이내에서처음으로나온정답순위의역순을구하고그것들의조화평균을구한것이며번역후보결과의순위화성능을평가하기위해이용되었다. 3.2. 결과 본논문에서는임계값 를변경해가면서이중언어사전추출실험을하였고, 표 5 는각언어쌍에서이중언어사전을 - 29 -

추출할때가장좋은성능을보여준임계값 를보여준다. 평가단어 HIGH 와 LOW 에대한정확도는표 4 와같다. 양방향번역확률을고려한결과평가사전 HIGH 에서는최상위에서최대 67.91% 의성능향상을얻을수있었다. 그러나상위 5 위를넘어서면서상위 20 위에서최대 6.94% 의성능하락이있었다. 그이유는상위 5 위이내의성능을향상시키기위해임계값 를높게설정하면서문맥벡터의요소가되는단어정렬정보들이많이소실되었기때문이 다. 같은실험으로평가사전 LOW 에서는최상위에서최대 990% 의성능향상이있었고상위 10 위에서최소 5.06% 의성능향상을얻을수있었다. 표에서도볼수있듯이최상위에서 KR 에서 ES 와 FR 로번역되는정확도에비해그역방향인 ES-KR 과 FR-KR 의번역정확도가낮은것을볼수있다. 그이유를분석해보면한국어의경우다른언어들과는다르게형태소분석과정이필요하고또한앞서표 2 에서보았듯이한국어의문장당단어의수가영어의문장당단어수보다많다는것에있다. 즉다른언어에서한국어로의번역이한국어에서다른언어로의번역보다더모호하다는것이다. 표 6 는 exercice( 운동 )' 의상위 5 위의번역후보를보여주는예이다. 이전연구에서의문제점으로불용어들이최종번역후보로추출되는문제점들은앞서언급했듯이데이터전처리과정을통해해결되었다. 그러나최상위와 3 위를보면형태소분석과품사태깅의오류로인한잘못된 - 30 -

번역후보들이추출되는문제점들을발견할수있었다. 평가단어 HIGH 와 LOW 에대한 MRR 은그림 2 와같다. 그림에서볼수있듯이 HIGH 에서의 MRR 은상위 2 위까지급격히증가하다가점차증가하는것을볼수있으며 LOW 에서의 MRR 은상위 3 위까지급격히증가하다가그이후로는점차증가하는것을확인할수있다. 이는본논문이제안하는방법을사용했을때 HIGH 에서는상위 2 위이내에서대부분의올바른번역후보들이추출된다는것을의미하며 LOW 에서는상위 3 위이내에서대부분의올바른번역후보들이추출된다는것을의미한다. 4. 결론 본논문에서는정보검색기법을기반으로중간언어를사용하여이중언어사전을병렬말뭉치로부터자동구축하는방법을제안하였다. 우리는이전연구에서보인문제점을데이터전처리를통해해결하였고양방향번역확률정보를고려하여상위 5 위이내의정확도를크게향상시켰다. 향후연구로는스페인어와프랑스어이외에다른언어에대해서도이중언어사전을자동으로구축해보는것과복합단어 (Multi-word expression) 으로확장해나가는연구를해볼것이다. 감사의글 본연구는미래창조과학부및한국산업기술평가관리원의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10041807, 지식학습기반의다국어확장이용이한관광 / 국제행사통역률 90% 급자동통번역소프트웨어원천기술개발 ] 참고문헌 [1] D. Wu and X. Xia. 1994. Learning an English-Chinese lexicon from a parallel corpus. In Proceedings of the First Conference of the Association for Machine Translation in the Americas (AMTA 1994, Columbia, Maryland, USA, October), pages 206-213. [2] P. Fung. 1995. Compiling bilingual lexicon entries from a non-parallel English-Chinese corpus. In Proceedings of the Third Workshop on Very Large Corpora (VLC 95), pages 173-183. [3] K. Yu and J. Tsujii. 2009. Bilingual dictionary extraction from Wikipedia. In Proceedings of the 12th Machine Translation Summit (MTS 2009), Ottawa, Ontario, Canada. [4] A. Ismail and S. Manandhar. 2010. Bilingual lexicon extraction from comparable corpora using in-domain terms. In Proceedings of the International Conference on Computational Linguistics, pages 481-489. [5] K. Tanaka and K. Umemura. 1994. Construction of a Bilingual Dictionary Intermediated by a Third Language. In Proceedings of the 15th International Conference on Computational Linguistics (Coling' 94), Kyoto, Japan, August, pages 297-303. [6] H. Wu and H. Wang. 2007. Pivot Language Approach for Phrase-Based Statistical Machine Translation. In Proceedings of 45th Annual Meeting of the Association for Computational Linguistics, pages 856-863. [7] T. Tsunakawa, N. Okazaki, and J. Tsujii. 2008. Build-ing Bilingual Lexicons Using Lexical Translation Probabilities via Pivot Languages. In Proceedings of the International Conference on Computational Linguistics, Posters Proceedings, pages 18-22. [8] P. Fung. 1998. A statistical view on bilingual lexicon extraction: from parallel corpora to non-parallel corpora. In Proceedings of the Parallel Text Processing, pages 1-16. [9] E. Gaussier, J.-M. Renders, I. Matveeva, C. Goutte and H. Dejean. 2004. A geometric view on bilingual lexcion extraction from comparable corpora. In Proceedings of the 42th Annual Meeting of the Association for Computational Linguistics, Barcelona, Spain, pages 527-534. [10] A. Hazem and E. Morin. 2012. Adaptive dictionary for bilingual lexicon extraction from comparable corpora. In Proceedings of the 8th International Conference on Language Resources and Evaluation (LREC'12), pages 288-292. [11] A. Lardilleux, Y. Lepage, and F. Yvon. 2011. The contribution of low frequencies to multilingual sub-sentential alignment: a differential associative approach. International Journal of Advanced Intelligence, 3(2):189-217. [12] H. Kwon, H. Seo and J. Kim, 2013. Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool. In Proceedings of the Sixth Workshop on Building and Using Comparable Corpora, Sofia, Bulgaria, August 8, 2013, pages 11-15. [13] H. Seo, H. Kim, H. Cho, J. Kim and S. Yang, 2006. Automatically constructing English-Korean parallel corpus from web documents. Korea - 31 -

Information Proceedings Society, 13(2):161-164. [14] P. Koehn. 2005. EuroParl: A parallel corpus for statistical machine translation. In proceedings of the Conference on the Machine Translation Summit, page 79-86. [15] J. Hong and J. Cha, 2008. A New Korean Morphological Analyzer using the Eojeol Pattern Dictionary. In Proceedings of the Korea Computer Congress, pages 279-283. [16] H Schmid. 1994. Probabilistic part-of-speech tagging using decision trees. In Proceedings of International Conference on New Methods in Language Processing, Manchester, UK, pages 44-49. [17] E. Voorhees. 1999. The TREC-8 Question Answering Track Report. In 8th Text Retrieval Conference (TREC-8), pages 77-82. - 32 -

준지도학습을통한세부감성어휘구축 조요한 O, 오효정, 이충희, 김현기한국전자통신연구원 yohan.jo@etri.re.kr, ohj@etri.re.kr, forever@etri.re.kr, hkk@etri.re.kr Fine-grained Sentiment Lexicon Construction via Semi-supervised Learning Yo-han Jo O, Hyo-Jung Oh, Chung-Hee Lee, Hyun-ki Kim Electronics and Telecommunications Research Institute 요약 소셜미디어를통한여론분석과브랜드모니터링에대한요구가증가하면서, 빅데이터로부터감성을분석하는기술에대한필요가늘고있다. 이를위해, 본논문에서는단순긍 / 부정감성이아닌 20 종류의세분화된감성을분석하기위한감성어휘구축알고리즘을제시한다. 감성어휘구축을위해서는준지도학습을사용하였으며, 도메인에특화되지않은일반감성어휘를구축하도록학습되었다. 학습된감성어휘를인물, 스마트기기, 정책등다양한도메인의트위터데이터에적용하여세부감성을분석한결과, 알고리즘의특성상재현율이낮다는한계를가지고있었으나, 대부분의감성에대해높은정확도를지닌감성어휘를구축할수있었고, 감성을직간접적으로나타내는표현들을학습할수있었다. 주제어 : 감성분석, 오피니언마이닝, 감성어휘 1. 서론트위터, 페이스북, 블로그등의소셜미디어사용량이증가하면서, 이런빅데이터로부터자동으로오피니언정보를분석하려는시도가활발히이루어지고있다. 가령, 기업은자사제품이나서비스가소셜미디어상에서어떤평가를받고있는지파악함으로써마케팅전략에참고할수있고, 정책기관에서는정책에대한여론분석을통해정책수정방향및홍보방식등을결정할수있다. 이러한필요가대두되면서빅데이터기반오피니언마이닝을전문으로하는브랜드모니터링서비스사업도활발해지고있다. 본논문에서는, 빅데이터기반의브랜드모니터링서비스를위한감성분석을위해감성어휘를구축하는기법을제시한다. 그동안학계에서제시되어온감성분석기법들은각기장단점을가지고있으며, 사용목적에따라적절한기법을선택할필요가있다. 본논문에서초점을맞추고있는브랜드모니터링서비스를위해서는다음과같은조건을만족시키는감성분석기법이필요하다. 먼저단순극성 ( 긍정 / 부정 ) 감성이아닌더세분화된세부감성을제공할수있어야한다. 기존의감성분석기법들이주로다루는극성감성은정보력에한계가있다. 가령, 어떤기업의제품에대해 ' 걱정 ' 하는여론이주를이룬다면기업에서는소비자를안심시킬수있는홍보를기획하는반면, ' 불만 ' 여론이주를이룬다면소비자들이제품에대해서불만을갖는부분을개선하는방향으로전략을세울수있을것이다. 하지만 ' 걱정 ' 과 ' 불만 ' 은모두부정적인여론이므로, 극성감성분석만가지고는이와같은구체적인전략을세우기가어렵다. 또한, 감성분석을통해텍스트에서찾아낸감성에대해, 사람이납득할만한단서를제시할수있어야한다. 그이유는, 브랜드모니터링서비스를이용하는사용자들은서비스의신뢰도파악을위해서비스에서제공하는감성분석결과에대한판단근거를요구하기때문이다. 단서를제공하기위해서는어휘 (lexicon) 기반의감성분석이적합하다. 가령, 지지벡터기계 (SVM: Support Vector Machine)[1] 처럼여러자질들의조합을통해감성을분류하는방식 으로는감성판단의근거를사용자들에게납득시키기가쉽지않다. 반면어휘를기반으로하는경우, 감성판단의근거가되는단어혹은자질을제시함으로써사용자들을이해시키기가비교적용이하다. 다음으로, 높은정확도 (precision) 가높은재현율 (recall) 보다우선순위에있어야한다. 서비스사용자들은감성분석된결과량이많지않을지언정틀린결과를보고싶어하지않는다. 게다가재현율이낮은단점은빅데이터분석결과를활용함으로써보상가능하다. 일반적으로어휘기반의감성분석방식은다른기계학습방식에비해재현율이낮다는단점을가지고있는데, 왜냐하면기본적으로어휘에들어가는자질은사용자에게보여지기위한것이고, 따라서정확도가높은자질들위주로들어가기때문이다. 마지막으로, 너무많은양의학습데이터구축을필요로해서는안된다. 브랜드모니터링서비스사용자들이요구하는다양한도메인을반영하는어휘가모두포함되도록학습데이터를구축하기에는너무많은비용과노력이수반된다. 따라서본논문에서는준지도학습 (semi-supervised learning) 방식을취함으로써, 태깅된데이터와태깅되지않은데이터를모두사용하여학습한다. 이후장들에서는위의네가지조건을전제로하여, 한국어트윗으로부터세부감성분석을위한어휘를구축하는알고리즘을제시하고평가결과를제시한다. 2 장에서는관련연구를살펴보고, 3 장에서는구체적인알고리즘을제시하며, 4 장에서는평가데이터및평가척도에대해명시하고, 5 장에서는평가결과를분석하여, 6 장에서이논문의결론을지으며마무리할것이다. 2. 관련연구세부감성을분석하는연구는크게벡터표현기반, 매트릭스기반, 그래프기반의연구가이루어졌다. 먼저벡터표현기반의연구 [2] 에서는 ExperienceProject.com 에있는고백에관한글들을대상으로다섯종류의감성을분석한다. 모든단어와감성은벡터로표현되고, 문서의감성은문서에들어있는단어벡터와감성벡터의내적으로정의된다. 이방식에서는지도학습을통해단어벡터와감성벡터를계 - 33 -

산하며, 태깅된데이터에존재하지않는단어에대해서는단어벡터를계산할수없다. 매트릭스기반의연구 [3] 에서는뉴스헤드라인에대하여네종류의감성을분석한다. 문서와감성을매트릭스로표현하고매트릭스분해 (matrix factorization) 를통해감성을분석하는데, 역시태깅된데이터에존재하지않는단어에대해서는계산이불가능하다. 그래프기반의연구 [4] 는본논문과가장유사한접근방식을취한다. 단어들을꼭지점으로나타내고단어들간의관계를변으로나타낸뒤, 감성을지닌단어들로부터감성이알려지지않은단어들로감성을확장시킨다. 감성을모르는대량의단어들에대해서학습할수있다는장점이있으나, 원래논문에서는긍정 / 부정두종류의극성감성만을사용하였다. 그밖에도일반적으로널리사용되는 Structural SVM[5] 등을사용해세부감성을분류할수있으나, 역시태깅된데이터로만학습할수있다는한계가있다. 3. 방법 3.1 감성분류체계 본논문에서는세부감성을위해, [6] 에서제안하는감성분류체계를기반으로한다. 이감성분류체계는기존의심리학에서사용되는감성체계 [7] 를소셜웹미디어에적합하도록수정한 19개의카테고리로구성되어있다. 본논문에서는기본적으로이분류체계를사용하되, 서비스에적절하도록다음과같은수정을하였다. Ÿ 세부감성이애매한경우를위해만들어놓았던 ' 나쁨 (bad)', ' 좋음 (good)' 제거 Ÿ 사전적정의에따라 ' 두려움 ' 과 ' 걱정 ' 병합 Ÿ 소셜미디어에많은 ' 의심 ', ' 수치심 ', ' 곤란 ' 감성추가 Ÿ 출현빈도가높은 ' 감사 ' 는 ' 감동 ' 으로부터분리 Ÿ 쓰임새의특성상 ' 안심 ' 을 ' 만족 ' 으로부터분리하고, ' 만족 ' 은 ' 기쁨 ' 에병합 Ÿ ' 인정 ' 에서감성이불분명한 ' 이해 ', ' 납득 ', ' 동감 ' 을제거이렇게수정된세부감성분류체계가표 1에있다. 3.2 감성어휘구축모델 본논문에서제시하는모델은 [4] 의모델을응용한다. 이는그래프기반의알고리즘으로서, 원래논문에서는극성감성어휘를구축하기위해사용되었다. 감성어휘에들어갈후보들이꼭지점이되고, 후보들간의상호정보량 (mutual information) 이변이되며, 극성이이미태깅된꼭지점이몇개있다. 기본적인아이디어는태깅된꼭지점과의상호정보량이큰꼭지점들은비슷한강도의극성을갖고, 반면상호정보량이작은꼭지점들은낮은강도의극성을갖도록그래프상에서극성값을확산시키는것이다. 구체적인알고리즘을설명하기에앞서, 본논문에서특별히그래프확산알고리즘을선택한이유는다음과같다. 대부분의지도학습은태깅된학습데이터에나타나는자질외에는학습이어려운데, 빅데이터에서모든중요한자질을포함하는태깅데이터를구축하기는쉽지않다. 즉, 트위터와같은빅데이터를충분히수용할수있을정도의감성어휘를위한학습데이터를구축하는것은현실적으로어렵기때문에준지도학습방식이적합하다. 또한, 지도학습은하나의학습데이터포인트에대해카테고리수만큼의 true/false 가태깅되어있어야하는것에반해, 그래프확산알고리즘에서는하나의데이터포인트에대해 false 정보를태깅할필요가없어서학습데이터구축이용이하다. 특히본논문에서처럼 20 종류의감성을사용하는경우, 지도학습방식에서처럼하나의트윗에대해 20 개의 true/false 를태깅하는것보다, 각감성별로해당하는단어를독립적으로수집 하는것이훨씬효율적이다. 3.2.1 그래프구축 본알고리즘에서그래프 를구축하고감성어휘를구축하는방법을구체적으로설명하도록한다. 먼저감성집합 이있고, 은감성종류의개수이다. 각감성에 대해서는학습을위한기본감성어휘 가있다. 임의 의학습데이터트윗 는다음과같은자질집합으로나타낼수있다. 는 에들어있는감성 는트윗 에있는형태소나단어등학습을통해감성어휘에 들어가게될자질들의집합이다. 어떤트윗 가 에속하는자질 을적어도하나이상포함하는경우, 가 에들어있다고보고, 감성 의감성값 을하나의자질로간주한다. 한편, 준지도학습에서는태깅이되어있지않은트윗들도학습에함께사용된다. 이런트윗들에대해서는레이블자질이존재하지않는다. 의꼭지점집합 에대해서, 꼭지점 는 감성어휘에들어갈후보자질을나타내고 은 을나타낸다. 임의의꼭지점 가 나타내는자질을 라고할때, 꼭지점 를연결하는변 에대해 를다음과같이정의한다. log log log 여기에서 는 와 가모두등장하는트윗의개수, 는 가등장하는트윗의개수, 은모든트윗개수이고, 의범위는다음과같다. min log log 의무게값에대해서는, 와 의 값이 0 보다작을경 우무게값을 0 으로설정하고, 0 이상일경우 를 [0,1] 로정규화 시킨값을무게값으로사용한다. 즉, 의무게값 는다음과같 - 34 -

이정의된다. i f log otherwise 그래프상에서감성이확산되는방식은다음과같다. 임의의꼭지점 는모든감성에대해감성강도 를가지고 있다. 감성레이블꼭지점 는그레이블이의미하는감성 에대해 의값을갖는다. 임의의꼭지점 와인접한꼭 지점 에대해 의감성강도 는다음과같이계산된다. max 각 에대해, 와연결된모든꼭지점들에대해 를계산 하고, 그꼭지점들과연결된꼭지점들에대해서또 를계산을하는식으로확산해나간다. 초기에는감성레이블꼭지점들에대해서만 의값이 0 보다크지만, 감성이확산됨에따라감성레이블과직접적 ( 같은트윗에들어있는자질들 ), 간접적으로연결된자질들도 0 보다큰 를갖게된다. 이것이준지도학습의핵심이다. 한편레이블꼭지점이두개이상인감성의경우, 감성강도의정의에따라그래프의각꼭지점은감성강도가가장큰경로만을취한다. 따라서임의의꼭지점의 는증가하는방향으로만업데이트되므로모든감성레이블꼭지점들에대하여순차적으로업데이트가완료되면 는실제감성강도값으로수렴한다. 또한그래프에싸이클이존재하는경우에도, 은 의값을가지므로문제없이감성강도를계산 할수있다. 한편, 모든감성에대해높은감성강도를갖는자질을처리하기위해서, 감성강도의평균값을빼서조정하도록한다. 즉, 조정된감성강도 는다음과같이계산된다. 이렇게계산된감성강도에대해서, 각감성별로적절한역치 (threshold) 를선정하여감성어휘에포함시킨다. 3.2.2 트윗의 RT 처리하나의트윗에리트윗한내용이포함되어있을수있다. 예를들어, " 아후 ~!! 속터져 ~!! RT @asdfjkl: 그리고어제부터쇼고객센터로그인이안되는데ㅠㅠ " 라는트윗은아이디가 asdfjkl 인사용자가쓴트윗에자신의생각을덧붙여작성한것이고, 이경우 asdfjkl 의트윗이리트윗되었다고한다. 이런경우에트윗하나의범위를어디까지할것인지결정해야한다. 인기가많아서리트윗이많이되는트윗은데이터에자주중복되어나타나게되고이렇게빈도가비정상적으로높아진트윗은자질간의상호정보량을계산하는데에혼란을줄수있다. 따라서본논문에서는트윗의범위를다음의세가지경우로구분하여실험하였다. Ÿ RTLevel: 어떤트윗이리트윗을포함할경우, 각리트윗을별개의트윗으로간주한다. 가령, 어떤트윗에리트윗이두개포함되어있을경우, 세개의트윗 ( 직접작성한내용 + 두개의리트윗 ) 으로간주한다. Ÿ TweetLevel: 어떤트윗이리트윗을포함하고있더라도모두합쳐서하나의트윗으로간주한다. Ÿ TweetLevel+: TweetLevel 와비슷한방식이나, 리트윗내용은자질간상호정보량을계산하지않는다. 이는 TweetLevel 에서빈도가높은리트윗은자질간상호정보량이중복계산되어결과가왜곡되는것을막기위함이다. 4. 평가준비본논문에서제안하는알고리즘을통해구축된감성어휘를평가하기위해서, 구축된감성어휘를이용해트윗의감성을분석하는성능을평가하기로한다. 이장에서는구체적인평가방법, 기본감성어휘를구축하는방법, 평가데이터를구축하는방법, 선택한자질들에대해서설명하도록한다. 4.1 평가방법및척도 본논문에서제시하는알고리즘의목적은트위터데이터같은빅데이터의감성을분석하여여론을파악하는것이다. 이를위해, 알고리즘을통해구축된감성어휘를사용하여각트윗별로 20종류의감성을분석하는성능을측정하도록한다. 하나의트윗이다양한감성을표현할수있기때문에, 이실험에서는하나의트윗을하나의세부감성으로분류하지않고대신트윗이가지고있는모든감성을찾도록한다. 이를위해, 구축된감성어휘에포함된자질이들어있는트윗은해당감성을지니고있다고판단하였다. 한편, 각감성에대해서감성강도가얼마인자질들까지감성어휘에포함시킬지그역치를정해야한다. 본실험에서는 0부터 1 사이를 0.02 간격으로역치를선정하여총 50가지경우에대해모두평가해보고성능이가장좋은역치를선택하였다. 일반적으로이러한정보추출의성능을평가하기위한척도로서정확도와재현율, 그리고둘의조화평균인 F1 score 가많이사용된다. 각감성별로감성어휘의역치에따른 F1 score 를계산한후바로성능척도로사용하는것이직관적인방법이기는하나, 본논문에서성능척도로사용하기에는곤란한점이있다. 지도학습이아닌준지도학습을사용한다는점, 어휘기반으로감성을분석한다는점, 그리고트윗의절반이상은감성이없다는점때문에, 재현율이정확도에비해매우낮다. 다시말해, F1 score 가재현율에지배적이게되며, 재현율을높이기위해서는정확도가크게희생된다. 이는본논문에서목적을두고있는브랜드모니터링서비스에서정확도를우선시하는것과상충한다. 따라서본실험에서는기본적으로사용자들이납득할만한수준의정확도를실험적으로 70% 로잡고, 정확도가 70% 이상인감성어휘는 70% 미만인감성어휘보다무조건우위에있도록한다. 정확도가 70% 이상인감성어휘들간에는 F1 score 를이용하여성능을비교하고, 정확도가 70% 미만인감성어휘들간에는정확도를기준으로성능을비교한다. 즉, 감성어휘 의성능 은다음과같이정의된다. i f otherwise 4.2 기본감성어휘구축 영어로된감성어휘중에서널리사용되는어휘로는 WordNet-Affect[8], LIWC[9], SentiWordNet[10] 등이있으나, 한국어를위해사용할만한감성어휘는구하기어려운실정이다. 세부감성을이용해노래가사의감성을분석한비교적최근논문 [11] 에서는감성어휘를수작업으로구축하여사용하였다. 따라서본논문에서는간단한방식을사용하여다음항목들로구성된기본감성어휘를구축하였다. ( ㄱ ) 세부감성의이름 ( 예 : " 감동 ", " 슬픔 ") ( ㄴ ) 세부감성에포함되는감성의이름 ( 표 1) ( 예 : " 감탄 ", " 존경 ", " 연민 ", " 애처로움 ") ( ㄷ ) 세부감성의동의어 ( 예 : " 감동 " 의동의어 " 감명 ") - 35 -

( ㄷ ) 에서너무일반적인동의어는제외하였다. 예를들어, " 감동 " 의동의어중에 " 느낌 " 이있는데, " 느낌 " 은일반적으로 " 감동 " 의의미보다더포괄적으로사용되므로제외하였다. 또한감성이름중에명사형으로밖에사용될수없는경우는동사로사용될수있도록형태를확장하였다. 예를들어, " 두려움 " 과같은감성은 " 두렵다 ", " 두려워 " 등도포함할수있도록형태를확장하였다. 이렇게하여, ( ㄱ ) 과 ( ㄴ ) 을통해구축된용어는 140 개, ( ㄷ ) 을통해형태확장된용어는 60 개가되어총 200 개의용어를가진기본감성어휘를구축하였다. 4.3 학습데이터 학습데이터는다음과같은방식으로트윗을샘플링하여구축하였다. 본논문에서전제로하는서비스의특성상특정도메인에특화되지않은범용화된어휘사전을구축하는것이목표이므로, 트위터상의모든트윗을대상으로샘플링하였다. 그러나트위터상의트윗중 85% 이상은감성이없기때문에 [6], 완전히임의로샘플링을할경우감성과잠재적으로관련있는자질을충분히확보하기위해서필요한샘플의크기가매우커지게되고자연히학습에필요한메모리와시간도크게증가한다. 따라서감성과관련있는자질을확보하면서샘플의크기를줄이기위해서 " 기분 ", " 가슴이 ", " 느낌 " 이들어간트윗들을샘플링하였다. 이는한연구 [12] 에서 "We feel" 이라는텍스트가들어있는문장을분석하여블로그상의감성을분석한데에서아이디어를얻은것이다. 이런방식으로, 2010 년 11 월부터 2011 년 3 월사이에작성된트윗을대상으로 2 백만개의트윗을샘플링하여학습데이터로사용하였다. 그중기본감성어휘에포함된용어가들어있는트윗은태깅데이터로, 나머지트윗들은태깅되지않은데이터로사용되어준지도학습을하게된다. 2 백만개의트윗중에서감성이태깅된데이터는 419,456 개이고, 태깅이되지않은데이터는 1,580,544 개이다. 학습데이터에서기본감성어휘를통해태깅된세부감성분포가그림 1 에나와있다. ' 기쁨 ' 과 ' 좋아함 ' 감성이많이태깅되었는데, 이는두감성의기본감성어휘중 " 기쁘다 ", " 즐겁다 ", " 사랑 ", " 좋아하다 " 등의표현이텍스트상에많이나타났기때문이다. 4.4 평가데이터 평가데이터를구축하기위해서, 2011 년에작성된트윗중에서다양한이슈와관련된트윗들을샘플링하고여기에 20 종류의세부감성을태깅하였다. 고려한이슈는인물, 스마트기기, 정책중하나에속하며, 그리스트가표 2 에나열되어있다. 태깅은각트윗에대하여트윗에들어있는모든세부감성을태깅하였다. 하나의트윗에대해세명이상의하여둘이상의동의를얻 0.2 0.15 0.1 0.05 0 감동 감사 곤란 기대감 기쁨 두려움 미안함 반대 부러움 선의 은감성만태깅하였고, 그런감성이없는트윗은 ' 중립 ' 으로태깅하였다. 총 5700 개의트윗중 63% 의트윗이 ' 중립 ' 으로판단되었다. 감성이존재하는트윗에대해서세부감성의비율이그림 2에있다. ' 실망 ', ' 싫어함 ', ' 화남 ', ' 슬픔 ' 과같은부정적인감성이많은비율을차지하고있고, ' 자신감 ', ' 미안함 ', ' 곤란 ' 등의감성은그비율이매우낮은것을알수있다. 평가데이터에포함된트윗의예는다음과같다. Ÿ 실망 : #MLB_ 9호선은 DMB가안되는군요... 급행빼고는좋은게없는듯... 4칸짜리객차로어쩌려고... Ÿ 기쁨 : 수요일은차량요일제로전철이용하는날이많습니다. 전철에서간만에 Podcast 골라듣고회사입구에서커피한잔사들고오는맛도괜찮군요! 4.5 자질 감성어휘에들어갈자질로다음여섯개를사용했다. Ÿ MRP: 명사, 동사, 형용사형태소 ( 예 : 따분하 /pa) Ÿ MRPN: 명사, 동사, 형용사, 부사, 의존명사형태소의바이그램 ( 예 : 우울하 /pa 기분 /pv) Ÿ WD: 단어 ( 예 : 감사합니다!, 디자인이 ) Ÿ WDN: 단어바이그램 ( 예 : 뭔가어색한, 본의아니게 ) Ÿ PRD: 명사형태소 + 용언 ( 동사, 형용사, 명사 ) 형태소 ( 예 : 걱정 /nc 많 /pa, 희망 /nc 없 /pa) Ÿ RM: 문장의마지막용언형태소 ( 예 : 방심하 /pv) 형태소와관련된자질에관해서는, 자질을추출하기전에몇개의정규표현을사용해부정어처리를하였다. 예를들어, " 기분 /nc 이 /jc 좋 /pa 지 /ec 않 /px 다 /ef" 의경우 " 기분 /nc 이 /jc 안 _ 좋 /pa 다 /ef" 와같이변환하였다. 학습데이터에대해, 빈도가낮은자질은 수치심 슬픔 신뢰 실망 싫어함 안심 의심 자신감 좋아함 화남 - 36 -

필터링하였고, 최종적으로남은자질의개수가표 3 에나와있다. 5. 평가결과트윗을구분하는세가지방법 (RTLevel, TweetLevel, TweetLevel+) 과여섯종류의자질 (MRP, MRPN, WD, WDN, PRD, RM) 을조합하여세부감성분석성능을측정하였다. 각각의트윗구분방법에대해, 최대두개의자질을조합하였고, 감성별로가장높은성능을보이는감성어휘를선택하였다. 5.1 트윗구분방법별성능 먼저기본감성어휘만을이용한방법과트윗을구분하는세가지방법 RTLevel, TweetLevel, TweetLevel+ 에대해성능을측정하였고, 그결과가표 4 에나와있다. 세방법중에서가장높은성능을보인결과를볼드체및음영으로표시하였다. 전체적으로몇개의감성을제외하고는재현율이매우낮은것을알수있다. 이는도메인에특화된처리를전혀하지않은상태에서중립트윗이절반이상을차지하는평가데이터에대해높은정확도를얻으려고하다보니맞닥뜨리게되는한계로보인다. 기본감성어휘가들어있는지여부로감성을판단한결과는, 구축된감성어휘를사용한결과에비해전반적으로정확도가떨어졌다. 주된이유는기본감성어휘에있는 " 만족 ", " 사랑 " 등의짧은표현들이감성을부정확하게판단했기때문이다. 다만 ' 부러움 ' 과 ' 슬픔 ' 감성에대해서는구축된감성어휘에비해서높은성능을나타내었다. ' 부러움 ' 의경우 " 부럽다 ", " 질투 ", " 탐나다 " 의표현만으로높은정확도와재현율을내었고, 이를통해트위터상에서 ' 부러움 ' 감성이이표현들을통해주로나타남을알수있다. 반면 ' 슬픔 ' 에해당하는기본감성어휘에는 " 슬프다 ", " 연민 ", " 애처롭다 " 등약 15 종류의표현이들어있다. 이표현들의존재를통해감성을정확하게판단할수있었으며, 또한표현의다양성으로인해재현율도높았다. RTLevel, TweetLevel, TweetLevel+ 의성능을비교해보면눈에띄는차이는보이지않는다. 다만 ' 감동 ' 의경우에는 TweetLevel 와 TweetLevel+ 에서정확도 50% 이상인감성어휘를얻을수없었던반면에 RTLevel 에서는얻을수있었다. 결과어휘를자세히분석한결과, RTLevel 에서는 ' 감동 ' 을직접적으로표현하는 RM 자질 ( 예 : 감탄스럽 /pa, 감동적 /nc) 이상위를차지하고있었던반면, RTLevel+ 는주로명사 ( 예 : 감동 /nc) 가상위를차지하고있었다. 이는트윗에서직접작성한내용과리트윗을함께고려할때서로영향을주어좀더직접적인감성표현을얻지못하는것으로보인다. ' 미안함 ' 감정도비슷하게 RTLevel 에서더높은정확도와재현율을얻을수있었다. 결과어휘를분석한결과, 이번에는 ' 감동 ' 과반대로 RTLevel 에서는 ' 미안함 ' 의이유가되는 MRPN 자질들 ( 예 : " 기분 /nc 상하 /pa", " 기분 /nc 나쁘 /pa") 이상위를차지한반면, TweetLevel 에서는 ' 미안함 ' 을직접적으로표현하는 RM 자질들 ( 예 : 죄송하 /pa, 미안하 /pa) 이상위를차지했음을알수있었다. 이는트윗에서 ' 미안함 ' 을표현할경우, 주로리트윗과상관없이미안함을표현하기때문이다. 한편, TweetLevel 와 TweetLevel+ 를비교하면, TweetLevel 이 TweetLevel+ 에비해다소높은성능을내는것같으나차이가그리크지는않았다. 기본감성어휘 RTLevel TweetLevel TweetLevel+ Prec Recl PERF Prec Recl PERF Prec Recl PERF Prec Recl PERF 감동 0.31 0.14 0.31 1.00 0.03 1.07 0.50 0.03 0.50 0.50 0.07 0.50 감사 0.65 0.53 0.65 0.74 0.53 1.62 0.74 0.53 1.62 0.76 0.53 1.62 곤란 0.50 0.21 0.50 1.00 0.05 1.10 1.00 0.05 1.10 1.00 0.05 1.10 기대감 0.38 0.06 0.38 0.71 0.03 1.06 0.71 0.03 1.06 0.71 0.03 1.06 기쁨 0.22 0.10 0.22 0.22 0.04 0.22 0.24 0.04 0.24 0.24 0.04 0.24 두려움 0.43 0.16 0.43 0.88 0.06 1.10 0.86 0.05 1.09 0.86 0.05 1.09 미안함 0.44 0.57 0.44 0.86 0.43 1.57 0.80 0.29 1.42 0.80 0.29 1.42 반대 0.18 0.16 0.18 1.00 0.01 1.03 1.00 0.01 1.03 1.00 0.01 1.03 부러움 0.79 0.40 1.53 0.78 0.37 1.50 0.78 0.37 1.50 0.78 0.37 1.50 선의 0.52 0.23 0.52 0.75 0.03 1.07 0.83 0.03 1.05 0.83 0.03 1.05 수치심 0.29 0.20 0.29 1.00 0.05 1.10 1.00 0.05 1.10 1.00 0.05 1.10 슬픔 0.87 0.14 1.24 0.88 0.04 1.07 0.88 0.04 1.07 0.88 0.04 1.07 신뢰 0.03 0.02 0.03 0.33 0.02 0.33 0.33 0.02 0.33 0.33 0.02 0.33 실망 0.60 0.07 0.60 0.70 0.05 1.08 0.71 0.06 1.10 0.71 0.06 1.10 싫어함 0.55 0.14 0.55 0.78 0.03 1.06 0.80 0.05 1.10 0.77 0.05 1.09 안심 0.01 0.04 0.01 1.00 0.04 1.08 1.00 0.04 1.08 1.00 0.04 1.08 의심 - 0.00-0.11 0.01 0.11 0.13 0.01 0.13 0.07 0.01 0.07 자신감 0.00 0.00 0.00 0.01 0.29 0.01 0.01 0.14 0.01 0.02 0.57 0.02 좋아함 0.22 0.14 0.22 1.00 0.02 1.04 1.00 0.02 1.04 1.00 0.02 1.04 화남 0.54 0.05 0.54 1.00 0.01 1.02 1.00 0.01 1.02 1.00 0.01 1.02 PERF 자질들예 감동 1.07 PRD+RM RM: 감탄스럽 /pa RM: 감격하 /pa 감사 1.62 MRP+WD WD: 감사감사 MRP: 감사합니당 /nc 곤란 1.10 PRD+RM RM: 안 _ 어색하 /pa PRD0: 느낌 /nc 어색하 /pa 기대감 1.06 MRPN+WD MRP2: 가슴 /nc 설레 /pv WD: 희망찬 두려움 1.10 MRPN+RM MRP2: 불안하 /pv 기분 /nc RM: 섬뜩하 /pa 미안함 1.57 MRP+MRPN MRP2: ㅠㅠ기분 /nc 나쁘 /pa MRP2: 혹시 /mag 기분 /nc 반대 1.03 MRPN+RM RM: 반대하 /pv RM: 거랑같 /nc 부러움 1.50 MRP+MRPN MRP: 탐나 /pv MRP: 질투 /nc 선의 1.07 RM+WDN RM: ㅎㅎ화이팅 /nc WD2: 힘내!!! 수치심 1.10 MRPN+RM RM: 치욕스럽 /pa MRP2: 부끄러움 /nc 느끼 /pv 슬픔 1.07 MRPN+RM RM: 우울증 /nc MRP2: 우울하 /pv 날 /nc 실망 1.10 MRP+MRPN MRP: 아쉽 /pa MRP2: 아쉬움 /nc 남 /pv 싫어함 1.10 MRP+WD WD: 싫어 MRP: 지루하 /pa WD: 불쾌한 안심 1.08 MRPN+PRD MRP2: 한숨 /nc 쉬 /pv PRD0: 스트레스 /nc 날리 /pv 좋아함 1.04 RM RM: 호감 /nc RM: 사랑 /nc 화남 1.02 RM+WDN RM: 일투성이 /nc RM: 삭감하 /nc 5.2 감성별어휘분석 다음으로, 트윗구분방법에관계없이감성별로가장좋은성능을얻은감성어휘들을분석하였다. 값이 1 이상인감성들에대해상위를차지하는자질들의예가표 5 에나와있다. 대부분의감성에서감성을직접적으로표현하는자질들이상위를차지하고있음을알수있다. 하지만 ' 미안함 ' 의경우 " 기분이나빴다면 " 이나 " 혹시기분이상하셨다면 " 과같은표현을학습했음을알 - 37 -

통합전통합후향상성능 Prec Recl PERF Prec Recl PERF Prec Recl PERF 감동 1.00 0.03 1.07 1.00 0.07 1.13 +0.04 +0.06 미안함 0.86 0.43 1.57 0.70 0.50 1.58-0.16 +0.07 +0.01 선의 0.75 0.03 1.07 0.83 0.06 1.11 +0.08 +0.02 +0.04 슬픔 0.88 0.04 1.07 0.90 0.05 1.09 +0.03 +0.01 +0.02 싫어함 0.80 0.05 1.10 0.79 0.07 1.12-0.01 +0.01 +0.02 좋아함 1.00 0.02 1.04 1.00 0.04 1.07 +0.02 +0.03 화남 1.00 0.01 1.02 0.80 0.02 1.03-0.20 +0.00 +0.01 수있고, ' 안심 ' 의경우 " 한숨을쉬다 " 혹은 " 스트레스를날리다 " 와같은표현을학습했음을알수있다. 또한 ' 화남 ' 의경우에는 " 일투성이 " 나 " 임금을삭감 " 한다는표현을학습하였다. 특정상품이나정책에관한트윗들을대상으로학습을하였다면그도메인에특화된간접적인감성표현들 ( 예를들어, " 너무비싸다 ") 이많이추출될수있겠지만, 본실험에서는일반적인트윗을사용해학습하였기때문에감성을직접적으로나타내는표현들의비율이상대적으로높다. 그럼에도불구하고감성을직접적으로표현하는기본감성어휘만가지고위와같은간접적인감성표현들을학습해낸것을통하여, 본알고리즘에서사용한준지도학습의유용성을알수있다. 한편, ' 곤란 ' 에서는 " 안 _ 어색하 /pa" 와같은자질이상위로잘못추출되었다. 이는학습데이터에기본감성어휘를적용할때, 부정어처리를하지않았기때문에발생한문제이다. 기본감성어휘와대량의데이터에대해서정교한부정어처리를할경우에성능이향상될것으로예상된다. 정확도가높은감성어휘들을통합하여사용할경우, 정확도를크게희생하지않으면서낮은재현율을보충할수있을것이라예상할수있다. 따라서트윗구분방법과자질조합에관계없이감성별로정확도가 70% 이상인감성어휘들을통합하여성능을측정하였고, 성능향상을보인감성들이표 6 에나와있다. ' 감동 ', ' 미안함 ', ' 선의 ', ' 슬픔 ', ' 싫어함 ', ' 좋아함 ', ' 화남 ' 에대해 PERF 가향상되었다. 자질들을통합함으로써정확도가떨어지는경우가많으나, 재현율이올라가면서전체적인성능은향상되었다. 이는서비스사용자들이납득할만한정확도범위내에서재현율이상승되었음을의미한다. ' 감동 ' 과 ' 미안함 ' 은재현율이큰폭으로상승하였고, ' 선의 ', ' 슬픔 ', ' 좋아함 ' 은정확도의손실없이재현율이향상되었다. 6. 결론본논문에서는한국어로된트윗으로부터 20 종류의세부감성을분석하기위한감성어휘를구축하는알고리즘을제시하고평가결과를제시하였다. 그래프를기반으로한준지도학습을이용하여, 적은양의기본감성어휘로부터감성을확장하는알고리즘을제시하였다. 도메인에특화되지않은일반적인트윗과, 직접적인감성표현들로이루어진소수의기본감성어휘만가지고준지도학습을통하여감성어휘를구축할수있었다. 트윗을구분하는방법에따라성능을측정한결과, 하나의트윗내에서직접작성한부분과리트윗부분을모두하나의트윗으로간주한경우와모든리트윗을별개의트윗으로간주한경우성능차이가크지는않았으나, 몇감성에대해서후자의경우성능이크게증가하는것을확인하였다. 또한학습된감성어휘를분석한결과, 대부분직접적인감성표현이상위를차지하였으나일부감성들에서는간접적인감성표현들이상위를차지하 는것을확인하였다. 본논문은세부감성분석에대한기초연구로서발전가능성이크다. 먼저본논문에서사용한기본감성어휘는주로명사형이고부정어처리를하지않았기때문에감성을태깅하는데에한계가있다. 기본감성어휘를좀더정교하게처리함으로써성능을향상시킬수있을것이다. 또한본논문에서는구축된감성어휘의일반성을위해도메인에특화된어떠한정보나데이터도사용하지않았다. 특정도메인에해당되는학습데이터와메타정보들을활용한다면더높은성능을얻을수있을것이다. 참고문헌 [1] Cortes, C. & Vapnik, V., Support-vector networks. Machine learning, 20(3), 273-297, 1995. [1] Cortes, C. and Vapnik, V. N., Support-Vector Networks, Machine Learning, Springer, 1995. [2] Maas, A. L., Ng, A. Y., and Potts, C., Multi-Dimensional Sentiment Analysis with Learned Representations. 2011. [3] Kim, S. M., Valitutti, A., and Calvo, R. A., Evaluation of unsupervised emotion models to textual affect recognition. In Proceedings of the NAACL HLT 2010 Workshop on Computational Approaches to Analysis and Generation of Emotion in Text, pp. 62-70., 2010. [4] Velikovich, L., Blair-Goldensohn, S., Hannan, K. and McDonald, R., The viability of web-derived polarity lexicons. In the 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 777-785., 2010. [5] Shawe-Taylor, C. A., and Schölkopf, S., The Support Vector Machine, 2000. [6] 장문수, 심리학적감정과소셜웹자료를이용한감성의실증적분류. 한국지능시스템학회논문지제 22 권제 5 호, 2012.10, 563-569, 2012. [7] Plutchik, R. and Kellerman, H., Emotion: Theory, Research, and Experience. Vol.5, Academic Press, 1990. [8] Strapparava, C. and Valitutti, A., WordNet-Affect: an affective extension of WordNet. In Proc. of 4th International Conference on Language Resources and Evaluation, 2004. [9] Pennebaker, J. W., Francis, M. E., and Booth, R. J., Linguistic inquiry and word count: LIWC 2001. Mahway: Lawrence Erlbaum Associates (2001): 71, 2001. [10] Esuli, A., and Sebastiani, F., Sentiwordnet: A publicly available lexical resource for opinion mining. In Proceedings of LREC, vol. 6, pp. 417-422. 2006. [11] 윤애선, 임경업, 윤애선, 권혁철, 감정온톨로지를활용한가사기반의음악감정추출, 한국지능정보시스템학회 2010 년추계학술대회, pp.333-337, 2010. [12] Kamvar, S. D. and Harris, J., We feel fine and searching the emotional web. In Proceedings of the fourth ACM international conference on Web search and data mining, pp. 117-126. ACM, 2011. - 38 -

바이오이벤트추출을위한피쳐개발 이석준 O, 김영태, 황민국, 임수종, 나동열연세대학교, 컴퓨터정보통신공학부 한국전자통신연구원 seokjun88@naver.com, wolfnamu@gmail.com, peacsid@nate.com, isj@etri.re.kr, dyra@yonsei.ac.kr Developing Features for Bio Event Extraction Seok-Jun Lee O, Young-Tae Kim, Min-Kook Hwang, Soo-Jong Lim, Dong-yul Ra Yonsei University, Computer & Telecommunications Engineering Division Electronics & Telecommunications Research Institute 요약 본논문은바이오문서에서의정보추출시스템개발에대한것이다. 이시스템의목표는바이오관련문서에서바이오이벤트의발생을탐지하고이벤트의타입및이벤트에관여된필수논항을채우는구문요소를인식하는것이다. 우리는두개의별도의단계를이용하는시스템구성을사용한다. 첫단계에서는 SVM 을사용하여이벤트의발생및이벤트의타입을결정한다. 두번째단계에서는이벤트의논항을채우는참여자를인식하는작업을한다. 본논문은단계 1 에서사용되는 SVM 의피쳐리스트의개발에대한문제를다룬다. 본논문에서제안하는피쳐리스트를사용하여좋은성능을가지는첫단계에대한모듈을얻을수있음을관찰하였다. 주제어 : 정보추출, 이벤트추출, 바이오이벤트, 바이오문서, 이벤트탐지. 1. 서론 구글이나네이버등에서볼수있듯이정보검색 (information retrieval; IR) 기술의사회에대한기여는막대하다. 이와마찬가지로정보추출 (information extraction; IE) 기술의발전이사회에제공할기여또한매우클것으로관측된다. 그러나 IE 의가장큰문제인텍스트마이닝 (text mining) 기술의경우상용화에이르기위해서는아직많은발전을필요로하는실정이다. 이러한기술의발전을위해자연어처리연구분야에서는여러텍스트마이닝관련학술대회가개최되었다. 이들중에서도대표적인것으로 BioNLP 학술대회를들수있다. 이미여러해째진행되고있는이학술대회는생명공학과관련된문서를대상으로하는정보추출시스템개발기술의발전을목표로한다. 시스템개발참가팀들은미리공통으로주어진작업 (shared task) 을수행하는시스템의개발을위해서미리제공되는학습데이타 (training data) 를이용할수있다. 본논문에서는 BioNLP-2009 의 ST(shared task) 1 에대한시스템개발을목표로한다. BioNLP-2009 ST-1 은바이오문서에서단백질과관련된이벤트의추출을목표로한다 [1]. 즉문서에서미리정해진종류의이벤트및이벤트에관여된참여자 (participant) 즉논항 (argument) 을인식하는것을목표로한다. 이작업은바이오정보추출의가장기본적인형태로서정보추출과관련된가장핵심 (core) 이되는기술이라고생각된다. 이작업을위한시스템의개발은여러가지접근방법이가능하다. 본논문에서는다음과같이구분된 2 단계로구성된시스템을사용하는것을가정한다. 즉단계 1 에서문서에존재하는이벤트발생 (trigger) 탐지및그것의타입 (type) 을결정한다. 그다음별도의다음단계 2 에서앞에서탐지된각이벤트에대하여그것의논항을채우는참여자를찾아서이벤트를완성하도록한다. 그림 1: 바이오이벤트추출시스템구성. 그러나 BioNLP-2009 ST-1 에참여한팀들은여러형태의다른방식의접근을선택한경우도많다. 예를들면위의두단계를별도로구분하지않고하나의단계로하여이벤트의존재및종류의결정을논항의탐지와병행하는기법을사용하는것이다. 우리는단계 1 을위한모듈의개발을위하여다중 - 클래스 (multiple class) SVM 을사용하기로하였다. 본논문에서는이를위한효과적인피쳐 (feature) 집합의개발을목표로한다. 실험결과본연구에서제안하는피쳐집합을사용하는경우높은성능의단계 1 모듈의개발이가능한것으로생각된다. 단계 2 에대한모듈의개발을위해서먼저우리는기계학습방법을사용하는대신의존트리탐색을통하여이벤트의논항을찾는휴리스틱기반탐색기법을시도해보았으나이기법으로는좋은성능을얻지못하였다. 이모듈에대해서는결국기계학습을포함한다른기법을탐구할필요가있다. - 39 -

2. 관련연구 자연어처리기술의발전을위하여공유작업 (shared task) 문제를설정하고이에대한시스템의개발후그경험을교류하는형태의학술대회가많이이용되었다. 특히텍스트마이닝의경우 MUC, TREC, ACE 등은관련기술의발전에많은기여를한것으로생각된다. 바이오 - 텍스트마이닝의경우도예외는아니어서 TREC Genomics track, JNLPBA, LLL, BioCreative 등과같은학술대회가이에속한다. 이중에서도가장대표적인것으로는 BioNLP 를들수있다 [1]. 이학술대회는 2006 년이래로매년열리고있는데바이오정보추출기술의발전에매우중요한역할을한것으로평가된다. 이러한학술대회에서는 shared task 에대한시스템의개발에도움이되는자원 (resource) 을제공한다. 이의대표적인것은학습에이용될수있는학습데이타이다. 대부분의개별연구자들은비용과시간상의문제로인해독자적으로이러한학습데이타를구축하여사용할형편이되지못한다. 따라서시스템개발에필수적인학습데이타의제공은많은연구집단으로하여금연구및개발을가능케하므로기술의발전에매우중요한역할을한다. 3. 문제정의및데이타 바이오정보추출에대한기본적인기술의개발을목적으로우리는 BioNLP-2009 의문제및데이타를이용한다. 이렇게문제를선정한이유는여기에서주어진문제를연구함으로서가장기초적이고핵심적인이벤트추출기술에대한연구가가능한것으로판단하였기때문이다. 3.1. 문제정의 BioNLP-2009 ST(shared task) 1 의문제는테스트데이타로제공된바이오문서안에서나타난모든이벤트에대하여다음과같은정보를추출하여야한다 : 이벤트의발생을알리는트리거 ( 스트링 ) 탐지 (ETD), 이벤트의타입분류 (ETC), 이벤트에관계된필수논항참여자인식 (EPR). 3.2. 데이타 시스템의개발및실험을위해다음과같은데이타가제공된다. 이와같은데이타는바이오이벤트태깅데이타자원인 GENIA 에서추출한데이타를가공한것이다 [2]. 훈련데이타 (training data): 시스템의학습에이용되는데이타. 개발데이타 (development data): 시스템의튜닝 (tuning) 에이용되는데이타. 테스트데이타 (test data): 시스템의성능측정에사용되는데이타. 위의각데이타는 GENIA 바이오문서집단으로구성되며문장에대하여다음과같은정보가태깅 (tagging) 되어있다 : 단백질 : 단백질을나타내는스트링. 이벤트트리거 : 이벤트발생을알리는스트링. 이벤트 : 고유번호가부여된이벤트. 이벤트논항 : 각이벤트에참여하는논항 ( 들 ). 훈련데이타와개발데이타는위의 4 가지정보가모두태깅되어있다. 테스트데이타의경우에는단백질정보만이태깅되어있다. 바이오이벤트의종류는다음표 1 과같이 9 가지이다. 이표에는각타입의이벤트가가질수있는주요논항 (primary arguments) 이표시되어있다. 표 1. 추출대상이벤트의종류. (Pro: protein, Ev: event) 위표에서괄호속은이러한논항을채울수있는개체의타입을나타낸다. 추출대상이되는 9 가지의이벤트종류는크게 3 종류로다음과같이다시구분될수있다. (1) 단순이벤트 (2) 다중이벤트 (3) 복합이벤트 논항 1 개만을가지는이벤트들로서그림 2 에서처음 5가지가이에해당한다. 그림2 의 binding 타입이벤트로서 1개이상의 Theme 을가질수있다. Theme 과 Cause 논항을한개씩가질수있으며이논항들은단백질뿐아니라이벤트에의해서도채워질수있다. 결국이벤트가이벤트를논항으로포함하는재귀적인구조가가능하므로매우복잡한구조를가지는이벤트의생성이가능하다. 제공되는훈련, 개발, 테스트데이타이외에별도로문장분리, 품사태깅, 의존관계트리정보도제공된다. 개발자는시스템의개발에이러한정보를최대한이용할수있다. 학습용데이타의한문장을예로들면다음과같다 : - 40 -

Phosphorylation of TRAF2 inhibits binding to the CD40 cytoplasmic domain. 이문장에대하여제공되는이벤트태깅정보는다음네모안의내용과같다. 여기에서 T1, T2 는단백질을나타내며 T15, T16, T17 은이벤트트리거를나타낸다. E1, E2, E3 는이벤트를나타내며각이벤트의논항정보도포함한다. T1 Protein 19 24 TRAF2 T2 Protein 49 53 CD40 T15 Phosphorylation 0 15 Phosphorylation T16 Negative_regulation 25 33 inhibits T17 Binding 34 41 binding E1 Phosphorylation:T15 Theme:T1 E2 Negative_regulation:T16 Theme:E3 Cause:E1 E3 Binding:T17 Theme:T1 Theme2:T2 그이벤트의타입이무엇인지를분류해주는 SVM 기반의분류기를사용한다. 이분류기의입력은분류하고자하는현재토큰에대하여생성되는피쳐리스트 (feature vector) 이다. 출력은 1 에서 10 사이의정수로서 10 은트리거가아님을나타내며다른값은이벤트의종류를나타낸다. 본논문은이 ETD/ETC SVM 을위한효과적인피쳐집합의생성에대하여자세히살펴보고자한다. 예를들면 E3 는 E2 의 Theme 논항으로참여하고있다. 이태깅정보는텍스트형태로되어있어전체적인이벤트들의파악이어렵다. 이를다음과같이그림으로표시하면보다이해하기쉽다. 그림 2. 문장의이벤트태깅정보. 4. 바이오이벤트시스템개발 우리는바이오이벤트추출문제에대한시스템의개발을위하여그림 1 에표시된바와같이별도로분리된 2 단계의처리를거치는기법을사용한다 : 단계 1: 이벤트의발생을나타내는단어 ( 열 ) 의탐지및이벤트의타입의결정 (ETD-ETC), 단계 2: 이벤트의주요논항을채우는참여자의인식 (EPR). 4.1. 이벤트트리거 - 타입탐지를위한피쳐개발 단계 1 을이벤트트리거탐지 (event trigger detection; ETD) 와이벤트의타입결정 (event type classfication; ETC) 라는별도의두세부작업 (sub-task) 로나누어 [3] 에서와같이접근할수도있으나, 우리는하나의모듈이이두세부작업을동시에처리하는방법을택한다. 우리는이모듈의개발을위해그림 3 과같이다중 - 클래스 (multi-class) SVM 을사용한다. 그림 3 에서보듯이테스트데이타문장의각단어에대하여이단어가이벤트트리거인지그리고그런경우 그림 3: SVM 에기반한이벤트탐지및타입인식. 실제로 BioNLP-2009 에참여한팀들의경우단계 1 의성능이별로높지않았다. [4, 5] 의경우단계 1 을위하여 CRF 모델을사용하였다. 그러나이단계에대한성능은 F-score 43.3 에머물고있다. [3] 의경우단계 1 은이벤트트리거의존재여부를탐지하고 (event trigger detection), 그다음이벤트의타입을결정하는 (event type classification) 2 개의별도의세부단계로구성되어있다. 이들세부단계는각각 Maximum entropy 모델을이용하여구현되었다. 이시스템의성능을보면 ETD 의경우 F-score 68.5, ETC 의경우 85.20 정확도 (accuracy) 를가져단계 1 의결합성능이 58.32 F-score 를가지는것으로보고되었다. 4.2. ETD-ETC SVM 피쳐리스트 우리는다음과같이매우기본적인피쳐종류에서출발하여점차다양한피쳐를추가함으로써결과적으로좋은성능을가능케하는피쳐집합을이용한다. BF (Basic features) 대부분의분류문제에서항상사용하는가장기본적인피쳐집합이다. 현재토큰인덱스가 i 라하자. 즉 Wi 는현재토큰 (current token) 을나타낸다. 이를기준으로좌우 - 윈도우 (Wi, Wi-1, Wi-2, Wi+1, Wi+2) 안의각토큰에대하여다음과같이 3 가지의피쳐를생성한다. For each of Wi, Wi-1, Wi-2, Wi+1, Wi+2: prepare features of String, Stem, POS PF (Protein features) 좌우 - 윈도우내의각토큰에대하여단백질여부를나타내는피쳐이다. - 41 -

For each of Wi, Wi-1, Wi-2, Wi+1, Wi+2: prepare features of Is_Protein DF (Dependency features) 실험에사용되는모든데이타문장에대한의존파스트리가제공된다. 따라서구문구조적인정보를이용하기위하여우리는다음과같은피쳐를준비한다. 이피쳐집합과관련하여주의할점은단백질여부에대한피쳐도생성한다. For each of LC(closest left child of Wi) RC(closest right child of Wi) LLC(2nd closest left child of Wi) RRC(2nd closest right child of Wi) Par(parent of Wi) Gpar(grandparent of Wi): prepare features of String, Stem, POS, Is_Protein CCLRC (closest child of left or right child) 현재토큰의좌 / 우자식의자식중가장가까운것이단백질인지의여부에대한피쳐이다. For each of CCLC(closest protein child of left child of Wi), CCRC(closest protein chjild of right child of Wi): prepare features of String, Stem, POS, Is_Protein WCP (wide context protein features) 문장내의단백질의개수, 현재단어주변의정해진크기 ( 현재는좌우각 4 단어 ) 의윈도우내의단백질의개수를피쳐로한다. Number of proteins in the window Number of proteins in the sentence ET (event type of current token) 우리는훈련데이타로부터이벤트트리거로사용된모든단어의어근을수집한다. 그리하여각어근에대하여이벤트트리거로가장많이사용된이벤트종류를파악한다. 이에기반하여다음피쳐를준비한다. event class number for which current token s stem was used most 벤트트리거 및이를포함하는 문장 이며, 출력은이이벤트의필수논항을채우는모든 참여자 이다. 참여자는이벤트의타입에따라서단백질또는다른이벤트가될수있다. 단계 2 의작업에대한접근방법은여러가지가가능하다. 예를들면, 단계 1 과마찬가지로분류의문제로접근할수도있다. < 이벤트트리거, 단백질 >, < 이벤트트리거, 이벤트 > 등과같이문장으로부터가능한쌍을구하여이것을 참 또는 거짓 의하나로분류하는것이다. 이러한접근방법의장점은기계학습기법이제공하는특징중의하나인높은 recall 을얻을수있다는점이다. 그러나일차적으로먼저우리는단계 2 를분류문제로접근하지않고의존트리에기반한휴리스틱규칙을사용하여참여자를탐색하는기법을사용하는접근방법을먼저시도해보았다. 그이유는첫째로단계 2 를시작하는시점에서이벤트트리거단어, 이이벤트를포함하는문장, 이문장의의존트리, 이문장내에존재하는모든단백질에대한정보가사용이가능하며, 둘째로술어와논항사이에의존관계가존재한다는것이일반적으로알려져있기때문이다. 즉이벤트추출문제의경우다음과같은가정이그럴듯하다고보기때문이다 : 하나의이벤트와이이벤트의논항을채우는참여자는의존관계경로로연결된다. 우리는학습데이타에대한많은관찰을통하여이가정이상당히타당성이있음을관찰하였다. 이가정에기반한단계 2 의처리는결국이벤트의종류에따라다음과같은방법을사용하기로한다. 1 단순이벤트 2 다중이벤트 3 복합이벤트 4.3. 이벤트참여자인식모듈개발 단계 2 의작업은단계 1 에서탐지한각이벤트에대하여이의논항이되는참여자를찾는작업 (participant searching; PS) 이다. 결국이단계에대한입력은 이 [5] 의연구에따르면의존관계구문구조를효과적으로이용한다면단계 2 만의성능은상당히높을것으로추정된다. 따라서우리의전략은좋은 SVM 피쳐집합의선정을통하여가능하면단계 1 의성능을높이고자하였다. - 42 -

5. 실험결과및평가 5.1. 이벤트트리거및타입탐지 (ETD-ETC) 성능측정 우리는먼저전체시스템의성능을측정하는대신에단계 1 즉이벤트발생탐지및이벤트타입결정작업에대하여성능을측정하여보았다 ( 표 2 참조 ). 우리의가정은단계 1 의성능이전체시스템의성능에큰영향을미친다고보기때문이다. 앞에서설명한대로단계 1 에대한모듈은 SVM 을사용하였다. 그래서이모듈의성능은 SVM 에사용되는피쳐에매우큰영향을받게된다. 앞에서소개한여러피쳐집합의효과를측정하기위해우리는점증적인실험을수행하였다. 즉맨처음에는가장기본적인피쳐집합인 BF 를사용하여시스템을구성하고이에의한단계 1 모듈의성능을측정하였다 ( 표의첫번째행 ). 다음행은앞의시스템에대하여 PF 피쳐를추가하여보다증가된피쳐집단으로시스템을구성하고성능을측정하였다. 이와같은방법으로점진적으로피쳐를추가하여가면서성능을측정하였다. 표 2. 단계 1 에대한성능측정결과. 위의단계 1 의모듈에대한평가는개발데이타 (development data) 를테스트데이타로이용하였다. 그이유는배포한테스트데이타는이벤트에대한태깅이되어있지않기때문이다. 배포된테스트데이타를이용하지못한이유는테스트데이타를이용한시스템평가는전체시스템에대한평가만가능하기때문에단계 1 만에대한평가는수행할수없기때문이다. 이러한문제로인하여우리는훈련데이타를두부분으로나누어일부를훈련에나머지일부를튜닝에사용하고, 배포된개발데이타를테스트데이타로이용하였다. 실험결과우리시스템의단계 1 모듈의성능은 61.85 의 F-score 로측정되었다. 우리시스템과유사하게구분된단계 1 을사용하는두개의시스템으로 [4] 와 [5] 가있다. 이들시스템의경우 CRF 를사용하여이모듈을개발하였다. 그들시스템의단계 1 에대한성능은 43.3 의 F-score 로관찰되었다. [3] 의경우단계 1 을두개의세부단계로나누어구현하였는데단계 1 에해당하는성능이 58.32 F-score 를가지는것으로보고되었다. 이 러한결과에따르면우리시스템의단계 1 모듈이다른시스템에비해좋은성능을보임을알수있다. 즉우리가제시하는피쳐들을사용하는경우좋은시스템을달성할수있다고할수있다. 5.2. 이벤트참여자인식 (EPR) 성능측정 우리는단계 2 즉 EPR 에대한성능을별도로측정하지않고단계 1 과단계 2 를합친전체시스템의성능을측정하여그결과를표 3 에나타내었다. 특히이벤트의종류에따른이벤트추출문제의난이도를알아보기위해각종류에따른성능도표시하였다. 표 3. 전체시스템성능. GS: 정답집합, Sys: 시스템출력, GS Sys: true positive, R: recall, P: precision, F-s: F-score. 위표를보면단순이벤트의경우는단계 1 의성능에별로떨어지지않는전체성능을보이는것으로볼때 EPR 모듈만의성능은상당히좋은것을알수있다. 그러나복합이벤트의경우 2.30 F-score 의성능을가지는데이는이종류의거의모든이벤트의추출에실패함을알수있다. 특히복합이벤트의수가전체이벤트들에서차지하는비중이 55% 를차지하므로전체시스템의성능을 23.05 로저하시키게되었다. 이벤트추출시스템의전체성능향상을위해서는각이벤트종류별로성능향상을추구하여야하지만특히아주낮은성능을가지는복합이벤트와관련하여보다개선된의존트리기반휴리스틱의기법을개발하여야할것이다. 6. 결론 본논문에서는바이오분야문서에서바이오이벤트의발생및그타입그리고이벤트의논항을채우는참여자의인식을수행하는시스템개발에대한문제를다룬다. 우리가제안한시스템은이벤트발생의탐지및그타입의인식 (ETD-ETC) 을위한별도의단계를가지는데여기에서는다중 - 클래스분류에적합한 SVM 을이용한다. 우리는여러가지다양한피쳐를사용함으로써높은성능을가지는 ETD-ETC 단계를위한모듈의개발이가능함을보였다. 이벤트논항의참여자인식 (EPR) 모듈의경우 - 43 -

현재로서는의존트리기반휴리스틱에의한탐색기법을사용하여보았다. 그러나보다더높은성능을위해서는기계학습기법등다른기법을시도할필요가있음을알게되었다. 참고문헌 [1] J. Kim, T. Ohta, S. Pyysalo, Y. Kano and J. Tsujii, "Overview of BioNLP 09 Shared Task on Event Extraction," Proceedings of the Workshop on BioNLP: Shared Task, pages 1 9, 2009. [2] J. Kim, T. Ohta and J. Tsujii, "Corpus annotation for mining biomedical events from literature," BMC Bioinformatics 9:10, 2008. [3] H. Lee, H. Cho, M. Kim, J. Lee, G. Hong and H. Rim, "A Multi-Phase Approach to Biomedical Event Extraction," Proceedings of the Workshop on BioNLP: Shared Task, pages 107 110, 2009. [4] G. Georgiev, K. Ganchev, V. Momtchev, D. Peychev, P. Nakov and A. Roberts, "Tunable Domain-Independent Event Extraction in the MIRA Framework," Proceedings of the Workshop on BioNLP: Shared Task, pages 95 98, 2009. [5] F. Sarafraz, J. Eales, R. Mohammadi, J. Dickerson, D. Robertson and G. Nenadic, "Biomedical Event Detection using Rules, Conditional Random Fields and Parse Tree Distances," Proceedings of the Workshop on BioNLP: Shared Task, pages 115 118, 2009. - 44 -

1. 서론 질의응답시스템을위한반교사기반의정답유형분류 박선영 O, 이동현, 김용희, 류성한, 이근배포항공과대학교, 컴퓨터공학과 {sypark322, semko, ttti07, ryush, gblee}@postech.ac.kr Semi-Supervised Answer Type Classification For Question-Answering System Seonyeong Park O, Donghyeon Lee, Yonghee Kim, Seonghan Ryu, Gary Geunbae Lee Department of Computer Science and Engineering, POSTECH 요약 기존연구에서는질의응답시스템에서정답유형을분류하기위해패턴매칭방식이나교사학습 (Supervised Learning) 을이용했다. 패턴매칭방식은질의분석을통해수동으로패턴을구축해야한다. 교사학습에서는훈련데이터전체에정답유형이태깅 (Tagging) 되어야하며, 이를위해서는사용자의질의에정답유형을수동으로태깅하는작업이많이필요하다. 웹을통해정답유형이태깅되지않은대용량의사용자질의말뭉치를구할수있지만, 이데이터에는정답유형이태깅되어있지않다. 따라서, 대용량의사용자질의에비례하여, 정답유형을수동으로태깅하는작업량이증가한다. 앞서언급한두가지방법론에서, 정답유형분류를위해수작업이많이필요하다는문제점을해결하고자본논문에서는일부태깅된훈련데이터를필요로하는반교사학습 (Semi-supervised Learning) 에기반한정답유형분류를제안한다. 이는정답유형분류작업에필요한노동력을최소화함으로대용량의데이터를통한효율적질의응답시스템구축을가능하게한다. 주제어 : 정답유형, 질의응답시스템, 잠재디리쉴레할당 (Latent Dirichlet Allocation, LDA) 질의응답시스템은많은양의정보를바탕으로사용자의질문에정확한답을찾아주는시스템이다. 질의응답시스템은기존의검색엔진과다르게, 불필요한정보를제외하고, 사용자가찾고자하는정보만을제공한다는장점이있다. 따라서, 질의응답시스템이제공하는서비스는정보검색의궁극적인목표와부합하며, 빅데이터시대에정보의효율적사용이필요하다는측면에서각광받고있다. 이러한, 질의응답시스템개발은해외에서뿐만아니라국내에서도중요한이슈로떠오르고있다. 질의응답시스템은크게질의분석단계, 정답과관련된문서추출단계, 문서로부터정답을추출하는단계로나눠져있다. 질의분석단계에서는정답과관련된문서검색을위하여, 사용자의질의에서키워드, 정답유형등을추출한다. 질의응답시스템에서정답유형이란사용자가질의를통해찾고자하는정답의유형을말한다. 따라서, 질의분석단계에서분석된정답유형은문서에서정답을찾을때, 검색제약조건으로활용된다. 사용자질의에서정답유형을추출하는작업은질의응답시스템에필수적인요소이다. 대부분의질의응답시스템개발에서정답유형정보를활용하고있다 [1-8]. 정답유형결정은 n 가지정답유형들중하나의유형으로분류하는문제로정의되어왔다. 기존의시스템개발에서는사용자의질의에서정답유형을결정하기위해교사학습을이용하거나패턴과규칙을활용했다 [1-8]. 표 1 은정답유형과질의에대한예를보여준다. 표 1 정답유형의예 패턴과규칙에기반한방법을사용하기위해서는사용자질의를분석하여수작업으로패턴을구축해야한다. 최근의질의응답시스템에서는패턴과규칙만을이용하여정답유형분류를하지않고, 통계모델을함께사용하는경우가대부분이다 [2-6,8]. 통계모델을사용하는최근의정답유형분류연구는교사학습을이용한다 [2~6,8]. 교사학습에서정답유형분류모델훈련을위해서는각사용자질의에정답유형이모두태깅된훈련데이터가필요하다. 사용자질의데이터는웹을통해서쉽게수집할수있지만, 사용자질의에정답유형이태깅된데이터는구하기어렵다. 따라서기존연구에서는사용자질의에정답유형을수동으로태깅하여훈련데이터를제작했다 [2-6,8]. 정답유형수동태깅에대한작업량을줄이고자, 본논문에서는교사학습방법대신에반교사학습방법을이용하여정답유형을분류하였다. 반교사학습은일부만태깅된훈련데이터를통해정답유형분류모델제작이가능하다. 본논문에서는반교사학습기반의잠재디리쉴레할당 (Semi-Supervised Latent Dirichlet - 45 -

Allocation, Semi-Supervised LDA) 을이용하였다. 일부태깅된데이터를이용하여정답유형을분류하였고, 정확도를측정하였다. 또한같은양의태깅된훈련데이터를이용하였을때교사학습방법에의한정답유형분류보다정확도가높다는결론을얻었다. 본논문의구성은다음과같다. 2 장에서는관련연구를소개하고, 3 장에서는방법론소개와본논문에서제안하는시스템구조및정답유형분류방법에대해설명한다. 4 장에서는실험과정에대해서술하고, 결과를분석하였다. 마지막으로, 5 장에서는결론및향후연구에대해기술하였다. 에필요한노동력을최소화하는방법을제안한다. 3. 반교사정답유형추출방법 3.1 LDA 를이용한정답유형분류 2. 관련연구 정답유형이라는개념은 1999 년 TREC(Text REtrieval Conference)-8 에출전했던, 질의응답시스템 LASSO 에의해처음으로도입되었다 [1]. 이후많은질의응답시스템에서정답유형분류단계를질의응답시스템개발에서활용하였다 [1-8]. 2001 년 TREC-10 에출전했던질의응답시스템 SiteQ[7] 는 2 단계계층구조를가지는정답유형분류체계를구성하였다. 또한어휘의미패턴 (Lexical-Semantic Patterns, LSP) 을이용하여정답유형을결정하였다. 사용자의질의를미리정의한 LSP 에대응시켜서정답유형을결정하였다. 예를들면,(%who)(%be)(@person)->PERSON 이라는 LSP 가있다. Who was president Cleveland's wife?" 라는예문은 (%who)(%be)(@person) 라는 LSP 에대응하기때문에예문의정답유형은 PERSON 이된다. 이방법론을적용하기위해, 기존 QA Track 에사용한질문들과웹데이터를수집하여수작업으로 361 개의 LSP 를구성하는노력이선행되었다. 2007 년도에 TREC 에출전한 Ephyra 라는질의응답시스템은 154 개의정답유형을사용했으며,[6] 과마찬가지로계층구조를가지는정답유형분류체계를구성했다. TREC 에서사용한질문들을반영하여정답유형클래스를구성했다. 정답유형분류에대해비중있게다루고있으며, 규칙기반의방법과통계적학습모델방법두가지를하이브리드하여사용하였다 [3]. ETRI 에서는 [3] 의 Ephyra 시스템과마찬가지로, 구조적자질벡터기계 (structured Support Vector Machine) 와규칙에기반한방법을하이브리드 (Hybrid) 하였다 [5]. 통계방법을적용하기위한학습데이터를제작하기위해, 약 82000 개질문에대해정답유형을수동태깅하는노동력이필요했다. 이때사용한질문데이터는국내지식검색사이트에서추출한것이다. 이처럼, 정답유형이태깅된데이터를구하는것은쉽지않기에자체적으로수동태깅을한경우가대다수이다. 또한정답유형이태깅된데이터는영어외에기타언어에서는양적인측면에서더욱부족한실정이므로, 영어데이터를번역하여훈련데이터로사용한경우도있었다 [2]. 앞서언급했던패턴매칭방법이나교사학습을이용한정답유형결정방법은다량의수작업을필요로한다. 본논문에서는반교사학습을통해정답유형분류 그림 1 정답유형분류를위한 LDA 의도식 LDA 는 2003 년 M.Blei 에의해제안된비교사학습 (Unsupervised Learning) 으로텍스트말뭉치와같은이산형데이터 (Discrete data) 집합에대한생성확률모델 (Generative Probabilistic Model) 이다. LDA 는베이지안모델 (Bayesian model) 로써, 생성확률모델은확률과파라미터로부터데이터가생성된다는관점을나타낸것이다. 정답유형을결정하기위해서 LDA 를적용할때는, 기존의정답유형분류와다르게, 정답유형을기준으로클러스터가생성된다고본다. 즉, 정답유형으로부터여러자질들로표현되는질의가생성되는것으로볼수있다. 관련연구로는사용자의발화의도로부터발화를구성하는단어들이생성된다는관점에서의연구가있었다 [9]. 정답유형의분포를나타내는 는하이퍼파라미터 (Hyper Parameter) 의디리슐레프로세스 (Dirichlet Process) 로부터생성된다. 상태 (State), 즉클러스터에해당하는 z 는정답유형을나타낸다. z 는 의다항분포 (Multinomial distribution) 를따른다. 각문장에서추출한자질들을나타낸 f 는정답유형 z 와파라미터 의 다항분포에의해생성된다. 본논문에서는일부태깅된데이터를이용하여 Semi-Supervised LDA 를정답유형분류에적용한다. 3.2 제안하는질의응답시스템본논문에서는 DBpedia 1) 나 YAGO 2) (Yet Another Great Ontology) 와같이구조화된 DB 를활용한질의응답시스템을제안한다. 위키피디아에서구조적인정보를추출하여공개적으로제공하는 DBpedia 를활용하였고, 위키피디아와워드넷 (WordNet) 에서추출한온톨로지인 YAGO 도 DB 로활용할계획이다. 뿐만아니라 FreeBase 3) http://dbpedia.org 2) http://www.mpi-inf.mpg.de/yago-naga/yago/ http://www.freebase.com/ - 46 -

나기타구조화된 DB 를추가하여 DB 를확장하는연구를진행하고있다. 궁극적으로는웹기반오픈도메인질의응답시스템으로개발을확장할것이다. 본논문에서제안하는질의응답시스템은그림 2 와같다. 그림 3 제안하는정답유형분류 그림 2 제안하는질의응답시스템구조도 3.2.1 질의분석모듈사용자의질의에서 <Subject-Property-Object> 형태의트리플을추출한다. 사용자의질의에서사용자가찾고자하는정보인질문초점 (Question Focus) 을찾는다. 질문초점은예를들어 What is the largest city in Germany?" 라는문장이있을때, Largest city 가된다. 질문초점을 Subject 또한 Object 로추출하고, 질문초점의유형으로, 정답유형을추출한다. 정답유형을결정하여최종적으로정답을추출하는데활용한다. Parser 와 relation Extractor 를혼용하여 Property 와 Subject 또는 Object 를추출한다. 3.2.2 트리플검색모듈사용자의질의에서 <Subject-Property-Object> 형태의트리플과정답유형을추출하여 DBpedia 및 YAGO 와같은구조화된 DB 에서검색한다. Property 와 Object 또는 Subject 가일치하고정답유형이일치하거나, 정답유형의하위유형 ( 정답유형이사람일때, 정답유형분류체계가사람 - 가수일때, 검색대상이가수인경우 ) 이일치하거나, 상위유형 ( 정답유형이가수일때, 검색대상이사람인경우 ) 이일치하는트리플들을검색한다. 3.2.3 정답추출모듈정답유형과 Subject, Property, Object 등을이용하여 Scoring measure 를통해순위를정한다. 최종적으로가장정답일확률이높은것을정답으로추출한다. 3.3 제안하는정답유형분류본논문에서는일부태깅된데이터를이용한 Semi-Supervised LDA 를적용하여정답유형을분류한다. 이를통해정답유형태깅에대한노동력절감효과와수동태깅에서비롯된모호성문제를해결할수있다. 본논문에서제안하는정답유형분류는그림 3 과같다. 3.3.1 자질추출모듈 LASSO 시스템에서정답유형은의문사를이용한질문유형 (Question Type) 과질문초점 (Question Focus) 을통해결정한다 [1]. 따라서, 의문사와질문초점을자질로사용했다. 그외에자질로는사용자질의의본동사 (main verb) 가있다. 본동사는사용자의질의의도를반영하는경우가많기때문에자질로서추출했으며, TREC 에서우수한성능을보인 Ephyra 시스템 [3] 에서도추출하였다. 본동사추출을위해서 Stanford Parser 1) 를이용하였다. 또한질의에서의문사의앞뒤어휘정보를이용하였다. 이를통해 how many, how much 등을구별할수있다. 그외에어휘정보로는다른품사보다문장에서중요한역할을하는명사, 동사에해당하는어휘정보를사용하였다. 또한 DBpedia 를활용하여질의에고유명사가있는경우 DBpedia 에서제공하는 < 개체명 (Named-Entity), 개체유형 (Named-Entity Type)> 데이터에서검색하여고유명사의개체유형정보를자질로이용하였다. 3.3.2 Semi-LDA 적용모듈앞서, 추출된자질을바탕으로 Semi-Supervised LDA 를적용하여정답유형을분류하였다. 정답유형분류는구조화된 DB 에서의검색을위해위키피디아와 Wordnet 을연동한 YAGO 의분류체계를활용하였다. YAGO 의분류체계는약 1,700,000 가지개체들로구성되어있다. UIUC 의정답유형은이에모두 1:1 대응가능하다. 뿐만아니라 UIUC 의 other 과같은유형은더세분화가능하여대응가능하다. 일부태깅된데이터를포함하여클러스터링하기때문에각각의클러스터 ID 에해당하는정답유형이정해져있다. 정답유형분류에대한성능은실험에서기술하였다. 4. 실험 4.1 실험설계정답유형분류에서많이사용하고있는교사학습방법과본논문에서제안하는반교사학습방법을비교한다. 반교사학습은교사학습과다르게일부태깅데이터를통해학습이가능하다는장점이있음으로이부분을검증한다. 교사학습방법으로 CRF(Conditional Random Fields) http://nlp.stanford.edu/software/lex-parser.shtml - 47 -

를이용한다. 정답유형분류에대한 CRF 와 Semi-Supervised LDA 의정확도를측정한다. 전체학습데이터에서정답유형이태깅된데이터의비율에따른각알고리즘의성능을측정한다. 랜덤으로태깅데이터를추출하며, 교사학습인 CRF 와의성능비교를위해각정답유형이 1 회이상훈련데이터에반영되도록한다. 각각의정답유형에대한성능을측정하여성능이높은정답유형과성능이낮은정답유형을비교분석한다. 4.2 데이터 UIUC(University of Illinois at Urban-Champaign) 가정답유형분류실험에서사용한약 5500 개질의를훈련데이터로사용하였다. 테스트데이터로는 TREC 10 에서사용한 500 개를사용하였다. UIUC 에서정답유형분류실험에사용한데이터는기존의연구들에서도많이사용한공신력있는데이터이다 [2]. TREC 에서제공하는테스트데이터도질의응답시스템관련연구에서성능측정의목적으로활발히활용하고있다 [2]. 본논문에서는실험결과를실제질의응답시스템개발에활용하는것을목적에두고있다. 따라서, 위키피디아기반질의응답시스템제작을위해 YAGO 의분류체계와 UIUC 의정답유형을대응하는작업을선행하였다. 숫자나날짜등어떤글자도 YAGO 온톨로지에서개체로표현되어있다. 따라서, YAGO 의분류체계에 UIUC 의각정답유형이모두대응가능함으로 UIUC 의 50 가지정답유형분류체계와동일한분류체계를이용하였다. Coarse Class ABBREV. ENTITY DESCRIPTION HUMAN LOCATION NUMERIC 표 2 UIUC 에서제공하는정답유형분류체계 Fine Classes abbreviation, expression animal,body,color,creative,currency,dise ase,event,food,instrument,lang,letter,ot her,plant,product,religion,sport,substan ce,symbol,technique,term,vehicle,word definition,description,manner,reason group,individual,title,description city,country,mountain,other,state code,count,date,distance,money,order,oth er,period,percentage,speed,temp,volumesi ze,weight 4.3 실험결과및분석표 3 은훈련데이터중정답유형이태깅된데이터의비율에따라 Semi-Supervised LDA 와 CRF 의정확도를비교한것이다. Semi-Supervised LDA 는정답유형이태깅된데이터와태깅되지않은데이터를모두훈련에사용하였다. CRF 는훈련데이터에모두정답유형이태깅되어야하기때문에, 태깅된데이터만훈련데이터로사용하였다. 표 3 에따르면, 태깅된데이터가 10% 일때, 즉 5000 개이상의훈련데이터중에서 500 개이상의태깅된데이터를포함하여클러스터링하였을때, CRF 보다높은성능을보인다. 이결과는반교사학습을통해정답유 형을분류하는것이정답유형태깅노동력을줄일수있다는가능성을나타낸다. 25% 태깅된경우는거의동일한성능을보이며, 50%, 60%, 75%, 100% 태깅되었을경우에는 CRF 와같거나높은성능을보인다. 실험결과에대한분석을위해, 높은정확도를보인정답유형들과낮은정확도를보인정답유형들을분석하였다. 표 3 태깅된데이터비율에따른정확도비교 Percentage Semi-Supervi sed LDA CRF Semi-Supervised LDA 을통해정답유형을분류하였을때, 수량 (NUM_COUNT), 날짜 (NUM_date), 사람 (HUM_ind) 에해당하는정확도가높았다. 반면, 스포츠 (ENTY_sport) 나화폐 (ENTY_currency), 교통수단 (ENTY_veh), 사건 (ENTY_event) 등은정확도가낮았다. 정확도가높았던정답유형들을특징들을분석한다. 첫째, 정확도가가장높았던정답유형인수량은 "How many ~" 로시작하는경우가대부분이라는특징을보였다. How many 또는 How much" 는정답유형이수량인경우를제외하고거의쓰이지않은어휘정보이다. 둘째, 높은정확도를보였던날짜역시주로 "When was" 로시작되는문장유형이많았고, 질문초점인 year" 가빈번하게나타났다. 또한, 정답유형이날짜로클러스터된질의의자질중에본동사가 was 인경우가대부분이다. 셋째, 정답유형이사람인경우도의문사가대부분 who" 라는특징이두드러지며, 본동사로 "was" 나 "is" 가포함된문장이많다. 또한, 문장내에서고유명사를포함하는경우가많다. 뿐만아니라, 전체훈련데이터에서정답유형이사람인질의가차지하는비중이약 1/5 이상으로높다. 정확도가낮았던정답유형들중교통수단에대한정확도를분석한다. 실제정답유형은교통수단이지만, 정답유형이사람, 그룹, 날짜, 동물등다양한정답유형으로클러스터링된경우가많다. 예를들어정답유형이사람인것에클러스터링된경우는 What was the name of the plane Lindbergh flew solo across the Atlantic? 가있는데본동사와고유명사와같은자질에영향을받았을것으로분석된다. 클러스터링은 빈익빈부익부 의성격을갖기때문에, 새로운데이터는기존에형성된클러스터의크기에비례하여클러스터링된다. 즉, 새로운데이터는크기가큰클러스터에속할확률이크다 [10]. 실제로크기가큰클러스터에다른정답유형을가지는질의가속한경우는많았다. 하지만, 다른정답유형을가지는질의가교통수단클러스터처럼작은클러스터에속한경우는거의없었다. 즉, 훈련데 - 48 -

이터에서큰비중을차지하는사람과같은정답유형은사람이라는클러스터에다른정답유형들이함께포함되어성능이떨어지는경향이있다. 반면에, 훈련데이터에서작은비중을차지하는교통수단과같은정답유형은교통수단에속하는질의가다른클러스터들에속하게되어정확도가떨어지는경향을보였다. 아래그림 4 는훈련데이터에서큰비중을차지하는정답유형이정확도가높은예들을보여준다. 가로축은각정답유형이훈련데이터에서나타나는빈도수이며세로축은각정답유형의정확도이다. 훈련데이터의태깅비율이달라도데이터의분포는그림 4 와비슷한양상을띤다. 그림 4 50% 태깅데이터로훈련했을때, 훈련 데이터에서차지하는비중에따른정확도분포 5. 결론및향후연구 본논문의실험을통해동일한양의태깅데이터가주어졌을때, Semi-supervised LDA 가 CRF 보다대체적으로높은성능을보이는것을확인할수있었다. Semi-supervised LDA 는태깅된데이터와태깅이안된데이터를함께이용할수있지만, CRF 는태깅된데이터만학습에이용할수있다. 따라서, 반교사기반의정답유형분류방법을통해정답유형태깅노동력을줄일수있다는결론을얻었다. 하지만임의의질의말뭉치들을정답유형별로클러스터링할때, 전체데이터에서차지하는비중이작은클러스터들의정확도를향상시키는연구가필요하다. 또한웹에서수집한질문의경우정답유형이정해져있지않다. 이러한대용량의데이터에정답유형을분류하기위해서계층적드리쉴레프로세스 (Hierarchical Dirichlet Process,HDP) 를이용한연구를진행중이다. HDP 를통해분류된각각의클러스터들을 YAGO 의분류체계에대응시키는연구를진행할것이다. 뿐만아니라, 본논문의연구결과를활용하여, 정답유형레이블이부족한한국어질의데이터를자동레이블링할것이다. 이를바탕으로, 한국어질의응답시스템개발에대한연구를진행할것이다. 가학습지능원천기술개발 ] 참고문헌 [1] Dan Moldovan et al., "LASSO: A Tool for Surfing the Answer Net," TREC, Vol.8, p.65-73, 1999 [2] Anne-Laure Ligozat, "Question Classification Transfer," Proceedings of the Association for Computational Linguistics, p.429-433, 2013 [3] Nico Schlaefer et al., "Semantic Extensions of the Ephyra QA System for TREC 2007," TREC, 2007 [4] Xin Li et al., "Learning question classifiers," Proceedings of the international conference on Computational linguistics", Vol.1, p.1-7, 2002 [5] 허정외, " 오픈도메인질의응답을위한검색문서제약및정답유형분류기술," 정보과학회논문지 : 소프트웨어및응용, 제 39 권, 제 2 호, 2012 [6] Xin Li et al., "The role of semantic information,"natural Language Engineering, Vol.12, no.3, p.229-249, 2006 [7] Gary Geunbae Lee et al., SiteQ: Engineering High Performance QA System Using Lexico-Semantic Pattern Matching and Shallow NLP," TREC, 2001 [8] 송일현외, 실시간검색어를이용한주제어기반의질의응답시스템, 제 23 회한글및한국어정보처리학술대회, 2011 [9] Donghyeon Lee et al., "Unsupervised modeling of user actions in a dialog corpus," Proceeding of the IEEE international conference on acoustics, speech, and signal processing, 2012 [10] David Blei et al., "The nested chinese restaurant process and bayesian nonparametric inference of topic hierarchies," Journal of the ACM, Vol.57, no.2, 2010 * 본연구는미래창조과학부및한국산업기술평가관리원의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [ 10044508, 비기호적기법기반인간모사형자 - 49 -

l 상품평가텍스트에암시된사용자관점추출 읽기매체의다양성과흥미도를고려한가독성측정 토픽모델표현에기반한모바일앱설명노이즈제거 Latent Structural SVM 을확장한결합학습모델

상품평가텍스트에암시된사용자관점추출 장경록 O, 이강욱, 맹성현한국과학기술원 kyoungrok.jang@kaist.ac.kr, chaximeer@kaist.ac.kr, myaeng@kaist.ac.kr Extracting Implicit Customer Viewpoints from Product Review Text Kyoungrok Jang O, Kangwook Lee, Sung-Hyon Myaeng Korea Advance Institute of Science and Technology 요약온라인소비자들은 amazon.com 과같은온라인상점플랫폼에상품평가 ( 리뷰 : review) 글을남김으로써대상상품에대한의견을표현한다. 이러한상품리뷰는다른소비자들의구매결정에도큰영향을끼친다는관점에서볼때, 매우중요한정보원이라고할수있다. 사람들이남긴의견정보 (opinion) 를자동으로추출하거나분석하고자하는연구인감성분석 (sentiment analysis) 분야에서과거에진행된대다수의연구들은크게는문서단위에서작게는상품의요소 (aspect) 단위로사용자들이남긴의견이긍정적혹은부정적감정을포함하고있는지분석하고자하였다. 이렇게소비자들이남긴의견이대상상품혹은상품의요소를긍정적혹은부정적으로판단했는지여부를판단하는것이유용한경우도있겠으나, 본연구에서는소비자들이 어떤관점 에서대상상품혹은상품의요소를평가했는지를자동으로추출하는방법에초점을두었다. 본연구에서는형용사의대표적인성질중하나가자신이수식하는명사의속성에값을부여하는것임에주목하여, 수식된명사의속성을추출하고자하였고이를위해 WordNet 을사용하였다. 제안하는방법의효과를검증하기위해 3 명의평가자를활용하여실험을하였으며그결과는본연구방향이감성분석에있어새로운가능성을열기에충분하다는것을보여주었다. 주제어 : 전자상거래, 감성분석, 상품속성추출, 상품리뷰 E-commerce, Sentiment Analysis, Aspect Extraction, Product Reviews 1. 서론웹은사람들이모여다양한주제에대한의견을교환하는장소가되었다. 사용자들이웹상에서상품이나서비스에대해표현한의견을담고있는평가텍스트는전자상거래분야에서특히중요한데, 그이유는그러한의견들이다른온라인소비자들의구매결정에직접적인영향을미치기때문이다. 웹의개방적인특성덕분에소비자들이온라인상에남기는 상품리뷰 를담고있는텍스트의양이급격하게증가하였고, 자연스럽게상품리뷰에담긴방대한양의의견정보를자동으로분석하는방법이필요해졌다. 감성분석 (sentiment analysis)[3, 4, 7, 8, 13, 14, 16] 은이러한필요에맞춰대두된연구분야로서, 텍스트형태로표현된의견정보를자동으로추출하고분석하는것을목표로한다. 주로텍스트에포함된의견이상품을긍정적이거나부정적으로판단했는지여부를판단하는것을판단하게된다. 감성분석연구의초기에는개별 문서 단위별분석에서시작하였으나, 최근에는상품의특성 (aspect) 단위로분석하고자하는특성기반감성분석 (aspect-based sentiment analysis) 연구가많은주목을받기시작했다. 특성기반감성분석은소비자가대상상품의어떤특성 ( 예 : 화면, 외관 ) 에대해긍정적이거나부정적의견을표했는지를분석하는것을목표로한다. 예를들어 " 이스마트폰의화면은밝지만, 배터리수명이너무짧다 " 라는문장에서, 두가지의다른의견 이대상스마트폰의두가지특성에대해표현되었다. 화면 ( 특성 ) 은밝다는긍정적의견과배터리수명 ( 특성 ) 은짧다는부정적의견이같이존재하므로특성별판단이중요하다. 같은상품이라도각특성별로표현된평가는다를수있기때문에, 대상상품의각특성별로어떤의견이표현되었는지를인식하는것은매우중요하다. 비록현재로선특성기반감성분석 [4, 6, 7, 10, 15] 이가장상세한수준의분석방식이지만, 이분석방식에도여전히한계는남아있다. 대부분의관련연구들이대상측면에대해표현된의견의극성 (polarity) 을판별하는데그쳤기때문이다. 물론이러한형태의분석이유용한경우도있겠지만좀더상세한형태의분석도가능하다. 예를들어 이엔진은시끄럽다 라는문장에서, 우리는의견을표현한소비자가엔진을부정적으로평가하고있다는것뿐만아니라, 엔진을소음이라는 관점 (viewpoint) 에서평가하고있다는것역시알수있다. 소비자들은같은상품이라도다양한관점에서평가하기마련이므로, 이러한관점들을파악하는것은소비자들이왜상품에대해긍정적이거나부정적인의견을표현하는지를이해하는데도움을줄수있다. 본논문에서는사람들이상품을평가하기위해표현한의견에암시된관점을추출하는문제를정의하고그방법을제안한다. 본논문에등장하는 대상 (target) 이라는용어는, 상품그자체 ( 예 : 자동차 ) 를나타내거나상품의특정 aspect( 예 : 엔진 ) 를가리키기위해 - 53 -

사용된다. 본연구에서제안하는방식은의견이나타난문장에포함된형용사로부터관점 ( 예 : 소음 ) 을추출하는것인데, 이는형용사가의견을표현하기위해가장흔히사용되는품사이기때문이다. 의견에암묵적으로표현되는관점을추출하게되면사람들이상품의어떤측면에관심을기울이고평가하였는지를이해할수있게되어다양한의견텍스트에존재하는평가정보를요약하는데도움이된다 ( 그림 1). 그림 1 관점 (viewpoint) 기반감성분석 언어학분야에서수행된연구에따르면, 형용사가가진유일한역할은그것이수식하는명사의특정속성 (attribute) 에어떠한값 (value) 을부여하는것이다 [11]. 예를들어 이카메라는무겁다 라는문장에서, 형용사인 무겁다 는그것이수식하는명사인카메라의속성중하나인 무게 에값을부여하고있다. 본연구에서는이러한속성이사람들이상품을평가할때가졌던관점과일치한다는가설을세웠다. 즉사람들이 무겁다 라는형용사를사용하여의견을표현한이유는, 그들이카메라를 무게 의관점에서평가하고자하였기때문인것이다. 따라서우리가제안하는태스크는형용사가가지고있는값을사용해서수식하고있는그대상이가지고있는속성을추출하는것이라고도말할수있다. 형용사가값을부여하는속성을추출하기위해, 본연구에서는거대한영문어휘리소스인워드넷 (WordNet) [12] 을활용하였다. 워드넷에서모든형용사 synset 은 2,500 개이상의클러스터로구성되어있으며, 각각의클러스터들의중심에는 head synset 이라는특수한유형의 synset 이한쌍존재한다. 그한쌍의 head synset 은서로반의어관계를가지고있어반대말쌍 (antonymous pair) 이라고불리며, 해당클러스터에속한형용사들이값을부여하는속성의양극값 (bipolar values) 을나타낸다. 예를들어, small-large 로이루어진반대말쌍에서는 size 라는속성의양극값을나타내며, 이반대말쌍을중심으로그와유사한의미를가진형용사 synset (satellite synset) 들이뭉쳐하나의클러스터를이루고있다. 따라서같은클러스터에포함된모든형용사 synset 들은모두양극값중하나를나타내고있다. 따라서형용사가값을부여하는속성을알아내기위해서는, 먼저해당형용사가어떤클러스터에속하는지를알아내고, 그클러스터를대표하는 head synset 을인식한다음, 마지막으로그 head synset 이나타내는속성을추출하면된다. head synset 이나타내는속성은워드넷상 에코딩되어있어쉽게알아낼수있다. 하지만워드넷상에서모든 head synset 이자신과연관된속성을가지고있지는않다. 워드넷상에있는 2,500 개이상의형용사클러스터중오직 620 개의 head synset 들만이연관된속성을가지고있다 ( 워드넷 3.0 기준 ). 이커버리지문제를해결하기위한방법으로, 사용하려고하는 head synset 과연관된속성이워드넷에없는경우그와유사한다른 head synset 에서대신연관된속성을추출하도록하였다. 워드넷에서유사한 head synset 끼리는 also see 라는관계를통해서로연결되어있으므로이관계를활용하면된다. 또다른문제는같은형용사라할지라도그것이나타내는의미 (sense 혹은 synset) 가여러개있을수있기때문에여러개의 head synset 과연관되어있을수있다는것이다. 해당형용사의어떤 head synset 을선택하느냐에따라최종적으로추출되는속성 (attribute) 이달라지므로사용된의미에맞는 head synset 을선택하는것을매우중요하다. 본연구에서는사람들이상품에대한의견을표현하기위해형용사들을사용한만큼극성점수 (polarity score) 가가장높은의미로형용사를사용했을것이라고간주하였고, 그러한의미를나타내는 head synset 을선택하는것이속성추출의정확도에기여할것이라고가정하였다. 형용사의각의미가가진극성점수를계산하는데는 SentiWordNet [1] 을활용하였다. SentiWordNet 은워드넷에포함된모든 synset 들에극성점수를부여한영문리소스이다. 본연구에서는위에서설명한방식으로형용사로부터추출한 속성 이, 실제로사람들이상품에대해표현한의견에암시된 관점 과일치하는지를검증하고자하였다. 평가를위해 110 개의테스트케이스들이생성되었고각테스트케이스는상품을평가한문장과, 그문장에포함된형용사로부터추출한속성으로구성되어있다. 우리는평가자들에게생성한테스트케이스들을보고 추출된속성이의견문장에암시된관점과일치하는가? 를질문하였다. 실험및평가결과는본논문에서제안하는관점추출태스크가쉽지는않지만충분히발전가능성이있다는점을보여주고있다. 2. 관련연구본연구는특성기반감성분석 [7, 10] 과관련되어있다. 해당태스크는 몇퍼센트의사람들이타겟을긍정적이거나부정적으로평가했는지 와같은식으로의견을 정량적 으로요약하는것을목표로한다. 이런수준의분석도물론유용하지만, 만약우리가 사람들이어떤관점에서타겟을평가하였는지 라는질문에대답할수있다면, 사람들의의견에대해더욱자세하게이해할수있을것이다. 우리가아는한우리의연구는이러한질문에답하고자한최초의연구이다. 암시된특성검출 (implicit aspect extraction) 연구 [4, 6, 15] 역시우리의연구와관련되어있다. 해당태스크는텍스트속에서명시적으로나타나지않았지만의견속에암시된특성을추출하는것을목표로한다. 예를들어우리는 이가방은무겁다 라는의견문장속 - 54 -

에 무게 라는타겟이암시되어있다는것을알수있다. 본논문에서추출하고자하는관점역시문장에명시적으로나타나지않은암시적인것이지만, 우리가말하는 관점 은상품의특성과는다르다. 관점은 사람들이상품을어떻게평가하는가? 와관련이있는개념이며, 그러므로이는일반적으로말하는 상품의스펙 과는다른의미를지닌다. 이런측면에서볼때, 우리의태스크는사람들이타겟을어떤관점에서바라보고있는지를이해하는데더적합하다고할수있다. 형용사들로부터속성을추출하기위해, 우리는 [4] 에서사용된것과유사한접근방식을사용하였다. 이연구는우리의연구와마찬가지로형용사로부터그것이값을부여하는속성을추출하는것을목표로하였는데, 워드넷이라는단일리소스만이용해서는커버리지가충분치않을수있다는점에주목하였다. 속성추출커버리지를증가시키기위해, 해당연구의저자들은복수의온라인사전리소스를활용하는방식을제시한다. 그들이제시한방식은크게 3 개의단계로나눠진다 : 1. 복수의온라인사전으로부터형용사의 주해 (glosses) 를가져온다. 2. 주해에포함된모든명사를추출하고, 추출된명사들을형용사의속성후보들로간주한다. 3. 추출된속성후보들의사전적관계 ( 예 : 동의어 / 반의어관계 ) 를이용하여, 후보들이실제로속성을나타내는지아닌지를자동으로분류한다. 우리의연구는다음과같은점에서그들의것과다르다 : (1) 그들은형용사로부터암시된상품의특성을추출하는것을목표로하였다. 반면, 우리연구의목표는사람들이표현한의견속에암시된관점을추출하고자하였다. 의견문장에의견의타겟이명시적으로나타났는지아닌지여부와는상관이없다. (2) 그들의연구가최대한많은형용사로부터속성을추출하는데초점을둔반면, 우리연구는형용사가값을부여하는속성이의견에암시된관점과일치하는지를검증하고자하였다. 3. 제안된방법이단원에서는먼저워드넷에서형용사들이어떻게구성되어있는지에대해설명한다. 그다음, 관점추출에필요한단계를설명한다. 마지막으로, 우리가관점추출의커버리지와정확도를향상시키기위해취했던조치들에대해설명한다. 3.1 워드넷의형용사구성워드넷에는 descriptive, relational 이렇게두가지유형의형용사가있다 [11]. 본연구에서우리는 descriptive 형용사에초점을맞추었는데, 이유형의형용사들이우리가원하는형용사의특성, 즉그것이수식하는명사의속성에값을부여하는특성을가지고있기때문이다. 예를들어 이가방은작다 라는문장에서, 작다 라는형용사는가방의 크기 속성에값을부여하고있다. 다음은가방의 크기 속성에 작다 라는값을부여하는것을함수형태로표현한것이다. 크기 ( 가방 ) = 작다 워드넷에서형용사들은 반의어관계 (antonymy) 를중심으로조직되어있는데, 이는대부분의경우형용사가값을부여하는속성은양극의값 (bipolar values) 을갖기때문이다 [11]. 예를들어, 작다 의반의어는 크다 이고, 작다 - 크다 는함께 무게 ( 속성 ) 의양극값을나타낸다. 이러한반의어쌍을워드넷에서는 antonymous pair 라고부르며, antonymous pair 를구성하고있는 synset 들을 head synset 이라고부른다. ( 그림 2) 는형용사클러스터가어떻게구성되어있는지를보여준다. 워드넷에는이와같은형용사클러스터가 2,500 여개있고, 각클러스터의중심에는앞서설명한대로 antonymous pair 가있다. 그주위로 head synset 과유사한의미를가진 satellite synset 들이모여하나의클러스터를구성하게된다. 워드넷상에서는오직 head synset 들만이연관된 속성 을가지고있으며, 따라서특정형용사로부터속성을추출하기위해선먼저해당형용사가속한클러스터의 head synset 을찾아야만한다. 그림 2 형용사클러스터 3.2 관점추출과정형용사로부터속성을추출하기위해서는먼저대상형용사의 head synset 을알아내야하는데, 그때발생하는두가지이슈는다음과같다 : (1) 찾아낸 head synset 과연관된속성이워드넷에없을때의대처법, (2) 형용사가여러개의 head synset 과연관되어있을경우, 그들중하나를선택하는법. 본단원에서는형용사로부터추출하는과정과각이슈에대처하는법에대해자세히설명한다. 3.2.1 전처리먼저형용사와그것이수식하는명사를판별하기위한품사 (POS) 태깅을수행한다. 그리고우리는 의견문장 을 형용사와그것이수식하고있는명사를포함하고있는문장 이라고정의하고, 품사태그로구성된 {<NN><VB><JJ>} 패턴을사용하여그러한문장들만을골라추출한다. 예를들어, 앞에서설명한패턴을이용하면 engine is quiet 와같은문장이추출된다. 문장에포함된형용사는의견을나타내며, 명사는타겟을나타낸다. 또한우리는텍스트에포함된노이즈를줄이기위해, 추출된의견 ( 형용사 ) 및타겟 ( 명사 ) 단어에대해스펠링체크및 lemmatization 을수행하였다. - 55 -

3.2.2 형용사의 head synset 판별형용사로부터속성을추출하기위해선, 먼저형용사의 head synset 이무엇인지를알아내야한다. 그러기위해우리는대상형용사를 lemma 로가지고있는 head synset 을먼저찾는다. Synset 의 lemma 는그 synset 이나타내는의미를가지고있는구체적인단어를지칭하며, 따라서어떤형용사가한 head synset 의 lemma 라는것은, head synset 이나타내는의미를그형용사가가지고있다는것을의미한다. 이과정에서워드넷을사용하기위해, 우리는 Natural Language Toolkit (NLTK) [2] 에서제공하는워드넷인터페이스를활용하였다. 3.2.3 형용사의 head synset 선택하나의형용사는여러개의 sense 를가질수있으며, 그런경우여러개의 head synset 과연관되게된다. 본논문에서우리는속성추출에사용할 head synset 을선택하는두가지정책을제시한다. Top synset: 가장자주사용되는 head synset 을선택하는정책이다. 워드넷에서 head synset 은사용빈도순으로정렬되어있기때문에, 가장자주사용되는 head synset 을쉽게판별할수있다. Polar synset: 가장높은극성 (polarity) 를가지고있는 head synset 을선택하는정책이다. 이정책은사람들이상품을평가하기위해형용사를사용한만큼, 높은극성 (polarity) 을가진의미로형용사를사용하였을것이라는가정에기반하고있다. head synset 의극성점수를계산하기위해, 우리는 SentiWordNet [1] 을활용하였다. SentiWordNet 는워드넷의모든 synset 에대한객관성점수 (objective score) 를계산해놓은리소스이다. 객관성점수는 synset 이얼마나객관적인의미인지를점수화해서표현한것으로, synset 의객관성점수가낮을수록 synset 의극성점수가높다. 3.2.4 속성추출바로전단계에서선택된하나의 head synset 에서연관된속성을추출한다. 워드넷에서 head synset 은자신이연관된속성과 attribute 라는관계로연결되어있다. 이 attribute 관계를이용해서 head synset 과연관된속성을가져오면된다. 3.2.5 유사한 head synset 의속성추출워드넷에있는모든 head synset 이그와연관된속성을가지고있지는않다. 저자들이파악한바에따르면오직 620 개의 head synset 들만이연관된속성을가지고있다. 워드넷에 2,500 개이상의형용사클러스터가있고, 각클러스터가반의어관계에있는한쌍의 head synset 을중심으로가지고있다는점을감안하면, 워드넷의형용사속성커버리지는낮은편이라고할수있다. 형용사의속성추출률을높이기위해, 우리는워드넷에서 head synset 간에존재하는 also see 관계를활용하였다. also see 관계는서로다른클러스터에있지만, 관련된의미를가진 head synset 들사이를연결하고있다. 우리는형용사의 head synset 과연관된속성이없는경우, also see 관계를이용해서다른유사한 head synset 을찾은후, 그 head synset 에서다시연관된속성을추출하도록하였다. ( 그림 3) 이그예시이다. 그림 3 유사한 head synset 의속성추출 ( 그림 4) 는전체적인속성추출과정을그림으로보여준다. 그림 4 속성추출과정 여기서번호 1 은형용사 ( stiff ) 가속한클러스터를알아내는과정, 번호 2 는클러스터의중심을이루고있는한쌍의 head synset 인 antonymous pair ( strong-weak ) 를찾는과정, 마지막으로번호 3 은 head synset 과연관된속성 ( strength ) 를찾는과정을나타내고있다. 4. 실험결과실험에는 Ganesan 과 ChengXiang 의연구 [5] 에서사용된데이터셋이활용되었다. 정확하게는전체데이터셋중자동차리뷰데이터셋만이활용되었는데, 데이터셋에는 edmund.com 에서수집한 2007 년, 2008 년, 2009 년식자동차들에대해남겨진리뷰들이포함되어있다. 각년도별로 140 개에서 250 개까지의자동차가있으며, 전체자동차리뷰의개수는 42,230 개이다 [5]. 우리는분석하고자하는타겟이이미주어져있다고가정하고실험을진행하였다. 우리는 11 개의타겟을데이터셋에서의출현빈도수에기반하여선정하였다. 타겟에는자동차자체를나타내는 car 가포함되어있고, 자동차의 10 가지특성이포함되어있다. 선정된 11 개타겟의리스트는다음과같다 ( 그림 5): car, door, cabin, engine, navigation, seat, suspension, trunk, transmission, stereo, system. - 56 - 그림 5 타겟리스트

분석할타겟을선정한다음, 우리는 3.2.1 전처리단원에서설명한패턴을이용해서데이터셋으로부터타겟이포함된 의견문장 및의견문장에포함된형용사를추출하였다. 예를들어대상타겟이 engine 이라면, 패턴을이용하여데이터셋으로부터 engine is quiet 라는문장을추출하고, 이문장에포함된형용사인 quiet 역시함께추출한다. 그다음, 우리는각타겟을수식하는형용사들을출현빈도순으로정렬하였다. 이단계를거치는이유는각타겟을평가할때주로사용되는형용사가무엇인지를파악하기위해서이다. 최종적으로각타겟별테스트케이스를생성할때에는빈도수기준으로 top 10 형용사만을선택하여사용하였다. 형용사로부터속성을추출하기위해, 우리는 3.2 단원에서소개한추출방식들을조합하여총네가지의알고리즘을고안하였다 : 1. top_head: 가장자주사용되는 head synset 으로부터속성추출 2. top_head_similar: 가장자주사용되는 head synset 으로부터속성추출 & 실패할경우그와유사한 head synset 으로부터속성추출시도 3. polar_head: 가장높은극성을가진 head synset 으로부터속성추출 4. polar_head_similar: 가장높은극성을가진 head synset 으로부터속성추출 & 실패할경우그와유사한 head synset 으로부터속성추출시도 위에서제시한네가지알고리즘의성능을비교하기위해, 우리는각알고리즘별로총 110개의테스트케이스로이루어진테스트셋을생성하였다. 각테스트케이스는다음과같은세개의요소를포함하고있다 : l 의견문장 : engine is responsive l 알고리즘이추출한속성 : sensitivity l 속성의정의 : the ability to respond to physical stimuli ( 표 1) 은타겟중하나인 engine에대해생성된테스트케이스일부를보여주고있다. 표 1 테스트케이스예시 ( engine ) 평가를위해, 우리는세명의평가자에게형용사로부터추출된속성이의견문장에암시된관점과일치하는지를평가해달라고요청하였다. 측정기준으로는 precision, recall, F1 점수와더불어, 평가 agreement 를알아보기위한 fleiss kappa [9] 점수를사용하였 다. 실험결과는 ( 표 2) 에나타나있다. 표 2 실험결과 실험결과는비록우리가제안한태스크가쉽지는않지만, 발전가능성이있음을보여주고있다. 평가자들의 agreement 정도가그리높지않다는점에서볼때이태스크가쉽지않다는것을알수있다. 계산된 kappa 점수는 0.5 에서 0.7 사이로, 평가자들사이의 agreement 수치가보통에서꽤높음사이라는것을의미한다. 사용한방식중 polarity_head 방식이 top_head 방식보다높은 precision 과 recall 을보였다는것은우리의가설 사람들은형용사를극성이높은의미로사용했을것이다 이합리적이었다는것을증명해준다. 더불어, 속성추출에실패할경우유사한 head synset 으로부터또다시추출을시도하는정책은 precision 및 recall 향상에기여했다는것을알수있다. recall 뿐만아니라 precision 이함께향상된이유는, 만약한알고리즘이속성추출에실패했을경우, 다른알고리즘과의비교를위해그알고리즘은무조건틀렸다고간주되었기때문이다. 5. 결론본논문에서는의견에암시되어있는상품평가의관점을추출하는태스크를정의하고하나의방법론을제안하였다. 의견문장에포함된형용사로부터추출된속성이사용자가평가할때가졌던관점과일치한다는가정하에, 워드넷을활용하여형용사로부터속성을추출하는방법을제안하였고, 평가자들을통해그둘이실제로일치하는지를평가하였다. 세명의평가자들로부터받은평가결과는이러한접근방식이발전가능성이있지만, 여전히개선할여지가많다는것을보여주었다. 보다정확한속성추출을위해선단어의미중의서해소방법이도입되어야한다고예상하고있으며이를향후연구로수행해나갈예정이다. 참고문헌 [1] Baccianella, S. et al. 2010. Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining. Proceedings of the 7th conference on International Language Resources and Evaluation (LREC 10) (2010), 2200 2204. [2] Bird, Steven, E.L. and E.K. 2009. Natural Language Processing with Python. O Reilly Media Inc. [3] Dave, K. et al. 2003. Mining the peanut gallery: Opinion Extraction and Semantic Classification of Product Reviews. Proceedings of the twelfth international conference on World Wide Web (WWW 03) (New York, New York, USA, May. 2003), - 57 -

519. [4] Fei, G. et al. 2012. A Dictionary-Based Approach to Identifying Aspects Implied by Adjectives for Opinion Mining. COLING (Posters) 12. 2, December 2012 (2012), 309 318. [5] Ganesan, K. and Zhai, C. 2011. Opinion-based entity ranking. Information Retrieval. 15, 2 (Aug. 2011), 116 150. [6] Hai, Z. et al. 2011. Implicit Feature Identification via Cooccurrence Association Rule Mining. Computational Linguistics and Intelligent Text Processing SE - 31. 6608, (2011), 393 404. [7] Hu, M. and Liu, B. 2004. Mining and summarizing customer reviews. Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining (KDD 04) (New York, New York, USA, Aug. 2004), 168. [8] Hu, M. and Liu, B. 2004. Mining opinion features in customer reviews. Proceedings of the 19th national conference on Artifical intelligence (Jul. 2004), 755 760. [9] Joseph, F.L. 1971. Measuring nominal scale agreement among many raters. Psychological bulletin. 76, 5 (1971), 378 382. [10] Liu, B. et al. 2005. Opinion Observer : Analyzing and Comparing Opinions on the Web. Proceedings of the 14th international conference on World Wide Web (WWW 05) (New York, New York, USA, May. 2005), 342. [11] Miller, G.A. et al. 1993. Introduction to WordNet : An Online Lexical Database. International Journal of Lexicography. 3, August (Dec. 1993), 235 244. [12] Miller, G.A. 1995. WordNet: A Lexical Database for English. Communications of the ACM. 38, 11 (1995), 39 41 [13] Moghaddam, S. and Ester, M. 2010. Opinion digger. Proceedings of the 19th ACM international conference on Information and knowledge management (CIKM 10) (New York, New York, USA, Oct. 2010), 1825. [14] Pang, B. et al. 1988. Thumbs up? Sentiment Classification sing Machine Learning Techniques. Proceedings of the ACL-02 conference on Empirical methods in natural language processing-volume 10. (1988), 79 86. [15] Su, Q. et al. 2008. Hidden Sentiment Association in Chinese Web Opinion Mining. Proceedings of the 17th international conference on World Wide Web (WWW 08) (New York, NY, USA, 2008), 959 968. [16] Zhuang, L. et al. 2006. Movie Review Mining and Summarization. Proceedings of the 15th ACM international conference on Information and knowledge management (CIKM 06)(New York, New York, USA, 2006), 43. - 58 -

읽기매체의다양성과흥미도를고려한가독성측정 김아영 O, 박성배, 이상조경북대학교, 컴퓨터학부 {aykim, sbpark}@sejong.knu.ac.kr sjlee@knu.ac.kr Revisiting Readability: An aspect of the reading environments and perspectives A-Yeong Kim O, Seong-Bae Park, Sang-Jo Lee Kyungpook National University, Department of Computer Science and Engineering 요약가독성이란글을읽음에있어얼마나쉽게쓰여졌는가, 얼마나흥미로운가의정도를나타낸다. 기존연구에서는가독성을측정함에있어인쇄물에한정하고글의구성관점에서만을반영하였다. 하지만, 글은인쇄물뿐만아니라모바일, 태블릿등다양한읽기매체를통해읽어질수있으며글의흥미에따라가독성이달라지므로기존의연구방법으로는적절히반영할수없다. 본논문에서는읽기매체에따라가독성이어떻게달라지는지, 가독성을측정함에있어관점들이어떻게반영되는지를살펴보고자한다. 서로다른읽기매체들을사용하여동일한뉴스기사에대해가독성을측정하였으며, 측정된결과를사용하여각읽기매체가가독성를측정하는요소들중어떤요소에큰영향을받는지를살펴본다. 또한, 가독성을측정함에있어글의구성뿐만아니라흥미관점을추가하였으며, 이로부터가독성의요소들이글의구성관점과흥미관점에서어떠한차이점을보이는지살펴본다. 주제어 : 가독성, 읽기매체, 가독성관점 1. 서론 가독성 (Readability) 이란글을읽음에있어얼마나쉽게쓰여있는가 (well-written)[1], 얼마나흥미로운가 (interesting) 를의미한다 [2]. 가독성은글을읽음에있어난이도를도입하여학생들의수준에맞는글을가르치고자측정하게되었다 [3]. 일반적으로가독성은가독성을결정하는각요소 (factor) 들에의해측정된다 [4,5,6,7]. 자연언어처리관점에서가독성을결정하는요소로는글의길이, 명사구또는동사구의비율, 대명사의비율등이존재한다 [4]. 최근들어교육적인목적뿐만아니라다양한매체에서가독성을구하거나가독성에영향을주는새로운요소를제안하는연구들이활발히진행되고있다 [4,5,8]. 기존의자연언어처리측면에서의가독성측정연구들은주로인쇄물에서집중되어왔다 [4,5,6,7]. 하지만, 최근들어읽기매체가다양해짐에따라사용자는인쇄물뿐만아니라스마트폰, 태블릿과같은휴대용기기를사용하여글을읽을수있게되었다. 각읽기매체들은매체들마다특성이존재하므로동일한글이라도가독성이달라질수있다. 또한기존의방법들은글의구성 (well-written) 관점만을고려하여가독성을측정하였다 [2,4,5]. 하지만가독성은글의구성뿐만아니라흥미도에도영향을받을수있기때문에가독성을측정함에있어각관점을고려할필요가있다. 본논문에서는읽기매체의다양성및가독성의다양한관점을고려하여가독성을측정하고다음의이슈들을살펴보고자한다. 1) 가독성을결정하는요소들은인쇄 물과휴대용기기에서각각다른중요도로적용될것인가? 2) 가독성을측정하는관점에따라가독성측정에영향을미치는요소들이달라지는가? 본논문에서는뉴스기사를이용하여인쇄물, 스마트폰, 태블릿에서글의구성, 글의흥미를반영하여가독성을측정한다. 같은글에대해인쇄물과휴대용기기에서, 가독성을결정하는요소들과가독성이어떠한상관관계를가지는지살펴본다. 또한글의구성을나타내는관점과흥미도의관점에서, 가독성의요소와가독성이어떠한상관관계를가지는지를관점마다비교하며, 관점에따라서로다른특징을살펴본다. 본실험은 60 개의뉴스기사에대해 4 명의실험대상자로부터가독성을측정하였다. 실험결과, 첫번째로각읽기매체에대해상관관계가유의미하게보인요소들이서로다름을보이며, 이를통해읽는매체마다가독성의차이가존재함을보였다. 다음으로관점에따라영향을주는요소들의차이가존재하였다. 글의구성측면에서는읽은매체들이서로다른요소들에의해영향을받는반면글의흥미측면에서는읽은매체에관계없이요소들이서로비슷한경향을보였다. 이를통해글의구성적인측면에서는매체마다차이점을, 글의흥미측면에서는매체가무관한경향을보여주었다. 본논문의구성은다음과같다. 2 장에서는가독성측정과관련된기존연구들을살펴본다. 3 장에서는가독성측정방법에대하여간략히다루고, 본논문에서사용한가독성을결정하는요소에대해서설명한다. 4 장에서는실험및결과를분석하고, 마지막 5 장에서는결론을다룬다. - 59 -

2. 관련연구 가독성을측정하고자하는연구는오래전부터많이진행되어왔다. 현재까지가장보편하게널리쓰이고있는측정방법들은주로단어의길이나문장의길이또는쉬운단어의빈도수를바탕으로측정하였다 [6,7]. Flesch 는가독성을 읽기의쉬움 이라표현하고말뭉치로부터무작위로 100 개의단어를선정, 단어의평균길이와문장의길이를이용해가독성측정공식을도출하였다 [6]. 이후첫번째식을보정하여말뭉치의특성을더잘반영하도록가독성측정공식을확장하였다 [7]. 이를 Flesch-Kincaid 식이라고하며현재까지도교과서나교육을목적으로한책의난이도를측정하는데쓰이고있다. Dale 은 3 천개의쉬운단어리스트를미리정의해두고, 단어가포함된문장의평균길이와그목록에해당하는단어의백분율을이용하였다 [2]. 위연구들은단어의길이나문자의길이등글의표면적인요소들만을이용하여가독성을측정하였다. 하지만, 구문적인요소를반영하지않기때문에정확한가독성측정을할수없다는한계를보인다 [5]. 앞선연구들의단점을보완하기위하여가독성을측정하는새로운요소들을추가하고가독성의측정성능을높이기위한요소들의조합을찾아내는연구들이진행되어왔다 [4,5]. Thomas et al. 은프랑스어를외국어로쓰는사람들에게맞는새로운가독성측정공식과함께기존요소를포함하여 46 개의요소들을제안하였다 [5]. 크게어휘, 구문, 의미그리고프랑스어의특성을반영하는요소와같이크게 4 개로분류하여정의하였으며, 이를바탕으로가독성을측정하였다. Pitler et al. 은글의어휘, 구문, 담화를나타내는요소와가독성의관계를살펴보았다 [4]. 제안한방법은실험자가글을읽어글에대한가독성점수를매긴다음그점수와가독성을결정할수있는요소간의상관계수를구했다. 상관계수를이용하여그요소가가독성을판단하는데얼마나주요하게영향을미치는지분석하였다. 그결과, 문장당동사구의평균개수및글의길이, 담화와관련된요소들이가장중요하게영향을끼쳤음을보였다. 하지만위의방법들은인쇄물이외의다른읽기매체들을고려하지않았으며, 글을읽는관점또한글의짜임및구성 (well-written) 만을고려하여가독성을측정하였다는단점을지닌다. 3. 가독성측정 일반적으로글 가주어졌을때가독성 은가독성을결정할수있는요소 와그요소들의중요도 를사 용하여계산될수있다 [2,4,5,6,7]. 각요소들이가독성에독립적으로영향을끼친다고가정을하면가독성은수식 (1) 과같이선형모델로표현할수있다. (1) 각요소의가중치는측정된가독성점수와의선형회귀 (linear regression) 를통해추정할수있다. 본논문에서는가독성을결정하는요소로 [4] 에서제안한요소들중한국어에적용할수있는 8 가지를선택하여사용한다. 각요소는표면 (Superficial), 어휘 (Lexical), 구문 (Syntactic), 문장의연결성 (Sentence Continuous) 과같이 4 가지로분류한다. 각요소에대한설명은다음과같다. 표면적인요소표면적인요소 (Superficial factor) 는글의구성적인측면을반영하고있는요소들이다 [4,5]. 본논문에서는글의길이 (TL), 평균문장길이 (SL), 문장당평균어절수 (WS), 어절당평균어절길이 (CW) 를사용하였다. 글의길이는글의양을측정하며글이지나치게길게되면글의흐름이쉽게끊길수있다. 글의길이와문장당평균단어의수는수식어구의영향을받는다. 수식어구가많으면글의길이와문장당평균단어수도같이길어지거나증가한다. 반대로수식어구의수가적으면글의길이와문장당평균단어수가같이짧아지거나줄어든다. 어절당평균어절길이는전문용어와같은복합명사들을반영할수있기때문에가독성에영향을주게된다. 어휘적인요소어휘적인요소 (Lexical factor) 는글이말뭉치로부터자주나오는단어들로구성되어있는지를반영한다. 본논문에서는유니그램 (unigram) 모델로부터글에쓰인단어에대한확률을구하였으며식은아래와같다 [4]. 여기서, 은말뭉치 에대한단어 가나올확률이고, 는글에서단어 가나타나는횟수이다. 위수식에대한로그우도 (log likelihood, LL) 식은다음과같이정의할수있다. log 글의로그우도의값이높으면그글은주어진말뭉치에서주로사용하는어휘를사용하고있다는것을의미한다. 구문적인요소구문적인요소 (Syntactic factor) 는글의구문적인측면을반영한다 [4]. 문장에구문적인요소가많을수록문장을복잡하게만든다는특성을가지고있다. 본논문에서는구문적인요소로문장당평균명사구수 (NP), 문장당평균동사구수 (VP) 를사용하였다. 명사구와동사구는많을수록문장이복잡해지지만이해와흥미를높여주기때문에글의흥미도를반영할수있는요소이다 [9]. - 60 -

문장의연결성문장의연결성 (Sentence Continuous) 이란주어진문장들이의미적으로얼마나잘연결되어있는지를나타낸다. 본논문에서는문장의연결성을나타내는요소로문장당평균대명사의수 (PRP) 만을사용하였다 [4]. 대명사는그수가많을수록문장의복잡도가증가하지만글의흐름을매끄럽게하기때문에글의구성적인측면을반영한다. 4. 실험 4.1 실험데이터및가독성채점기준실험을위해본논문에서는 Naver 에서뉴스를수집하였다. 6 월 10 일부터 6 월 25 일까지의연예, 스포츠, 정치 3 개의카테고리에서기사 60 개를수집하였다. 표 1 은실험에사용된기사 60 개에대한통계적정보를보여준다. 가장길이가짧은기사는 107 자이며, 가장긴기사는 546 자로평균적으로 326.23 자의기사로이루어져있다. 기사한개에최소 1 문장부터최대 13 문장으로이루어져있으며평균적으로 5.63 개의문장으로이루어져있다. 한문장은최소 3 개의어절에서최대 47 개의어절로이루어져있고평균적으로 17.48 개의어절을가지고있다. 가독성측정을위해학부생 2 명에게스마트폰 (5 인치 ), 태블릿 (10.1 인치 ), 인쇄물 (A4 용지 ) 총세가지읽기매체를사용하여 60 개의기사를읽게하였다. 각읽기매체의폰트크기는동일하게하였다. 채점기준은두가지로다음과같다. 주어진기사는구성이좋다. 글이얼마나읽기좋게쓰여있는지를평가한다. 기존연구에서사용했던주요채점방법이다. 본논문에서는주로글의짜임새나흐름이잘흘러가는지를중심으로채점하였다. 주어진기사는흥미롭다. 주어진기사의흥미로움을채점한다. 기존연구에서는가독성측정에서의글의흥미도에대한언급은하였지만반영을하지않았다 [4]. 하지만가독성은글의구성뿐만아니라글의흥미도와함께복합적으로영향을받기때문에본논문에서는글의흥미도또한채점기준으로고려하였다. 점수는 5 점 ( 매우좋다, 매우흥미롭다 ) 에서 1 점 ( 전혀좋지않다, 전혀흥미롭지못하다 ) 까지다섯개의등급으로각기준에대하여채점하였다. 최종적으로각기사마다두개의기준에대한점수에평균을하여가독성을매겼다. 표 2 는채점점수에대한통계수치를나타낸다. 글의흥미를제외한나머지항목은최저점수가 2 점대였고, 인쇄물을제외한나머지항목은최고점수가 5 점이었다. 평균점수는모든항목들이 3 점대후반이었다. 카파계수 (Kappa value) 는 0.626 이다. 어휘적인요소를반영하는로그우도를계산하기위해말뭉치로 2013 년도 1 월 1 일부터 2013 년 9 월 6 일까지 Naver 기사를수집하여사용하였다. 수집된전체기사의개수는 298,729 개이다. 4.2 실험결과 4.2.1 가독성결정요소와읽기매체와의관계표 3 은가독성결정요소와가독성과의상관관계를읽기매체별로나타낸것이다. 가독성측정을위해사용한 8 개의요소에서유의미한값중상관관계가높은순서대로나타내었다. 먼저스마트폰의경우화면크기의제약때문에글의길이 (TL) 가크게영향을받음을볼수있다. 이와반대로태블릿과인쇄물은화면의제약이없어 - 61 -

글의내용과관련된요소들 (NP, VP) 에영향을받음을볼수있다. 스마트폰에서의대명사의경우수가많을수록문장의복잡도가높아지지만, 글의흐름을이어주는역할을하므로가독성에좋은영향을주는것으로분석이된다. 태블릿과인쇄물의경우명사구요소 (NP) 가큰영향을주었는데이는가독성이구성과흥미점수를평균화한것이기때문에나타난현상으로간주할수있다. 일반적으로명사구는많을수록독자에게흥미를줄수있기때문에양의상관성을크게보이게된다. 문장의길이와문장당단어수가양의상관성을크게보였는데이는문장내에서의설명등을자세히기술함을의미하여가독성을좋게하는것으로보인다. 위결과를통해가독성을결정하는요소들이읽기매체마다다른상관관계를가지는것을볼수있다. 4.2.2 가독성결정요소와글의구성관점과의관계그림 1 은가독성결정요소와가독성과의상관관계를글의구성관점기준으로나타낸것이다. 읽기매체와상관없이글의길이가길수록글의구성에대한가독성은떨어짐을알수있다. 스마트폰에서는글의구성측면에서글의길이가가장큰영향을미쳤다. 길이요소가크게영향을주어나머지요소들에대해서는 0.2 미만의값으로약한상관관계를보이게된다. 태블릿의경우스마트폰과동일하게글의길이가가장크게영향을 주었다. 하지만스마트폰과의경우와는조금다르다. 문장의길이, 문장당단어수, 문장당평균명사구수또한 0.2 이상의값으로영향을주고있다. 인쇄물의경우전체적으로영향을주고있다. 위결과는이전논문과비슷한결과를보이고있다 [4]. 글의구성관점에서글의길이를제외한나머지요소들은읽기매체마다다른특성을보인다. 4.2.3 가독성결정요소와글의흥미관점과의관계그림 2 는가독성결정요소와가독성과의상관관계를글의흥미관점기준으로나타낸것이다. 흥미도의경우읽기매체와상관없이비슷한양상의상관관계를보임을알수있다. 어절당평균어절수의요소가모든읽기매체에대해서음의상관관계를보였다. 이는어절당평균어절길이가전문용어와같은복합명사를나타내므로흥미측면에서가독성을떨어트릴수있기때문이다. 기존연구와같이문장당평균명사구및동사구의수에대한요소의경우명사구와동사구의개수가많을수록글의흥미를상승시켜주는효과를가져왔다. 이러한효과는인쇄물에서문장의길이와문장당평균단어수도같이반영이되어보임을알수있다. 전체적으로스마트폰은세가지의결과에대해글의길이에대해서는공통적으로모두음의상관관계를보여기기의특성을반영함을알수있다. 글의구성측면에 - 62 -

서는인쇄물은요소들이고루영향이끼침을보이는반면태블릿은문장길이, 문장당단어수, 문장당평균명사구수에대해서큰영향을받음을보였다. 글의흥미도측면에서는태블릿의경우인쇄물의크기와흡사하여전체적으로비슷한양상을보이지만스마트폰의경우글의길이나로그우도에서상관관계의부호가달라지는등의차이를보였다. 5. 결론 본논문에서는뉴스기사를이용하여다양한읽기매체 ( 인쇄물, 태블릿, 스마트폰 ) 에서글의구성, 흥미를반영한가독성을측정하였다. 측정된가독성을통해본논문에서는읽기매체에따라같은글에대해서가독성을결정하는요소와가독성이차이가있는지를살펴보았다. 게다가, 글의구성과흥미도의관점에서중요하게다뤄지는가독성의요소가읽기매체와글의관점마다차이가있는지를살펴보았다. 실험결과, 같은글에대해읽기매체에따라가독성이달라짐을보였다. 특히, 화면이작은스마트폰에서는글의길이와같이표면적인요소에영향을많이받는것을볼수있었으며, 상대적으로화면이큰태블릿, 인쇄물은구문적인요소에영향을많이받는것을볼수있었다. 또한가독성과글의구성관점에서는기기에따라차이가있음을보였다. 글의길이는공통적으로영향을많이받았으나, 다른요소들은기기마다다르게영향을받음을볼수있었다. 또한가독성과글의흥미관점에대해서는글의구성관점과는달리기기에상관없이일정한관계를가짐을볼수있었다. 위의실험결과를바탕으로가독성이란읽기매체와읽는관점에따라다르게반영이되어야함을알수있다. 이에향후연구로는다르게반영된가독성이사용자들이실제로글을읽음에얼마나도움이되는지를분석할예정이다. Text Quality, In Proceedings of EMNLP, pp 186-195, 2008 [5] T. Francois and C. Fairon, An AI readability formula for French as a foreign language,, In Proceedings of EMNLP and CoNLL, pp. 466-477, 2012. [6] R.Flesch, A new readability yardstick Journal of Applied Psychology, vol.32, pp.221-233, 1948. [7] J. P. Kincaid, R. P. Fishburne, R. L. Robers, B. S. Chissom, Derivation of New Readability Formulas(Automated Reliability Index, Fog Count and Flesch Reading Ease Formula) for Navy Enlisted Personnel, Research Branch Report pp.8-75, 1975. [8] X. Yan, D. Song, and X. Li, Conecpt-based Document Readability in Domain Specific Information Retrieval, In Proceedings of CIKM, pp. 540-549, 2006. [9] R. Barzilay and M. Lapata, Modeling Local Coherence: An Entity-based Approach, In Proceedings of ACL, page 141-148, 2005. 감사의글본논문은지식경제부산업원천기술개발사업 (10035348, 모바일플랫폼기반계획및학습인지모델프레임워크기술개발 ) 의지원으로수행되었음 참고문헌 [1] J. C. Richards, J. Platt, and H. Platt, Longman dictionary of language teaching and applied linguistics, 1992. [2] E. Dale and J. S. Chall, "The concept of readability", Elementary English, Vol. 26, No. 23. 1949. [3] T. Virtanen-Ulfhielm Linguistic Complexity in Two Major American Newspapers and The Associated Press Newswire, 1900-2000, Master s thesis, Abo Akademi, 2004. [4] E. Pitler and A. Nenkova, Revisiting Readability: A Unified Framework for Predicting - 63 -

토픽모델을이용한모바일앱설명노이즈제거 윤희근 O, 김솔, 박성배경북대학교 {hkyoon,skim,sbpark}@sejong.knu.ac.kr Noise Elimination in Mobile App Descriptions Based on Topic Model Hee-Geun Yoon O, Sol Kim, Seong-Bae Park Kyungpook National University 요약스마트폰의대중화로인하여앱마켓시장이급속도로성장하였다. 이로인하여하루에도수십개의새로운앱들이출시되고있다. 이러한앱마켓시장의급격한성장으로인해사용자들은자신이흥미를가질만한앱들을선택하는데큰어려움을겪고있어앱추천방법에대한연구에많은관심이집중되고있다. 기존연구에서협력필터링기반의추천방법들을제안하였으나이는콜드스타트문제를지니고있다. 이와는달리컨텐츠기반필터링방식은콜드스타트문제를효율적으로해소할수있는방법이지만앱설명에는광고, 공지사항등실질적으로앱의특징과는무관한노이즈들이다수존재하고이들은앱사이의유사관계를파악하는데방해가된다. 본논문에서는이런문제를해결하기위하여앱설명에서노이즈에해당하는설명들을자동으로제거할수있는모델을제안한다. 제안하는모델은모바일앱설명을구성하고있는각문단을 LDA 로학습된토픽들의비율로나타내고이들을분류문제에서우수한성능을보이는 SVM 을이용하여분류한다. 실험결과에따르면본논문에서제안한방법은기존에문서분류에많이사용되는 Bag-of-Word 표현법에기반한문서표현방식보다더나은분류성능을보였다. 주제어 : 모바일앱추천, 노이즈필터링, LDA 1. 서론 스마트폰의대중적인보급으로인하여수많은모바일앱이출시되고있다. 대표적인스마트폰앱마켓인애플의앱스토어와구글플레이스토어에는현재 100 만개이상의앱이등록되어있으며, 매일수십여개의새로운앱들이등록되고있다. 이러한앱마켓의급진적인성장은사용자로하여금자신이흥미를가질만한새로운앱을선택하는데큰어려움을겪게만들었다. 이로인해최근에는사용자가관심을가질만한앱을추천해주는서비스에대한연구가증가하고있다. 기존의추천은크게협력필터링 (Collaborative filtering) 과컨텐츠기반필터링 (Content-based filtering), 2 가지유형으로구분된다. 협력필터링방법은사용자들사이의상관관계에기반하여비슷한취향의사용자들의정보에기반하여추천을수행한다. 이방법은사용자들이아이템에대하여평가한이력이충분하게존재한다면우수한추천성능을보여주며, Amazon, CDnow 등다양한상업사이트에적용되었다. 하지만평가이력이존재하지않는콜드스타트문제에대해서는협력필터링방법은매우취약하다. 특히새롭게출시되는모바일앱의경우는사용자들의사용및평가이력이존재하지않아심각한콜드스타트문제를안고있다. 그렇기때문에협력필터링방법에기반한모바일앱추천은큰한계를지니고있다. 컨텐츠기반필터링방법은사용자가관심을가졌던과거컨텐츠와내용적으로유사한컨텐츠를추천하는방 법이다. 컨텐츠기반필터링은사용이력이존재하지않더라도컨텐츠의유사성에기반하여추천을수행하기때문에협력필터링의콜드스타트문제를효과적으로해소할수있다. 이와같은컨텐츠기반필터링을적용하기위해서는앱의내용을잘표현할수있는컨텐츠에대한정의가필요하다. 대표적인모바일앱스토어인구글플레이스토어와애플의앱스토어는앱의특징을잘표현할수있는앱의설명이기술되어있다. 이들내용은개발자가직접앱의특징을기술한내용이므로컨텐츠기반필터링방법에사용하기에적합하다. 하지만모바일앱설명의모든부분이앱의특징을설명하고있는것은아니다. 예를들어그림 1 은앱설명에서실질적으로앱과관계없는노이즈에대한예를보여주고있다. 앱의설명부분은앱의직접적인내용이나특징을설명하기도하지만때로는앱의내용과는무관한이벤트, 공지사항등의노이즈내용이포함되어있다. 노이즈설명들과앱의설명을표현하고있는부분들은서로다른문단에포함되어구성되어있음을볼수있다. 노이즈문단들은전체앱설명에섞여앱설명들사이의유사도를바탕으로앱의유사성을측정하는데방해가된다, 본논문에서는모바일앱추천의첫단계로앱설명의노이즈를제거하기위하여 Latent Dirichlet Allocation (LDA) 와 Support Vector Machine (SVM) 모델에기반한앱설명문단노이즈제거모델을제안한다. 개발자가작성한앱설명에는앱의특징을설명하는문단들과앱의특징과는무관한노이즈문단들이혼재되어나타난 - 64 -

다. 일반적으로앱설명들은일반적인문서분류문제에서사용되는문서들에비해길이가짧다는특징이있다. 특히본논문에서분류의대상으로삼고있는단위는문단이기때문에훨씬적은수의단어로구성되어있다. 이런이유로문서분류문제에서자주적용되는 Bag-of-Word(BOW) 기반의문서표현법을사용할경우데이터부족문제 (data sparseness problem) 으로인해성능이저하되는문제가발생할수있다. 이에본논문에서제안하는방법은토픽모델에기반하여앱설명을토픽들의구성비율로표현하고이를바탕으로 SVM 을이용하여분류하는방법론을제안한다. 실험결과에따르면제안한방법은약 61% 의정확도를보이는데, 이는약 54% 의성능을보이는 BOW 기반의표현법을사용하는모델보다훨씬나은성능을보이며제안한모델이앱설명에서노이즈를제거하기에적합함을보여준다. 본논문의구성은다음과같다. 2 장에서는모바일앱추천시스템과토픽모델링에대한기존연구를살펴보고, 3 장에서는 LDA 모델에기반한문서표현법과이를바탕으로노이즈문단을분류하는방법에대하여설명한다. 4 장에서는제안한모델의성능을평가하기위한실험을설명하고성능을평가한다. 5 장에서는결론을다룬다. 2. 관련연구 최근모바일앱시장의폭발적인성장으로인하여모 바일앱과관련한다양한연구들이이루어지고있다. 특히모바일앱추천또한큰관심을받고있다. 노우현 [1] 등은사용자의앱사용이력과상황을고려하여앱의카테고리를추천하는모델을제안하였다. 해당모델에서는각상황별각카테고리의적합도를계산하기위하여베이지안모델을이용하였다. 많은기존의연구들은협력적필터링기반방법을통한추천을제안하였다. Yan et al.[2] 은협력적필터링기반시스템 AppJoy 를소개하였다. AppJoy 는자체적으로개발한스마트폰앱을통해사용자사용이력들을수집하고, 협력적필터링을통하여모바일앱의추천을수행한다. 사용자의앱사용이력의누락으로인한콜드스타트문제를풀기위하여새사용자의경우초기에사용자의기기에설치되어있는앱들을바탕으로추천을수행하였다. Ozaki et al.[3] 은기존의협력적필터링과사용자들사이의사회적인관계까지함께고려하는시스템을제안하였다. 이시스템에서는일반적인협력적필터링방법에기반하여추천앱을선정한뒤, 다시사용자들사이의사회적인관계를반영하여앱추천스코어를재평가하는방법으로적용하였다. 이두방법모두높은성능을보여주었으나, 협력적필터링방법의한계로인하여새롭게출시되어평가이력이존재하지않는앱들에대해서는추천을수행할수없는문제가존재하였다. Lin et al.[4] 은협력적필터링방법의콜드스타트문제를해결하기위하여외부자원을활용하는방법을소개하였다. 이시스템에서는대표적인 SNS 서비스인 - 65 -

twitter 를이용하여사용자의사용이력과앱의평가이력의부족을해소하고자하였다. 이논문은앱의추천을위해서외부자원을효율적으로활용하는방안을제시하였으나, 이역시도앱추천을위해서앱이외의자원에관한이력이존재해야한다는면에서콜드스타트문제를원천적으로해결하지는못하였다. Kim et al.[5] 은모바일앱추천을위하여콘텐츠기반유사도방법론을소개하였다. 이모델에서는모바일앱의콘텐츠를정의하기위하여모바일앱을위한온톨로지를설계하고이를바탕으로각앱의콘텐츠를정의하였다. 앱에관하여개발자, 이름, 다운로드수등다양한정보를반영하였다. 하지만앱개발자가직접적으로앱특징에대하여기술한앱설명정보를활용하지않아많은정보손실을야기하였다. 문서분류문제에토픽모델을도입하기위하여다양한연구가이루어졌다. Rubin et al.[6] 은멀티레이블문서를분류하기위한토픽모델을제안하였다. 기존 LDA 를멀티레이블문서분류에사용하기위하여확장한 Flat-LDA, Prior-LDA, Dependency-LDA 모델을제안하였다. 비록판별모델인 SVM 에비해낮은성능을보여주긴하였지만그성능차이가크지않아토픽모델을이용하여멀티레이블문서분류를구생할수있음을보여주었다. Zhou et al.[7] 역시 LDA 에기반한 LDACLM 을제안하였다. 3. 앱설명의노이즈제거 분류모델을이용하여분류하기위해서는문서들을컴퓨터로처리할수있는형태로표현할수있는방법이필요하다. 본장에서는 LDA 에기반하여앱설명문단들을벡터로표현하는방법과이를이용하여노이즈문단을분류할수분류방법을설명한다. 3.1. Latent Dirichlet Allocation LDA 는 Blei[8] 에의해서제안된대표적인토픽모델중하나로, 하나의문서는다양한토픽의혼합으로구성되어있다고가정하는모델이다. LDA 에서는문서들이자신이가진토픽들로부터생성된단어들로표현된다고본다. 여기서토픽이란문서를구성하는단어들중서로연관성이높은단어들의집합으로볼수있다. 이러한토픽들은다항분포로서정의되며각문서는자신이가진토픽의분포와각토픽들이가진단어들의분포에기반하여추출된단어들로구성된다. 그리고이렇게추출된단어들이나열되어해당문서가작성되는것으로본다. 그림 2 는 LDA 의그래피컬표현을나타낸다. LDA 는다음과같은문서생성과정을모델링한다. - 문서 가가지고있는토픽들의다항분포 를 Dirichlet 분포인 로부터추출한다. - 각토픽 에대한단어들의다항분포 를 Dirichlet 분포인 로부터추출한다. - 이를바탕으로 번째단어 는다음과같이추출 된다. - 번째토픽 를다항분포 로부터추출한다. - 번째단어 를다항분포 로부터추출한다. 이과정에서모델이추정해야할값은하이퍼파라매터인 와 이다. LDA 는주어진학습문서들을이용하여 EM 기반의방법으로로그우도가최대가되는 와 를찾는다. 이렇게 와 가학습이되면새로운문서의단어집합 w 가주어질때, 이문서의토픽들의분포인 는다음과같이구해질수있다. z w z w z 여기서구해진새로운문서의토픽분포 는해당문서를구성하고있는단어들을대신하여해당문서를벡터로표현하는데사용될수있다. 본논문에서제안하는방법은 LDA 모델에기반하여앱설명문단들을단어들이아닌각토픽의구성비율로표현한다. 기존에문서분류에서자주사용되는 BOW 의경우문단의길이가짧고데이터의수가많지않을경우에데이터부족현상때문에성능이저하되는문제가있다. 특히본논문에서분류대상으로삼고있는단위는앱설명의문단이기때문에그길이가매우짧아데이터부족현상에의해큰영향을받을수있다. 이에본논문에서는 BOW 모델대신에 LDA 모델을이용하여문서를어휘수보다훨씬적은차원인토픽으로표현함으로써데이터부족문제에좀더강건한데이터를생성할수있도록한다. 3.2. Support Vector Machine SVM 은 Vapnik[9] 의의해서제안된모델로매우우수한성능을보이는이진분류모델중하나이다. SVM 은두클래스의데이터가주어졌을때, 두클래스의데이터를잘분류할수있는초평면 (hyperplane) 을찾는모델이다. 경우에따라서두클래스를완전히구분할수있는초평면이매우많거나또는무한하게존재할수있는데, - 66 -

이때초평면에가장가까운각클래스의데이터와초평면사이의거리를의미하는마진 (margin) 이가장최대가되는초평면을찾는다. 이렇게찾은초평면을이용하여새로운데이터가주어졌을때, 해당데이터의클래스를분류한다. 데이터집합 x x 가주어지면, SVM의초평면은다음과같이정의될수있다. w x b SVM 에서는 w x 을만족하면서 w 이 최소화되는 w 를찾음으로써최적의초평면을찾는다. 그리고이렇게학습된초평면을이용하여새로운데이터 가주어지면다음과같이새로운데이터의클래스를추정한다. 4. 실험 i f i f 본논문에서제안한방법의성능을보이기위하여실제모바일앱의설명들을수집하여실험을수행하였다. 실험을위하여플레이스토어 1) 에등록되어있는모바일앱들의설명을수집하였다. 표 2 는실험에사용된데이터의통계를보여준다. 플레이스토어에존재하는전체 25 개카테고리의 703 개의앱에대한설명을수집하였다. 이들 703 개의앱설명을 html 태그에기반하여문단단위로분리하였다. 각앱설명에서특수기호및 URL 은제거하였다. 길이가짧은문단의경우앱설명의각문단의제목을나타내는경우가대부분이기때문에문단내에포함된음절의길이가 15 이하인문단은제외하였다. 최종적으로남은 4,500 개의문단에대하여노이즈여부를수작업으로판단하였다. 사용자가모바일앱의카테고리와문단을함께고려하여각문단의노이즈여부를판단하였다. 실험에사용된문단들은평균적으로 24.33 개의단어로구성되어있으며전체테스트데이터중약 47% 가노이즈문단으로구성되어있다. 전체 4,500 개의데이터중 80% 는모델의학습에사용되었고나머지 20% 는성능측정하기위한테스트데이터로사용되었다. LDA 모델의파라매터중토픽의수는 100 개로지정하였다. 그리고각분산의하이퍼파라매터 (Hyper Parameter) 와 의초기값은 0.1 로지정하였으며학습반복횟수는총 1,000 회로지정되어학습되었다. SVM 분류모델에서 LDA 표현기반데이터는다항커널을이용하였고 BOW 표현에기반한데이터는선형커널을이용하여수행하였다. 실험에사용된모든파라매터는실험적으로각모델에서가장우수한성능을보여준값으로선택되었다. 실험은수집된데이터셋에포함된총 25 개카테고리에대해서독립적으로수행되었다. 그림 3 은각카테고리별노이즈문단의분류성능을보여준다. 그래프의가로축카테고리목록과각카테고리별데이터비율은표 4 에나타나있다. 제안한방법으로표현된문서기반분류성능은 BOW 로표현된데이터에비하여훨씬많은카테고리에서더높은성능을보여주었다. 특히실험데이터에서큰비중을차지하고있는카테고리들에서비슷하거나더높은분류정확도를보여주었다. 표 3 은전체데이터집합에대한분류정확도를보여준다. BOW 모델을이용하여표현된문단들은 54.09% 의정확도를보여주었다. 하지만본논문에서제안하는 LDA 에기반한문단들은 61.52% 의분류정확도를보여주었다. 비록 LDA 에기반한모델이 BOW 표현에기반한모델보다우수한성능을보여주긴하나, 전반적으로낮은정확성을보여주었다. 낮은정확성의원인을파악하기위하여오류데이터를분석해보았다. 해당데이터들을분석해본결과많은양의앱들이잘못된카테고리로분류되어있는것을확인할수있었다. 앱의카테고리는개발자의의해서결정되는것으로명확한규정이존재하지않아오분류된앱들 - 67 -

번호 카테고리 데이터수 번호 카테고리 데이터수 번호 카테고리 데이터수 1 게임 707 2 교육 478 3 라이프스타일 309 4 데코레이션 274 5 도서및참조자료 264 6 도구 234 7 음악및오디오 220 8 엔터테인먼트 216 9 여행및지역정보 208 10 커뮤니케이션 157 11 소셜콘텐츠 154 12 미디어및동영상 148 13 건강및운동 146 14 비지니스 122 15 만화 122 16 사진 122 17 생산성 110 18 금융 108 19 교통 86 20 스포츠 86 21 의료 76 22 쇼핑 61 23 날씨 44 24 뉴스및잡지 35 25 라이브러리및데모 13 이매우많이존재한다. 앱의설명에기술되어있는문단들은내용이비슷해보이더라도카테고리에따라다르게해석될수있다. 이에본논문에서는노이즈분류를위한모델을카테고리별로구축하여실험을수행하였는데, 잘못된카테고리에포함된수많은앱들이영향으로인해분류성능이낮음을확인할수있었다. 예를들어 ZLOTUS 는 GO 실행기테마를사랑 이라는앱은핸드폰을꾸미기위한테마앱으로데코레이션또는도구카테고리가존재하지만, 실제로이앱은만화카테고리에포함되어있었다. 이런앱들의영향으로인하여 BOW 와 LDA 에기반한모델모두전반적으로낮은분류정확성을보여주었다. 하지만본논문에서제안한모델은동일한환경하에서 BOW 에비하여더우수한분류성능을보여주어앱설명에서노이즈를제거하기에적합함을보여주었다. 5. 결론 본논문에서는앱설명의노이즈를제거하기위하여앱설명을토픽으로표현하여분류하는모델을제안하였다. 제안한방법은앱설명의각문단을대표적인토픽모델인 LDA 를통해표현하고이들데이터를분류문제에서우수한성능을보여주는 SVM 을이용하여분류한다. 제안한방법은앱설명에사용된단어를그대로사용하지않고이를토픽으로표현함으로써데이터부족문제에대하여강건한노이즈제거방법이다. 이를통해 BOW 모델에비하여우수한성능을보여주었다. 실험결과에의하면 BOW 에기반한모델은모든카테고리에대하여 54.09% 의정확도를보여주는반면제안한모델은 61.52% 의성능을보여주었다. 비록앱들의카테고리오분류문제에의해전반적으로낮은분류성능을보여주었지만, 모바일앱의설명에서노이즈문단을제거하기에 BOW 에기반한모델보다본논문에서제안한 LDA 에기반한모델이더욱더적합함을보여주었다. 현재앱마켓에는이미수백만개의앱들이등록되어있으며이들을설명하고있는문서의수도매우방대하다. 이들앱설명을수집하는것은어렵지않으나모델의학습을위하여각문단의정답을수작업으로부착하는것은매우큰비용이발생하는문제이다. 향후연구 로이미존재하는대량의앱설명을큰비용없이효율적으로활용하기위하여반지도또는비지도학습방법에기반한분류모델을연구할예정이다. 또한본논문의실험에서성능저하를일으킨앱의카테고리오분류에의한성능저하를효율적으로해결할수있는모델에대한연구또한함께진행할예정이다. 감사의글 본 논문은 지식경제부 산업원천기술개발사업 (10035348, 모바일플랫폼기반계획및학습인지모델 프레임워크기술개발 ) 의지원으로수행되었음. 참고문헌 [1] 노우현, 조성배, " 베이지안네트워크를이용한상황별모바일앱카테고리추천시스템 ", 한국정보과학회 2013 한국컴퓨터종합학술대회논문집, pp.1408-1410, 2013. [2] B. Yan and G. Chen, "AppJoy: Personalized Mobile Application Discovery", MobiSys '11 Proceedings of the 9th international conference on Mobile systems, applications, and services, pp.113-126, 2011. [3] T. Ozaki and M. Ehoh, "Experimental Analysis of the Effects of Social Relations on Mobile Application Recommendation", Proceedings of the International MultiConference of Engineers and COmputer Scientists, 2012. [4] J. Lin, K. Sugiyama, M. Kan and T. Chua, Addressing Cold-Start in App Recommendation: Latent User Models Constructed from Twitter Followers", Proceedings of SIGIR 2013, 2013. [5] J. Kim, S. Kang, Y. Lim and H. Kim, "Recommendation algorithm of the app store by using semantic relations between apps", The Journal of Supercomputing, vol.65, pp.16-26, 2011. [6] Timothy N. Rubin, America Chambers, Padhraic Smyth and Mark Steyvers, "Statisitcal topic - 68 -

models for multi-label document classification", Journal of Machine Learning, vol.88, pp.157-208, 2012. [7] Shibin Zhou, Kan Li and Yushu Liu, "Text Categoization Based on Topic Model", International Journal of Computational Intelligence Systems, vol.2, no.4, pp.398-409, 2009. [8] David Blei, Andrew Ng, Michael Jordan, "Latent Dirichlet allocation", Journal of Machine Learning Research, vol.3, pp.993-1022, 2003. [9] Corinna Cortes and Vladimir N. Vapnik, "Support-Vector Networks", Machine Learning, vol.20, 1995. - 69 -

Latent Structural SVM 을확장한결합학습모델 이창기 O 강원대학교 leeck@kangwon.ac.kr Jointly Learning Model using modified Latent Structural SVM Changki Lee O Kangwon National University 요약자연어처리에서는많은모듈들이파이프라인방식으로연결되어사용되나, 이경우앞단계의오류가뒷단계에누적되는문제와앞단계에서뒷단계의정보를사용하지못한다는단점이있다. 본논문에서는파이프라인방식의문제를해결하기위해사용되는일반적인결합학습방법을확장하여, 두작업이동시에태깅된학습데이터뿐만아니라한작업만태깅된학습데이터도동시에학습에사용할수있는결합학습모델을 Latent Structural SVM 을확장하여제안한다. 실험결과, 기존의한국어띄어쓰기와품사태깅결합모델의품사태깅성능이 96.99% 였으나, 본논문에서제안하는결합학습모델을이용하여대용량의한국어띄어쓰기학습데이터를추가로학습한결과품사태깅성능이 97.20% 까지향상되었다. 주제어 : 결합학습모델 (Jointly Learning Model), Latent Structural SVM, 한국어띄어쓰기, 품사태깅 1. 서론 자연어처리에서는많은모듈들이파이프라인방식으로연결되어사용되어왔으며 ( 예를들어, 단어분리와품사태깅, 구문분석등 ), 이러한경우앞단계의오류가뒷단계에누적되는문제와앞단계에서뒷단계의정보를사용하지못한다는단점이있다 [1, 2]. 이러한문제를해결하기위해최근에중국어와일본어등에대해서단어분리 (word segmentation) 와품사태깅의결합학습 (jointly learning) 모델에대한많은연구가수행되었다 [1,2,3,4]. 그러나대부분의결합학습 (jointly learning) 모델들은두모듈의태깅이같이되어있는학습데이터를필요로하고있다. 예를들어, 중국어의단어분리와품사태깅의결합학습을위해서단어분리와품사태그의정답이동시에태깅된학습데이터를사용하고있다 [1,2,3,4,]. 그러나일반적으로두작업 (task) 중에서한쪽작업의학습데이터구축이쉬우며, 한쪽작업의대용량의학습데이터가이미존재하는경우가많다. 예를들어, 한국어띄어쓰기의경우띄어쓰기가잘된신문기사등으로부터대용량의학습데이터를쉽게구축할수있으나, 기존의한국어띄어쓰기와품사태깅결합학습연구에서는한국어띄어쓰기와품사태그가동시에태깅된학습데이터만을사용하여결합학습을수행하였다 [4]. 본논문에서는파이프라인방식의문제를해결하기위해사용되는일반적인결합학습방법을확장하여, 두작업이동시에태깅된학습데이터뿐만아니라한작업만태깅된학습데이터도동시에학습에사용할수있는결합학습모델을제안한다. 본논문에서제안하는결합학습모델은기존의 Structural SVM 에은닉변수가추가 된 Latent Structural SVM 을확장하여사용한다. 실험결과, 기존의 Structural SVM 기반의한국어띄어쓰기와품사태깅결합모델의품사태깅성능이 96.99% 였으나 ( 테스트문장의띄어쓰기를제거한경우의성능임 ), 본논문에서제안하는결합학습모델을이용하여대용량의한국어띄어쓰기학습데이터를추가로학습한결과품사태깅성능이 97.20% 까지향상되었다. 2. 관련연구 자연어처리에서는단어분리, 품사태깅, 구문분석, 의미분석등의각단계모듈이주로파이프라인방식으로연결되어사용되어왔으며, 최근에파이프라인방식의문제를해결하기위해서결합모델이주로연구되고있다 [1,2,3,4]. 중국어와일본어에대해서단어분리 (word segmentation) 와품사태깅의결합학습모델 (jointly learning) 에대한많은연구가수행되었다 [1,2]. [1] 에서는 N-best reranking 방법을사용하여, 앞단계인중국어단어분리 (word segmentation) 의 N-best 결과에품사태깅을수행한후재순위화 (reranking) 를통해파이프라인방식의문제를해결하려했으나, 단어분리의 N-best 결과만사용한다는한계가있고 N-best 결과모두에품사태깅을수행하므로속도저하문제가발생했다. [2] 에서는중국어단어분리와품사태깅문제를한음절에대한 sequence labeling 문제로접근하였고, 음절에대한태그는단어분리태그와품사태그가결합한형태로쓰여태그수가증가하여검색공간이증가되는문제가발생했다. 이밖에도영어에대해서개체명인식과구문분석을동시에수행하는연구가있었다 [3]. 기존의대부분의결합학습연구들은두작업의정답 - 70 -

이동시에태깅된학습데이터를사용하고있으나, 본논문에서제안하는결합학습모델은두작업의정답이태깅된학습데이터뿐만아니라한작업의학습데이터만태깅된학습데이터도같이사용하여성능을향상시킬수있다. 3. Latent Structural SVM 을확장한결합학습모델 본논문에서는은닉변수가추가된 Latent Structural SVM 을확장한결합학습모델을제안한다. 3.1 Structural SVM Structural SVM 은기존의 SVM 을확장한기계학습알고리즘으로, 기존의 SVM 이바이너리분류, 멀티클래스분류등을지원하는반면에, structural SVM 은더욱일반적인구조의문제 ( 예를들어, sequence labeling, 구문분석등 ) 를지원하며다음과같이정의할수있다 [5]. (1) 위식에서 (x i,y i ) 는학습데이터의 i 번째문장과그에대응되는정답태그열을나타내고, Δ(y i,y) 는정답태그열 y i 와예측결과태그열 y 사이의다른태그개수를반환하며, Φ(x,y) 는자질 (feature) 벡터함수를나타낸다. 수있다. 또한학습을위해서기존의 Structural SVM 의학습알고리즘을그대로사용못하고 Concave-Convex Procedure (CCCP) 알고리즘을사용한다 [6]. 3.3 Latent Structural SVM 을확장한결합학습모델 기존의결합학습모델은대부분두개의작업 (task) 이동시에태깅된학습데이터를사용하였다 ( 예를들어, 단어분리 (word segmentation) + 품사태깅 ). 그러나이렇게두개의작업이동시에태깅된학습데이터를구축하는것은비용과시간이많이걸리며, 일반적으로한쪽작업 (task) 만태깅된학습데이터가기존에존재할수도있고, 그렇지않은경우에도한쪽작업만태깅된학습데이터를구축하는것이두개의작업이동시태깅된학습데이터를구축하는것보다훨씬비용이적게든다. 본논문에서는두작업이동시태깅된학습데이터와한쪽의작업만태깅된학습데이터를모두사용할수있도록하기위해서 Latent Structural SVM 을확장하여결합학습모델 (Jointly Learning Model) 을수식 (3) 과같이정의한다. 아래모델에서두개의작업이동시태깅된학습데이터는 1~n 문장이며 (n 개의문장 ), 한쪽의작업만태깅된학습데이터는 n+1~n+m 문장이다 (m 개의문장 ). 두개의작업이동시태깅된학습데이터 (1~n 문장 ) 부분에서는일반 Structural SVM 과유사하며 ( 두작업이동시태깅된것을하나의합쳐진태그로가정하고학습 ), 한쪽의작업에만태깅이된학습데이터 (n+1~n+m) 부분에서는태깅이안된다른작업의태그를은닉변수 (hidden variable) 로보고 Latent Structural SVM 과유사하게학습한다. 3.2 Latent Structural SVM Latent Structural SVM 은기존의 Structural SVM 에은닉변수 (hidden variable) z 를추가한것으로, 다음과같이정의된다 [6]. (2) 위식에서 Δ(y i,y,z) 는정답태그열 y i 와예측결과태그열 y 와은닉변수 z 를입력으로받는 loss 함수로일반적으로은닉변수 z 는무시하여 Δ(y i,y) 와같아지고 ( 즉, y i 와 y 사이의다른태그개수 ), Φ(x,y,z) 는은닉변수 z 가추가된자질 (feature) 벡터함수를나타낸다. 은닉변수 z 를무엇으로정의하냐에따라자질벡터함수 Φ(x,y,z) 가달라지게되며이를사용자가정의해주어야한다. Latent Structural SVM 은은닉변수가추가되어더이상 convex optimization 문제가아니기때문에유일한해가존재하지않고지역극소점 (local minima) 에빠질 (3) 위식에서 (x i,y i,z i ) 는학습데이터의 i 번째문장과그에대응되는첫번째작업의태그열 (y i ) 및두번째작업의태그열 (z i ) 을나타내고, Δ(y i,z i,y,z) 는정답태그열 y i 및 z i 와예측결과태그열 y 및 z 의 loss 함수 ( 정답태그 y i 및 z i 에대해서두작업의 y 및 z 의태그가모두정답태그와같을경우만맞았다고계산하여틀린개수를반환함 ) 를나타내며, Φ(x,y,z) 는문장 x, 첫번째작업태그열 y, 두번째작업태그열 z 로구성되는자질 (feature) 벡터함수를나타낸다. - 71 -

Latent Structural SVM 과유사하게한쪽의작업만태깅된학습데이터부분 (n+1~n+m) 에서는은닉변수가추가되었기때문에더이상 convex optimization 문제가아니고, 따라서유일한해가존재하지않으며, 지역극소점 (local minima) 에빠질수있다. 학습을위해서기존의 Latent Structural SVM 과같이 Concave-Convex Procedure (CCCP) 알고리즘을사용할수있다 [6]. 본논문에서는 CCCP 와유사한방식을사용하면서 Stochastic Gradient Descent (SGD) 방식을적용한다. 이는 SVM 의학습알고리즘으로제안된 Pegasos [7] 알고리즘을은닉변수가추가된결합학습모델 (Jointly Learning Model) 에확장한것이다. 이를위해서수식 (3) 의목적함수 (object function) 를학습데이터의일부인 k 개를사용하도록 approximation 하기위해서아래와같이목적함수 f(w;a t ) 를정의한다. (6) 식 (6) 을이용한결합학습모델 (Jointly Learning Model) 의학습알고리즘은다음과같다. (4) 위식에서 A t 는전체학습셋 (1~n+m 문장 ) 중에서임의의 k 개의문장을선택한것이다. 위 (4) 식의목적함수 f(w;a t ) 의 gradient 를구하면다음과같다. where 4. 실험 (5) 식 (5) 를이용하여 gradient descent 방식의 weight vector w 의업데이트식을구하면다음과같다 (learning rate η=1/t 가정 ). 기존의일반적인결합학습모델과본논문에서제안하는 Latent Structural SVM 을확장한결합학습모델의성능비교를위해서, [4] 와같이한국어띄어쓰기문제와품사태깅문제에결합학습모델을적용하였다. 띄어쓰기와품사태깅이동시에태깅된학습데이터는 [4] 와동일하게세종품사태깅코퍼스를사용하였으며, 실험에사용한자질 (feature) 도 [4] 와동일하게사용하였다. 본논문에서제안하는결합학습모델은추가적으로세종원시코퍼스 (raw corpus) 를띄어쓰기의학습데이터로추가사용하였다. 이경우, 식 (3) 의 x 는입력문장을의미하고, y 는띄어쓰기태그열, z 는음절기반품 - 72 -

사태그열을의미한다. 표 1 은한국어띄어쓰기및품사태깅실험결과이다. 평가데이터의띄어쓰기정보가완벽한경우에품사태깅의성능은 98.03%(F1) 이고, 평가데이터의띄어쓰기정보를제거한한후, 파이프라인방식으로띄어쓰기적용후품사태깅을적용한경우품사태깅성능 (F1) 은 96.77% 이였다 [4]. [4] 의띄어쓰기와품사태깅의결합모델을적용한경우, 띄어쓰기 96.86% ( 음절단위정확도 ) 와품사태깅 96.99%(F1) 의성능을보였다. 본논문에서제안하는 Latent Structural SVM 을확장한결합모델을띄어쓰기추가학습데이터 50 만문장과함께적용한경우띄어쓰기 97.17% 와품사태깅 97.10% 를보였으며, 추가학습데이터 180 만문장과함께적용한경우띄어쓰기 97.33% 와품사태깅 97.20% 를보였다. [4] 의결합모델과비교하여, 본논문에서제안하는결합모델을사용할경우띄어쓰기와품사태깅성능이각각 0.47 과 0.21 만큼향상되었다. 모델 띄어쓰기 품사태깅 입력문장의띄어쓰기정확도가 100% 인경우 POS tagging using S-SVM [4] - 98.03 입력문장의띄어쓰기를제거한경우 Word spacing using S-SVM + POS tagging using - 96.77 S-SVM (pipeline) [4] Joint model of word spacing and POS tagging using 96.86 96.99 S-SVM [4] Jointly Learning Model: 띄어쓰기 50만문장추가 97.17 97.10 Jointly Learning model: 띄어쓰기 180만문장추가 97.33 97.20 based joint decoding method for cascade segmentation and labelling tasks. In Proceedings of the IJCAI Conference, Hyderabad, India, 2007. [2] Hwee Tou Ng and Jin Kiat Low. Chinese part-of-speech tagging: One-at-a-time or all-at-once? Word-based or character-based? In Proceedings of the EMNLP Conference, Barcelona, Spain, 2004. [3] Jenny Rose Finkel and Christopher D. Manning. Joint parsing and named entity recognition. In Proceedings of the NAACL Conference, 2009. [4] 이창기. Structural SVM 을이용한한국어띄어쓰기및품사태깅결합모델. KCC, 2013. [5] Joachims T., et al. Cutting-Plane Training of Structural SVMs. Machine Learning, vol. 77, no. 1, 2009. [6] Yu C. and Joachims T., Learning Structural SVMs with Latent Variables. In Proceedings of the ICML, 2009. [7] Shalev-Shwartz S., et al. Pegasos: Primal estimated sub-gradient solver for SVM. Mathematical Programming, 127, 1, 2011. 5. 결론 본논문에서는파이프라인방식의문제를해결하기위해사용되는일반적인결합학습방법을확장하여, 두작업이동시에태깅된학습데이터뿐만아니라한작업만태깅된학습데이터도동시에학습에사용할수있는결합학습모델을 Latent Structural SVM 을확장하여제안하였다. 실험결과, 기존의한국어띄어쓰기와품사태깅결합모델의품사태깅성능이 96.99% 였으나, 본논문에서제안하는결합학습모델을이용하여대용량의한국어띄어쓰기학습데이터를추가로학습한결과품사태깅성능이 97.20% 까지향상되었다. 참고문헌 [1] Yanxin Shi and Mengqiu Wang. A dual-layer CRF - 73 -

l 토픽모델을이용한수학식검색결과재랭킹 개체명인식을위한개체명사전자동구축 한국어의존파싱을이용한트리플관계추출 P 언어를이용한한글프로그래밍

토픽모델을이용한수학식검색결과재랭킹 1) 양선 O, 고영중동아대학교 seony.yang@gmail.com, youngjoong.ko@gmail.com Reranking Search Results for Mathematical Equation Retrieval Using Topic Models Seon Yang O, Youngjoong Ko Dong-A University 요약 본논문은두가지주제에대해연구한다. 첫번째는수학식검색에대한것이다. 웹에는양질의수학식데이터가마크업언어형태로저장되어있으며이를활용하기위한연구들이활발히진행되고있다. 본연구에서는 MathML (Mathematical Markup Language) 로저장된수학식데이터를일반질의어를이용하여검색한다. 두번째주제는토픽모델 (topic model) 로검색성능을향상시키는방법에대한것이다. 먼저수학식데이터를일반자연어문장으로변환한후 Indri 시스템을이용하여검색을수행하고, 토픽모델을이용하여미리산출된스코어를적용하여검색순위를재랭킹한결과, MRR 기준평균 5% 의성능을향상시킬수있었다. 주제어 : 수학식검색, MathML, 토픽모델, Indri, 재랭킹 1. 서론 웹에계속증가되고있는대용량데이터를어떻게활용할것인지에대한주제는계속해서연구의대상이되어왔다. 특히텍스트형태로저장된웹문서들을의사결정 (decision making), 마케팅전략구상등의분야에서효과적으로사용하기위한연구들이활발히진행되고있는데, 감정분석 (sentiment analysis), 의견마이닝 (opinion mining), 상품리뷰분석 (product review analysis) 등이이에속하며양질의연구결과가계속해서보고되고있다. 이와같이일반텍스트문서에대한연구가활발히진행되고있는반면, 웹에저장되어있는풍부한수학식데이터활용에대한연구는전세계적으로아직초기단계에있다고볼수있다. 이미지형식으로수식이저장되던과거와는달리 MathML (Mathematical Markup Language)[1] 등의마크업언어가발표되면서, 이러한형태로표현된수학식을포함하는웹문서의수는계속해서급증하고있다. 그런데, 웹에서의수학식저장방법이용이해진데에반해그데이터의검색및활용에대한연구는이제시작단계라고볼수있다. 본논문은다음과같이두가지주제에대하여연구를진행한다. 1) 일반자연어질의를이용한 MathML 수학식검색 2) 토픽모델 (topic model) 을이용한검색성능향상 첫번째주제는수학식검색에대한것으로, MathML 에대해전혀모르는사용자들도수학식을검색할수있도록일반자연어질의어를이용하는데에중점을두며, 이를위해각각의수학식데이터를한글문장으로변환하는방법을사용한다. 이때하나의수학식에대해일반문장으로는표현하는방법이여러가지가있을수있기때문에, 수학기호표현에대한동의어사전의구축을통해질의어로들어오는다양한표현을정확히인식하는데주력한다. 그후 Indri 검색시스템 [2] 을이용하여인덱싱및검색을수행한다. 두번째주제는토픽모델을이용하여검색성능을향상시키는방법에대한연구이다. 토픽모델을적용함으로써비감독학습 (unsupervised learning) 에의해수학식데이터를적정수의토픽수로미리클러스터링 (clustering) 하며, 이때산출된두가지스코어인문서 VS 토픽 ( 여기서문서는수학식을의미함 ) 스코어및단어 VS 토픽스코어를이용하여 Indri 검색결과를재랭킹 (reranking) 하는방법을이용한다. 본논문의구성은다음과같다. 2 장에서 MathML 수학식관련연구및토픽모델을정보검색에이용하는연구를간단히소개한다. 3 장은수학식데이터를한글로변환하는과정을설명하고, 4 장에서는토픽모델을이용하여검색결과를재랭킹하는방법에대해설명한다. 5 장에서실험및결과를기술하며, 6 장에서결론및향후연구에대해논한다. 2. 관련연구 이논문은 2013 년정부 ( 교육과학기술부 ) 의재원으로한국연구재단의 지원을받아수행된기초연구사업임 (No. NRF-2013R1A1A2009937) MathML 이 W3C 에서제안되면서 [1] 웹상의수학식표현 - 77 -

에대한연구가활발해졌다. Ferreira 외 [3] 는 MathML 수학식을영어및포르투갈어로변환하는시스템에대해연구하여 AudioMath[4] 를개발하였으며, DesignScience 에서는 MathML 수식을영어로읽어주는 MathPlayer[5] 가발표되었다. Kim 외 [6] 는 MathML 수식을여러클래스로분류하는연구를진행하였다. MathML 이많이사용되면서웹에있는 MathML 수학식검색에대한연구도시작되었다. Adeel 외 [7] 는 MathML 로구성된수학식에대해정규표현을사용하여색인어를생성하였으며, Misutka 외 [8] 는후위표기를통해색인어를추출하였다. 이준영외 [9] 는한글로입력된질의어를 MathML 표현으로변환한뒤 MathML 수학식을검색하는시스템을제안하였다. 문서검색에토픽모델을이용하는연구들도지속적으로발표되고있다. Yi 외 [10] 는여러토픽모델기법들을이용한검색비교실험을수행하였으며, Deveaud 외 [11] 는정보검색에토픽모델수행을검색도중에수행하는방법을제안하였다. 3. 일반질의어를이용한수학식검색 서론에서기술하였듯이본수학식검색의전제는사용자들이일반질의어를사용하여웹에있는 MathML 수학식을검색할수있어야한다는점이다. 즉, 수학식을소리내어읽듯이검색어를입력함으로써복잡한수학기호를입력하거나별도의수식입력툴사용없이도해당수식을검색할수있도록한다. 이를위해먼저다양한수학식평문표현을관찰하고 MathPlayer[5] 를참고로하여수학식을한글문장으로변환하는시스템을구축하였다. 아래는그예를보여준다. 수학식 : cos MathML 표현 : <math display='block'> <mrow> <msup> <mi>b</mi><mn>2</mn> </msup> <mo>=</mo> <msup> <mi>a</mi><mn>2</mn> </msup> <mo>+</mo> <msup> <mi>c</mi><mn>2</mn> </msup> <mo>-</mo> <mn>2</mn><mi>a</mi><mi>c</mi> <mo> </mo> <mi>cos</mi><mi>b</mi> </mrow> </math> 한글문장으로변환된수학식 : b 의이제곱이퀄 a 의이제곱플러스 c 의이제곱마이너스 2 a c 코싸인 B 이때주의할점은하나의수학식에대해다양한자연어표현이있을수있다는점이다. 예를들어 b 2 를평문으로작성하면다음과같이다양한표현이나올수있다. b 제곱, b 의제곱, b 의제곱, 비의이제곱, 비의 2 승,... 이와같이매우단순한수학표현에서도다양한가짓수의평문표현을관찰할수있다. 즉, b 를영어알파벳 b 로표현할수도있고, 한글 비 로표현할수도있으며, 숫자 2 에대해서도그냥숫자자체로표현하는경우와한글로 이 라고표현하는경우를발견할수있었으며, 위첨자 2 에대해서 제곱, 이제곱, 2 제곱, 2 승 등다양한표현이나왔다. 또한 b 뒤에 의 라는조사는부착된경우도생략된경우도관찰할수있었다. 이런많은수학식평문표현을관찰하여수학기호에대한 MathML 표현과다양한평문표현을연결시킨수학기호표현에대한동의어사전 [ 표 1] 을구축하였다. 표 1. 수학기호표현동의어사전의예구수학 MathML 표현다양한평문표현분기호 a <mi>a</mi> a, 에이식 x <mi>x</mi> x, 엑스, 엑쓰별 sine <mi>sin</mi> sine, sin, 사인, 싸인자 log <mi>log</mi> log, 로그 Γ <mi>γ</mi> gamma, 감마 +, plus, 더하기, 플러스, + <mo>+</mo> 프러스, 쁠,... =, equal, 는, 은, = <mo>=</mo> 이퀄, 같다,... 연 integral, 인테그랄, 산 <mo> </mo> 인테그럴, 적분,... 자 intersection, cap, <mo> </mo> 교집합, 교,... sigma, 시그마, Σ <mo> </mo> 씨그마,... 숫 2 <mn>2</mn> 2, 이, two, 투,... 자 위의사전을이용함으로써아래의예처럼다양한평문질의어를웹에저장된수학식데이터와최대한연결시킬수있도록표준화한다. 질의어 : root b 제곱 4ac, 루뜨비제곱빼기 4 곱하기에이시, 루트 b 2 승마이너스 4ac, - 78 -

... 표준화이후 : 루트 b 의이제곱마이너스 4 a c 위의예처럼하나의기호에대해여러표현이가능한반면, 여러기호가동일하게표현될수도있다. 예를들어 R, r, R, R 은 MathML 표현으로는각각 <mi>r</mi>, <mi>r</mi>, <mi>葶</mi>, <mi>葷</mi> 에해당하지만, 일반질의어로입력될될때는네가지경우모두한글로는 알 혹은 얼, 그리고영어알파벳으로는 r 혹은 R 로입력될것이다. 이와같이동일한읽기로표현되는 MathML 수식을검색하기위해모든가능한 MathML 표현값을추가하여질의어를확장한다. 4. 토픽모델을이용한검색성능향상 한글문장으로변환된수학식을대상으로 Indri 검색시스템을이용하여수학식검색을수행한다. 이때검색성능향상을위해서토픽모델을이용한다. 한글로변환된수학식데이터에대해미리 LDA (Latent Dirichelet Allocation) 에의한토픽모델링을수행하여수학식 VS 토픽, 단어 VS 토픽스코어를산출하며, 이스코어를이용하여수식 (1) 과같은 Indri 검색결과를수식 (2) 와같이재랭킹하였다. 아래수식에서 w 는수학식 d 에포함된질의어를의미하며, z 는토픽을가리킨다. Indri 랭킹스코어 : (1) 재랭킹을위한스코어 : (2) 실제재랭킹시에는위두수식을선형결합한다. 실험결과토픽수가 2 와 3 일때최종검색성능이향상됨을확인할수있었는데, [ 표 2] 및 [ 표 3] 은토픽수를각각 2 및 3 으로했을때토픽별스코어가상위에랭크된단어리스트이다. 여러토픽에서고른스코어를보여주거나숫자인경우를제외하고, 해당토픽에편중현상을보이는상위 20 개단어들이다. [ 표 2] 의단어들을보면, 토픽 1 경우분수관련한용어들이많이등장하며, 벡터, 행렬, 로그, 미분, 적분관련된단어들이상위스코어를가지고있음을볼수있다. 토픽 2 에는함수, 삼각함수, 방정식에관련된단어들이상위에많이포함되었다. 그리고 [ 표 3] 의단어들을보면, 토픽 1 경우분수관련한용어들이많이등장하며, 삼각함수, 로그관련된단어들이상위스코어를가지고있음을볼수있다. 토픽 2 에는벡터, 행렬, 명제에관련된단어들이상위에포함되었으며, 토픽 3 경우함수, 미분적분, 집합관련단어들이많이포함되었음을볼수있다. 이결과는토픽이 2, 3 인경우토픽모델링을이용하여수학식데이터를수학영역 ( 혹은단원 ) 별로분류하고있음을알수있다. 그리고이러한분류정보가단어의 가중치를결정할때최종성능을향상시킬수있는수단으로사용될수있음을실험을통해확인할수있다. 표 2. 토픽수 2 일때의상위단어리스트토픽 1 토픽 2 분수 끝 아래첨자 분에 n y 벡터 d 표 0 열 k 부터 로그 시작 0 행 1 행 C t 프라임 인테그랄 괄호열고 괄호닫고 x 이제곱 f A 위첨자 바 x 의 함수 B 루트 쎄타 P 싸인 코싸인 델타 알파 g 오른쪽이중화살표 표 3. 토픽수 3 일때의상위단어리스트 토픽1 토픽2 토픽3 분수 아래첨자 f 이제곱 분에 바 x 의 루트 P 로그 삼제곱 알파 분모 분자 파이 베타 작거나같다 크거나같다 탄젠트 싸인 코싸인 사제곱 n 벡터 표 0 열 쎄타 c k 1 열 시작 0 행 1 행 프라임 p 오른쪽이중화살표 r 양쪽이중화살표 q 가로생략 콜론 A d 위첨자 까지 함수 B 부터 t 인테그랄 델타 리미트 교집합 합집합 시그마 크다 작다 C F 무한대 - 79 -

반면토픽수가 4 이상인경우최종검색성능향상을확인할수없었는데, 단어의스코어가한토픽에편중되기보다는둘이상의토픽에서고른스코어를보여주는경우가많았고, 토픽수가많아질수록편중현상은더줄어들고각토픽별로상위에랭크된단어리스트에서특정수학영역발견에모호함이많았다. 이는실험에사용된데이터수가 1,811 개로상대적으로작아서토픽수가많은경우명확한분류가어려웠을것으로판단된다. 또한수학식데이터는일반문서보다길이가짧고, 사용되는단어의집합도일반문서들보다그원소수가작다는것도, 토픽수가많은경우분류가모호해지는원인이된것으로판단된다. 5. 실험 5.1 실험데이터본실험데이터로는고등학교과정수학교재의수학식을 MathML 로변환한데이터를사용하였으며, 특정단원에편향되지않게로그, 미분, 벡터, 행렬등다양한단원으로부터균등한비율로수학식을선택하였다. 는실험데이터를요약한것이다. 시스템평가도구로는일반검색에서도많이사용되는 MRR(Mean Reciprocal Rank) 을사용하였으며, 먼저전체수학식데이터중임의의 200 개수학식을사용자에게보여준후평문으로자유롭게질의어로입력하도록하였고, 검색결과에대해 MRR 을산출하였다. [ 표 4] 는실험데이터수를요약해서보여주고있다. 판단된다. 그리고토픽모델링결과를반영한후의향상된결과는 [ 표 6] 과같다. 표 6. 토픽모델을이용한재검색결과 ( 괄호안은토 픽모델적용이전대비상향된비율을나타냄 ) 실험방법 MRR (2 토픽 ) MRR (3 토픽 ) LM 0.3060 (7%) 0.2556 (2%) Tfidf 0.3602 (2%) 0.3556 (1%) Okapi 0.4288 (6%) 0.4162 (5%) [ 표 6] 에서볼수있듯이 2 토픽경우평균 5% 의성능향상을보였으며, 3 토픽경우에도 3% 에가까운성능향상을확인할수있었다. 요약하자면, 토픽모델결과를이용하여수학식검색순위를재랭킹함으로써평균검색성능을성공적으로향상시킬수있음을알수있다. 표 4. 실험데이터현황내용수학식수중복을제외한단어개수테스트질의수 수 1,811개 690개 200개 5.2 검색성능평가먼저토픽모델적용전 Indri 를이용한수학식검색결과는 [ 표 5] 와같다. 가중치방법은 Indri 에서기본적으로제공하는 language model (LM) 과, 추가로 Tfidf 및 Okapi 를사용하였다. 표 5. Indri 검색결과 실험방법 MRR LM 0.2301 Tfidf 0.3432 Okapi 0.3632 [ 표 4] 를보면일반문서검색과달리 LM 을이용하였을때성능이낮았는데, 문서의길이 ( 즉, 한글로변환된각수학식의길이 ) 가일반문서보다훨씬짧으며, LM 이러한문서길이에가장민감하게영향을받았기때문으로 [ 그림 1] 토픽수별성능변화 그리고 [ 그림 1] 에서볼수있듯이토픽수가 4 이상인경우는성능향상을얻을수없었는데, 그이유는앞에서설명하였듯이실험에사용된수학식수, 수학식의길이, 그리고사용된단어수등에영향을받은것으로보인다. 6. 결론 본연구는수학식검색및토픽모델적용이라는두가지주제에대하여실험을수행하였다. 먼저일반질의어를이용하여수학식을검색하기위해수학식데이터를자연어문장으로변환하였으며 Indri 시스템을이용하여검색을수행하였다. 또한검색성능향상을위해토픽모델을적용하였는데, Indri 검색순위를재랭킹하는데있어서토픽모델에서산출된스코어를이용하였다. 이와같은재랭킹결과토픽모델적용전에비해서토픽수 2 인경우평균 5% 의성능향상을확인할수있었다. 향후연구로는수학식검색시스템을영어등다른언 - 80 -

어에대해적용하는방법에대해서연구할예정이다. 또한수학식을한글로변환한데이터와 MathML 수학식자체를둘다사용하여검색을수행하는실험을계획중이며, 토픽모델을이용하여단어간유사도를산출후검색가중치에결합시키는실험을계획중이다. 참고문헌 [1] http://www.w3.org/math [2] http://www.lemurproject.org/indri.php [3] Helder Ferreira and Diamantino Freitas, AudioMath: Towards Automatic Readings of Mathematical Expressions, Proceedings of Human-Computer Interaction International, 2005. [4] http://lpf-esi.fe.up.pt/~audiomath [5] http://www.dessci.com/en/products /mathplayer [6] Shinil Kim, Seon Yang, Youngjoong Ko, Classifying Mathematical Expressions Written in MathML, Journal of IEICE Transactions on Information and Systems, vol.e95-d, no.10, pp.2560-2563, 2012. [7] Muhammad Adeel, Hui Siu Cheung, Sikandar Hayat Khiyal, Math GO! Prototype of A Content Based Mathematical Formula Search Engine, Journal of Theoretical and Applied Information Technology, vol.4, no.10, pp.1002-1012, 2008. [8] Jozef Misutka, Leo Galambos, Extending Full Text Search Engine for Mathematical Content, Proceedings of Towards Digital Mathematics Library: DML 2008 workshop, pp.55-67, 2008. [9] 이준영, 양선, 고영중, 평문질의어 MathML 용어변환을이용한수학식검색, 한국컴퓨터종합학술대회논문집, 39권, 1(B) 호, pp.312-314, 2012. [10] Xing Yi, James Allan, A Comparative Study of Utilizing Topic Models for Information Retrieval, Proceedings of European Conference on Information Retrieval (ECIR 2009), pp.29-41, 2009. [11] Romain Deveaud, Eric SanJuan, Patrice Bellot, Are Semantically Coherent Topic Models Useful for Ad Hoc Information Retrieval?, Proceedings of Association for Computational Linguistics (ACL Short Papers 2013), 2013. - 81 -

개체명인식을위한개체명사전자동구축 1) 전원표 O, 송영길, 최맹식, 김학수강원대학교, IT 대학, 컴퓨터정보통신공학전공 {nlpjwp, nlpyksong, nlpmschoi, nlpdrkim}@kangwon.ac.kr Automatic Construction of a Named Entity Dictionary for Named Entity Recognition Wonpyo Jeon O, Yeongkil Song, Maengsik Choi, Harksoo Kim Program of Computer and Communication Engineering, College of Information Technology, Kangwon National University 요약 개체명인식기에대한연구에서개체명사전은필수적으로필요하다. 그러나공개된개체명사전은거의없기때문에, 본논문에서는디비피디아의데이터로부터개체명을효과적으로추출하여자동으로구축할수있는방법을제안한다. 제안방법은엔트리의 이름 과 분류 정보를사용한다. 엔트리의 이름 은개체명으로사용하고, 엔트리의 분류 는각개체명클래스와의상호정보량을계산하여엔트리와개체명클래스사이의점수를계산한다. 이렇게계산된점수를이용하여개체명과개체명클래스를매핑한다. 그결과 76.7% 의평균정확률을보였다. 주제어 : 개체명사전, 디비피디아, 상호정보량 1. 서론 개체명인식은자연어에서사용된인명, 지명, 조직명등의정보를식별하여해당클래스로분류하는작업을말한다. 개체명은대부분의문서에서중요한핵심어역할을하기때문에자연어처리연구에다양하게응용된다. 특히도메인에독립적인질의응답시스템 (Open Domain Question Answering) 에서는많은종류의개체명을인식할수있는개체명인식이필수적이다 [1]. 이러한개체명인식을위해서는개체명사전이필요하다. 그러나개체명사전을구축하기위해서는많은인력과시간이소비된다. 또한어렵게개체명사전을구축하더라도지속적으로생성되는개체들을추가하고, 관리하는것은현실적으로많은어려움이있다. 따라서본논문은디비피디아 (DBpedia) 데이터를이용하여개체명을효과적으로추출하여자동으로구축할수있는방법을제안한다. 2. 관련연구 개체명사전을구축하기위해서는개체명클래스분류를정의해야한다. 개체명클래스의분류는연구분야에따라서로다른정의를사용하고있으며, 그에대한많 * 이논문은 2013 년도정부 ( 교육과학기술부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (2013R1A1A4A01005074) 또한본논문은지식경제부및한국산업기술평가관리원의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10041678, 다중영역정보서비스를위한대화형개인비서소프트웨어원천기술개발 ] 은연구가있었다. MUC-6(Message Understanding Conference) 에서는 PERSON, LOCATION, ORGANIZATION 의 3 개분류를사용하고있으며, 이것은여러연구에서대분류개체명인식의기본클래스로사용되고있다 [2]. BBN(Bolt Beranek and Newman) 은 QA(Question Answering) 를위한가이드라인에서 29 개의클래스계층구조를정의하였다 [3]. 또한 Sekine 는박물관, 강등많은세밀한하위클래스를포함하고있는개체명클래스계층구조를정의했다 [4]. Tkachenko 는위키피디아 (WikiPedia) 데이터를사용한개체명인식을위해 BNN 과 Sekine 의클래스계층중에서 15 개의메인클래스와 3 개의보조클래스를정의하여사용했다 [5]. 본논문의내용과유사한연구로배상준 [6] 의연구가있다. 배상준 [6] 은위키피디아데이터를이용하여개체명사전을자동구축하는연구를하였다. 위키피디아엔트리 (entry) 내에있는 분류 정보를이용하여개체명클래스의분류체계를구성하고, 엔트리를매핑 (mapping) 시키는방법이다. 이때, 양질의분류체계를얻기위해불확실성측정기법을사용하여불확실성이높은분류체계를제거하는방법을사용하였다. 그러나이방법은새로운개체명분류체계를만들어개체명사전을만드는방법이기때문에기존의개체명분류를이용하는연구에는그래도사용하기에어려움이있다. 그래서본논문에서는정의된개체명분류체계에개체명을효과적으로매핑하는방법을제안한다. 3. 개체명인식기 본연구는개체명인식기연구의선행연구로수행하 - 82 -

였다. [ 그림 1] 은본연구팀에서연구하고있는개체명인식기의구조를보여준다. 가및삭제, 수정을하였다. < 표 1> 의의미확장은기존개체명클래스의한정적인의미때문에디비피디아의엔트리를커버하기어려운문제를보완하기위한것이다. 예를들어 AUTO 의경우자동차를의미하는데 VEHICLE 로확장함으로써탈것에대한엔트리를커버할수있다. 4.2. 개체명사전자동구축 그림 1. 개체명인식기구조도 기계학습기반의개체명인식기의연구를위해서는개체명이태깅된대용량의말뭉치가필요하다. 그러나국내에는공개된개체명태깅말뭉치가거의없기때문에, 직접말뭉치를구축해야한다. 말뭉치구축을위해수작업으로개체명태깅을하는데시간적인적자원의소모가크므로개체명사전이필수적이다. 개체명사전자동구축을위해디비피디아데이터를사용하였다. 디비피디아는위키피디아의데이터를 RDF(Resource Description Framework) 형태의파일로저장한것으로위키피디아의거의대부분의데이터를저장하고있다. 본논문에서는개체명사전자동구축을위해디비피디아의데이터중엔트리의 제목 과 분류 를사용하였다. [ 그림 2] 는개체명사전자동구축의과정을보여준다. 4. 개체명사전자동구축 4.1. 개체명클래스정의 < 표 1> 은본논문에서정의한개체명클래스이다. 표 1. 개체명클래스정의 번호 Tkachenko 본연구 비고 1 PERSON PERSON 2 GEOLOGICAL_REGION LOCATION 의미확장 3 FACILITY FACILITY 4 AUTO VEHICLE 의미확장 5 GAME GAME 6 PLANT PLANT 7 PERIOD PERIOD 8 COMPUTER COMPUTER 9 DISAMBIGUATION_PAGE - 삭제 10 GPE GPE 11 ASTRAL_BODY - 삭제 12 ORGANIZATION ORGANIZATION 13 WORK_OF_ART WORK_OF_ART 14 ANIMAL ANIMAL 15 INSECT INSECT 16 LANGUAGE LANGUAGE 17 LIST_OF_PAGE - 삭제 18 OTHER_PAGE OTHER 이름변경 19 - EVENT 추가 20 - THEORY 추가 21 - FOOD 추가 그림 2. 개체명사전자동구축과정 디비피디아의데이터로부터엔트리의 제목 과 분류 를가져온다. 이때 분류 에대하여전처리를수행한다. 분류 는여러어절로구성될수있는데, 본논문에서는 분류 의마지막어절만을가져왔다. 이와같은방법으로얻어진정제문서로부터일정분량의엔트리를각각의개체명분류로수작업분류하여시드데이터를구성한다. 본논문에서는각클래스별로 30 개의엔트리를시드데이터로사용하였다. < 표 1> 의개체명클래스는 Tkachenko 가정의한개체명클래스일부를수정하여정의한것으로, 향후진행할개체관계추출연구를위해기존의개체명클래스에서추 그림 3. 시드데이터예 - 83 -

[ 그림 3] 과같은초기데이터로부터수식 (1) 을이용하여개체명클래스와각엔트리의 분류 정보간의상호정보량을계산한다. log (1) 수식 (1) 에서 는엔트리의 분류 로 [ 그림 3] 에서 점선으로표현된 출신, 사람 등을의미한다. 는 PERSION, LOCATION 등과같은개체명클래스를의미한다. 이렇게계산된값과수식 (2) 를이용하여초기데이터이외의엔트리별점수를계산하여개체명클래스를매핑한다. arg (2) 이방법은엔트리를구성하는모든분류들의점수를합산하여계산하므로특정분류때문에잘못분류되는경우를처리할수있다. 예를들어 미국테니스협회 의분류정보중 테니스 가 ORGANIZATION 이아닌다른클래스와높은상호정보량값을가지더라도나머지분류정보 단체, 기구, 설립 때문에최종적으로 ORGANIZATION 클래스에서높은점수가나온다. 5. 구축결과 본논문에서는개체명사전구축을위해한국어디비피디아를이용하였다. 한국어디비피디아의엔트리중 분류 정보를가지고있는엔트리는 186,520 개이다. 이중개체명사전에추가할대상은단일 분류 정보를가지고있는엔트리는 56,031 개를제외한 130,489 개로제한한다. 그이유는단일 분류 정보를가지고있는엔트리는각개체명클래스와상호정보량점수를구할수없기때문이다. < 표 3> 은각클래스별로매핑된개체명의수이다. 표 3. 매핑된개체명의수 클래스 매핑된수 클래스 매핑된수 GPE 8,642 ANIMAL 1,524 PERSON 41,066 INSECT 443 LOCATION 13,924 PLANT 854 WORK_OF_ART 8,730 FOOD 1,445 ORGANIZATION 11,986 FACILITY 10,728 VEHICLE 1,328 LANGUAGE 1,172 THEORY 3,688 COMPUTER 1,166 GAME 3,522 PERIOD 36 EVENT 5,457 OTHER 14,779 구축된개체명사전의신뢰도를측정하기위해서는정 답비교를위한개체명사전이필요하다. 그러나공개된개체명사전을찾지못하였기때문에정확한신뢰도를측정할수없었다. 그래서차선책으로분류된개체명중각클래스별로임의로 100 개씩샘플링 (sampling) 하여정확률을측정하였고, 총 5 회반복하여평균정확률을계산하였다. 태깅된정답이없기때문에재현율은계산하지못했다. 매핑된개체가 36 개인 PERIOD 클래스의경우전체를대상으로측정한다. < 표 4> 는클래스별로각샘플링한개체명의평균매핑정확률을나타낸다. 표 4. 평균매핑정확률 개체명클래스 평균정확률 개체명클래스 평균정확률 GPE 0.615 ANIMAL 0.588 PERSON 0.988 INSECT 0.620 LOCATION 0.778 PLANT 0.840 WORK_OF_ART 0.840 FOOD 0.715 ORGANIZATION 0.808 FACILITY 0.858 VEHICLE 0.890 LANGUAGE 0.725 THEORY 0.855 COMPUTER 0.790 GAME 0.695 PERIOD 0.861 EVENT 0.573 OTHER - 실험결과가장높은정확률을보인것은 PERSON 으로 98.8% 의정확률을보였고, 가장낮은정확률을보인것은 EVENT 로 57.3% 의정확률을보였다. 전체적으로평균 76.7% 의정확률을보였다. 6. 결론 본논문에서는개체명인식기구축에필수적인개체명사전을자동으로구축하는방법을제안하였다. 개체명클래스의분류로 Tkachenko 의개체명클래스를수정하여총 18 개의개체명클래스분류를만들었다. 개체명사전의구축대상으로위키피디아의정보를저장하고있는디비피디아의정보중엔트리 이름 과 분류 정보를이용하였다. 엔트리의 이름 과개체명클래스를매핑하기위해엔트리를구성하는 분류 들과개체명클래스간의상호정보량의합을사용하였다. 그결과개체명클래스분류에서평균 76.7% 의정확률을보였다. 향후연구로개체명사전의정확률향상과더불어개체명인식기, 개체간의관계추출에대한연구를진행할예정이다. 참고문헌 [1] Satoshi Sekine, Named entity: history and future, Technical Report, New York University, 2004. [2] MUC-6, http://www.cs.nyu.edu/cs/faculty/grishman /muc6.html (2013.09.13 확인 ) [3] Annotation guidelines for answer types, http://www.ldc.upenn.edu/catalog/docs/ldc2005t33 /BBN-Types-Subtypes.html (2013.09.13. 확인 ) - 84 -

[4] Definition of Sekine`s Extended Named Entity, http://nlp.cs.nyu.edu/ene/version6_1_0eng.html (2013.09.13. 확인 ) [5] Maksim Tkachenko, Alexander Ulanov and Andrey Simanovsky, Fine grained classification of named entities in wikipedia, Technical report, HP Laboratories, 2010. [6] 배상준, 고영중, 한국어위키피디아를이용한분류체계생성과개체명사전자동구축, 정보과학회논문지 (B), 제 16 권, 제 4 호, pp. 492-496, 2010. - 85 -

한국어의존파싱을이용한트리플관계추출 곽수정 O*, 김보겸, 이재성 충북대학교정보산업공학과 *, 디지털정보융합과 crystalk@cbnu.ac.kr, bogyum@cbnu.ac.kr, jasonlee@cbnu.ac.kr Triplet Extraction using Korean Dependency Parsing Result Sujeong Kwak O, Bogyum Kim, Jae Sung Lee Dept. of Information & Industrial Engineering, Dept. of Digital Informatics and Convergence, Chungbuk National University 요약 자연언어문서에서지식추출은 QA 시스템을비롯한여러분야에서필수적이다. 트리플은가장일반적인지식추출형식으로문장내부의지식정보를주어, 서술어, 목적어의관계로표현한다. 본논문에서는한국어의존파서로문장을분석하고, 그결과에서트리플을추출하는방법을제안했다. 제안된트리플추출기는 21 개문장에서추출된 78 개의트리플정답집합과, 64 개의준정답집합에대해서각각 60.75% 와 66.67% 의 F-measure 성능을보였다. 주제어 : 트리플추출, 지식추출, 관계추출, 의존구문분석기 1. 서론 신문이나블로그, 위키피디아와같이자연언어처리에서활용가능한텍스트문서가증가하면서자연언어문서에서의지식추출에대한요구가증가하고있다 [1]. 추출되는지식정보를이용하면문서에서중요한개체와그들간의관계를파악할수있기때문에지식추출은 QA 시스템을비롯한다양한시스템의필수적인요소가될수있다 [2]. 트리플은가장일반적인지식추출형식으로문장안에나타난주어, 서술어, 목적어를표현한정보이다 [3]. 본논문에서는한국어문장또는문서에대하여의존파싱을수행하고, 그결과를이용해트리플을추출하는방법을제안하고자한다. 2 장에서는트리플추출과관련된논문들을소개하고, 3 장에서는의존파싱결과로트리플을추출하는방법을설명한다. 4 장에서는설명된방법으로구축된트리플추출기의성능을측정및평가하고, 5 장에서결론을맺는다. 2. 관련연구 자연언어문서로부터지식을자동으로추출하고추론하는것은대개한문장에서트리플정보인주어, 서술어, 목적어관계를추출하는것으로부터시작한다 [3]. [4] 에서는공개된파서 ( 스탠포드파서 [5], 링크파서 [6] 등 ) 의파싱결과로부터규칙을이용하여트리플을추출하는방법을제시하였다. 또한 [7] 에서는문장에나타난모든중요단어들을트리플관계로조합하고이를 SVM 을이용하여유효한트리플관계를판정하고추출하였다. [8] 은의존파서를통한구문분석결과를이용해트리플을추출하는방법을설명한다. 특히트리플에서한요소의범위에대한문제, 능동과수동구조의문장에대 한처리, 병렬구조의문장에대한처리, 문장내부의종속절에대한처리등파서의결과를이용해트리플을추출할때생길수있는여러가지고려사항에대해언급하고있다. [9] 에서는영어의술어 - 논항구조를분석하고이를정규화한어휘패턴으로생성한후, 스트링커널방법으로트리플관계를추출하였다. 특히 [9] 에서는서술어를 38 개의관계로한정하여처리하였다. 이렇게자연언어문서에서트리플을추출하는연구가기존에도존재하지만모두영어를대상으로하기때문에한국어에바로적용하기어렵다. 본논문에서는한국어의존파싱의결과를이용하여한국어자연언어문서에서트리플을추출하기위한방법을제안한다. 3. 트리플추출 3.1 트리플추출과정의존파서를이용한트리플추출은 [ 그림 1] 과같은과정으로진행된다. 그림 1 트리플추출흐름도 먼저입력문서가주어지면세종구문분석표지 [10] 를이용한 ETRI 의존파서로문장의구문구조를분석한다. 분석된결과를트리플변환기 (D2T) 에입력하면의존구조로나타난문장의주어, 서술어, 목적어의관계가규칙에따라트리플형식으로추출된다. 이때추출되는주어와목적어는조사를제거하고, 서술어는기본형으로표기하 - 86 -

여저장한다. 이는트리플을정규화하여표현함으로써, 추론단계에서트리플사용을간편하게하기위함이다. 3.2 트리플추출규칙의존문법에서주어와서술어는각각 SBJ 의존관계의 tail 과 head 가되고목적어와서술어는각각 OBJ 의존관계의 tail 과 head 가된다. 따라서 *_SBJ 레이블과 *_OBJ 레이블이동일한서술어를 head 로가지고있는경우 *_SBJ 의 tail 을주어로, head 를서술어로, *_OBJ 의 tail 을목적어로하는트리플을구성할수있다. 이때 * 는 wild card 로 *_SBJ 는 NP_SBJ, VP_SBJ 등을포함한다. 서술어를설명하는부사는서술어와함께주어에대한정보가될수있기때문에 *_AJT 관계를 *_OBJ 관계와같은방식으로처리한다. 그리고문장에동사가여러개있어주어를공유한경우에동사와동사는 VP 관계로레이블되므로주어가없는구에서 VP 관계를통해문장전체의주어를찾을수있다. 이것을트리플추출에대한기본규칙으로 [ 그림 2] 와같이정의한다. 4. 실험및평가 4.1 평가집합구축트리플추출기의성능평가를위한데이터로엘비스프레슬리에대한위키피디아문서 [11] 를이용했다. 해당문서는총 21 개의문장으로구성되었으며각각의문장에대하여트리플을추출하여총 78 개의정답 (Gold answer) 트리플과 64 개의준정답 (Silver answer) 트리플평가집합을만들었다. 정답집합은원본에서직접추출한트리플집합으로, 의존파서를이용한트리플추출기전체의성능을평가할수있는평가집합이다. 준정답집합은정답집합에서의존파서의오류에의한트리플추출의오류를제거한집합으로, 정답집합의 82.05% 로구성된부분집합이다. 이것을이용하면파서의오류에의한트리플추출기의성능저하를무시하고, 트리플변환기의성능만평가할수있다. [ 그림 5] 는정답과준정답그리고추출기에서뽑힌트리플의차이를설명한다. 1. *_SBJ 레이블과 *_OBJ( 혹은 *_AJT) 레이블이연결된서술어는트리플로묶는다. 2. VP 의존관계를통해백트래킹후 *_SBJ 의존관계가존재하면해당명사구를주어로사용한다. 그림 2 트리플추출기본규칙 [ 그림 3] 은트리플추출의예로, 1 은기본규칙 1 에의해 2,3,4 는기본규칙 1 과 2 에의해추출된트리플이다. 1( 엘비스, 태어나다, 투펄로 ) 2( 엘비스, 가다, 이사 ) 추출트리플 그림 3 트리플추출예 3( 엘비스, 가다, 멤피스 ) 4( 엘비스, 가다, 13 살 ) 한국어는주어의생략이빈번하게발생하기때문에기본규칙만이용해트리플을추출하면문제가발생한다. 따라서 [ 그림 4] 의주어생략보완규칙을정의하여적용한다. 1. 문장에주어가없는경우이전문장의주어를사용해트리플을구성한다. 그림 4 주어생략보완규칙 그림 5 정답, 준정답, 출력결과의차이점 트리플정답을구성할때, 주어와목적어의범위를정하는기준이문제가될수있다. 본논문에서제안하는트리플추출기는현재이범위문제를고려하지않고트리플을추출하고있으나추후확장된트리플추출기의평가를위해주어와목적어의범위를 트리플이의미를가지게하는최소의범위 로정의하여평가집합을구성하였다. 예를들어 엘비스는미국미시시피주의투펄로에서태어났다. 라는문장에서목적어는 미국미시시피주의투펄로, 미시시피주의투펄로, 투펄로 가될수있다. 그중 투펄로 는지명으로추출하고자하는트리플에서충분히의미가되기때문에, 이를목적어로하였다. 다른예로 엘비스는많은음악명예의전당에올랐다. 라는문장에서목적어는 음악명예의전당, 명예의전당, 전당 이될수있는데, 음악명예의전당 을목적어로하여트리플을추출하였다. 4.2 평가정답집합과준정답집합이서로다르기때문에트리플추출기의성능을각각에대해서측정했다. [ 표 1] 은정답집합에대한트리플추출기의성능이고, [ 표 2] 는준정답집합에대한트리플추출기의성능이다. 이때기본규칙만이용해추출된트리플은 38 개이고, 기본규칙과보완규칙을함께적용해추출된트리플은 80 개이다. - 87 -

표 1 정답집합에대한트리플추출기의성능 구분 Recall Precision F-measure 기본규칙 35.89% 73.68% 48.26% 기본 + 보완규칙 61.53% 60.00% 60.75% 표 2 준정답집합에대한트리플추출기의성능 구분 Recall Precision F-measure 기본규칙 43.75% 73.68% 54.90% 기본 + 보완규칙 75.00% 60.00% 66.67% 기본규칙만이용해구성한트리플추출기는정답집합과준정답집합모두에서정확률이낮고, 재현율이높은것을확인할수있었다. 이것은기본규칙만이용하면추출되는트리플의수가적기때문에나타나는현상이다. 하지만주어생략보완규칙을통해추가적으로생성되는트리플이정답 ( 혹은준정답 ) 집합에저장되어있는경우가많았다. 따라서재현율이떨어지는정도보다정확률이올라가는정도가높아 F-measure 의성능이향상되는것을확인할수있다. 4.3 트리플추출기오류분석준정답집합의트리플중추출되지못한트리플은대부분병렬구조문장의것이었다. [ 그림 6] 의예를보면 함께 로연결된트리플 ( 엘비스, 하다, 빌블랙 ) 과 ( 엘비스, 하다, 스코티무어 ) 를추출기에서뽑지못하였다. 준정답트리플 1( 엘비스, 올리다, 음반판매고 ) 2( 음반판매고, 많다, 팝역사상 ) 추출트리플 1( 엘비스, 올리다, 음반판매고 ) 2( 엘비스, 많다, 역사상 ) 그림 7 종속절에서추출된오류트리플 4.4 트리플추출기미고려사항현재트리플추출기는주어와목적어의범위에대한규칙이없다. 따라서트리플추출기평가시이를고려하지않기위해정답에서제시한주어 ( 혹은목적어 ) 의 head 가추출된트리플의주어 ( 혹은목적어 ) 의 head 와같다면옳은것으로간주했다. 4.1 절의예를빌어설명하면, 문장 ( 엘비스, 오르다, 전당 ) 과 ( 엘비스, 오르다, 음악명예의전당 ) 을같은것으로간주하고있다. 하지만추후에는주어와목적어의범위에대한규칙을추가하고, 평가할필요가있다. 또한, 트리플의정규화를위해목적어의조사를생략해표기하고있다. 이때문에목적어성분이문장에서어떤역할을하는지파악하지못하는경우가있다. [ 그림 3] 의트리플 ( 엘비스, 가다, 멤피스 ) 를예로보면조사 로 가생략되어엘비스가멤피스에서간것인지엘비스가멤피스로간것인지트리플이정확한정보를가지지못한다. 따라서목적어의역할을분명히할수있는구분을트리플에추가해표기할필요가있다. 5. 결론 준정답트리플 1( 엘비스, 하다, 음악 ) 2( 엘비스, 하다, 스코티무어 ) 3( 엘비스, 하다, 빌블랙 ) 추출트리플 1( 엘비스, 하다, 음악 ) 그림 6 병렬구조문장트리플추출오류예 그리고추출된트리플중정답이나준정답에없는트리플은의존파서의오류를그대로트리플로추출한것이거나, 주어가아닌성분을수식하는종속절에서잘못된주어를가지는트리플이추출된경우이다. [ 그림 7] 의예를보면 ( 음반판매고, 많다, 팝역사상 ) 트리플이주어를제대로찾지못해 ( 엘비스, 많다, 역사상 ) 과같이잘못된트리플로뽑힌다. 본논문에서는한국어의존파싱결과를이용하여트리플을추출하기위한방법을제안했다. 트리플추출기는수동으로구축된정답집합과준정답집합으로평가했다. 평가를위해엘비스프레슬리에대한위키피디아문서를이용해평가집합을구성했다. 평가결과정답집합에대한 F-measure 는 60.75%, 준정답집합에대한 F-measure 는 66.67% 의성능을보였다. 향후에는현재해결하지못한병렬문장에서의트리플추출, 종속절에서의정확한트리플추출, 트리플구성요소 ( 주어, 서술어, 목적어 ) 의범위설정문제등을해결하고, 목적어성분의역할을분명히할수있도록구분정보를추가해야한다. 또한현재평가에사용한평가집합보다더많은양의집합을이용해추출기의성능을보다정확히평가할필요가있다. 또한평가문장이적어확인하지못했던트리플추출규칙의부족한부분을확인하고추가할필요가있다. 감사의글 본연구는미래창조과학부및한국산업기술평가관리원 - 88 -

의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [100445577, (1 세부 ) 휴먼지식증강서비스를위한지능진화형 Wise QA 플래폼기술개발 ] 참고문헌 [1] A. Culotta, J. Sorense, Dependency tree kernels for relation extraction, In Proceeding of the 42nd annual Meeting on Association for Computational Linguistics, 2004. [2] J. Cowie, W. Lehnert, Information extraction, communication of the ACM, vol.39, no.1, pp.80-91, 1996. [3] J. Leskovec, M. crobelnik, N. Milic-Frayling. Learning sub-structure of document semantic graphs for document summarization, In Proceeding of the 7th International Multiconference Information Society IS 2004, vol.b, pp.18-25, 2004. [4] D. Rusu, L. Dali, B. Fortuna, M. Grobelnik, D. Mladenic, Triplet extraction from sentences, In Proceeding of the 10th International Multiconference Information Soociety IS 2007, pp.8-12, 2007. [5] Stanford Parser web page : http://nlp.stanford.edu/software/lex-parser.shtml [6] Link Parser web page: http://www.link.cs.cmu.edu/link/. [7] L. Dail, B. Fortuna, Triplet extraction from sentences using SVM, In Proceedings of SiKDD, 2008 [8] D. Choi, K. Choi, Automatic relation triple extraction by dependency parse tree traversing, Poster and Demo, pp.23-24, 2008. [9] 정창후, 전홍우, 송사광, 홍순찬, 정한민, 최성필, 술어 - 논항구조의어휘패턴을이용한스티링커널기반관계추출, 정보과학회논문지 : 소프트웨어및응용제 39 권, 제 12 호, pp.927-993, 2012. [10] 국립국어원, 21 세기세종계획최종성과물 (2011 년 12 월수정판 ), 2011. [11] 한국어위키피디아 web page : http://ko.wikipedia.org/ - 89 -

P 언어를이용한한글프로그래밍 최시영싸이브레인연구소 sychoi2100@gmail.com Programming with Korean Vocabulary by Using P Language Sea-Young Choi Cybrain Laboratory 요약 본논문에서는모국어를이용한프로그래밍을위한지원방법으로서, 모국어로된데이터의표현, 변수의모국어표현, 문법키워드의모국어표현, 모국어병행표현등에대하여알아본다. 그리고임의의다국어를지원하도록설계된 P 언어를이용하여한글프로그래밍을하는방법을알아본다. 구체적으로한글프로그래밍환경을구축하는방법, 한글프로그램을위한어휘의선정에대하여알아보고, 이를이용한간단한알고리즘의구현과 art 모듈을이용하여그래픽프로그래밍의예를들어보겠다. 그리고한글프로그래밍을위해 P 언어를사용한경우의장점과단점에대하여알아보겠다. 끝으로한글프로그래밍의발전을위해서는표준한글어휘선정을위해학계와산업계의통일된노력이필요하다는점과한글프로그래밍이가져다줄수있는영향과한글프로그래밍의바른사용방법으로서영문과한글의병용사용을제안한다. 주제어 : 모국어프로그래밍, 자국어프로그래밍, P 언어, 한글프로그래밍 1. 서론 자연어분야에서모국어가아닌외국어를배우는과정은오랜시간과노력이필요하다. 이와비슷하게프로그래밍언어의영역에서도모국어에기반하지않은프로그래밍언어를새로배우는과정도오랜시간과노력을요구한다. 이런추가적인학습비용에도불구하고자신의모국어에기반하지않는프로그래밍을배우는이들은해당프로그래밍언어가기반하는자연어를모국어로하는문화권의사람들보다기술적으로높은성과를내기에는여러가지어려움이존재한다. 비모국어사용자에게는프로그래밍에대한입문자체를어렵게하고, 숙련된소프트웨어개발자들에게도외국어로작성된프로그래밍소스와기술문서에대한이해에많은어려움이존재하게한다. 1946 년미국에서최초의전자식일반목적 (general purpose) 용컴퓨터인 ENIAC(Electronic Numerical Integrator And Computer)[1] 이만들어진이후로많은후속컴퓨터모델들이미국에서만들어졌다. 프로그래밍언어는이들컴퓨터하드웨어를조작하기위한도구로서탄생된것이기때문에, 프로그래밍언어는이들하드웨어들이제조된미국에서많이만들어지게되었다. 이런이유로대부분의프로그래밍언어는영어에기반하여서만들어져왔다. 프로그래밍언어는그언어를만든개인또는회사의모국어에자연스레영향을받게된다. 구체적으로프로그래밍언어속의문법어, 데이터타입, 함수이름, 언어기술서등이모두해당언어로만들어지기때문이다. 예를들어한국인프로그래머는영어로작성된문서상의 concat 라는함수가 concatenate' 라는단어에서나왔으며, 그함수의역할이문자열을연결 시킨다는것을예상하기는쉽지않다. 영어에기반하고있는프로그래밍언어들 초기의프로그래밍언어들인 IPL(1954), FORTRAN (1955), LISP(1958)[2], ALGOL(1958), COBOL(1959) 들과, 그후에나온 RPG(1959), APL(1962), Simula(1962), SNOBOL(1962),CPL(1963) 등의언어들은모두영어에기반하고있다. 역사적으로학계에서많이사용되거나산업계에서대중화된언어들인 BASIC, C, C++, Smalltalk, Prolog, ML, Pascal, Forth, SQL, Ada, Modula, Java, Erlang, Perl, Tcl, Delphi 등의언어들도영어에기반하고있다. 최근에나온 Haskell[3], Python[4], Ruby[5], Lua[6], Scheme[7], Javascript, PHP[8], D[9], C# (Microsoft Inc., ISO/IEC/2327)[10] 등의언어들도영어에기반하고있다. Ruby 언어는 1990 년경에일본의마츠모토유키히로가만든언어이지만영어에기반하고있다. Prolog, Python, Erlang 등도비영어권나라에서개발되었지만영어에기반하고있다. 본논문에서는프로그래머또는사회제도에각각초점을맞춘표현들인 모국어 (mother language) 와 자국어 (national language) 를같은의미로혼용해서사용하겠다. 이에따라 모국어프로그래밍, 모국어를이용한프로그래밍, 자국어프로그래밍, 자국어를이용한프로그래밍 들을모두같은의미로사용하겠다. 2. 관련연구 많은프로그래밍언어가영어에기반하고있기는하지만, 산업계중심으로모국어로프로그래밍을하고자하 - 90 -

는노력이부단하게이루어져왔다. 2.1. 소프트웨어에있어서자국어지원을위한기술들 영어가아닌자국어에기반한소프트웨어를사용하고자하는기술은실용적인이유에서학계보다는산업계에서많이연구되어온주제이다. 소프트웨어의일반사용자들에게는무엇보다도자국어를포함한데이터를표현하는것이가장시급한문제이었기때문에자국어문자를표현할수있는문자집합에대한기술이가장먼저개발되었다. 그리고일반사용자들이자국어에기반하여소프트웨어를사용할수있도록메뉴, 시간, 통화등을표현하는기술인소위 국제화와지역화 에관련된기술이발달되었다. 2.1.1. 문자집합 (character set) 문자집합 ( character set, charset) 은문자들의집합을정의한것을말한다. 이와비슷한개념으로서문자인코딩 (character encoding) 이라는것이있는데, 문자인코딩은이러한문자들을부호화하는방식이다. 그러므로문자가한바이트에서어느영역에할당되는가하는것과한개의문자가몇개의바이트로표현되는가하는문제들은모두문자인코딩의문제이다. 그러나이두가지는실제에서는거의비슷한의미로사용되고있다. 예를들어일부문헌 ( 대표적으로미국마이크로소프트사의문서 ) 에서사용하는다중바이트문자셋 (multibyte character set) 이라는표현은부적절한표현 (misnomer) 이다. 컴퓨터초창기에는 4 bit 로이루어진이진수를묶어서 10 진법한자리수를표현하는 BCD (Binary-Coded Decimal) 방식 [11] 을개량해 IBM 회사가 6 bit 를사용해숫자뿐만아니라모든알파벳문자와특수기호를표현하는 BCDIC (Binary-Coded Decimal Interchange Code) 방식을개발하여사용하였다. BCDIC 방식은통일된방식이없이각회사별로, 각제품별로다르게정의되어서사용되고있었다. 그후미국국립표준협회 (The American National Standards Institute, ANSI) 가 1963 년에 ASCII 표준 [12] 를만들어서이방식이널리사용되게되었다. 그러나 ASCII 는영문자만을지원해서, 한글문자, 한자, 일본문자등의동양권언어들의문자를지원할수없어서, IBM 과마이크로소프트사에서는소위 multi-byte character set 을만들어우리나라의 KSC 5601-1987 등을지원하였다. 그러나동양 3 국의문자뿐만아니라현존하는모든문자들을표현하기위한필요성이제기되면서, 마침내 1991 년유니코드협회 (Unicode Consortium, Unicode Inc.) 에서유니코드 (unicode) 표준 [13] 이나왔으며, 이것이널리사용되게되면서현재로서는산업계의표준이라고할수있게되었다. 유니코드표준은 1991 년 8 월에버전 1.0 이나온이후로현재까지 2012 년 9 월에버전 6.2 가나왔다. 유니코드는문자셋에대한이름이며, 유니코드를부호화하는유니코드인코딩방식으로서는 UTF-7, UTF-8, UTF-16, UTF-32 등이있으며, 그 중에서도 UTF-8 이널리사용되고있다. 2.1.2. 국제화와지역화 ( ) 국제화와지역화는소프트웨어를여러지역환경에공통적으로사용할수있도록만들어각지역환경에부합하여변경하는것을말한다. 국제화는보통 I18N 으로표기하는데, I18N 은 internationalization 의첫글자 I 와마지막글자 N 과그사이의 nternationalizatio 의글자수인 18 을결합해서만든신조어이다. 이국제화와현지화는주로응용소프트웨어에관하여발전된기술이며, 각지역의문자집합, 날짜 / 시간형식, 통화표시방법등에관한내용을다루고있다. 국제화와지역화는별개로존재하는것이아니라서로가상대를가정하여존재하며서로영향을미치는상호순환하는과정이다 ( 그림 1 참조 ) 그림 1 국제화와지역화의과정 ( 출처 : 위키피디어, IaT_vicky[14]) 2.2. 프로그래밍언어에서의자국어지원을위한연구 프로그래밍언어수준에서자국어를지원하고자하는필요성과노력은많이있었으나, 명확한규격이나구현까지이루진것은많지않다. 2.2.1. ALGOL 68 의키워드의자국어표현 ALGOL 언어는소위 GAMM-ACM 위원회를통하여미국과유럽의양대륙컴퓨팅학계의공동노력으로이루어진것이어서, 영어뿐만아니라, 독일어, 불어, 러시아, 불가리어같은유럽의언어로도표현될수있는것이필요하였다. 특히 ALGOL 68 은 ALGOL 전통에따라여러가지형식의표현법을지원하였다. 즉, 표현언어 (representation language) 로서참조언어 (reference language), 출판언어 (publication language), 하드웨어언어 (hardware language) 를지원하고있다 [15][16]. 영어가아닌다른자국어에기반한문법키워드로구성되는언어표현을지원할수있는여지를두었고, 실제로러 - 91 -

시아어로된 ALGOL 68 규격도나왔다 [17]. 2.2.2. 프로그래밍언어의특정자국어판 (localized version) 이들언어들은영어에기반한특정프로그래밍언어의키워드를자국어로변경한언어들이다. 이들언어들은원본언어들과분리되어개발과배포되어, 원본언어들의발전사항을반영하지못하는제약점이있고, 해당자국어에고정화 (hardcoded) 되어해당자국어이외로의번역이불가하여해당자국어를사용하는프로그래머만이해할수있는단점이있었다. 각나라별로여러가지언어들이등장하였다. 중국어의경우, BASIC 언어에기반한中文培基 (Chinese BASIC), Python 언어에기반한中文파이션 [18] 등이있다. 2.2.3. 관련개념들 Source-to-source translation: 한프로그래밍언어로된소스를다른프로그래밍언어로된소스로바꾸는것을말한다. 예를들면 Ada 언어로작성된소스를 Pascal 언어또는 C 언어로바꾸는경우를말한다. Natural Language Processing: 인간이사용하는자연어에대하여프로그래밍기법을통하여분석하는것을말하며, NLP 라고자주통칭된다. 2.3. 전산용어의한글화노력 국립국어원에서는 1991 년부터 2002 년까지각분야별 국어순화자료집 을발간하였다. 그중에 1996 년도에는전산관련한글순화자료집을발간하였는데, 이것은 전산기용어 라는분야에서전산관련일반적인용어에관하여정하였으며프로그래밍언어에특화되지는않았다. 2003 년에는각분야별국어순화자료집을모아서 국어순화자료집합본 으로출간하였다 [19]. 이러한국어순화의노력에도불구하고, 일반국민에게는제대로알려지지않았으며, 일반국민들또한이에대한관심이극히낮았다고한다 [20]. 그이유는국어순화가관련몇몇전문가중심으로이루어져일반국민들의반응을전혀살펴보지않은채순화어를대량으로만들어일방적으로보급하여일반국민의언어의식에합치되지않았기때문이라고한다 [20]. 3. 모국어프로그래밍의지원방법 모국어프로그래밍을지원하기위한영역은, 언어내적인부분과언어외적인부분으로나뉜다. 언어외적인부분으로서는해당언어를실행하는실행기 ( 인터프리터또는컴파일러 ) 의사용과, 언어매뉴얼등의언어관련문서에서해당언어를지원하는가의여부이다. 언어실행기의사용자메뉴와오류메시지또는디버그메시지등이해당언어를지원하여야한다. 언어내적인부분은다음과같은영역을지원하여야한다. 3.1. 모국어데이터의표현 ( 입력과출력 ) 모국어로된데이터를표현할수있는가하는점이다. 예를들어문자열 (string) 에서모국어문자열을사용할수있는가또는모국어로된파일이름을지정할수있는가하는점이다. 이를위해서는모국어문자집합 (character set) 의구현뿐만아니라, 모국어문자의입력과출력을포함한다. 예를들어키보드상에서직접한글을입력시킬수있어야하며, 모니터화면상으로한글이표현될수있어야한다. 다음은모국어문자열의예이다. คร สมาสต ท กำล งจะมา, 圣诞节快到了 3.2. 모국어이름의변수사용 모국어에기반한문자로바로식별자 (identifier) 를만들수있어야한다. 예를들면다음과같은방식의프로그래밍이가능하여야한다. 金额 = 100 ; 병의크기 = 갑의크기 + 을의크기 ; 私のリスト = [ 1,2, 3, 4] ; 3.3. 모국어로된문법어 ( 키워드 ) 문법어를이루는키워드가모국어로표현될수있어야한다. 문법키워드는파서를만들때파싱 (parsing) 의중요한기준점이되며각언어의핵심에해당하는부분이다. 그러므로각각의모국어에따른다른문법키워드를지원하기위해서는원칙적으로각각의모국어에따른개별적인파서를만들어야한다는어려움이존재한다. 모국어로된문법어가지원된다면, 예를들어다음과같은방식의표현이가능하다. 만일에 ( 갑의수학점수 > 90 ) { 반복하기 ( 3 번, 출력하기 ( 축하! ) ) ; 출력하기 ( 참잘했습니다. ); } 이것에는한개의모국어만을지원하는경우 ( 이글 2.2.2. 참조 ) 나, 특별히지정된몇개의모국어가지원가능한경우 (ALGOL 68), 임의의모국어를지원가능한경우 (P 언어 ) 로나누어볼수있다. 3.4. 모국어병행표현 ( 모국어전환 ) 병행표현은특정모국어에기반한프로그래밍소스를다른모국어로변경할수있는가하는점이다. 모국어프로그래밍의가장큰장점이자단점은해당모국어로작성된프로그래밍소스가해당모국어사용자에게는판 - 92 -

독성이높아지나, 외국어사용자에게는이해가불가한소스가된다는점이다. 모국어간의전환은이러한단점을보완해주는기능을하게된다. 예를들어, 병행표현이지원된다면, 아래의중국어로된소스는한글로된다른소스로변경할수있게되고, 프로그램실행시동일한결과가나와야한다. 函数定義新增评论 ( 自己, 稿件 ) { 寫 ( "<!--" + 自己 + "-->" ); 寫 ( 稿件 ); } 함수정의하기주석달기 ( 내이름, 문건 ) { 쓰기 ( "<!--" + 내이름 + "-->" ); 쓰기 ( 문건 ); } 4. P 언어를이용한한글프로그래밍 4.1. P 언어란 P 언어는일반목적 (general-purpose) 용동적인스크립팅 (scripting) 형언어이다. P 언어는멀티패러다임을지원하며, 특히객체지향과함수형프로그래밍을동시에지원한다. P 언어의특징 [21] 으로서는 a) 간결한문법을사용하면서도표현력이뛰어나고, b) 복잡한알고리즘을쉽게표현할수있으며, c) 모든데이터는함수호출을통해생성되며, d) 모든제어구조는함수로표현되고, e) 모든연산자는함수의이름에불과하며, f) 이름과값이분리돼있는, g) 식중심의언어 (expressionoriented programming language) 이다. 4.2. P 언어의한글프로그래밍의지원 P 언어는자연어중립적인언어이며어느자연어에구속된언어는아니다. 그러나 P 언어는처음부터모든개별자연어를지원하기위해서디자인이된언어로서, 개별자연어에대한설정파일만만들어주면, 해당자연어에기반한프로그래밍이가능하게설계되었다. 그리고위에서서술한모국어프로그래밍의 4 가지지원분야를비교적충실히지원한다. 4.3. 한글프로그래밍의환경구축 ㄱ ) 개별프로그래머가정한한글어휘를지원하는방법 : P 언어가실행되는인터프리터상에서 P 언어소스를입력하는것과동일한방식을사용하여, 프로그래머가선정한한글을지원할수있다. 인터프리터상에서다음과같은형식의문장을입력한다. 여기서 새로운이름 은한글어휘를말한다. 새로운이름 = 기본이름 ; 예를들어, 영어 if 라는표현대신에한글로 만약에 이라는표현을사용하고자하는경우에는인터프리터상에서다음과같이입력한다. 만약에 = if ; ㄴ ) 설정파일에의한환경구축 : 매번인터프리터를실행할때마다프로그래머가한글환경을일일이구축하는방식은효율적이지못하다. P 언어와함께배포되는각언어별설정파일을이용하여한글프로그래밍환경을구축할수있다. 이방법을사용하면표준화된한글어휘를정할수있는장점이있다. 4.4. 한글프로그래밍의모습 P 언어를사용해서재귀함수를사용하는 팩토리얼 이라는함수를정의해보면다음과같다. 함수정의하기 ( 팩토리얼, 숫자, 만약에 ( 숫자 == 0, 1, 숫자 * 팩토리얼 ( 숫자-1) ) ) ; 팩토리얼 (100); // 함수사용법 객체지향프로그래밍을지원하는파일사용법은다음과같다. 철수파일 = 파일 ( 내파일 ) ; 철수파일. 쓰기 ( 작성자 : 철수 ) ; 철수파일. 닫기 ( ) ; 4.5. art 모듈의사용 P 언어에서기본적으로제공하는 art 모듈속의간단한함수를이용하여다음과같은그래픽프로그래밍을할수있다. 그림판 (400,300); 반복하기 ( 10, ( 앞으로 (10), 원그리기 (30), 왼쪽으로 (65))) ; 표 1. art 함수 한글함수 영어함수 하는일 그림판 canvas 그림판만들기 앞으로 forward 앞으로가기 - 93 -

뒤로 backward 뒤로가기 오른쪽으로 right 오른쪽방향전환 왼쪽으로 left 왼쪽방향전환 원그리기 circle 원거리기 그림 2 art 모듈을사용한예 ( 출처 [22]) 5. P 언어를사용한한글프로그래밍의장단점 5.1. P 언어를사용한한글프로그래밍의장점 ㄱ ) 자유로운한글어휘의선택가능 : P 언어에서는문법키워드 ( 또는문법키워드역할을하는함수 ) 가 syntax 수준이아니라실행시이름공간 (name space) 상의이름으로존재하므로, 프로그래머가임의적으로원하는한글어휘를사용하여한글프로그래밍을할수있다. ㄴ ) P 언어는다국어지원이언어내재적으로이루어지므로다른지역화된언어 ( 이글 2.2.2. 참조 ) 들과다르게, 각다국어버전이독립적으로존재하지않고하나의버전안에존재하게된다. 그러므로 P 언어의발전 ( 업그레이드 ) 이모든다국어버전에그대로반영되게된다. ㄷ ) 임의의자국어지원가능및자국어간의전환가능프로그래머가표준화된자국어어휘를사용하는경우, 다른자국어으로의전환이가능하여, 각자국어버전간의소스전환이이루어질수있다. 5.2. P 언어의단점및미비점 P 언어는위에서서술한바와같이한글프로그래밍을비교적충실히지원하지만, P 언어디자인상의자유로움으로인해언어내적인단점과신규로만들어진언어로인한언어외적인미비점이존재한다. ㄱ ) 프로그래머의비표준화된한글어휘의사용 : P 언어는제어구조가특정키워드에고정화된언어가아니므로프로그래머가 P 언어에서제공하는표준화된한글어휘를사용하지않고독자적인한글어휘를사용하는경우에는가독성이떨어질수있다. 예를들어프로그래 머는 if 기능을하는한글어휘인 만약에 대신에 만약, 만일, 참인경우 등의표현을사용하는경우에는다른외국어버전으로전환이어려울수있다. ㄴ ) 충분한라이브러리의부족 : P 언어는문자열, 함수, 리스트, 배열등의다양한데이터타입들을지원하고, 파일, 네트워크, 원도우를위한프로그래밍을지원하지만, 다양한소프트웨어를손쉽게만들기위해서필요한여러가지라이브러리 (language libraries) 가아직지원되고있지않다. ㄷ ) 실행파일의생성지원미비 : 영리목적의소프트웨어제작사의경우에는자신의프로그래밍소스를공개하기보다는기술보호를위해서바이너리로된실행파일형태의소프트웨어제작을선호하는편이다. P 언어는현재로서는스크립트기반의언어로서모든 P 소스는텍스트파일형태로존재하여공개되게되어있다. 그러나추후 P 언어를지원하는컴파일러가제작이되면, P 언어에서바로바이너리코드로만들어진소프트웨어제작이가능할것이다. 5. 결론 P 언어는한글만을위한한글전용프로그래밍언어는아니지만, 임의의다국어를지원할수있는언어설계에의하여한글프로그래밍이가능하다는것을알수있었다. 한글프로그래밍이가능하다고하여도구체적으로프로그래밍에사용될한글어휘에대한결정은언어외적인영역에속한다. 위의관련연구 ( 이글 2.3. 참조 ) 에서언급하였던한글순화의미비한효과에서알수있듯이언어의사용자인일반국민의참여없이몇몇전문가들에의한작업은큰성과를내기가어렵다. 프로그래밍언어의주된사용자는산업계이므로한글프로그래밍어휘의선정을위해서는산업계의참여와협조가절대적으로필요하다. 그러므로한글프로그래밍의개척과발전을위해서는한글어휘에대한학계와산업계의통일된표준이존재하여야할것이다. 한글프로그래밍의발전은프로그래밍인구의저변확대뿐만아니라, 더중요한영향으로서, 영어적사고외에한국어라는새로운언어적사고의도입으로인하여프로그래밍이론분야에서창의적이고혁신적인이론개발에기여할것이다. 한글과한자를병행하여사용할때우리말의표현력과정확성이높아지듯이, 프로그래밍분야에서도한글전용또는영어전용보다는한글과영어를적절히배합하여사용하는경우에좀더표현력과정확성이높아질수있다. 한글프로그래밍은기존의영어전용환경에서의불편함과비효율성을해소하고모국어의활용성과사고적다양성을높이기위한것이지, 한글프로그래밍그자체를목적으로하는것은아니다. 참고문헌 [1] http://en.wikipedia.org/wiki/eniac [2] McCarthy, John. "Recursive Functions of Symbolic Expressions and Their Computation by Machine, - 94 -

Part I", 1960. [3] http://www.haskell.org [4] http://www.python.org [5] http://www.ruby-lang.org [6] http://www.lua.org [7] Sussman, Gerry, Hal Abelson, and Julie Sussman, "Structure and interpretation of computer programs." The Massachusetts Institute of Technology 10, 1985. [8] http://www.php.org [9] http://www.dlang.org [10] Information technology-programming languages- C#, http://standards.iso.org/ittf/publiclyavailablestand ards/c042926_iso_iec_23270_2006(e).zip [11] Eric Fisher, "The Evolution of Character Codes, 1874-1968", http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.96.678&rep=rep1&type=pdf, Accessed 2013 [12] American Standards Association, American Standard Code for Information Interchange, ASA X3.4-1963, June 1963. [13] Unicode Consortium, "The Unicode Standard, volume 1.0." Addison-Wesley, Reading, MA, 1991. [14] http://en.wikipedia.org/wiki/file:globalisation chart.jpg [15] Mailloux, Barry James, J. EL Peck, and C. HA Koster. "Report on the algorithmic language ALGOL 68." Numerische Mathematik 14.2, pp. 79-218, 1969. [16] Van Wijngaarden, A., et al. "Revised Report on the Algorithmic language." Acta Informatica 5, pp. 1-236, 1975. [17] "Programming language ALGOL 68 - Язык программирования АЛГОЛ 68", GOST 27974-88, 1988. [18] http://www.chinesepython.org [19] 국립국어원, 국어순화자료집합본, 2003. [20] 고성환, 국어순화의역사와전망, 국립국어원새국어생활 Vol.181, pp. 5-6, 2011 [21] 최시영, " 새로운범용프로그래밍언어 data-p", 마이크로소프트웨어, pp. 254-255, 2012.10 [22] 최시영, " 예제로배우는 data-p 실전프로그래밍 ", 마이크로소프트웨어, p. 257, 2013.2 부록 2. 제어구조의한글이름예 부록 1. 데이터타입의한글이름예 - 95 -

l

영한기계번역시스템의개선을지원하는영어구문규칙관리도구 김성동 O, 김창희, 김태완한성대학교, 컴퓨터공학과 sdkim@hansung.ac.kr, kimch3617@naver.com, madplay@naver.com English Syntactic Rule Management Tool for Improving English-Korean Machine Translation System Sung-Dong Kim O, Chang-Hee Kim, Tae-Wan Kim Hansung University, Dept. of Computer Engineering 요약 규칙기반의영한기계번역을위해서는많은영어구문규칙을구축하고관리해야하는데, 이는매우많은노력과시간을요구한다. 이문제에대한해결방안으로본논문에서는영어구문규칙의효율적인관리를도와주는도구를제안한다. 영한기계번역시스템의성능개선과정에서영어구문규칙의검색과수정이빈번하게이루어지는데, 이러한작업을쉽게할수있도록제안하는도구는다양한키를이용한규칙검색과규칙수정기능을제공한다. 제안하는도구는영어구문규칙을관리하는데필요한사람의노력을줄여지속적인영한기계번역시스템의성능개선과정을보다손쉽게할수있게할것이다. 주제어 : 영한기계번역, 규칙기반기계번역, 구문분석, 구문규칙 1. 서론 규칙기반기계번역 (rule-based machine translation: RBMT) 방법은기계번역방법중가장오래된방법으로서언어학기반 (linguistic-based) 방법이라고도불린다. 규칙기반기계번역시스템을개발하기위해서는많은규칙을전문가가직접구축해야하며이는많은시간과노력을필요로한다. 그리고번역품질개선과정이나새로운영역에적응시키는작업에는기존에구축한규칙을지속적으로개선하는작업이요구되는지식획득의병목현상 (knowledge acquisition bottleneck) 문제를가진다. 다른방법으로 1990 년대이후로대량의말뭉치가구축됨에따라이국어병렬말뭉치 (bilingual parallel corpus) 를이용한통계적기계번역시스템에대한연구가활발하게진행되었다. 이방법은기계번역시스템을개발하고유지하는비용이규칙기반방법에비해적다는장점을가지는데비해언어구조나문장스타일등을적절하게반영하여번역하지못하며학습과정이나번역에러를조정하는것이어렵고매우많은말뭉치데이터를필요로한다는단점을가진다. 이에비해규칙기반방법은전문가의지식을활용하여보다나은번역을생성할수있으며예상되는번역을생성하기때문에에러를수정하는것이통계적방법에비해용이하다. 영한기계번역이다루는두언어는매우상이한언어이므로규칙기반방법을이용하여번역시스템을구축하고이를보강하는측면에서통계적방법을적용하는것이바람직하다는판단이다. 이러한하이브리드방식의기계번역시스템으로는 SYSTRAN 의기계번역시스템 [1], Safaba 의 EMTGlobal[2], PROMT 의기계번역솔루션 [3] 등이있으며실용화되고있는상황이다. 본논문에서는차트 (chart) 기반의구문분석방법 [4] 이적용된영한기계번역시스템의효율적인성능개선작업을지원하기위한영어구문규칙관리도구를제안한다. 규칙기반의영한기계번역시스템은많은영어구문규칙을가지며각규칙마다적절성점수를가지고있어파싱트리를생성하면서결과트리에대한적절성점수를계산한다. 문장번역테스트를통해번역품질을향상시키는과정에서영어구문규칙을검색하여규칙을보완하고수정하여개선하는과정이필수적으로요구되는데, 제안하는도구는이러한과정을손쉽게수행할수있도록지원하여영한기계번역시스템의성능개선작업을도와주는것을목적으로한다. 본논문은다음과같이구성된다. 2 장에서는기계번역시스템의개선과정에서사용될구문규칙관리도구가갖추어야할요구사항을분석하고 3 장에서는이러한요구사항을수용하는구문규칙관리도구의기능을설명한다. 그리고 4 장에서는논문에서제안하는구문규칙관리도구의효과에대해설명하고앞으로의과제를제시하며논문을마무리한다. 2. 구문규칙관리도구의요구사항 문장번역테스트를통한영한기계번역시스템의번역품질개선을위한구문규칙개선작업과정다음과같다. 첫째, 테스트문장들을일괄번역 (batch - 99 -

translation) 한후에번역결과를분석하여잘못된번역을생성한문장을수집한다. 둘째, 이들각각의문장에대해개별번역 (interactive translation) 을수행하며, 이때구문분석결과인차트와파싱트리 (parsing tree) 를출력하면서적용된구문규칙을함께출력하도록한다. 셋째, 이결과물을이용하여번역오류가잘못된파싱트리의선택에의한것이었는지를확인한다. 만약번역오류의원인이이경우에해당한다면, 올바른구문분석트리를생성하기위한규칙을확인하여이들규칙이적용된구문분석트리를찾고, 결과트리와비교하여잘못된트리가선택된원인을파악한다. 이과정에서구문규칙을검색하여분석하는작업이필요한데, 제안하는도구는규칙을검색하여그내용을쉽게확인할수있는기능을제공해야한다. 넷째, 올바른트리를생성하기위한구문규칙과결과트리생성에적용된규칙을비교하고, 올바른트리가생성될수있도록이들규칙을수정한다. 따라서제안하는도구는규칙의수정기능을제공해야한다. 그리고규칙이수정되면구문분석기의규칙적용모듈이수정된규칙에맞게수정되어야하는데, 제안하는도구는규칙적용모듈의수정기능역시제공해야한다. 그림 1 은영한기계번역시스템의구문규칙의예를보여준다. NP010: NP(%NOUN, cat='np, OBJP=1, SUBJP=1, RefIndicToScore NOUN POSSESIVE 1 0.5, score=1.02) <- NOUN(COORDED=0) 언어함수의수정기능이필요하다. 3. 구문규칙관리도구의기능 2 장에서제시한구문규칙관리도구의요구사항을만족시키기위해서제안하는도구는다음과같은기능을제공한다 : 규칙검색기능, 규칙과대응하는구문분석모듈보여주기기능, 규칙수정과대응하는구문규칙관리모듈수정기능. 본장에서는구문규칙관리도구의기능을설명함에있어사용자인터페이스의모습을제시하고도구를사용하는방법을중심으로설명한다. 3.1 구문규칙검색기능 적절하지않은구문분석트리선택에의해잘못된번역이생성되었을경우, 결과로선택된구문분석트리를생성하는데적용된구문규칙을확인해야한다. 올바른번역생성을위한트리가선택되지않았던이유는경쟁하는구문규칙들중에서적절한구문규칙의점수가선택된구문규칙의점수보다낮거나적절한구문규칙을적용하기위한조건이맞지않았기때문이다. 따라서경쟁하는구문규칙들을모두확인하여규칙의조건부와점수를비교, 분석해야한다. 그림 2 는구문규칙검색화면의모습이다. 그림 1. 구문규칙의예 구문규칙은 [ 규칙이름 : 규칙의좌측 (left-hand side) <- 규칙의우측 (right-hand side)] 의형식을가진다. 규칙의좌측과우측은 [ 문법기호 ( 행동 / 조건 )] 의형식을가지는데, " 문법기호 " 는 NP, VP 등의구를나타내는기호와 NOUN, ADJ 등의품사를나타내는기호를포함한다. 영한기계번역시스템의구문분석모듈은구문규칙의규칙이름과우측기호들과관련된 C 언어함수로구성된다. 예를들어, 그림 1 의구문규칙과관련된 C 언어함수는 NP010() 과 NP010noun() 함수가있다. 결과적으로제안하는구문규칙관리도구는다음과같은기능을필요로한다. 첫째, 구문규칙검색기능이다. 구문규칙의검색을쉽게하기위해규칙의좌측기호, 우측기호들, 규칙이름등을키 (key) 로하는검색이필요하다. 둘째, 구문규칙의비교를위해규칙의모든내용을보기좋게보여줄뿐만아니라여러개의규칙을동시에보여줄수있어야한다. 이와함께규칙에해당하는구문분석모듈을보여줄필요가있다. 잘못된구문분석의원인을파악할때, 규칙을분석하기보다는구문분석모듈, 즉 C 언어함수를분석하는것이더용이할수있기때문이다. 셋째, 구문규칙과해당하는 C 그림 2. 구문규칙검색화면 경쟁하는구문규칙을쉽게확인하기위해서구문규칙검색기능은 2 장에서제시한것처럼규칙이름, 규칙의좌측기호 (LHS), 우측기호 (RHS) 들을키로하여검색할수있다. 원하는키를입력하고 " 검색 " 버튼을누르면검색키에맞는구문규칙을검색하고결과는 " 규칙보여주기 " 탭에서보여준다. 우측기호는하나이상을키로할수있으며, 좌측기호와우측기호를조합하여 - 100 -

키를구성하여검색할수도있다. 그림 3 은 LHS 가 NP 이고 RHS 의첫번째기호가 NOUN 인구문규칙을검색하기위해키를설정한모습을나타낸다. 3.2 구문규칙과구문분석모듈보여주기기능 검색한구문규칙을보여줄때, 대응하는구문분석모듈의 C 언어함수도함께보여준다. 그림 3 은규칙검색결과를보여주는화면의모습이다. 그림 3. 구문규칙보여주기화면 그림에서 " 검색 key" 부분은검색에사용된 key 가무엇인지를확인할수있게하며, " 검색결과 " 부분은검색 key 와일치한구문규칙들의목록을보여준다. 특정한규칙을선택하여클릭하면먼저좌측에구문규칙과해당하는 C 언어함수를보여주고다른규칙을선택하여클릭하면오른편에보여줌으로써규칙의비교를용이하게한다. 그림 4 는먼저 "np010" 규칙을선택하여좌측에그내용이나타난후, "np049" 규칙을선택하여우측에내용이나타난모습을보여준다. 하는위치의규칙과함수를저장한다. 그리고수정에대한기록은로그파일에저장되어구문규칙과모듈에대한수정내용을나중에확인할수있다. 4. 결론 본논문에서는규칙기반의영한기계번역시스템의구문규칙개선을통한지속적인성능개선을지원하기위한구문규칙관리도구를제안하였다. 제안하는도구는번역테스트과정에서구문규칙의잘못된적용으로인해잘못된번역이생성된경우에그원인을파악하여올바른번역을생성할수있도록기존의구문규칙을수정하는작업을쉽게할수있도록지원한다. 즉적용된구문규칙을쉽게검색할수있도록다양한키를이용한검색기능을제공하고구문규칙과대응하는 C 언어함수를동시에보여줌으로써문제가되는구문규칙과모듈을쉽게확인하고수정할수있도록해준다. 이를통해구문규칙의개선에의한번역시스템의성능개선과정을쉽게한다. 현재는기존규칙을확인하고수정하기만할수있으나필요하면새로운구문규칙을추가하거나필요없는규칙을제거할경우를지원할수있도록구문규칙관리도구가개선되어야할것이다. 구문규칙이삭제되면이에해당하는구문분석모듈의 C 언어함수가삭제되어야하며추가되면 C 언어함수가새로생성되어야한다. 따라서구문규칙을자동으로 C 언어함수로변환하는도구에대한연구가필요하다. 참고문헌 [1] SYSTRAN Translator, SYSTRAN, www.systransoft.com [2] EMTGlobal, Safaba Translation Innovation, www.safaba.com. [3] PROMT translator, PROMT, www.promt.com [4] Terry Winograd, Language a s a Cognitive process: Vol. 1, Syntax, Addison Wesley, 1983. 3.3 구문규칙과구문분석모듈수정기능 구문규칙들을분석하여잘못된트리를선택한원인을파악하였다면구문분석과대응하는 C 언어함수를수정해야한다. 원칙적으로는규칙을수정하면대응하는 C 언어함수를직접 C 언어함수를수정한다. 그림 3 에서제시되는 C 언어함수를수정하면영한기계번역시스템의구문분석모듈이수정되며, 수정된번역시스템으로번역을수행하여수정에의해올바른트리를선택하여올바른번역이생성되는지를확인하는과정으로구문규칙을개선하는작업을수행한다. 그림 3 에서구문규칙이나 C 언어함수를수정한후 " 저장 " 버튼을누르면시스템의규칙과 C 언어함수가수정된다. 화면에 2 개의 " 저장 " 버튼이있는데각각해당 - 101 -

음식메뉴개체명인식을위한음식메뉴사전자동구축방법 구영현 0, 유성준 1) 세종대학교, 컴퓨터공학과 yhgu@sejong.ac.kr, sjyoo@sejong.ac.kr Automatic Construction of Restaurant Menu Dictionary Yeong-Hyeon Gu 0, Seong-Joon Yoo Sejong University, School of Computer Science 요약 레스토랑리뷰분석을위해서는음식메뉴개체명인식이매우중요하다. 그러나현재의개체명사전을이용하여리뷰분석을할경우구체적이고복잡한음식메뉴명을표현하는데충분하지않으며지속적인업데이트가힘들어새로운트렌드의음식메뉴명등이반영되지않는문제가있다. 본논문 2) 에서는레스토랑전문사이트와레시피제공사이트에서각레스토랑의메뉴정보와음식명등을래퍼기반웹크롤러로수집하였다. 그런다음빈도수가낮은음식메뉴와레스토랑온라인리뷰에서쓰이지않는음식메뉴를제거하여레스토랑음식메뉴사전을자동으로구축하였다. 그리고레스토랑온라인리뷰문서를이용해음식메뉴사전의엔티티들이어느유형의레스토랑리뷰에서발견되는지를찾아빈도수를구하고분류정보에따른비율을사전에추가하였다. 이정보를이용해여러분류유형에해당되는음식메뉴를구분할수있다. 실험결과한국관광공사외국어용례사전의음식메뉴명은 1,104 개의메뉴가실제레스토랑리뷰에서쓰인데비해본논문에서구축한사전은 1,602 개의메뉴가실제레스토랑리뷰에서쓰여 498 개의어휘가더구성되어있는것을확인할수있었다. 이와아울러, 자동으로수집한메뉴의정확도와재현율을분석한다. 실험결과정확률은 96.2 였고재현율은 78.4, F-Score 는 86.4 였다. 주제어 : 음식메뉴사전, 개체명인식 1. 서론 레스토랑음식메뉴는레스토랑이라는의견대상의속성들중가장높은비율을차지하며많은정보를포함하고있다. 대부분의레스토랑의경우여러가지음식메뉴를갖고있는데레스토랑에대해서만의견분석을할경우에는레스토랑자체에대한의견분석만가능하다. 그러나음식메뉴라는레스토랑의속성을가지고의견분석을하면음식메뉴들에대해개별적인긍정 / 부정정보를알수있다. 예를들어음식메뉴속성을이용하여분석을하면, 메뉴 1 은부정의견이고메뉴 2 는긍정의견인경우에각각의평가정보를얻을수있지만레스토랑을대상으로분석을하면어느메뉴가더평가가좋은지알수없다. 현재한국어음식메뉴사전은전자통신연구원에서구축한한국어개체명사전 DB[1] 와한국관광공사에서구축한관광용어외국어용례사전 [2] 이있다. 전자통신연구원에서개발한사전은 200 개의엔트리를가지고있으며추상물, 구체물, 표상물, 조직등으로분류하였다. 그중음식과관련된엔트리들은구체물의음식으로분류하여관리한다. 한국관광공사에서구축한사전은외국관 1) 교신저자 2) 본연구는미래창조과학부및한국산업기술평가관리원의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10044454, 기기정보뿐아니라사용자의환경 / 감성 / 인지정보에적응적으로반응하는정보기기용원격 UI 기술개발 ] 광객들을위한표준화된레스토랑메뉴판작성을목적으로개발되었으며음식분류정보도함께제공된다. 전자통신연구원에서구축한사전은일반적인목적의개체명사전이다. 일반적인목적의개체명사전과는다르게레스토랑도메인의음식메뉴명은재료와조리방법에따라많은파생어들이있기때문에구체적이고복잡한음식메뉴명을표현하는데충분하지않다. 그리고한국관광공사에서구축한사전은음식메뉴명과함께음식메뉴의분류를제공하지만실제분류와다른경우가발생한다. 또한음식메뉴명은주기적으로새로운음식메뉴가업데이트된다는특징이있는데이를반영하기위해지속적인업데이트를하려면시간과비용이많이소요된다. 이러한문제점들을해결하기위해본논문에서는레스토랑전문사이트와레시피제공사이트를이용해자동으로레스토랑음식메뉴사전을구성하는방법을제안한다. 이를위해복수의레스토랑전문사이트들과레시피제공사이트에서래퍼기반웹크롤러를이용해메뉴판정보, 인기메뉴, 추천메뉴등과같은레스토랑음식메뉴와관련된정보를주기적으로추출한다. 그런다음빈도수를측정하여특정빈도수이하의정보를제거한다. 그리고추가적으로온라인레스토랑리뷰와비교하여실제로리뷰어들이쓰는어휘인지분석한다음사용빈도수가낮은어휘들은제거하여음식메뉴사전을자동으로구축한다. - 102 -

음식메뉴는한식, 양식, 일식, 주점등과같은분류유형정보를가지고있다. 자동으로구축된음식메뉴사전의엔티티들이어느유형의레스토랑리뷰에서사용되는지를빈도수기반으로측정하여음식유형분류정보를제공한다. 하나의음식메뉴는여러개의분류정보를가질수있는데이러한문제를해결하기위해유형별로음식메뉴가발견된비율을같이표현하여확률적으로어느유형에해당하는지를알수있다. 본논문의구성은다음과같다. 2 장에서는관련연구에대해알아보고 3 장에서는본논문에서제안하고있는음식메뉴사전자동구축을설명한다. 4 장에서는실험을통해기존음식메뉴사전과비교하고, 마지막으로 5 장에서는결론및향후과제를제시한다. 2. 관련연구 일반적인웹크롤러는자동적으로웹서버를순회하며웹페이지의내용을분석하고, 그안에포함되어있는 URL 들을추출한다. 그런다음그 URL 들로하나씩이동하면서웹문서를수집한다. 이렇게수집된다양하고많은양의웹문서는검색엔진에서이용된다. 반면에특정한주제의문서만을수집할수있는형태의크롤러도있다. Focused Crawler 와 Topical Crawler 는크롤러자체에 document classifier 나수집해야할문서의규칙들을탑재하여수집을한다.[3, 4] 그러나분류기의성능이좋지못하고규칙의양이불충분하다면사용자가원하는데이터를수집할수없다. 이러한이유로인해수집하고자하는특정사이트의구조를분석하여직접적으로데이터를수집해올수있는 wrapper 에대한연구가진행되었다. Wrapper 를이용한크롤러는필요한정보를추출하기위해규칙을만들고자동으로사이트의컨텐츠를수집한다.[5,6,7,8,9,10] 전자통신연구원에서구축한한국어개체명사전은음식메뉴명정보만제공할뿐음식분류를제공하지않는다. 그리고한국관광공사에서구성한음식메뉴명사전은음식분류를제공하지만실제분류와다른경우가발생한다. 예를들어 알밥 은일식으로분류되어있지만리뷰들을분석해보면분식, 한식등에서더많이발견된다. 뿐만아니라온라인리뷰에는 갈비살 과 소갈비살 처럼같은음식메뉴인데다르게표현되는경우도있다. 또한레스토랑리뷰문서의음식메뉴어휘들을살펴보면기존의음식메뉴와관련한개체명사전에없는경우가있다. 이러한이유는개체명사전은일반명사들로이루어져있는데반해레스토랑에서는신메뉴가지속적으로개발이된다. 그럼에도불구하고개체명사전을수작업으로구축하는것은많은시간과비용이발생하기때문에업데이트가지속적으로이루어지지않기때문이다. 3. 레스토랑메뉴사전자동구축알고리즘 표 1 은레스토랑메뉴사전구축알고리즘에대한설 명이다. < 표 1> 레스토랑메뉴사전구축을위한알고리즘 1. 래퍼기반크롤러를이용해레스토랑전문사이트에서메뉴정보추출 2. 래퍼기반크롤러를이용해레시피정보제공사이트에서메뉴정보추출 3. 추출된메뉴명의빈도수측정 4. Threshold 이상의빈도수를갖는메뉴만 DB 에저장 5. 수집된레스토랑리뷰에서음식메뉴포함한리뷰의빈도수측정 6. 음식메뉴분류정보에따른빈도수와비율 DB 에업데이트 7. 레스토랑리뷰에서발견되지않은음식메뉴제거 3.1 래퍼기반메뉴정보추출 기존의일반적인웹크롤러는모든문서를대상으로하기때문에성능이좋지못하다. 이러한문제를해결하기위해수집하고자하는특정사이트들의구조를분석해직접적으로원하는데이터를수집하는래퍼 (Wrapper) 기반웹크롤러연구가있다. 원하는데이터를정확하게수집하는방법은해당사이트의 html code 를이용하여사이트의구조를분석하는것이다. 그런다음원하는데이터가있는부분만접근할수있도록해야한다. 사이트의구조정보를토대로데이터를수집할수있는프로그램이 wrapper 이다. 본논문에서는이러한 wrapper 모델을기반으로음식점검색사이트에서음식메뉴를수집하였다. 레스토랑전문사이트는일반적으로공통된구성으로되어있다. 레스토랑전문사이트는다수의레스토랑 s 로이루어져있다. 레스토랑 s 는레스토랑명, 전화번호, 주소, 추천메뉴등과같은속성정보 a 로구성되어있다. 레스토랑 S 는 p 개의리뷰 r 을가지고있다. 메뉴는주로레스토랑사이트내의추천메뉴, 인기메뉴, 메뉴판등정보의위치와구조정보를분석해보면수집이가능하다. 본논문에서는국내의 5 개의레스토랑전문사이트중에서메뉴정보를제공하는 2 개의사이트를대상으로수집하였다. 3.2 빈도수기반메뉴선정 수집된음식메뉴는모두 34,506 개였다. 이렇게수집된 - 103 -

음식메뉴의빈도수를측정하고빈도수순으로정렬하였다. 빈도수를측정한이유는여러레스토랑의메뉴에서빈번하게나타난음식메뉴는좀더일반적인음식메뉴일확률이높기때문이다. 그림 1 은추출된메뉴명의빈도수를나타내는그림인데빈도수가 1 인메뉴들이전체의대다수를차지한다. [ 그림 1] 추출된메뉴명의빈도수 수집된음식메뉴중에서빈도수가 3 이상의음식메뉴를선정하였다. 표 2 는빈도수순으로정렬된음식메뉴의예이다. < 표 2> 빈도수순으로정렬한상위 20 개의음식메뉴 순위메뉴명빈도수순위메뉴명빈도수 1 돼지갈비 522 11 우럭 190 2 삼겹살 499 12 항정살 187 3 갈비탕 318 13 김치찌개 173 4 생삼겹살 300 14 차돌박이 167 5 냉면 285 15 생등심 185 6 갈비살 240 16 삼계탕 165 7 광어 230 17 된장찌개 164 8 회덮밥 221 18 등심 152 9 육회 213 19 생갈비 151 10 닭도리탕 198 20 갈매기살 149 이렇게빈도수가높은음식메뉴만을선택한이유는빈도수가낮은음식메뉴들은대다수의음식점에서사용하는일반적인음식메뉴가아니었기때문이다. 예를들어 메뉴 1 을 A 음식점에서 A 음식점메뉴 1 이라부른다고하자. 두음식메뉴는실제로는같음에도불구하고 메뉴 1 은일반적인음식메뉴이기때문에빈도수가높고 A 음식점메뉴 1 은 A 음식점에서만사용하기때문에빈도수가낮다. 실제로레스토랑에따라같은메뉴에레스토랑상호를붙이거나새로운이름으로부르기도한다. 그러나온라인리뷰를분석한결과실제로사용자들은리뷰를작성할때이러한특이하거나독특한메뉴명은잘사용하지않는다. 그렇기때문에빈도수가낮은음식메뉴명은사전목록에서제외하도록하였다. 3.3 음식메뉴의분류정보추출 수집된음식메뉴중에는음료수와술과같이음식메 뉴로부적합한것들이있다. 이렇게부적합한음식메뉴들을제거하고나머지를음식메뉴사전에등록한다. 이렇게구축된음식메뉴사전에도확인결과빠진메뉴들이존재했다. 이러한문제를해결하기위해레시피제공사이트를크롤링해서메뉴를추가하였다. 음식메뉴는한식, 양식, 중식과같은고유의분류정보를가지고있다. 그러나일반적인분류체계와실제메뉴의분류정보가다른경우가있다. 이러한문제를해결하기위해음식메뉴사전의엔티티들이어느유형의레스토랑리뷰에서발견되는지를찾아빈도수를구하고분류정보에따른비율을사전에추가하였다. 음식메뉴 M 은음식메뉴명, 기타 / 양식 / 일식 / 주점 / 중식 / 카페 / 한식리뷰에서의음식메뉴빈도수, 전체리뷰에서의음식메뉴빈도수, 기타 / 양식 / 일식 / 주점 / 중식 / 카페 / 한식리뷰에서의음식메뉴비율로이루어진다. M = { food_name, freq etc, freq wst, freq jpn, freq bar, freq chi, freq caf, freq kor, freq tot, rate etc, rate wst, rate jpn, rate bar, rate chi, rate caf, rate kor, rate tot,} 아래의표 4 는분류정보분석결과를포함한음식메뉴사전중리뷰에서의분류정보에따른비율의예를보여주고있다. 이분류정보를이용하면정보추출을통해음식메뉴를추출할경우부가적으로분류정보도얻을수있다. 표 4 의 알밥 의경우일식과한식에서비슷하게분포되어있는것을볼수있는데이렇게여러분류에해당되는음식메뉴도이방법을이용해구분할수있다. 기타리뷰비율 양식리뷰비율 일식리뷰비율 주점리뷰비율 중식리뷰비율 카페리뷰비율 한식리뷰비율 0.0 0.7 0.7 0.7 0.3 0.7 97.0 0.0 1.1 85.1 11.7 0.0 0.0 2.1 0.0 0.0 20.0 28.0 0.0 0.0 52.0 0.0 2.1 0.0 2.1 0.0 0.0 95.7 0.0 0.0 4.6 37.1 1.7 2.2 54.5 0.0 2.4 0.8 1.6 0.0 3.3 91.9 1.3 8.5 1.3 19.6 19.0 2.6 47.7 1.0 0.5 43.4 4.0 0.0 2.0 49.0 0.3 0.9 1.5 0.3 0.6 0.3 96.0 4. 실험 실험을위해레스토랑온라인리뷰를래퍼기반웹크롤러를이용해수집했다. 크롤링된리뷰중 1,000 개의리뷰를뽑아다시문장단위로나누었다. 수작업으로분류를한결과음식메뉴를포함한리뷰문장이 1,129 개였고음식메뉴를포함하지않은리뷰문장은 2,393 개였다. 음식메뉴는품사중에서명사에해당되기때문에분 - 104 -

류한리뷰문장을형태소분석한다. 그런다음명사만추출하고음식메뉴사전과비교하여일치하는음식메뉴를추출하여리뷰문장의음식메뉴를얼마나정확히추출하는지를실험하였다. 그결과 True Positive 는 778, False Positive 는 0, False Negative 는 351, True Negative 는 2,393 이었다. < 표 5> 는리뷰를형태소분석한다음명사를음식메뉴사전과비교해성능을평가한결과이다. < 표 4> 온라인레스토랑리뷰의형태소분석결과를이용한사전성능평가 추출결과 실제 Class Positive Negative Total Positive 778 0 778 Negative 351 2,393 2,744 Total 1,129 2,393 3,522 온라인리뷰의특성상띄어쓰기가제대로되어있지않은문장이많기때문에추출이되지않는문장들이있었다. 이러한문제점을해결하기위해형태소분석을하지않고문장의공백을제거한다음 Java 의 indexof() 메소드를이용해문자열비교를해음식메뉴사전에있는엔티티를포함하는문자열을뽑도록하였다. 이방법은포함관계인음식메뉴가모두추출되는문제가있다. 예를들어 바지락칼국수 는 바지락칼국수, 칼국수, 국수 가모두추출된다. 이러한문제점을막기위해여러개의음식메뉴가추출되는경우가장문자열이긴음식메뉴를추출하도록한다. 이방법으로온라인레스토랑리뷰문장의음식메뉴를얼마나정확히추출하는지를실험하였다. 그결과 True Positive 는 884, False Positive 는 35, False Negative 는 245, True Negative 는 2,358 이었다. < 표 6> 은리뷰를음식메뉴사전과문자열비교를하여성능을평가한결과이다. < 표 5> 온라인레스토랑리뷰의문자열비교를통한사전성능평가 추출결과 실제 Class Positive Negative Total Positive 884 35 919 Negative 245 2,358 2,603 Total 1,129 2,393 3,522 좀더쉽게두가지방법을비교하기위해 F-Score 를구하였는데형태소분석기를이용한방법은 81.6 이었고문자열비교를한방법은 86.4 로상대적으로나은성능을보였다. 그러나문자열비교를이용한음식메뉴추출방법은 죽, 난, 전, 떡 등과같이음식메뉴명의문자열길이가짧은경우에는잘못된음식메뉴명을추출하기도한다. 또한 라면, 파이, 스프 등도잘못된음식메뉴명을추출하는주원인이었다. < 표 7> 은문자열비교를통해음식메뉴명을잘못추출하는경우 의예이다. < 표 6> 잘못추출된음식메뉴명의예 고향의맛이라생각하고먹을수도있겠지만그게아니라 면먹기가좀부담스럽습니다. 와이파이가잘터지네요. 이집에스프레소가맛있네요. 그밖에도외국음식명은외래어표기방법에따라다양하게표현되어추출의성능을나쁘게하였다. 예를들어 cake 는 케잌, 케이크, 케익 등레스토랑이나리뷰어에따라다르게표현된다. 5. 결론 본논문에서는레스토랑전문사이트와레시피제공사이트에서각레스토랑의메뉴정보와음식명등을웹크롤러로수집하였다. 그런다음빈도수가낮은음식메뉴와레스토랑온라인리뷰에서쓰이지않는음식메뉴를제거하여레스토랑음식메뉴사전을자동으로구축하였다. 그리고레스토랑온라인리뷰문서를이용해음식메뉴사전의엔티티들이어느유형의레스토랑리뷰에서발견되는지를찾아빈도수를구하고분류정보에따른비율을사전에추가하였다. 이정보를이용해여러분류유형에해당되는음식메뉴를구분할수있다. 성능측정을위해구축된음식메뉴사전을이용해레스토랑리뷰로부터음식메뉴를추출하였다. 추출방법은형태소분석방법과문자열비교방법두가지를비교하였는데실험결과형태소분석방법의정확률은 100, 재현율은 68.9, F-Score 는 81.6 이었고문자열비교방법의정확률은 96.2, 재현율은 78.4, F-Score 는 86.4 로상대적으로문자열비교방법의성능이더좋았다. 이렇게구축된음식메뉴사전으로레스토랑리뷰분석을통한인기메뉴추출이나의견대상에대한의견검출등을할수있다. 참고문헌 [1] 전자통신연구원한국어어휘사전 DB, http://www.itec.re.kr/itec/sub02/sub02_01_1.do?t _id=5674# [2] 한국관광공사관광용어외국어용례사전, http://kto.visitkorea.or.kr/kor/translation/tran slation/main.kto [3] S. Chakrabarti, M. van den Berg, and B. Dom, Focused Crawling : A New Approach to Topic-Specific Web Resource Discovery, Computer Networks, Vol.31, No. 11-16, pp.1623-1640, 1999 [4] Ziyu Guan, Can Wang, Chun Chen, Jiajun Bu, Junfeng Wang, Guide Focused Crawler Efficiently and Effectively Using On-line - 105 -

Topical Importance Estimation", In Proc. of ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 757-758, 2008 [5] S. Chakrabarti, Mining the Web. Discovering Knowledge from Hypertext Data, Morgan Kaufmamm, pp. 257-287, 2003 [6] J. Cho, H. Garcia-Molina, and L. Page, Efficient Crawling through URL Ordering, Computer Networks, Vol.30, No.1-7, pp. 161-172, 1998 [7] Chia-Hui Chang, Mohammed Kayed, Moheb Ramzy Girgis, and Khaled Shaalan, A Survey of Web Information Extraction Systems, IEEE Transaction on Knowledge and Data Engineering, Vol.18, No. 10, pp.1411-1428, 2006 [8] Jaeyoung Yang, Tae-Hyung Kim, and Joongmin Choi, An Interface Agent for Wrapper-Based Information Extraction, In Proc. of the International Confenrence on Principles of Practice in Multi-Agent Systems(PRIMA'04), pp.291-302, 2004 [9] Claudio Bertoli, Valter Crescenzi, and Paolo Merialdo, Crawling programs for wrapper-based applications, In Proc. of IEEE International Conference on Information Reuse and Integration(IRI'08), pp.160-165, 2008 [10] Stephen Soderland, Claire Cardie, and Raymond Mooney, "Learning information extraction rules for semi-structured and Free Text", Machine Learning, Vol. 34, No.1-3, pp.233-272, 1999-106 -

주식관련기사분류및긍정부정판단을통한종목추천시스템 이유준 O, 박정우, 전민재, 최준수, 한광수국민대학교컴퓨터공학부 yj_lee@kookmin.ac.kr, jungwooc@kookmin.ac.kr, mj_jeon@kookmin.ac.kr, jschoi@kookmin.ac.kr, kshahn@kookmin.ac.kr Stocks Recommending System through Classifying News Articles by Positive or Negative Decision Yoojun Lee, Jungwoo Park, Minjae Jeon, Joonsoo Choi, Kwangsoo Hahn Kookmin University 요약 주식시장에서거래되고있는증권은 MACD(Moving Average Convergence Divergence), Stochastic 등의보조지표를이용하는기술적분석을통하여매수 / 매도시점을결정한다. 주식시장의객관적인자료를통하여분석하는기술적분석방법은주식시장외적인요소를반영하는데있어한계점이존재한다. 본논문에서는기술적분석방법에기사를종목별로분류하고기사의긍정및부정을판별하는문서분류기법을적용하여주식외적인요소를반영하는시스템을제안한다. 주제어 : Genetic algorithm, Stocks recommendation, Opinion mining, Document classification 1. 서론 주식투자에있어기술적분석은과거의주가와거래량을이용해주식의추세를분석하여미래의주가를예측하는방법이다 [1]. 그러나기술적분석을통한방법은완벽히신뢰할수있는방법은아니다. 가령특정회사에서새로운기술을개발했거나국가적위기상황과같은주식시장외적인요소들은기술적분석방법만으로반영할수없다. 최근인터넷의보급화로인해모든소식들을인터넷기사로접할수있게되었다. 이러한기사들은신문사나기자에따라주관적인특성을가지고있다. 이런기사들은주식시장에직접적혹은간접적으로영향을준다. 현대세계에서는엄청난양의정보들을생성하고있다. 응용분야의광범위한범위에서방대한규모의데이터들이계속해서수집되고있는데, IBM 에서는매일 2.5 퀀틸리언바이트 (2.5 quintillion byte, byte) 의데이터가발생함을언급하고있다 [2]. 이처럼인터넷공간에는사람이처리할수없을정도로많은기사들이존재한다. 이와같이대용량데이터처리의중요성이부각되면서대용량데이터의효율적인저장, 관리, 검색, 분석및활용을위한연구가활발히이루어지고있는실정이다. 본논문에서는뉴스기사에서관심있는종목에대한기사를선별하여해당기사가주가에미치는것을주식추천시스템에반영하고자한다. 기술적분석방법을통해객관적인데이터를기반으로하여추천종목의신뢰성을높이고, 기사들을각종목별로분류하여기사의긍정및부정을판단하는방법을통해주관적인데이터를 확보하여주식시장외적인요소를반영하는증권의매수 / 매도종목추천시스템을제안한다. 2. 관련연구 2.1 기술적분석과유전알고리즘 본연구에서는 MACD 지표를사용하여기술적분석을한다. MACD 지표를이용하여유전알고리즘을구성하는방법과이를통해종목을추천하는방향을제시한다. 2.1.1 기술적분석 (Technical analysis) 기술적분석에서많이사용되고있는지표인 Slow stochastic 과 MACD 는실무에서많이사용되고있으며신뢰도가높은편이다. MACD 는단기 EMA(Exponential Moving Average, 지수이동평균 ) 와장기 EMA 의차이이다. 보편적으로단기 EMA 의기간은 12 일을사용하고, 장기 EMA 의기간은 26 일을사용한다. MACD signal 은 k( 보편적으로 9 일 ) 일간의 EMA 를나타낸다. 또한 MACD oscillator 는 MACD 와 MACD signal 과의차이를나타낸다. MACD Line MACD Signal MACD Oscillator 단기 EMA - 장기 EMA k 기간의 EMA MACD - MACD Signal 표 1 MACD 계산공식 - 107 -

본연구에서는 MACD 지표를계산하는데사용되는기간을보편적으로사용하는기간으로고정하지않고, 각종목에적합한날짜를직접구하여계산하고자한다. MACD 지표에서는단기, 장기, k 총 3 개의기간이필요하다. 2.1.2 유전알고리즘 유전알고리즘은진화의원리를문제해결에이용하는방법론이다. 다윈의진화론과같이다산, 생존경쟁, 변이, 자연선택, 진화의과정을반복하여진행하게된다. 유전알고리즘은 NP-hard 문제에있어효과적이다. 하지만문제해결을위한효율적인알고리즘이존재하는경우는비효율적인방법이될수도있다. 보편적인유전알고리즘은하나의해를염색체라고표현하고복수개의염색체를운영하여최적의해를구한다. 일반적인유전알고리즘은아래와같은방법으로진행된다 [3]. 최초난수를발생시켜 n 개의유전자인해집단을생성하고, 해집단의적합도를평가하게된다. 적합도란각각의유전자를이용해 MACD 를구하고지표가제공하는매매시점을이용해특정기간동안모의투자를하여수익률을계산한다. 적합도를평가한후품질비례선택과엘리트보전전략을이용해교배할두개체를선택하게된다. 이렇게선택된두개체를교차연산과변이연산을통해새로운두개체를생성하게된다. 생성된개체가기존해집단의개체보다적합도가높게되면대치연산을통해개체를대치하게된다. 위와같은과정을반복하여최적의해를찾게된다 [4]. 그림 1 유전알고리즘흐름도 단기기간, 장기기간, k 기간을각각 8bit 로표현하여하나의 24bit 유전자로표현이된다. 유전자를이용하여날짜를변수로한최적의 MACD 지표를구하게된다. x1 ( 단기 ) 1 <= x1 <= 256 x2 ( 장기 ) 1 <= x2 <= 256 x3 (k) 1 <= x3 <= 256 2.2 문서분류 표 2 유전자표기방식 인터넷의보급화와사용증가에따라웹상의전자문서의양이기하급수적으로증가하고있다. 전자문서가양적으로크게늘어남에따라이러한수많은문서를사람이분류하는것은거의불가능해졌다. 이에따라문서를알맞게분류하는것을도와주는도구에대한요구가점차중요해지고있다. 문서분류란미리정의되어있는두개이상의범주 (Category) 에대하여, 새로운문서집단이입력되었을때미리학습된범주와입력문서간의유사도비교를통해입력된문서에대한범주를결정해주는기법이다 [5]. 이러한문서분류는다양한분야에적용되어활용되고있다. 스팸메일필터링, 뉴스기사필터링, 뉴스기사의주제선정, 웹문헌분류등여러분야에서활발하게연구되어지고있다. 2.3 오피니언마이닝 오피니언마이닝 (Opinion mining) 은감정분석 (Sentiment analysis) 과비슷한의미로사용된다. 텍스트에포함된내용이주관적 (Subjective) 인지객관적 (Objective) 인지먼저판별하고, 주관적이면극성 (Polarity) 을분석하여내용이긍정적 (Positive) 인지부정적 (Negative) 인지판별한다. 이러한오피니언마이닝은대량의정보속에서유용한정보를찾아내는특징을가지고있다. 오피니언마이닝은특징 (Feature) 추출, 의견분류, 요약및표현 3 가지단계로이루어진다. 특징추출단계에서는중요한정보로판단되는특징들을추출해낸다. 해당특징의어휘정보도추출된다. 의견분류단계에서는추출된특징과어휘가어떤의미로사용되었는지판단및분류한다. 요약및표현단계에서는의견성향이밝혀진의견정보들을요약하여전달하는단계이다 [6]. 이와같은오피니언마이닝의단계별수행을위해다양한방식으로연구되고있으며자연어처리기술기반에서통계적기법에이르기까지여러분야의기술이접목되고있다. 기존에긍정및부정을판별하는방법은다음과같다. 첫째로 SVMs(Support Vector Machines) 방법이있다. 이는미리사전에긍정및부정으로분류된학습데이터 (Training Sets) 로텍스트의긍정및부정의견을분류하는방식이다. 둘째로 N-grams or Part of Speech 방법이있다. N-grams 단어구조로긍정및부정을찾는방식으로문장을 Bi-gram decomposition 으로분리한다. 셋째로 Lexicon-based Approach 방법이있다. 사전에미리정의된긍정및부정 bag of words(1-grams or Uni-grams) 를이용하여텍스트에포함된긍정및부정단어의출현빈도로긍정과부정을판별하는기법이다. LIWC(Linguistic Inquiry and Word Count) 나 - 108 -

POMS(Profile of Mood States) 같은사전을이용할수있는데한국어에서는사용할수없다. 이방법에서는긍정 / 부정코퍼스 (Corpus) 를만드는것이관건이다. 넷째로 Linguistic Approach 방법이있다. 텍스트의문법적인구조를파악하여극성을판별하는기법이다. 주로 Lexicon-based Approach 방식과함께사용한다. 문맥 (Context) 등을파악하여극성을파악한다. 오피니언은어떤단위로볼것인가에따라 3 가지로분류될수있다. 문서전체적으로의견을종합하는 document level, 문서를문장단위로나누어서개별문장의의미를파악하는 sentence level, 문장내부의어떤개체의속성에대한의견을파악하는 entity and feature/aspect level 로분류할수있다. 3. 기사분류및분석시스템 기술적분석은객관적인주식데이터를기반으로분석하기때문에주식시장외적인요소들을반영하는데한계점이있다. 하지만실제주식시장에서는해당주식종목에대한기사로인해주가에영향을미치게된다. 본논문에서제안하는기사분석시스템은이러한단점을보완하여안정적인주식종목추천을목표로한다. 전체시스템은아래와같다. 그림 2. 추천종목시스템의구조 기사분석시스템은실시간으로신문기사를 crawling 하고이렇게수집된기사는데이터베이스에저장되고, 문서분류컴포넌트에입력된다. 주식시장과관련된기사이기때문에다음과같은형식으로문서가분류된다. 기사분류시스템은주식종목당 2 개의카테고리로분류가된다. 하나는주식시장에영향을미치지않는기사카테고리, 나머지하나는주식시장에영향을미치는기사카테고리이다. 시스템운용자가처음두개의카테고리별로기사를학습시키고, 시스템에입력되는기사에대해분류를하고분류된기사는학습된데이터에추가한다. 이렇게분류되어학습된기사데이터가많이쌓이게되면분류의정확도는높아지게된다. 문서분류단계가끝나면오피니언마이닝을통하여 기사의성향을분석한다. 해당기사가주식시장에반영되었을경우그영향력을분석하는단계이다. 크게긍정적, 부정적, 중립의 3 가지성향이존재하게된다. 오피니언마이닝에서는단어에가중치를두어문장에대한점수를계산하는방법을사용한다. 시스템운용자가단어사전을만들고각 term 들에대한가중치를작성하게된다. 각 term 들에부여된가중치는성향을나타내게되는데부정의부정, 긍정의부정, 부정의긍정등성향이반대가되는경우를위하여긍정은 + 부호를사용하고부정은 - 부호를사용하게된다. 부호의곱을통하여위와같은경우도정확한분류가가능하게된다. 문장에대한점수를계산하기위해서는형태소분석을통해문장구조를분석하고각각의관련된문장성분간의가중치를더하고부호를곱하는방식으로성향분석을진행한다. 기사에대한성향이결정되면기존의주식분석시스템에해당기사에대한점수를반영하게된다. 4. 결론 본논문은유전알고리즘과기술적분석을사용하여국내주식시장에서매수와매도를추천하는종목추출방법과주식시장외적인요소를반영하는방법에대해다루었다. 주식시장에영향을미칠수있는기사들을문서분류단계에서추출하여신뢰성을높이고, 매수및매도를추천하는종목에기사의성향을분석하여계산된가중치를적용한다. 따라서기술적분석방법을통해구해진신뢰도가높은데이터에주식시장외적인요소를반영하여더욱안정적인종목추천을제공하는시스템으로서긍정적인가능성이있음을확인할수있었다. 뉴스기사와같은매체는주관적인성격을가지고있기때문에기술적분석으로얻어지는객관적인데이터보다는신뢰성이낮은편이다. 향후기사분석을통해나온가중치를주식분석시스템에적용할때의적정비율을연구하여시스템의안정성을증대시킬것이다. 참고문헌 [1] Edwards, Robert D., Magee, John, Bassetti, Technical Analysis of Stock Trends, American Management Association, pp.4-7, 1998. [2] 양혜영, 빅데이터를활용한기술기획방법론, 한국과학기술기획평가원, 제 14 호, 2012. [3] Goldberg, D.E, Genetic Algorithm in Search, Optimization, and Machine Learning, Addison- Wesley, pp.10-17, 1989. [4] 문병로, 쉽게배우는유전알고리즘, 한빛미디어, pp.59-81, 2008. [5] Fabrizio Sebastiani, Machine Learning in Automated Text Categorization, ACM Computing Surveys, Vol.34,No.1, pp.1-47, March 2002. [6] 양정현, 명재석, 이상구, 상품리뷰요약에서의문맥정보를이용한의견분류방법, 정보과학회논문지, 제 36 권, 제 4 호, pp.254-262, 2009. - 109 -

학생답안정보를활용한반자동정답템플릿구축도구 장은서 O, 강승식국민대학교컴퓨터공학부 {akdangz, sskang}@kookmin.ac.kr Semi-automatic Answer Template Constructor using Student Responses Eun-Seo Jang O, Seung-Shik Kang Kookmin University, School of Computer Science 요약 대학수학능력시험이나학업성취도평가와같은중요한시험은다단계의복잡한과정을거쳐채점되며, 대규모의인적 물적자원이투입된다. 컴퓨터시스템을활용하여채점과정에소모되는자원을절감하고정확성을향상시키는등채점효율의향상을목표로하는연구가진행중에있다. 하지만채점하려는문항에대한정보없이시스템이자동으로정 오답을판단하는것은불가능하며, 채점자가문항에대한정보를일정한형식으로가공하여시스템에제공하여야한다. 본논문은채점하려는학생답안을정보로이용하여시스템이인지할수있는정답템플릿형식으로구축하는방법을소개한다. 또한소개한방법으로작성된정답템플릿을이용하여자동채점을수행하였을때의채점결과및통계자료를수록하였다. 주제어 : 자동채점, 정답템플릿, 한글처리, 자연어처리 1. 서론자연어처리기술을이용하여특정문항의학생답안들을자동으로채점하는방법은관련학계의주요연구주제중하나이다. 특히학업성취도평가또는대학수학능력시험과같은시험은학생의진로를결정하는중요한시험이며, 학생뿐아니라학부모및교사등의관심이집중된다. 그렇기때문에학생답안의채점또한복잡한다단계의과정을거쳐신중하게진행되며이를위해대규모의인적 물적자원이투입된다. 이러한채점과정의일부를자동화된컴퓨터시스템으로대체하여비용의절감과함께채점의정확도와같은효율을향상시키는방법이연구중에있다.[1] 하지만채점시스템이문제를자동으로인식하여학생답안의정 오답여부를가리는것은현실적으로불가능하며, 채점자가문항을채점하는데필요한정보를시스템이인식할수있는형식으로가공하여제공하여야한다. 하지만채점자는채점대상과목의전문가이지만컴퓨터시스템을다루는데에는미숙할수있으며시스템이인식할수있는형식의정답템플릿을작성하는데불필요한시간이소모될수있다. 본논문은채점하려는학생답안을먼저분석하여문항채점에필수적인정보와채점자가부가적으로작성한채점옵션, 모범답안정보, 항목별부여점수등의정보들을포함하는완성된채점정보를시스템이인식가능한형식의정답템플릿파일로자동구축해주는방법을소개한다. 또한소개한방법을이용하여 9 개문항에대한정답템플릿을생성하는실험을진행하였으며이에대한채점결과및통계자료들을수록하였다. 2. 관련연구 2.1 자동채점시스템자동채점시스템이란특정문항에대한학생답안들 을각각검사하여점수를부여하는작업을자동으로수행하는시스템이다. 그러나채점시스템이문항을분석및인식하여학생답안의정 오답여부를가리는것은불가능하며, 채점자가문항의채점기준들을시스템에제공해야한다. 이러한문항정보는자동채점시스템마다상이하며본논문에서는현재개발중인 KASS 2.0 자동채점시스템 ( 가제 ) 에적용할수있는형태의문항정보형식인정답템플릿을반자동으로구축할수있는방법을소개한다. 2.2 정답템플릿 KASS 2.0 의정답템플릿은채점옵션정보, 모범답안정보, 고빈도답안수동채점정보, 개념기반채점정보의 4 가지기본정보와채점자의선택에따라서추가적으로단서어정보를저장하는답안정보파일이다.[2] 채점옵션정보는각학생답안의전처리옵션들을저장한다. 선택가능한옵션으로는특수기호제거, 띄어쓰기오류교정, 맞춤법오류교정, 불용어제거가있다. 선택한전처리옵션은정답템플릿을만드는과정뿐아니라실제채점이될때에도적용되며각문항의특성에따라알맞은옵션을부여하여야한다. 모범답안정보는문항의예시정답이라고할수있는하나이상의문자열집합이며, 모범답안점수는문항에서받을수있는최고점을의미한다. 고빈도답안정보는특정고빈도답안유형이출현했을때부여할점수정보를포함한다. 학생답안들중에서정답으로인정할수있는핵심개념을공통적으로포함하는다양한유형을개념정보로만들어처리할수있으며개념기반채점정보는이러한개념정보들을저장한다. 단서어목록은정답작성을위해필수적으로포함되어야하는단어들의목록이며답안에단서어목록의단어가하나도등장하지않는경우해당답안을오답처리한다. - 110 -

3. 정답템플릿반자동구축도구 3.1 학생답안정규화학생답안을분석하는작업에앞서문항의채점요건에맞게학생답안을정규화하는작업이선행되어야한다. 맞춤법, 띄어쓰기또는구두점사용의오류를검사해야하는문항이있는반면, 그렇지않은문항도존재한다. 채점자가문항의특성에맞게정규화옵션을설정하고학생답안을불러오도록하면시스템은불러온학생답안을대상으로정규화작업을수행한다. 표 1 은학생답안을정규화하는예제를보여준다. 표 1 학생답안정규화예제 정규화가완료된학생답안들은유형별로빈도를조사한다음빈도순으로내림차순정렬되어채점자에게보여진다. 학생답안유형목록은유형별빈도와누적빈도를제공하며, 채점자는이목록을이용하여문항의채점을위한부가정보를기입한다. 3.2 부가정보입력채점자가입력가능한부가정보는모범답안목록및점수, 고빈도답안부여점수, 개념생성대상및개념출현시부여점수, 단서어목록이있다. 채점자는문항별로제공되는채점기준을이용하여모범답안목록과모범답안점수를부여하고고빈도답안유형중에서선택적으로수작업채점을수행한다. 누적빈도정보를참고하여어느정도의학생답안이채점될수있는지확인할수있다. 학생답안유형중에서개념정보를생성할필요가있는유형을선택및생성하고필요에따라단서어목록을작성한다. 표 2 는정답템플릿구축도구가학생답안을분석및제공하는답안유형목록을검토하여채점에필요한정보를작성한예시를보여준다. 표 2 의예제를통해 ans 2 ~ans 5 를수작업채점하였으며 ans 2, ans 4, ans 5 를이용하여개념을생성하는것을알수있다. 표 2 부가정보기입예시 3.3 정답템플릿구축정답템플릿은 json 형식으로구조화하였고정규화옵션, 모범답안정보, 고빈도답안수작업채점정보, 개념정보와채점자의선택에따라단서어정보가저장된다. 채점자가부가정보의입력을모두마친다음정답템플릿구축명령을내리면시스템은학생답안분석결과와입력된부가정보를결합하여정답템플릿을작성하게된다. 모범답안과고빈도답안채점은문자열완전일치방법을이용하기때문에각목록의문자열들을정답템플릿에저장하고, 각각부여된점수를저장한다. 단서어또한문자열정보만필요하기때문에채점자가기입한문자열집합을그대로파일에저장한다. 개념은생성대상인답안유형의문자열을형태소분석하여각어절을어휘토큰과문법토큰으로분리하여저장한다. 4. 실험및결과 4.1 실험환경자동채점을수행하기위하여 KASS 2.0 을이용하고정답템플릿은자동채점시스템이인식할수있는형식으로저장한다. 정답템플릿생성및자동채점실험을수행하기위해 9 개문항의학생답안들을이용했다. Q 1 ~Q 5 는 1 개어절로정답을서술할수있는문항이고, Q 6 ~Q 9 는 1 개문장으로정답을서술할수있는문항이다. 정답템플릿은개발된반자동생성도구에의해만들어진그대로별도의수정없이사용하였다. 4.2 실험결과및평가동일기준으로생성했을때의문항별차이를알아보기위해 1개의모범답안을입력하였고빈도 10 이상인답안유형을수작업채점하였으며빈도 3~9인답안유형을개념으로생성하였다. 표 3은위의기준을이용하여정답템플릿을생성한결과이다. 표 3 정답템플릿생성결과 문항 개수 전체모범답안고빈도답안개념 Q 1 3013 1 6 6 Q 2 3018 1 10 11 Q 3 3013 1 10 8 Q 4 3023 1 8 4 Q 5 3035 1 4 4 Q 6 3013 1 20 35 Q 7 3012 1 5 7 Q 8 3010 1 17 23 Q 9 3010 1 27 25 표 4 는생성한정답템플릿을이용하여실제자동채점을수행한결과이다. 실험결과, 비교적간단한문항인 Q 1 ~Q 5 문항의경우학생답안의대부분이모범답안과고빈도답안정보를이용한완전일치채점에서처리됨을확인하였다. 1 개문장으로이루어진 Q 6 ~Q 9 문항의경우에는 Q 1 ~Q 5 문항보다개념기반의채점빈도가늘어났으며 - 111 -

미판단답안의비율또한약간증가하였다. 미판단답안의비율은 Q 1 ~Q 5 문항의경우평균약 1.3% 이고 Q 6 ~Q 9 문항은평균약 4.1% 이다. 표 4 자동채점수행결과 문항 전체 모범답안완전일치 개수 고빈도답안완전일치 개념기반 미판단답안 Q 1 3013 2806 109 25 73 Q 2 3018 2603 296 66 53 Q 3 3013 2611 318 33 51 Q 4 3023 2249 722 21 31 Q 5 3035 1774 1229 23 9 Q 6 3013 67 2619 199 128 Q 7 3012 2004 858 30 120 Q 8 3010 807 1982 91 130 Q 9 3010 816 1945 130 119 [6] 노은희, 심재호, 김명화, 김재훈, " 대규모평가를위한한국어서답형자동채점프로그램개발의전망, 한국교육과정평가원연구자료 ORM 2012-92, 2012. [7] S. Dikli, "An overview of automated scoring of essays," The journal of technology, learning, and assessment, pp.1-35, 2006. 5. 결론및향후과제본논문은자동채점시스템의원활한동작을위해서학생답안을분석및정보를가공하고채점자가작성한부가정보를이용하여문항채점정보파일인정답템플릿을생성하는방법을소개하였다. 또한소개한방법으로프로그램을작성하여 9 개문항에적용하는실험을진행하였다. 생성된정답템플릿을이용하여채점한결과 1 어절 ~1 문장으로구성된학생답안의약 96.5% 를채점하였다. 하지만여전히미판단답안이존재하고이로인해채점작업을한번이상중복수행해야하는문제가있다. 향후정답템플릿생성과정을보완하여한번의채점사이클로모든학생답안을처리할수방법에대한연구를진행할예정이다. 현재시행중인다양한시험에자동채점시스템을적용하여보다효율적인채점작업이가능할것으로기대한다. 참고문헌 [1] 성태제, 양길석, 강태훈, 정은영, 학업성취도평가서답형문항컴퓨터채점화방안탐색, 한국교육과정평가원연구보고서 RRE 2010-1, 2010. [2] 박일남, 노은희, 심재호, 김명화, 강승식, 한국어서답형자동채점을위한정답템플릿기술방법, 제 24 회한글및한국어정보처리학술대회, pp.138-141, 2012. [3] 박은아, 이문복, 컴퓨터기반문제해결능력평가시범적용과향후과제, 한국교육과정평가원연구보고서 ORM 2012-92, 2012. [4] 강승식, 한국어서답형문항 ( 단어 - 구수준 ) 자동채점프로그램개발, 한국교육과정평가원연구보고서, 2012. [5] 강승식, 한국어형태소분석과정보검색, 홍릉과학출판사, 2002. - 112 -

상품평분석을통한상품평가요약시스템 김제상 O, 정군영, 권인호, 이현아금오공과대학교, 컴퓨터소프트웨어공학과 oiu124@naver.com, gunyoung20@naver.com, kih6412@naver.com, halee@kumoh.ac.kr Product Review Summarization through Review Sentence Analysis Je-Sang Kim O, Gun-young jung, In-ho Gwan, Hyun-Ah Lee Kumoh National Institute of Technology, Dept. of Computer Software Engineering 요약 다수의상품평요약은인터넷쇼핑몰고객에게편의를제공할수있다. 본논문에서는상품평요약시스템의성능향상을위한방안을제안한다. 시스템은크게상품평의평가항목추출과극성사전생성, 극성판별단계로구성된다. 평가항목추출에서는외부연관도의영향력을줄이고, 극성사전생성에서는단어거리평균을적용한다. 제안한방식을사용하였을때평가항목에대한문장의극성판별시 90.8% 의정확율을보였다. 주제어 : 평가항목, 상품평요약, 극성판별, 감성분류 1. 서론 본논문에서는상품평을자동으로요약하기위한시스템을제안한다. 본시스템에서는평가항목, 즉 ' 색상 ', ' 크기 ' 등의상품의다양한특성별로상품을긍정과부정중어느극성 (polarity) 인지판별하여사용자가원하는정보를알아보기쉽게제시한다. 본시스템은상품평을수집하고정형화한뒤, 상품평내어휘정보와웹검색을활용하여평가항목을추출하고, 언어처리기법을이용하여평가항목별평가어휘와평가어휘의극성을자동으로추출하여, 평가항목별극성을 [ 그림 1] 에서와같이그래프형태로요약하여출력한다. 각단계는상품평과웹검색결과를활용하여모두자동으로처리된다. 상품평의의견추출에서는세부적인상품특징 ( 예를들어, 스커트의경우 ' 사이즈 ', 디지털카메라의경우 ' 액정 ') 에대한기존구매자의평가가구매예정자의구매결정에중요한판단기준이될수있어특징기반요약이필요하다. 국내에서상품특징단어를추출하는방법은 k-structure[1] 를이용한방법과 PMI-IR 방식 [2] 을이용한방법등이있다. [3] 과 [4] 에서는평가항목을추출하기위해서특징추출에사용되는통계적기법으로 PMI 를이용하며, [5] 에서는 ME-NAS 모델을사용하여상품평의속성과감정데이터를추출한다. 이러한연구들은평가항목에따라달라지는평가어휘의극성을처리하기위한연구들으로, 특징기반요약방법을사용하고있다. [6] 는도메인별로평점이포함된상품평을수집하여상품평의평점데이터를활용하여극성사전을생성하고, [7] 은평가항목에의존적이지않은소량의시드 (seed) 극성사전을이용하여자동확장방식으로극성사전을생성한다. [5] 는어절유니그램모델을제안하여극성사전을생성한다. 도메인별평점을활용할경우평점데이터의불분명성이문제가되고, 어절유니그램및바이그램이상의구를포함한확률토픽모델을활용한 [5] 는 amazone.com 의상품평을활용한실험모델이다. 본연구는 [3] 과 [7] 의방법에기반하여, 개선된극성사전의자동구축과평가요약을목표로한다. 2. 관련연구 3. 상품평가요약시스템 상품평가요약시스템은크게상품평수집과정형화, 상품평가항목추출, 극성사전생성, 극성판별의네부분으로구성된다. 대상상품평은웹에서수집되며, [7] 의구어체보정과정형화를수행한다. 다음에서는본 - 113 -

논문에서제안하는평가항목추출과극성사전생성방식을설명한다. 최종적인극성판별은 [7] 와동일한방식을사용한다. 3.1 상품평가항목추출 [3] 의경우, 상품평가에의미없는단어의영향력을줄이기위해웹문서에서의공기빈도를외부연관도로사용한다. 이에대한결과분석에서외부연관도로인하여정확하지않은단어가평가항목으로추출되는경우가발견되었다. 본연구에서는외부연관도의순위별편차를줄여평가항목추출의정확도를향상시키고자한다. 수식 (1) 에서는 [3] 의 PMI-RTF 의외부연관도에 log 를취하여외부연관도값의편차를감소시킨다. 3.2 극성사전생성 log log (1) 극성사전의생성을위해서 [7] 을참조하여수동으로극성을분류한소량의시드 (seed) 집합에기반한극성사전자동확장을수행한다. [7] 에서는긍정어휘와부정어휘에대해극성어휘와의거리합의역수를사용하여극성점수를계산한다. 이경우극성어휘가등장할때마다 와 가점차감소하여 0에가까워지는결과를얻게된다. 이로인하여사용빈도가높은단어가확장사전에서제외되어, 충분한크기의확장사전을얻기어렵다. 본연구에서는사전확장의효율성을높이기위해평가항목 와의거리값의평균 와 을사용한수식 (2) 와 (3) 을제안한다. 수식 (2) 와 (3) 의결과중임계치 (threshold) 가 0.2 이상인결과어휘에한해서긍정어휘또는부정어휘로판단한다. 생성된극성사전은 [ 그림 2] 과같이평가항목에대한극성을가진평가어휘들의쌍으로생성된다. 예를들어, 색상 항목에대해서 밝다, 화사하다 는긍정어휘, 칙칙하다 는부정어휘로분류된다. [ 그림 2] 극성사전생성의입출력 4. 실험및평가 시스템구축에는형태소분석기 [8], 네이버웹문서검색 Open API 를활용했다. 실험을위한데이터는온라인쇼핑몰 [9] 의데이터를수집하였으며, 실험데이터에대한상세한정보는 [ 표 1] 와같다. [ 표 1] 실험데이터상세정보 카테고리명 상품평 ( 개 ) 문장수 ( 문장 ) 전자사전 5,364 13,631 스커트 3,681 6,849 LED TV 3,258 6,416 여성가방 3,391 7,652 여성티셔츠 1,751 3,571 자전거 3,148 7,334 Total 20,593 45,453 [ 표 2] 는평가항목추출을위한기존의 PMI-RTF[3] 와본논문의결과를비교한다. 결과에서본논문의개선된 PMI-RTF 이높은정확률을보이는동시에, 정답평가항목들이상위등수에더밀집해있는것을확인할수있다. [ 표 2] 전자사전에대한평가항목상위 20 위 평가항목추출의정확도를평가하기위하여, 스커트상품에대한상품평에서수동으로평가항목을추출하여정답평가항목을구축하였다. 평가항목자동추출상위 20 위에대한평가에서 [3] 은평균 28.7% 의재현율을보였으나, 본논문의방식은 36.7% 의재현율을보여, 외부연관도의순위별외부연관도값의편차를줄인것이효과적임을알수있다. 개선된방법으로추출된평가항목을이용한극성판별결과는 [ 표 3] 와같다. 평가에서는상품평 500 문장에대하여평가항목별로극성정확도를수동으로평가하였다. 극성판별의정확도는약 89.9% 로, [7] 의결과인 81.8% 의정확도와비교하여봤을때 7.1% 정도높은수 - 114 -

치를확인할수있다. [ 표 3] 극성판별시스템평가 상품평가항목정확률 배송 93.33 위드이폰재질 75.00 ( 스커트 ) 사이즈 82.14 배송 81.81 TIVA 화질 93.44 (LED TV) 가격 95.74 기능 92.68 누리안가격 96.87 ( 전자사전 ) 디자인 98.14 평균 89.90 5. 결론 본논문에서는특징기반요약에특화된단일문서인상품평에대하여분석하는방법을제안하였다. 제안한특징기반요약방법을온라인쇼핑몰의상품평뿐만아니라다양한장르의단일문서의댓글에적용시킨다면효과적인데이터마이닝기법으로활용될수있을것으로기대된다. 향후연구로는비정형데이터들의비문법적표현의추가적인보정과분석된데이터에대한자동학습이필요하다. 참고문헌 [1] "k-structure 를이용한한국어상품평단어자동추출방법 ", 강한훈, 유성준, 한동일, 정보과학회논문지 : 소프트웨어및응용제 37 권제 6 호 (2010.6) [2] PMI-IR 을이용한국내소셜커머스상품평가, 임지연, 김이준, 성균관대학교,2011 한국컴퓨터종합학술대회논문집 Vol.38, No.1(C) [3] 효율적인상품평분석을위한어휘통계정보기반평가항목추출시스템, 이우철, 이현아, 이공주, 정보처리학회논문지 16-B 권 6 호, 2009.12, 497~502p [4] 상품리뷰요약을위한대체어자동추출, 안미희, 백종범, 이수원, 한국컴퓨터종합학술대회논문집 Vol.39, No.1(B). 2012 [5] 상품평에서속성과감정을나타내는어절 n-gram 추출을위한 MaxEnt 확률토픽모델, 이영록, 박성배, 이상조, 2012 년가을학술발표논문집 Vol.39, No.2(B) [6] 상품평극성분류를위한특징별서술어긍정 / 부정사전자동구축, 송종석, 이수원, 정보과학회논문지소프트웨어및응용제 38 권제 3 호 (2011.3) [7] 상품평의언어적분석을통한상품평가요약시스템, 이우철, 이현아, 이공주, 정보처리학회논문지 17-B 권 1 호, 2010.2, 93~98p [8] 한나눔한국어형태소분석기, JHanNanum-0.8.4-ko ver, http://kldp.net/projects/hannanum/, 2010/7/31 [9] 비교쇼핑몰 Basket - http://www.basket.co.kr/ - 115 -

LDA 를이용한트윗유저의연령대, 성별, 지역분석 1) 이호경 O, 천주룡, 송남훈, 고영중동아대학교 hogay88@gmail.com, balendia@gmail.com, nh.song.89@gmail.com, youngjoong.ko@gmail.com Analyzing ages, gender, location on Twitter using LDA Ho-Kyung Lee O, Ju-Ryong Chun, Nam-Hoon Song, Youngjoong Ko Donga University, Computer Engineering 요약 요즘많은사람들은트위터를통해짧은문장의트윗을작성하여자신의의견이나생각을표현한다. 사람들이작성한트윗은사용자의연령, 성별, 지역에따라다른특성이담겨있다. 이러한정보를이용하여, 기업에서는연령대, 성별, 지역에따라각기다른마케팅전략을세울수있을것이다. 본논문에서는트위터사용자들의트윗을분석하여연령대, 성별, 지역을예측하려한다. 네이버오픈사전의자질, 한국전자통신연구원 (ETRI) 의개체명사전을이용한자질및한국어형태소분석, 음절단위의 bigram 을클래스별의미있는자질로선택하고 LDA 를이용하여예측된확률분포를활용하여분류한결과, 연령 72%, 성별 75%, 지역 43% 의납득할만한예측정확도결과를얻게되었다. 주제어 : Twitter, LDA(Latent Dirichlet Allocation), 연령대, 성별, 지역 1. 서론최근들어, 소셜네트워크서비스 (Social Network Service) 가확산되면서사람들이자신의의견, 생각, 개인적인경험을공유하고표현할수있게되었다. 트위터 (twitter) 는블로그의인터페이스와미니홈페이지기능, 메신저의기능을한데모아놓은소셜네트워크서비스이다. 트위터는하나의트윗 (tweet) 을 140 자이내로제한하고있으며, 그트윗은사용자의의견이나생각을포함하고있다. 트위터뿐만아니라, 전세계적 SNS 에대한관심및스마트폰보급률의증가에따라 SNS 를사용하는사용자들의수가증가하고있으며또한트위터와관련된많은연구가수행되고있다. 그리고이러한트위터분석연구는트위터사용자의성별, 연령대, 거주지역그리고기업에서는관심있는보험상품을조회하는패턴을파악하여고객의요구사항을분석하고신규보험상품개발등에이용되는사례에적용되고있다. 사람들은개인마다자신만의특성이드러나는글쓰기방식을가지고있다. 이러한개개인의글쓰기방식특성을이용하여연령대를기준으로집단의문체를분석, 판별하고자하는연구들이많이이루어지고있다. 이들연구는같은연령대의사람들은비슷한시기에동일한공감되는일들을겪으면서다른연령대와구별되는성향이글속에잘나타나게된다는점에서착안한것이다. 연령대를분류하는데좋은자질로는이모티콘자질이있다. 10/20 대의경우 30/40 대에비해이모티콘의사용빈도가 높다. 성별을분류하는데에는호칭에관한단어들이좋은자질로이용된다. 그리고지역에따른좋은자질로는각종지역명칭이나사투리사전을이용할수있다. 본논문에서는네이버의오픈사전, ETRI 개체명사전과같은자원을활용하여연령대, 성별, 지역을분류하는데자질들을선정하여사용하였으며트윗길이정보 2), 자음및모음으로구성된한글이모티콘개수정보 3) 또한자질로이용하였다. 연령대, 성별, 지역별로구성한자질들을 LDA 를활용하여분포를계산하고, 계산된분포를기반으로트위터사용자의연령대, 성별, 지역을분류하는방법을제안한다. 본논문의구성은다음과같다. 2 장에서는제안하는방법과연관된관련연구에대해기술하고 3 장에서는제안하는기법의전체적인구성과각부분에대해설명한다. 4 장에서는 LDA 를이용한실험방법및결과를살펴보고 5 장에서는결론및향후연구에대해말한다. 2. 관련연구트위터에관한초기연구들은트윗행태와이용자에관한기초통계분석위주의연구들이었으나, [1] 에서는한국어트위터에서연령대에따라문체가어떻게달라지는가를비교적적은규모의자질을통해분석하고예측하였다. [1] 에더하여 [2] 에서는트윗의문체뿐아니라내용을다루고있는부분들을계량화할수있게자주 - 116 -

쓰이는 n-gram 방식과같은자질들을추가로구성하여연령대및성별예측을하였다. 다른트윗분석연구로는다양한시간스케일에서주제를추출할수있는 NMF(Non-negative Matrix Factorization) 클러스터링기법을적용하여트위터의트랜드를 [3] 에서분석하였고, [4] 에서는 n-gram 을이용한자질추출기법과슬라이딩윈도우 (sliding window) 를이용하여자질을추출하여트윗을분석하였다. [5] 에서는 100 여개에서부터많게는 5,700 가지의자질들의분포를토대로연령대를예측하는방법을제안하였다. 마지막으로 [6] 에서는 LDA 를기반으로트위터데이터를분석하여토픽의변화시점및패턴을파악하는연구를진행하였다. 3. 제안방법본논문에서는한국어형태소분석결과 [ 가 ] 와음절단위 bigram[ 나 ] 을기본자질로사용하고, 여기에연령대, 성별, 지역을분류하는데좋은정보를주는자질들을추가로사용한다. 한국어형태소분석정보는명사정보만을이용한다. 연령대, 성별, 지역을분류하기위해여러자질들을기반으로 LDA 를이용하여분포를추정한다. 추정된분포를활용하여사용자가작성한여러트윗의연령대, 성별, 지역을분류함으로써효과적으로사용자의연령대, 성별, 지역을분류하는방법을제안한다. 3.1 데이터구축트위터사용자들의개인프로필및국내트위터관련사이트를이용하여트위터사용자의연령대, 성별, 거주지역에따른트윗의가장최근의데이터만을수집한다. 성별은남, 여로분류, 연령대는 10 대 ~20 대, 30 대 ~40 대로분류, 그리고거주지역은수도권, 충청도권, 전라도권, 경상도권으로분류하여모든트위터사용자를균등하게수집한다. 트윗하나당문서하나로구성하여외국어로된트윗, 반복된트윗, 광고성트윗을제거하는정제과정을거친다. 3.2 자질선택및추출표 1. 자질분류 연령대 분류 자질 [ 다 ] 연령대 분류 자질 구분 [ 다 -1] 채팅어, 유행어, 신조어 [ 다 -2] 정치, 경제, IT, 연예뉴스 예 쩐다, 헐랭, 멘붕, 근자감, 귀요미, 본좌, 득템... 4 대강국회부동산금리보조금 KT 오자룡... [ 다 ] 연령대 분류 자질 [ 다 ] 성별 분류 자질 [ 라 ] 지역별 분류 자질 [ 마 ] [ 다 -3] 트윗길이 정보 [ 다 -4] 자음및모음 한글이모티콘개수 정보 [ 라 -1] 남녀호칭, 특수기호 [ 마 -1] 지역명, 관광지명및사투리 밥먹자!/S0, 태안근흥초등학교에서...( 중략 )... 맛보았습니다. 새삼 SNS 의위력을절감했습니다./S1 ㅎㅎㅎㅎㅋㅋㅋㅋㅇㅋㅇㅋ /E0 언니, 오빠, 누나형, 누님, 형님...,,,,,,,,,... 수원, 인천, 대구, 광주, 청주, 창원, 청담동, 이태원, 종로, 해운대, 사하구, 월미도, 북한산, 지리산... 가구웁는, 개갈, 산찬하다, 부앙부앙하다, 천지빽가리, 포분들리다... * SO : 트윗의길이 5 자이하 * S1 : 트윗의길이 81 자이상 * EO : 자음및모음한글이모티콘개수 10 개초과 연령대자질으로는 10 대 ~20 대와 30 대 ~40 대를구분할수있는자질로네이버오픈사전을이용하여 [ 다 -1] 에수록된단어들중추천수 10 이상만추출, 또한네이버의기사중정치, 경제, IT, 연예뉴스 [ 다 -2] 들의주제문의명사만을추출하여총 1354 개의단어로이루어진연령대자질사전을구축하였다. 10 대 ~20 대와 30~40 대를구분할수있는또다른자질로연령대마다다를것이라고판단되는 [ 다 -3] 를자질로이용하였다. 또한 ㅋ 나 ㅎ 또는 ㅠㅠ 와같은 [ 다 -4] 를자질로이용하였다. [ 다 -3] 는트윗의길이를 5 자이하 'S0' 태그, 81 자이상은 S1' 태그를부착하여사용하였으며 [ 다 -4] 는트윗의자음및모음한글이모티콘개수가 10 개초과하는트윗에 'E0' 태그를부착하여사용하였다. 성별자질선택으로는남, 여를구분할수있다고판단되는 [ 라 -1] 를자질로하여총 82 개의성별자질사전을구축하였다. 지역자질선택으로는한국전자통신연구원 (ETRI) 의개체명사전에서각지역을구분할수있다고판단되는수도권, 충청도, 전라도, 경상도의지역명및관광지명을추출하고또한네이버오픈사전의사투리사전에서충청 - 117 -

도, 전라도, 경상도의사투리를추천수 10 이상만추출하여총 8255 개의 [ 마 -1] 을구축하였다. 3.3 LDA 의적용및계산사용자의각트윗에서제안한자질들을추출하고 LDA 를적용하여분포를계산하였다. LDA 에서연령대, 성별은토픽을 2 개로, 지역은토픽을 4 개로설정하였다. 아래는연령대별각주제에서가중치기준으로상위 N 개의단어의목록의예이다. 표 2. 연령대별자질사전토픽결정예 토픽 1 토픽 2 학교 출첵 멘붕 헐 아이돌 문상... 기업 퇴근 부동산 회사 맛집 회장... 본논문에서는 LDA 를이용하여계산된토픽 - 단어분포를기반으로트윗의토픽을결정한다. 예를들어, 연령대별토픽분포에서토픽 1 에 10 대 ~20 대의자질이, 토픽 2 에 30~40 대의자질이각각많이등장하였다고판단되면토픽 1 은 10 대 ~20 대, 토픽 2 는 30~40 대라고직접결정한다. 표 3. 문서별가중치에따른토픽예측예 사용자 문서토픽 1 토픽 2 문서1 3.244 2.756 문서2 0.352 1.648 문서3 21.528 6.472 문서4 5.616 2.384 문서5 5.000 0.000 대소비교 4 1 사용자의토픽은 LDA 를적용하여나온문서당토픽분포가중치의결과를이용하여예측한다. 한트위터사용자의토픽을예측하는방법은다음과같다. 1. 한트위터사용자당트윗문서에서토픽들의가중치를대소비교한다. 2. 개수가많이나온토픽을선택하여그트위터사용자를예측한다. 예를들어한사용자가 n 개의트윗문서 { } 를 가질때, j 번째토픽 에대한문서 의스코어를 라고하면, 는수식 (1) 과같이정 의한다. i f argmax (1) 그리고그사용자는최종적으로수식 (2) 에서산출된토 픽 에매핑시킨다 argmax (2) 즉, 앞에서클래스별로결정한토픽과한트위터사용자의트윗문서에서예측한토픽을비교하여정답을판단한다. 4. 실험및결과각클래스별로형태소분석기반자질, bigram 자질을 baseline 로설정하고본논문에서제안한연령대, 성별, 지역별로분류된자질정보및사전을조합하여트위터사용자를예측하였다. 예측정확도의계산방법은기본적으로 f1-measure 을사용하였고각클래스별 micro- 평균으로계산하였다. 4.1 데이터집합말뭉치는최근트위터를활발히이용하는 100 명의트윗사용자당 190~200 개씩, 총 19567 개의트윗으로구성하였다. 그리고개인프로필및국내트위터관련사이트에기록된것을기준으로 10 대, 20 대, 30 대, 40 대별로 25 명씩, 남자 51 명, 여자 49 명, 지역을수도권 30 명, 충청도권 21 명, 전라도권 22 명, 경상도권 27 명으로각클래스별로균등하게구성하여트윗을수집하였다. 4.2 실험결과실험은한트위터사용자를예측하는결과이다. 표 4. 실험방법에따른연령대예측결과 방법 10 대 /20 대 30 대 /40 대 micro [ 가 ] 0.429 0.586 0.520 [ 나 ] 0.505 0.515 0.510 [ 다 ] 0.632 0.512 0.580 [ 다 ] + [ 다 -3] 0.568 0.661 0.620 [ 다 ] + [ 다 -3] + [ 다 -4] 0.750 0.625 0.700 [ 가 ] + [ 다 ] + [ 다 -3] + [ 다 -4] 0.763 0.659 0.720 [ 나 ] + [ 다 ] + [ 다 -3] + [ 다 -4] 0.775 0.592 0.710 [ 가 ] : 형태소분석명사자질 [baseline1] - 118 -

[ 나 ] : bigram 자질 [baseline2] [ 다 ] : 연령대자질사전 [ 다 -3] : 트윗길이정보 [ 다 -4] : 한글이모티콘개수정보 연령대예측결과는형태소분석명사자질과연령대자질사전, 트윗길이정보, 한글이모티콘개수정보를모두조합한방법이가장높은 72% 의정확도로예측할수있었다. 표 5. 실험방법에따른성별예측결과 방법남여 micro [ 가 ] 0.598 0.434 0.530 [ 나 ] 0.608 0.592 0.600 [ 라 ] 0.771 0.725 0.750 [ 가 ] + [ 라 ] 0.452 0.603 0.540 [ 나 ] + [ 라 ] 0.432 0.667 0.580 [ 가 ] : 형태소분석명사자질 [baseline1] [ 나 ] : bigram 자질 [baseline2] [ 라 ] : 성별자질사전표 6. 실험방법에따른지역별예측결과 방법수도권충청도전라도경상도 micro [ 가 ] 0.286 0.244 0.333 0.222 0.270 [ 나 ] 0.320 0.324 0.340 0.333 0.330 [ 마 ] 0.233 0.421 0.379 0.633 0.432 [ 가 ] + [ 마 ] 0.413 0.308 0.235 0.171 0.320 [ 나 ] + [ 마 ] 0.381 0.316 0.233 0.171 0.300 [ 가 ] : 형태소분석명사자질 [baseline1] [ 나 ] : bigram 자질 [baseline2] [ 마 ] : 지역자질사전 그에반해성별예측결과와지역별예측결과는형태소분석명사자질이나 bigram 자질과함께적용한자질사전을모두조합한방법의예측정확도가생각보다높지않았다. 성별이나지역별예측에서는필요하다고판단되는자질이한정적이기때문에많은자질이포함된형태소분석명사자질및 bigram 자질은역효과가나지않았나판단된다. 따라서성별예측결과에서는성별자질사전만을사용한방법이가장높은 75% 의정확도를보여주었고지역별예측결과에서는지역별자질사전만을사용한방법이약 43% 의정확도로가장높게예측되었다. baseline 로적용했던형태소분석명사자질과 bigram 자질은토픽을 2 개로나눈연령대, 성별예측결과는 50% 가조금넘는일반적인정확도를보여주며마찬가지 로토픽 4 개로나눈지역별예측결과는 25% 가조금넘는정확도를보여주었다. 본논문에서제안한각클래스별자질정보와사전을이용하였을때확실히예측정확도가높아지는것을볼수있었다. 5. 결론본논문에서는각클래스별특성에맞는자질사전을구축하여 LDA 를이용, 트위터사용자를예측하였다. [2] 에서제시한자질구축방법및 SVM 을이용한예측과대응하여, 학습을하지않고도각클래스별로판단되는자질을추출하여 LDA 를이용함으로써납득할만한정확도를예측하였기때문에의미있는연구가되었다고생각한다. 그리고향후연구로는트위터의리트윗 (Retwee t) 1), 리플라이 (Reply) 2) 기능을이용하여사용자간의관계를이용하여정확도를높이고나아가사용자의직업, 관심사등의토픽을늘려예측할수있는시스템을구축하는연구를진행할예정이다. 이러한연구들이활발히진행된다면마케팅분야에적절히활용될수있을것이라생각된다. 참고문헌 [1] 김상채, 박종철, 한국어트윗의문체기반자질분석을통한연령대예측, HCI 2012 학술대회 [2] 김상채, 박종철, 문체분석을활용한한국어트위터사용자의연령대및성별예측, 2012 한국컴퓨터종합학술대회논문집 Vol.39, No.1(B) [3] 하용호, 임성원, 김용혁, 내용기반트윗클러스터링을통한트랜드분석, 2012 년가을학술발표논문집 Vol.30, No.2(B) [4] 홍초희, 김학수, 트윗분류를위한효과적인자질추출, 2011 한국컴퓨터종합학술대회논문집 Vol.38, No.1(A) [5] J. D. Burger, J. Henderson, G. Kim and G. Zarrella, Discriminating Gender on Twitter, Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing, pp. 1301-1309, 2011. [6] 전설아, 허고은, 정유경, 송민, 트위터데이터를이용한네트워크기반토픽변화추적연구, 정보관리학회지 30(1), 285-302. 2013. - 119 -

문장길이축소를이용한구번역테이블에서의병렬어휘추출성능향상 정선이, 이공주 충남대학교정보통신공학과 syjeong@cnu.ac.kr, kjoolee@cnu.ac.kr Performance Improvement of Extracting Bilingual Term from Phrase Table using Sentence Length Reduction Seon-Yi Jeong, Kong-Joo Lee Dept. of Information and Communication Engineering, Chung-Nam University 요약본연구는대량의특정도메인한영병렬말뭉치에서통계기반기계번역시스템을이용하여병렬어휘를효과적으로추출해낼수있는방법에관한것이다. 통계번역시스템에서어족이다른한국어와영어간의문장은길이및어순의차이로인해용어번역시구절번역정확도가떨어지는문제점이발생할수있다. 또한문장길이가길어짐에따라이러한문제는더욱커질수있다. 본연구는이러한조건에서문장의길이가축소된코퍼스를통해한정된코퍼스자원내구번역테이블의병렬어휘추출성능이향상될수있도록하였다. 주제어 : 기계번역, 구번역테이블, 용어추출 1. 서론최근통계기반의기계번역에대한연구가활발히진행되고있다. 통계기반의기계번역프로그램인 MOSES[1] 는두언어의병렬코퍼스를이용하여 GIZA++[2] 로부터두언어의어휘의번역정보가담긴구번역테이블을생성한다. 구절테이블은통계기반기계번역에서자동번역을구축할시어휘의번역정보로이용된다. 그러므로구번역테이블의정확도및추출성능은통계기반기계번역시스템의성능과도직결된다. 본논문에서는통계기반의기계번역프로그램인 MOSES 를이용하여추출된구번역테이블의용어추출성능을향상시키기위한연구를시도하였다. 한영기계번역의경우단어번역 (word translation) 과정뿐만아니라재배열 (reordering) 과정에서긴문장으로인한오류가발생한다. 통계정보만을이용하는단어번역단계의경우문장의길이및어순정보는구번역테이블내적합한번역어의선택에영향을미칠수있다. SOV' 어순의영어의경우문장의길이가주어와서술어를제외한내용어들을중심으로길어진다고할때서술어에해당하는영어의동사와한국어의동사가극단 적으로멀어질수있는경우가발생하게된다. 이경우단어가아닌구절의번역정확도는떨어질수있다. 이러한문제점을보완하기위해코퍼스와동일한도메인의단어및구절정보를이용하여문장내병렬어휘정보를삭제하고문장길이를축소하여유효번역단어간거리를줄여용어추출성능을높이고자하였다. 본연구는기계번역에서사용되는구절번역테이블을활용한용어추출시용어및대역어추출성능을향상시키기위한연구이다. 최종평가데이터로구절번역테이블로부터추출된용어셋을사용함을밝힌다. 논문구성은 2 장에서관련연구를설명하고 3장에서본논문에서제안한문장길이축소방법에관해설명한다. 4 장에서는평가를위한실험환경및평가환경을설명하고평가셋에대한기존결과와제안방법의평가결과를보여준다. 5 장에서는논문내용을결론짓고향후연구방향에대해논의한다. 2. 관련연구통계기반기계번역의성능향상을위해긴문장에대한문제인식을통해문장을줄이거나분할하려고시도 - 120 -

표 1 영한예시문장 no. 길이 문장 1 33 Recently, with the rapid spread of high-speed communication network the population using online photo print service is rocking up photograph taken by digital camera is transmitted via the internet and printed and delivered. 2 24 최근초고속통신망이빠르게보급됨에따라디지털카메라로찍은사진을인터넷에전송한후 사진을인화하여배송받는온라인사진인화서비스를이용하는인구가급증하고있다. 했던연구는 [3, 4, 5] 가있다. [3] 의연구에서는통계 기반의기계번역시스템에서 20 어절이상의긴문장들 을보다정확히분석하기위해복수개의의미있는절로 문장분할을시도하였다. 문장내분할지점을인식하기 위해 SVM 을사용하여분할지점의특성을학습한후분 할지점을탐색한다. [4] 의연구에서는입력문장이길 어지면통계기반의기계번역성능이떨어짐을지적하 고이를완화하기위해긴문장을같은의미의짧은문 장들로분할하여기계번역의성능을향상시킬수있도 록하였다. 분할방법으로는변환규칙을학습하는변환 기반문장분할방법을사용하였다. [5] 에서는긴문장 이기계번역에미치는영향에대한연구를수행하였다. [5] 의연구에서는문장의길이가길수록기계번역에서 발생하는변형이많아짐을지적하고문장의길이가길수 록번역의성능이떨어짐을보였다. 이와같이문장길 이에대한문제인식과기계번역성능간의연구는존재 하지만긴문장이단어번역과정및구절테이블에미 치는영향에관한연구는이루어지지않고있다. 3. 병렬어휘정보삭제에의한문장길이축소 본장에서는구절번역테이블의용어추출성능향상을위한코퍼스의문장길이축소방법및효과를설명한다. 3.1. 특정도메인 기계번역에서이용할문서자원에서특정도메인특 성을가지는병렬말뭉치의경우동일한도메인특성의 어휘정보가말뭉치에상당량분포하게된다. 이때번역 어휘쌍이병렬문장쌍에서동시에존재하게된다. 3.2 문장길이축소같은도메인을공유하는병렬코퍼스의경우번역어휘쌍이병렬문장쌍에서병렬적으로발견된다. 이러한병렬어휘쌍을이용하여병렬문장쌍의길이를축소할수있다. 표 1은병렬코퍼스의일부정렬된문장쌍이다. 문장쌍내부에단일어절및다중어절의어휘가병렬적으로존재한다. 이중단일어절을제외한다중어절어휘의길이를 1로대치한다면문장의길이축소효과를볼수있다. 문장 1의경우 high-speed communication network 와 online photo print service, digital camera 가길이축소를위한병렬어휘로선택될수있다. 이에해당하는문장 2의번역어절은 초고속통신망, 디지털카메라, 온라인사진인화서비스 이다. 예시와같이문장 1과문장 2에서병렬어휘로대응된 2어절이상의어절을하나의어절로축소시킴으로써전체적인문장길이축소효과를기대할수있다. 문장축소과정은다음과같다. 정렬된병렬어휘가존재하는사전을준비한다. 코퍼스내모든병렬문장쌍내존재하는번역어휘쌍을탐색한다. 탐색된병렬어휘는다음과같다. 탐색된번역어휘쌍인모든, 에대해각언어의문장에서 [MARK] 로대치한다. (token length = 1) 원시언어문장 S의길이가, 번역언어문장 T의길이가 이고병렬어휘, 의 - 121 -

각각의길이가, 일경우 S 의길이는 T 의길이는 로축소된다. a b c 문장길이축소를위한병렬어휘쌍은기존의대역어 사전을사용하거나, 동일한도메인의 MOSES 의초벌결과 도사용이가능하다. 문장길이축소의목적은유효단어간상이어순에의 한거리차를줄여구절테이블의용어추출성능을높 이는것이다. 또한문장구조보존을위해병렬어휘는 문장내에서삭제하지않고길이 1 의태그를이용해대 치하였다. 표 1 의예시에서다중어절병렬어휘를이용 할경우문장길이는각각 28, 20 으로축소된다. 문장길이축소에의한기대효과는다음과같다. MOSES/GIZA++ 가허용하는다중어절 (phrase) 의최대길 이는 7 이다 [1]. GIZA++ 는문장내 7 의단어길이제한 내에서두언어의구절의적합한번역어를탐색한뒤통 계정보를이용하여테이블을만든다. 표 1 의문장 2 의 인구가급증하고있다 를구번역 테이블의유효다중어절이라고가정할때다음과같은 번역어후보들을얻을수있다. 인구가급증하고있다 the DT population NN using VBG online NN photo NN print NN service NN 인구가급증하고있다 population NN using VBG online NN photo NN print NN service NN is BE 인구가급증하고있다 using VBG online NN photo NN print NN service NN is BE rocking VBG 인구가급증하고있다 the DT population NN e using VBG [MARK] dummy is BE rocking VBG up RB [MARK] 이용하는인구가급증하고있다 the DT f population NN using VBG [MARK] dummy is BE rocking VBG up RB 표 3 길이축소된문장의구번역테이블예표 2의결과를보면구번역테이블이추출하는엔트리 a, b, c 모두어순차와내용어의길이가길어짐에따라 인구 의유효번역어인 population 과 급증하고있다 의유효번역어인 rocking up' 을동시에포함하지않고있다. 구절번역테이블에서이러한엔트리들은용어추출과정에서정확한번역어를표시한엔트리가아니기때문에구번역테이블에서용어를추출할때정확도를떨어뜨릴수있다. 반면표 3의 e, f는유효거리 7이내에서적합한번역어휘들을모두포함할수있게된다. 이러한과정을통해문장길이가축소된코퍼스를사용한구절테이블에서노이즈감소효과와새로운용어추출효과를얻을수있을것이다. 4. 실험 본연구에서는실험에사용할코퍼스로 전자뉴스 영한병렬코퍼스를사용하였다. 이코퍼스의특성은전 문적인기술용어및개체명 (Named Entity) 을나타내는 어휘가상당량분포한다. 또한다양한길이의문장이존 재한다. 실험에사용한코퍼스의특성을표 4에나타내 었다. 표 4 실험에사용한코퍼스특성 코퍼스 문장수 평균길이 한국어 (Baseline) 10000 21.16 영어 (Baseline) 10000 36.16 한국어 (SLR) 10000 20.59 영어 (SLR) 10000 34.01 표 2 길이축소이전의구번역테이블예 본연구에서는가장코퍼스특성에부합되는병렬어휘정보를사용하기위해같은도메인의다른코퍼스로부터얻은 MOSES 구번역테이블로부터추출된병렬어휘정보를사용하였다. - 122 -

표 5 병렬어휘사전특성 엔트리 22040 참조된병렬어휘 3951 참조된병렬어휘길이평균 ( 영어 ) 참조된병렬어휘길이평균 ( 한국어 ) 2.32 1.22 표 5의병렬어휘사전으로부터코퍼스내병렬문장에서일치하는병렬어휘가나타날경우모두길이 1의토큰으로대치하고길이를축소할수있도록하였다. 실험결과실험코퍼스에대해참조된병렬어휘는 3951개로나타났다. 참조된병렬어휘길이의평균은영어와한국어각각 2.32와 1.22로나타나는데다중어절의영어용어의대역어가한국어에서단일어절로번역되거나한국어띄어쓰기문제로인해영어에비해한국어문장의길이축소효과가미비하게나타났다. 표 6에참조된번역어휘의일부를제시하였다. 제안한방법의실험은기존의코퍼스를문장길이축소방법을이용하여 10000 문장쌍의길이축소가적용된새로운병렬코퍼스를얻는다. 이병렬코퍼스또한영어쪽에만 POS정보가부착되어있다. 베이스라인의 POS정보와제안한방법의 POS정보는동일하다. 이새로운병렬코퍼스와기존코퍼스를합쳐 20000 문장쌍의병렬코퍼스를생성한다. 생성된 20000 문장쌍의병렬코퍼스를 GIZA++ 를통해구절번역테이블을얻고명사구추출필터를이용하여병렬어휘를추출한다. 표 6 참조된병렬어휘의일부 embedded linux 임베디드리눅스 bio industry 바이오산업 role-playing game롤플레잉게임 offline company 오프라인기업 wireless internet user 무선인터넷사용자 application software 응용소프트웨어 location information 위치정보 web agency 웹에이전시 wireless lan market 무선랜시장 bluetooth module 블루투스모듈 embedded linux operating system 임베디드리눅스운용체계 shooting game 슈팅게임 online content 온라인콘텐츠실험과정을그림 1에나타내었다. 실험에사용한구번역테이블의추출도구는 MOSES의 GIZA++ 를사용하였다. 영어의 POS정보를사용하기위해 MOSES의 factored 모델을이용하였다. 베이스라인실험은영어쪽에만 POS정보가부착된한영병렬코퍼스를 GIZA++ 를이용하여구번역테이블을추출하고명사구추출필터를이용하여병렬어휘를추출한다. 명사구추출필터는품사정보를이용하여명사구만을용어로추출할수있도록하였으며구번역테이블의확률정보를이용하여번역후보를필터링하였다. 5. 평가및결과 추출된병렬어휘에대한평가는기존사전용어들과 네이버지식백과 [6] 및두피디아 [7] 의웹정보로구축해 놓은도메인정답사전을이용하였다. 그러나정답사전 의어휘는제한되어있으므로추출된모든용어에대한 정확한정확률 (precision) 값과재현율 (recall) 값을얻 을수없다. 그러한문제의보완을위해정답사전에의 한평가와정답사전에없는엔트리는수동평가결과로 평가를진행하였다. 평가대상이될엔트리는코퍼스내 에서빈도가높아통계정보만으로도정확한번역결과 를얻을수있는어휘는제외하고빈도 20 이하의엔트 리들중명사구필터를통해추출된용어로구성되었다. 추출된용어가운데길이축소를위해참조된병렬어 휘사전에포함되는엔트리는제외하였다. 표 7 Baseline 과제안방법의구번역테이블크기비교 구번역테이블 크기 Baseline 43859 SLR 58757-123 -

표 8 추출된병렬어휘결과 Baseline SLR 추출된병렬어휘 2289 2443 다중어절 1545 1767 단일어절 744 676 스로부터추출된어휘는다양한상용적인번역어를포함하고있다. 이대역어가정답사전에존재하는대역어와일치하지않은경우정확도를떨어뜨리게된다. 예를표 12에나타내었다. 표 9 정답사전에의한단일어절용어추출평가결과 Baseline Baseline SLR +SLR 62% 58% 52% Accuracy (364/582) (300/514) (462/893) 표 10 정답사전의의한다중어절용어추출평가결과 Baseline Baseline SLR +SLR 66% 73% 62% Accuracy (48/73) (52/71) (71/115) 표 11 수동평가에의한다중어절용어추출평가결과 Baseline Baseline SLR +SLR 68% 76% 72% Accuracy (68/100) (76/100) (144/200) 실험결과 Baseline과제안방법 (SLR) 의구번역테이블의크기는표 7과같다. MOSES/GIZA++ 로부터생성된구번역테이블을명사구추출필터를이용하여평가데이터로쓰일용어를추출하였다. 추출된용어는표 8과같다. 추출된용어중단일어절과다중어절의평가를다르게하기위하여데이터를구분하여평가하였다. 단일어절의경우정답사전에의한평가만을수행하였고다중어절의경우정답사전에의한평가엔트리가적어정답사전에의해평가된엔트리를제외한엔트리중임의로뽑은 100개를수동평가하였다. 정답사전의단일어절평가결과추출한 baseline과 SLR에서각 0.62의과 0.58의정확률을보이는 582개와 514개의용어가추출되었다. 다중어절의경우 Baseline보다 SLR에서더많은정확한엔트리를추출하여추출한엔트리의정확률값이 0.73으로 0.66의 Baseline보다높음을보였다. 수동평가의경우임의의 100개의용어를수동평가한결과각각 0.68 및 0.76의정확률을보였다. 자동평가방법에의해병렬어휘를평가한경우수동평가에의한방법보다정확도가떨어짐을알수있다. 전자뉴스 코퍼 표 12 정답사전과매칭되지않은병렬어휘어휘추출된대역어사전의대역어 home automation 홈오토메이션홈자동화시스템 system 시스템 video memory 비디오메모리비디오저장장치 video conference 화상회의영상회의 security level 보안성보안수준평가에사용된데이터셋은기존방법과 SLR의방법으로뽑은용어들중서로중복되지않는용어들이다수포함되어있다. 그러므로 Baseline의방법외에 SLR의방법을사용할경우 Baseline에서얻을수없는단일어절및다중어절용어들을확보할수있음을증명하였다. Baseline의방법과 SLR의방법을병행하여사용할경우 Baseline만을사용할경우보다한정된코퍼스로부터좀더풍부한어휘추출을기대할수있다. 다만단일어절과다중어절 Baseline과 SLR의데이터특성이다르고실험결과의정확도및재현율등의값을고려할때각방법과다중어절및단일어절데이터셋을추출하는과정에서명사구추출필터에최대한정확도가좋은용어선별을위한각데이터에맞는휴리스틱적용이요구된다. 6. 결론문장길이가축소된코퍼스를이용하여통계기반의기계번역시스템의구절테이블의용어추출성능을높이는실험과그에따른결과를제시하였다. 그결과베이스라인에서얻을수없는코퍼스의용어가다량추출되었고그의정확도도나쁘지않음을실험결과에서알수있다. 실험결과를통해통계기반이기계번역시스템에서한정된코퍼스자원을가지고보다풍부한어휘정보의번역을요구할때제안한방법이도움을줄수 - 124 -

있을것으로기대한다. 또한실험에나타난정확도와재 현률값의보완을위해용어추출시사용되는필터에 각데이터특성에맞는휴리스틱적용이필요하다. 참고문헌 [1] http://www.statmt.org/moses/ [2] http://www.statmt.org/moses/giza/giza++.htm l [3] 김유섭, 지지벡터기계를이용한긴문장의효과적인분할, 10-19, 한국정보기술학회논문지, 2007. [4] 이종훈, 이동현, 이근배, 통계적기계번역을위한변환기반문장분할방법, 한국정보과학회언어공학연구회학술발표논문집, 276-281,2007. [5] 조희영, 서형원, 김재훈, 문장길이가한영통계기반기계번역에미치는영향분석, 한국정보과학회학술발표논문집 34(1C), 199-203, 2007. [6] http://terms.naver.com/ [7] http://www.doopedia.co.kr/ - 125 -

빅데이터기반의오피니언마이닝을이용한기업가치평가시스템개발 이정태 O1, 천민아 1, 임상우 1, 전병석 1, 김재훈 2, 한영우 3 한국해양대학교 1, 한국해양대학교 2, 한국예탁결제원 3 {make8286, dkahffk0218, dlatkddn, dmdtnsky}@naver.com, jhoon@hhu.ac.kr, kim@mail.re.kr Developing Corporate Valuation System with Opinion Mining Based on Big Data Jung-Tae Lee O1, Mina Cheon 1, Sang-Woo Lim 1, Byung-Seok June 1, Jae-Hoon Kim 2, Yeong-Woo Han 3 1 Korea Maritime University, 2 Korea Maritime University, 3 Korea Securities Depository 요약 빅데이터 (Big Data) 는현재생산되고있는데이터중그규모가방대하고, 생성주기가짧으며, 수치데이터뿐아니라텍스트이외의멀티미디어등비정형화된데이터를포함하는대규모데이터를말한다. 빅데이터를처리하여가치있는정보를추출하는방법에관한연구가활발하게진행되고있으며, 이를바탕으로빅데이터가다양한분야에서활용되고있다. 현재국내주식시장에서도빅데이터를이용하여기업의투자에활용하고있다. 이논문에서는인터넷의증권과관련된뉴스를수집하여수집된뉴스와주가지수를이용하여기업뉴스평가시스템을개발하는방법을제안한다. 주제어 : 빅데이터, 오피니언마이닝, 기업뉴스평가 1. 서론 빅데이터 (big data) 는디지털경제의확산으로규모를가늠할수없을정도로많은정보와데이터가생산됨에따라중요키워드로떠오르고있다. 빅데이터란정보기술의발전과 IT 의일상화가진행되고있는현재생산되고있는데이터중그규모가방대하고, 생성주기가짧으며, 형태도수치데이터뿐아니라텍스트이외의멀티미디어등비정형화된데이터를포함하는대규모데이터를말한다 [1]. 빅데이터가등장함에따라데이터를저장, 활용, 확산및공유하는데그쳤던과거와달리현재는축적된데이터자원을이용한분석과추론을통해해당데이터로부터가치창출을하는방향으로데이터의이용흐름이바뀌고있다 [2]. 이런흐름속에빅데이터에관한분석기법까지비약적으로발전하면서사회의움직임을더욱정확하게분석하고예측할수있게됨에따라빅데이터는국토보안, 의료, 마케팅, 증권업계등다양한분야에서활용되고있다. 현재국내주식시장에서는빅데이터로뉴스를선택하여이를분석해서투자에활용하고있다. 모증권사의조사결과에따르면일반적으로투자자들은한기업에대한뉴스가증가하면관련기업에크게관심을갖게되고이는주식거래량과주가변동에영향을미치는것으로나타났다 [3]. 이런현상에주목하여특정기업의뉴스를수집후오피니언마이닝 (opinion mining) 결과와주가지수정보를기반으로기업가치를평가하는시스템을개발하는것을목표로한다. 이시스템은특정기업의뉴스를수집하는웹크롤링에이전트와수집된기업뉴스에대한평가를수행하기위 한오피니언마이닝엔진, 기업평가시활용할수있는가중치를조정할수있는기능과평가된결과를조회할수있는화면, 오피니언마이닝결과와주가지수정보를기반으로기업가치를평가하는예측엔진으로구성된다. 이논문의구성은다음과같다. 먼저 2 장에서는이시스템을개발하는데필요한관련연구를살펴보고, 3 장에서는제안하는기업평가시스템에대해설명하고, 마지막으로 4 장에서결론및향후연구를기술한다. 2. 관련연구 2.1 오피니언마이닝빅데이터를분석하는기술과방법들은기존통계학과전산학에사용되던데이터마이닝 (data mining), 기계학습, 자연언어처리, 패턴인식등이있다 [4]. 오피니언마이닝은텍스트마이닝 (text mining) 의한분야로소셜미디어 (social media) 등의정형 / 비정형텍스트의긍정, 부정, 중립의선호도를판별하는기술이다 [5]. 일반적으로오피니언마이닝은특정주제에대한사람들의주관적인의견들을모아문장단위로분석한다. 문장분석에서는사실과의견부분을구분한후, 의견부분을토대로긍정과부정으로나눈뒤그강도를측정한다. 오피니언마이닝은대체로크게특징추출 (feature extraction), 의견분류 (opinion classification), 요약및표현등의가지세단계로이루어진다. 첫째, 특징추출단계는오피니언마이닝을수행함에있어유용한정보라고판단되는여러특징 (feature) 들을정의하고추 - 126 -

출해내는단계이다. 이때단순히특징만을추출하는것이아니라주제어에대하여긍정적인인지부정적인지에대한극성판별도함께이루어진다. 둘째, 의견분류단계에서는대상의특징을중심으로문서를요약하고추출된특징과의견을나타내는어휘가주제어에서어떤의미로사용되었는가에대한판단및분류를하는단계이다. 셋째, 요약및표현단계에서는주제어에대한사용자의의견들중의견성향이밝혀진정보들을요약하여전체정보의내용을효율적으로사용자에게보여주는단계이다 [6-9]. 2.2 SVM SVM(Support Vector Machine) 은감독기계학습기법 (supervised learning) 의한종류로써데이터를분류하는데좋은성능을보인다. SVM 이좋은서능을보이는가장큰이유는일반적으로학습시에는매우많은특징을다루어야하는데, SVM 의경우특징의수에의존하지않는 over-fitting 방지알고리즘을가지고있어많은수의특징공간을다룰수있다. SVM 의기본원리는많은통계학습모델중에서가장높은성능결과값을가지고있는모델로, 두개의클래스의구성데이터들가장잘분리할수있는결정함수 (hyperplane) 를찾는것이다 [10-12]. 롤링시스템을통해증권사이트에서관련뉴스들을수집한다. 새로운뉴스를수집했을경우 html 태그를제거하여뉴스본문을추출한후, 추출한본문데이터베이스에저장한다. 사용자가특정기업을선택하게되면, 뉴스본문이저장되어있는데이터베이스에접속하여해당기업의뉴스들을창원대에서제공하는형태소분석기인 Espresso-K-Tagger[16] 를이용하여형태소분석을수행한다. 수행된결과를바탕으로수집된기업뉴스에대한평가를위해오피니언마이닝엔진을이용하여오피니언마이닝을수행하고, 그결과와주가지수정보를기반으로기업가치를평가하는예측엔진을사용하여그결과값을화면에조회할수있도록한다. 이논문에서는긍정 / 부정의 2 가지클래스를판별하고자하며 Weka 의 SVM[15] 을사용한다. 실험데이터의추출은증권뉴스기사들을모아서사람이직접분류하여데이터를수집한다. 성능평가를위한자질단어의수집도함께이루어졌다. 내용어의수집은뉴스기사상에서형태소분석을통해의미있는단어들을선별하였으며, 문서에서지대한영향을끼칠수있는감정단어선별은국립국어원에서제공하는세종말뭉치의형용사를기반으로감정단어사전을구축하였다. 3. 기업평가시스템 3.1 전체시스템이논문에서제안하는전체시스템의동작구조는 ( 그림 2) 와같다. 먼저특정기업의뉴스를수집하는웹크 3.2 오피니언마이닝엔진수집한뉴스의본문을형태소분석하여이를긍정 / 부정으로분류한다. 이를위해문서를긍정 / 부정으로나뉠때일반적으로사용하는기계학습알고리즘중 SVM 을이용한다. 감정단어는세종말뭉치를기반으로 ' 좋다 ', ' 나쁘다 ' 는감정단어의유의어를기반으로확장시켜수집하고내용어는형태소분석을통해분석한내용중불용어를제외한전체문서의분석결과를토대로감정단어를제외한명사, 형용사, 부사, 동사의단어들을수집한다. 이렇게수집한감정단어, 내용어, 감정단어 + 내용어를토대로 SVM 을이용하여문서를분류한다. 오피니언마이닝에서감정단어와관련된자질들의가중치가중요하므로, 감정단어의경우 를이용하여다른자질보다가중치를더높게부여한다. 는문서에단어 가나타난단어의빈도수 와문서의역문서빈도수인 를이용하여가중치를 구하는방법이다. 를구하는식은 (1) 과같다. log (1) - 127 -

여기서 은전체문서의수이며, 는단어 가출현 한문서의빈도수이다. 는여러문서로이루어진문서군이존재할때단어 가특정문서에서얼마나중요한것인지를나타내는통계적수치다. 를구하는방법은식 (2) 와같이 와 를곱하는것으로구할수있다. (2) 각감정단어자질 마다출현횟수를이용하여식 (3) 을이용하여가중치 를부여한다. 이는각각의긍 정과부정의의미에대하여많이출현한단어의의미가더강하므로높은가중치를부여하고, 전체에비례하여평준화시키는것이다. m (3) ax 는감정단어자질이며 는해당단어가뉴스에출 현한횟수이며 m ax 는감정자질의단어들중최대로 출현한횟수다. 각감정자질의가중치는식 (2) 와 (3) 을이용하여구한다 [14]. 3.3 기업가치평가엔진오피니언마이닝의결과와수집한주가지수정보를바탕으로기업가치를평가한다. 해당기업과관련된수집된뉴스의오피니언마이닝수행결과긍정뉴스가부정뉴스보다더많을경우기업의가치를높게평가하는것을기본으로하며, 여기에수집한주가지수도평가항목으로적용한다. 대체로우량기업의경우뉴스의평가가기업가치에미미한영향을미치는경우가많으므로 [15], 이경우에는해당기업이가지고있는주가지수에더많은가중치를줘서평가하도록한다. 4. 결론및향후연구 오피니언마이닝은기본적으로영화나특정제품의상품평등사람들의주관이들어간내용에더적합하기때문에, 객관적인사실이대부분의내용인뉴스의오피니언마이닝에는한계점이존재한다. 따라서차후뉴스를수집할때해당뉴스의댓글들을따로수집하여이를평가항목에추가하는방향으로연구를진행하면지금구성하고있는시스템보다더좋은결과를낼수있을것으로예상된다. 참고문헌 [1] 정용찬, " 빅데이터 ", 커뮤니케이션북스, pp.2, 2012. [2] 한국정보화진흥원, 빅데이터전략연구센터, " 새로 운미래를여는빅데이터시대 ", pp.19, 2013. [3] 김수진, "[ 증시閑담 ] 뉴스빅데이터, 주식을분석해 라 ", Chosun Biz, http://biz.chosun.com/site/ data/html_dir/2012/12/05/2012120500308.html, 2012. [4] 정병권외 2 명, " 미래사회와빅데이터 (Big data) 기술 ", IT 기획시리즈, 정보통신산업진흥원, pp. 20-21, 2012. [5] 최종후, " 빅데이터시대가도래한다 ", Korea University Sejong Campus Magazine, vol.20, pp.9, 2012. [6] Namrata Godbole, Manjunath Srinivasaiah, and Steven Skiena, "Large-Scale Sentiment Analysis for News and Blogs," Int'l AAAI Conference on Weblogs and Social Media (ICWSM 2007), 2007. [7] E. Boiy, P. Hens, K. Deschacht, and M. Moens, "Automatic Sentiment Analysis in On-line Text," Proceedings of the ELPUB2007 Conference on Electronic Publishing, June 2007. [8] J. Yi and W. Niblack, "Sentiment Mining in Web-Fountain," Proceedigns of the International Conference on Data Engineering (ICDE'05), pp. 1073-1083, 2005. [9] T. Nasukawa, J. Yi, "Sentiment analysis: capturing favorability using natural language processing," Proceedings of the K-CAP-03, 2nd International Conference on Knowledge Capture, pp. 70-77, 2003. [10] Y. Bao, and N. Ishii, "Combining Multiple K-Nearest Neighbor Classifiers for Text Classification by Reducts." Proceeding of the fifth International Conference on Discovery Science, pp. 340-347, 2002. [11] 이재식, 이종운, " 사례기반추론을이용한한글문서분류시스템 ", 경영정보학연구, 제 12 권, 제 2 호, 2002. [12] 김진상, 신양규, " 베이지안학습을이용한문서의자동분류 ", Journal of the Korean, Data & Information Science Society, Vol. 11, No. 1, pp 19-30, 2000. [13] Chris Thornton, "Machine Learning - Lecture 15 Support Vector Machines", http://www.sussex.ac. uk/users/christ/crs/ml/lec08a.html, 2011. [14] 황재원, 고영중, " 감정분류를위한한국어감정자질추출기법과감정자질의유용성평가 ", 인지과학, 제 19 권, Vol.4, pp. 506-507, 2008. [15] Weka, http://www.cs.waikato.ac.nz/ml/weka/ [16] 창원대학교 AIR 연구실, Esspreso K Tager, http://air.changwon.ac.kr/blog/2012/01/04/esspr eso-pos-tagger-for-korean/ - 128 -

CopyCheck: 한글문서표절검사소프트웨어 박소영 O, 장은서, 권도형, 강승식국민대학교컴퓨터공학부 park-soyeong@nate.com, akdangz@kookmin.ac.kr, kdhlook@naver.com, sskang@kookmin.ac.kr CopyCheck: Korean Document Plagiarism Detection System So-Yeong Park O, Eun-seo Jang, Do-Hyung Kwon, Seung-Shik Kang School of Computer Science, Kookmin University 요약 본논문에서는대학의과제물이나학위논문또는회사의입사지원서, 자기소개서와같은문서에대하여표절검사에활용할수있는소프트웨어인 CopyCheck 를설계및개발하였다. CopyCheck 는표절검사방법을빠른검사와정밀검사를두어보다사용자가편리하게사용할수있도록하였다. 표절검사를진행한후, 전체보기와구간보기, 표절구간시각화의 3 가지방법을통해사용자가다양한방법으로표절문서를파악할수있도록도와준다. 또한, 표절검사결과를저장할수있도록하여사용자가언제든지다시볼수있도록하였다. 주제어 : 표절, 한글처리, 표절검사, 한글문서표절검사소프트웨어 1. 서론 21 세기정보화시대가도래하면서컴퓨터의발달이급속도로진행되고있다. 이로인한매체의활성화로누구나손쉽게정보를공유하고가져올수있게되어표절이보다빈번하게이루어지고있다. 특히학교안에서의과제, 논문등의표절이빈번하게일어나고있으며, 더나아가회사의입사지원서또는자기소개서와같은문서에대해서도표절이빈번하게일어나고있다. 이로인해표절은사회문제로더욱더크게대두되는추세가지속되고있다. 이러한결과로문서간의표절검사에대한필요성과수요또한증가하고있다. 그러나수작업으로문서간의표절검사를하는것은인적 시간적비용이너무크다는단점이존재한다. 이러한추세에따라한글문서표절검사방법에대한연구가활발하게진행되고있으며이미공개되어있는한국어표절검사소프트웨어들도다수존재한다. 그러나대부분의한국어표절검사소프트웨어들은수행시간이지나치게오래걸리거나표절의가능성이낮은문장에대해서도발견해낸다는문제가있다. 본논문은표절검사대상문서군에서표절이의심되는문서군을군집화하고, 표절의심문서들간의문자열일치구간을빠르고정확하게찾아낼수있는표절검사소프트웨어인 CopyCheck 를설계및개발하였다.[1] CopyCheck 는표절검사방법을빠른검사와정밀검사를두어보다사용자가편리하게사용할수있도록하였다. 표절검사를진행한후, 전체보기와구간보기, 표절구간시각화의 3 가지방법을통해사용자가다양한방법으로표절문서를파악할수있도록도와준다. 또한, 표절검사결과를저장할수있도록하여사용자가언제든지다시볼수있도록하였다. 2. CopyCheck 우리는서론에서소개한이미공개되어있는소프트웨어들의문제점을극복하고자새로운표절검사소프트웨어인 CopyCheck 를설계및개발하였다. 본절에서는 CopyCheck version 1.0 의구조와기능들을상세히설명한다. 2.1 CopyCheck 의구조 CopyCheck 의초기화면은 [ 그림 1] 과같이 main 화면과 main 화면좌측에위치한 표절검사결과 창으로구성된다. main 화면의상단은홈탭으로구성되어있으며, 홈탭의하단은표절검사, 검사결과보기, 표절구간시각화로총 3 개의탭으로구성되어있다. 초기소프트웨어를실행하면표절검사탭에서시작하게된다. 홈탭의메뉴는 [ 그림 2] 와같이파일, 창설정, 검사 - 129 -

결과보기설정, 보고서 4개의범주가있다. 파일범주에는표절검사를위한문서파일가져오기, 문서폴더가져오기, 결과파일가져오기를선택하기위한버튼들이있다. 창설정범주에는 main화면의좌측에위치한표절검사결과창활성화를설정할수있는체크박스가있다. 검사결과보기설정범주에는표절검사결과를보기위한강조색, 모두표시, 전체보기, 구간보기를선택하기위한버튼들이있다. 보고서범주에는표절검사수행후, 결과파일을저장하는검사결과저장버튼이있다. 2.2 표절검사문서파일선택표절검사할문서파일을선택하는방법은파일단위로선택하는방법과폴더단위로선택하는방법 2 가지가있다. 또한파일을선택하는버튼이상단과하단에 2 가지가있으며, 상단에위치한버튼은기존의파일목록을없애고새롭게목록을생성하는기능이며, 하단에위치한버튼은기존의파일목록에추가되는기능이다. 2.2.1 파일단위선택표절검사할파일을파일단위로선택하는방법은상단의문서파일가져오기또는하단의문서파일추가버튼을클릭하는것이다. 클릭시파일을선택할수있도록탐색기창이나타나며, 표절검사할문서파일들을선택하고열기버튼을누르면된다. [ 그림 3] 은샘플데이터폴더아래의 txt 폴더에서 A.txt 와 B.txt 를선택한예이다. 2.3 표절검사모드표절검사모드는빠른검사와정밀검사가있다. 빠른검사는검사속도는빠르지만정밀검사에비해표절의심구간을파악하는정확도가떨어질수있다. 반면정밀검사의경우는검사속도가느린편이지만표절의심구간을파악하는정확도가빠른검사에비해높다. 빠른검사는검사후 빠른검사결과 선택검사 와 빠른검사결과 전체검사 2 가지모드가있다. 먼저 빠른검사결과 선택검사 는빠른검사를통해표절이의심되는문서파일들을추려내고, 사용자가원하는문서파일들을선택하여정밀검사하는기능이다. 다음으로 빠른검사결과 전체검사 는빠른검사를통해추려낸문서파일전체를정밀검사하는기능이다. 문서파일전체검사의버튼을체크한후, 정밀검사의검사시작버튼을누르면사용자가업로드한문서파일전체에대해정밀검사를진행한다. 2.2.2 폴더단위선택표절검사할파일을폴더단위로선택하는방법은상단의문서폴더가져오기또는하단의문서폴더추가버튼을클릭하는것이다. 클릭시폴더를선택할수있도록탐색기창이나타나며, 표절검사할문서폴더를선택하고확인버튼을누르면된다. [ 그림 4] 는샘플데이터폴더아래의 txt 폴더를선택한예이다. 2.3 표절검사결과보기표절검사를진행한후, 표절의심문서파일들이존재하면 [ 그림 6] 과같이표절검사결과창의표절문서쌍목록탭에한행마다한쌍의의심되는파일들의이름과유사도, 의심되는문장수가출력된다. 상세하게보고싶은한행을더블클릭하면자동으로표절검사결과창은 [ 그림 7] 과같이표절문서쌍목록탭에서표절문장목록탭으로이동하게되고, main 화면은표절검사탭에서검사결과보기탭으로이동한다. 표절검사결과는사용자가업로드한문서파일들중에서표절의심문서파일들에대해 1:1 비교방식으로나타내며, 결과를보는방법은검사결과보기와표절구간시각화 2 가지가있다. 검사결과보기는표절의심문서파일들중각각의의심되는문장을보여준다. 또한표절구간시각화는검사결과보기와는달리표절의심문서파일들의내용이보이지않고, 표절의심이되는구간의분포도를보여준다. 자세한내용은각각의범주에서설명하도록한다. - 130 -

2.3.1 검사결과보기검사결과보기는전체보기와구간보기 2 가지방법이있다. 이는홈탭메뉴에위치한검사결과보기설정범주에서선택할수있다. 전체보기와구간보기는 [ 그림 7] 과같은표절검사결과창에서각행을클릭하면해당행의표절의심구간에대해비교하여볼수있다. 전체보기는 [ 그림 8] 과같이표절의심문서파일의내용전체를보여주며, 그중의심되는문장을강조색을통해보여준다. 반면구간보기는 [ 그림 9] 와같이표절의심문서파일중의심되는문장별로비교하여보여준다. 2.4 표절검사결과저장표절구간결과를저장하고싶다면보고서범주의검사결과저장버튼을클릭한다. 이때 [ 그림 11] 과같이탐색기창이뜨면원하는경로를선택한다음원하는파일이름을입력하고저장버튼을누른다. 이와같이진행하면 [ 그림 12] 와같이알림창이뜬다. 2.5 표절검사결과불러오기이전에표절검사를진행한결과를다시보고싶다면, [ 그림 13] 과같이파일범주의결과파일가져오기버튼을클릭한다. 이때주의할점은이전에검사를진행하고나서검사결과파일 (*.cpc) 을저장하였을때가능하다. 2.3.2 표절구간시각화표절구간시각화는앞서설명한검사결과보기와는달리실제의심되는문서파일의내용이보이지않는다. 다만, [ 그림 10] 과같이표절의심문서파일에대해서표절의심구간인곳들을표시하여사용자가표절의심구간의분포를한눈에확인할수있다는이점이있다. 3. 실험및평가본논문에서설계및개발한한글문서표절검사소프트웨어를이용하여실험을진행한다. 실험은문서를 1:1 로비교하여진행하며빠른검사와정밀검사에대해각 - 131 -

각표절검사수행시간과표절의심문서간의유사도를측정한다. 실험에서사용되는샘플문서의종류는총 2 가지로논문과학생들의레포트로구성하였다. [ 그림 14] 는 2 가지의샘플문서의종류에대해서각각의표절검사모드인빠른검사와정밀검사의수행시간을측정하여비교한것이며 [ 그림 15] 는표절의심문서간의유사도를비교한것이다. 30 24 18 12 6 0 4 논문 25 빠른검사 0.2 정밀검사 레포트 0.7 서간의표절을줄일수있을것이라고기대한다. 참고문헌 [1] 장은서, 권도형, 김낙원, 박소영, 강승식, CopyCheck : 한국어표절검사소프트웨어, 제 24 회한글및한국어정보처리학술대회, pp.117-118, 2012. [2] 류창건, 김형준, 조환규, 한글말뭉치를이용한한글표절탐색모델개발, 정보과학회논문지 : 컴퓨팅의실제및레터제 14 권제 2 호, pp.231-235, 2008. [3] 지혜성, 조준희, 임희석, 한국어문장표절유형을고려한유사문장판별., 컴퓨터교육학회논문지제 13 권제 6 호, pp.79-89, 2010. [4] 안병렬, 김문현, 문서를위한표절탐지소프트웨어에관한연구., 한국퍼지및지능소프트웨어학회 2006 년도춘계학술대회학술발표논문집제 16 권제 1 호, pp.413-415, 2006. [5] 박선영, 조환규, 성분정렬을이용한한글유사문서탐색방법., 한국정보과학회 2011 한국컴퓨터종합학술대회논문집제 38 권제 1 호, 2011. 100 80 60 40 20 47 34 14 16 50 63 64 76 0 논문 A 논문 B 레포트 A 레포트 B 빠른검사 정밀검사 4. 결론본논문에서는한글문서표절검사소프트웨어인 CopyCheck 를설계및개발하였다. CopyCheck 는사용자의편의성을높이기위해다양한표절검사방법과표절검사결과보기방법을제공한다. 또한, 표절검사결과를저장또는불러오기기능을두어사용자가언제든지표절검사결과를다시볼수있도록한다. 실제 CopyCheck 를사용 도입하여표절의심문서를판별해냄으로요즘사회문제로대두되고있는콘텐츠의지적재산권을보호할수있다. 또한, 수작업으로표절검사를진행할때에비해쉽고빠르게, 정확하게표절의심문서를판별할수있다는장점이있다. 궁극적으로는문 - 132 -

1. 서론 연관어휘추출을통한질의어관련이슈탐지 김제상 0, 김동성, 조효근, 이현아금오공과대학교 oiu124@naver.com, kaiserangel@live.co.kr, whitesky0109@naver.com, halee@kumoh.ac.kr Query Related Issue Detection using Related Term Extraction Je-Sang Kim 0, Dong-Sung Kim, Hyo-Geun Jo, Hyun-Ah Lee Kumoh National Institute of Technology, Dept. of Computer Software Engineering 요약 근래트위터와페이스북등의 SNS(Social Network Service) 에서일반대중의관심사나트렌드등의이슈를탐지하는많은연구가이루어지고있다. 본논문에서는검색어에대한연관어휘추출을통해검색어에연관된이슈나화제를트위터에서추출하기위한방법을제안한다. 본논문에서는연관성이높은단어는서로가깝게발생할것으로기대하고, 단어간거리가가까울수록, 공기빈도가높을수록커지는단어연관도계산법을제안한다. 연관도값이임계치를넘는어휘를연관어휘로보고네트워크의형태로관련이슈를제시한다. 주제어 : 연관어휘, 인접도행렬, 질의어관련이슈, 이슈자동탐지, SNS. SNS 와스마트디바이스의보급으로인하여실시간으로생성되는비정형데이터가급격히늘어나고있다. 이러한빅데이터에대해서는실시간으로생성되는대량의데이터를빠르게처리하기위한방법이필요하다. SNS 에대해근래활발하게시도되고있는분야로실시간이슈탐지가있다. [1] 에서는빅인터렉션데이터에서이슈를중심으로현재를모니터링하고미래를예측하기위한실제개발사례를소개하고있다. 본논문에서는 SNS 중트위터를기반으로사용자가입력한질의어에관련된이슈를자동으로탐지하는방법을제안한다. 키워드에대한관련이슈를탐지하기위해연관어휘를추출한다. 연관어휘추출에서는단어간거리에반비례하고공기빈도에비례하는단어간인접도의합으로연관도를구한다. 2. 기존연구 정보검색에서의질의어확장등의다양한목적으로연구되어왔다. [6] 은뉴스에서연관인물명을제시하기위하여문장내공기어휘에기반한변형된 TF-IDF 와연관규칙마이닝을이용한방법을제시하였다. [7] 에서는공기어휘의인접도와빈도, IDF 를결합하여, 질의어확장을위한연관어휘추출방식을제안하였다. 이러한방식은단일문서내정보가아닌문서간정보인역문서빈도 (IDF) 를사용하기때문에, 대량의실시간문서가발생하는 SNS 환경에는적절하지않을수있다. 3. 연관어휘를이용한이슈탐지시스템 본논문에서는질의어에대한관련이슈어휘를실시간으로추출하기위한방법을제시한다. [ 그림 1] 은본연구에서제안하는질의어에대한연관어휘추출의단계를보인다. 본연구에서는한국어형태소분석기를사용하여문서를분석하고형태소분석결과중명사만을연관어휘후보로사용한다. SNS 에서의이슈또는토픽추출은주로어휘빈도의시간적추이를활용한다. 이중 [2] 와 [3] 은용어의시간적추이를기준으로권위성등의자질을활용하여떠오르는토픽을파악하기위한방법을제안하였다. [4] 에서는특징적인트렌드추출을위해변동성, 지속성, 안정성, 누적량의속성을활용하여트렌드순위결정방법을제안하여, 트렌드탐지를위한방법을제안하였다. 키워드에대한연관성을통해 SNS 의비정형문서들을분석하여정보를제공해주는서비스로는다음소프트의소셜인사이트가있다 [5]. 이서비스는복합명사검출과단어속성등의추출을위해서수작업을필요로하여높은비용이필요하며, 최신관련어나복합어가추출되지않는다는단점이발견된다. 연관단어추출은자동시소러스 (thesaurus) 구축이나 [ 그림 1] 질의어에대한관계명사추출의플로우차트 3.1 인접도에기반한연관도측정 본논문에서는문장길이가짧은 SNS 의문장특성에맞게 [8] 에서사용한공기어휘간거리역수즉, 인접도를사용하여어휘연관도를측정하고자한다. 연관도측정에서는공기어휘간행렬모델을제안하여, 문맥의 - 133 -

방향성과어휘간연접여부를효율적으로표현한다. 키워드문서내문장 에서지정된문맥의크기 안에서발생하는 번째명사 와 번째명사 간의인접도 를 로구한다 인접도로두단어사이의거리 의역수를사용하여인접한단어는 에가까운값을 인접도가떨어지는값은 에가까운값을얻는다 이때 의값이 보다크고 보다작도록지정하여문맥의우측방향에서문맥크기이내의공기어휘만을고려한다 또한 와 가같은경우를배제하여같은단어가중복적으로발생하는경우에의한노이즈를제거한다 검색된문서전체에서의인접도 는전체키워드문서에포함된문장에대한인접도의합으로구한다 얻어진인접도를기반으로단어간연관도를구한다 단어 와 사이의연관도 는 로구하여 문맥의우측방향과좌측방향에대한인접도를합산한다 [ 표 1] ' 싸이 ' 에대한연관행렬추출의예 임윤택 부담 싸이 전액 장례비용대통령 취임식 당신 멋쟁이 임윤택 0 266.8 28 332.6 809.8 0 0 71.6 71.6 부담 0.2 0 28.4 0 0 0 0 358 143.6 싸이 441.4 90.2 0 31.2 13 0.8 8.8 71.6 0 전액 0.2 933 15.6 0 0 0 0 0 0 장례비용 4.4 307.2 28.2 638.6 0 0 0 0 0 대통령 0 0 7.4 0 0 0 384.4 0 0 취임식 0 0 18.2 0 0 0 0 0 0 당신 0 0 1.4 0 0 0 0 0 358 멋쟁이 0 0 1 0 0 0 0 0 0 단독 174.8 86.6 0 87.4 87.4 0 0 0 0 표 은 년 월 일기준으로추출한 싸이 에대한키워드문서에서의 에서의인접도행렬을보인다 싸이 임윤택 은 싸이 임윤택 임윤택 싸이 로구할수있다 인접도행렬에서는명사간의연관성의경로를쉽게파악할수있다 3.2 연관어휘판별및네트워크생성 제안하는시스템에서는키워드문서에서인접도를이용하여얻어진어휘간연관도를계산하고 질의어와연관도가높은단어를 연관어휘 로결정하여사용자에게제시한다 질의어 에대해서연관도 가 차연관어휘임계값이상인단어 를 구하고 구해진 에 대해서연관도 가 차연관어휘임계값이상인 를찾는다 얻어진 차연관어휘 차연관어휘 차연관어휘 에대해서 그림 의왼쪽과같은그래프를구한다 그림에서 은 차 는 차 는 차연관어휘를표시한다 네트워크는인접도행렬의좌우문맥의방향성에따라방향네트워크의형태로생성한다 그림 에서 는 이외의연결간선이없는단일간선을구성한다 표 의 당신 과 멋쟁이 대통령 과 취임식 같은단일간선에대해서 방향그래프의간선방향을고려하여명사를조합하면 당신멋쟁이 대통령취임식 과같은복합어를구성할수있다 시스템에서는단일간선을통합하고 차관계까지만을남겨 그림 의오른쪽과같은결과네트워크를구성한다 [ 그림 2] 단일간선과 3 차관계를제거한결과네트워크 4. 실험및평가 4.1 질의어관련이슈추출시스템 시스템에서는사용자가독성을고려하여 1 차와 2 차연관어휘로최대 10 개의결과를제공한다. 최신성이중요한이슈의특성에맞추어트위터와동일하게시스템도 7 일간자료만을저장한다. 형태소분석기로 [9] 를사용하고트위터검색에서는 [10] 을사용하였다. 제안한방식의성능을평가하기위해 2013 년 2 월 14 일부터 2 월 20 일까지의기간중 5 개키워드 ( 악동뮤지션, 싸이, 택시, 무한도전, 아이리스 2) 를중심으로평가를시행하였다. 4.2 문맥크기에따른성능평가 문맥의크기에따른성능을비교하기위한실험을수행하였다. 10 개의키워드를대상으로실험군을형성하기위해연관어휘분석모듈의 1 차와 2 차연관어휘의가중치를 1% 즉 0.01 으로고정하고, windowsize 를 1, 2, 4, 6, 9 로변화시켜, 인접체언의범위에따라연관어휘추출에어떤영향을미치는지살펴보았다. [ 그림 3] 은문맥크기에따른시스템의정확도를보인다. 이슈성에근거하여엄격하게수동평가한결과에서, 상위 10 위까지에서대부분정확한연관어휘가추출된것으로볼수있다. 문맥의크기를키우더라도추가적인연관어휘가추출되지않아성능차이가크지않았다. 또한평균적인정확률이 60% 이상으로실용성있는이슈추출이가능함을볼수있다. [ 그림 3] windowsize 에따른연관어휘정확도 - 134 -

보다정확한분석을위하여연관도상위 50 개를추출한경우를분석하였다. 결과는 [ 그림 4] 와같다. 추출되는연관어휘개수는최대 7 일 * 50 = 350 개가나올수있으나, 지속성이큰이슈들로최대 230 여개가추출되는것을볼수있다. 결과에서는 windowsize 가증가함에따라추출되는연관어휘개수가증가하는모습이보다뚜렷하다. 은사건을추출하는정확도는증가하는것으로나타났다. 이는임계치가높아추출되는연관어휘개수가줄어들어발생하는효과로볼수있다. [ 그림 5] 에서가중치가 1% 에서 3% 로증가되는경우연관어휘개수는 20% 정도감소하는것에비해, [ 그림 6] 에서는정확도의차이는크지않은것으로나타났다. 또한, 가중치가 1% 에서 10% 로증가되는경우추출되는연관어휘가 1/10 의수준으로감소하는것에비해, 정확도는 20% 정도증가하는것으로파악되었다. 문맥크기와마찬가지로응용분야에맞는가중치의설정이필요할것으로보인다. [ 그림 4] 상위 50 개대상 windowsize 에따른연관어휘개수 상위 50 개에대한정확도분석에서는수동평가로인해키워드 ' 아이리스 2' 에대한결과만을분석하였다. 결과에서는문맥크기가 1 인경우 80% 의정확도를, 문맥크기가 2~9 의경우 61%~65% 의정확도를보여문맥크기를키워연관어휘개수가많아지는만큼, 부정확한연관어휘도많이추출되는것으로나타났다. 큰문맥에의해서는어휘에노이즈가포함될여지가커지는동시에인접도행렬에저장되는값이많아져서시스템속도가느려질수있으며, 작은문맥에의해서는명확한연관어휘만추출되지만폭넓은연관어휘를추출할수없는문제가있어, 응용분야에맞는적절한문맥크기의선택이필요한것으로분석되었다. 4.3 연관도임계치에따른성능평가 연관어휘추출을위한임계치에따른실험을수행하였다. 실험환경에서제시한 10 개의키워드를대상으로 windowsize 의값을 4 로고정시키고 1 차연관어휘추출을위한가중치를 1, 3, 5, 7, 10% 로변화함에따른연관어휘발생빈도를분석하였다. [ 그림 5] 는가중치변화에따른연관어휘추출개수를보여준다. 가중치의임계치값을높게할수록연관어휘개수가점차적으로줄어든다는것을알수있다. 5. 결론 [ 그림 6] 가중치에따른연관어휘정확도 본논문에서는질의어에대한트윗문서에서의연관어휘추출방식을제안하였다. 연관어휘추출에서는질의어와가까운거리에서자주발생하는지의여부가중요하다는점에착안하여, 인접도의합으로단어간연관도를얻었다. 형태소분석된문서를순차적으로한번만탐색하면서인접도행렬을구할수있어빠른시간안에결과를얻을수있었다. 또한, 연관관계에따른네트워크형성후간선조정을통해복합어를추출하여비교적정확하면서손쉬운방법으로동적으로생성되는복합어처리결과를얻을수있었다. 실험에서는임계치와문맥의크기에따른영향성을분석하였다. 전반적으로높은성을보여비교적간단한방법을사용하는데도불구하고실용성있는결과를얻을수있었다. 참고문헌 [ 그림 5] 가중치에따른상위 10 개연관어휘개수 임계값에따른정확도에대한평가는 [ 그림 6] 과같다. 결과는키워드 5 개에대하여가중치변화에따른이슈성이있는사건의비율즉, 정확도를나타낸다. 결과는평균 57%~82% 의연관어휘추출의정확도를보여, 인접도행렬을이용한빠른처리에도불구하고실용성있는결과를얻을수있었다. 또한가중치와임계치가증가함에따라연관어휘개수가줄어들지만연관성이높 [1] 류법모, 김현진, 김현기, 박상규, 심층언어분석기반소셜미디어이슈탐지및모니터링기술, 한국정보과학회지, 제 30 권, 제 6 호, pp. 47-58, 2012. [2] Mario Cataldi, Luigi Di Caro, Claudio Schifanella, "Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation", Proceedings of the 10th International Workshop on Multimedia Data Mining at KDD, 2010. [3] Michael Mathioudakis, Nick Koudas, "TwitterMonitor: trend detection over the twitter stream", Proceedings of the ACM SIGMOD International Conference on Management of data, pp. 1155-1158, 2010. [4] 오흥선, 최윤정, 신욱현, 정윤재, 맹석현, " 자동트 - 135 -

렌드탐지를위한속성의정의및트렌드순위결정방법 ", 정보과학회논문지 : 소프트웨어및응용, 제 36 권, 제 3 호, pp. 236-243, 2009. [5] 다음소프트, "http://insight.some.co.kr/searchke ywordmap.html" [6] 김한준, 장재영, " 연관규칙마이닝을활용한뉴스기사키워드의연관성탐사, 한국인터넷방송통신학회논문지, 제 11 권, 제 6 호, pp. 63-71, 2011. [7] Tetsuya Oishi, Shunsuke Kuramoto, Tsunenori Mine, Ryuzo Hasegawa, Hiroshi Fujita, Miyuki Moshimura, "A Method for Query Expansio Using the Related Word Extraction Algorithm", IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008. [8] 정석팔, 임성현, 전진형, 김병만, 이현아, " 요약문을이용한웹검색결과군집화 ", 정보과학회논문지 : 데이타베이스, 제 39 권, 제 5 호, pp.321-331, 2012. [9] Lucene Core 4.0 and SolrTM 4.0 Available, http://lucene.apache.org, 12 October 2012 [10] 트윗검색시스템, "https://dev.twitter.com/ - 136 -

CRFs 를이용한의존구조구문레이블링 1) 정석원 O, 최맹식, 김학수강원대학교, IT 대학, 컴퓨터정보통신공학전공 {nlpsw, nlpmschoi, nlpdrkim}@kangwon.ac.kr Labeling Dependency Structures using CRFs Seokwon Jeong O, Maengsik Choi, Harksoo Kim Program of Computer and Communication Engineering, College of Information Technology, Kangwon National University 요약 본논문에서는의존구조분석결과로부터구문레이블을생성하는방법을제안한다. 제안시스템은의존구조분석결과의의존소 - 지배소쌍에대해자질을생성하고, 문장단위로 CRFs 를이용하여구문레이블을부착한다. 실험을통해 90.8% 의정확도를보였고, 구문레이블이없는의존구조시스템의후처리로사용가능하다. 주제어 : 구문레이블, 의존구조레이블 1. 서론구문분석은문장의구조를분석하는것으로, 크게구구조분석과의존구조분석으로나누어진다. 한국어의경우, 영어와는달리비교적자유로운어순과문장구성성분의빈번한생략등으로인해의존구조분석이더적합하다 [1,2]. 의존구조분석은문장을성분의조합으로간주하는구구조분석과는달리, 문장을구성하는어절들의의존관계를파악하는것으로, 각어절의지배소를찾는과정이다. 오진영외 [3] 는구문레이블을 CRFs(Conditional Random Fields) 를이용하여부착하고의존구조생성에사용하였다. 그러나일부의존구조분석시스템은구문레이블을사용하지않으므로구문레이블이생성되지않는다 [4]. 본논문에서는의존구조분석결과로부터구문레이블을생성하는방법을제안한다. 본논문의구성은다음과같다. 2 장은본논문에서제안하는시스템을설명하고 3 장은실험및분석, 4 장에서결론과향후연구방향을제시하며끝을맺는다. 2. 제안시스템본논문에서제안하는시스템은 [ 그림 1] 과같은의존구조분석결과를입력으로하여구문레이블을부착하는것이다. * 이논문은 2013 년도정부 ( 교육과학기술부 ) 의재원으로한국연구 재단의지원을받아수행된기초연구사업임 (2013R1A1A4A01005074) 또한본연구는지식경제부및한국산업기술평가관리원의산업융 합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10041678, 다중영역정보서비스를위한대화형개인비서소프트 웨어원천기술개발 ] 그림 1. 의존구조분석결과 [ 그림 1] 의문장으로부터구문레이블부착대상이되는의존소 - 지배소쌍에대하여 [ 표 1] 의자질을추출한다. 표 1. CRFs 자질예 자질 1: 하 2:XSA 3: 고 4:EC 5: 있 6:VV 7: 는 8:ETM 9:EC-ETM 1: 책임감 2:NNG 3:- 4:- 5: 있 6:VV 7: 는 8:ETM 9:NNG-ETM 1: 있 2:VV 3: 는 4:ETM 5: 사람 6:NNG 7: 은 8:JX 9:ETM-JX 1: 사람 2:NNG 3: 은 4:JX 5: 지 6:VX 7: 는 8:ETM 9:JX-ETM 1: 하루아침 2:NNG 3: 에 4:JKB 5: 지 6:VX 7: 는 8:ETM 9:JKB-ETM 1: 지 2:VX 3: 는 4:ETM 5: 것 6:NNB 7: 이 8:JKC 9:ETM-JKC 1: 것 2:NNB 3: 이 4:JKC 5: 아니 6:VCN 7: 다 8:EF 9:JKC-SF 1: 아니 2:VCN 3: 다 4:EF 5: 아니 6:VCN 7: 다 8:EF 9:SF-SF 구문레이블 기타 주어 체언수식어 주어 용언수식어체언수식어 보어 기타 [ 표 1] 에서각각의자질은 [ 표 2] 와같다. 의존구조는어절단위로이루어지므로어절을내용어와기능어로분리하고자질을추출한다. 내용어는 21 세기세종계획형 - 137 -

태소태그에서용언, 체언, 수식언, 독립언에해당하며, 기능어는관계언, 의존형태, 기호에해당한다. 그리고의존형태중에서접미사는내용어에포함된다. 표 2. 자질집합 자질번호자질 1 의존소내용어어휘 2 의존소내용어품사 3 의존소기능어어휘 4 의존소기능어품사 5 지배소내용어어휘 6 지배소내용어품사 7 지배소기능어어휘 8 지배소기능어품사 9 의존소, 지배소의마지막품사 3.2 실험및분석제안한시스템의성능평가를위해구문레이블별로정확률을측정하였다. 측정한정확률은 [ 표 3] 과같다. 표 3. 성능 구문레이블 정확률 빈도 주어 94.85 7,625 목적어 95.30 5,829 보어 79.61 1,373 체언수식어 99.66 12,353 용언수식어 93.32 7,704 접속어 90.69 1,278 독립어 75.00 32 기타 97.97 29,634 전체 90.80 65,828 [ 표 1] 과같은자질을이용하여 CRFs 를모델을생성한다. CRFs 는조건부확률을최대로하는무방향성그래프모델이다 [5]. 입력열, 상태열 가주어지고, 가중치 가주어졌을때, CRFs 에서는조건확률로식 (1) 과같이정의된다. (1) 여기서 는확률값으로만들어주는정규화값이고, 는자질함수이다. 또한 는각자 질에대한가중치를나타낸다. k 는 k 번째자질이며, 자질함수는현재시간 i 에대한관측열 x, 상태변이 에대해서전이의향상을측정할수있다. 매개 변수들은주어진입력열과이에대응하는상태열에대한조건부확률이최대화하는최대우도 (maximum likehood) 에의해서추정된다 [3]. 본연구에서는 [6] 의 CRFs 를사용하였다. 3. 실험및분석 3.1 실험환경실험에서는 21 세기세종계획구문말뭉치를사용하였다. 구구조말뭉치를의존구조말뭉치로변경하였고, 구문레이블부착실험을위해서구문분석태그중기능태그만사용하였다. 기능태그가없는어절은 ETC 로분류하였다. 전체 71,091 문장 (844,766 어절 ) 중구문레이블을학습하기위해서 66,454 문장 (778,938 어절 ) 을사용하였고평가를위해서 4,637 문장 (65,828 어절 ) 을사용하였다. 실험결과의측정을위하여정확률을사용하였다. 평가척도는식 (2) 와같다. 시스템이올바르게추출한정답수정확률 시스템이추출한정답수 (2) [ 표 3] 에서전체정확률은 90.80% 이지만, 구문레이블의빈도에따라성능차이가크게나타남을알수있다. 특히독립어의빈도는 32, 정확률은 75% 로평균에비해매우낮은성능을보였다. 4. 결론본논문에서는의존구조분석결과로부터구문레이블을부착하였다. 실험을통해한국어문장에서구문레이블의빈도에따른성능의차이를확인하였다. 향후연구로서는빈도가낮은구문레이블의성능을향상시킬수있는자질에대한추가연구를통해전체성능을향상할수있을것이라기대한다. 참고문헌 [1] J. Nivre, An efficient algorithm for projective dependency parsing, In Proc. of IWPT, pp.149-160, 2003. [2] 김성용, 이공주, 최기선, 복합레이블을적용한한국어구문규칙, 한국정보과학회논문지 : 소프트웨어및응용, 제 31 권, 제 2 호, pp.235-244, 2004 년 2 월. [3] 오진영, 차정원, 다단계구단위화를이용한고속한국어의존구조분석, 한국시뮬레이션학회논문지, Vol19, No.1, pp.103-111, 2010 년 3 월. [4] 이용훈, 이종혁,. SVM 을이용한결정적한국어구문분석, 한국어정보학제 10 권제 2 호, pp.7-14, 2008 년 12 월. [5] J. Lafferty, A. McCallum, F. Pereira, Conditional random fields: Probabilistic models for segmenting and labeling sequence data, Proceedings. 18th International Conference on Machine Learning, pp.282-289, 2001. [6] McCallum, Andrew Kachites., MALLET: A Machine Learning for Language Toolkit, http://mallet.cs.umass.edu. 2002. - 138 -

음절 n-gram 기반의미등록어휘추정기구현 신준수, 홍초희샤인웨어소프트 jsshin@shineware.co.kr, chhong@shineware.co.kr Out of Vocabulary Word Extractor based on a Syllable n-gram Junsoo Shin, Chohee Hong SHINEWARE SOFT 요약 다양한콘텐츠가생성됨에따라신조어및미등록어도다양한형태로나타나고있다. 이러한신조어및미등록어는텍스트처리단계에서오분석되어성능저하의원인이된다. 본논문은이러한문제를해결하기위해서대량의문서로부터신조어및미등록어휘를추정하는방법에대해서제안한다. 제안방법은대량의문서로부터음절 n-gram을추출한뒤, 각 n-gram에서 n을한음절축소및확장시켜, (n+1)gram, (n-1)gram을추가적으로추출한다. 추출된음절 n-gram을기준으로 (n+1)gram, (n-1)gram 과의빈도차이를계산하여빈도차가급격하게발생하는구간을신조어및미등록어휘로추정한다. 실험결과신조어뿐만아니라트위터, 미투데이등과같은도메인에종속적인미등록어휘도추출되는것을확인할수있었다. 주제어 : 미등록어추정, 음절 n-gram, 키워드추출 1. 서론최근다양한분야에서새로운콘텐츠 (Content) 가생성 됨에따라신조어및미등록어도다양한형태로나타나 고있다. 이러한신조어및미등록어는텍스트전처리 단계에서오분석되어상위시스템의전반적인성능저하 로이어진다. 본논문에서는이러한문제를해결하기위 해대량의말뭉치로부터신조어및미등록어를추출하기 위한방법을제안한다. 본논문의 2 장에서신조어및미 등록어와관련된연구에대해서소개하고 3 장에서제안 방법에대해서설명한다. 4 장에서는제안방법에대한 성능실험과결과를평가하고마지막으로 5 장에서결론 을맺는다. 2. 관련연구 신조어및미등록어처리를위한연구는전문용어추 출과형태소분석기의미등록어추정연구로분류할수 있다. 전문용어추출연구는제한된영역에대하여 CRFs, SVM 등과같은기계학습방법등을이용하여용 어를추출하는방법이다 [1][2]. 기존미등록어추정연 구는형태소분석기등과같은사전정보를활용한시스 템에서사전에등재되지않은어휘가출현할때이를추 정하는방법이다 [3]. 또한 successor variety 를이용하 여대량의코퍼스로부터어근을추출할수있는방법이 있다. 그러나기계학습을이용한방법은영역에따라 서로다른학습데이터가필요하다는단점이있으며, 미 등록어추정은사용자가직접사전정보를관리해야한다는단점이있다. 또한 successor variety는신조어와같이어근이명확하지않은분야에적합하지않다는단점이있다. 본논문에서는기존연구의단점을보완하기위해대량의말뭉치로부터다양한형태의어휘후보를자동으로추출하는방법을제안한다. 3. 미등록어휘추정시스템구현문서내에서자주표현되는어휘는앞, 뒤에다양한활용이가능하다. 예를들어 아이폰 과같은어휘는 아이폰은, 아이폰을, 아이폰에서 등과같은활용형어휘가나타난다. 이때전체말뭉치에서빈도수를살펴보면 아이폰 이 아이폰 * 보다훨씬더높은빈도를갖는다. 따라서이빈도차이를이용하여 아이폰 을하나의신조어및미등록어로추정할수있다. 본논문에서는이러한현상을통하여미등록어휘를추정하는시스템을구현한다. 그림 1은본논문에서제안하는미등록어휘추정시스템의구조도이다. 다량의문서로부터음절 n-gram과 wildcard를적용한음절 n-gram을추출하고각빈도를계산한다. 계산된빈도를기반으로음절 n-gram 빈도와 wildcard 음절 n-gram 빈도를비교후임계치이상의빈도차를보이는어휘를최종미등록어휘로판별한다. - 139 -

표 2. Wildcard 음절 n-gram 및빈도수 그림 1. 미등록어휘추정시스템구조도 3.1. 음절 n-gram 추출문서내출현하는어절을기준으로음절 n-gram을추출하여빈도수를계산한다. 추출된음절 n-gram의예는아래표 1과같다. 표 1. 음절 n-gram 및빈도수 3.2. Wildcard 음절 n-gram 추출 Wildcard 음절 n-gram은검색엔진에서사용되는 wildcard 질의처리방식을이용하여추출한다. 예를들어 아이폰은, 아이폰을, 아이폰에 는 아이폰 * 로표현이가능하다. 이때 아이폰 * 의빈도수를측정한다. 추출된 wildcard 음절 n-gram의예는아래표 2와같다. 3.3. 미등록어휘추출 추출된음절 n-gram 중 wildcard 음절 n-gram 과비교하 여빈도수의차이가급격하게나타나는 n-gram 을최종 미등록어휘로추출한다. 이때 wildcard 음절 n-gram 에 서출현하지않는어휘는추출하지않는다. 예를들어 표 1 의음절 n-gram 아이폰 의빈도수는 2017 이며, 표 2 의 wildcard 음절 n-gram 아이폰 * 의빈도수는 96 로급격한차이를보이므로미등록어휘로추출된다. 그러나음절 n-gram 아이폰에 와 wildcard 음절 n-gram 아이폰에 * 의빈도는각각 20, 17 으로빈도수 차이가상대적으로낮으므로미등록어휘로추출되지않 는다. 표 1 과표 2 를통해추출된미등록어휘는아래 표 3 과같다. 표 3 에서는빈도수의차이가음절 n-gram 빈도수의 70% 이상이되는어휘만을최종후보로추출하 였다. 표 3. 추출된미등록어휘 4. 실험및결과 본논문에서제안한미등록어휘추출방법의성능평 가를위해트위터 10 만개, 미투데이 30 만개의글을수집 하였다. 표 4 는제안시스템으로추출된어휘중빈도수 상위 20 개를나타낸다. - 140 -

표 4. 제안방법의추출결과중빈도수상위 20 개의 어휘 되는어휘들이추출되는것을확인할수있었으며연예인명, IT 용어등과같은신조어들도추출되는것을확인할수있었다. 그러나의미가없는어휘들이추출되는것을확인하였는데이를해결하기위해시간대별로카테고리를분류하여 ㄱㄱ, 우와 등과같이시간에무의미한어휘를추출하여적용할수있는방법에대해서연구할예정이다. 또한주제별로카테고리를분류하여주제에무의미한일반적인어휘를추출하여적용할수있는방법에대해서도연구를진행할예정이다. 참고문헌 [1] 송수민, 신준수, 김학수, 음절바이그램과 CRFs를이용한의학전문용어추출, 한국정보처리학회춘계학술발표대회, pp. 505-507, 2010. [2] 최맹식, 김학수, 기계학습에기반한한국어미등록형태소인식및품사태깅, 정보처리학회논문지, 18-B권 1호, pp. 45-50, 2011. [3] 고영중, 한국어명사출현특성과후절어를이용한명사추출기 정보과학회논문지 : 소프트웨어및응용제 37권 12호, pp. 919-927, 2010 본논문에서제안한방법으로트위터에서추출된상위 20개의결과중 트윗, 트위터, 멘션, 선팔 등과같이트위터에서주로사용되는어휘가추출된것을확인할수있다. 또한미투데이에서추출된결과중 친신 ( 친구신청 ), 미친님들, 미친들 ( 미투데이친구들 ), 격반 ( 격하게반긴다 ), 인첵 ( 인원체크 ) 등의줄임말이출현하는것을확인할수있다. 상위 20개의결과외에도트위터에서는 카톡, 아이패드, 블랙베리, 페이스북, 안드로이드 등의어휘들이추출되었으며, 미투데이에서는 소녀시대, 비스트, 화이트데이, 샤이니 등의어휘들이추출되는것을확인할수있다. 그러나 ;;, ㄱㄱ, 우와, 암튼, 있네요 등과같이의미가없는어휘들도상당수추출되는것을확인할수있다. 5. 결론및향후연구본논문에서는음절 n-gram을기반으로한미등록어휘의추정방법에대해서제안하고이를평가하기위하여신조어및미등록어가많이출현하는데이터를사용하여실험하였다. 실험결과특정사이트에서빈번하게사용 - 141 -

한국어부분언어에대한문법정의및 GLR 파싱 1) 김지현, 정병채 0, 이재성충북대학교정보컴퓨터교육과, 비즈니스데이터융합학과, 디지털정보융합학과 A grammar definition and the GLR parsing for Korean sub-language Ji Hyun Kim, Byung Chae Jung, Jae Sung Lee Dept. of Information & Computer Education, Dept. of Business & Data Convergence, Dept. of Digital Informatics & Convergence, Chungbuk National University 요약 최근한국어를배우는외국인의증가로 외국어로서의한국어학습 (KFL) 에대한관심이늘고있다. 본논문에서는외국인을위한한국어교재에서사용된회화문장으로부터문장패턴을분석하고이를기반으로한국어부분언어문법을정의한다. 대개부분언어문법은간단하고배우기쉬우므로외국어로서의한국어학습자들이쉽게한국어로의사소통을할수있을것이다. 특히, 본논문에서는이부분문법이컴퓨터로해석될수있도록문법을정의하였고, 이를자동어휘분석기생성기 (flex) 와자동파서생성기 (bison) 을이용해기본적인검증을하였다. 주제어 : 한국어부분언어문법, GLR 파싱, 외국어로서의한국어교육 1. 서론 최근한류열풍에의해외국이민자의유입이증가하고있다. 따라서한국어를배우고싶어하고, 사용하고자하는외국인들이증가하고있다 [2]. 배우고자하는외국어가모국어와많이다른경우이를배우는것이어렵고, 일정수준이상의의사소통을위해서는많은시간을필요로한다. 하지만이해가쉽고배우기간단한부분언어를개발한다면, 그리고이것을컴퓨터로해석할수있도록한다면외국어를쉽게학습할수있을것이다. 부분언어문법은제한된영역에서보다명확하고, 쉽게의사전달을하기위해개발되었으며, 대표적으로 AECMA[3] 가있다. 이는항공관제에서사용하는널리알려진통제언어이다. 이러한통제언어에서는, 사용되는단어수, 모호성을가진어휘의사용, 수동태의사용등을제한하고, 20 단어이내의짧은문장의사용을권한다. 이렇게간략화된영어를국제표준화하기위한움직임이나타나고있다 [4]. CFG 는파싱에사용되는잘알려진문법중하나이며기본적인언어구조를정의하는데편리하다. 하지만자연언어에서 CFG 를사용할경우, 대개모호성이많아, 파스트리를여러가지로생성해낸다. 가능한한모호성을줄이고적은수의트리를만들어내기위해문맥속성을이용하여제약을가한문법으로 PSG, HPSG, LFG 등이있다. KPSG 는 PSG 을한국어에적용한것이다 [5]. 그럼에도불구하고부분언어처럼언어의구조가간단할경우, CFG 는기본문형정의에사용될수있다. 영어는어휘가문장에서사용된위치에따라그문법적성분이결정되는언어로, CFG 와같이구성요소의순서에따라적용되는규칙이결정되는문법이적용되기쉽다. 하지만한국어는문장요소의위치가자유롭고, 조 1) 이논문은 [1] 의일부를확장보완한것임. 사로문장성분을나타낸다. 또한주어나목적어등의생략이빈번하고, 모호성이높아이를 CFG 로표현하는것은매우불편하고, 효율이떨어진다. 이에자유로은어순을반영할수있는 ECFG 를제안하기도했다 [6, 7]. 이러한방법은주로문형을문장성분 ( 주어, 동사, 목적어 ) 을중심으로분류한것이다. 반면에서술어중심분류는서술어에따라문장의유형으로분류하고사용하는방식이다 [8]. 하지만실제적으로이것을파싱에체계적으로사용하기는어려운점이있다. 본논문에서는한국어를이용한의사소통에서가장필수적인부분언어를정의하고, 이에대한문형을 CFG 로정의하며이를 GLR 파싱방법으로파싱할수있도록한다. CFG 의구조를정의하고, 속성을추가하여제약하는기존연구들과는달리, 본논문에서는한국어부분언어를제안하여어순을제약하고, 이를 CFG 구조로표현했다는점에서차별점을갖는다. 한국어부분언어는외국인을위한한국어교재에서쓰인문장을이용하여추출하였고, 문장의구조는품사수준에서정의하였다. 다음으로 2 장관련연구에서는 CFG 를이용하여개발한한국어파서의문형들을살펴본다. 3 장에서는기본적인의사소통이가능한수준의한국어부분언어를정의하고, 이를반영한 CFG 를제안한다. 4 장에서는제안된 CFG 를파싱할수있는 GLR 파싱방법을제시한다. 이어 5 장은실험결과, 6 장은결론으로마무리한다. 2. 관련연구 CFG 는구성요소의순서에따라문법적성분이결정되기때문에영어와같이위치에따라문법적성분이결정되는언어에강점이있다. 하지만한국어는부분자유어순으로문장요소들의위치가유동적이므로이를 CFG 로모두표현하려면경우의수가매우많아비효율적이다. 이러한문제점을해결하기위해자유로운어순을반영 - 142 -

하여파싱하는 ECFG 를제안하기도했다 [6, 7]. 나동렬 [6] 에서는문장 (S) 에서반복적으로사용되는체언구 (PP) 와부사구 (ADVP) 를쉽게표현하기위해그림 1 과같은 CFG 를제안했다. 또한그림 2 와같이반복표시 * 를이용하여간단하게표현하였다. S -> PP S S -> ADVP S S -> VP S -> PP * VP S -> (PP ADVP) * VP 그림 1. 간단한한국어 CFG 그림 2. 반복표현을이용한한국어 CFG[6] 양성일 [7] 은이를확장한 ECFG 를제안하며인용절, 대등절, 종속절등을처리할수있도록했다. 문장의종류를파악할수있는장치를하고이를문법으로표현하여이들관계를제약하도록했다. 예를들어, 그림 3 은대등절및종속절을처리하는문법으로 S [ce] 는대등절연결어미로끝나는대등절, S [dce] 는종속적연결어미로끝나는종속절,! 는부정을의미한다. 즉, 대등절연결어미로끝나는문장이반복된후, 대등절어미가아닌문장이오면, 문장이종료하는첫번째문장과, 종속절연결어미로끝나는문장이온후, 일반문장이와서끝나는두번째문장을정의한것이다. S -> S [ce] * S![ce] S [dce] S 그림 3. ECFG 예 [7] 문장의구조적유형을공식화한틀을문형이라하며주로서술어에따라구분된다 [8]. 이용석 [11] 은이러한문형을 CFG 로구현하여처리하였다. 이러한문형의일부예는그림 4 와같다. N( 이 / 는 / 은 / 가 ) + V N( 이 ) + N( 에 / 에게 ) + V N( 이 ) + N( 로 / 으로 ) + V N1( 은 ) + N2( 이 ) + V // 근심되다, 생각나다, 욕심나다 N( 이 ) + A // 아름답다, 붉다... N( 이 ) + N( 에 ) + A // 유리하다, 능하다, 해롭다... N( 이 ) + N( 와 ) + A // 같다, 다르다, 동일하다... 그림 4. 문형예 [11] 3. 한국어부분언어정의 한국어는회화체에서의생략이매우빈번하다. 문장내에서주어나목적어등을생략하거나어절내에서격조사를생략하는등여러가지경우가있다. 이러한생략에도의사소통이가능한것은구문분석으로는모호성이많으나의미나화용분석에서는모호성을해결할수있기때문이다. 따라서구문분석에서는생략에의한모호성에도불구하고, 구문분석의결과를다음단계인의미분석이나화용분석으로보내줄수있어야한다. 또, 외국인들에게는격조사의생략이훨씬편리한언어용법일수있다. 가능하면구성적요소를반영하여이에익숙한외국어학습자들에게쉽게적응할수있도록하는것도한방법일수있다. 이논문에서는이러한특성을반영하여외국인이이해하기쉽고, 또한 CFG 로표현이쉽게되는부분언어문법을개발한다. 이를이루기위한기준은다음과같다. 1) 어순은주어목적어술어의순으로제약한다. 2) 부사와같이임의의위치에서수식하는어절은가능하면위치를정해주어혼동이없도록한다. 3) 외국인들이조사사용에어려움을겪는것을고려하여조사가생략된한국어문형을개발하되, 대표적외국어어순에맞도록한다. 4) 구문구조가불명확한경우에한해, 조사사용을필수화하여구문구조가드러날수있도록한다. 5) CFG 표현에서한국어조사나어미형태를고려하여문법표현을한다. 6) 문법내에어휘나태그를사용하여문법범주를세분화하여표시한다. 어휘는직접문법에사용할수도있지만, 가능하면태그로대신한다. 조사가생략된문형을개발할경우, 조사를생략한채어순을변화시키면잘못된구조의문장이나올수있다. 즉, 한국어는어순이자유로와 SOV, OSV 등의구조가가능하여조사를생략해도이해가가능하지만, 외국인들에게는 (1) 의원문이아래의 (3) 처럼밥이나를먹었다는뜻으로전혀다르게해석될수있다. l 나는밥을먹었다. I ate steamed rice l 나밥먹었다. I ate steamed rice l 밥나먹었다. Steamed rice ate me 조사를사용할경우, 격조사정보가상위문법정보에포함되어있어야한다. 즉, 기존의명사에주격조사가붙어 주어 태그가되거나, 동사어간에연결어미가붙어 연결서술어 와같은형태로아래와같이표현하여문법범주를세분화할필요가있다. < 주어 > -> < 명사 > + 주격조사 < 연결서술어 > -> < 동사어간 > + 연결어미 한국어부분언어문형을개발하기위해국립국어원에 - 143 -

서발간한 여성결혼이민자와함께하는한국어 1 교재 [12] 에수록된총 1,841 문장을사용하였다. 이중존칭형 습니다. 와같은문장은기본형 ㄴ다, 와해요체 요 로바꾸었다. 그결과총 989 문장이나왔으며이를간소한문형개발을위한원본문장으로사용하였다. 이문장들을형태소분석기및태거프로그램 [13] 을사용하여품사태그열을추출하고이중반복되는문장패턴 ( 문장의품사태그열 ) 을제거한 186 개의문장패턴만을기초자료로사용하였다. 품사태그열을이용하여문법규칙 (grammatical rule) 을정의했지만, 가능하면태그열이나온어절단위 ( 띄어쓰기단위 ) 를고려하여기술하였다. 그리고문장에어순이주어, 목적어, 부사어에기술되는위치가다르더라도각각의체언뒤에붙은조사를구분하여주어, 목적어, 부사어에해당되는어절단위로인식하였다. 매개변수의포인터를자식노드로붙이되세번째매개변수의위치에자식노드로붙인다. 예를들어, ac($$, $1, 1) 은 $1 의노드를 $$ 의 1 번째자식노드로붙인다. 4. GLR 파싱및실험 CFG 의파싱은일반적으로 LR 파싱방법으로수행하고대부분결정적인프로그래밍언어의특성에따라 LR 파싱방법은효과적이다. 문법이모호하여두개이상의파스트리가발생하는경우, 우선순위를두고우선순위에따라하나를선택하였다. 하지만자연언어는많은모호성을가지고있고, 모호성의해결은어휘, 구문, 의미등의분석과정을거치며해소된다. 본논문에서는문법정의만을목적으로하여, 어휘모호성이해결된형태소태그열을입력받아모호성이포함된구문분석결과를내놓는다. 여기서생성된모호성이포함된구문분석결과는상위단계에서해결되어야할것이다. 모호성이포함된파스트리는 LR 파싱으로는한계가있기때문에파싱과정을일반화시킨 GLR 파싱방법을사용한다. LR 파싱은푸시다운오토마타를수행하면서모호성이발생하면그중선호하는하나의오토마타경로만을선택하여수행하고, 만약그경로가잘못되면오류로종료한다. 반면에 GLR 파싱은모호성이발생하면가능한모든오토마타경로를수행하다최종적으로병합되는경로를찾아그결과를출력한다. 따라서 GLR 파서는모호성이포함된문장의구문분석이어느정도가능하다. 본논문에서는 bison 을이용하여 GLR 파싱이가능한부분문법을정의하였다 [10]. 그림 5 는 GLR 파싱이실행되는방법을설명하기위한것이며, 격조사를생략했을경우, 명사가주어와목적어로파싱될수있도록만든문법의예이다.( 세종말뭉치 [14] 의품사태그를사용함 ) %merge 문은공통의경로가나왔을경우, 이를하나의경로로병합하는구문분석명령이다. bison 의 RHS 문법표기에서모호성이있는비단말문법기호가제대로병합되기위해서는그문법기호다음에반드시모호성이없는문법기호가나와야병합이이루어진다. 이를처리하기위해, 문법기술을다양하게변형하여사용하였다. 또, cn 은 create_node 모듈의약칭으로매개변수를이름으로갖는노드를만들어그포인터를리턴한다. ac 는 add_child 모듈의약칭으로첫번째매개변수에두번째 그림 5. GLR 파싱을위한간단한예 이문법은 bison 에의해 c 파일로바뀌고, 이를컴파일하여부분문법파서를만들수있다. 이과정에서품사태그를인식하여토큰으로넘겨주는어휘분석기가필요한데, 이는 flex 를이용하여구현하였다 [9]. 아래는이문법에따라실험한예이다. 즉, 태그열을입력하여그에상응하는파서트리를출력한것이다. 파스트리의표현은일반트리를이진트리로변환하여표현하였다. 즉, 첫번째자식노드만부모의자식노드로표현하고, 두번째부터의자식노드들은첫번째자식노드의형제노드 (sibling) 로표현하였다. 그림 6 은문장아래 subj 과 vp 가있고, subj 밑에 noun 과 JKS 가자식노드로있는그림이다. 이경우, 모호성이없으므로파스트리가하나이다. 그림 6. 모호성이없는 GLR 파싱예 그림 7 은격조사의생략으로모호성이있는경우로? 노드밑에가능성이있는파스트리가표현된다. 그림 7 의경우는 obj vp 를갖는 s 와 subj vp 를갖는 s 의두가지가모두그려진결과이다. - 144 -

그림 7. 모호성이있는 GLR 파싱예 실험은외국어로서의한국어교재 [12] 에서일부를발췌하여수행하였다. 형태소품사태그는어휘중의성과형태소중의성이해소된상태로입력된것으로가정하여, 파서의성능만을독립적으로평가하였다. 따라서, 나는 이라는입력이들어오면이를태깅한결과 나 /NNP + 는 /JKC 가나온다고가정하고, 이들중 NNP+JKC 태그열을입력으로파서에넘긴다. 총 1,841 문장에서동사에서존칭생략등을통해문장을간략화하여 989 문장을추출하였고, 이문장의패턴을정리하여 186 개의문장패턴 ( 태그열패턴 ) 을얻었다. 이를기반으로부분 CFG 문법을개발하고, 이를이용하여간략화된 989 문장을테스트해본결과 326 개의문장 (33%) 이파싱에성공하였다. 5. 결론 부분문법언어는주로제한된영역에서명확한의사전달을목적으로한다. 본논문에서는외국인의쉬운한국어학습을위하여한국어구문을단순화시킨부분문법을개발하였다. 외국인을위한한국어교육교재에나온문장들을이용하여개발하였고, 기본문형을추출한후 GLR 파싱이가능한형태로변형하였다. 본논문에서는총 1,841 문장을동사에서의존칭생략등을이용해간략화하고문장패턴을정리하여 186 개의문장패턴 ( 태그열패턴 ) 을얻었다. 이를기반으로부분 CFG 문법을개발하고, GLR 파싱의가능성을검증하였다. 이연구는간소패턴을사용한의사소통이궁극적인목적이다. 따라서, 다시원본문장과같은의미의전달이가능하면서 GLR 파싱이가능한문장으로패턴을변경할경우, GLR 파싱성공률은증가하였고, 이를계속할경우, 어느정도안정된형태의부분문법을완성할수있을것이다. 본논문에서는기본문형패턴의개발과 GLR 파싱의가능성을확인하였으며, 이를이용하여문형개발을계속할필요가있다. [2] 김승권외, 2009 년전국다문화가족실태조사연구, 보건복지부, 법무부, 여성부, 한국보건사회연구원, 2010. [3] AECMA Simplified English : http://www.techscribe.co.uk/ta/aecma-simplifiedenglish.pdf. [4] Richard Hodgkinson, A standard for simplified natural language : http://www.tcanz.org.nz/site/tcanz/files/standar ds/internationalstandardssimplifiedenglish.pdf. [5] 김영택, 자연언어처리, 생능출판사, 2001. [6] 나동렬, 한국어파싱에대한고찰, 정보과학회지제 12 권, 제 8 호, pp.33-46, 1994. [7] 양성일, 확장문맥자유문법과패턴 - 액션규칙을이용한한국어구문분석에관한연구, 연세대학교대학원전산과학과, 석사학위논문, 1999. [8] 강은국, 조선어문형연구, 박이정출판사, 1996. [9] flex 2.2.5 : ftp://reality.sgiweb.org/freeware/fw-5.3 /fw_gnuflex/gnuflex.html. [10] GNU bison 2.7 : http://www.gnu.org/software/bison/manual/bison. html [11] 이용석, 구문분석의실용화를위한구문분석기개발에관한연구, 한국전자통신연구원, 1999. [12] 국립국어원, 여성결혼이민자와함께하는한국어 1 : http://www.korean.go.kr/09_new/edu/kteacher_boo k01.jsp.2010 [13] 김보겸, 이다니엘, 이재성, 3 단계확률기반형태소분석기를이용한한국어품사태거구축방법, 한국컴퓨터교육학회학술발표대회논문집, 제 16 권, 제 1 호, pp. 129-134, 2012. [14] 국립국어원, 21 세기세종계획최종결과물 (2011 년 12 월수정판 ), 2011. 참고문헌 [1] 김지현, 외국어로서의한국어교재를위한한국어문형, 충북대학교교육대학원, 교육학석사학위논문, 2013. - 145 -

등급재현율 : 이중언어사전구축에대한평가방법 서형원 O, 권홍석, 김재훈한국해양대학교 IT 공학부 wonn24@gmail.com, hong8c@naver.com, jhoon@kmou.ac.kr Rated Recall: Evaluation Method for Constructing Bilingual Lexicons Hyeong-Won Seo O, Hong-Seok Kwon, Jae-Hoon Kim Korea Maritime University, Computer Engineering Institute 요약 이중언어사전구축방법을평가하는방법에는정확률, 재현율, MRR(Mean Reciprocal Rank) 등이있다. 이들방법들은평가집합에있는대역어를정확하게찾는것에초점을맞추고있다. 그러나어떤대역어가얼마나많이사용되는지는전혀고려하지않는다. 즉자주사용되는대역어를빨리찾을수있는방법이좋은방법이라고말할수있다. 이와같은문제를해결하기위해서본논문에서는이중언어사전구축의새로운평가방법인등급재현율을제안한다. 등급재현율 (rated recall) 은대역어가학습말뭉치에나타난정도를반영하는재현율이며, 자주사용되는대역어를얼마나정확하게찾는지를파악할수있는좋은측도이다. 본논문에서는문맥벡터와중간언어를이용한이중언어사전구축시스템의성능을평가하고기존의방법과비교분석하였다. 1. 서론 주제어 : 이중언어사전, 문맥벡터, 중간언어, 등급재현율 이중언어사전 (bilingual lexicon) 은자연언어처리 (Natural Language Processing), 기계번역 [1], 다중언어 (Multilingual) 정보검색 [2] 등의분야에서주요한자원으로활용되고있다 [3]. 영어와불어과같이널리사용되는언어에대해서는이중언어사전의구축이그다지어렵지않다. 그러나모든언어쌍마다이중언어사전을구축하는것은많은시간과노력이소요된다 [4-7]. 이런연구들은주로병렬말뭉치 (parallel corpora) 나비교말뭉치 (comparable corpora) 를이용하고있다. 병렬말뭉치는통계기반기계번역에서널리사용되는단어정렬 (word alignment) 을이용하고병렬말뭉치는문맥벡터기반방법을이용한다. 이방법들은초기사전 (seed dictionary) 이나말뭉치의존재유무가매우중요하다. 그러나어떤언어쌍에대해서는초기사전뿐아니라병렬및비교말뭉치조차도쉽게구할수없다. 예를들면한국어 (KR) 와스페인어 (ES)/ 불어 (FR) 로공개된이중언어사전도없고, 더나아가공개된병렬혹은비교말뭉치도없다. 이런환경에맞서적은노력과시간을투자하면서도이중언어사전을구축할수있는간단하면서도효과적인방법이제안되었다 [8]. 이방법은사전을구축할때생길수있는도메인문제를완벽하게해결할수는없지만병렬말뭉치와중간언어 (pivot language) 를사용함으로써초기사전이필요하지않다는점과구축이어려운언어쌍에서도충분히이중언어사전을구축하기에용이하다는장점이있다. 한편, 이중언어사전구축방법을평가하는방법에는정확률 (accuracy), 재현율 (recall), MRR(Mean Reciprocal Rank) 등이있다. 이들방법들은평가집합에있는대역어를정확하게찾는것에초점을맞추고있 다. 그러나어떤대역어는얼마나자주사용되는지는고려하지않는다. 자주사용되는대역어를빨리찾을수있는방법이좋은방법이다. 예를들면한국어 학교 는영어 school, college, institution 로번역될수있다. 그러나많은경우에는 school 로번역된다. 이처럼이중언어사전구축시스템에서도번역되는대역어를빨리찾을수있는시스템이좋은시스템이다. 이와같은문제를해결하기위해서본논문에서는이중언어사전구축의새로운평가방법인등급재현율을제안한다. 등급재현율 (rated recall) 은대역어가학습말뭉치에나타난정도를반영하는재현율이며, 자주사용되는대역어를얼마나정확하게찾는지를파악할수있는좋은측도이다. 본논문의구성은다음과같다. 2 장에서문맥벡터에기반을둔이전연구에대하여간략히기술하고, 3 장에서는새롭게제안하는평가방법인등급재현율에대하여기술한다. 4 장에서는실험에대한내용을기술하고마지막으로 5 장에서결론을짓는다. 2. 관련연구 이중언어사전을효과적으로구축하기위해다양한기존연구들이진행되어왔다 [9]. 이런연구들에는중간언어를이용하는방법 [4][5][9], 병렬말뭉치를이용한방법 [10][11], 그리고비교말뭉치를이용한방법 [6][7][12] 등이있다. 병렬말뭉치를이용하여이중언어사전을만들었을때충분히좋은성능을보였다는연구결과가있다 [13]. 하지만영어를제외한언어에대해서는병렬말뭉치가공개된것이드물고, 만약구축해서효과적으로쓰기위해서는상당히많은양의말뭉치가 - 146 -

필요하다는한계점이있다. 이런문제들을해결하기위해서중간언어를활용하는연구들이있었다 [3]. 중간언어를이용하면언어자원이많지않은언어사이에서도보다쉽게병렬말뭉치를얻을수있다는장점이있다. 이에반해, 비교말뭉치는특정도메인에대하여언어가서로다르지만문맥이비슷한문서들 ( 일반적으로집필날짜가겹치는뉴스문서 ) 을모아서구축하였기때문에영어처럼언어자원이풍부한언어가아닌쌍에대해서도병렬말뭉치보다비교적쉽게구축할수있다는장점이있다. 또한병렬말뭉치보다도메인문제를어느정도해결할수있다는장점도있다. 하지만기존에비교말뭉치를사용하여이중언어사전을구축한연구 [14] 를보면이방법은초기사전이필요하다는것을알수있다. 초기사전은원시언어 (SL: Source Language) 나대상언어 (TL: Target Language) 문맥벡터를다른언어로번역할때사용하며, 그단어의양이많을수록좋지만처음에적은양이여도무방하다는특징을가지고있다. 본절에서는대표적인이중언어사전구축방법인 문맥벡터기반방법 [14] 을살펴본다. Fung 은이중언어사전을구축하기위해서문맥벡터를만들었고이것의대략적인과정을기술하면다음과같다. 먼저원시언어와대상언어의비교말뭉치에서모든단어를대상으로문맥벡터를만든다. 이때, 두단어의연관도를측정하기위해서 Chi-square Test[18] 와같은연관성측도 (association measure) 를이용한다. 그다음, 초기사전을이용하여한쪽언어의벡터를다른쪽언어에맞게번역한다. 그러면벡터공간의차원이같아지기때문에원시언어와대상언어의벡터들을서로비교할수있게된다. 원시언어의한단어에대한벡터와대상언어의모든단어에대한벡터들을그들간의유사도를통해서 로비교한후, 그유사도에따라정렬하고상위몇개의후보를추출한다. 이방법을활용한몇가지다른변형된방법들을기술하면다음과같다. < 문맥범위조절 > 3 문장 [15] 3 단어 25 개 [16] < 초기사전의양조절 > 16,000 개의단어 [17] 대략 2 만개 [12][14,15] < 벡터들간의유사도계산방법조절 > city-block measure[17] cosine [12][14-16] dice 혹은 Jaccard indexes[12][15] 2.2 절에서기술한방법에대하여정리하면다음과같다. 이전의문맥벡터기반연구는비교말뭉치와초기사전을사용한다. 초기사전은전체성능에영향을주기때문에매우중요한요소이며, 이사전이문서에포함된단어들을얼마나포함하고있는지도중요한문제가될수있다. 또한언어가바뀔때마다사전도구축해야한다는문제점이있다. 이에반해, 중간언어기반의문맥벡터방법은우리가대상으로하는언어에대해비교말뭉치가아닌병렬말뭉치를사용한다. 이방법을이용하면원시언어문맥벡터를대상언어에맞게번역할필요가없기때문에초기사전을일일이구축하지않아도된다는장점이있다. 이런중간언어를이용한문맥벡터방법을좀더자세하게묘사하면그림 1 과같이나타낼수있다. (1) 먼저 - 147 -

각각의병렬말뭉치들에포함된모든단어들에대하여연관성을측정한다. 여기서병렬말뭉치는 SL 와중간언어 (PL: pivot language) 그리고 TL 와 PL 로구성된 2 개의말뭉치를의미한다. 본논문에서는기호나불용어를제외한나머지단어를대상으로하며명사, 동사, 형용사, 부사를제외한품사의단어는제외시킨다. 그후, 남아있는단어들사이에 Chi-square test 를이용하여두단어 (SL/TL 과 PL 의단어 ) 가서로얼마나연관성이있는지를측정한다. 여기서사용된단어빈도수는 DF(Document frequency) 를사용하고, 문장을문서로간주하여단어를포함하고있는문장의수를센다. (2) 이렇게만들어진문맥벡터들 (SL-PL, PL-TL) 사이에 Cosine measure 를이용하여벡터들간의거리유사도를계산한다. (3) 그후유사도가높은순으로정렬하여각 SL 단어마다상위 개의 TL 번역후보들을추출한다. 이방법을이용하면초기사전과같은외부자원없이병렬말뭉치만으로도 SL 과 TL 사이에번역후보들을쉽게추출할수있다. 3. 등급재현율 일반적으로이중언어사전구축방법을평가하는방법에는정확률, 재현율, MRR 등이사용된다. 이들방법들은평가집합에있는대역어를정확하게찾는것에초점을맞추고있다. 그러나어떤대역어는얼마나자주사용되는지는고려하지않는다. 하지만자주사용되는대역어를빨리찾는방법이좋은방법이다. 예를들면한국어 학교 는영어 school, college, institution 로번역될수있다. 그러나많은경우에는 school 로번역된다. 이처럼이중언어사전구축시스템에서도번역되는대역어를빨리찾는시스템이좋은시스템이다. 이와같은문제를해결하기위해서, 본논문에서는등급재현율을제안한다. 등급재현율은대역어가학습말뭉치에나타난정도를반영하는재현율이며, 자주사용되는대역어를얼마나정확하게찾는지를파악할수있는좋은측도이다. 먼저재현율에대해서살펴보자. 재현율은정답단어를시스템이얼마나찾았는가를나타내며, 상위 번째후보대역어의재현율 은식 (1) 과같이정의된다. i f otherwise (1) 여기서, 은원시단어의총수이며, 는 번째원시 단어의정답단어 ( 대역어집합 ) 이고, 는 의개수이 다. 는크로네커델타함수 (Kronecker delta function) 로서 번째원시단어 에대한 번째시스템 결과 가정답에포함되면 1 이되고, 그렇지않으면 0 이된다. 즉, 정답단어를시스템이얼마나정확하게찾는가를나타낸다. 등급재현율은 은식 (1) 를약간수정하여식 (2) 와같이정의한다. i f otherwise (2) 여기서, 는 번째원시단어 에대한후보대역어 가학습말뭉치에출현한비율을의미하며, 은 1이다. 예를들어, 스페인어단어 decisión에대한정답사전이표 1과같고, 시스템이낸결과가표 2와같다면각순위에따른등급재현율의값은표 3과같다. 정답단어빈도수 결정 6,007 0.752 결심 173 0.022 결의 369 0.046 결단 130 0.016 결단력 10 0.001 재정 880 0.110 판정 414 0.052 합계 7,983 1.000 정답단어 순위번역후보 1 결정 0.752 2 통합력 3 결단 0.016 4 여부 5 최종판단 6 의사결정 7 판정 0.052 8 판단 9 결정권한 10 관망자세 11 확정 12 독자위성 13 유격대 14 앙케트 15 결심 0.022 16 사업확장계획 17 개인신용대출 18 판결 19 재정능력 20 사항 에대한 - 148 -

순위등급재현율 ( ) 재현율 ( ) 1 0.752 1/7 = 0.143 3 0.752 + 0.016 = 0.768 2/7 = 0.286 10 0.768 + 0.052 = 0.820 3/7 = 0.429 20 0.820 + 0.022 = 0.842 4/7 = 0.571 표 1 에서알수있듯이실제문서에서얼마나자주출현되느냐에따라각단어의비율이결정되고, 이비율이실제등급재현율을계산할때더해지게된다. 표 2 는원시언어인스페인어 decisión 에대한시스템도출결과를나열한것이다. 그리고정답사전으로부터각단어의비율을나타낸다. 비율이표시되어있지않은단어는정답사전에없는것으로써대부분합성명사인것을알수있다. 표 3 은실제등급재현율을계산하는과정을표로나타낸것이고세번째줄에서빈칸은등급재현율이 0.0 이다. 각순위에서의등급재현율은상위부터해당순위까지포함된단어중정답사전에포함됨과동시에실제로문서안에얼마나많이출현하였는지를고려한재현율이계산되게된다. 여기서의미하는비율은하나의원시언어를기준으로하는군집으로써의비율이므로일반적인재현율계산때의 로나누는작업은생략하게 된다. 4. 실험및결과 본논문에서는실험을위해한국어 (KR)- 영어 (EN), 스페인어 (ES)-EN, 불어 (FR)-EN 의병렬말뭉치를사용하였다. KR-EN 은 433,151 개의문장으로구성되었고 Seo et al.[19] 의연구에서사용된말뭉치를보완하여만든뉴스기사다. 이말뭉치의문장당평균단어 ( 한글의경우에는형태소 ) 의수는각각 42.46(KR), 36.02(EN) 이다. 반면에 ES-EN 과 FR-EN 병렬말뭉치는 Eurorarl(European parliament proceedings) 병렬말뭉치이며각각약 160 만, 200 만문장을포함하고있다. 이들의문장당평균단어수는각각 29.40(ES-EN 에서추출된 ES), 28.65(ES-EN 에서추출된 EN), 31.17(FR-EN 에서추출된 FR), 28.68(FR-EN 에서추출된 EN) 이다. 평가를위한정답사전은다음과같이구축하였다. 사전을구성하는단어를정하기위해각병렬말뭉치로부터빈도수가높은순서대로정렬한후가장빈도수가높은 100 개의명사 (High) 와빈도수가낮은 100 개의명사 (Low) 를웹사전을참조하여사람이직접구축하였다. 최종적으로구성된정답단어당평균번역단어의수는각각 11.41(FR-KR), 10.3(ES-KR), 5.79(KR-FR), 7.36(KR-ES) 개이다. 불어와스페인어의한글번역단어의개수가그반대인경우보다상대적으로많은것을확인할수있다. KR 의경우한나눔태거 (KAIST Tagger) 1) [20] 를이용하여품사를부착하는전처리만수행하였다. EN, ES, FR 의경우에는 Tree Tagger 2) [21] 를이용하여토큰분리, 원형분리 (lemmatization) 를한후품사를부착하였다. 품사가모두부착된상태에서각각의언어에맞는불용어 (KR 은제외 ) 와특정품사를제외하였다. KR 말뭉치에서는총 69 개의품사중보통명사, 고유명사, 용언그리고수식언을제외한나머지 51 개의품사에해당하는단어들은모두배제하였다. 나머지언어에대해서도같은작업을하여 EN 은 61 개품사중 19 개, ES 는 72 개중 33 개, 마지막으로 FR 은 36 개중 18 개를배제하였다. 전처리후에남은단어의타입수는각각 KR-EN 67,210(KR 의경우에는형태소 )/41,719(EN), ES-EN 12,926(ES)/28,764(EN), FR-EN 47,220(FR)/51,245(EN) 이다. 이중에서같은성격의말뭉치임에도불구하고두영어문서 (ES-EN 과 FR-EN) 의타입수 ( 각각 28,764 와 51,245) 가차이가나는이유는실제 FR-EN 의영어문서에다수의불어문장이포함되어있기때문이다. 4.2 실험결과본논문에서제안한방법으로실험한결과는다음과같다. 그림 2 와 3 은연관성측도와유사도측정방법을각각 Chi-square test 와 Cosine measure 로정해놓고, 각병렬말뭉치로부터만든문맥벡터간에유사도계산결과를등급재현율로나타낸것이다. 그림 2 는빈도수가높은단어 (High), 그림 3 은빈도수가낮은단어 (Low) 에대한결과이다. 그림 2 와 3 에서볼수있듯이 KR 번역후보를찾는경우, 즉대상언어가 KR 인경우는 High 에서높은결과를보였고, 그반대인경우 ( 원시언어가 KR) 에는 Low 에서높은결과를보였다는것을알수있다. 4.1.1 절에서기 - 149 -

술된정답사전은대상언어가 KR 일경우가아닌경우에비해상대적으로많은정답단어를포함하고있다. 이것으로볼때, 여러뜻을가지는단어일수록문서에많이포함된다는사실을알수있다. 또한상위 1 위부터 5 위까지그래프가급격하게기울었다가이후로갈수록점점기울기가낮아지는것을볼수있다. 이런특징은 Low 보다 High 에서좀더두드러지지만대부분의중요한단어들 ( 빈도수가높거나정확한번역후보 ) 은중하위보다주로상위에포진되어있다는것을의미한다. 그림 4 와 5 는모두일반적인재현율과등급재현율로시스템을평가한것으로써각각원시언어혹은대상언어가 KR FR, KR ES 인것에대한결과를통합하여평균낸결과이다. 그림에나타난결과들을보면심한경우 (KR-ES, 상위 20 위 ) 에 15% 정도의차이가난다는것을알수있다. 이는일반재현율로봤을때정답단어의 20% 정도에가까운단어들을시스템이도출해냈지만, 사실이단어들은사전안에서 35% 정도를차지하고있다는사실을의미한다. 또한상위 1 위에서재현율과등급재현율의성능차이를살펴보면, KR-ES 와 KR-FR 모두의경우에 High 는대략 10%, Low 는대략 5% 정도의차이를확인할수있다. 즉, 사전에있는정답단어중 5% 혹은 10% 정도만을시스템이도출해내었다고생각할수있지만이단어들이실제문서에서차지하는중요도는그이상이라는점을의미한다. 오히려문서에별로나오지않은단어를시스템이도출해낸것보다는문서에서빈번하게등장하는단어를시스템이도출해내는것이훨씬중요하기때문이다. 따라서이런경향으로봤을때, 본논문에서제안하는평가방법이큰의미가있다. 5. 결론 본논문은기존에문맥벡터를이용하여이중언어사전을자동으로구축하는방법이얼마나효과적인지새롭게평가하였다. 일반적인재현율은단순히얼마나많은단 어를실제시스템이결과로도출해내는지에대한평가방법이지만모든단어들에대하여똑같이비율을지정하여실제얼마나중요한단어들을찾아냈는지판단하기어렵다. 하지만본논문에서제안한등급재현율을이용하여평가해보면시스템이도출해낸번역후보단어들이실제문서에서얼마나큰영향을끼치는지를알수있기때문에시스템이얼마나효과적인지파악할수있다는장점이있다. 향후연구로는스페인어와불어이외의언어에대하여도이중언어사전을구축해보는것과다중단어 (multi-word expression) 에대한연구도해볼수있을것이다. 감사의글 본연구는미래창조과학부및한국산업기술평가관리원의산업융합원천기술개발사업 ( 정보통신 ) 의일환으로수행하였음. [10041807, 지식학습기반의다국어확장이용이한관광 / 국제행사통역률 90% 급자동통번역소프트웨어원천기술개발 ] - 150 -

참고문헌 [18] P. Brown, J. Cocke, Stephen A. Della Pietra, V. Pietra, F. Jelinek, J. Lafferty, R. Mercer and P. Roossin 1990 "A statistical approach to machine translation" Coling'90 16(2) pp. 79-85. [19] J. Nie, M. Simard, P. Isabelle, and R. Durand 1999 "Cross-language information retrieval based on parallel texts and automatic mining of parallel texts from theweb" In Proc. of the ACM SIGIR pp. 74-81. [20] T. Tsunakawa, N. Okazaki, and J. Tsujii 2008 "Building Bilingual Lexicons Using Lexical Translation Probabilities via Pivot Languages" In proc. of LREC. [21] K. Tanaka and K. Umemura 1994 "Construction of a Bilingual Dictionary Intermediated by a Third Language" In Proc. of the Coling'94 pp. 297 303. [22] L. Nerima and E. Wehrli 2008 "Generating Bilingual Dictionaries by Transitivity" In Proc. of the LREC 08 pp. 2584 2587. [23] P. Fung 1995 "Compiling Bilingual Lexicon Entries From a Non-Parallel English-Chinese Corpus" In Proc. of the VLC 95 pp. 173 183. [24] K. Yu and J. Tsujii 2009 "Bilingual dictionary extraction from Wikipedia" In Proc. of the MT Summit XII pp. 379 386. [25] 서형원, 권홍석, 김재훈 2013 " 이중언어병렬말뭉치와중간언어를활용한이중언어사전자동구축 " 한국정보처리학회춘계학술발표대회논문집. 제 20 권. 제 1 호. pp. 307-310. [26] F. Bond, R. Binti Sulong, T. Yamazaki, and K. Ogura 2001 "Design and Construction of a machine-tractable Japanese-Malay Dictionary" In Proc. of the MT Summit VIII pp. 53 58. [27] D. Wu and X. Xia 1994 "Learning an English-Chinese lexicon from a parallel corpus" In Proc. of the AMTA'94 pp. 206 213. [28] P. Fung and K. Church 1994 "K-vec: A New Approach for Aligning Parallel Texts" In Proc. of the Coling 94 2 pp. 1096 1102. [29] Y. Chiao and P. Zweigenbaum 2002 "Looking for Candidate Translational Equivalents in Specialized, Comparable Corpora" In Proc. of the Coling 02 pp. 1208 1212. [30] A. Lardilleux, J. Gosme and Y. Lepage 2010 "Bilingual Lexicon Induction: Effortless Evaluation of Word Alignment Tools and Production of Resources for Improbable Language Pairs" In Proc. of the LREC. [31] P. Fung 1998 "A Statistical View on Bilingual Lexicon Extraction: From Parallel Corpora to Non-Parallel Corpora" In Proc. of the Parallel Text Processing, pp. 1-17. [32] B. Daille and E. Morin 2005 "French-English Terminology Extraction from Comparable Corpora" Natural Language Processing - IJCNLP 3651. [33] E. Prochasson and E. Morin 2009 "Anchor points for bilingual extraction from small specialized comparable corpora" TAL 50(1) pp. 283-304. [34] R. Rapp 1999 "Automatic Identification of Word Translations from Unrelated English and German Corpora" In Proc, of the ACL'99 pp. 519-526. [35] T. Dunning 1993 "Accurate methods for the statistics of surprise and coincidence" Coling'93 19(1) pp. 61 74. [36] H.-W. Seo, H.-C. Kim, H.-Y. Cho, J.-H. Kim and S.-I. Yang 2006 "Automatically Constructing English-Korean Parallel Corpus from Web Documents" Korea Information Processing Society 13(02) pp. 0161-0164. [37] 박상원, 최동현, 김은경, 최기선 2010 " 플러그인컴포넌트기반의한국어형태소분석기 " 한글및한국어정보처리학술대회 (HCLT) Poster. pp. 197-201. [38] H. Schmid 1995 "Improvements in Part-of-Speech Tagging with an Application to German" In Proc. of the ACL SIGDAT-Workshop. pp. 47-50. - 151 -

1. 서론 한국어품사및동형이의어태깅을위한마르코프모델과 은닉마르코프모델의비교 신준철 O, 옥철영울산대학교컴퓨터정보통신공학 ducksjc@nate.com, okcy@ulsan.ac.kr Comparison between Markov Model and Hidden Markov Model for Korean Part-of-Speech and Homograph Tagging Joon-Choul Shin O, Cheol-Young Ock Dept. of Computer Engineering & Information Technology, Ulsan University 요약 한국어어절은많은동형이의어를가지고있기때문에주변어절 ( 또는문맥 ) 을보지않으면중의성을해결하기어렵다. 이런중의성을해결하기위해서주변어절정보를입력받아통계적으로의미를선택하는기계학습알고리즘들이많이연구되었으며, 그중에서특히은닉마르코프모델을활용한연구가높은성과를거두었다. 일반적으로마르코프모델만을기반으로알고리즘을구성할경우은닉마르코프모델보다는단순하기때문에빠르게작동하지만정확률이낮다. 본논문은마르코프모델을기반으로하면서, 부분적으로은닉마르코프모델을혼합한알고리즘을제안한다. 실험결과속도는마르코프모델과유사하며, 정확률은은닉마르코프모델에근접한것으로나타났다. 주제어 : 마르코프모델, 은닉마르코프모델, 형태소, 형태소분석기, 의미중의성, 동형이의어 하나의어절이가지는의미는종종여러가지일수있으며, 대체로주변문맥을통해한가지뜻으로해석된다. 이것을의미중의성이라고하며, 컴퓨터가이런중의성을자동으로해결할수있다면자연어처리시스템이획기적으로발전할것이다. 중의성을가진어절에품사와의미번호를표시하여의미를명확하게하는작업을태깅이라고한다. 태깅을위한품사태그는대표적으로세종태그셋이있다. 의미번호는표준국어대사전의것이널리사용되고있다. 예를들어 나는 은다음과같이태깅될수있다. 나 03/NP+ 는 /JX 나 01/VV+ 는 /ETM 날 01/VV+ 는 /ETM 예와같이중의성을가진어절은다양한품사와의미로해석될수있으며, 이는여러가지의분석후보들로표현된다. 일반적인자동태깅절차는하나의어절을분석해서분석후보들을만든다음에, 주변문맥을통해적절한후보하나를선택하는것이다. 하나의어절에서적절한분석후보들을만드는것은오래전부터많이연구되어왔다. 초기에는규칙기반알고리즘들이연구되었으며, 세종말뭉치가정립된이후에는기계학습을활용한방법들이연구되고있다. 적절한후보를선택하는방법은세종말뭉치로기계학습을하고, 인접한어절이나공기어를활용하여통계적으로처리하는방법들이연구되어왔다. 그러나대부분품사만결정하거나, 정확률이낮거나, 이모든것을해 결하더라도속도가느린단점을가지고있다. 본논문은적절한후보를선택하는새로운알고리즘을제안한다. 이알고리즘은세종말뭉치를최대한활용하며, 정확률과재현율을최대한보존하면서속도를더빠르게하는것에목표를둔다. 2. 관련연구 자동태깅의첫단계는하나의어절에서분석후보들을생성하는것이다. 초창기에어절에서형태소원형을하나씩복원하는규칙기반방법이주로연구되었다. 대용량말뭉치가정립되기전에는기계학습기반의분석방법을적용할수없었기때문이다. 대표적인연구로 [1] 은다양한한국어의불규칙변화를전산화하여규칙기반의분석방법으로적용하기위해다층형태론을제안하였다. 대용량말뭉치가정립되고부터는기계학습방법을활용한연구가진행되고있다. [2] 는대용량말뭉치에서기분석사전과 " 부분어절기분석사전 " 을만들고, 이를사용하여어절을분석하고형태소분석후보들을생성하는알고리즘을제안한다. 세종말뭉치로실험한결과 99.05% 의형태소분석재현율 ( 후보중에정답이있을확률 ) 을보였으며, 형태소분석을위한조합형코드로의변환과정, 형태소분리및복원등의복잡한과정이필요없으며띄어쓰기오류에도안정적인특징이있다. 하나의어절을분석하여나타나는분석후보들중에서가장적절한하나의후보를자동으로선택하기위한연 - 152 -

구들이진행되어왔다. 세종말뭉치가정립되지않았을때에는내부적으로자체제작한소량의말뭉치를사용하였다. 이런경우에는정확률이낮았다 [3]. 소량의말뭉치에서은닉마르코프모델 (Hidden Markov model : HMM) 을기계학습한연구가있다 [4, 5, 6]. 말뭉치의양이적기때문에상대적으로적은품사태그를사용하여정확률을높였다. 비록소량의말뭉치였지만초기에 HMM 의유용성을실험해본의미있는연구들이였다. [7] 은 KAIST 에서구축한 대한민국국어정보베이스 의품사부착된말뭉치를사용하여 HMM 을학습하였다. 이방법에서는수작업으로구축되는말뭉치의특성상나타날수밖에없는오류에대해서저신뢰도구간검사를통해학습말뭉치의신뢰도를높여태깅성능의향상을모색하였다. [8] 은비교적최근의 HMM 연구로, 약천만어절의세종말뭉치를사용하였다. 우선어절별로분석후보를생성하기위해서 CKMA[2] 를사용하였으며, 하나의후보를선택하기위해서여러가지의 HMM 을단계별로적용하였다. 우선정확률이높은모델을적용해보고, 재현에실패한경우 ( 학습된적이없는경우다.) 정확률이낮더라도재현율이높은모델을적용하였다. 동형이의어까지태깅하면서정확률이매우높은결과를보였다. 3. 알고리즘 분석후보에서의미와품사가적합한하나의후보를선택하기위해서연구된방법중가장알려진것은 HMM 이다. HMM 은은닉층 ( 분석후보, 형태소원형 ) 정보간의전이확률로최적의전이열을찾는모델이다. HMM 보다단순한모델인마르코프모델 (Markov model : MM) 은오직관찰되는정보만을통해현재또는미래의은닉정보를추측한다. 3.1 은닉마르코프모델 HMM 은은닉층을사용하는모델이며, 태깅에서는인접한어절들의분석후보들이대표적인은닉층이다. 사람이수동으로태깅하지않은상태에서는인접한어절들이 중의성을가지면오직여러가지의분석후보들만알수있다. 이런특성때문에 HMM 은인접한어절들의분석후보가다양할수록연산량이많아진다. 직접적으로인접한어절만을고려하는 HMM 을바이그램 (Bigram) HMM 이라고하며, [ 그림 1] 은 Bigram HMM 으로분석중인예이다. 3 개의어절로구성된문장은각어절별로분석후보들이있으며, HMM 은인접어절의후보와자기어절의후보간의전이확률을계산하고, 전이확률이가장높은최적열을 Viterbi 알고리즘으로찾는다. Bigram HMM 의전이확률은좌측어절의특정후보와우측어절의특정후보가동시에출현할확률을표현한다. [ 그림 1] 안에서예를들자면, 첫번째전이확률은좌측어절이 차를 06/NNG+ 를 /JKO 이고우측어절이 타 02/VV+ 고 /EC 일확률을의미한다. 그러나실제로후보내용전체를모델에서사용하기에는학습데이터의용량과재현율에서비효율적인문제가발생하기때문에 [8] 에서는인접어절의가장가까운형태소만을모델에서사용하는모델을제안한다. 예를들어 차를 의후보들을처리하는과정에서첫번째로계산되는전이확률은 차 06/NNG+ 를 /JKO 와 타 02/VV* 가동시에출현할확률이다. * 는어절의나머지부분이무엇이되던동일한것으로간주한다는의미다. 태깅시점에서는좌측어절에는후보가 4 가지이기때문에, 정확히어떤후보가정답인지알수없다. 따라서 HMM 에서는모든가능한후보간의전이확률을계산해야한다. [ 그림 1] 에서차를 과 타고 의후보가각각 4 개씩이므로두어절사이에서구해야하는전이확률은총 16 가지이고, 타고 와 떠났다. 사이의것을합치면총 20 개이다. [ 그림 1] 의모습은일부후보를생략한것이며, 실제로는더많은후보가존재 ( 기분석사전 ) 하거나, 생성될수있기때문에더많은전이확률정보가필요하다. 각전이확률을학습된정보에서찾는과정과, 모든전이확률들로부터최적열을구하는과정에서 HMM 은 MM 보다컴퓨터자원을많이사용해야한다. 3.2 마르코프모델 - 153 -

MM 은오직관찰된정보만을이용하여알고자하는은닉된정보를추측한다. 태깅에서는인접한어절들과현재어절의표층형이관찰된정보고, 현재어절의분석내용이추측하고자하는은닉정보다. MM 중에서직접적으로인접한어절만을고려하면 Bigram MM 이라고하며, [ 그림 2] 는 Bigram MM 으로분석중인예이다. 각어절의후보는인접어절의표층형과의전이확률을고려한다. 차를 의후보 4 개는인접어절인 타고 와의전이확률만을계산하고, 타고 의후보 4 개는 차를 과의전이확률을, 그리고 떠났다. 와의전이확률 4 개를계산한다. 따라서그두어절사이에필요한전이확률계산은총 8 개이고, 타고 와 떠났다 사이의것 4 개를합치면총 12 개로 [ 그림 1] 의것보다적다. [8] 에서제안하는모델과마찬가지로, 인접한어절의표층형전체를전이모델에포함하는것은학습용량과재현율측면에서비효율적이기때문에일부만을포함하는것이좋다. 1 개의어절만포함하기엔인접한어절을너무모호하게표현하고, 3 어절이상을포함하면어절내용을이미거의다포함하기때문에본논문에서는인접한어절들에서로가장가까운 2 음절씩을학습하는것을제안한다. 예를들어 타고 와 떠났다. 사이에서첫번째로구하는전이확률은 * 타고 와 떠났 * 을통해서구한다. 말뭉치에서위의각각 2 음절을모두포함하는인접한쌍어절을찾고, 해당어절에태깅된형태소가분석후보에포함되는지확인하는방식이다. 이모델을 Bi-Syllable of End and First(BIS-EF) 이라고한다. 3.3 MM 과음운변동 태깅에서 MM 모델이가지는문제점은표층형을중심으로전이모델이구성되기때문에동사의음운변동에취약하다는것이다. 예를들어서 타고떠났다. 와 타고떠난다. 는표층형이다르기때문에구분된다. 둘다우측어절은 떠나 /VV 를사용하지만 2 번째음절이 났 과 난 으로다르기때문에한쪽문장을학습하면다른한쪽문장이입력으로들어올때학습된내용이적용되지못한다. 이런특성은 HMM 을사용한방법 [8] 보 다재현율이낮아질요소다. 때문에본논문에서제안하는 BIS-EF 모델에서는일반적인재현에실패할경우에표층형대신형태소원형을사용하는단계를전이모델에추가한다. 이경우전이확률의가짓수는 Bigram HMM 과마찬가지로두어절의분석후보수의곱만큼많아지게되지만, 오직두어절사이에서전이확률만계산하여결정하기때문에최적열을연산하는 Viterbi 과정은없다. 3.4 MM 과부사절 Bigram 을기반으로하는모델은인접어절을기준으로의미를결정하기때문에부사는악영향을줄수있다. 예를들어서 차를빨리마셨다. 를처리한다면, 차를 의의미를결정지어주는어절은 마셨다. 이지만부사 빨리 에의해인접하지못하게된다. 이런경우에 BIS-EF 는부사와함께그다음어절도마치인접한것과마찬가지로취급하여전이확률을계산한다. HMM 에비하여이런튜닝은 MM 에서더쉽게구현이가능하다. 4. 전체시스템구성 전체시스템은 [ 그림 3] 과같이, 먼저문장을입력받으면서시작한다. 문장은공백을기준으로어절들로분리되고, 각어절은 CKMA[2] 모듈에입력되면분석후보들이출력된다. 인접한어절쌍단위로 BIS-EF 모듈에입력되면각후보별로확률점수가계산되고, 어절별로가장높은점수를가진후보가선택되어최종결과로출력된다. 5. 실험결과 본논문의실험을위해사용된 CKMA 는 [2] 이후계속된개선작업을통해일부분이변경된것으로정확률이조금더높다. 때문에 HMM 과의엄격한비교를위해 [8] 의실험을수정된 CKMA 와동일한말뭉치로다시시행하였다. 말뭉치는일부오류가수정된세종말뭉치를사용하였 - 154 -

더욱향상시킬수있을것으로예상된다. 으며, 약 1 천만어절을포함한다. 문장단위로잘라서 10 문장중에 1 문장씩을제외하여테스트셋을구성하였고, 나머지 9 문장씩을학습에사용하였다. [ 표 1] 은 HMM 과 BIS-EF 를비교실험한결과다. 둘다완전히동일한말뭉치와테스트셋을사용했으며, 동일한버전의 CKMA 를사용하여분석후보를생성하였다. 시간측정은 CKMA 에소모된시간을제외한것으로순수하게 HMM 또는 BIS-EF 에서소모된시간만측정한것이다. [ 표 1] 의실험결과에따르면본논문이제안하는 BIS-EF 는 HMM 에비하여약 0.2% 낮은정확률을보이지만속도가약 2.1 배빠른것으로나타난다. 참고문헌 [1] 강승식, " 다층형태론과한국어형태소분석모델 ", 제6회한글및한국어정보처리학술발표논문집, pp.140-145, 1994. [2] 신준철, 옥철영, 기분석부분어절사전을활용한한국어형태소분석기, 정보과학회논문지 : 소프트웨어및응용, 제39권, 제5호, pp.415-424, 2012.5. [3] 김영훈, " 한국어에적합한효율적인품사태깅 ", 한국콘텐츠학회논문지, 제2권, 제2호, pp.98-102, 2002.6. [4] 신중호, 한영석, 박영찬, 최기선, " 어절구조를반영한은닉마르코프모델을이용한한국어품사태깅 ", 한글및한국어정보처리학술대회, p389-394, 1994.10. [5] 김재훈, 임철수, 서정연, " 은닉마르코프모델을이용한효율적인한국어품사의태깅 ", 정보과학회논문지, 제22권, 제1호, pp.136-146, 1995.1. [6] 강유환, 서영훈, " 어절간주품사정보와제약규칙을이용한한국어품사태깅시스템 ", 제11회한글및한국어정보처리학술대회, pp.433-437, 1999.10. [7] 설용수, 김동주, 김규상, 김한우, " 말뭉치오류를고려한 HMM 한국어품사태깅시스템 ", 한국컴퓨터정보학회지, 제15권, 제1호, pp.117-124, 2007. [8] 신준철, 옥철영, " 한국어품사및동형이의어태깅을위한단계벌전이모델 ", 정보과학회논문지 : 소프트웨어및응용, 제39권, 제11호, pp.889-901, 2012. 5. 결론 품사및동형이의어가태깅된형태소분석후보에서적절한후보 1 개를선택하는방법으로 HMM 은이미많이연구된모델이다. HMM 으로도높은정확률을보이고있으나, 본논문에서는속도를더욱개선하기위해더단순한 MM 모델에기반을둔 BIS-EF 를제안한다. BIS-EF 는기존 HMM 에비하여정확률이 0.2% 낮지만, 속도는 2 배이상빠른결과를보여주었다. 따라서정확률보다속도를필요로하는곳에서더적합할것이다. 또한 BIS-EF 는한가지전이모델만을사용하고있어개선의여지가많이남아있다. 좀더다양한전이모델을추가해서단계적으로또는동시에적용한다면정확률을 - 155 -

Y-HisOnto: Q&A 시스템에서의활용을위한역사온톨로지모형 이인근 O, 정재은, 황도삼경북대학교의료정보학과 O, 영남대학교컴퓨터공학과 inkeunlee@gmail.com, j2jung@gmail.com, dshwang@yu.ac.kr Y-HisOnto: A History Ontology Model for Q&A System In Keun Lee, Jason J. Jung, Dosam Hwang Department of Medical Informatics, Kyungpook National University School of Medicine O Department of Computer Engineering, Yeungnam University 요약 본논문에서는시간개념이포함된역사적지식을표현할수있는사건온톨로지 (event ontology) 기반의역사온톨로지모형인 Y-HisOnto 를제안한다. 제안한역사온톨로지모형은기존의온톨로지에서사용되는이진관계 (binary-relationship) 로표현된단편적지식들을조합하여다진관계 (n-ary relationship) 를이용하여역사적사건관련지식을표현한다. 제안한온톨로지모형에기반하여사건중심의지식을온톨로지로구축하고, 사건관련질의에대해온톨로지논리검색실험을수행함으로써제안한온톨로지모형이 Q&A 시스템에서효과적으로활용될수있음을확인한다. 주제어 : 사건온톨로지 (event ontology), 역사온톨로지, 질의응답시스템 (Q&A System) 1. 서론 컴퓨터를통한지식의구축및활용요구에따라질의응답 (Question and Answer: Q&A) 시스템에관한연구가수행되어왔고 [1-3], 컴퓨터를통한지식의표현을위해최근에는온톨로지를이용하는방법에대한연구가활발히수행되고있다 [4-6]. T.Gruber의온톨로지정의에의하면, 온톨로지는광범위한지식보다는관심영역내의합의된지식을체계적으로구축하는것이온톨로지의활용측면에서더의미가있다고해석할수있다. 이에따라다양한분야에서분야전문지식을온톨로지로구축하고효과적으로활용하기위한연구가수행되어왔다. 특히, 유럽에서는 VICODI project[7] 를통해유럽의역사적지식을온톨로지로표현하려는연구가수행되었다. 타분야의지식과달리, 역사적사실의전개는주로사건 (event) 에기반하여기술되고있으며, 사건은시간에종속되어표현된다. 따라서이러한복잡한형태의역사적지식을표현하고활용하는방법의연구가필요하다. 역사에서하나의사건은주체, 시간, 대상, 장소, 행위등과같이개념들이복잡한의미관계를형성하고있으며, 사건이일어나는원인이나특정사건에의해발생되는결과의표현을위해서는역사적지식이사건중심으로표현되어야한다. 실제 RDF(S), F-logic, OWL (web ontology language) 등과같은다양한온톨로지언어 [4] 들이지식의표현을위해사용되고있고, 이들언어들은이진관계 (binary-relationship) 로단편적지식을표현한다. 특히 OWL[8] 에서는지식의표현을위해개념 (class), 개체 (individual), 속성 (property), S-P-O (subject-predicate-object) 형태의개념간의관계 (relationship), 개념의범위를지정하기위한제약사항 (restriction), 그리고 string, integer 등과같은데이터 (data) 등의온톨로지요소를정의하고있다. 그러나 OWL 에서와같이단순한이진관계로는복잡한사건지식을표현하기어렵다. 따라서본논문에서는시간개념이포함된역사적지식을사건기반으로구축하고활용할수있는온톨로지모형인 Y-HisOnto 를제안한다. 제안한온톨로지모형은이진관계를조합하여다진관계 (n-ary relationship) 를표현하는사건온톨로지 (event ontology)[5,6] 를이용한다. 그리고제안한온톨로지모형에기반하여사건중심의지식을구축하고, 제안한온톨로지의 Q&A 시스템에서의효용성을확인하기위해온톨로지논리검색실험을수행한다. 2. 역사온톨로지모형의설계 이진관계를이용하여이벤트중심의역사지식을표현하기위해서그림 1 과같은형태로온톨로지를구성한다. 즉, 특정 사건 개념을중심으로사건의부가적인정보를표현하기위해, 사건을유발한 인물, 사건이발생한 장소, 사건의발생및종료시간, 그리고사건의발생목적과해당사건으로인해야기되는 사건 등과같은정보가필요하다. 그림 1 에서보는바와같이, 이러한정보를온톨로지로표현하기위해 인물, 장소, 사건 을개념으로표현하고, 화살표근처의 주체, 장소, 인과, 목적 은모두개념간의관계형성을위한속성으로나타낸다. 특히, 시작시간 과 종료시간 의속성은사건의발생및종료시점을나타내는것으로, 그값은정수 (integer) 로표현하도록하였다. 그러나이값은날짜 - 156 -

(datetime) 등과같은다양한자료형으로정의할수있다. 차논리 (First-order logic) 를이용하여 P(S, O) 형태로사건지식을나타낸것이다. [ 표현 1] 주체 ( 동학운동, 민중 ) 주체 ( 동학운동, 전봉준 ) 장소 ( 동학운동, 조선 ) 인과 ( 동학운동, 청일전쟁 ) 시작시간 ( 동학운동, 1893) 종료시간 ( 동학운동, 1895) 목적 ( 동학운동, 신분제도철폐 ) 3. 역사온톨로지모형의활용 그림 1. 사건지식표현을위한온톨로지스키마예 제안한온톨로지모형에기반하여특정역사적사건지식을 Protégé[9] 를이용하여온톨로지로구축하고, 구축한온톨로지를 Q&A 시스템에서의활용에대한효용성을확인하기위해 SPARQL[10] 을이용하여몇가지질의에대한온톨로지논리검색을수행한다. 그림 3 은온톨로지에정의한개체 (individual) 를보이며, 그림 4 는개체간의관계를통해사건지식을표현한예를보인다. 또한, 그림 5 는 Protégé 를이용하여역사온톨로지를구축하는것을보인다. 본논문에서온톨로지요소에대한 Namespace 는 http://ontology.yu.ac.kr/event 이며, 이에대한 Prefix 를 ynu 로지정하였다. 그러나그림 3 과 4 에서는편의상이를생략하였다. 그림 2. 역사적사건지식의온톨로지표현예 그림 2 는 전봉준을중심으로신분제도철폐를위해조선에서일어난민중봉기인동학운동은청일전쟁의원인이되었다 의역사적사건지식을그림 1 의온톨로지스키마에기반하여온톨로지로표현한예를보인다. 즉, [ 표현 1] 에서와같이이진관계들을조합으로하나의사건지식은상세하게나타낼수있다. [ 표현 1] 에서는일 그림 3. 역사온톨로지에서의개체정의 그림 4. 역사온톨로지구축예 - 157 -

그림 5. Protégé 를이용한역사온톨로지구축 특정 Q&A 시스템에서구축한역사온톨로지를이용하여사용자의 3 가지질의에대해답을제시하는상황을가정하여실험을수행하였다. 온톨로지의논리검색은 Protégé 에서제공하는검색엔진및검색인터페이스를이용하였다. 논리검색을위한사용자의 3 가지질의는다음과같다. [ 질의 1] 민중 이일으킨사건은무엇인가? [ 질의 2] 갑오개혁 으로인해야기된사건은무엇인가? [ 질의 3] 고종의재위기간 (1863~1897) 중일어난 민중 사건 (1) 과그로인해야기된사건 (2) 은무엇인가? [ 질의 1] 로부터주체가 민중 인사건의검색을위해 [SPARQL 질의 1] 을생성하여논리검색을수행하였고, 그림 6 과같이검색결과로 홍경래의난, 동학운동, 진주민란 을얻었다. [SPARQL 질의 1] SELECT?event WHERE { }?event rdf:type ynu: 사건.?event ynu: 주체 ynu: 민중. 그림 6. [ 질의 1] 에대한온톨로지논리검색 [ 질의 2] 로부터사건 갑오개혁 이원인이되는사건의검색을위해 [SPARQL 질의 2] 을생성하여논리검색을수행하였고, 그림 7 과같이검색결과로 과부의재혼, 조혼금지, 연좌재폐지, 의복간소화 를얻었다. [SPARQL 질의 2] SELECT?event WHERE { } ynu: 갑오개혁 ynu: 인과?event. 그림 7. [ 질의 2] 에대한온톨로지논리검색 - 158 -

[ 질의 3] 으로부터 1863 년 ~1897 년사이에발생한사건으로써주체가 민중 인사건 (1) 의검색, 그리고사건 (1) 과인과관계가있는사건 (2) 의검색을위해 [SPARQL 질의 3] 을생성하여논리검색을수행하였다. 검색결과를통해그림 8 과같이사건 (1) 은 동학운동 을, 사건 (2) 는 청일전쟁 임을알수있었다. [SPARQL 질의 3] SELECT?event1?event2 WHERE { }?event1 rdf:type ynu: 사건.?event1 ynu: 주체 ynu: 민중.?event1 ynu: 시작시간?time1.?event1 ynu: 종료시간?time2. FILTER (?time1 >= 1863 &&?time2 <= 1897 )?event1 ynu: 인과?event2. 그림 8. [ 질의 3] 에대한온톨로지논리검색 본실험을통해역사적사건지식을온톨로지로구축하고, Q&A 시스템에서복잡한사용자의질의에대해논리적검색을통해답을제공할수있음을확인하였다. 4. 결론 본논문에서는복잡하게표현되는역사적사건을온톨로지모형인 Y-HisOnto 를설계하여제시하고구축함으로써 Q&A 시스템에서의활용가능성을확인하였다. 구축한온톨로지의활용을위해서는온톨로지의검색을통해지식을추출해야한다. 또한검색대상과온톨로지모형의설계에따라검색방법이달라질것이다. 즉, 본실험에서사용한 SPARQL 질의는실험을위해구축한역사온톨로지를기반으로작성한것이다. 따라서만일온톨로지스키마가새롭게정의되고, 그에기반하여새롭게온톨로지가구축된다면좀더다양한조건의검색질의가생성되어야한다. 역사적지식을정형화하여표현함에있어다음과같은문제들을고려해야한다. 즉, (1) 동일한사건및대상의상태는시간에따라변화할수있고, (2) 역사적기록은주관적이어서온톨로지에서의지식표현의일관성의유지가어려우며, (3) 역사적으로복잡한사건간의인과관계를단편적으로정의하기가어렵다. 따라서본논문에 서제시한온톨로지스키마는모든역사적지식을구축하기에는무리가있다. 본논문에서는시간개념을포함된사건지식및그들사이의인관관계를형성하기위한방법을제안하고, 그의활용가능성을확인하였다는것에의미가있다고본다. 또한, 역사지식의정형화및온톨로지로의표현방법에대한구체적인연구는지속적으로수행되어야하며, 이에대한연구는향후지속할계획이다. Acknowledgement 본연구는미래창조과학부및한국산업기술평가관리원의산업융합원천기술개발사업의일환으로수행하였음 [10044457, 자율지능형지식 / 기기협업프레임워크기술개발 ] 참고문헌 [1] S. Kim, D. Baek, S. Kim, and H. Rim Question Answering Considering Semantic Categories and Co-occurrence Density, In Proceeding of 9th Text Retrieval Conference, pp. 317-325, 2000. [2] K.C. Litkowski, CL Research Experiments in TREC-10 Question Answering, In Proceeding of 10th Text Retrieval Conference, pp. 122-131, 2001. [3] S. Vassiliadis, G. Triantafyllos, and W. Kobrosl y, A Fuzzy Reasoning Database Question Answeri ng System, IEEE Transactions on knowledge and data engineering, Vol. 6, No. 6, pp. 868-882, 19 94. [4] A.G. Perez, M.F. Lopez, and O. Corcho, Ontological Engineering, Springer, 2005. [5] H. Lin and J. Liang, Event-based ontology design for retrieving digital archives on human religious self-help consulting, In Proceeding of IEEE International Conference on EEE'05, pp. 522 527, 2005. [6] Y. Raimond and S. Abdallah, The Event Ontolog y, http://motools.sourceforge.net/ event/even t.html, 2004. [7] VICODI project, http://www.vicodi.org, 2013. [8] OWL Web Ontology Language Guide, http://www.w3.o rg/tr/owl-guide, 2009. [9] Protégé, http://protege.stanford.edu, 2013. [10] SPARQL Query Language for RDF, http://www.w3.or g/tr/rdf-sparql-query, 2013. - 159 -

블로그포스트의자동분류시스템 조희선 O, 김수아, 이현아금오공과대학교컴퓨터소프트웨어공학과 shinhwa3528@naver.com, sa4956@nate.com, halee@kumoh.ac.kr Automatic Classification of Blog Posts Hee-Sun Jho, Su-Ah Kim, Hyun-Ah Lee Kumoh National Institute of Technology, Department of Computer software Engineering 요약 편리한블로그사용과블로그에서의정보탐색을위해서는내용에기반한분류가필요하다. 대부분의블로그사이트에서는내용기반분류를제공하고있으나, 블로거들은자신이작성한블로그에대한수동분류를입력하지않는경우가많다. 본논문에서는분류가제공되는블로그사이트에서각분류별문서를수집하고, 어휘빈도와문서빈도, 분류별빈도를활용하여문서내어휘의자질가중치를부여하고, 다양한학습기를이용하여분류모델을생성한뒤블로그의특성에적합한자질추출알고리즘과분류알고리즘을찾아낸다. 실험에서는본논문에서고안한 CTF-IECDF 와나이브베이즈멀티노미얼로조합한분류모델이 75.40% 의분류정확률을보였다. 주제어 : 블로그, 자동분류, 자질추출 1. 서론 정보개방과사용자참여를가능하게하는웹 2.0 의시대에블로그는웹 2.0 의특성을살린 1 인미디어로부상하고있다. 최근에는많은이용자들이블로그를개인적기록이나사회참여의도구로사용할뿐만아니라, 취미나관심분야의정보획득및공유의목적으로많이사용하고있다 [1]. 블로그사용자가늘어남에따라서블로그사이트에서는주제와목적에맞게블로그를분류하는서비스를제공하고있다. 블로그글이주제에맞게분류가되어있다면, 블로그를통해정보를찾으려는사용자는많은시간과노력을감소할수있다. 하지만, 다양한분야 ( 예를들어영화, IT, 주식 ) 의블로그포스트는하나의분류로대응시키기적합하지않을수있고, 블로그포스트를작성할때마다포스트의분류를결정하게하는네이버블로그의경우대부분의블로거들이기본분류를선택하는양상을보이고있다. 본논문에서는네이버블로그에서주제별분류가등록된포스트들을수집하고, 이를학습데이터로사용하여자동으로포스트의주제별분류를추천하기위한시스템을제안한다. 시스템에서는분류의특성을추출하기위하여네가지의방식을제시한다. 분류에서는다양한학습방법을적용해본다. 각각의결과에대한분석과평가를통해블로그글의특성에맞는특성추출알고리즘과분류알고리즘으로블로그자동분류시스템을구현한다. 2. 관련연구 문서에대한자동분류연구에서는문서에포함된단어의특성을주로이용한다. 국내연구중에서 [2] 는웹 문서에대한텍스트자동분류를위한특성추출기법을제안한다. 학습문서벡터는웹디렉터리내의문서로부터추출된단어및관련문서를기반으로구성하였으며, 학습문서구성후 SVM 학습기를통해모델을구성하여문서분류를수행하였다. 이연구에서는클래스간의연관성이높은경우낮은성능을보이는문제점이있었고추가적인학습문서의정제가필요하였다. [3] 에서는한글웹문서에사용된한글형태소및키워드의빈도에기초하여문서의특성을추출하는방법을제시하고, 이를기초로비구조적인문서의주제를자동으로분류하는방법을제시하였다. 의사결정트리, 신경망모델및 SVM 방법을사용하였으며, 주제간구분이명확할수록정확도는증가함을보였다. 3. 블로그포스트의자동분류시스템 3.1 블로그글수집 국내의대표적인블로그사이트인네이버, 다음, 티스토리에서수집된블로그문서를기준으로적합한분류를조사한 [4] 에서네이버블로그는장르분류일치도에서도높은결과를보였다. 본연구에서는네이버의장르, 즉분류가부착된블로그를이용하여학습에사용한다. 네이버블로그에는총 30 개의분류가존재한다. 하지만, 각분류들은글을수집하여분석하고학습데이터로쓸만큼충분한양의글이올라오지않는경우가있었다. 또한, 분류의주제에맞지않는광고성글이존재하는경우도존재했다. 이러한문제를보완하기위해, 네이버의 30 개의분류중일부를제거하거나병합하여아래 [ 그림 1] 과같은 16 개분류를얻고, 이를이용하여자동분류를수행한다. - 160 -

문학-책 육아-결혼 여행 요리-레시피 / 맛집 영화 건강-의학 스포츠 미술-디자인 / 공연-전시 음악 패션-미용 자동차 사회-정치 인테리어 IT-컴퓨터 게임 애완-반려동물 [ 그림 1] 블로그분류를위한 16 개분류 3.2 단어별주제분별점수계산 문서분류를위한문서특성은제목과본문에서사용되는명사에서추출한다. 단어들을정확히추출하기위해서조사나어미의구분이필요하다. 한국어형태소분석기를이용하여문서내의단어를추출한뒤, 각단어의빈도를분석한다. 각문서의단어점수는문서에서발생한단어의빈도에단어의주제분별점수를곱하여얻는다. 이때문서의크기가커지면문서에서발생한단어의절대빈도도커지므로정규화가필요하다. 문서 에서발생한단어 의빈도수에문서 의총단어수로나누어정규화한 를식 (1) 로구한다. 문서 에서단어 의빈도 문서 의총단어빈도 정규화한단어빈도 와아래에설명할 4 가지방식으로구한주제분별점수를곱하여문서내단어의주제분별력점수를생성한다. 아래에서는각주제별점수계산방식을설명한다. 3.2.1 는문서빈도를이용하여단어의희소성이나정보성을표현하는통계적방법으로, 첫번째방식에서는 단어 의주제분별점수를구한다. 는전체문서수에서단어 가발생한문서의빈도를나눈값에 log 를취한값으로서식으로표현하면다음식 (2) 과같다. 전체문서의수 log 단어 가존재하는문서의수 3.2.2 는분류 에서의단어누적빈도와 를제외한분류에서의 값을통해, 분류 에서의단어중요도를계산한다. 는문서내빈도인 TF 를분류내빈도로확장시킨값이며, 는특정분류를제외한 를의미한다. 이방식에서는단어 의누적빈도가가장큰분류를단어 의대표분류로보고, 해당당분류 를수식 (3) 으로얻는다. 에서의단어 의누적빈도 ( ) 를수식 (4) 로얻는다. max arg max 에서의단어 의누적빈도 max 에서단어 의누적빈도 수식 (5) 는 를구한다. 수식에서 는전체분류에서 를제외한모든분류를의미한다. 분류 분류들에서의단어 의 값인 와 (4) 의 값을곱한후루트를취하여단어 의주제분별점수를구한다. 의값은각각의점수차이가크기때문에루트를취하여편차를줄인다. 의문서수 log 에서 가존재하는문서수 3.2.3 에서 CDF 는단어의 내문서빈도를의미한다. 수식 (3) 의 를이용하여, 에서의문서빈도인 를수식 (7) 으로구한다. max 에서단어 가발생한문서수 카테고리 max 의문서수 에서는식 (2) 의 와식 (7) 의 를곱하여주제분별점수를구한다. 를통해해당단어가대표분류에서폭넓게사용될수록, 를통해해당단어가희소성이높을수록높은점수를얻는다. 3.2.4 는앞의방식에서사용한 값과 값을곱하여주제분별력을계산한다. 를통해해당단어가대표분류에서폭넓게사용될수록높은점수를얻을수있고, 특정분류를제외한 인 를사용하여나머지분류에서의희소성이높을수록높은점수를얻는다. 3.3 분류모델생성 문서별로주제분별점수가구해지면이를이용하여분류모델을생성한다. 먼저, 학습용문서집합을이용하여분류모델을생성하고평가한다. 분류모델생성을위하여기존의소프트웨어 WEKA 3.6.10 에구현된컴플리먼트나이브베이즈, 나이브베이즈멀티노미얼, SVM 알고리즘을사용하였다. 각분류알고리즘을이용해입력을각문서별단어에대한주제분별단어점수로하고출력을주제필드로설정하여각각의분류모델을생성한다. 분류모델의검증은생성과마찬가지로검증용문서집합을이용하여생성된각분류모델의정확도를검증한다. 4. 실험및평가 본논문에서제안하는네가지의특성추출방식과 3 가지의분류학습기를통한분류정확률실험및평가한 - 161 -

다. 학습데이터와테스트데이터는따로수집하였다. 실험에서는각분류별 500 개총 8000 개의학습데이터를이용하였으며, 실험데이터는분류별 200 개, 총 3200 개를사용한다. [ 표 1] 은결과를보인다. Test data 200 [ 표 1] 분류학습기에따른분류정확률 컴플리먼트나이브베이즈 나이브베이즈멀티노미얼 SVM TF-IDF 44.06% 43.31% 6.25% CTF-IECDF 73.26% 75.40% 69.06% CDF-IDF 70.01% 58.64% 25.96% CDF-IECDF 72.40% 72.61% 58.63% 기존의 TF-IDF는 3가지분류학습기를이용한결과모두에서 50% 가되지않는분류정확률을보였다. TF-IDF 는분류정보가반영되지않고, 키워드의단순빈도와단순한문서에서의 IDF를이용하여문서를분류하여낮은정확률을보이는것으로분석되었다. 컴플리먼트나이브베이즈로학습한 CTF-IECDF는 TF-IDF와 29.2% 의차이로더높은분류정확률을보였다. CDF-IDF와 CDF-IECDF는약 2% 차이로전체적으로비슷한정확률을보였다. 나이브베이즈멀티노말로학습을한결과에서 CTF-IECDF가 3가지방식의실험중 75.40% 로가장높은정확률을보였고, 반대로 CDF-IDF는가장낮은결과를보였다. 전체적인실험결과는 CTF-IECDF가다른방식들보다가장높은정확률을보였다. 그리고 SVM으로학습을한결과는다른분류학습기를사용했을때보다비교적낮은정확률을보였다. 본연구에서는실험결과에서정확률이높은상위 6개를이용하여블로그자동분류시스템을구축하였다. [ 그림 2] 는실행예를보인다. 시스템에서사용자가포스트를작성한뒤저장버튼을누르면자동으로추천카테고리를제시하는방법으로구동된다. 시스템에서는 6 개의분류기법에서얻어진분류를투표방식 (voting) 을적용하여, 가장많이추천된분류부터순서대로사용자에게제시된다. 실행예에서포스트는육아와관련한책을소개하는글로서, [ 문학-책 ] 과 [ 육아 _ 결혼 ] 의분류를추천하는결과를볼수있다. 5. 결론 문서분류에 TF-IDF 를변형하여새로운알고리즘을만드는연구는다양하게존재한다. 하지만기사와같이의도가분명한글에관한분류와달리다양한개성을가진사용자들의글이존재하는블로그문서에대한연구는드물다. 본논문에서는블로그포스트를자동으로분류하기위해 TF 와 IDF 를분류로확장시킨특성추출알고리즘을사용하여정확률을실험하였다. 제안된방식에서나이브베이즈를사용한분류모델이비교적높은정확률을보였고, IDF 를사용한것보다 IECDF 를사용했을때블로그문서의분류가더정확하게수행되었다. TF 보다는분류로확장한 CDF 나 CTF 를사용하는것이더정확한결과를보였다. 블로그문서는정형적인텍스트가아니기때문에오타나신조어등에민감할수있는데이러한점은형태소분석기의성능이향상되거나고유명사사전등을구축하면해결할수있을것이라고기대한다. 그리고문서자동분류에서문서필터링으로의확장이추후연구가될수있다. 참고문헌 [1] Young-Ju Kim, "A Study on the Blog as a Media : Focused on Media Functions and the Problems of the Blog", Korean journal of journalism & communication studies, Vol.50, No.2, 2006. [2] 박단호, 최원식, 김홍조, 이석룡, " 한글형태소및키워드분석에기반한웹문서분류 ", 정보처리학회논문지 (D), pp.263-270, 2012. [3] 강윤희, 박용범, "SVM 을이용한디렉토리기반기술정보문서자동분류시스템설계 ", 전기전자학회 Vol.8.No.2, pp. 186-194, 2004. [4] Hae Young Kim, "An Experimental Study On Semi-Supervised Classification of Blog Genres", MS Thesis, Yonsei University, 2009. [ 그림 2] 블로그포스트를시스템에입력한결과 - 162 -

코사인유사도기법을이용한뉴스추천시스템 김상모 O, 김형준, 한인규국민대학교임베디드시스템연구실 simon@koama.net, dndnwjs@gmail.com, in1004kyu@gmail.com SNS news Recommendation by Using Cosine Similarity Simon Kim O, Hyung-Jun Kim, In-Kyu Han Kookmin University, Embedded System Lab. 요약 사용자별로 SNS/RSS 구독뉴스분석을통해사용자가관심이있는새로운뉴스를추천해주는시스템을설계하고구현한다. 뉴스추천시스템의설계를위해전체시스템에서사용자와서버에서의작업을명세하고, 이중에주요기능을담당하는부분을구현한다. 구현된주요기능은선호문서가들어왔을때특징을추출하고이를저장하는것과새로운문서가들어왔을때선호문서군과얼마나유사한지판별하여문서에대한추천여부를결정하는것이다. 선호문서의특징추출에대해서는형태소분석을통해단어와빈도를추출하고이를누적하여저장한다. 또한, 새로운문서가들어왔을때코사인유사도를계산하여사용자가선호하는학습문서와의유사도비교를통해문서추천여부를결정한다. 구현된시스템에서실제로연관된선호문서군을학습시키고, 연관된새로운문서혹은연관되지않은새로운문서에대한추천여부를비교하는것으로시스템정확도를파악한다. 주제어 : Naïve Baysian, 코사인유사도, 형태소분석, 문서벡터 1. 서론 오늘날사용자들은각종매체에서많은뉴스를접한다. 이중원하는뉴스를골라보기위해서전체뉴스들을살펴보아야하는번거로움이있다. 이때문에자동적으로사용자가좋아할만한뉴스를제공해주는서비스가구글에서제공됐다 [1]. 하지만이는사용자가어떤뉴스를클릭해서들어갔는지에대한패턴조사에따른추천시스템이다. 단순히뉴스를본것에그치는것이아니라사용자자신이 Facebook 의 좋아요 를클릭한행동에따라추천해준다면더정확한뉴스의추천이가능할것이다. 또한현재 Facebook, Google Plus 와같은소셜네트워크를통한뉴스의제공이늘어나고있는추세이다. 그림 1 에서보는것처럼소셜네트워크로부터의뉴스제공량이 2010 에서 2012 년까지 10% 의상승폭을보이고있다 [2]. 이러한이유로인해사용자선호도측정에사용할뉴스를소셜네트워크에서제공되는것을기준으로잡고타소셜네트워크 (Twitter) 와 RSS 에서제공되는뉴스에서사용자가좋아할만한뉴스를추천해서보여주는시스템을개발하고자한다. 여기서해당시스템의사용자가 10 만명이라고가정할때각사용자의평균뉴스구독수를 5 개, 사용자가업로드하는뉴스를 20 개라고가정하면, 하루에생성되는뉴스의양은약 1,000 만개가된다. 생성된모든뉴스중사용자의관심을끌만한뉴스를일일이찾아본다는것은매우번거러운작업이다. 하지만이미선호하는뉴스에대한정보는 SNS/RSS 구독정보를통해얻을수있다. 따라서우리는각사용자별 SNS/RSS 구독정보에대한분석을통해많은양의새로운뉴스가생성되었을때이 중사용자가관심을가질가능성이높은뉴스를기존에관심이있었던문서들과의유사도를기준으로추천해주는시스템을설계하고구현하고자한다. 2. 관련연구 본연구에서의주요기능들은자연어처리기법을기반으로구현되었다. 문서의내용을분석하고자대상어절의모든가능한분석결과를출력하는형태소분석이나문서내용분석을기반으로문서의범주를이미정의된범주에할당하는문서분류같은것이이에해당된다. 형태소란자연언어에서 의미를갖는최소의단위 이며형태소분석은하나의말마디를여러형태소로분리한후에형태적변형을처리하는것이다 [3,4,5]. - 163 -

문서분류는인터넷상의블로그나 SNS 등때문에증가하는문서의양으로인해. 효율적이며정확한문서범주화를요구하게되며발전하였다 [6,7,8,9]. 문서내용에등장하는용어에기초한통계적방법, 문장의의미를파악하는의미적해석방법, 문장구조에의존하는구조적방법으로구별된다. 문헌에나타난용어의특성분석을바탕으로하는자동분류시스템의연구가가장활발하게이루어지고있다. 또한, 한글과영어는형태론적구조가다르므로형태소추출과정은다르지만추출된용어의빈도등의특성분석은본질적으로유사하다 [10,11]. 문서분류는문서내용분석을통해용어집합을통해문서를분류하는방법과분류모델을생성하여문서를분류하는방법이있으며, 또한문장구조를이용하는방법도존재한다 [12,13]. 본연구에서는뉴스가하나의문서이기때문에사용자가선호할뉴스와선호하지않을뉴스에대한분류기술이필요하다. 문서분류기법중에서나이브베이지안방법은조건부확률을단순확률곱연산과나눗셈연산으로간단화시키는방법이다. 어떠한문서가있을때그문서가추천하는클래스에속해있을확률이조건부확률이다. 이확률이높을수록해당문서는추천할만하다고판단한다. 이확률을쉽게구하기위해 Naïve Bayesian 을이용하면독립적인곱셈연산과나눗셈연산으로단순화시키는벡터연산이가능하다. 인별데이터베이스의누적된문서특징벡터를이용하여추천여부를판별한다. 새로운뉴스의내용또한특징벡터를추출하고누적된문서특징벡터와유사도를비교하여추천여부를판단한다. 추천여부에따라개인별로관심을가질만한문서가추천된다. 3. 뉴스추천시스템구조 본연구에서설계한시스템의서비스구조는그림 2 와같다. 사용자는단말에서서버가제공하는 2 가지서비스를받는다. 추천된뉴스를확인하거나, 자신이선호하는뉴스를선택할수있는것이다. 그리고서버는개인별로선호하는뉴스에대한데이터베이스를가지고, 새로운뉴스를 SNS/RSS 를통해얻고, 이중사용자가관심을가질만한뉴스를추천해주는것이다. 중요구성요소별시나리오는크게 2 가지로나뉜다. 먼저사용자가선호뉴스를등록하면선호뉴스로등록된뉴스는문서로간주하고해당문서에대한특징벡터를추출한다. 추출된특징벡터는개인데이터베이스에누적되어저장된다. 매일새로운뉴스가업로드되면개 3.1 뉴스추천시스템의구조그림 4 는중요구성요소를구현하기위한전체시스템구조를나타낸다. 사용자가선호한다고표시한뉴스를 User Liked News 로정의하고, RSS/SNS 로부터유입되는뉴스를 Subscribed News 라정의한다. User Liked News 를입력문서로하는 Trainer Daemon 컴포넌트는특징벡터 ( 한문서에서사용된단어와해당단어의개수의매핑벡터 ) 인 Document Vector 를추출하여 Personalized Document Vector List(PDVL) 라는데이터저장소에저장한다. 이저장소는각개인별로존재하며이를기반으로사용자별추천여부를계산한다. 매일새로생성되는 Subscribed News 와 PDVL 을기반으로 Evaluation Daemon 컴포넌트에서는새로운뉴스에점수를매긴다. 계산된점수는선호뉴스들과의유사도를나타내는 Similarity Score 로정의된다. 이점수와사용자별유사도정도를나타내는 Personal Recommend degree 와비교하여추천여부를결정한다. - 164 -

3.2 학습데몬학습데몬 (Trainer Daemon) 은사용자가선호하는문서에대한정보들을수집하고저장하는모듈이다. 사용자가선호하는뉴스가들어오면이는문서로취급되며 D2V(Document to Vector) 라불리는문서에서특징벡터를추출하는모듈에입력된다. D2V 모듈은문서내부단어들을고유 ID 값과단어의빈도수를나타내는 COUNT 값으로이루어진벡터인 Document Vector 로만들어서 PDVL 에저장한다. 모듈은필수기능외에고유 ID 값을다루는모듈이필요하다. 따라서시스템전체단어를관리하는테이블이필요하다. 이테이블을다루는기능을담당하는모듈은 Global Term ID Table(GTT) 로정의하였다. D2V 는문서를벡터화하는과정에서 GTT 를참조하며, 새로운단어가들어오면 GTT 를업데이트하여새로운 ID 값을제공받는다. Training 을하고나서현재 PDVL 의데이터와선호뉴스와의유사도계산방식으로뉴스추천기준값 Similarity Score 를계산한다. 이기준값은이후새로들어온뉴스와의유사도계산점수와비교하는기준값이된다. 해당점수는 PDVL 과사용자가선호하는뉴스와의유사도점수이기때문에이보다높으면추천정도가높다고볼수있다. 뉴스추천기준값 Similarity Score 는개인별데이터베이스에저장한다. 만약저장된 Score 가있다면둘사이의평균값을계산하여새로저장한다. 이점수를개인별추천정도를나타내는 Personal Recommend degree 라고정의한다. 3.3 뉴스추천및평가 Evaluation Daemon 은새로생성된뉴스가사용자가관심을가질만한뉴스인지판별하는모듈이다. 새로운뉴스가업데이트되는것을감지하여, 문서를가져오는기능은구현하지않는다. 새로운뉴스가업데이트되었다고가정하고다양한문서들을모듈의입력데이터로사용한다. 입력된데이터는 D2V 를이용하여특징벡터를추출하고, PDVL 과함께 COSNE 모듈에서코사인유사도연산을통해선호뉴스들과의유사도정도를도출해낸다. 이값은 Similarity Score 로정의되며저장된 Personal Recommend degree 와비교하여추천여부를결정한다. Personal Recommend degree 보다높으면강력한추천으로추천하며, Recommend degree 의 50% 보다높은상위 10 개의문서는보통추천으로추천한다. PDVL 과새로들어온뉴스의 Document Vector 를가지고문서분류연산중하나인코사인유사도알고리즘을사용하여추천문서를추천하는모듈이다. 코사인유사도는그림 7 과같은공식을사용한다. 두백터 a, b 사이의각도를나타내는 cos(θ) 는두벡터 a 와 b 사이의각도를나타내기때문에이를유사도정도로볼수있다. 여기서 cos(θ) 그림 -7 의연산으로구할수있다. 각문서의특징을추출해낸 D2V 는벡터로표현이가능하기때문에이와같은코사인유사도연산에사용이가능하다. 본프로젝트에서 a 는비교할문서의벡터, b 는 PDVL 의벡터가되고 cos(θ) 는 a 와 b 의유사도정도가된다. 4. 실험및성능평가성능측정을위한실험환경은표 1 과같다. 표 1. 실험환경 Intel Core i5-3570 CPU @ CPU 3.40GHz RAM 8GB DDR3 SDRAM OS Ubuntu 12.04 실험데이터는주로 IT 관련뉴스 30 개로 Training 시키고임의의 800 개의뉴스에대하여추천정도를테스트한다. 실험결과학습에사용한 30 개의뉴스와추천기준값이되는유사도보다높은 6 개의뉴스를선호도가매우높다고판단되는강력한추천대상으로하였다. 추천기준값의 50% 보다높은뉴스는약 300 개정도가나왔고그중상위 10 개를보통추천뉴스로하였다. 그리고나 - 165 -

머지뉴스는추천대상에서제외하였다. 추천대상이된뉴스의주제는주로삼성, LG, 구글과같은 IT 업계와관련된뉴스였으며추천기준값의 50% 보다높은뉴스중상위 10 개의뉴스들중 6 개는 IT 와관련된주제의뉴스였지만, 나머지 4 개는 IT 용어가나오긴하지만경제나사회에관한뉴스였다. 그외기준유사도점수의 50% 이상에해당하는뉴스중상위 10 개의뉴스를제외한뉴스들은 IT 와관련된뉴스가있긴했지만대부분정치, 경제, 사회에대한뉴스였다. 결과적으로유사도점수가높게나온뉴스는대부분사용자가선호할만한뉴스였고, 낮게나온뉴스는대부분선호할만한뉴스가아니였다. 추천정도 추천된뉴스 5. 결론 표 2. 뉴스추천시스템의실험결과강력추천보통추천 ( 기준유사도의 ( 기준유사도의 50% 유사도 50 % 이상이상중상위 10개 ) 이상 ) 6 개 (IT 회사, 제품 ) 6 개 (IT 회사, 제품 ) 4 개 ( 경제, 사회 - IT 관련정책 ) 300 개 (IT, 기타 ) 비추천 ( 그외 ) 나머지기타 본연구에서는사용자가좋아할만한뉴스를가져오면유사도점수를계산하여새로유입되는뉴스와의유사도점수와비교하여추천하는시스템을구현하였다. 단순히문서의단어에대한빈도계산만가지고도어느정도추천하는시스템이완성되었기때문에단어빈도뿐만이아닌단어의가중치를고려한다면더욱정교한추천시스템이구현될것이다. 여기에뉴스를수집하는모듈을추가하여실시간으로추천되는시스템으로확장하면, 실제서비스가가능해지고이를웹페이지, 안드로이드, 아이폰앱으로확장이가능할것이다. Categorization Methods, In Proc. of Conference on Research and Development in Information Retrieval(SIGIR 99), pp.42-49, 1999. [7] Y. Yang and J. P. Pedersen, A Comparative Study on Feature Selection in Text Categorization, In Jr. D H. Fisher(Ed.), 14th International Conference on Machine Learning, Morgan Kaufmann, pp.412-420, 1997. [8] F. Sebastiani, Machine Learning in Automated Text Categorization, Technical Report IEI-B4-31-1999, Istituto di Elaborazione dell'informazione, Consiglio Nazionale delle Ricerche, Pisa, IT, 1999. [9] V. Vapnik, The Nature of Statistical Learning Theory, Springer-Verlag, 1995. [10] 고영중, 박진우, 서정연, 문장중요도를이용한자동문서범주화, 정보과학회논문지 : 소프트웨어및응용, 29권 6호, pp.417-423, 2002. [11] 이지행, 조성배, 전자우편문서의자동분류를위한다중분류기결합, 정보과학회논문지 : 소프트웨어및응용, 29권 3호, pp.192-201, 2002. [12] 이경찬, 강승식, 용어가중치와역범주빈도에의한자동문서범주화, 제15회한글및한국어정보처리학술발표논문집, pp.14-17, 2003. [13] K. C. Lee, S. S. Kang, K. S. Hahn, A Term Weighting Approach for Text Categorization, AIRS 2005, pp.673-678, 2005. 참고문헌 [1] Personalized News Recommendation Based On Click Behavior, http://googlenewsblog.blogspot.kr/2011/04/automa tic-personalization-and.html [2] Trend in News Consumption 1991 2012, http://www.people-press.org/ [3] 강승식, " 다층형태론과한국어형태소분석모델 ", 제 6 회한글및한국어정보처리학술발표논문집, pp.140-145, 1994. [4] 강승식, 이하규, 손소현, 홍기채, 문병주, 조사유형및복합명사인식에의한용어가중치부여기법, 한국정보과학회가을학술발표논문집, 28 권 2 호, pp. 196-198, 2001. [5] 최재혁, " 형태소분석을통한한영자동색인어추출 ", 정보과학회논문지 (B), 제 23 권, 제 12 호, pp. 1279-1288, 1996. [6] Yang, Y. and Xin Liu, A Re-examination of Text - 166 -

1. 서론 어휘지도 (UWordMap) 를이용한용언의다의어중의성해소 배영준 O, 옥철영울산대학교컴퓨터정보통신공학 young4862@nate.com, okcy@ulsan.ac.kr Word Sense Disambiguation of Polysemy Predicates using UWordMap Young-Jun Bae O, Cheol-Young Ock Dept. of Computer Engineering & Information Technology, Ulsan University 요약 한국어어휘의의미를파악하기위하여어휘의의미중의성을해결하는것은중요한일이다. 본논문에서는한국어다의어기반의어휘의미망과용언의논항정보등의관계가포함된어휘지도 (UWordMap) 를사용하여용언의의미중의성해소에대한연구를진행한다. 기존의의미중의성해소연구와같은동형이의어단위가아닌다의어단위의용언의미중의성해소시스템을개발하였다. 실험결과실험말뭉치로품사태그부착말뭉치를사용했을때동형이의어단위정확률은 96.44% 였고, 다의어단위정확률은 67.65% 였다. 실험말뭉치로동형이의어태그부착말뭉치를사용했을때다의어단위정확률은 77.22% 로전자의실험보다약 10% 의높은정확률을보였다. 주제어 : 용언의미중의성해소, 다의어, 어휘지도, UWordMap 지식정보화사회에서고도화된맞춤형정보와지식을추출하기위해다양한종류의데이터 정보를정확히분석하기위한연구가진행되고있다. 특히데이터중텍스트로된언어자원과관련된연구에서는단어의의미또는문맥의의미를분석하기위한연구가활발히진행되고있다. 그러나특정단어가가지는의미의수가다양할수록그리고이러한단어들의빈도가높은문서일수록의미분석복잡도가상승하기때문에정확한의미분석은어려워지며, 이러한의미분석을통해제공되는정보는신뢰성이떨어지는경향이있다. 예를들면정보검색에서사용자가 맛있는배 를검색어로입력했을경우사람은 과일배 로인지하여의미에맞는문서를결과로제시할수있지만, 컴퓨터는의미를구분하지못해단순히일치되는단어 배 { 과일, 신체부위, 기계, } 가포함된모든문서를검색결과로제시한다. 그러나이를적절히분류하여 과일배 가포함된문서만을결과로제시한다면보다신뢰성이높은시스템이될수있다. 이러한문제를해결하기위해형태적처리부터구문 의미적처리까지다양한방법이연구되고있다. 하지만형태적처리기술이 95% 이상의정확률을보이는반면, 의미적처리기술은의미적중의성을가지는특정소수단어만을대상으로처리하여도 70 90% 의정확률을보이는등현재까지많은한계를가지고있다. 의미중의성해소를위한의미분석단위는동형이의어 ( 同形異義語 ) 와다의어 ( 多義語 ) 두단위로구분할수있다. 동형이의어는형태는동일하나의미들이전혀다른말을뜻한다. 예를들면 배 _01( 과일 ), 배 _02 ( 기계, 운송수단 ), 배 _03( 신체부위 ) 와같다. 다의어는하나의말이둘이상의다르면서어원적 ( 語源的 ) 으로관련있는의미를가지고있는말을가리킨다. 즉, 배 _03( 신체부위 ) 중에서도 사람이나동물의몸에서위장, 창자, 콩팥따위의내장이들어있는곳으로가슴과엉덩이사이의부위. 라는의미의 배 가있으며, 아이가드는여성의태내 ( 胎內 ). 와같은의미의 배 가있다. 이둘은포괄적의미로신체부위를나타내지만, 세부적의미는다른데이를다의어라한다. < 표 1> 을동형이의어와다의어단위로구분하면 2 개의동형이의어 { 다리, 다리 } 와 4 개의다의어 { 다리 1, 다리 2, 다리 1, 다리 2} 로구분할수있다. 단어 다리 다리 뜻풀이 1사람이나동물의몸통아래붙어있는신체의부분. 2물체의아래쪽에붙어서그물체를받치거나직접땅에닿지아니하게하거나높이있도록버티어놓은부분. 1물을건너거나또는한편의높은곳에서다른편의높은곳으로건너다닐수잇도록만든시설물. 2두사물이나사람사이를이어주는역할을하는것. 다의어단위의의미중의성해소는동형이의어단위의의미중의성해소보다세부적인의미로분류해야하기때문에분석이더욱어렵다. 그렇지만다의어단위로정확히의미분석을할수있다면더욱신뢰성높은정보를제공할수있다. 예를들면 다리를못쓰는장애인들을위해주부들이운전봉사자로나섰다. 라는문장에서동형이의어 다리 {1 사람의다리, 2 물건의다리 } 를의미중의성해소결과로제시하면포괄적인의미는이해할수있지만, 다의어 다리 1 { 사람의다리 } 를 - 167 -

결과로제시하면정확한의미를이해할수있다. 현재대부분의의미중의성해소연구에서의미분석단위는동형이의어단위이다. 그러나부분적으로다의어단위를포함하는말뭉치인 SENSEVAL-2 를실험말뭉치로사용하는연구 [1, 2] 도있었지만, SENSEVAL-2 는실험말뭉치에출현하는빈도가 1 인다의어를제외하면전체 10 개의어휘중어휘 점 하나만다의어처리대상이된다. 그러므로 SENSEVAL-2 는다의어단위라기보단동형이의어단위의말뭉치로볼수있다. 신뢰성높은정보를획득및제공하기위해서는다의어단위의의미중의성해소가필요하다. 그렇지만현재다의어단위의자원이부족하기때문에자원의구축이필요하며, 구축된자원을바탕으로다의어기반의의미중의성해소방법에대한연구가필요하다. 2. 관련연구 단어의의미중의성해소를위한많은연구들이있었다. 크게두부류의연구로나눌수있는데, 대용량말뭉치를바탕으로베이지안분류기, 결정트리, 신경망, CRF, SVM 등의기계학습기법의통계정보에기반을둔연구와기계가독형사전, 시소러스, 온톨로지, 의미망, 연어등의정보를이용한지식정보에기반을둔연구로나눌수있다. 그러나기존의의미중의성해소와관련된논문의대부분이동형이의어중의성해결을위한논문이었으며, 학습된말뭉치를기반으로한의미중의성해소를시도하는논문이었다 [1,2,3,4]. 용언의의미중의성해소에관한논문중종속격정보를적용한동사의미중의성해소와관련된연구가있었다. 보다정확한의미중의성해소를위해공기빈도와더불어종속격 ( 목적격, 부사격, 보격 ) 정보를활용하였다 [4]. 이논문은 12 개의동사를대상으로 98.7% 의정확률을보였지만, 동형이의어단위의의미중의성해소연구였다. 한국어동사의의미중의성해소에관한논문으로문맥에서추출한가중치정보를이용한모델을제안하는연구가있었다. 약 300 만어절의사전에서추출한공기관계의문맥에서얻은품사정보와거리정보를사용하였다. 논문에서는다의어수준의동사 ( 감다, 피우다, 빠지다, 타다 ) 4 개를대상으로실험하였으며, 실험결과 84% 의내부실험정확률과 75% 의외부실험정확률을보였다 [5]. 이논문의결과를이후비교실험결과로사용한다. 본논문에서는다의어단위의의미중의성해소를위해대용량말뭉치대신다의어단위로구축된한국어어휘지도 UWordMap 을활용하여용언의의미분석에대한연구를진행한다. 3. 한국어어휘지도 UWordMap 한국어어휘지도인 UWordMap 은표준국어대사전을기반으로한국어어휘의다의적수준의통사 - 의미관계를네 트워크로연결한어휘지식베이스이다. UWordMap 은 U-WI N 1) 을기반으로구축되었다. U-WIN 은품사간의관계, 주로같은품사인명사들간의다양한관계에중심이맞춰져구축되었다. UWordMap 은이러한 U-WIN 의관계를기반으로일부만존재하던다른품사간의연결정보에의한구문관계와의미관계를보다확장하여구축되었다. UWordMap 은구문관계에의한용언과명사 ( 주격 목적격 부사격 ) 등의하위범주화정보뿐아니라, 용언과부사의관계, 부사와부사의관계와의미관계에의한용언과관련된명사의의미역등이확장구축되고있다. 구문관계의주요대상이되는용언중말뭉치에출현빈도가높은용언은대부분구축되었고출현빈도가낮은용언은구축중에있다. UWordMap 의구문정보는용언과명사어휘망과의매핑을통해구축되었다. 명사어휘망의명사를선정할때는최소공통상위노드 (LCS:least common subsumer)[6] 를선택하였다. 만약최소공통상위노드의하위노드중용언과연결될수없는어휘가포함되어있을시에는이어휘를 N 관계에포함시켜해당용언과의관계가연결되지않도록설정하였다. 4. 다의어단위의용언의미중의성해소 품사태그가부착된말뭉치만을기반으로다의어단위의의미중의성해소를시도하는것은많은어려움이있다. 대부분의명사류또는용언류의단어들은의미적중의성을가지고있으며, 이런단어들의관계를파악하여의미를결정하는것은복잡도가상당히높은작업이기때문이다. 만약공개된다의어기반의의미태그부착말뭉치가있다면, 지도학습기반의기계학습방법을사용하여어느정도의성능을보장할수있는시스템개발이가능하지만, 공개된다의어기반의말뭉치가없기때문에기계학습에의한지도학습방법은사용할수없다. 그래서본논문에서는다의어기반으로구축된 UWordMap 을활용하여용언의다의어분석을진행하였다. 다의어분석을위한방법으로두가지말뭉치 ( 품사태그부착말뭉치, 품사 / 동형이의어태그부착말뭉치 ) 를대상으로실험을진행하였다. UTagger 2) 는형태소분석뿐아니라동형이의어분석까지가능하기때문에동형이의어분석의유무에따른다의어분석정확률의차이를알아보기위해서두가지말뭉치로실험을진행하였다. 실험을위한과정은 [ 그림 1] 과같다. 문장이입력되면형태소분석과동형이의어분석을진행한후동사 (VV) 와형용사 (VA) 를찾고그앞의논항을검색한다. 용언바로앞의조사중주격조사 (JKS), 목적격조사 (JKO), 부 - 168 -

사격조사 (JKB) 가검색되면그앞의명사를해당논항명사로용언과의쌍을저장한다. 논항의수를보다많이확보하기위해복수를뜻하는접미사 들 /XSN 이나타날경우그앞의명사를용언과쌍으로만들어저장한다. 저장된쌍을 UWordMap 과의비교를통해다의어를분석한다. 실제 UWordMap 은다의어단위 ( 밥 _010001, 밥 _010002, 밥 _020000 ) 로구축되어있고, 입력된단어는원형 ( 밥 ) 및동형이의어 ( 밥 _01) 단위이기때문에원형또는동형이의어와일치하는모든다의어를 UWordMap 에서찾아서해당용언과관계를확인한후용언의다의어를선택한다. UWordMap 의하위범주정보는최소상위공통노드로설정되어있기때문에직접적으로연결된관계가찾아지지않을수있다. 그래서논항명사의명사어휘망내의위치확인후상위탐색을통한확장검색을실행한다. [ 그림 2] 를보면동사 먹다 _020101 의 을 논항에대해 5 개의최소상위공통노드가설정되어있다. 예를들어실험데이터로 영수가밥을먹다. 라는문장이입력되었을때 밥 이라는단어는직접적으로연결되어있지않지만 밥 의명사어휘망내의위치에서상위탐색을통해논항관계가설정되어있는 음식물 을발견하면이를근거로하여실험데이터의 먹다 를다의어 먹다 _020101 로설정할수있다. 5. 실험및평가 실험에사용된용언은표준국어대사전의용언중옛말 북한말 방언을제외한다의어 52,224 개중 UWordMap 에포함된 ( 말뭉치상에고빈도로출현 ) 15,514 개의다의어용언을대상으로실험하였다. 본논문에서는 UWordMap 을이용한다의어분석의가능성을판단하기위한실험이기때문에재현율을고려하지않고실험을진행하였다. 용언이문장의첫어절로나타 나는경우앞의논항이없어정보를추출할수없기때문에분석대상에서제외하였고, 용언의바로앞의단어가조사및부사가아닌경우도분석대상에서제외하였다. 실험및정답말뭉치는표준국어대사전의용례 216,089 개의문장을대상으로하였다. 실험말뭉치는품사태그부착말뭉치와 UTagger 를이용한품사 / 동형이의어태그부착말뭉치를대상으로하였고, 정답말뭉치는다의어의미태그가부착된용례를대상으로하였다. 정답말뭉치는용례에다의어의미태그를반자동으로부착한뒤전문가가확인후수정하는방식으로구축되었다. 실험말뭉치에따라품사태그만부착된실험말뭉치를사용하는실험과품사 / 동형이의어태그가부착된실험말뭉치를사용하는실험으로나누었다. 전자에서는다의어및동형이의어두단위의정확률을측정하였고 (< 표 2> 의 A 와 B), 후자에서는이미동형이의어태그가부착된상태이기때문에다의어단위의정확률만측정하였다 (< 표 2> 의 C). 실험결과동형이의어단위의분석 (< 표 2> 의 B) 은 UTagger 의정확률과비슷한성능을보였다. 다의어단위의분석에서품사태그와동형이의어태그까지포함된실험결과가품사태그만사용한실험결과보다 9.57% 높은성능을보였다. 이러한결과가나타나는원인은다의어분석전에동형이의어범위를제약함으로써결과로나타날수있는다의어의경우의수를줄이는효과가있기때문이다. 하지만약 10% 정도의차이를보인다는것은동형이의어분석때문에무거워보일수있는시스템인 UTagger 를충분히사용할가치가있다고판단하는근거가될수있다. 그리고다의어분석시원시문장에서바로다의어분석을시도하는것이아니라그전단계로동형이의어분석단계를포함하는것도고려해볼가치가 - 169 -

있음을의미한다. 실험결과나타난오류중대부분이다의어중의성에의한오류였다. 용언뿐만아니라추출된논항도다의어의미중의성을가지기때문이다. 예를가르치다. 와같은문장의경우 예 의다의어는 27 개나되기때문에다의어 예 가많이포함된논항의용언으로의미가결정된다. 이러한오류를줄이기위해문장에서용언앞의논항탐색범위를늘리거나, 다른품사들과의공기정보와같은통계정보를활용하면성능향상에도움이될것이다. 그리고접속조사 와 / 과 에의한논항의확장을통해논항간의최소상위공통노드를설정하여다의어의미중의성해소에활용할수있을것이다. 다음으로많이나타난오류는용언다의어가중치값이동일하여, 적절한의미로결정을하지못하는경우였다. 이러한오류도위에서설명한방법을통해일부해결이가능할것이다. 실험말뭉치와동사의의미수가다르기때문에정확한비교가되지않지만, 의미태그부착말뭉치를사용하지않고실험을진행한임수종 (1998) 의연구와비교를시도하였다. 비교결과를살펴보면 < 표 3> 과같이본논문이중의성해소가필요한용언의의미수가전체적으로 23 개더많았지만정확률에서약 2% 정도의차이만보였다. 구분해야하는의미수가배로더많지만전체분석성능은비슷하였다. 임수종 (1998) 에서는용언의의미의수가증가할수록낮은정확률을보였지만, 본논문에서는동사 빠지다 의경우만낮은정확률을보였다. 원인을분석해보면동사 빠지다 의경우의미중의성이다양한한음절의명사와논항으로빈번히결합하는것을볼수있었다. 예를들면 { 살 ( 다의어개수 :20), 힘 (17), 발 (27), } 과같은명사가자주논항으로나타났다. 반면임수종 (1998) 에서는문맥상나타나는주위의명사도같이고려하기때문에동사 빠지다 에대해서본논문의결과보다높은정확률이측정된것이라판단된다. 6. 결론 본논문에서는말뭉치에일정빈도이상사용되는용언을대상으로의미중의성해소를시도하였다. 포괄적의미를분석하는동형이의어기반이아닌세부적의미를분석하는다의어기반의의미중의성해소연구였다. 적절한학습말뭉치가없기때문에다의어기반으로구축된 UWordMap 을활용하여용언과격의존관계에있는논항명사의연결관계를바탕으로의미중의성해소를진행하였다. 실험결과품사태그부착말뭉치를사용했을때동형이의어단위정확률은 96.44% 였고, 다의어단위정확률은 67.65% 였다. 동형이의어태그부착말뭉치를사용했을때다의어단위정확률은 77.22% 로전자의실험보다대략 10% 높은결과가나타났다. 이는 UTagger 와같은형태소뿐만아니라동형이의어단위까지분석하는시스템을사용하는것이다의어분석에보다높은성능을보일수있다는것을보여준다. 대용량말뭉치를사용하지않고어휘지도만의사용으로도대용량말뭉치를사용한것과유사한분석결과도출이가능하다는것을실험을통해알수있었다. 다의의분석의초기단계인본논문의실험결과를살펴봤을때 UWordMap 은다의어의미중의성해소에유용한자원이라판단된다. 향후보다적절한논항정보를획득하기위해다양한규칙기반의의존구문파서를적용하여 UWordMap 을통한다의어분석을진행할것이다. 그리고용언뿐만아니라명사도분석대상에포함하여통계정보, 공기정보등을통한다의어분석을진행할것이며, 중의성을가지는논항간의최적의최소상계노드를추출할수있는방법등에대한연구를진행할것이다. 참고문헌 [1] 김민호, 권혁철, " 한국어어휘의미망의의미관계를이용한어의중의성해소 ", 정보과학회논문지, 제 38 권, 제 10 호, pp.554-564, 2011 [2] 이호, 백대호, 임해창, " 분류정보를이용한단어의미중의성해결 ", 한국정보과학회, 정보과학회논문지 (B), 제 24 권, 제 7 호, pp.779-789, 1997 [3] 허정, 옥철영, " 사전의뜻풀이말에서추출한의미정보에기반한동형이의어중의성해결시스템 ", 한국정보과학회논문지, 제 28 권, 제 9 호, pp.688-698, 2001 [4] 박요셉, 신준철, 옥철영, 박혁로, " 종속격정보를적용한동사의미중의성해소 ", 정보처리학회논문지 Part(B), 제 18 권, 제 4 호, pp.241-248, 2011 [5] 임수종, 박영자, 송만석, " 가중치정보를이용한한국어동사의의미중의성해소 ", 한국정보과학회언어공학연구회학술발표논문집, pp.425-429, 1998 [6] Resnik, P., "Using information content to evaluate semantic similarity in a taxonomy", Proceedings of the 14th International Joint Conference on Artificial Inteliigence, Montreal, pp.448-453, 1995-170 -

모바일기기에서일정관리를위한개체명인식 장은서 O, 강승식, 이재원, 김도현 국민대학교, 성신여자대학교, 삼성전자 {akdangz, sskang}@gmail.com, jwlee@sungshin.ac.kr, dh1022.kim@samsung.com Named Entity Recognition for Schedule Management in Mobile Devices Eun-Seo Jang, Seung-Shik Kang, Jae-Won Lee, Do-Hyun Kim Kookmin University, Sungshin University, Samsung Electronics 요약 본논문은모바일기기에서일정을메모하거나음성인식등의인터페이스로부터일정관리, 약속과관련된문구가입력되었을때입력문자열로부터개체명을인식하여시간, 장소, 참석자등을일정관리시스템에자동으로등록하는개체명인식시스템을개발하는방법에관한연구이다. 일정관리의편의성을위한개체명인식시스템을개발하기위하여개체명사전을구축하고, 자연어처리기술을이용하여정확하고향후발전가능성이높은시스템을개발하고자한다. 주제어 : 일정관리, 개체명인식, 모바일기기, 인명, 지명, 기관명, 자연어처리 1. 서론스마트폰, 타블렛 PC 등스마트기기가널리보급되고활용되면서전세계의사람들의삶의방식에변화를가져왔다. 한편, 사용자들이점점스마트기기를다루는데익숙해짐과동시에스마트기기의터치스크린과같이직접입력하는방식이아닌음성인식이나필기인식과같은내장센서와관련기술들을이용하여기기를다루는인터페이스에대한연구개발의수요또한높아지고있다. 스마트기기의기능중활용도가높은일정관리시스템과자연어처리인터페이스, 대화형인터페이스등을결합하여일정관리라는정형화된도메인안에서자연어처리기술을적용함으로써사용자의편의성을강화할수있다. 개체명인식기술은정보검색분야에서대용량의정보자료로부터관심의대상이되는특정유형의정보만을추출하기위한목적으로연구되어왔으며대표적인개체명으로는인명, 지명, 기관명이다. 일반적인개체명인식은 누가, 언제, 어디서, 무엇을, 어떻게, 왜 와관련된 5W1H 에해당하는개체명을인식하고자하는것이다. 그런데이중에서명확하게개체명으로인식이가능한것을중심으로문장에출현한어휘들을개체명단위로구분하여태깅을하는, 기계적으로개체명을인식하는것이문서자료에서주요관심이되는정보를추출하는목적을달성하기위한가장기초적인작업인것이다. 날짜와시간도중요한개체명에속하는데영어의경우에는날짜와시간을인식하는것은정규식으로쉽게인식되기때문에관심의대상에서제외되었다. 그러나한국어의날짜, 시간표현은아라비아숫자와한글이혼용되기때문에매우다양한표현이가능하여날짜와시간과관련된개체명을인식하는것도개체명인식의주요기능에포함되어야한다. 본논문은모바일기기에서일정을메모하거나음성인식등의인터페이스로부터일정관리, 약속과관련된 문구가입력되었을때입력문자열로부터개체명을인식하여시간, 장소, 참석자등을일정관리시스템에자동으로등록하는개체명인식시스템을개발하는방법에관한것이다. 즉, 일정관리의편의성을위한개체명인식시스템을개발하기위하여개체명사전을구축하고, 자연어처리기술을이용하여정확하고향후발전가능성이높은시스템을개발하고자한다. 2. 개체명분류 2.1 일정관리문맥패턴스마트기기는매우개인화된단말기이다. 하나의단말기는여러명의사용자가공용으로사용하기보다는한명의사용자가주로사용하는특성을가지며, 이러한특성을이용하여개체명인식시스템의정확도를한단계향상시킬수있다. 사용자의습관, 사회적인관습등사용자의메모패턴을분석하여개체명인식과사전구축에활용한다. 또한개체명인식이완료되었을때각개체명들의배치순서들을저장하여추후분석에활용하는사용자피드백에의한개인화된학습방법론을적용한다. 표 1 은사용자의습관또는사회적관습과같이일정한패턴을분석하여개체명인식에적용하는예시를나타낸다. 표 1. 일정관리관련문구의특성과개체명인식 분류 사용자의습관 사회적관습 내용 < 시간 >< 장소명 >< 이벤트명 > 으로메모한사용자는추후같은순서로메모할가능성높음 - 일반적으로약속은 < 시간 > < 장소명 > 패턴으로메모하는경향이강함 - 정규식등을이용하여 < 시간 > 태깅을가정하면 < 시간 > 뒤에 < 장소명 > 이올가능성이큼 - 171 -

또한, 인식속도및성능향상을위하여문맥패턴과분류체계를함께분석한다. 예를들면개체명인식을통해부장, 대리와같은직위개체명과 2 호실, 제 3 회의실등의지역 ( 호실 ) 개체명이인식된경우이벤트개체명은회의, 미팅과관련될확률이높으므로인식모듈이탐색을수행해야할도메인을제한할수있다. 명갱신모듈로이루어져있다. 개체명인식을완료한후사전을갱신하여추후의인식결과를개선할수있다. 그림 1 은시스템의전체적인구조도와실행흐름을나타낸다. 2.2 개체명범주분류개체명은인명, 시간, 장소명, 이벤트명등일정한범주에의해분류된다. 기본적으로휴대폰에저장되는일정관련내용을점심 / 저녁식사모임등개인별사적인약속, 세미나일정, 경조사일정, 여행예약등일상적인일정들을유형별로분류한다. 그예는아래표 2 와같다. 개체명범주는각일정의유형및세부관리항목에따라세분화할지여부를결정한다. 개체명범주들을효율적으로설계하고시스템에새로운키워드가입력되었을때키워드를기존의범주에삽입할지새로운범주를생성할지를결정하는등의개체명범주설계및관리에대한연구를수행한다. 예를들면, 위키백과의범주화된데이터들을연구하는것으로시스템의분류체계를구성하는데도움을받을수있다. 표 2. 개체명범주분류와예제 개체명범주 인명 (Person) 지역 (Location) 이벤트 (Event) 예제 이름만 (Fname): 준섭, 광혁성만 (Lname): 김씨직위 (Position): 부장, 과장, 대리직업 (Occupation): 의사, 교수 건물 (Building): 삼성병원, 더하우스웨딩홀, 강남 CGV 호실 (Room): 2 호실, 4 호실, 대강당위치 (Location): 강남역 2 번출구, 강남구청, 서울역노원롯데백화점정문, 정문, 고대정문돈암동중앙버스정류장 호주어학연수설명회, 생일, 생일파티, 조모임, 택배도착, 저녁식사 ( 식사모임 ), 콘서트, 백화점쎄일, 수강신청, 부부동반모임, 서적구입, 휴강, 병원치료 ( 진료예약 ), 렌터카예약, 배송예정 ( 택배수령 ) 수선, 맥주한잔, 칵테일뷔페, 면접 날짜 (Date) 2 월 21 일, 2013/03/16 시간 (Time) 요일 (Weekday) 08:00-10:00 사이, 6 시, 세시, 아침, 저녁 8 시, 3 주후, 세시간후 ( 뒤 ) 목요일 3. 개체명인식 3.1 개체명인식시스템구조개체명인식시스템은다양한카테고리의훈련데이터를저장하고있는개체명사전과실제로개체명인식을수행하는개체명인식모듈, 입력스트링에서메모패턴을분석하여패턴사전을갱신하는패턴추출모듈, 개체명인식결과를개체명사전에입력및갱신하는개체 그림 1. 개체명인식과정 3.2 개체명사전개체명은정규식등을이용하여비교적쉽게인식할수있는것과그렇지못한것으로구분할수있다. 날짜나시간, 이메일주소, 전화번호등은쉽게인식할수있지만특정개체명이라는외재적요소가명확하지않은경우에는인식하기어렵다. 인명, 지명, 기관명등대부분의개체명이이에해당되며, 개체명과그범주를정리해놓은개체명사전을구축함으로써효과적인개체명인식을수행할수있다. 외부에공개된자료혹은스마트폰에서얻을수있는부가자료를개체명사전구축에활용할수있다. 표 3 은개체명사전구축에외부데이터를활용하는예제를정리한것이다. 공개되어있는양질의데이터를적절히활용하여대규모개체명사전을빠르고효율적으로구축할수있다. 스마트폰내부의데이터를활용하여각사용자의특성에맞추어진개인화된개체명사전을구축할수있다는장점도있다. 표 3. 개체명자료 : 외부데이터목록 분류 위키백과 / 위키사전데이터활용 지역검색 API 활용 스마트기기에서획득가능한부가정보활용 국립국어원의연구보고서자료활용 정보통신부고시우편번호 DB 정보활용 내용 범주화된방대한데이터활용가능 지역명추정키워드의검증가능 주소록정보를이용한인명사전구축 " 국어어휘의분류목록에대한연구 " 주소정보, 아파트및건물명에대한데이터를이용하여개체명사전구축 날짜와시간은정규표현식을이용하여대부분인식가능하다. 하지만 오늘, 내일 과같이상대적표현 - 172 -

을저장하고있는사전을구축하여활용하면개체명인식을보다정확하게처리할수있다. 표 4 는날짜와시간을인식하는정규표현식예제와관련용어사전의예시이다. 표 4. 날짜와시간인식 분류 정규표현식사용 관련용어사전구축 내용 ([0-9]{4}) 년 ([0-9]{1,2}) 월 ([0-9]{1,2}) 일 예 ) 2013 년 3 월 7 일 ([0-9]{1,2}) 월 ([0-9]{1,2}) 일예 ) (2013 년 ) 5 월 15 일 ([0-9]{1,2}) 일예 ) (2013 년 4 월 ) 9 일 [0-9]{1,2}/[0-9]{1,2} 예 ) 5/3 [0-9]{1,2}[: 시 ]([0-9]{1,2}( 분 ) {0,1}){0,1} 예 ) 12 시, 5 시 30 분, 19:00 오늘, 내일, 모레 와같이상대적인날짜를나타내는단어포함 오전, 오후, 정오, 자정 과같이시간을나타내는단어포함 인명을인식하는작업또한사용자의일정관리를위해필수적이다. 인명인식을위해성씨사전을구축하고사전과표 5 에설명되어있는언어처리규칙을적용하여인명을인식할수있다. 또한스마트폰주소록과연계하여인명을인식하는방법도있다. 스마트폰주소록의활용은모바일기기에서동작하는사용자에게특화된시스템으로서의의미가있다. 표 5. 인명인식방법 분류 성씨사전구축및활용 스마트기기의주소록정보활용 내용 어절을구성하는음절수를조사, 어절의앞부분을성씨사전과대조하여인명사전에등록 사용자의지인과약속을가질확률이높으므로스마트기기의주소록정보를이용하여인명사전구축 3.2 자연어문장의개체명인식일정관리메모는 오후 1 시김민수대리결혼식 의예와같이개체명들만나열하는것이일반적이다. 그러나음성인식을통한일정관리등에서 승화야내일 3 시에만나자 와같이문법형태소를생략하지않고자연스러운문장으로입력되는경우도있다. 일반적인텍스트문장입력은형태소분석등언어처리기법을활용하여개체명을인식한다. 그러나스마트폰에서일정메모환경은개체명나열을우선으로처리하고개체명이인식되지않은경우에간단한조사절단과정을거쳐개체명을인식하는방법을사용한다. 표 6 은실제로개체명인식이되는예시를보여준다. 입력스트링으로부터정규표현식, 개체명사전탐색, 패턴및규칙매칭등의방법을이용하여개체명을인식하고해당문자열의앞 뒤에개체명태그정보를추가하 여인식결과를사용자에게출력한다. 표 6. 개체명인식예제 메모원본처리과정결과예시 "25 일 3 시ㅇㅇ회의실과제미팅 " " 김철수사장미팅 " 정규식을통해시간정보획득 개체명사전이용, 일치문자열탐색 규칙적용검색 ( 인명 ): 성씨사전 + 해당어절의음절수정보이용 입력패턴검사 : 인명뒤단어는직합으로추정, 사장을단서어휘로사용하여해당개체명사전조사 < 시간 >25 일 3 시 </ 시간 > < 장소 > ㅇㅇ회의실 < / 장소 > < 이벤트 > 과제미팅 </ 이벤트 > < 인명 > 김철수 </ 인명 > < 직함 > 사장 </ 직함 > < 이벤트 > 미팅 </ 이벤트 > 모바일기기내부의데이터를다루다보면아래표의내용과같은예외상황들이발생한다. 표 7 의예시를포함한다양한예외상황들을처리하여사용자의신변정보들을인식시스템에적용, 개체명인식의정확도를높일수있다. 표 7. 예외상황및처리방안 메모원본예외상황처리방법 " 승화야내일 3 시에만나자 " " 오후 1 시김민수대리결혼식 " 스마트폰주소록에성을포함한이름이저장 ( 고승화 ) 스마트폰주소록에 김민수 가 2 명이상인경우 개체명사전구축시성과이름을구분하여저장 과거의분석패턴을조사 ( 김민수 대리 로인식한메모패턴과대조 ) 표 8 은고빈도조사를분리하는방법에의해조사가분리되는비율을조사한것이다. 이표에의하면고빈도조사를상위 30 여개로한정하더라도대략 95% 정도의조사를처리할수있다. 조사절단과정은개체명사전에등록되지않은문자열을대상으로한다. 개체명사전에서개체명을검색했을때검색되지않은문자열의끝부분이조사일가능성이있는문자열에대해조사로사용될수있는지를확인한다. 이문자열의끝부분이조사로사용가능한경우에조사를분리한후에개체명인식과정을적용한다. 표 8. 고빈도조사통계 말뭉치 % 논문요약신문기사국민학교교과서문학작품평균 70% 8 9 9 9 9 90% 16 20 20 22 20 95% 25 31 32 39 32 99% 49 65 68 93 69-173 -

4. 결론본논문은모바일기기에서일정관리편의성을위해일정관리와관련된개체명을인식하는방법을제안하였다. 위키백과, 우편번호 DB 와같이공개되어있는유용한외부데이터와모바일기기내부의부가정보들을활용하여개체명사전들을구축하는방법을소개하였다. 또한구축한개체명사전, 정규표현식, 메모패턴분석등의방법을이용하여입력스트링으로부터개체명들을인식하는방법을소개하였다. 본논문에서소개한개체명인식시스템은개체명인식의역할을수행할뿐아니라인식결과를이용하여개체명사전을갱신, 시스템을개선한다. 또한모바일기기의정보를개체명사전의구축및갱신에이용하기때문에시스템을이용할수록사용자에특화된사전이구축되어정확도를높일수있을것으로기대한다. 참고문헌 [1] Y. Wang, Annotating and Recognising Named Entities in Clinical Notes, In Proc. of ACL-IJCNLP 2009 Student Research Workshop, pp.18-26, 2009. [2] C. Li, J. Weng, Q. He, Y. Yao, A. Datta, A. Sun, and B. S. Lee, TwiNER: Named Entity Recognition in Targeted Twitter Stream, SIGIR'12, pp.721-730, 2012. [3] A. Ritter, S. Clark, M and O. Etzioni, Named Entity Recognition intweets: An Experimental Study, In Proc. of EMNLP 2011, pp.1524-1534, 2011. [4] J. Polifroni, I. Kiss, M. Adler, Bootstrapping Named Entity Extraction for the Creation of Mobile Services, In Proc. of LREC 2010, pp.1515-1520, 2010. [5] T. Finin, W. Murnane, A. Karandikar, N. Keller, J. Martineau, and M. Dredze, Annotating named entities in Twitter data with crowdsourcing, In Proc. of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon s Mechanical Turk, pages 80-88, 2010. [6] X. Liu, S. Zhang, F. Wei, and M. Zhou, Recognizing Named Entities in Tweets, In Proc. of ACL, pp.359 367, 2011. [7] D. Nadeau and S. Sekine, A Survey of Named Entity Recognition and Classification, Linguisticae Investigationes, 30(1), pp.3-26, 2007. [8] D. M. Oliveira, A H. Laender, A Veloso, A. S. Silva, FS-NER: A Lightweight Filter-Stream Approach to Named Entity Recognition on Twitter Data, In Proc. of WWW 2013, pp.597-604, 2013. - 174 -

접속부사의사용에따른설득문과보도문의대응분석 김혜영 O, 강범모줌인터넷, 고려대학교 simpson15@korea.ac.kr, bmkang@korea.ac.kr Correspondence Analysis of Reports and Persuasives based on a Newspaper Corpus Hye-Young Kim O, Beom-Mo Kang Zum internet, Korea University 요약 본논문은동아, 조선, 중앙, 한겨레신문의 2000~2011 년신문사설과보도문에서서나타나는접속부사의사용에대한분석이다. 구체적으로, 텍스트구조를드러내는표지의기능을하는접속부사에대해논의하고자한다. 12 년동안출현한고빈도접속부사 그러나, 하지만, 그런데, 그리고, 따라서, 그래서, 그렇지만, 그러면, 그러므로, 하물며 를대상으로보도문에서의빈도변화와신문사설에서의빈도변화를대응분석과군집분석을통해객관적, 통계적, 통시적으로분석하였다. 연구결과, 나열의구조에서보도문은 그리고 를선호하고신문사설은 하물며 를선호하여사용하며, 대조의표지로서보도문은 하지만 을신문사설은 그러나, 그렇지만 을선호하여사용하였다. 화제전환을나타낼때보도문은 그러면 을사용하는반면신문사설은 그런데 를사용하고, 문제에대한결과를제시할때 보도문 은 그러므로, 그래서 를신문사설은 따라서 를더많이사용하는경향이나타났다. 주제어 : 신문사설, 보도문, [ 물결 21] 코퍼스, 접속부사, 대응분석, 군집분석 1. 서론및관련연구 담화에서문장의첫머리에등장하는항목은화자나작가가앞으로이야기하려는대상으로서, 가장관심을두고있는부분이다 [1]. 이러한항목 ( 주제 ; theme) 은명사구, 부사구, 전치사구, 접속부사등이될수있다. 이중접속부사는 that is, moreover, meanwhile, likewise, in other words 등과같이선행텍스트와해당문장사이를연관시키는것을말한다 [1]. 즉작가가말하는내용간의관계를알리면서전달하고자하는메시지를시작할때이는문장의시작부분에서등장하기쉽다. 또한접속부사는텍스트의구조자체를나타내는표지가될수있다 [2]. 즉, 접속부사를살펴봄으로써, 단락과단락사이의의미구조관계의양상을살펴볼수있고이러한구조적파악을통해주제파악또한가능한것이다. [3] 은논증문에서접속부사가주된논증관계를가장잘보여준다며시간관계 (temporal connectives: first, when, now, then 등 ), 인과관계 (causal-conditional connectives; so, consequently, moreover, as a result of 등 ), 비교관계 (comparative connectives; however, rather, whereas 등 ), 첨가관계 (additive connectives; also, but, and, in addition, while 등 ) 로구분하여설명한다. [4] 는이러한텍스트구조를구성하는표지를명제의연결관계와문장단위연결, 내용단락단위의구조를살펴서 나열, 강조, 인과, 예시 - 정의, 포괄 - 분류, 대조 - 비교, 전환 의일곱가지종류의표지로분석한다. 1) 따라서본절에서는텍 스트구조를드러내는표지의기능을하는접속부사에대해논의하고자한다. 12 년동안신문에출현한고빈도접속부사 그러나, 하지만, 그런데, 그리고, 따라서, 그래서, 그렇지만, 그러면, 그러므로, 하물며 를대상으로보도문에서의빈도와사설에서의빈도를대응분석과군집분석을통해분석, 기술할것이다. 2. 연구대상및연구방법 본연구에서는 [ 물결 21] 코퍼스를주요연구대상으로한다. [ 물결 21] 코퍼스는대규모신문언어자료를통한한국의언어, 사회, 문화적특성과그변화를연구하기위해서고려대학교민족문화연구원에서수행중인 [ 물결 21] 사업에서구축된신문텍스트이다. 이는동아일보, 조선일보, 중앙일보, 한겨레신문과협약을맺어서 2000 년이후의전체기사문을제공받아코퍼스로구축한것이다 [5]. [ 물결 21] 코퍼스는현재 2000 년 ~2011 년까지의자료, 즉약 5 억어절로구성되어있으며, 이중에서본연구에서다루는신문사설수는약 4 만천여개, 어절수는약천백만어절에이른다. 신문사설의수는전체기사문수의약 1.8% 를차지하고, 어절수는약 2.1% 를차지하고있다. - 175 -

사설 수 사설어절 수 사설 1 개당 평균어절 수 보도문 기사 수 ( 일부 ) 보도문 기사어절 수 ( 샘플링 ) 41,482 10,631,033 256.28 163,349 36,406,459 연구대상으로삼은샘플링된보도문의기사수 ( 전체기사문의 1/10 규모 ) 는신문사설의약 4 배의크기이다. 표 2 는보도문과신문사설에 12 년동안출현한접속부사의빈도를정리한것이다. 연구대상이되는접속부사는코퍼스에서고빈도순으로선정하였다. 분포에대해서통계적인상관관계와군집유형을보여준다. 이때, 행렬의산점도에대해서참조선을표시하여정규화할수있다. 열범주와행범주간의관계를살펴보기위해서, 열범주좌표를원점에대해화살표로나타내고, 행좌표를이들두축에직교하는점선을표시하여상관성을해석할수있다. 주로대응분석은통계모형이나가설에대한관찰자료의검증이아닌관찰자료의분포적특성에대한해석을목적으로할때, 살펴보고자하는범주의상대분포를통합적으로고려할때, 그리고시각적인자료해석을목적으로할때사용한다 [7]. 본연구에서는대응분석을 R 통계프로그램을이용하였다. R 통계프로그램에서대응분석은 ca package 를설치한후 plot(ca()) 함수를사용한다 [7]. 활용예시는아래그림과같다. 표 2에서 A는보도문을, B는신문사설을의미하며, 십만어절당상대빈도로재계산하였다. 대응분석은분할표자료에대해행과열범주간의유사성, 연관관계, 상호관련성등을파악하기위한통계적분석방법이다 [6]. 즉, 범주형으로관측된두변수간의관계를다차원공간상 (perception map) 에서시각적 도식적으로파악하고자할때유용하다. 대응분석은이원분할표에기재된행과열의모든범주들사이의상대적 대응분석에서는차원축소된공간에서의행과열범주좌표값이정규화방법에따라계산된다. 그림 1 에서처럼행범주에서한차원좌표평면상에위치한범주들간의거리는유사성정도를나타내서가까이위치한범주일수록유사성이크다고해석할수있다. 열범주좌표차원에서는열범주좌표를원점에대해서화살표로나타내서이들두축에직교하는점선을표시한후더가까운쪽과유사하다고해석할수있다. 3. 연구결과 표 2 에서 12 년동안추출된보도문에서의사용분포는 그러나 > 그런데 > 따라서 > 그리고 > 그래서 > 하지만 > 그렇지만 > 그러므로 > 그러면 > 하물며 의순으로, 신문사설에서는 그러나 > 하지만 > 그런데 > 그리고 > 따라서 > 그래서 > 그렇지만 > 그러면 > 그러므로 > 하물며 의순으로나타났다. 또한 그러나 는신문사설과보도문모두에서가장많이사용된접속부사로나타났다. 그러나 는텍스트생산자의주장을효과적으로제시하고논의의범위를확대시키거나한정하는방법으로텍스트를발전시키고전개하는등, 텍스트의주제를드러내는데매우중요한기능을한다 [8]. 특히논증문에서는주제를전개하는표지로텍스트생산자의신념이나의견을펼치는데에사용된다. 대체로설명을나타내는글에서는논리적대등관계를형성하는나열구조를많이쓴다고알려져있지만, 실제로는보도문과신문사설모두 그러나 가가장많이사용되는것으로드러났다. - 176 -