DBPIA-NURIMEDIA



Similar documents
Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Curriculum Vitae 2 Sangkeun Jung, Cheongjae Lee. Gary Geunbae Lee. Using utterance and semantic level confidence for interactive spoken dialog clarifi

회원번호 대표자 공동자 KR000****1 권 * 영 KR000****1 박 * 순 KR000****1 박 * 애 이 * 홍 KR000****2 김 * 근 하 * 희 KR000****2 박 * 순 KR000****3 최 * 정 KR000****4 박 * 희 조 * 제

DIY 챗봇 - LangCon

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Journal of Educational Innovation Research 2018, Vol. 28, No. 3, pp DOI: NCS : * A Study on


DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

정보기술응용학회 발표

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

Voice Portal using Oracle 9i AS Wireless

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

0125_ 워크샵 발표자료_완성.key

°í¼®ÁÖ Ãâ·Â

<313920C0CCB1E2BFF82E687770>

- 2 -

DBPIA-NURIMEDIA

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

07변성우_ok.hwp

hwp

±èÇö¿í Ãâ·Â

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

원고스타일 정의

33 래미안신반포팰리스 59 문 * 웅 입주자격소득초과 34 래미안신반포팰리스 59 송 * 호 입주자격소득초과 35 래미안신반포팰리스 59 나 * 하 입주자격소득초과 36 래미안신반포팰리스 59 최 * 재 입주자격소득초

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

½Éº´È¿ Ãâ·Â

<C1A4BAB8B9FDC7D031362D335F E687770>

1_12-53(김동희)_.hwp

04서종철fig.6(121~131)ok

³»Áö_10-6

감각형 증강현실을 이용한

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

06_ÀÌÀçÈÆ¿Ü0926

大学4年生の正社員内定要因に関する実証分析

Jkafm093.hwp

XXXXXXXXXXXXX XXXXXXX

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

09권오설_ok.hwp

데이터베이스-4부0816

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Feb.; 29(2), IS

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론



THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jun.; 27(6),

À±½Â¿í Ãâ·Â

DE1-SoC Board

SIGIL 완벽입문

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

< E5FBBEABEF7C1DFBAD0B7F9BAB02C5FC1B6C1F7C7FCC5C25FB9D75FB5BFBAB05FBBE7BEF7C3BCBCF65FA1A4C1BEBBE7C0DABCF62E786C73>

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

PDF

#Ȳ¿ë¼®

DBPIA-NURIMEDIA


Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

45-51 ¹Ú¼ø¸¸

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>

DBPIA-NURIMEDIA

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

ORANGE FOR ORACLE V4.0 INSTALLATION GUIDE (Online Upgrade) ORANGE CONFIGURATION ADMIN O

The Self-Managing Database : Automatic Health Monitoring and Alerting

¼º¿øÁø Ãâ·Â-1

2ÀåÀÛ¾÷

춤추는시민을기록하다_최종본 웹용

Red Dot Award: Communication Design 에 참 하기 결정해 주셔서 기쁩니다. "성공을 위한 안내서"는 등 절 에 대해 안내 니다. 지체 말고 언 든지 연 해 주 오. Red Dot 은 등 절 또는 등 후 절 를 기꺼 와드 겠습니다. 01 Int

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE. vol. 29, no. 6, Jun Rate). STAP(Space-Time Adaptive Processing)., -

04-다시_고속철도61~80p

03±èÀçÈÖ¾ÈÁ¤ÅÂ

ºñ»óÀå±â¾÷ ¿ì¸®»çÁÖÁ¦µµ °³¼±¹æ¾È.hwp

Microsoft Word - [TP_3][T1]UTP.docx

(초등용1)1~29

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

알람음을 출력하는 이동통신 단말기에 있어서, 실시간 알람음을 출력하는 음향 출력 수단; 디지털 멀티미디어 방송(DMB: Digital Multimedia Broadcasting, 이하 'DMB'라 칭함) 신호를 수신하면 오디오 형태로 변 환하여 DMB의 음향을 전달하는

<31B1E8C0B1C8F128C6ED2E687770>

종합설계 I (Xcode and Source Control )

6.24-9년 6월

Microsoft PowerPoint - chap01-C언어개요.pptx

2003report hwp

1. 연구 개요 q 2013년 연구목표 제2-1과제명 건축물의 건강친화형 관리 및 구법 기술 연구목표 건강건축 수명예측 Lifecycle Health Assessment (LHA) 모델 개발 건축물의 비용 기반 분석기술(Cost-based Lifecycle Health

<464B4949B8AEC6F7C6AE2DC0AFBAF1C4F5C5CDBDBABBEABEF7C8AD28C3D6C1BE5FBCD5BFACB1B8BFF8BCF6C1A4292E687770>


<C7D1B1B9B1B3C0B0B0B3B9DFBFF85FC7D1B1B9B1B3C0B05F3430B1C733C8A35FC5EBC7D5BABB28C3D6C1BE292DC7A5C1F6C6F7C7D42E687770>

1 [2]2018개방실험-학생2기[ 고2]-8월18일 ( 오전 )-MBL활용화학실험 수일고등학교 윤 상 2 [2]2018개방실험-학생2기[ 고2]-8월18일 ( 오전 )-MBL활용화학실험 구성고등학교 류 우 3 [2]2018개방실험-학생2기[

슬라이드 1

<30382E20B1C7BCF8C0E720C6EDC1FD5FC3D6C1BEBABB2E687770>

<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

대한한의학원전학회지24권6호-전체최종.hwp

2002년 2학기 자료구조

<BEF0B7D0C1DFC0E B3E220BABDC8A32E706466>

Act84_

MySQL-.. 1

11¹ÚÇý·É

<C1B6BBE7BFACB1B D303428B1E8BEF0BEC B8F1C2F7292E687770>


이용석 박환용 - 베이비부머의 특성에 따른 주택유형 선택 변화 연구.hwp

Transcription:

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 123 EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 (An Example-Based Natural Language Dialogue System for EPG Information Access) 김석환 이청재 정상근 이근배 (Seokhwan Kim) (Cheongjae Lee) (Sangkeun Jung) (Gary Geunbae Lee) 요 약 본 논문에서는 EPG 정보 검색을 위한 자연어 대화 시스템에 대해 논한다. 자연어 대화 시스 템 구축을 위한, 대화 예제를 이용한 상황 기반 대화 관리 방법론은, 효율적이고 실용적인 대화 시스템 구 축을 가능하게 한다. 대화 시스템은 사용자 발화에 대해 적합한 시스템 응답 발화를 출력하는 과정으로 진행되며, 이를 위해, 사용자 발화 의미 분석, 대화 관리, 시스템 응답 발화 생성의 과정을 거친다. 정확하 고 신속한 정보의 전달이 중요한 EPG 정보 검색 도메인의 특성상 EPG 데이타베이스의 관리 및 갱신이 중요한 요소로 작용한다. 이를 위해 웹마이닝 기반의 EPG 데이타베이스 관리자를 구현함으로써 데이타베 이스 구축에 필요한 비용을 최소화하고, 신속하고 정확한 정보를 제공할 수 있었다. 실험 결과를 통해 본 시스템이 EPG 정보 검색을 위해 적은 비용으로 높은 성능을 보이고 있음을 확인한다. 키워드 :EPG, 대화 시스템 Abstract In this paper, we present an example-based natural language dialogue system for Electronic Program Guide Information Access. We introduce an effective and practical dialogue management technique incorporating dialogue examples and situation-based rules. In order to generate cooperative responses to smoothly lead the dialogue with users, our natural language dialogue system consists of natural language understanding, dialogue manager, system utterance generator. and EPG database manager. Each module is designed and implemented to make an effective and practical natural language dialogue system. In particular, in order to reflect the up-to-date EPG information which is updated frequently and periodically, we applied a web-mining technology to the EPG database manager, which builds the content database based on automatically extracted information from popular EPG websites. The automatically generated content database is used by other modules in the system for building their own resources. Evaluations show that our system performs EPG access task in high performance and can be managed with low cost. Key words :EPG, Dialogue System 1. 서 론 케이블 TV 및 위성 방송의 보급으로 인해 사용자들 은 다양한 채널을 통해 다양한 방송을 시청할 수 있게 본 연구는 산업 자원부 21C 프론티어 연구 인간생활자원 지능로봇 과 제의 지원을 받아 수행되었음 비 회 원 : 포항공과대학교 컴퓨터공학과 megaup@postech.ac.kr : lcj80@postech.ac.kr hugman@postech.ac.kr 종신회원 포항공과대학교 컴퓨터공학과 교수 gblee@postech.ac.kr 논문접수 : 2006년 8월 13일 심사완료 : 2006년 8월 31일 되었다. 하지만 그에 따라 원하는 채널과 프로그램을 리 모컨만으로 찾는 일은 매우 어려워졌다. 디지털 방송 서 비스의 시작과 함께 디지털 방송 서비스의 대표적인 어 플리케이션으로 자리매김한 EPG(Electronic Program Guide)는 방송 편성표 및 방송 프로그램에 대한 상세한 정보를 디지털 TV 화면을 통해 제공함으로써, 원하는 채널과 프로그램을 좀 더 쉽게 찾을 수 있도록 도와주 고 있다. 하지만 EPG 역시 리모컨 인터페이스의 한계 로 인해, 제한적인 정보 검색 기능만을 제공하고 있으 며, 이로 인한 복잡한 사용법은 사용자의 편의성을 저해 하고 있다.

124 정보과학회논문지 : 소프트웨어 및 응용 제 34 권 제 2 호(2007.2) 이 논문에서는 사용자 편의성을 고려한 효율적인 EPG 정보 검색을 위한 자연어 대화 시스템을 제안한다. 자연어 대화 시스템(Natural Language Dialogue System)은 자연어를 이용하여 컴퓨터와 의사소통을 하는 차세대 인터페이스이다. 자연어 대화 시스템은 많은 분 야에서 이용되고 있으며 21세기의 유비쿼터스 시대를 위한 필수적인 지능형 인터페이스로 활발한 연구가 진 행되고 있다[1]. 자연어 대화 시스템은 일반적으로 자연 어 이해 (Natural Language Understanding), 대화 관 리 (Dialogue Management), 자연어 응답 생성 (Natural Language Generation) 등의 모듈로 구성된다. 본 연구에서는 EPG 도메인의 데이타베이스 검색을 위한 사용자 인터페이스로서의 기능을 갖는 대화 시스템을 구현하였다. EPG 정보 검색 도메인이 다른 정보 검색 도메인에 비해 갖고 있는 특성은 검색 대상 정보가 주기적으로 갱신되어야 한다는 점이다. 본 연구는 EPG 정보 데이 타베이스의 주기적인 갱신을 위한 웹 마이닝(Web Mining) 기술을 포함한다. 인터넷의 발달과 보급으로 인해 웹을 통해 다양한 정보를 얻을 수 있으며, EPG 정보의 주를 이루는 방송 프로그램 관련 정보 역시 방 대한 양의 정보가 웹 상에 존재하고 있다. 웹을 통해 제 공되는 정보를 자동으로 추출하여 EPG 정보 데이타베 이스를 구축하고 갱신함으로써, 데이타베이스 구축 및 갱신에 필요한 비용을 절감하고, 신속하게 정보를 갱신 할 수 있다. 2. 대화 예제를 이용한 상황 기반 대화 관리 시스템 본 연구에서는 대화 예제를 이용한 상황 기반 대화 관리(Situation-Based Dialogue Management with Dialogue Examples)[2] 방법론에 기반한 시스템을 개 발하였다. 상황 기반 대화 관리 시스템의 목적은 실용적 이며 유연한 대화 처리를 할 수 있고, 다양한 응용 분야 에 적용 가능한 높은 도메인 확장성을 갖는 시스템을 만드는 데에 있다. 2.1 기존의 대화 모델 대부분의 기존 대화 관리 시스템은 유한 상태 기반 방식(Finite State-Based Model)에 바탕을 두고 있다 [3]. 현재 대화 상태를 특정 상태로 사상을 하여 그 상 태에서 적절한 대화 진행을 하고 다음 상태를 예측하는 방식이다. 이것은 실제로 고정된 상태 전이 모델 위에서 대화를 진행하기 때문에 특정 도메인의 목적에 맞는 상 태 전이 네트워크를 디자인하여 빠른 대화 관리 시스템 을 구축할 수 있다. 이 모델은 전형적으로 대화 형태가 고정되어 있는 대화 시스템에 많이 사용된다. 그러나 사 용자의 현재 발화에 의해 다음 턴에 사용자의 발화가 제한이 되거나 도메인이 바뀌면 모델 자체를 바꿔야 하 기 때문에 도메인 간의 확장성이 떨어지는 단점을 가지 고 있다. 이를 개선하기 위해 제시된 방식이 프레임 기 반 대화 모델(Frame-Based Dialogue Model)이다[4]. 이 모델은 자연스러운 대화 처리를 위해 고안되었으며 사용자의 발화에서 필요한 정보를 추출하여 의미 프레 임을 채우고 그 정보를 바탕으로 대화를 진행하는 방식 이다. 그러나 실제 대화 관리는 이러한 의미 프레임을 이용한 상태 전이나 수작업으로 만든 규칙에 의존하는 경우가 많아 유한 상태 모델과 같은 단점을 가지게 된 다. 또한 최근에는 복잡한 도메인을 처리하기 위해 계획 기반 모델 (Plan-Based Model)이 연구되고 있다[5]. 이 것은 사용자와 컴퓨터 간의 대화 목적을 정하고 그것을 위해 다양한 대화 계획 스키마를 적용하여 대화를 진행 하는 방식이다. 그러나 이 방식은 사용자의 발화 자유도 가 높고 어려운 작업을 위한 도메인을 처리하기 때문에, 대화 관리 성능의 저하로 상용성이 떨어진다는 단점이 있다. 최근에는 단순히 특정 도메인을 위한 음성 대화 시스 템을 벗어나 도메인 확장성을 향상시키기 위한 객체 기 반의 구현 방식이 연구되고 있다[6]. 이것은 대화 시스 템의 각 모듈을 객체로 구현하여 도메인에 무관한 공통 적인 처리 부분과 도메인에 관련된 처리 부분을 나누어 도메인 확장성을 향상시킨 것이다. 그러나 이 시스템도 대화 관리를 위해 수작업으로 많은 규칙을 인코딩해야 하기 때문에 실용적인 대화 관리 시스템 개발이 힘들다. 2.2 상황 기반 대화 관리 시스템 상황 기반 대화 관리 시스템(Situation-Based Dialogue Management System)의 기본적인 아이디어는프레임 기반의 대화 모델을 취한다. 전반적인 상황 기반 대화 관리 시스템의 구조는 그림 1과 같으며 기본적인 구조 는 [6]의 구조와 동일하다. 여기서 대화 관리자(Dialogue Manager)는 필요한 도메인 전문가(Domain Expert) 를 호출해 자연어 이해(NLU, Natural Language Understanding) 모듈에서 만들어진 의미 프레임과 외부 도메인 데이타베이스, 대화 예제 데이타베이스를 연결하 여 현재 사용자의 상황에 맞는 적절한 시스템 발화를 생성한다. 이 논문에서 정의된 상황 (Situation) 이라는 것은 현재 사용자의 발화와 의도, NLU 결과인 의미 프 레임, 담화 이력(Discourse History) 등을 포함하는 전 반적인 현재 대화 상태를 말한다. 상황 기반 대화 관리 시스템은 유한 상태 기반의 상태 전이를 지양하고 현재 대화 상황에서 자유로운 상태 전이를 허락한다. 그러므 로 현재 턴에 규제된 대화 진행 규칙이 없고 사용자의 발화를 입력 받아 현재 대화 상황을 분석하게 된다.

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 125 그림 1 상황 기반 대화 관리 시스템 구조 2.3 예제 기반 대화 모델링 기존의 규칙 기반 대화 모델링에서는 개발자가 미리 지식 작업을 하여 일관성 있고 적용성이 큰 규칙을 인 코딩해야 하며, 효과적인 상황 기반 대화 관리를 위해서 는 수작업에 의한 규칙 작성이 필요하다. 이러한 규칙이 일관성이 없거나 잘못된 경우에는 적절한 대화 진행을 하지 못하는 경우가 있다. 즉, 대화 관리 시스템에는 수 많은 대화 상태가 존재하며, 이러한 대화 상태를 모두 처리할 수 있는 규칙을 수작업을 통해 만드는 것은 불 가능하다. 이와 같은 규칙 기반 대화 모델링의 단점인 규칙 학 습의 인력 비용을 간소화하기 위해 대화 말뭉치로부터 자동적으로 규칙을 학습하여 시스템 발화를 생성하는 대화 예제 기반 대화 모델링을 사용한다. 우선, 대화 모 델링을 위해 대화 말뭉치로부터 자동으로 대화 예제 데 이타베이스(Dialogue Example Database)를 만든다. 우 리는 말뭉치의 태깅을 최소화하기 위해 NLU 모델을 훈 련하기 위한 말뭉치를 재사용하였다. 즉, 프레임 기반의 대화 관리 시스템을 구축하기 위해서는 기본적으로 사 용자의 발화에 대한 의미 프레임 태깅 작업이 필요하다. 여기서는 대화 모델링을 위한 추가적인 태깅 작업으로 담화 이력 벡터(Discourse History Vector)와 시스템 응답(System Response)만을 추가적으로 태깅하였다. 여기서 담화 이력 벡터는 현재 대화 상황까지 의미 프 레임의 슬롯이 채워졌는지 아닌지를 나타내는 이진 벡 터로 표시한다. 이러한 태깅 정보들은 대화 예제 데이타베이스의 색 인 키로써 이용되고 이를 가지고 대화 예제 데이타베이 스에 질의를 던져 적절한 시스템 응답을 찾아낸다. 대화 예제를 찾기 위한 질의에서 현재 대화 상황을 바탕으로 검색한다면 항상 전체 일치(Exact Match)가 가능하지 않을 수 있다. 그러므로 부분 일치(Partial Match)가 가 능하도록 제약을 완화하여 사용자의 의도(Dialog Act and Main Action)만을 가지고 대화 예제를 검색한다. 이것은 실제 시스템 응답이 현재 상황의 사용자 의도에 주로 의존하기 때문이다. 대화 예제 데이타베이스에서 현재 상황에 적합한 대 화 예제들을 가져올 때, 여러 개의 예제 후보들이 생긴 다. 이러한 것들 중에서 가장 적합한 예제를 찾기 위해 서 발화 유사성(Utterance Similarity)을 정의하였다. 발 화 유사성은 담화 이력 유사성(Discourse History Similarity)과 어휘-의미 유사성(Lexico- Semantic Similarity)의 선형 보간(Linear Interpolation)으로 정의 하였다. 담화 이력 유사성은 담화 이력 벡터의 코사인 계수(Cosine Measure)로 나타내며, 어휘-의미 유사성은 추출된 슬롯의 값을 미리 정의된 슬롯 이름으로 대체하 여 대화 예제의 사용자 발화와 현재 사용자 발화의 유 사성을 측정하였다. 표 1은 어휘-의미 유사성을 계산하 기 위한 입력 예제를 보여준다. 대부분 대화의 상황은 대화 예제를 통해 시스템 발화를 결정할 수 있지만, 대 화 예제가 없는 경우 등을 처리하기 위해 미리 만들어 놓은 메타 규칙도 이용하였다. 그림 2는 대화 예제 기반 의 대화 모델링의 전반적인 전략을 나타낸다. 그림 2 대화 예제 기반 대화 모델링 전략

126 정보과학회논문지 : 소프트웨어 및 응용 제 34 권 제 2 호(2007.2) 표 1 어휘-의미 유사성 입력 예제 User Utterance 그럼 SBS 드라마는 언제 하지? Component Slots [channel = SBS, genre = 드라마] Lexico-Semantic Input 그럼 [channel] [genre]는 언제 하지? 3. EPG 정보 검색 대화 시스템 그림 3은 예제기반 대화 모델링 구조를 이용한 EPG 정보 검색을 위한 자연어 대화 시스템의 전반적인 구조 를 나타낸다. EPG 정보 검색 대화 시스템은 각각의 사 용자 발화 입력에 대한 시스템의 응답 발화를 출력하는 구조를 갖고 있다. 이 때, 사용자 발화는 EPG DB 검색 요청에 대한 자연어 발화로 간주하며, 시스템 발화는 사 용자의 요청에 대한 EPG DB 검색 결과를 주된 내용으 로 포함한다. 이를 위해, 시스템은 사용자 발화의 의미 를 분석하는 NLU 모듈, 의미 분석 결과와 기존의 담화 기록 등에 기반하여 적합한 시스템 발화 요소를 선정하 는 대화 관리자(Dialogue Manager) 모듈, 선정된 시스 템 응답 요소에 기반하여 실제 시스템 발화를 생성하는 시스템 발화 생성(System Utterance Generator) 모듈 로 구성된다. 또한 EPG 데이타베이스 관리자(EPG Database Manager)는 웹상의 EPG 정보로부터 대화 그림 3 EPG 정보 검색 대화 시스템 구조 시스템에 필요한 정보를 추출하여 EPG 데이타베이스를 구축 및 갱신하고, 시스템의 각각의 모듈들은 EPG 데 이타베이스에 기반하여 구동된다. 3.1 NLU 모듈 대화 시스템을 위한 의미 분석 기술은 사용자의 발화 로부터 의도나 상황을 분석하여 시스템이 처리 가능한 의미 프레임(Semantic Frame) 구조 형태로 구성하는 기술이다. 본 시스템에서 사용된 의미 프레임은 화행 (Dialog Act)과 주행(Main Action), 그리고 구성성분 (Component Slot)으로 이루어진다. 화행은 일반적으로 문형 정보를 나타내며 상황에 따라서 반드시 문형과 일 치하지는 않는다. 그리고 행위는 실제 사용자가 그 도메 인 내에서 원하는 행위를 나타내는 의미적인 정보이다. 구성성분 요소는 실제 사용자 발화에 나타나는 도메인 에 대한 개체 정보이다. 이것은 슬랏과 그것에 해당하는 값을 추출하여 표현 된다. 표 2는 EPG 정보 검색 대화 시스템을 위해 정의된 의미 프레임의 태그셋을 나타낸 다. 화행 태그셋은 EPG 도메인과 독립적으로 일반 다 른 도메인에도 광범위하게 적용될 수 있는 범주들로 정 의된 반면, 주행 태그셋은 EPG 도메인에 특화된 범주 들로 정의되어 있다. 이렇게 정의된 태그셋 범주 중 선 택된 주행과 화행의 조합은 사용자 발화 내의 도메인에 특화된 개체명으로 구성된 구성성분 값과 더불어 사용 자의 의도를 나타내는 목적으로 사용된다. 표 1의 사용 자 발화의 경우 표 3의 의미 프레임 형태로 기술될 수 있다. 사용자의 발화가 시작 시간을 묻는 의도를 갖고 있기 때문에, 발화로부터 구성된 의미 프레임 요소 중 화행은 wh-question 이, 주행은 search_start_time 이 된다. 그리고 사용자 발화 내의 구성성분 요소는 각 각 채널(Channel)과 장르(Genre)에 대응하는 값으로 SBS 와 드라마 가 된다. NLU 모듈은 사용자 발화로부터 의미 프레임 구조를 자동으로 구성하는 기능을 수행하며, 정보 추출 기술을 표 2 의미 분석 태그셋 목록 Dialog act Wh_Question Yes_No_Question Accept Reject Statement Request Express Conventional_Open Conventional_Close Main Action Search_program Search_channel Search_day Search_starttime Search_endtime Search_currenttime Search_currentdate Move_channel Alarm Record TV_on TV_off Component slot Genre Channel Date Start_time End_time Cast Day Program

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 127 표 3 의미 프레임 구성 예제 User Utterance 그럼 SBS 드라마는 언제하지? Dialog Act Wh_Question Main Action Search_start_time Component Slot [channel = SBS, genre = 드라마] 이용한 언어 이해 방법론에 기반하여 구현되었다[7]. 정 보 추출 기술을 이용한 언어 이해 방법론은 의미 프레 임의 구성 요소들이 태깅 된 말뭉치로부터 교사 학습법 (Supervised Learning)을 통해 구축된 확률 모델에 기 반한 방법론이다. 말뭉치 태깅은 각각의 발화 예제에 대 해 이루어지며, 좀 더 넓은 범위의 표현이나 개체명에 대한 처리를 위해서는 해당 사항이 반영된 새로운 발화 예제에 대한 태깅 작업을 거쳐 훈련 말뭉치에 추가하는 과정을 거친다. EPG 정보 검색 도메인의 경우 고유의 특성으로 인해 해당 컨텐츠가 정기적이고 잦은 갱신 과 정을 거치며, 갱신된 정보에 대한 처리를 위해서는 NLU 모듈의 모델 역시 갱신되어야 한다. NLU 모델의 갱신에 소요되는 비용의 절감을 위해, 갱신된 컨텐츠 데 이타베이스의 내용과 기존의 태깅 말뭉치에 기반하여 추가 태깅 말뭉치를 자동으로 생성하는 방법을 사용한 다. 표 4는 태깅 말뭉치 자동 구축의 예를 보이고 있다. EPG 정보 검색 도메인의 컨텐츠 갱신으로 인한 NLU 모델의 갱신은 주로 의미 프레임의 구성 요소 중, 구성 성분 요소, 즉 발화 내에 포함된 개체명 정보에 대한 갱 신을 필요로 한다. 그러므로, 기존의 태깅 말뭉치에 포 함되어 있는 주행, 화행 및 구성성분 범주 정보는 모두 유지한 채, 실제 개체명에 해당하는 부분을 갱신된 새로 운 개체명으로 치환하는 과정을 거치게 된다. 구축되어 있는 태깅 코퍼스의 내용 중 상당 부분을 재사용하고, 변경 사항을 자동으로 반영함으로써 모델 구축에 필요 한 비용을 크게 줄일 수 있다. 표 4 태깅 말뭉치 자동 구축 예제 기존 발화 9시에 드라마 해신 보고 싶어 [genre = 드라마], [program_name = 해신], [time = 9시] DB 검색 결과 [genre = 드라마], [program_name = 주몽], [time = 10시] [genre = 영화], [program_name = 반지의 제왕], [time = 11시] 생성 발화 10시에 드라마 주몽 보고 싶어 11시에 영화 반지의 제왕 보고 싶어 3.2 대화 관리자 모듈 대화 관리자(Dialogue Manager) 모듈은 앞서 언급한 대화 예제를 이용한 상황 기반 대화 관리 방법론에 기 반하여 구현되었다. 하지만 기본적인 상황 기반 대화 관 리 방법론이 다양한 도메인의 대화를 처리할 수 있는 확장성에 초점을 맞추고 있는 것에 비해, 본 시스템은 EPG 정보 검색의 단일 도메인에 대한 대화 처리에 초 점을 맞추고 있다. 그러므로 대화 관리자 내의 세부 모 듈들은 EPG 정보 검색 도메인에 해당하는 각각의 단일 모듈들로 구성되어 있으며, 이는 앞서 언급한 상황 기반 대화 관리 구조의 단일 도메인에 대한 특별한 경우라 볼 수 있다. 하지만 기본적인 상황 기반 대화 관리 방법 론의 구조에 따르고 있기 때문에, 추후 필요에 의해 별 도의 도메인 확장이 가능하다. 대화 관리자는 사용자 발화에 대한 의미 분석 결과로 부터 구성된 대화 프레임과 담화 이력 등의 상황을 고 려하여 가장 적합한 시스템의 응답을 시스템 행위 태그 의 형태로 출력한다. 표 5는 시스템 행위 태그셋 목록을 나타내고 있으며, 시스템 행위 태그셋은 태그셋의 값 중 하나가 선택 된다. 시스템 행위 태그셋은 정보 제공 기 능을 포함하여, 대화 시스템이 대화 처리의 결과로 사용 자에게 제공할 수 있는 기능들에 대해 추상화된 개념을 기반으로 정의된다. 표 5 시스템 행위 태그셋 목록 System Action Salutation Say Select Inform_channel Inform_program Inform_cast Inform_alarm Inform_number Inform_record Inform_time Inform_positive Inform_negative Specify Confirm Finish 3.3 시스템 발화 생성 모듈 시스템 발화 생성 모듈은 대화 관리자의 결과인 시스 템 행위 정보를 기반으로 자연어 시스템 응답 발화를 생성한다. 시스템 발화 생성 모듈은 대화 관리자 모듈의 출력인 시스템 행위 정보에 대한 시스템 발화 템플릿에 실제 컨텐츠 데이타베이스 검색 결과를 적용하는 과정 을 통해 시스템 발화를 생성한다. 표 6은 시스템 발화 생성의 예를 보이고 있다. 시스템 행위 정보가 Inform_ channel 일 때, 해당하는 시스템 발화 템플릿은 프로그 램 이름과 채널을 요구한다. 시스템 발화 생성 모듈은 필요한 정보에 대해 컨텐츠 데이타베이스에 질의하고, 이 질의 결과를 시스템 발화 템플릿의 해당하는 위치의 표 6 시스템 발화 생성 예제 System Action Tag Inform_Channel Utterance Template [program_name]은 [channel]에서 합니다. Slot Values [program_name = 주몽, channel = MBC] System Utterance 주몽은 MBC에서 합니다

128 정보과학회논문지 : 소프트웨어 및 응용 제 34 권 제 2 호(2007.2) 범주명과 치환하는 과정을 거쳐 시스템 발화를 생성한다. 3.4 EPG 데이타 베이스 관리자 EPG 정보의 가장 큰 특성은 주기적으로 새로운 정보 가 제공되며, 정보가 갖고 있는 시간적 특성이 각 시점 에서의 정보의 가치를 좌우하는 기준이 된다는 점이다. 그러므로 EPG 정보 검색 시스템에서는 신속하고 정확 한 정보의 갱신 및 관리가 중요한 요소이다. EPG 데이 타베이스 관리자 모듈은 EPG 정보의 갱신을 위해 웹을 통해 얻을 수 있는 HTML 형식의 EPG 정보 테이블로 부터 원하는 정보를 추출하여, 데이타베이스로 구축하는 기능을 수행한다. 그림 4는 HTML 테이블로부터 정보 를 추출하여 EPG 정보 검색 대화 시스템을 위한 데이 타베이스 구축 과정을 나타낸다. HTML 형식의 웹페이 지는 우리가 추출하고자 하는 테이블 형태의 정보 이외 의 부가적인 부분을 포함하고 있다. EPG 데이타베이스 관리자 모듈은 우선 입력받은 HTML 페이지로부터 우 리가 원하는 테이블 부분을 추출하는 기능을 수행한다. 추출된 테이블로부터 EPG 컨텐츠 데이타베이스를 구성 하는 요소들에 해당하는 정보를 추출하고, 이렇게 추출 된 정보로부터 실제 대화 시스템에서 사용될 EPG 컨텐 츠 데이타베이스를 구축하는 과정을 거친다. 현재 EPG 데이타베이스 관리자 모듈은 한 EPG 웹사이트 (http:// www.epg.co.kr)의 형식에 맞춰 정보를 추출하는 규칙 기반으로 구현되어 있다. EPG 데이타베이스 관리자 모 듈로부터 생성된 EPG 데이타베이스는 NLU 모델 구축 과 대화 관리, 시스템 발화 생성의 대화 시스템 전반에 걸쳐 반영됨으로써, EPG 정보 검색 대화 시스템이 항 상 최신의 정보를 제공할 수 있도록 한다. 그림 4 EPG 데이타베이스 관리자 구조 이나 음성 인식 결과를 통해 입력된 사용자 발화에 대 한 처리 결과를 자연어 형태의 시스템 발화로 출력한다. 이 시스템 발화를 음성 합성 모듈(TTS)을 이용하여 음 성으로 합성함으로써 음성 입력과 음성 출력으로 이루 어지는 음성 대화 시스템 (Spoken Dialog System)을 구성할 수 있다. 그림 5는 EPG 정보 검색 대화 시스템 의 실행 예제이다. 각각의 EPG 정보 검색 요청에 관련 된 사용자 발화에 대한 시스템의 정보 검색 결과에 기 반한 응답 발화가 출력되고 있다. 그림 5 EPG 정보 검색 대화 시스템 실행 화면 4.2 실험 실험을 위해 EPG 정보 검색 도메인의 대화 말뭉치를 이용하여 대화 예제 데이타베이스를 구축하였다. 이 대 화 말뭉치는 380개의 사용자 발화로 이루어진 88개의 한국어 대화로 구성이 되어 있다. 각 사용자 발화는 NLU 모델을 위한 태깅이 되어 있고 여기에 대화 예제 기반 대화 모델을 구축하기 위해 담화 이력 벡터와 시 스템 응답을 태깅하였다. 실험은 텍스트 입력과 음성 입력으로 나누어 진행하 였으며, 음성 인식기는 HTK를 기반으로 EPG 정보 검 색 도메인의 언어 모델로 훈련이 되어 있다. 이번 실험 환경에서 단어 오인식률(WER)은 15.3%이며, 텍스트 입 력과 음성 입력 각각에 대한 NLU 모듈의 성능은 표 7 과 같다[7]. 대화 예제 기반의 대화 모델링 능력을 측정하기 위해 대화 예제 일치 비율(Example Matching Rate, EMR) 4. 구현 및 실험 4.1 구현 결과 EPG 정보 검색을 위한 대화 시스템은 텍스트 입력과 함께 HTK 기반의 음성 인식기를 이용하여 음성 입력 도 처리할 수 있도록 구현되었다. 시스템은 텍스트 입력 표 7 NLU 성능 Slot Type Textual Input Spoken Input (WER 0.0%) (WER 15.3%) Dialogue Act 95.33 85.34 Main Action 93.50 81.78 Component Slot 90.85 80.12

EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템 129 과 그것에 따른 턴 성공 비율(Success Turn Rate, STR) 을 측정하였다. EMR은 사용자 발화 입력에 대한 대화 예제 일치의 평균 일치 비율로 전체 일치와 부분 일치 로 나누어서 측정하였다. 그리고 그것에 따라 시스템 발 화가 적절한지를 확인하기 위해 STR을 측정하였다. 실 험을 위해 5명의 사용자에게 EPG 정보 검색 도메인에 대한 10개의 임의의 텍스트 입력을 훈련에 사용한 88개 의 대화와 독립적으로 넣도록 하였으며 각 턴마다 시스 템 발화의 적절성을 평가하도록 하였다. 표 8은 각 예제 일치 분류에 따라 EMR과 STR을 나타낸다. 실험 결과 를 통해 대부분의 대화는 전체 일치나 부분 일치로 진 행이 가능하며 훈련에 사용하지 않은 입력에 대해서도 대부분(94%의 커버리지) 원만한 대화 진행이 이루어지 는 것을 확인할 수 있다. 또한 대화 관리 시스템의 성능 측정을 위해 텍스트 입력과 음성 입력에 대한 PARADISE 성능 측정법 [5] 의 평가가 이루어졌다. 사용자 만족도(User Satisfaction)는 음성 인식률(Mean Recognition Accuracy, MRA) 과 대화 성공률(User Perception of Task Completion Rate, TCR), STR의 값들에 각각 1/3씩의 가중치를 부 여한 뒤, 선형 보간법을 이용하여 정의하였다. 평가는 5 명의 사용자에게 5개의 다른 EPG 정보 검색 대화 시나 리오에 기반한 대화를 수행하도록 하고, 각각의 턴과 대 화에 대해서 시스템 발화의 정확성과 성공 유무를 평가 하도록 하였다. 표 9는 대화 성능 평가 결과를 나타낸다. 앞서 언급된 대화 관리 시스템의 성능 측정은 고정된 컨텐츠 데이타베이스에 대해 수동으로 관리된 시스템에 대한 성능 측정이었다. 이에 대해 EPG 데이타베이스관 리자로부터 구축된 컨텐츠 데이타베이스로부터 자동으 로 갱신 및 관리된 시스템에 대해서 동일한 실험을 수행 표 8 EMR과 STR 평가 결과 Example Match Type EMR STR Exact Match 0.42 0.9 Partial Match 0.52 0.73 No Example 0.06 0.33 표 9 대화 성능 평가 결과 Evaluation Textual Input Spoken Input TCR 0.92 0.76 STR 0.88 0.65 MRA 1.00 0.85 User Satisfaction 0.93 0.75 TCR: User Perception of Task Completion Rate STR: Success Turn Rate MRA: Mean Recognition Accuracy User Satisfaction = atcr + bstr + rmra Evaluation 표 10 자동 구축 시스템 성능 비교 Manually Managed System Automatically Managed System TCR 0.76 0.72 STR 0.65 0.62 MRA 0.85 0.85 User Satisfaction 0.75 0.73 TCR: User Perception of Task Completion Rate STR: Success Turn Rate MRA: Mean Recognition Accuracy User Satisfaction = atcr + bstr + rmra 하였다. 실험은 음성 입력에 대해서 수행되었으며, 컨텐 츠 데이타베이스의 내용과 그로부터 자동으로 구축된 세부 모듈 별 모델을 제외한 모든 조건에 대해 동등한 조건에서 실험이 이루어졌다. 표 10은 기존의 수동 구축 된 EPG 정보 검색 대화 시스템과 자동으로 갱신 및 관 리된 시스템 간의 사용자 만족도 평가 비교 결과를 나 타내고 있다. 수동 구축된 시스템이 0.75의 사용자 만족 도를 보이고 있는 것에 비해, 자동으로 갱신된 시스템도 0.73의 사용자 만족도를 보이고 있다. 이 결과로부터 자 동으로 대화 시스템을 관리함으로써 큰 성능 저하 없이 관리에 소요되는 비용을 절감할 수 있음을 확인할 수 있다. 5. 결 론 본 연구에서는 대화 예제를 이용한 상황 기반 대화 관리 방법론에 기반하여 EPG 정보 검색 대화 시스템을 개발하였다. 대화 예제를 이용하여 대화 관리를 위한 규 칙을 자동으로 구축함으로써 효율적이고 실용적인 대화 시스템을 구축할 수 있었으며, 웹마이닝을 이용하여 EPG 데이타베이스를 자동으로 구축 및 갱신함으로써 데이타베이스 구축을 위한 비용을 절감할 수 있음을 실 험을 통해 확인할 수 있었다. 향후 계획은 EPG 데이타 베이스 구축 모듈을 보강하여 테이블 형태의 자료뿐 아 니라, 일반적인 자연어 문서에 대해서도 원하는 정보를 추출함으로써 좀 더 다양한 정보를 제공할 수 있는 EPG 대화 시스템을 개발할 예정이다. 참 고 문 헌 [1] J. Allen, D. Byron, M. Dzikovska, G. Ferguson, L. Galescu, and A. Stent, "Towards conversational human-computer interaction," AI Magazine, Vol. 22, no. 4, pp 27-37, 2001. [2] Cheongjae Lee, Sangkeun Jung, Jihyun Eun, Minwoo Jeong, and Gary Geunbae Lee, A Situation-based Dialogue Management using Dialogue Examples, Proceedings of the 2006 IEEE

130 정보과학회논문지 : 소프트웨어 및 응용 제 34 권 제 2 호(2007.2) international conference on acoustics, speech and signal processing (ICASSP-2006). May 2006, Toulouse. [3] McTear, "Modeling spoken dialogues with state transition diagrams : Experiences with the CSLU toolkit," Proceedings of the 5th International Conference on Spoken Language Processing, Vol. 4, pp. 1223-1226, 1998. [4] O. Lemon, A. Gruenstein et al., "Multi-tasking and collaborative activities in dialogue systems," Proceedings of the 3rd SIGDIAL Workshop on Discourse and Dialogue, pp. 113-124, 2002. [5] J. Chu-Carroll, "MIMIC: An adaptive mixed initiative spoken dialogue system for information queries," Proceedings of the 6th Applied Natural Language Processing Conference, pp. 97-104, 2000. [6] I. O Neil, P. Hanna et al., "Implementing advanced spoken dialogue management in Java," Speech Communication, Vol. 54, no. 1, pp 99-124, January 2005. [7] J. Eun, C. Lee, and G. Lee, "An Information extraction approach for spoken language understanding," Proceedings of the 8th International Conference on Spoken Language Processing, pp. 2145-2148, 2004. 이 근 배 1984년 서울대학교 컴퓨터공학과 학사 1986년 서울대학교 컴퓨터공학과 석사 1991년 UCLA 컴퓨터학과 박사. 1991년 3월~1991년 9월 UCLA 연구원. 1991 년~1996년 포항공과대학교 조교수. 1997 년~2003년 포항공과대학교 부교수. 2000 년~2001년 미국 Stanford CSLI 연구원. 2004년~현재 포 항공과대학교 정교수. 관심분야는 자연언어 처리, 음성인식, 정보검색, 바이오 인포메틱스 김 석 환 2001년 3월~2005년 8월 포항공과대학교 컴퓨터공학과 학사. 2005년 9월~현재 포 항공과대학교 컴퓨터공학과 박사과정. 관 심분야는 대화 모델, 정보 추출 이 청 재 2000년 3월~2004년 8월 포항공과대학교 컴퓨터공학과 학사. 2004년 9월~현재 포 항공과대학교 컴퓨터공학과 박사과정. 관 심분야는 대화 모델 정 상 근 1999년 3월~2004년 2월 포항공과대학교 컴퓨터공학과 학사. 2004년 3월~2006년 2월 포항공과대학교 컴퓨터공학과 석사 2006년 2월~현재 포항공과대학교 컴퓨 터공학과 박사과정. 관심분야는 대화 모 델, 확인 대화