lkh

Similar documents
PowerPoint 프레젠테이션

한국학 온라인 디지털 자원 소개

105È£4fš

PowerPoint 프레젠테이션


ÀüÀÚÇö¹Ì°æ-Áß±Þ

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

XML04

<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

차 례 머리말 Ⅰ. 21세기세종계획일지 Ⅱ. 21세기세종계획사업조직변천및주요사업내역 i -

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

PowerPoint 프레젠테이션

English Language and Linguistics 20(2) 93 영어우향전위구문에대한소고 말뭉치자료를중심으로 김옥기 김종복 경희대학교 서론 영어에서흔히사용되는이른바전위구문 은아래 에서제시된좌향전위구문 과 와같은우향전위구문 으로구분될수있다 위예문에서알수있듯이두

자연언어처리

2014 한국어문학회 전국학술대회 통일 시대를 위한 한국 어문학의 성찰과 모색 겨나면서 민족어 란 용어가 등장하였다. 오늘의 학술대회 발표 제목에도 민 족어 란 용어가 보인다. 민족어의 수호와 발전 (고영근, 제이앤씨, 2008)의 민족어 는 국어, 한국어, 조선어,

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

<313820B9DABFEBBAF32DB8F0B9D9C0CFB1E2B1E B8A620C0CCBFEBC7D120452D4C E696E672E687770>

untitled


한국학 온라인 디지털 자원 소개

snmpgw1217

PowerPoint 프레젠테이션

OCW_C언어 기초

08학술프로그램

국어 순화의 역사와 전망

ePapyrus PDF Document

슬라이드 1

2009방송통신산업동향.hwp

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

TARSQI 프로젝트 개요

(Microsoft PowerPoint - JATSXML2PDF_\301\266\300\261\273\363.pptx)

10 강. 쉘스크립트 l 쉘스크립트 Ÿ 쉘은명령어들을연속적으로실행하는인터프리터환경을제공 Ÿ 쉘스크립트는제어문과변수선언등이가능하며프로그래밍언어와유사 Ÿ 프로그래밍언어와스크립트언어 -프로그래밍언어를사용하는경우소스코드를컴파일하여실행가능한파일로만들어야함 -일반적으로실행파일은다

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

3장

SyncMLServer-정보과학회_논문지.PDF

C++ Programming

untitled


기술문서 작성 XXE Attacks 작성자 : 인천대학교 OneScore 김영성 I. 소개 2 II. 본문 2 가. XML external entities 2 나. XXE Attack 3 다. 점검방법 3 라.

Week8-Extra

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

제이쿼리 (JQuery) 정의 자바스크립트함수를쉽게사용하기위해만든자바스크립트라이브러리. 웹페이지를즉석에서변경하는기능에특화된자바스크립트라이브러리. 사용법 $( 제이쿼리객체 ) 혹은 $( 엘리먼트 ) 참고 ) $() 이기호를제이쿼리래퍼라고한다. 즉, 제이쿼리를호출하는기호

90°íÀº¿µ(½ÉÆ÷)

歯튜토리얼-이헌중.PDF

PowerPoint Presentation

언어과학연구제 73 집 1. 문제의제기 지금까지국어학계에서는선어말어미 더 의기능과의미를밝히기위하여다각도로모색해왔다 최현배 에서는 도로생각때매김이란것은지난적에겪은 경험한 본 일을도로생각하여말할때에쓰이는때매김이니 이는곧말하는이가말하는그때점을대중을삼지아니하고 지난적에그일을겪

PowerPoint 프레젠테이션

ASR ISSN / Audiol Speech Res 2017;13(3): / RESEARCH PAPER Preliminary Study for Constructi

RNN & NLP Application

MySQL-.. 1

Microsoft PowerPoint - CSharp-10-예외처리

PowerPoint 프레젠테이션

< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

EA0015: 컴파일러

XML

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

Windows 10 General Announcement v1.0-KO

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

<B9ABC1A62D31>

Lab1

Microsoft PowerPoint - 00_(C_Programming)_(Korean)_Computer_Systems

src.xls

PowerPoint Presentation

Microsoft PowerPoint - chap06-1Array.ppt

PowerPoint Template

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

Microsoft Word - Lab.4

Untitled-1

PowerPoint 프레젠테이션

문화재이야기part2

현장에서 만난 문화재 이야기 2


<C0CCBCBCBFB52DC1A4B4EBBFF82DBCAEBBE7B3EDB9AE2D D382E687770>

PowerPoint 프레젠테이션

Chap 6: Graphs

F6-Á¤´ä

untitled

KCCS :V2.1(N01) 디지털수량산출정보교환표준 ( 안 ) Digital QDB(Quantity DataBase) in Construction V2.1 제정일 : 2011 년 4 월 개정일 : 2016 년 6 월

A plan for managing exhibition & education programs in presidential archives 143

<4D F736F F F696E74202D E20C0CEC5CDB3DD20C0C0BFEB20B9D720BCADBAF1BDBA20B1E2BCFA E >

Microsoft Word - src.doc

소식지11월호 수정

PowerPoint 프레젠테이션

수가 없잖아!! 힘없는 소년 이와또가 이상한 신들과 활기찬 농부들을 만나는 마음 따뜻해지 는 이야기다. 어서 문을 열으라! 이와또 프로젝트 (나가노현) 3월 21 일(금, 휴일) 19:30 공개 게네프로 3 월 22 일 (토) 10:00 라쿠유우칸 문화홀 1. 무대극

Microsoft PowerPoint - e pptx

PowerPoint Presentation

Microsoft XML 파서를 이용한 XML 프로그래밍

1수준


유의사항 Information marking example 1 3 4

예제로 배우는 xslt


학술지 구성요소

혼자서일을다하는 JSP. 이젠일을 Servlet 과나눠서한다. JSP와서블릿의표현적인차이 - JSP는 <html> 내에서자바를사용할수있는수단을제공한다. - 서블릿은자바내에서 <html> 을작성할수있는수단을제공한다. - JSP나서블릿으로만웹페이지를작성하면자바와다양한코드가

C# Programming Guide - Types

14.PDF

제5장 형태소분석

SNU =10100 =minusby by1000 ÇÁto0.03exÇÁto0.03exÇÁ=10100 =minusby by1000 ·Îto0.03ex·Îto0.03ex·Î=10100 =minusby by1000 ±×to0.

Transcription:

XML 을이용한주석말뭉치의구조화와활용 이기황 연세대학교 kihwang.lee@yonsei.ac.kr 1. 머리말 이글에서는구조화문서의마크업을위한메타언어인 XML(eXtensible Markup Language) 를이용하여주석말뭉치를구조화하고, 이를언어연구에활용하는방법을몇 가지예를통하여제시하고자한다. 현재문화관광부및국립국어원에서는 21 세기세종계획 을통하여대규모의언어 자원인세종말뭉치를구축하고있다. 세종말뭉치의가장큰부분은글말및입말이포함 된원시말뭉치(raw corpus) 이며, 이에언어학적주석을부가한형태소분석말뭉치와문장 분석말뭉치도개발중에있다. 1) 원시말뭉치에는 TEI(Text Encoding Initiative) 에서제정하여발표한 TEI-Lite를우리실 정에맞게조정한 SGML(Standard Generalized Markup Language) 을이용하여말뭉치원자 료의서지정보와각종메타정보, 그리고입력된문서의구조가표시되어있다( 강범모외 1998, 김흥규외 2000). 주석말뭉치인형태소분석말뭉치와문장분석말뭉치의경우에는 SGML 등을이용한 일반적인형태의주석이달려있지않으며, 이른바수직형(vertical) 의형태소분석주석과 S- 표현(S-Expression) 으로표현된문장분석주석이부가되어있다( 김흥규 임해창 2003). 이 와같은형태의주석으로도주석정보의검색, 가공등일부말뭉치처리가가능하기는하 지만, 현재의주석형식에맞는응용소프트웨어를사용하여야만하며, 주석의확장에대 처하기가힘들다는단점이있다. 막대한비용과시간을들여서구축한언어자원인주석 말뭉치의활용을극대화하기위해서는구조화된문서에대한일반적이고확장성이보장되 며개방된마크업을제공하는 XML 을채용하는것이올바른방향일것이다. 2. 배경 2 장에서는 XML 의기원과특징, 장점등을간략히살펴본뒤에, XML을언어자원의주 석에이용한대표적인사례몇가지를소개한다. 1) 21 세기세종계획 에대해서는 http://www.sejong.or.kr 을참조하라.

2.1. XML 의역사 XML의기원은 1970년대에전자문서의자유로운교환을위한일반화된마크업방법으 로 IBM에서개발되어 ISO(International Organization for Standardization) 에서국제표준으로 인정된 SGML 에있다. SGML 은다양한분야에서활용되었는데, 가장널리알려진것은웹 문서의마크업에이용되는 HTML(HyperText Markup language) 이다. 2) XML은 SGML의부분 집합으로 SGML보다단순한언어로서 W3C(World Wide Web Consortium) 에서인터넷에서 의정보교환을위해제정하였다. 2.2. XML 의특징및장점 앞서언급했듯이 XML 은문서와자료의마크업을위한 일반문법 을정의하는데이 용된다. 일반문법 정의는 HTML과같이고정된용도를가진제한된어휘와문법을규 정하는것을넘어서사용자가원하는어떠한형태의마크업어휘와문법이라도규정할수 있는메타언어로서의 XML XML 이가진특성이다. 마크업은특정업체나기술에종속된이진형태가아닌가장기본적인형태의자 료형식인 날텍스트(plain text) 로이루어진다. 그러므로 XML 마크업이부가된전자문 서는인간의눈으로도읽을수있으며, 기계로도처리가가능하다. 잘설계된 XML 문서는 살펴보는것만으로도대략의구조파악이가능하기때문에 XML 문서를 스스로설명하 는(self-describing)' 문서, 혹은 이야기하는(narrative)' 문서라고도한다. XML 은매우유연하고개인화(customize) 가가능하면서도개방된기술로 W3C에서제정 하는파생기술의규격을따르는다양한상용혹은공개도구들이존재하며, 사용하기쉬 운 API(application programming interface) 또한여러프로그래밍언어를위해개발되었다. [ 그림 1] 은기본적인형태의간단한 XML 문서의한예이다. <note> <to> 기황</to> <from> 영수</from> <heading> 지시사항</heading> <body> 세탁소에서세탁물찾을것</body> </note> [ 그림 1] 기본적인 XML 문서의예 2) 이부분은 http://www.sil.org/computing/routledge/simons/text.html#sgml, http://www.ifi.unizh. ch/cl/rinaldi/courses/ss06/presentations/ 등을참조하여작성하였다.

2.3. 언어공학에서의 XML의활용 XML은유연하고확장성이좋으면서도 SGML보다는단순하기때문에다양한전자문서 및자료의마크업에사용되었으며, 다양한종류의언어자원을다루는언어공학도예외가아니다. 2.3.1. British National Corpus 영국국가말뭉치(BNC, http://www.natcorp.ox.ac.uk) 는 XML이광범위하게보급되기전에 개발되기시작하여 SGML을주석에이용하였으나최근 XML 로의이전이이루어지고있다. XML 마크업이적용된 BNC 말뭉치는 XML 문서의색인과검색을지원하는 Xaira(http://www.xaira.org) 와함께공급되기로되어있다. [ 그림 2] Xaira에서읽어들인 BNC 말뭉치 2.3.2. TIGER-XML [ 그림 3] Xaira의 query builder TIGER(http://www.ims.uni-stuttgart.de/projekte/TIGER) 는대규모의독일어문장분석신문 말뭉치구축을위한프로젝트로서, 문장분석말뭉치의주석을위한 TIGER-XML이라는규 격을만들었다. [ 그림 4] 와 [ 그림 5] 는독일어문장의분석결과를수형도와 XML 문서로

나타낸것이다. [ 그림 4] 수형도로나타낸독일어문장의분석결과 <s id="s5"> <graph root="s5_504"> <terminals> <t id="s5_1" word="die" pos="art" morph="def.fem.nom.sg"/> <t id="s5_2" word="tagung" pos="nn" morph="fem.nom.sg.*"/> <t id="s5_3" word="hat" pos="vvfin" morph="3.sg.pres.ind"/> <t id="s5_4" word="mehr" pos="piat" morph="--"/> <t id="s5_5" word="teilnehmer" pos="nn" morph="masc.akk.pl.*"/> <t id="s5_6" word="als" pos="kokom" morph="--"/> <t id="s5_7" word="je" pos="adv" morph="--"/> <t id="s5_8" word="zuvor" pos="adv" morph="--"/> </terminals> <nonterminals> <nt id="s5_500" cat="np"> <edge label="nk" idref="s5_1"/> <edge label="nk" idref="s5_2"/> <nt id="s5_501" cat="avp"> <edge label="cm" idref="s5_6"/> <edge label="mo" idref="s5_7"/> <edge label="hd" idref="s5_8"/> <nt id="s5_502" cat="ap"> <edge label="hd" idref="s5_4"/> <edge label="cc" idref="s5_501"/> <nt id="s5_503" cat="np"> <edge label="nk" idref="s5_502"/> <edge label="nk" idref="s5_5"/> <nt id="s5_504" cat="s"> <edge label="sb" idref="s5_500"/> <edge label="hd" idref="s5_3"/> <edge label="oa" idref="s5_503"/> </nonterminals> </graph> </s> [ 그림 5] XML로나타낸독일어문장의분석결과

2.3.3. NITE XML Toolkit NITE XML Toolkit(http://www.ltg.ed.ac.uk/NITE) 은멀티미디어언어자원의주석을위한도구이다. 단순한텍스트로구성된말뭉치를벗어나오디오와비디오와연동되는다중양상말뭉치의구축을지원한다. [ 그림 6] NITE XML Toolkit 3. XML 을이용한한국어말뭉치의주석 아직국내에서는 XML 이말뭉치주석에본격적으로활용되고있지않다. 3) 3 장에서는 글쓴이가학위논문작성을위한말뭉치처리를수행하면서이용한 주석의예를보인다. XML을이용한말뭉치 3.1. 형태소분석말뭉치의주석 <!ELEMENT taggedcps (s+)> <!ELEMENT s (wordform+)> <!ELEMENT wordform (lex, morphanal)> <!ELEMENT morphanal (morph+)> <!ELEMENT morph (lex, cat)+> <!ELEMENT lex (#PCDATA)> <!ELEMENT cat (#PCDATA)> <!ATTLIST s id CDATA "unknown"> [ 그림 7] 형태소분석말뭉치를위한 DTD 3) 언어사전의구조화에 XML을이용하는논의들은상당수이루어졌으나이글과직접적인연관은없으므로그에관한소개는생략한다.

위의 [ 그림 7] 은형태소분석말뭉치의구조를나타내는문서유형정의(DTD, document type definition) 이다. 4) 잘살펴보면문장의통사구조를표현하는다시쓰기규칙과유사함 을발견할수있다. + 는반복기호가운데하나로해당요소가 1개이상발생하는것을표 현한다. 이 DTD가적용된 XML 문서의예는다음그림에서볼수있다. 원어절의형태로그어절의분석결과를계층화된구조로표시하고있다. 이파일은여 러가지 XML 검색가공도구를이용하여분석, 처리할수있다. 또한 Python과같이간단 한스크립트언어를이용한분석도가능하다. 위와같이표현된문장들에대하여간단한 부분문장분석을하여문장의용언, 그리고그용언과함께사용된명사구들의목록을표 시하는 <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE taggedcps SYSTEM "taggedcps.dtd"> <taggedcps> <s id="y0900071.1"> <wordform> <lex> 하늘에는</lex> - <morphanal> - <morph> <lex> 하늘</lex> <cat>nng</cat> </morph> - <morph> <lex> 에</lex> <cat>jkb</cat> </morph> - <morph> <lex> 는</lex> <cat>jx</cat> </morph> </morphanal> </wordform> - <wordform> <lex> 구름</lex> - <morphanal> - <morph> <lex> 구름</lex> <cat>nng</cat> </morph> </morphanal> </wordform> </s> </taggedcps> XML 파일의예를다음에보인다. 4) 최근에는 XML 문서의구조정의에스키마(schema) 를주로권장된다.

<?xml version="1.0" encoding="euc-kr"?> <!DOCTYPE sentfrag SYSTEM "sentfrag.dtd"> <sentfrag> <sf id="y0900001.2"> <pred> <lex> 똑같</lex> <cat>va</cat> </pred> <nomjosalst> <nomjosa d="1"> <nom> <lex> 키</lex> <cat>nng</cat> </nom> <josa> <lex> 도</lex> <cat>jx</cat> </josa> </nomjosa> <nomjosa d="2"> <nom> <lex> 얼굴</lex> <cat>nng</cat> </nom> <josa> <lex> 도</lex> <cat>jx</cat> </josa> </nomjosa> </nomjosalst> </sf> </sentfrag> [ 그림 9] 서술어, 명사의호응관계를나타내는 XML 문서 [ 그림 9] 에서보인 XML 문서는형용사 똑같다 와함께쓰인명사들과그명사들에 딸린조사들, 그리고각명사구와형용사와의거리를기록하고있다. 이자료는어떤용언 이어떤 ( 체언, 조사) 쌍과주로어울려쓰이는지, 또는어떤조사가어떤용언과특정한 거리에서주로사용되는지등의다양한통계정보를얻는데쓰일수있다. 5) 3.2. 문장분석말뭉치의주석문장분석말뭉치는형태소분석말뭉치보다더풍부한정보를담고있다. 분석말뭉치의구조화를위한마크업을설계하는것은간단하지않은일이다. 따라서문장 특히고려해 5) 이 XML 문서의구조를정의하는 DTD 파일을글에서보이는것은생략한다.

야할것은문장분석말뭉치에존재하는구절의형태를모두미리파악하는것이쉽지 않으므로최대한개방적인구조를지닌 XML 표현으로부터단계적으로구현해야할것이 다. (1) ㄱ. 우리문제는우리들이제일잘알아요. ㄴ. 우리/NP 문제/NNG+ 는/JX 우리/NP+ 들/XSN+ 이/JKS 제일/NNG 잘/MAG 알/VV+ 아요/EF+./SF ㄷ. (S (NP_OBJ (NP 우리 /NP) (NP_OBJ 문제/NNG+ 는/JX)) (S (NP_SBJ 우리/NP+ 들/XSN+ 이/JKS) (VP (NP 제일/NNG) (AP 잘/MAG) (VP 알/VV+ 아요/EF+./SF))))) (1) 은세종구문분석말뭉치에포함된한문장의예이다. 세종구문분석말뭉치에서는 Penn Treebank와마찬가지로 S- 표현을사용하여문장의구조를표시한다. S-표현은문장 의구조표현에는특별한문제가없으나사람이알아보기좋은표시방식은아니다. 또한 메타언어가기술대상자료와잘구분되지않아서더알아보기힘든경우도있다. 글쓴이 는위와같은문장분석결과를부록에보인것과같이 XML 로마크업하였다. 세종말뭉치의구문분석은특수한예몇가지를빼고는모두오른쪽가지를키우는형 식으로되어있다. 문장기능표시는제한적으로이루어지고있으며, 단말기호와비단말 기호의표식에는차이가없다. 내포문과동사구의구분이모호하다는점도지적되어있다. XML 로문장의구조를표현하면, 계층적인정보를검색조건으로하여부분구조의검색 이가능하다. 또한의존관계의추출도비교적쉽게이루어진다. 4. 시연 위에서제시한내용들을실제자료를이용한시연을통해확인해보자. 5. 맺음말 이상에서 XML을이용하여대표적인주석말뭉치인형태소분석말뭉치와분장분석말 뭉치를구조화하는방법과그활용예를간단히살펴보았다. XML 자체는주어진정보를표 현하는틀에불과하므로실제로어떤정보를말뭉치에부가할것인가를먼저면밀히검토 하여정한뒤에그에걸맞는마크업체계를세워야한다. 앞으로다가올멀티모덜말뭉치 처리에있어서는 XML 과같은일반마크업언어가특히크게유용할것으로기대된다.

참고문헌 강범모. 장효현, 윤재민. 1998. 한국학문헌전산화를위한 TEI 부호화방안의응용과확장. 한국학술진흥재단연구보고서. 김흥규, 임해창. 2003. 21 세기세종계획국어기초자료구축. 문화관광부연구보고서. 김흥규, 임홍빈, 임해창. 2000. 21 세기세종계획국어기초자료구축. 문화관광부연구보 고서.

< 부록> XML로마크업한문장분석결과 <s> </s> <nt cat="np" func="obj"> <t cat="np"> <morph lex=" 우리 cat="np"> <t cat="np" func="obj"> <nt cat="s"> <t cat="np" func="sbj"> <nt cat="vp"> <t cat="np"> <t cat="ap"> <t cat="vp"> <morph lex=" 문제 cat="np"> <morph lex=" 는 cat="jx"> <morph lex=" 우리 cat="np"> <morph lex=" 들 cat="xsn"> <morph lex=" 이 cat="jks"> <morph lex=" 제일 cat="nng"> <morph lex=" 잘 cat="mag"> <morph lex=" 알 cat="vv"> <morph lex=" 아요 cat="ef"> <morph lex="." cat="sf">