제 1 장자연언어처리의개념
자연언어 자연언어란? 정보전달의수단 인간고유의능력 인공언어에대응되는개념 특정집단에서사용되는모국어의집합 한국어, 영어, 불어, 독일어, 스페인어, 일본어, 중국어등 인공언어란? 특정목적을위해인위적으로만든언어 자연언어에비해엄격한구문을가짐 형식언어, 에스페란토어, 프로그래밍언어 제 1 장자연언어처리의개념 2
자연언어처리 자연언어처리란? 컴퓨터를통하여인간의언어를처리하고이용하려는학문분야 인간의언어를이해하고, 이를바탕으로각종정보처리에적용함으로써보다빠르고편리한정보획득 자연언어처리응용분야 인간의언어가사용되는실세계의모든영역 정보검색, 질의응답시스템 Google, Naver, iphone siri, IBM Watson 기계번역, 자동통역 Google 번역기, ETRI 지니톡 문서작성, 문서요약, 문서분류, 철자오류검색및수정, 문법오류검사및수정 제 1 장자연언어처리의개념 3
IBM Waston http://www.youtube.com/watch?v=repnuf8i_i0 왓슨 (Waston) 은자연어형식으로된질문들에답할수있는인공지능컴퓨터시스템이며, 시험책임자데이비드페루치가주도한 IBM 의 DeepQA 프로젝트를통해개발되었다 2011 년기능시험으로서왓슨은퀴즈쇼제퍼디! 에참가하였으며, 이는이제까지도유일한인간대컴퓨터대결이었다 2 월 14 일부터 16 일까지세개의제퍼디! 에피소드의방송에서왓슨은금액기준사상최대우승자브레드러터, 가장긴챔피언십 (74 번연속승리 ) 의기록보유자켄제닝스와대결하였다. 첫상금에서켄제닝스와브레드러터가각각 300,000 달러와 200,000 달러를받는사이왓슨은 100 만달러를거머쥐었다. 제 1 장자연언어처리의개념 4
5
형태론적다양성 첨가어 한국어, 일본어, 터키어등 다수의형태소가결합하여어절형성 터키어는평균 7개의형태소가결합 굴절어 라틴어 ( 영어, 불어등은첨가어와굴절어의특징이모두있음 ) 어간이변함 ( 영어의예 : run, ran, run) 스와히리어 수 (number) 를위한형태소가문두에붙음 ( 예 ) 사람 : m+tu ( 단수 ), wa+tu ( 복수 ) 나무 : m+ti ( 단수 ), mi+ti ( 복수 ) 아랍어 자음이어간이고모음이시제, 수등을표현 ( 예 ) ktb( 쓰다 ) katab( 능동 ) KUtIb( 수동 ) kttb( 쓰게하다 ) kattab( 능동 ) KUttIb( 수동 ) 제 1 장자연언어처리의개념 6
통사적다양성 Postfix 언어 (Head-Final Languages) 동사가문장의뒤에위치 한국어, 일본어등 Infix 언어 동사가문장의중간에위치 영어, 불어등 Prefix 언어 동사가문장의처음에위치 아일랜드어 제 1 장자연언어처리의개념 7
1.3 자연언어분석단계 자연언어문장 형태소분석 (Morphological Analysis) 구문분석 (Syntax Analysis) 의미분석 (Semantic Analysis) 화용분석 (Pragmatic Analysis) 분석결과 제 1 장자연언어처리의개념 8
- 어절 어절, 단어, 형태소 양쪽에공백을갖는띄어쓰기단위의문자열 - 단어 / 형태소 단일품사를갖는단위 / 사전에등록되어있는색인어의집합 예 : 나는책을읽었다. 파릇파릇한싹이나는계절이다. 하늘을나는새를보라. I tried to go to school. He tries to pass the exam. 나 + 는날다 + 는나다 + 는
형태소분석 (Morphological Analysis) 입력된문자열을분석하여형태소 (morpheme) 라는최소의미단위로분리 사전정보와형태소결합정보이용 정규문법 (Regular Grammar) 으로분석가능 언어에따라난이도가다름 영어, 불어 : 쉬움 한국어, 일본어, 아랍어, 터키어 : 어려움 제 1 장자연언어처리의개념 10
형태소분석의난점 중의성 (ambiguity) 감기는 의분석결과감기 ( 명사 :cold) + 는 ( 조사 ) 감 ( 동사어간 ) + 기 ( 명사화어미 ) + 는 ( 조사 ) 감 ( 동사어간 ) + 기는 ( 어미 ) 접두사, 접미사처리 고유명사, 사전에등록되지않은단어처리 한국어, 독일어처럼복합명사내의명사를띄우지않거나, 일본어처럼띄어쓰기가없으면더욱어려워짐 한국어형태소결합의예 ( 친구에게서였었다라고 ) 친구 ( 명사 ) + 에게 ( 조사 ) + 서 ( 조사 ) + 이 ( 서술격조사 ) + 었 ( 과거시제어미 ) + 었 ( 회상어미 ) + 다 ( 어말어미 ) + 라고 ( 인용격조사 ) 제 1 장자연언어처리의개념 11
형식문법과자연언어 Chomsky 의형식문법분류 Type Format of Productions Remarks 0 A Unrestricted Substitution Rules (Contracting) 1 A, S Context-Sensitive Grammar 2 A, S Context-Free Grammar 3 A ab, A a Right Linear S Regular A Ba, A a Grammar Left Linear S 자연언어의구문이 Context-Free Grammar 로표현가능한지아닌지에대해서는결론이내려지지않고있다. 제 1 장자연언어처리의개념 12
문법, 구문분석 문법 (Grammar) : 문장의구조적성질을규칙으로표현한것 구문분석기 (Parser) : 문법을이용하여문장의구조를찾아내는 process 문장의구문구조는 Tree 형태로표현할수있다. 즉, 몇개의형태소들이모여서구문요소 ( 구 : phrase) 를이루고, 그구문요소들간의결합구조를 Tree 형태로써구문구조를이루게된다. NP N S V VP ART NP N John ate the apple
문법 (Grammars) Grammar : a set of rewrite rules (ex) S NP VP NP ART N NP N VP V NP Context Free Grammar (CFG) : 각 rule 의 LHS(Left-Hand side) 가하나의 symbol 로이루어진문법규칙 Grammar Rule 을이용해서문장 (sentence) 을생성할수도있고 (sentence generation), 분석할수도있다 (sentence parsing).
Sentence Generation (ex) By rewrite rule S NP VP N VP John VP John V NP John ate ART N John ate the N John ate the apple.
Bottom-up Parsing (ex) John ate the apple. N V ART N NP V ART N NP V NP NP VP S NP N S VP NP V ART N John ate the apple
구문분석 - Structural Ambiguities S S NP Time NP NP flies V like VP Structural Ambiguities NP light Time flies like light. 2 가지이상의구조로분석됨 flies (noun or verb), like(verb or preposition) A man see a woman with a telescope on the hill. 5 가지이상 NP Time V flies VP IN like PP NP light 제 1 장자연언어처리의개념 17
의미분석 (Semantic Analysis) 통사분석결과에해석을가하여문장이가진의미를분석 형태소가가진의미를표현하는지식표현기법이요구됨 통사적으로옳으나의미적으로틀린문장이있을수있음 돌이걸어간다 (cf. 사람이걸어간다 ) 바람이달린다 (cf. 말이달린다 ) Ambiguity 말이많다 (horse, speech) 제 1 장자연언어처리의개념 18
의미분석 cont d 문법적으로는맞지만의미적으로틀린문장들 사람이사과를먹는다. (o) 사람이비행기를먹는다. (x) 비행기가사과를먹는다. (x) 구문구조 NP S VP N V N 사람비행기 먹다 사과비행기 의미적제약 [ 먹다 [ agent : 먹을수있는주체 object : 먹을수있는대상...]]
화용분석 (Pragmatic Analysis) 문장이실세계 (real world) 와가지는연관관계분석 실세계지식과상식의표현이요구됨 지시 (anaphora), 간접화법 (indirect speech act) 등의분석 Anaphora : 대명사의지시대상 The city councilmen refused the women a permit because (1) they feared violence. (2) they advocated revolution. Speech Act : 상대방에게행동을요구하는언어행위 Can you give me a salt? Would you mind opening the window? 제 1 장자연언어처리의개념 20
자연어처리, 인공지능, 기계학습 인공지능 인공지능은철학적으로인간이나지성을갖춘존재, 혹은시스템에의해만들어진지능을뜻한다 다양한연구주제 지식표현, 탐색, 추론, 문제해결, 기계학습, 인지, 행동, 자연언어처리 기계학습 기계학습 (machine learning) 은인공지능의한분야로, 컴퓨터가학습할수있도록하는알고리즘과기술을개발하는분야를말한다 가령, 기계학습을통해서수신한이메일이스팸인지아닌지를구분할수있도록훈련할수있다 제 1 장자연언어처리의개념 21
자연어처리, 인공지능, 기계학습 cont d 인공지능의연구분야로서의자연언어처리 음성인식, 형태소분석, 통사분석, 의미분석 언어이해 인공지능 자연언어처리를위한인공지능기법 형태론, 구문론, 의미론, 화용론적언어지식 지식표현 (WordNet) 자연언어처리문제해결 기계학습 자연어처리문제 == 중의성해소 분류문제 품사, 구문, 의미중의성해소, 전치사접속결정등 기계학습알고리즘 결정트리 (decision tree), 선형분리자 (Snow, Perceptron), SVM, Maximum Entropy, HMM, K-NN, 신경망 (Neural Network), 딥러닝 (Deep Learning), 22