자연언어처리

Similar documents
Structural SVMs 및 Pegasos 알고리즘을 이용한 한국어 개체명 인식

자연언어처리

untitled

Ch 1 머신러닝 개요.pptx

Ch 23 - Supplement

슬라이드 1

PowerPoint Presentation

제1강 인공지능 개념과 역사

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

제5장 형태소분석

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

RNN & NLP Application

제4장 자연언어처리, 인공지능 , 기계학습

EA0015: 컴파일러

빅데이터_DAY key

Data Industry White Paper

<B8AEC6F7C6AEBAE4BEEE20C0CEBCE2>

4.18.국가직 9급_전산직_컴퓨터일반_손경희_ver.1.hwp

Act84_


untitled

본문01

Naver.NLP.Workshop.SRL.Sogang_Alzzam

part

슬라이드 1

하나님의 선한 손의 도우심 이세상에서 가장 큰 축복은 하나님이 나와 함께 하시는 것입니다. 그 이 유는 하나님이 모든 축복의 근원이시기 때문입니다. 에스라서에 보면 하나님의 선한 손의 도우심이 함께 했던 사람의 이야기 가 나와 있는데 에스라 7장은 거듭해서 그 비결을

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>


Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

정보 사회와 컴퓨터

April 2014 BROWN Education Webzine vol.2 생명을 꿈꾸다 목차 From Editor 아침에는 다리가 4개,점심에는 2개, 저녁에는 3개인 것은? Guidance 익숙해지는 일상 속에서 우리아이 자립심 키우기 환경을 지키는 아이들의 좋은 습

PHP & ASP

형식 언어


도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap08.ppt

?

소식지도 나름대로 정체성을 가지게 되는 시점이 된 거 같네요. 마흔 여덟번이나 계속된 회사 소식지를 가까이 하면서 소통의 좋은 점을 배우기도 했고 해상직원들의 소탈하고 소박한 목소리에 세속에 찌든 내 몸과 마음을 씻기도 했습니다. 참 고마운 일이지요 사람과 마찬가지로

2016 년 1 학기국어학개론 형태론 (Morphology): 형태소와교체, 단어의구성요소 1. 형태론의개념과분야 1) 개념 : 단어의구조를연구하는분야 2) 분야 : (1) 단어형성법 ( 조어법 ) (2) 굴절법 ( 屈折法, inflection): 조사나어미가붙어문법적

슬라이드 1

USER GUIDE

야쿠르트2010 3월 - 최종

가정법( 假 定 法 )이란, 실제로 일어나지 않았거나 앞으로도 일어나지 않을 것 같은 일에 대해 자신의 의견을 밝히거나 소망을 표현하는 어법이다. 가정법은 화자의 심적 태도나 확신의 정도를 나타내는 어법이기 때문 에 조동사가 아주 요긴하게 쓰인다. 조동사가 동사 앞에

Chap 6: Graphs

자연언어처리

zb 2) zb3) 나 위 시와 보기의 공통적인 표현 방법이 아닌 것은? 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 < 보기> 고개를 넘어서 마을로 뻐꾹새야 뻐꾹새야 뻐꾹뻐꾹 울어 주면 밭을 매는 우리 엄마 허리 허리 덜 아프고 ᄂ밭을 매는 우리 엄마 허리 허리 덜 아프고

3학년_영어_동아(김)_표지.hwp

제 1 절 복습 \usepackage{ g r a p h i c x }... \ i n c l u d e g r a p h i c s [ width =0.9\ textwidth ] { b e a r. j p g } (a) includegraphics 사용의일반적인유형

I would like to ask you a favor. Can you pick me up at the airport? ASAP P.S. RSVP BTW IMO ATM ETA

step 1-1


[한반도]한국의 ICT 현주소(송부)

중간코드생성

PowerPoint 프레젠테이션

퇴좈저널36호-4차-T.ps, page Preflight (2)

[동고동락한다] [가슴 아프다] [비서관] 2013년 8월 19일 9.[비서관]덕에 아이가 탄생해서 [미역국] [맛있다] [처음엔 어떤 사연인 줄 몰랐었지만] 마귀와[동고동락한다]하였으니[가슴 아프다]하지만[처음엔 어떤 사연인 줄 몰랐었지만]여러 가지 말 못할 역경을

212 52,.,. 1),. (2007), (2009), (2010 ), Buzássyová, K.(1999), Bauer, L.(2001:36), Štekauer, P.(2001, 2002), Fernández-Domínguez(2009:88-91) (parole),

Observational Determinism for Concurrent Program Security

Ch 8 딥강화학습

2002년 2학기 자료구조

??됱뵠?袁⑹뜍 1

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

**더모바일06호_N0.9

<4D F736F F F696E74202D F ABFACB1B8C8B85FBEF0BEEEC3B3B8AEBFCDB1E2B0E8B9F8BFAAC7F6C8B228C1F6C3A2C1F829>

사회통계포럼

Microsoft PowerPoint - PL_03-04.pptx


가정법

1-2 영어 천재 ( 이 ) 강의명시간교재코드날짜선생님확인 7 단원 Yuri's New Hobby 6 다운로드 적중예상문제 8 단원 Be a Good Internet User 8 다운로드 단원 Enjoy korean Culture! 7 다운

CS322 중간고사.docx

DIY 챗봇 - LangCon

PowerPoint 프레젠테이션

1 한류 목차1

농심-내지

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Introduction to Deep learning


<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

제2강 생각하는 기계

untitled

4 CD Construct Special Model VI 2 nd Order Model VI 2 Note: Hands-on 1, 2 RC 1 RLC mass-spring-damper 2 2 ζ ω n (rad/sec) 2 ( ζ < 1), 1 (ζ = 1), ( ) 1

정보기술응용학회 발표

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

I&IRC5 TG_08권

112초등정답3-수학(01~16)ok

KAST International Symposium on Convergence Education of Science and Technology Seoul Sep , 2007

- i -

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

Let G = (V, E) be a connected, undirected graph with a real-valued weight function w defined on E. Let A be a set of E, possibly empty, that is includ

Semantic Consistency in Information Exchange


6단계 08권 TG

<4B5442BDBAC5B8BCBFB7BABCC7C1F5B1C7C5F5C0DABDC5C5B928C1D6BDC4295F E786C73>

융합WEEKTIP data_up

45호_N스크린 추진과정과 주체별 서비스 전략 분석.hwp

ICT-Humanities & Social Science 로 이러한 시도는 성공했다. 2013년 이후 뚜렷한 경기 회복세를 보인 유럽에서 가입자가 점진적으로 증가했기 때문이다. 여전히 적자를 면치 못하고 있긴 하지만, 그 차이가 줄어들고 있다는 점은 넷플릭스의 미래 성

¿ï¸²58È£

Transcription:

제 1 장자연언어처리의개념

자연언어 자연언어란? 정보전달의수단 인간고유의능력 인공언어에대응되는개념 특정집단에서사용되는모국어의집합 한국어, 영어, 불어, 독일어, 스페인어, 일본어, 중국어등 인공언어란? 특정목적을위해인위적으로만든언어 자연언어에비해엄격한구문을가짐 형식언어, 에스페란토어, 프로그래밍언어 제 1 장자연언어처리의개념 2

자연언어처리 자연언어처리란? 컴퓨터를통하여인간의언어를처리하고이용하려는학문분야 인간의언어를이해하고, 이를바탕으로각종정보처리에적용함으로써보다빠르고편리한정보획득 자연언어처리응용분야 인간의언어가사용되는실세계의모든영역 정보검색, 질의응답시스템 Google, Naver, iphone siri, IBM Watson 기계번역, 자동통역 Google 번역기, ETRI 지니톡 문서작성, 문서요약, 문서분류, 철자오류검색및수정, 문법오류검사및수정 제 1 장자연언어처리의개념 3

IBM Waston http://www.youtube.com/watch?v=repnuf8i_i0 왓슨 (Waston) 은자연어형식으로된질문들에답할수있는인공지능컴퓨터시스템이며, 시험책임자데이비드페루치가주도한 IBM 의 DeepQA 프로젝트를통해개발되었다 2011 년기능시험으로서왓슨은퀴즈쇼제퍼디! 에참가하였으며, 이는이제까지도유일한인간대컴퓨터대결이었다 2 월 14 일부터 16 일까지세개의제퍼디! 에피소드의방송에서왓슨은금액기준사상최대우승자브레드러터, 가장긴챔피언십 (74 번연속승리 ) 의기록보유자켄제닝스와대결하였다. 첫상금에서켄제닝스와브레드러터가각각 300,000 달러와 200,000 달러를받는사이왓슨은 100 만달러를거머쥐었다. 제 1 장자연언어처리의개념 4

5

형태론적다양성 첨가어 한국어, 일본어, 터키어등 다수의형태소가결합하여어절형성 터키어는평균 7개의형태소가결합 굴절어 라틴어 ( 영어, 불어등은첨가어와굴절어의특징이모두있음 ) 어간이변함 ( 영어의예 : run, ran, run) 스와히리어 수 (number) 를위한형태소가문두에붙음 ( 예 ) 사람 : m+tu ( 단수 ), wa+tu ( 복수 ) 나무 : m+ti ( 단수 ), mi+ti ( 복수 ) 아랍어 자음이어간이고모음이시제, 수등을표현 ( 예 ) ktb( 쓰다 ) katab( 능동 ) KUtIb( 수동 ) kttb( 쓰게하다 ) kattab( 능동 ) KUttIb( 수동 ) 제 1 장자연언어처리의개념 6

통사적다양성 Postfix 언어 (Head-Final Languages) 동사가문장의뒤에위치 한국어, 일본어등 Infix 언어 동사가문장의중간에위치 영어, 불어등 Prefix 언어 동사가문장의처음에위치 아일랜드어 제 1 장자연언어처리의개념 7

1.3 자연언어분석단계 자연언어문장 형태소분석 (Morphological Analysis) 구문분석 (Syntax Analysis) 의미분석 (Semantic Analysis) 화용분석 (Pragmatic Analysis) 분석결과 제 1 장자연언어처리의개념 8

- 어절 어절, 단어, 형태소 양쪽에공백을갖는띄어쓰기단위의문자열 - 단어 / 형태소 단일품사를갖는단위 / 사전에등록되어있는색인어의집합 예 : 나는책을읽었다. 파릇파릇한싹이나는계절이다. 하늘을나는새를보라. I tried to go to school. He tries to pass the exam. 나 + 는날다 + 는나다 + 는

형태소분석 (Morphological Analysis) 입력된문자열을분석하여형태소 (morpheme) 라는최소의미단위로분리 사전정보와형태소결합정보이용 정규문법 (Regular Grammar) 으로분석가능 언어에따라난이도가다름 영어, 불어 : 쉬움 한국어, 일본어, 아랍어, 터키어 : 어려움 제 1 장자연언어처리의개념 10

형태소분석의난점 중의성 (ambiguity) 감기는 의분석결과감기 ( 명사 :cold) + 는 ( 조사 ) 감 ( 동사어간 ) + 기 ( 명사화어미 ) + 는 ( 조사 ) 감 ( 동사어간 ) + 기는 ( 어미 ) 접두사, 접미사처리 고유명사, 사전에등록되지않은단어처리 한국어, 독일어처럼복합명사내의명사를띄우지않거나, 일본어처럼띄어쓰기가없으면더욱어려워짐 한국어형태소결합의예 ( 친구에게서였었다라고 ) 친구 ( 명사 ) + 에게 ( 조사 ) + 서 ( 조사 ) + 이 ( 서술격조사 ) + 었 ( 과거시제어미 ) + 었 ( 회상어미 ) + 다 ( 어말어미 ) + 라고 ( 인용격조사 ) 제 1 장자연언어처리의개념 11

형식문법과자연언어 Chomsky 의형식문법분류 Type Format of Productions Remarks 0 A Unrestricted Substitution Rules (Contracting) 1 A, S Context-Sensitive Grammar 2 A, S Context-Free Grammar 3 A ab, A a Right Linear S Regular A Ba, A a Grammar Left Linear S 자연언어의구문이 Context-Free Grammar 로표현가능한지아닌지에대해서는결론이내려지지않고있다. 제 1 장자연언어처리의개념 12

문법, 구문분석 문법 (Grammar) : 문장의구조적성질을규칙으로표현한것 구문분석기 (Parser) : 문법을이용하여문장의구조를찾아내는 process 문장의구문구조는 Tree 형태로표현할수있다. 즉, 몇개의형태소들이모여서구문요소 ( 구 : phrase) 를이루고, 그구문요소들간의결합구조를 Tree 형태로써구문구조를이루게된다. NP N S V VP ART NP N John ate the apple

문법 (Grammars) Grammar : a set of rewrite rules (ex) S NP VP NP ART N NP N VP V NP Context Free Grammar (CFG) : 각 rule 의 LHS(Left-Hand side) 가하나의 symbol 로이루어진문법규칙 Grammar Rule 을이용해서문장 (sentence) 을생성할수도있고 (sentence generation), 분석할수도있다 (sentence parsing).

Sentence Generation (ex) By rewrite rule S NP VP N VP John VP John V NP John ate ART N John ate the N John ate the apple.

Bottom-up Parsing (ex) John ate the apple. N V ART N NP V ART N NP V NP NP VP S NP N S VP NP V ART N John ate the apple

구문분석 - Structural Ambiguities S S NP Time NP NP flies V like VP Structural Ambiguities NP light Time flies like light. 2 가지이상의구조로분석됨 flies (noun or verb), like(verb or preposition) A man see a woman with a telescope on the hill. 5 가지이상 NP Time V flies VP IN like PP NP light 제 1 장자연언어처리의개념 17

의미분석 (Semantic Analysis) 통사분석결과에해석을가하여문장이가진의미를분석 형태소가가진의미를표현하는지식표현기법이요구됨 통사적으로옳으나의미적으로틀린문장이있을수있음 돌이걸어간다 (cf. 사람이걸어간다 ) 바람이달린다 (cf. 말이달린다 ) Ambiguity 말이많다 (horse, speech) 제 1 장자연언어처리의개념 18

의미분석 cont d 문법적으로는맞지만의미적으로틀린문장들 사람이사과를먹는다. (o) 사람이비행기를먹는다. (x) 비행기가사과를먹는다. (x) 구문구조 NP S VP N V N 사람비행기 먹다 사과비행기 의미적제약 [ 먹다 [ agent : 먹을수있는주체 object : 먹을수있는대상...]]

화용분석 (Pragmatic Analysis) 문장이실세계 (real world) 와가지는연관관계분석 실세계지식과상식의표현이요구됨 지시 (anaphora), 간접화법 (indirect speech act) 등의분석 Anaphora : 대명사의지시대상 The city councilmen refused the women a permit because (1) they feared violence. (2) they advocated revolution. Speech Act : 상대방에게행동을요구하는언어행위 Can you give me a salt? Would you mind opening the window? 제 1 장자연언어처리의개념 20

자연어처리, 인공지능, 기계학습 인공지능 인공지능은철학적으로인간이나지성을갖춘존재, 혹은시스템에의해만들어진지능을뜻한다 다양한연구주제 지식표현, 탐색, 추론, 문제해결, 기계학습, 인지, 행동, 자연언어처리 기계학습 기계학습 (machine learning) 은인공지능의한분야로, 컴퓨터가학습할수있도록하는알고리즘과기술을개발하는분야를말한다 가령, 기계학습을통해서수신한이메일이스팸인지아닌지를구분할수있도록훈련할수있다 제 1 장자연언어처리의개념 21

자연어처리, 인공지능, 기계학습 cont d 인공지능의연구분야로서의자연언어처리 음성인식, 형태소분석, 통사분석, 의미분석 언어이해 인공지능 자연언어처리를위한인공지능기법 형태론, 구문론, 의미론, 화용론적언어지식 지식표현 (WordNet) 자연언어처리문제해결 기계학습 자연어처리문제 == 중의성해소 분류문제 품사, 구문, 의미중의성해소, 전치사접속결정등 기계학습알고리즘 결정트리 (decision tree), 선형분리자 (Snow, Perceptron), SVM, Maximum Entropy, HMM, K-NN, 신경망 (Neural Network), 딥러닝 (Deep Learning), 22