제5장 형태소분석

Similar documents

자연언어처리

정보 사회와 컴퓨터

자연언어처리

2016 년 1 학기국어학개론 형태론 (Morphology): 형태소와교체, 단어의구성요소 1. 형태론의개념과분야 1) 개념 : 단어의구조를연구하는분야 2) 분야 : (1) 단어형성법 ( 조어법 ) (2) 굴절법 ( 屈折法, inflection): 조사나어미가붙어문법적

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

RNN & NLP Application

유의사항 Information marking example 1 3 4

PHP & ASP

Naver.NLP.Workshop.SRL.Sogang_Alzzam

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

<C7D1B1B9C7D0BFACB1B820C1A63532C1FD28BABBB9AE E687770>

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM


서만설명되는이형태 1 과거시제를나타내는 -았-/-었- 은음운론적조건에따른교체양상을보이는데, 하 - 와결합할때는 -였- 으로바뀌게된다. -았-~-었- -였- 2 명령형어미 (-아라/-어라) 는형태소 하- 와결합할때음운론적조건에따라 -아라 가연결되지않고 -여라 가연결되며,

국어 순화의 역사와 전망

슬라이드 1

pagoda21.com/pagodatoeic 319_Part 5 [ 문법 : 어휘 = 21 : 전치사, 3 2 문장구조 / 수일치, 2 명사, 2 형용사, 2 부사, 2 대명사, 2 접속사, 2 1 태, 1 관계사, 1 부정사, 1 분사, 1 0 시제, 0


시집 종류

<Hit The Sheep> 양을 치자! 교육청 문법 고퀄해설!!

기철 : 혜영 : 기철 : 혜영 : ㄴ ㅁ ㅇ ㄴ ㅁ ㅇ ㅇ ㄴ ㅁ ㅇ

[PyConKR2017] 노가다 없는 텍스트 분석을 위한 한국어 NLP

1수준

<B8AEC6F7C6AEBAE4BEEE20C0CEBCE2>

10-2 삼각형의닮음조건 p270 AD BE C ABC DE ABC 중 2 비상 10, 11 단원도형의닮음 (& 활용 ) - 2 -

Big Data Analysis Using RHINO

7.1 형태소 개념형태소 ( 形態素, morpheme) 는문법단위중에서의미를가진최소의단위 (minimal meaningful unit) 이다. 여기서의미는어휘적의미뿐만아니라문법적의미도포함된다. 사랑 을 ㅅ-ㅏ-ㄹ-ㅏ-ㅇ 응로쪼개면각각의요소들은아무런의미를가지지못하는것처럼

untitled


쏘니표지

4


Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

제 1 절 복습 \usepackage{ g r a p h i c x }... \ i n c l u d e g r a p h i c s [ width =0.9\ textwidth ] { b e a r. j p g } (a) includegraphics 사용의일반적인유형

PowerPoint Presentation

23 Lesson 1. What are you going to do tomorrow? [개념강의] 24 Lesson 1. What are you going to do tomorrow? [실전강의 A] 25 Lesson 1. What are you going to do

425.pdf

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

종류 보통명사 고유명사 어떤속성을지닌대상들에두루쓰이는 이름 전기용품, 꼬마, 눈등 특정한하나의개체를다른개체와 구별하기위해쓰이는이름 수남이, 청계천, 세운상가 대명사, 즉선행명사구를다시받을때, 일반적인대명사와다른형태를취하는것을재귀칭이라부른다. 저, 저희, 당신, 자기 하

lkh

08학술프로그램

<Hit The Sheep> - 양을 치자! 교육청 문법 선별 4탄 (고퀄해설)

슬라이드 1

<4D F736F F D20C7D1B3AAB4AE20C7D1B1B9BEEE20C7FCC5C2BCD220BAD0BCAEB1E220B8C5B4BABEF E646F6378>

[1 강 ] 2017 학년도사관학교 1 차시험문법기출분석 [ 관련개념정리하기 ] - 2 -

형태소란뜻을가진최소의단위이다. 예를들어 먹었다 와 먹겠다 를비교해보면, -었- 을넣으면과거의의미가있고, -겠- 은미래혹은의지의의미를담고있다. 그러므로선어말어미는형태소로취급해야한다. 사랑스럽다, 적막하다, 번쩍거리다 와같이용언의어근중어간과일치하지않는 사랑-, 적막-, 번


90°íÀº¿µ(½ÉÆ÷)

1809_2018-BESPINGLOBAL_Design Guidelines_out

#1. 문법공부를위한필수! 기본용어 음운체계 1. 모음 : 음절 ( 소리마디 ) 을이룰수있는독립적인소리 하늘 땅 사람 [ 天地人 ] 삼재로기본 3 글자를만들고, 가획하여다른글자를만듦 1 단모음 : 소리내는중에입술모양이나혀의위치가고정되어달라지지않는모음 혀의최고점의위치앞

Microsoft PowerPoint - kandroid_for_HI-CNU.ppt

1_12-53(김동희)_.hwp

편집장 님;

제 1 부 Part 01: 문법을실전적으로푸는법 2019학년도수능 유형 Ⅰ. 자료의구체적사례를보고적절하거나적절하지않은문법적설명판별하기유형 Ⅱ. 자료의문법적설명을보고적절한사례선택또는분류하기유형 Ⅲ. 지문으로제시된문법내용을바탕으로문제의 < 보기 > 나 < 자료 > 를설명한

- 1 -

OCW_C언어 기초

대학교육151호-합침

KNK_C_05_Pointers_Arrays_structures_summary_v02

<355F B1B9BEEEC0C720BAAFC3B55FB9AEC1A6C5EBC7D52E687770>

<Hit The Sheep> 양을 치자! 교육청 문법 고퀄해설 7탄

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Rabbi ( 김기덕) 학력 ) 한양대학교사범대학졸업 - 국어교육, 교육학전공 조교 1 재림 약력 ) 오르비클래스국어과강사 대치, 교대오르비학원출강 미금, 영통명인학원출강 저서 ) 국어영역마스터키 ( 지공신공) 훈련도감비문학, 문학 ( 쏠티북스) 학력 ) 서울대학교약력

The Korean Alphabet:

어 휘 어 법 특 강 용언의활용용언이활용할때에어간이나어미의기본형태가달라지는경우를활용이라하며, 이러한용언을용언이라한다. 용언에는어간이바뀌는것, 어미가바뀌는것, 어간과어미모두바뀌는것등이있다. 1. 용언중에서어간이바뀌는것 (1) ㅅ 활용 a. 짓고, 짓지, 짓더라 cf. 벗

< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

정답과해설 본문 02 부록 25 중등문법


step-2-1

Vowel ㅏ [a] ㅜ [u] ㅑ [ja] ㅠ [ju] ㅓ [ ] ㅡ [i] ㅕ [j ] ㅣ [i] ㅗ [o] ㅐ [æ] ㅛ [jo] ㅒ [jæ] ㅔ [e] ㅞ [we] ㅖ [je] ㅟ [wi] ㅘ [wa] ㅢ [ij] ㅝ [w ] ㅚ [we] ㅙ [wæ] Begin

10 강. 쉘스크립트 l 쉘스크립트 Ÿ 쉘은명령어들을연속적으로실행하는인터프리터환경을제공 Ÿ 쉘스크립트는제어문과변수선언등이가능하며프로그래밍언어와유사 Ÿ 프로그래밍언어와스크립트언어 -프로그래밍언어를사용하는경우소스코드를컴파일하여실행가능한파일로만들어야함 -일반적으로실행파일은다

1. 머리말

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

슬라이드 1

PowerPoint 프레젠테이션

Ch 23 - Supplement

Microsoft PowerPoint - chap03-변수와데이터형.pptx

<BCF6B4C9BFA120C7CABFE4C7D120B8F0B5E720B9AEB9FD E687770>

수능에문법더하기 3 다음중이중피동이사용된사례가아닌것은? 1 창문이커튼으로가려졌다. 4 < 보기 > 는외래어표기법의일부이다. 이를바탕으로제시된발음정보를탐구했을때, 그내용으로적절하지않은 2 산너머에구름이보여졌다. 것은? 3 그녀의기억속에서잊혀졌다. 4 그사기꾼이경찰에게잡혀

In future lessons, you will learn about many more of these additions. For example, some of them are: ~ ㄴ / 은후에 to mean after ~ 기전에 to mean before ~ 기때

+국듣-해설(001~69p)

빅데이터_DAY key

S U M M A C U M L A U D E J U N I O R 중학국어문법연습을소개합니다. 2 문법을벌써공부해야하는가? 국어의문법은변하지않고, 정해져있습니다. 따라서중학교시기에배우는문법개념들이고등학교시기에배우는개념들과이어지고, 이는수능

Microsoft Word - src.docx

상과언어와의관계를연구 2. 관점에의한분야 1) 일반 / 개별언어학 : 일반언어학은인간언어가무엇이냐는질문에답하기위해언어의일반적속성과법칙연구 2) 공시 / 통시언어학 : 공시언어학은특정한시기의언어상태를연구하고, 통시언어학은시간의흐름에따른언어의변화를연구 3) 이론언어학 /

ez-shv manual

C:/Users/Kuk/Documents/Laboratory/TR/ tr(a)/TR ¾ç½Ä.dvi

슬라이드 1

2013 년 Maker's Mark Academy 추석 Program 2013 ~ 2014 년 ACT Test 일정 2013/09/ /10/ /12/ /04/ /6/14 9 월 21 일 ACT 대비추석특강반 ( 이이화 / Jo

#KM560

로그인 / 회원가입필요없는학습자료무료제공사이트 레전드스터디닷컴

Sequences with Low Correlation

슬라이드 1

슬라이드 1

#KM-350AB..

를받으면서나오는소리이다. < 기출문제 > 다음의 에들어갈내용으로적절한것은 년 월수능모평 조음방법 조음위치 입술소리잇몸소리센입천장소리 여린입천 장소리 목청소리 형 예사소리ㅂㄷㄱ 파열음 된소리ㅃㄸㄲ 거센소리ㅍㅌㅋ 파찰음 예사소리 된소리 거센소리 ㅈ ㅉ ㅊ 마찰음 예사소리ㅅ

를받으면서나오는소리이다. < 기출문제 > 다음의 에들어갈내용으로적절한것은 년 월수능모평 조음방법 조음위치 입술소리잇몸소리센입천장소리 여린입천 장소리 목청소리 형 예사소리ㅂㄷㄱ 파열음 된소리ㅃㄸㄲ 거센소리ㅍㅌㅋ 파찰음 예사소리 된소리 거센소리 ㅈ ㅉ ㅊ 마찰음 예사소리ㅅ

[2016년조사대상 (19곳)] 대림산업, 대한항공, 동부화재해상, ( 주 ) 두산, 롯데쇼핑, 부영주택, 삼성전자, CJ제일제당, 아시아나항공, LS니꼬동제련, LG이노텍, OCI, 이마트, GS칼텍스, KT, 포스코, 한화생명보험, 현대자동차, SK이노베이션 [ 표

인 사 청 문 요 청 사 유 서

Goals 형태론에관련된기본적인용어의정의를이해한다. 새로운단어가어떻게만들어지는가에대한분석 정의를바탕으로주어진단어를분석할수있다.

Transcription:

제 5 장형태소분석

형태소분석 형태소의정의 의미가있는최소의단위 (minimally meaningful unit) 문법적, 관계적인뜻을나타내는단어또는단어의부분 형태소분석 단어 ( 또는어절 ) 를구성하는각형태소분리 분리된형태소의기본형및품사정보추출 2

형태소분석과정 형태소분석과정 분석후보생성 문법규칙에맞는후보생성 형태소분리와기본형추정 분석후보로부터옳은결과선택 형태소끼리의결합제약조건만족 사전에서기본형확인 3

형태소분석의관점 언어학 / 국어학의관점 새로운형태론적언어현상의발견및규명 : 정성적 (qualitative) 배경지식 : 인간의언어능력 전산언어학의관점 컴퓨터프로그램으로형태소분석하는방법론 : 정량적 (quantitative) 형태론적현상들을컴퓨터로처리하는방법 다양한형태론적현상들을처리할수있는가 : 처리범위 ( 분석률 ) 얼마나정확한분석을수행하는가 : 정확성 시스템이얼마나효율적인가 : 처리속도와기억공간 4

언어, 응용분야별형태소분석기 언어특성에따른형태소분석기 띄어쓰기를안하는언어 ( 중국어, 일본어등 ) : 단어분리문제중요 굴절이심한언어 ( 핀란드어등 ) : 형태소의원형복원강조 교착어 ( 한국어등 ) : 형태소분리문제중요 응용분야에따른형태소분석기 기계번역, 기계이해시스템 : 분석의정확성, 애매성해결강조 자동색인, 정보검색 : 명사 ( 키워드 ) 추출, 복합명사 / 미등록어처리 맞춤법검사및교정 : 오류어분석문제중요 5

형태소분석의일반적과정 (1) 형태소분석입력 : 단어 ( 어절 ) 형태소분석출력 단어를이루고있는형태소들의기본형 각형태소의품사또는문법적 / 관계적인의미를나타내는기호 형태소분석의예 감기는 (NOUN 감기 ) + (JOSA 는 ) (VERB 감기 ) + (EOMI 는 ) (VERB 감 ) + (EOMI 기 ) + (JOSA 는 ) 가시는 (NOUN 가시 ) + (JOSA 는 ) (VERB 가시 ) + (EOMI 는 ) (VERB 가 ) + (P-EOMI 시 ) + (EOMI 는 ) (VERB 갈 ) + (P-EOMI 시 ) + (EOMI 는 ) 6

형태소분석의일반적과정 (2) 입력어절 전처리 분석후보생성 결합제약검사 분석후보선택 원형복원규칙 결합제약규칙 시스템사전 후처리 분석결과 7

형태소분석의일반적과정 (3) 1. 전처리단계 문장으로부터단어추출 문장부호분리 숫자나특수문자열처리 2. 분석후보생성 형태소분리 불규칙원형복원 4. 옳은후보선택 사전탐색 단어형성규칙 5. 후처리단계 복합명사추정 사전미등록어처리 준말처리 3. 결합제약검사 모음조화 형태소결합제약 : 음운현상에따른제약등 8

한국어의형태소분석방법론 단어검색방향에따른분류 Left-to-right Right-to-left Bi-directional 형태소분석방법론 Tabular 파싱법 최장 / 최단일치법 음절단위분석법 9

Tabular 파싱법 Bottom-up 방식 단어를이루는가능한형태소추출 자모단위의 substring을사전에서검색 추출된형태소 삼각테이블에저장 동적프로그래밍기법 : 처리속도향상 10

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 ㅣ ( 중 ) 5 접속검색은하늘색상자만수행한다. ( 초 ) 6 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 ㅣ ( 중 ) 5 접속검색은하늘색상자만수행한다. ( 초 ) 6 " " 사전검색 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 ㅣ ( 중 ) 5 접속검색은하늘색상자만수행한다. ( 초 ) 6 " " 사전검색 " 느 " 사전검색 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 ㅣ ( 중 ) 5 접속검색은하늘색상자만수행한다. ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 " " 사전검색 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - >" 는 " ㅣ ( 중 ) 5 접속가능체크 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - >" 는 " 분석결과저장 기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 접속가능체크 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " 분석결과저장 ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 " " 사전검색 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " " ㅁ기는 " 사전검색 " ㅁ " 사전검색 " ㅁ기 " 사전검색 " ㅁ기 " 사전검색 " ㅁ기느 " 사전검색ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 " 가 " 사전검색 -> 가 : 동사 ( 초 ) 1 " " 사전검색 -> 접속검색 - > 가 + ㅁ + 기 + 는 " ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " 접속가능체크 " ㅁ기는 " 사전검색 " ㅁ " 사전검색 " ㅁ기 " 사전검색 " ㅁ기 " 사전검색 " ㅁ기느 " 사전검색ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 " " 사전검색 " 가 " 사전검색 -> 가 : 동사 -> 접속검색 -> 가 + ㅁ + 기 + 는 " 분석결과저장 가 + ㅁ + 기 + 는 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " " ㅁ기는 " 사전검색 " ㅁ " 사전검색 " ㅁ기 " 사전검색 " ㅁ기 " 사전검색 " ㅁ기느 " 사전검색ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 " " 사전검색 " 가 " 사전검색 -> 가 : 동사 -> 접속검색 -> 가 + ㅁ + 기 + 는 " 감 사전검색 -> 감 : 동사 -> 접속검색 -> 감 + 기 + 는 " 분석결과저장 가 + ㅁ + 기 + 는 감 + 기 + 는 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " " ㅁ기는 " 사전검색 " ㅁ " 사전검색 " ㅁ기 " 사전검색 " ㅁ기 " 사전검색 " ㅁ기느 " 사전검색ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

Tabular Parsing Algorithm(Right -> Left) 1 2 3 4 5 6 7 8 ( 초 ) 1 " " 사전검색 " 가 " 사전검색 -> 가 : 동사 -> 접속검색 -> 가 + ㅁ + 기 + 는 " 감 사전검색 -> 감 : 동사 -> 접속검색 -> 감 + 기 + 는 " 감기 사전검색 -> 감기 : 명사 -> 접속검색 -> 감기 + 는 " 분석결과저장 가 + ㅁ + 기 + 는 감 + 기 + 는 감기 + 는 ㅏ ( 중 ) 2 ㅁ ( 종 ) 3 " ㅁ " 사전검색 -> ㅁ : 명전 -> 접속검색 -> ㅁ + 기 + 는 " " ㅁ기는 " 사전검색 " ㅁ " 사전검색 " ㅁ기 " 사전검색 " ㅁ기 " 사전검색 " ㅁ기느 " 사전검색ㅁ + 기 + 는 ( 초 ) 4 " " 사전검색 " 기 " 사전검색 -> 기 : 명전 -> 접속검색 - > 기 + 는 " " 기 " 사전검색 " 기느 " 사전검색 " 기는 " 사전검색기 + 는 ㅣ ( 중 ) 5 ( 초 ) 6 " " 사전검색 " 느 " 사전검색 " 는 " 사전검색 -> 는 : 보조사 ㅡ ( 중 ) 7 ( 종 ) 8 " " 사전검색 감기감가ㅁ기는 사전명사동사동사명사형전성어미명사형전성어미보조사 접속정보명사 + 보조사동사 + 명사형전성어미명전 + 명전

최장일치법과최단일치법 Tabualr 파싱법의효율문제해결 우선순위 ( 형태소의길이에따라 ) 가높은형태소를우선적으로분석 한가지분석결과만필요할때사용 최장일치법 단어를이루는형태소의길이가긴것을우선 최단일치법 단어를이루는형태소의길이가짧은것을우선 26

음절단위분석법 알고리즘과사전탐색의비효율성문제해결 한국어의음절특성 ( 단위음절특성, 부분음절특성 ) 이용 분석후보들의자격요건을강화하여분석후보의수를최소화 음절단위분석방법 문법형태소분리 음절단위로분리 조사 / 어미의음절특성이용 형태론적변형 원형복원법사용 형태변이가일어난음절의특성이용 복합명사및미등록어추정 특이한언어현상 ( 예 : 불구동사, 준말등 ) 기분석사전에분석결과저장 음절단위비교및음절단위사전구성 27

영어형태소분석 (1) 영어형태소분석 규칙변형 (regular inflection) 단어의원형복원 접두사및접미사분리 불규칙변형 (irregular inflection) 기분석사전으로분석결과수록 접미사분리 명사 : 복수형, 소유격 books book + s, John s John + s 동사 : 3 인칭단수, 과거 / 과거분사 / 현재분사 changing change + ing 형용사, 부사 : 비교급, 최상급 -ly, -ation 등 28

영어의형태소분석 (2) 형태소에대한정보제공 형태소의기본형 품사 수 ( 단수, 복수 ) 단어의쓰인형태 동사 : 현재, 과거, 과거분사, 형용사, 부사 : 원급, 비교급, 최상급, 대명사 : 주격, 소유격, 목적격 단어의쓰인유형 형용사 : 서술적용법, 한정적용법 접속사 : 등위접속사, 종속접속사 부사 : 원급, 비교급, 최상급 29

한국어형태소분석기에필요한기능 조사와어말어미의분리 ( 어미의변이체포함 ) 생략된서술격조사복원 선어말어미의분리 ( 어말어미가발견된경우에만 ) 접미사분리 불규칙원형복원 붙여쓰기가허용되는경우 ( 한음절체언과보조용언 ) 준말처리 복합어추정 미등록어추정 영문자, 숫자처리 수사처리 사전탐색기능 30

한국어형태소분석기의구조 단어 전처리 문법형태소분리체언분석용언분석단일형태소분석복합어추정조사생략준말처리 문법형태소사전어휘형태소사전전문용어사전사용자정의사전기분석사전 후처리 분석결과 31

형태소분리 형태소분리대상 어근, 조사, 어미, 선어말어미, 접미사 형태소분리예 사무실에서부터였다고는 사무실 + 에서부터 + 이 + 었 + 다고는 선어말어미의분리 시 / 었 / 겠 만선어말어미로간주 32

불규칙의원형복원 불규칙유형과각유형별끝음절특성 ㄷ 불규칙 : 10 개 ( 걷 / 긷 / 닫 / 묻 / 싣 / 겯 / 눋 / 듣 / 붇 / 컫 ) ㅂ 불규칙 : 46 개 ㅅ 불규칙 : 9 개 ( 긋 / 낫 / 붓 / 잣 / 짓 / 끗 / 뭇 / 잇 / 젓 ) ㅎ 불규칙 : 10 개 ( 갛 / 닿 / 랗 / 맣 / 얗 / 겋 / 떻 / 렇 / 멓 / 옇 ) 러 불규칙 : 1 개 르 불규칙 : 1 개 으 탈락 : 11 개 ( 그 / 끄 / 느 / 뜨 / 르 / 쁘 / 쓰 / 으 / 크 / 트 / 프 ) 원형복원 끝음절특성에해당되는어근에대해서만 분석후보의수최소화 사전탐색 overhead 줄임 33

복합어와미등록어추정 복합명사추정 4/5/6 음절복합명사 : 복합명사의 97% 3음절복합명사 : 사전에수록 7음절이상복합명사 : 미등록어처리 미등록어추정 문법형태소분리후어근을미등록어로간주 체언으로분석된후보 ( 즉, 조사가분리된후보 ) 두음절이상의어미가분리된후보 용언보다는체언후보우선 34

형태소분석기의성능 분석률 (analysis ratio) 정확히분석한비율 (%) 잘못분석한비율 틀린단어의인식비율 처리속도 단위시간당분석한단어의수 알고리즘의복잡도와사전탐색회수에비례 애매성분석여부 애매성이내포된단어의모든분석결과생성 애매성해결여부 35

음절기반한국어형태소분석 음절기반품사태깅 형태소분석 품사태깅 : 나는 나 /NP+ 는 /JX 갔다 갔 /VV_EP+ 다 /EC 형태소분석 : 갔 /VV_EP 가 /VV+ 았 /EP+ 다 /EC 형태소분석중의성 : 나 /VV 나 /VV or 날 /VV 최근연구 (KCC, 13) 확률정보를이용하여중의성해결 이창기 (KCC-2013) Structural SVM 기반 심광섭 ( 인지과학 -2011, 정보과학회 -2013) CRF 기반 나승훈 ( 한글및한국어 -2012) CRF 기반 Chung-Hye Han, Martha Palmer (Machine Translation, 2005)

딥러닝기반의 End-to-End 한국어형태소분석 ( 동계학술대회 16) Attention + Input-feeding + Copying mechanism