Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Similar documents
Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

DIY 챗봇 - LangCon

김기남_ATDC2016_160620_[키노트].key

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

목 차 요약문 I Ⅰ. 연구개요 1 Ⅱ. 특허검색 DB 및시스템조사 5

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

2부 데이터 수집

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: * A Study on Teache

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

step 1-1

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

PHP & ASP

Microsoft PowerPoint - 26.pptx

2002년 2학기 자료구조

Microsoft PowerPoint Relations.pptx

Chap 6: Graphs

(JBE Vol. 21, No. 1, January 2016) (Regular Paper) 21 1, (JBE Vol. 21, No. 1, January 2016) ISSN 228

Output file

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

Columns 8 through while expression {commands} 예제 1.2 (While 반복문의이용 ) >> num=0

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

212 52,.,. 1),. (2007), (2009), (2010 ), Buzássyová, K.(1999), Bauer, L.(2001:36), Štekauer, P.(2001, 2002), Fernández-Domínguez(2009:88-91) (parole),

15 홍보담당관 (언론홍보담당) 김병호 ( 金 秉 鎬 ) 16 (행정담당) 박찬해 ( 朴 鑽 海 ) 예산담당관 17 (복지행정담당) 이혁재 ( 李 赫 在 ) 18 (보육담당) 주사 이영임 ( 李 泳 任 ) 기동근무해제. 19 (장애인담당) 박노혁 ( 朴 魯 爀 ) 기동

- 1 -

R을 이용한 텍스트 감정분석

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

< C6AFC1FD28C3E0B1B8292E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

Oracle Apps Day_SEM

용어사전 PDF


Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

PowerPoint 프레젠테이션

제 출 문 한국산업안전공단 이사장 귀하 본 보고서를 2002 년도 공단 연구사업계획에 따라 수행한 산 업안전보건연구수요조사- 산업안전보건연구의 우선순위설정 과제의 최종보고서로 제출합니다. 2003년 5월 연구기관 : 산업안전보건연구원 안전경영정책연구실 정책조사연구팀 연

untitled

Orcad Capture 9.x

컴파일러


Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

歯제7권1호(최종편집).PDF

PowerPoint 프레젠테이션

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

#Ȳ¿ë¼®

09권오설_ok.hwp

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

歯M PDF

28 THE ASIAN JOURNAL OF TEX [2] ko.tex [5]


IKC43_06.hwp

PowerPoint 프레젠테이션

Something that can be seen, touched or otherwise sensed

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

adfasdfasfdasfasfadf

BSC Discussion 1

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Study on the Pe

Microsoft PowerPoint - ch03ysk2012.ppt [호환 모드]

03신경숙내지작업

Journal of Educational Innovation Research 2017, Vol. 27, No. 4, pp DOI: A Study on the Opti

HW5 Exercise 1 (60pts) M interpreter with a simple type system M. M. M.., M (simple type system). M, M. M., M.

Index

SNU =10100 =minusby by1000 ÇÁto0.03exÇÁto0.03exÇÁ=10100 =minusby by1000 ·Îto0.03ex·Îto0.03ex·Î=10100 =minusby by1000

도서관 소식 6호

11. 텍스트를위한 화일 DBLAB, SNU 텍스트를위한화일 u 텍스트데이타로구성된문서 (documents) 나텍스트필드 (text field) 를포함하고있는레코드검색에이용할수있는화일 텍스트 (text): 긴문자열로구성된데이타 ( 예 ) 학생의자기소개, 신문기사, 사전

1217 WebTrafMon II

VOL /2 Technical SmartPlant Materials - Document Management SmartPlant Materials에서 기본적인 Document를 관리하고자 할 때 필요한 세팅, 파일 업로드 방법 그리고 Path Type인 Ph

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

<28C3D6C1BE29312DC0CCBDC2BEC62E687770>

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

4ÃÖÁØ¿µ

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *

Chapter 4. LISTS

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

02이용배(239~253)ok

Kor. J. Aesthet. Cosmetol., 라이프스타일은 개인 생활에 있어 심리적 문화적 사회적 모든 측면의 생활방식과 차이 전체를 말한다. 이러한 라이프스 타일은 사람의 내재된 가치관이나 욕구, 행동 변화를 파악하여 소비행동과 심리를 추측할 수 있고, 개인의

大学4年生の正社員内定要因に関する実証分析

C# Programming Guide - Types

*Ãßõ¿©Çà

DBPIA-NURIMEDIA

Scopus 한국어이용가이드-3차수정

<353420B1C7B9CCB6F52DC1F5B0ADC7F6BDC7C0BB20C0CCBFEBC7D120BEC6B5BFB1B3C0B0C7C1B7CEB1D7B7A52E687770>


歯목차45호.PDF

ISO17025.PDF

슬라이드 제목 없음

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

300 구보학보 12집. 1),,.,,, TV,,.,,,,,,..,...,....,... (recall). 2) 1) 양웅, 김충현, 김태원, 광고표현 수사법에 따른 이해와 선호 효과: 브랜드 인지도와 의미고정의 영향을 중심으로, 광고학연구 18권 2호, 2007 여름

EndNote X2 초급 분당차병원도서실사서최근영 ( )

Microsoft PowerPoint - analogic_kimys_ch10.ppt

I


example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

Microsoft PowerPoint - 27.pptx

<32382DC3BBB0A2C0E5BED6C0DA2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: 3 * The Effect of H

<31372DB9CCB7A1C1F6C7E22E687770>

Transcription:

Information Retrieval Part 1 sigma α 2015.11.01. sigma α

Information Retrieval (IR): Outline Issues Information Retrieval Boolean Retrieval The term vocabulary and posting lists Dictionaries and tolerant retrieval Scoring, term weighting The vector space model Evaluation in IR Relevance Feedback Probabilistic information retrieval Language models for IR sigma α 2

sigma α Issues

Issues 페이스북, 드론으로인터넷공급하겠다 https://www.facebook.com/makeyourfutures/videos/59805074 7002870/ http://www.bloter.net/archives/234650 sigma α 4 http://techneedle.com/archives/20576

Issues http://contest.welldone.to/contest/read/105839 sigma α 5

Issues http://www.slideshare.net/perone/deep-learning-convolutional-neuralnetworks?utm_content=buffer54c8c&utm_medium=social&utm_source=plus.google.com&utm_campaign=buffer sigma α 6

Issues http://www.slideshare.net/perone/deep-learning-convolutional-neuralnetworks?utm_content=buffer54c8c&utm_medium=social&utm_source=plus.google.com&utm_campaign=buffer sigma α 7

sigma α Information Retrieval

Information Retrieval Natural Language (NL) 개인의생각을공유할때자연어 ( 즉, 한국어, 영어등 ) 를사용 자연어는말, 글등으로표현및보관 Information Retrieval (IR) 정보검색은구조화되지않은임의의대용량정보에서사용자가원하는정보를검색하고찾아주는것 sigma α 9

sigma α Boolean Retrieval

Boolean Retrieval Boolean model은정보검색시스템에서가장간단한모델질의 (query) 들을이진표현으로적용 예를들어, Antony and Cleopatra 이진표현을만족하는모든문서들을찾음 Term-document incidence matrix ( 텀 - 문서발생빈도메트릭트 ) 해당메트릭스는문서내에질의의 term 이존재하면 1, 그렇지않으면 0 으로표현 sigma α 11

Term-document incidence matrix Incidence vectors ( 발생빈도벡터 ) 질의 BRUTUS 와 CAESAR 가같이출현, CALPURNIA 는출현하지않는문서를검색 에대한계산 BRUTUS AND CAESAR AND NOT CALPURNIA 에대한검색 110100 AND 110111 AND 101111 = 100100 sigma α 12 NOT 010000

0/1 vector for BRUTUS BRUTUS 가 Anthony and Cleopatra, Hamlet 문서에등장한것을알수있음 sigma α 13

Bigger collections Term-document incidence matrix 방법으로벡터를표현하면의미없는데이터 0 이많아짐 희소행렬 N = 10 6 documents, each with 1000 tokens total of 10 9 tokens If 6 bytes per token, size of document collection is about 6 10 9 = 6GB If there are 500,000 terms 500,000 10 6 매트릭스에는 1 보다 0 이훨씬더많음 더좋은표현방법 : 필요없는데이터 0 은버리고, 1 에대해서만표현 Inverted index sigma α 14

Inverted index 역색인 : 단어가포함된문서만인덱싱하는방법 Documents Dictionary Postings sigma α 15

Inverted index construction sigma α 16

First: Tokenizing & preprocessing sigma α 17

Second, third: Generate Sorting posting sigma α 18

Forth: Creating posting lists sigma α 19

Query processing in posting lists 사용자가다음질의를검색 (Intersect): BRUTUS AND CALPURNIA This is linear in the length of the posting lists This only works if posting lists are sorted sigma α 20

Query processing in posting lists Algorithm sigma α 21

sigma α The term vocabulary and posting lists

Term definitions Word 문자열을 character 단위로나눈것들 Term 형태소나음절등으로정규화시킨단어 Token 문서내에서발생하는단어나 term Term과는다르게문서내에서등장한단어그대로를사용 Type 같은문자시퀀스를유지하는모든 token 들의클래스 sigma α 23

Tokenization 입력된질의를토큰별로나누는것 Input: Friends, Romans, countrymen. So let it be with Caesar Output: [friend], [roman], [countryman], [so], [let], [it], [be], [with], [caesar], 각토큰은 posting list 의후보단어들이됨 이 tokenization 도일관성이중요 ( 다음을고려해야함 ) 띄어쓰기구분 복합명사 : 한국전자통신연구원, 한국전자통신연구원 하이픈 : state-of-the-art, co-education 불용어 정규화 숫자표현 : [3/20/91 == Mar 20, 1991], [(800) 234-2333 == 800.234.2333] 등 sigma α 24

Tokenization Normalization ( 정규화 ) 문서내에서등장한단어들중에약어나, 별칭등으로여러형태로표현하는경우가있음 일관성저하 질의에대하여더좋은결과를얻기위해하나의형태로맞춰야함 정규화사용 예를들어, U.S.A == USA, Windows == windows, 박천음 == 그, 같은발음기호의단어들등 Stop word ( 불용어 ) 정보검색에서의미가없는단어들, 즉검색에큰도움이되지않는단어들을말함 예를들어, a, an, and, are, as, by,, in, the etc., 감탄사등 이런불용어를포함하면메모리낭비, 오더증가, 성능하락등의패널티가포함됨 따라서 posting list 를구성하는 term 에서제외함 보통 term 단위에서적용, phrase 단위에서는예외 sigma α 25

Tokenization Case folding 대문자를소문자화시켜서일관성유지 Lemmatization 형태소분석을이용하여단어표현의원형을찾음 예를들어, 감다 [ 가 + ㅁ + 다 ], [ 감 + 다 ], is, are [be], car, cars, car s, cars [car] Stemming Lemmatization 과유사하지만 stemming 은단어의어근을추출하는방법 Crude heuristic process that chops off the ends of words Grep 과같이패턴에의해처리되기때문에언어에종속적 예를들어, automate, automatic, automation [automat] Stemming algorithm: Porter algorithm sigma α 26

Dictionaries and tolerant retrieval sigma α

Inverted index Inverted index Posting list에대한포인터 문서빈도측정가능 Dictionaries Term vocabulary를저장하기위한데이터구조 Term vocabulary: the data sigma α 28

Hash Dictionary 를해시 (hash) 로사용 해시를이용할경우속도가매우빠름 Lookup time is constant 그러나다음과같은문제점존재 Minor variants problem: resume vs. résumé 이런경우찾을때문제발생 ( 제대로못찾음 ) No prefix search (all terms starting with automat ): 즉 automat* 과같은 wild-card 연산이불가능 이런문제점을해소할수있는방법 : 트리 (tree) sigma α 29

Tree 해시의단점 ( 즉, minor variants problem, prefix problem) 을해결 Simplest tree: binary tree Search order is O logm, M is the size of the vocabulary 그러나속도문제존재 Binary tree가균형있게구성됐다면, 빠른속도로찾을수있음 그러나편향된 tree인경우에는 vocabulary size인 O(M) 따라서 B-tree 이용 sigma α 30

Tree: Binary tree sigma α 31

Tree: B-tree sigma α 32

sigma α Scoring, Term Weighting

Problem of Boolean model Boolean model 간단한모델 : 단순히문서와질의간의일치또는불일치로검색 전문가들이사용하기에좋음 특허심사관, 특허개발자등 그러나일반유저들에게똑똑한검색을제공하지못함 Cons of Boolean model 특정정보에중점을두지않고해당하는문서를모두검색 즉, 해당질의와일치또는불일치 (1 or 0) 정보로만검색 간단한질의에는많은문서가검색됨 질의어가자세하게입력되면찾기힘듦 따라서뭐가더중요하고사용자가원하는결과인지판별하지못함 이런문제를해결하기위해 Ranking 적용 Ranked retrieval sigma α 34

Ranked retrieval 질의에대한검색시, 스코어 (score) 를적용하고우선순위에따라검색된문서를보임 Just show the top 10 results 관련된문서는가중치를높이고, 관련없는문서는가중치를낮춤 어떻게스코어를적용하는가? 질의 - 문서쌍 (query-doc pair) 을기준으로 0~1 값 scoring 질의와문서의연관성에따라 scoring 질의 - 문서유사도 Simple scoring 평소자주하는질의 scoring 문서에포함된질의 scoring We use frequency method Term frequency Document frequency sigma α 35

Term frequency 질의또는문서내에포함된같은단어들의개수 Binary incidence matrix 해당단어가문서에포함되면 1 아니면 0 sigma α 36

Term frequency 질의또는문서내에포함된같은단어들의개수 Binary incidence matrix: containing term frequency 해당단어가문서에서몇번나오는지카운트 sigma α 37

Term frequency 질의또는문서내에포함된같은단어들의개수 Using bag of words Bag of words model 여러문자열들은다양한길이와단어순서로표현됨 따라서검색에사용되는모든문자열들을하나의일관성있는모델로표현하는것이좋음 모든데이터셋에일관성있는표현을제공하기위해하나의리스트로정의 bag of words The positional index was able to distinguish these two documents. We will look at recovering positional information later in this course. sigma α 38

Term frequency tf 질의또는문서내에포함된같은단어들의개수 tf t,d : 질의와문서의 term frequency (= tf) t: term, d: document Tf는질의-문서 (query-document) 매치스코어로사용그러나 카운트가능사는아니다!! Tf=10인문서와 tf=1인문서는직관적으로같은문서 즉, tf의차이가 10배라고두문서의연관성이적은게아님 이런부분을보완하기위하여 tf에 log 적용 sigma α 39

Log frequency weighting The log frequency weight of term t in d is defined as follows w t,d = 1 + log 10 tf t,d if tf t,d > 0 0 otherwise tf t,d w t,d 0 0, 1 1, 2 1.3,, 10 2, 1000 4, etc. Score for a document-query pair Sum over terms t in both q and d tf-matching-score q, d = t q d (1 + log 10 tf t,d ) sigma α 40

Rare term vs. frequent term 단어중에는단어의횟수와상관없이중요한경우가있음 즉, 한번등장한단어이지만중요한키워드인경우 Rare term 개체명, 고유명사등은문서내단어빈도가낮음 예를들어, 한국전자통신연구원, 네이버, 강원대학교 등은문서내에서처음한번등장하고, 그이후에는대용어로표현 e.g., ARACHNOCENTRIC Frequent term 조사, 관사, 형용사등은문서내단어빈도가높음 예를들어, 아름다운, 좋은, 그, 이등, a, an, the so on. 위와같은경우, tf 때문에가중치를원하는방향대로적용하지못함 we want high weight for rare terms 따라서 해당단어가나타난문서의수 를고려 df (document frequency) Tf의희소성극복을위함 sigma α 41

Document frequency Df: 입력된질의의단어가나타난문서의수 몇개의문서가해당단어를포함하고있는지가중치계산가능 ANTHONY 의 df=3 여기서 rare term 을포함한문서의 df 는낮게나타남 Frequent term 을포함한문서의 df 는높게나타남 마찬가지로 df 희소성발생 We want Rare term: high weight, Frequent term: low weight sigma α 42

Inverse document frequency Rare term: low tf, low df Frequent term: high tf, high df 좋은성능의검색 : high weight for rare terms 따라서 df 의값을역수취함 : inverse doc-freq (idf) Df 를역수로취하면 low df high score, high df low score 가능 즉, rare term 의희소성극복가능 idf t = log 10 N df t [log 10 N/d f ] instead of [N/d f ] to dampen the effect of idf sigma α 43

Examples for idf Compute idf t using the formula: idf t = log 10 N df t Term df t idf t 박천음 1 6 사람 100 4 금요일 1,000 3 노래방 10,000 2 술 100,000 1 이 1,000,000 0 위와같이 idf 는 rare term 에대한가중치를증가시키고 frequent term 에대한가중치를감소시킬수있음 sigma α 44

Tf-idf weighting Term 에대한 tf-idf 는해당 term 의 tf 와 idf 의곱으로구함 w t,d = (1 + log tf t,d ) log 10 N df t tf, idf weight는모두 log를취함정보검색에서가장잘알려진방법 The tf-idf matching-score q, d = t q d (w t,d ) The tf-idf weight Term frequency: 문서내에서등장한가중치 Inverse doc-freq: 문서셋에서 rarity of the term에대한가중치 sigma α 45

References http://nlp.stanford.edu/ir-book/ http://cs.kangwon.ac.kr/~leeck/ir/ sigma α 46

QA 감사합니다. 박천음, 박찬민, 최재혁, 홍다솔 sigma α, 강원대학교 Email: parkce@kangwon.ac.kr sigma α 47