ai-for-search5-public



Similar documents
정보처리학회2018-김상범


±â¼úµ¿Çâ-1

*µðÁöÅпµ»ó-3/4Àå

Á¦3ºÎ-6Àå

(최종) 주안도서관 소식지_7호.indd

??

< B5BFBEC6BDC3BEC6BBE E687770>


Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DIY 챗봇 - LangCon

2015 본쥬 아이티 핸드북2

화판_미용성형시술 정보집.0305

< C5EBC0CFB9E9BCAD2E706466>



DW 개요.PDF

? Search Search Search Search Long-Tail Long-Tail Long-Tail Long-Tail Media Media Media Media Web2.0 Web2.0 Web2.0 Web2.0 Communication Advertisement

No Title

구절초테마공원 & 산호수마을 단아하고 소담한 구절초의 재발견 이 꽃, 개망초보다는 크고 쑥부쟁이와는 닮은꼴이다. 수수하기는 하나, 볼수록 매력 있다. 시골의 길섶에서 흔히 눈에 띄는 구절초 이야기다. 정읍 구절초테마공원에 만개한 구절초는 어떤 가을꽃보다 매혹적이었다.

기사전기산업_33-40

슬라이드 1

23

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

며 오스본을 중심으로 한 작은 정부, 시장 개혁정책을 밀고 나갔다. 이에 대응 하여 노동당은 보수당과 극명히 반대되는 정강 정책을 내세웠다. 영국의 정치 상황은 새누리당과 더불어 민주당, 국민의당이 서로 경제 민주화 와 무차별적 복지공약을 앞세우며 표를 구걸하기 위한

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

#³óÃÌ°æÁ¦ 64È£-Ä®¶ó¸é

¾Èµ¿±³È¸º¸ÃÖÁ¾

¾Ë±â½¬¿îÀ±¸®°æ¿µc03ÖÁ¾š

<B5B6BCADC7C1B7CEB1D7B7A52DC0DBBEF7C1DF E687770>

³»Áö-0204-¯

<B1DDC0B6B1E2B0FCB0FAC0CEC5CDB3DDB0B3C0CEC1A4BAB82E687770>

년 충 남 지 역 어 조 사 보 고 서 국 립 국 어 원

750 1,500 35

CC hwp

양성내지b72뼈訪?303逞



자식농사웹완

chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

...._



전반부-pdf

표1.4출력

003-p.ps

<4D F736F F F696E74202D20312E20B0E6C1A6C0FCB8C15F3136B3E2C7CFB9DDB1E25F325FC6ED28C0BA292E >

_

12월월간보고서내지편집3

중앙도서관소식지겨울내지33

에너지포커스 2007년 가을호


01_당선자공약_서울

인권문예대회_작품집4-2




목차

A°ø¸ðÀü ³»Áö1-¼öÁ¤

±¹³»°æÁ¦ º¹»ç1

¿¡³ÊÁö ÀÚ¿ø-Âü°í ³»Áö.PDF

전반부-pdf

뉴스레터6호

Microsoft PowerPoint 하반기 크레딧 전망_V3.pptx

50차 본문 최종

³»Áöc03âš

fsb9¿ù³»ÁöÃÖÁ¾Ãâ

¾ç¼º-¾÷¹«Æí¶÷-³»¿ëÃà¼Ò4

전도대회자료집

< DBAB4B9ABC3BB5FBAB9B9ABB0FCB8AEB8C5B4BABEF32D33B1C72E706466>

표1~4

<3344C7C1B8B0C6C320BFE4BEE02D E706466>

µ¶ÀÏÅëÀÏÁý1~2Æíq36£02Ð


(최종)2013년 방송통신광고비 조사_0609v2.hwp

CONTENTS January 2008, VOL IP Report 59 IP Column 101 IP Information 123 IP News

PowerPoint 프레젠테이션

RNN & NLP Application

한국외국어대학교 세계와 만나는 가장 빠른 길 한국외대는 진리( 眞 理 ), 평화( 平 和 ), 창조( 創 造 )의 창학 정신을 바탕으로 국가와 세계 발전에 기여할 수 있는 잠재력을 지닌 인재를 선발하고자 노력하고 있습니다. 자주적 탐구인 합리적 사고 폭넓은 지식 정심대

CC hwp

본문01

생들의 역할을 중심으로 요약 될 수 있으며 구체적인 내용은 다음과 같다. 첫째. 교육의 대상 면에서 학습대상이 확대되고 있다. 정보의 양이 폭발적으로 증가하고 사회체제의 변화가 가속화 되면서 학습의 대상은 학생뿐만 아니라 성인 모두에게 확대되고 있으며 평생학습의 시대가

11_ _독일_0205수정


10경영18

보광31호(4)

제 출 문 한국산업안전공단 이사장 귀하 본 보고서를 2002 년도 공단 연구사업계획에 따라 수행한 산 업안전보건연구수요조사- 산업안전보건연구의 우선순위설정 과제의 최종보고서로 제출합니다. 2003년 5월 연구기관 : 산업안전보건연구원 안전경영정책연구실 정책조사연구팀 연


160322_ADOP 상품 소개서_1.0


³ëÀκ¹Áö-°Ç°�ÆíÆíÁýÃÖÁ¾

<C1A634C2F720BAB8B0EDBCAD20C1BEC6ED20BDC3BBE720C5E4C5A920C7C1B7CEB1D7B7A5C0C720BEF0BEEE20BBE7BFEB20BDC7C5C220C1A1B0CB20C1A6C3E22E687770>

15인플레이션01-목차1~9

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

(316) =.hwp

FSB-6¿ù-³»Áö

Transcription:

좋은 검색서비스를 만들기 위한 기계학습의 활용사례 김상범 2016. 6.

Contents 1. 네이버? 2. 검색서비스? 3. 기계학습 활용사례 Ranking Sequence Labeling Text/Query Mining Vision-Text Collaboration Recommendation

검색서비스? Coverage Efficiency Effectiveness Policy

Vector Space Model Ranking : Old Approaches http://nlp.stanford.edu/ir-book/pdf/06vect.pdf

Ranking : Old Approaches Probabilistic Ranking Model

Language Model based IR Ranking : Old Approaches üsimple smoothing ülda http://maroo.cs.umass.edu/pdf/ir-464.pdf

Ranking : 실제상황 단어의 빈도만 갖고 랭킹을 하기에는 signal이 너무 많음 - 질의와 매치된 단어의 폰트가 어떠한가? - 많은 사람들이 보았거나 링크를 걸었는가? - 다른 사람이 어떤 단어로 링크를 걸었는가? - 문서를 작성한 사람이 과거에 스팸작성자로 경고조치 됐었는가? - 언제 만들어진 문서인가? - 몇 명이 조회한 문서인가? - 문서의 제목과 본문의 관련성은 높은가? 상당수의 질의들에 대해서는 자동평가집합구축이 가능 - 클릭수? - 위치를 고려한 클릭수? - 체류시간? Feature가 많아지고 Evaluation Set확보가 비교적 쉬워짐 è 기계학습 기반 랭킹을 안 할 수 없음

Ranking : Learning-to-Rank Overview 검색의 핵심은 체계적으로 줄세우기 = 한국 경제 전망 = [ 0.66, 2, 0.08, 1, 3, 1, 0, 4.2, 25, 0.43 ] 질의 단어 중 제목에 나타난 단어의 비율 제목에 출현한 질의 단어의 총 합 질의 단어별 본문출현빈도/본문길이 의 합 질의 단어 중 본문에 나타난 단어의 비율 질의의 단어수 전문정보를 찾는 질의인가? 질의에 연예인 이름이 포함되어 있나? 문서가 포함된 사이트의 Site Authority 문서의 나이(Age) 문서의 품질(Quality)

Ranking : Learning-to-Rank Overview 검색의 핵심은 체계적으로 줄세우기 http://research.microsoft.com/en-us/people/hangli/acml-tutorial.pdf

Ranking : Learning-to-Rank Overview Training Data - Query : Document(URL) : Feature-Value-List : Grade Feature List - Matching Feature ü Sum of tf*idf, Match term Ratio, etc - Document-specific Feature ü Visit Count, Quality, Create Time, etc - Query-specific Feature ü Length of query, HasPersonName, etc Grade - Perfect / Excellent / Good / Fair / Bad

Ranking : Learning-to-Rank Overview Evaluation Measure : ndcg http://web.stanford.edu/class/cs276/handouts/lecture8-evaluation_2014-one-per-page.pdf

Problem Definition Ranking SVM

Solution Ranking SVM

Ranking SVM Problems - Error 에도 그 중요도가 있는데 반영을 못한다 (검색랭킹 specific한 평가척도를 직접 최적화하지는 못함) - Query별 labeled 문서수에 따라 bias가 생길 수 있다 개선된 RankSVM이나 Listwise 접근법 등 다양한 연구가 진행됨

Ranking만 잘하면 되나? Ranking만 잘 하면 될까? 무조건 5개까지 보여주면 될까?

Ranking and Regression : GBRT Regression Tree Regression Tree Ensemble SVM, NN, LR같이 학습방법이 잘 연구되어온 Numerical vector/matrix기반 classifier가 아니라서 학습방법 자체가 큰 연구토픽 https://homes.cs.washington.edu/~tqchen/pdf/boostedtree.pdf

Ranking and Regression : GBRT GBRT (Gradient Boosted Regression Tree)

Ranking and Regression : GBRT GBRT (Gradient Boosted Regression Tree)

Sequence Labeling : 일반적인 적용분야 Word Segmentation 검 색 시 스 템 용 단 어 분 할 기 B I B I I B O B I B I B Named Entity Tagging Information Extraction

Sequence Labeling : 실제 적용사례 자동번역기를 위한 분석기 즉답제공을 위한 관계추출

Sequence Labeling : HMM / MEMM / CRF

Sequence Labeling : HMM / MEMM / CRF

새로운 강자 LSTM Sequence Labeling : LSTM http://arxiv.org/pdf/1508.01991v1.pdf

Sequence Labeling : LSTM Motivation : RNN의 원거리 의존관계 문제 - 이전상태를 기억하면서 현재 입력을 바탕으로 결과를 내놓는 다는 점에 서 많은 진보를 가져다 줌 - the clouds are in the - I grew up in France where my mother still lives. So I speak fluent à 원거리 의존관계 문제 ( long-term dependency)

RNN vs LSTM Sequence Labeling : LSTM RNN LSTM http://colah.github.io/posts/2015-08-understanding-lstms/

Sequence Labeling : LSTM Cell state 의 도입 기존의 RNN에 없던 C는 이전 히스토리 중 의미있는 정보들을 갖 고 있는 벡터. 예를 들어 문장을 계속 읽어나가면서 다 음 단어를 예측하는 LSTM이라면, 가장 최근에 나타난 주어의 성별정보를 C 의 k번째 원소에 저장 (He, She 등을 적절히 생성해내려고) http://colah.github.io/posts/2015-08-understanding-lstms/ - 이전셀상태에 뭔가 곱해지고 더해져서 최종 셀상태가 됨 - 곱해질때는 이전셀상태 각 원소의 유지여부가 결정되고, 더해질 때는 셀 걸러진 이전셀상태에 뭔가 새로운 것(정보)이 추가되는 것 - 출력(h)은 계산된 이번셀상태에 따라 결정됨

Sequence Labeling : LSTM Forgot gate 를 통한 이전셀상태 억제장치 준비 http://colah.github.io/posts/2015-08-understanding-lstms/ - 이전출력(h)과 현재입력(x)을 받아 f를 계산해서 이전셀상태에 곱함 - f에 따라 이전 셀상태벡터의 어떤 값은 리셋되고 어떤 값은 살아남음 이전출력+현재입력을 보아 새로운 주어 라는 판단이 들면 f의 k번째 원소는 0

Sequence Labeling : LSTM Input gate 를 통한 이번입력의 반영정도 준비 - 이전출력(h)과 현재입력(x)으로 i를 계산함 - 이전출력(h)과 현재입력(x)으로 이번입력에 기반한 셀상태를 계산함 이전출력+현재입력을 보아 새로운 주어 라는 판단이 들면 i는 1이고 셀상태의 k번째 원소는 새로운 성별값 http://colah.github.io/posts/2015-08-understanding-lstms/

최종셀상태 G의 계산 Sequence Labeling : LSTM http://colah.github.io/posts/2015-08-understanding-lstms/ - f로 이전셀상태의 유지정도를 결정 - i로 단순 셀상태값이 최종 셀상태값에 끼치는 영향력을 결정 앞에서 구한 f와 i 및 셀상태를 사용하여 최종셀상태를 업데이트 ( 최근에 본 주어의 성별 )

Sequence Labeling : LSTM 최종출력(h)계산을 위한 셀상태와 output gate 의 활용 - 최종출력(h)은 최종셀상태(C)의 일부 http://colah.github.io/posts/2015-08-understanding-lstms/ 다음 단어가 무엇인지를 예측하기 위해서는, 최종셀상태 정보 중 방금 바뀐 최근 주어의 성별정보는 필요 없고 대신 동사의 단/복수 형 결정을 위해 주어의 수 정보가 필요하므로 C의 k번째 정보는 내보내지 않는 대신 k+1번째 정보만 내보낼 수 있다.

Text/Query Mining Query Suggestion & Reformulation 번역모델 언어모델 Parallel corpus Monolingual corpus 번역모델 언어모델 q à q ( search log ) query log

Product Categorization Text/Query Mining 4억여개의 상품 4천여개의 카테고리 예) 스포츠/레저 > 수영 > 비치웨어 > 커플비치웨어 디지털/가전 > 음향가전 > 홈시어터 > 조합형홈시어터 카테고리 등록정보 신뢰도도 낮고 더 나은 쇼핑서비스를 위해 카테고리를 개편하기도 하고

Text/Query Mining Place Analysis S1: 아이들과 당일치기로 전주를 다녀왔어요 S2: 아이들 교육에도 최적의 장소 S3: 비오는날 운치있는 전주여행 S4: 운치있고 여유로운 곳이었어요 S5: 야간에 산책하면서 다니는 재미 S6: 날씨 즐기며 천천히 걸어다니는 것도 S1: 아이들과 당일치기로 전주를 다녀왔어요 S2: 아이들 교육에도 최적의 장소 S3: 비오는날 운치있는 전주여행 S4: 운치있고 여유로운 곳이었어요 S5: 야간에 산책하면서 다니는 재미 S6: 날씨 즐기며 천천히 걸어다니는 것도

스타 타임라인 Vision-Text Integration

Vision-Text Integration 음식점 포토요약

스타일 서치 Vision-Text Integration

Recommendation 어떻게 하면 네이버에서 더 오래 즐거운 시간을 보내실까? 투유프로젝트-슈가맨 이라는 방송의 클립을 보고 난 사용자에게 어떤 동영상을 추천해주면 좋을까? 슈가맨같은 동영상 의외의 다른 동영상

Recommendation Collaborative Filtering + Diversity https://databricks-training.s3.amazonaws.com/movie-recommendation-with-mllib.html Novelty factor

감사합니다