PowerPoint 프레젠테이션

Similar documents
PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Intro to Servlet, EJB, JSP, WS

Portal_9iAS.ppt [읽기 전용]

istay

160322_ADOP 상품 소개서_1.0

ecorp-프로젝트제안서작성실무(양식4)

t

201708_Seoul_Meetup

1~10

Index

08SW

Index

목순 차서 v KM의 현황 v Web2.0 의 개념 v Web2.0의 도입 사례 v Web2.0의 KM 적용방안 v 고려사항 1/29

PART

Part Part

£01¦4Àå-2

½ºÅ丮ÅÚ¸µ3_³»Áö

272*406OSAKAÃÖÁ¾-¼öÁ¤b64ٽÚ

Index

비지니스 이슈(3호)

Model Investor MANDO Portal Site People Customer BIS Supplier C R M PLM ERP MES HRIS S C M KMS Web -Based

1217 WebTrafMon II

MS-SQL SERVER 대비 기능

Oracle Apps Day_SEM

ecorp-프로젝트제안서작성실무(양식3)

AT_GraduateProgram.key

<353020B9DAC3E1BDC42DC5ACB6F3BFECB5E520C4C4C7BBC6C3BFA1BCADC0C720BAB8BEC820B0EDB7C1BBE7C7D7BFA120B0FCC7D120BFACB1B82E687770>

PowerPoint Presentation

Microsoft Word - USB복사기.doc

슬라이드 1

IBMDW성공사례원고

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

BSC Discussion 1

Samsung SDS Enterprise Cloud Extended Services Brightics AI Brightics IoT Nexledger Elasticsearch

PowerPoint 프레젠테이션

CMS-내지(서진이)

실무 예제로 배우는 Elasticsearch 검색엔진 <활용편>

partprime_intro.key

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

02이용배(239~253)ok

< C4BFB8AEBEEEC6D0BDBA20BBE7B7CAC1FD5FB0C7C3E02E687770>

PowerPoint 프레젠테이션

I What is Syrup Store? 1. Syrup Store 2. Syrup Store Component 3.

오늘날의 기업들은 24시간 365일 멈추지 않고 돌아간다. 그리고 이러한 기업들을 위해서 업무와 관련 된 중요한 문서들은 언제 어디서라도 항상 접근하여 활용이 가능해야 한다. 끊임없이 변화하는 기업들 의 경쟁 속에서 기업내의 중요 문서의 효율적인 관리와 활용 방안은 이

Example. Do It Yourself

±èÇö¿í Ãâ·Â

내지무인화_

2부 데이터 수집

º¸µµ¿Â

Service-Oriented Architecture Copyright Tmax Soft 2005

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

그린리포트-가을-pdf

Microsoft Word - 오세근

정진명 남재원 떠오르고 있다. 배달앱서비스는 소비자가 배달 앱서비스를 이용하여 배달음식점을 찾고 음식 을 주문하며, 대금을 결제까지 할 수 있는 서비 스를 말한다. 배달앱서비스는 간편한 음식 주문 과 바로결제 서비스를 바탕으로 전 연령층에서 빠르게 보급되고 있는 반면,

대학교육151호-합침

PowerPoint 프레젠테이션

<4D F736F F D20C1A4BAB8C5EBBDC5C1F8C8EFC7F9C8B8BFF8B0ED5FBDBAB8B6C6AEBDC3B4EBBAF22E727466>

* ~2..

슬라이드 1

무제-1

MySQL-.. 1

Data Industry White Paper

Cache_cny.ppt [읽기 전용]

검색엔진

OUR INSIGHT. YOUR FUTURE. Disclaimer Presentation ( ),. Presentation,..,,,,, (E).,,., Presentation,., Representative.( ). ( ).

정보기술응용학회 발표

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

4? [The Fourth Industrial Revolution] IT :,,,. : (AI), ,, 2, 4 3, : 4 3.

<30362E20C6EDC1FD2DB0EDBFB5B4EBB4D420BCF6C1A42E687770>

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

WORLD IT SHOW 2015 TREND Connect Everything WIS 2015 KEY ISSUE

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

What is ScienceDirect? ScienceDirect는 세계 최대의 온라인 저널 원문 데이터베이스로 엘스비어에서 발행하는 약,00여 종의 Peer-reviewed 저널과,000여권 이상의 도서를 수록하고 있습니다. Peer review Subject 수록된

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

PowerPoint 프레젠테이션

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Basic Template

14 경영관리연구 제6권 제1호 ( ) Ⅰ. 서론 2013년 1월 11일 미국의 유명한 경영전문 월간지 패스트 컴퍼니 가 2013년 글로벌 혁신 기업 50 을 발표했다. 가장 눈에 띄는 것은 2년 연속 혁신기업 1위를 차지했던 애플의 추락 이었다. 음성 인식

대표이사 등의 확인

Voice Portal using Oracle 9i AS Wireless

EndNote X2 초급 분당차병원도서실사서최근영 ( )

2015 경제ㆍ재정수첩

CD-RW_Advanced.PDF

untitled

Efficiently manage information throughout its lifecycle, relative to its business value Orchestration Storage Infrastructure Management Hierarchical S

Microsoft PowerPoint - 6.pptx

<4D F736F F D205B4354BDC9C3FEB8AEC6F7C6AE5D3131C8A35FC5ACB6F3BFECB5E520C4C4C7BBC6C320B1E2BCFA20B5BFC7E2>

DW 개요.PDF



사진 매 여권 사진 크기 최근 개월 이내 촬영 본원 증명사진 포함 6. 선발 절차 : 제출된 서류를 심사하여 차 명 선발 및 공고 합격자 원본 서류 제출 주한 이집트 대사관으로 서류 송부 차 주한 이집트대사관 이집트 교육부로 추천자 서류 송부 차 이집트 교육부 최 종

통합패키지.pdf

차례.hwp

슬라이드 제목 없음

Mobile Service > IAP > Android SDK [ ] IAP SDK TOAST SDK. IAP SDK. Android Studio IDE Android SDK Version (API Level 10). Name Reference V

20(53?)_???_O2O(Online to Offline)??? ???? ??.hwp

BibLaTeX을 이용한 한국어 참고 문헌 처리의 가능성

Transcription:

Elasticsearch 의한글검색활용 Elastic Community Engineer 김종민 2018. 10. 18

Elastic?

Elastic? Elasticsearch 라는검색엔진을개발한회사입니다. (ELK Stack 으로더잘알려져있습니다.) 검색엔진은우리주변여기저기에있습니다. 요즘은검색엔진이데이터분석에도쓰입니다.

4 SEARCH

Multilingual Full Text Search Stemming Type ahead 5

Mobile Time Range Geo search Influenced by Rating Personalized Ranking 6

7

Search Pagination Time range Filter Numeric Filter Geo range Filter Stemming / Highlighting 8

9 Building search needs...

All this. Multi-lingual Secure Fast Query language Drill down Search APIs Unstructured High availability Highlighting Type ahead Scalable Alerting Query Language Enrichment 10

Elastic has all this. Real-time Multi-lingual Query language Search Fast Secure Query Language Scalable APIs Alerting Highlighting Enrichment Type ahead Unstructured High availability Drill down Data Sources 11

Kibana Visualize & Manage Elastic Stack Elasticsearch Store, Search, & Analyze Beats Logstash Ingest 12

Application Search Metrics Site Search APM Enterprise Search Business Analytics Logging Security Analytics Future Solutions Kibana Visualize & Manage Elastic Stack Elasticsearch Store, Search, & Analyze Beats Logstash Ingest 13

Solutions APM Site Search App Search 14

App Search Metrics Site Search APM Enterprise Search Business Analytics Logging Security Analytics Future Solutions Kibana Visualize & Manage Elastic Stack Elasticsearch Store, Search, & Analyze Beats Logstash Ingest SaaS Self Managed Elastic Cloud Elastic Cloud Enterprise Standalone Deployment 15

SaaS Self Managed Elastic Cloud Elastic Cloud Enterprise Standalone Elasticsearch Service Site Search App Search 16

Application Search Metrics Site Search APM Enterprise Search Business Analytics Logging Security Analytics Future Solutions Kibana Visualize & Manage Elastic Stack Elasticsearch Store, Search, & Analyze Beats Logstash Ingest SaaS Self Managed Elastic Cloud Elastic Cloud Enterprise Standalone Deployment 17

18

20

아파치루씬 (Apache Lucene) Created by - Doug Cutting Written in Java Apache Solr, Elasticsearch

RDBMS 에서는데이터를테이블형태로저장합니다. 열을기준으로인덱스를만듭니다. 책의맨앞에있는제목리스트와같습니다. DOC TEXT 1 The quick brown fox jumps over the lazy dog 2 Fast jumping rabbits

검색엔진에서는 inverted index 라는구조로저장합니다. RDBMS 와반대구조입니다. 텍스트를다뜯어서검색어사전을만듭니다. 책의맨뒤에있는페이지를가리키는키워드같습니다. TOKEN (TERM) DOC TOKEN (TERM) DOC Fast 2 jumps 1 The 1 lazy 1 brown 1 over 1 dog 1 quick 1 fox 1 rabbits 2 jumping 2 the 1

실제로는이렇게저장됩니다. 텍스트를저장할때몇가지처리과정을거칩니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 1, 2 quick 1, 2 fox 1 rabbit 2 jump 1, 2

텍스트처리 대소문자를변환합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC Fast fast 2 jumps 1 The the 1 lazy 1 brown 1 over 1 dog 1 quick 1 fox 1 rabbits 2 jumping 2 the 1

텍스트처리 토큰을 ( 보통 ascii 순서로 ) 재정렬합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits 2 jumping 2 the 1 jumps 1 the 1

텍스트처리 불용어 (stopwords, 검색어로서의가치가없는단어들 ) 를제거합니다. a, an, are, at, be, but, by, do, for, i, no, the, to 등등 TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits 2 jumping 2 the 1 jumps 1 the 1

텍스트처리 형태소분석과정을거칩니다. 보통 ~s, ~ing 등을제거하는과정입니다. 한글은의미분석을해야해서좀더복잡합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy lazi 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits rabbit 2 jumping jump 2 jumps jump 1

텍스트처리 jumping, jumps 가 jump 로똑같이바뀌었으므로토큰을병합해줍니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbit 2 jump 1, 2

텍스트처리 동의어를처리합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 1, 2 quick 1, 2 fox 1 rabbit 2 jump 1, 2

검색 검색어도똑같이텍스트처리를합니다. The lazy rabbits 라고검색하면 lazi, rabbit 검색어를찾습니다. The lazy rabbits lazi rabbit 1 2 DOC TEXT 1 The quick brown fox jumps over the lazy dog 2 Fast jumping rabbits

검색엔진과 RDBMS 비교 RDBMS 는쿼리시점, 검색엔진은색인시점이중요합니다. RDBMS 검색엔진 데이터저장방식정규화역정규화 전문 (Full Text) 검색속도느림빠름 의미검색불가능가능 Join 가능불가능 수정 / 삭제빠름느림

한글검색 한글은복합어로이루어진언어입니다. 단순한 whitespace 기반이아닌단어사전기반의분석이필요합니다. 동해물과백두산이 동해 + 물 / 백두 + 산 동 + 해물 / 백 + 두산 대학생선교회 대학생 + 선교 + 회 대학 + 생선 + 교회

한글형태소분석기 Elasticsearch 에서사용가능한한글형태소분석기는 아래와같은프로젝트들이있습니다.

2018. 08 Nori 출시 https://www.elastic.co/kr/blog/nori-the-official-elasticsearch-plugin-forkorean-language-analysis

What is Nori? Created by Jim Ferenczi https://github.com/jimczi Creator of Kuromoji Japanese Text Analyzer Contributor of MeCab 은전한닢의 mecab-ko-dic 사전을사용합니다. Nori 는 Kuromoji 엔진의코드를 fork 해서 mecab-ko-dic 사전을적용시킨 Elasticsearch 독자적인형태소분석기입니다.

Why Nori? https://issues.apache.org/jira/browse/lucene-8231

Why Nori? https://issues.apache.org/jira/browse/lucene-8231

How Nori? https://github.com/apache/lucene-solr/tree/master/lucene/analysis

How Nori? mecab-ko-dic 사전사이즈 : 약 200MB

How Nori? nori 사전사이즈 : 24MB

How Nori? mecab-ko-dic 사전구조 NNG.csv

How Nori? 출처 : 꼬꼬마한국어형태소분석기 http://kkma.snu.ac.kr/documents/?doc=postag Korean POS (Part Of Speech) Table

How Nori? nori 사전구조 : CSV(array) 형식의텍스트로저장된사전을 FST (finite state transducer) 로부호화하고 Binary 구조로재구성. Matrix.def 파일가변길이로변경후직렬화

How Nori? nori 사전구조 : 명사와합성어의부분들을부호화 사전에서중복제거 오른쪽어절이왼쪽어절과다른경우에만저장하고다르면저장하지않음. ( 중복제거 )

How Nori? 자세한사용법은 Elastic 공식도큐먼트에있습니다. https://www.elastic.co/guide/en/elasticsearch/plugins/6.4/analysis-nori.html

감사합니다 Elastic 부스에서더많은데모들을시연중이니많이들러주세요. https://www.facebook.com/groups/elasticsearch.kr/