PowerPoint 프레젠테이션

Similar documents
PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

김기남_ATDC2016_160620_[키노트].key

歯박지원-구운몽.PDF

RUCK2015_Gruter_public

¿ÀǼҽº°¡À̵å1 -new

201708_Seoul_Meetup

Portal_9iAS.ppt [읽기 전용]

PowerPoint 프레젠테이션

<A4B5A4C4A4B5A4BFA4B7A4B7A4D1A4A9A4B7A4C5A4A4A4D1A4A4A4BEA4D3A4B1A4B7A4C7A4BDA4D1A4A4A4A7A4C4A4B7A4D3A4BCA4C E706466>

오늘날의 기업들은 24시간 365일 멈추지 않고 돌아간다. 그리고 이러한 기업들을 위해서 업무와 관련 된 중요한 문서들은 언제 어디서라도 항상 접근하여 활용이 가능해야 한다. 끊임없이 변화하는 기업들 의 경쟁 속에서 기업내의 중요 문서의 효율적인 관리와 활용 방안은 이

No

160322_ADOP 상품 소개서_1.0

Samsung SDS Enterprise Cloud Extended Services Brightics AI Brightics IoT Nexledger Elasticsearch


Microsoft Word - 조병호

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

PowerPoint 프레젠테이션

로거 자료실

J2EE & Web Services iSeminar

*금안 도비라및목차1~9

*금안14(10)01-도비라및목차1~12

Analyst Briefing

Index

No Slide Title

HTML5* Web Development to the next level HTML5 ~= HTML + CSS + JS API

1217 WebTrafMon II

Cache_cny.ppt [읽기 전용]

슬라이드 1

0810-part2

PowerChute Personal Edition v3.1.0 에이전트 사용 설명서

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

무제-1

<4D F736F F D20C1A4BAB8C5EBBDC5C1F8C8EFC7F9C8B8BFF8B0ED5FBDBAB8B6C6AEBDC3B4EBBAF22E727466>

Session XX-XX: Name

목 차 Ⅰ. 일반사항 1 Ⅱ. 특기사항 3 Ⅲ. 물품내역 및 세부규격 8 Ⅳ. 주의사항

*금안 도비라및목차1~17

Agenda

슬라이드 1

목차 1. 제품 소개 특징 개요 Function table 기능 소개 Copy Compare Copy & Compare Erase

[Brochure] KOR_TunA

서현수

항목

<4D F736F F D20BDBAB8B6C6AE545620BCD3BFA1BCADC0C720534E5320C6F7C1F6BCC5B4D720B9D720C0FCB7AB5FBCDBB9CEC1A42E646F63>

< FC8A8C6E4C0CCC1F620B0B3B9DF20BAB8BEC8B0A1C0CCB5E5C3D6C1BE28C0FAC0DBB1C7BBE8C1A6292E687770>

PowerPoint 프레젠테이션

API STORE 키발급및 API 사용가이드 Document Information 문서명 : API STORE 언어별 Client 사용가이드작성자 : 작성일 : 업무영역 : 버전 : 1 st Draft. 서브시스템 : 문서번호 : 단계 : Docum

따끈따끈한 한국 Azure 데이터센터 서비스를 활용한 탁월한 데이터 분석 방안 (To be named)

검색엔진

토익S-채용사례리플렛0404

Basic Template

Microsoft PowerPoint - CNVZNGWAIYSE.pptx

PowerPoint Presentation

세션 3 (오이식).ppt

PCServerMgmt7

2018_ifkakao_cloud_andrew_final

PowerPoint 프레젠테이션

5 주차 -mongodb 설치잠깐! CAP 이론 NoSQL이나온이유와 MongoDB NoSQL의데이터저장구조에따른세가지분류 RDBMS와 NoSQL특성비교 RDBMS와 NoSQL의사용시기 MongoDB 소개및특징 MongoDB와 RDBMS와의공통 MongoDB CRUD

Oracle® DIVAnet - 보안 설명서

PowerPoint Presentation

Voice Portal using Oracle 9i AS Wireless

, N-. N- DLNA(Digital Living Network Alliance).,. DLNA DLNA. DLNA,, UPnP, IPv4, HTTP DLNA. DLNA, DLNA [1]. DLNA DLNA DLNA., [2]. DLNA UPnP. DLNA DLNA.

The Self-Managing Database : Automatic Health Monitoring and Alerting

¨ìÃÊÁ¡2

PowerPoint 프레젠테이션

플랫폼을말하다 2

PowerPoint 프레젠테이션

편의점 리플렛.indd

Special Theme _ 모바일웹과 스마트폰 본 고에서는 모바일웹에서의 단말 API인 W3C DAP (Device API and Policy) 의 표준 개발 현황에 대해서 살펴보고 관 련하여 개발 중인 사례를 통하여 이해를 돕고자 한다. 2. 웹 애플리케이션과 네이

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CC0E7B0EDB0FCB8AE5C53746F636B5F4D616E D656E74732E637070>

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

PowerPoint 프레젠테이션

HTML5가 웹 환경에 미치는 영향 고 있어 웹 플랫폼 환경과는 차이가 있다. HTML5는 기존 HTML 기반 웹 브라우저와의 호환성을 유지하면서도, 구조적인 마크업(mark-up) 및 편리한 웹 폼(web form) 기능을 제공하고, 리치웹 애플리케이 션(RIA)을

DW 개요.PDF

슬라이드 1

Corporate PPT Template

Oracle9i Real Application Clusters

대표이사 등의 확인

CLICK, FOCUS <표 1> 스마트TV와 기존TV의 구분 및 비교 구분 전통TV 케이블TV/IPTV 인터넷TV/웹TV 스마트TV 전달방식 방송전파 케이블/인터넷망 인터넷망 인터넷망 양방향 서비스 없음 부분적으로 있음 있음 있음 콘텐츠 지상파 방송사가 확보한 콘텐츠

Domino Designer Portal Development tools Rational Application Developer WebSphere Portlet Factory Workplace Designer Workplace Forms Designer

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

세션 2-2(허태경).ppt

Todo list Universal app

ETL_project_best_practice1.ppt

2 노드

Web Application Hosting in the AWS Cloud Contents 개요 가용성과 확장성이 높은 웹 호스팅은 복잡하고 비용이 많이 드는 사업이 될 수 있습니다. 전통적인 웹 확장 아키텍처는 높은 수준의 안정성을 보장하기 위해 복잡한 솔루션으로 구현

Interstage

UNIST_교원 홈페이지 관리자_Manual_V1.0

<353020B9DAC3E1BDC42DC5ACB6F3BFECB5E520C4C4C7BBC6C3BFA1BCADC0C720BAB8BEC820B0EDB7C1BBE7C7D7BFA120B0FCC7D120BFACB1B82E687770>

DRB1419-A

<B4DCC0A7BBE7BEF7BAB8B0EDBCAD30345FC3A2C0DBC1F6BDC4BBFDC5C2B0E85FC1A6BABB5FC3D6C1BEBCF6C1A42E687770>

슬라이드 1

Olje CLASSICS 08 *본 문서에 대한 저작권은 사단법인 올재에 있으며, 이 문서의 전체 또는 일부에 대하여 상업적 이익을 목적으로 하는 무단 복제 및 배포를 금합니다. copyright 2012 Olje All Rights Reserved

Bind Peeking 한계에따른 Adaptive Cursor Sharing 등장 엑셈컨설팅본부 /DB 컨설팅팀김철환 Bind Peeking 의한계 SQL 이최초실행되면 3 단계의과정을거치게되는데 Parsing 단계를거쳐 Execute 하고 Fetch 의과정을통해데이터

PowerPoint Presentation

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

*금안 도비라및목차1~15

PowerPoint Presentation

03_queue

Transcription:

오픈소스검색엔진을활용한 데이터분석 Elastic Stack 을이용한데이터분석 김종민 Tech Evangelist @Elastic 2017.10.26

Elastic?

Elastic? Elasticsearch 라는검색엔진을개발한회사입니다. (ELK Stack 으로더잘알려져있습니다.) 검색엔진은우리주변여기저기에있습니다. 요즘은검색엔진이데이터분석에도쓰입니다.

Elastic Stack 100% open source

Elasticsearch Heart of the Elastic Stack Distributed, Scalable High-availability Multi-tenancy Developer Friendly Real-time, Full-text Search Aggregations

Kibana Visualize and analyze Geospatial Customize and Share Reports Graph Exploration UX to secure and manage the Elastic Stack Build Custom Apps

Beats Ship data from the source Ship to Elastic Cloud Ship and centralize in Elasticsearch Libbeat: API framework to build custom beats Ship to Logstash for transf ormation and parsing 30+ community Beats

Logstash Ingest data of all shapes, sizes, and sources Secure and encrypt data inputs Parse and dynamically transform data Build your own pipeline Transport data to any output More than 200+ plugins

Common Elastic Stack Architecture Beats Elasticsearch Log Files Metrics Master Nodes (3) Custom UI Logstash Ingest Nodes (X) Wire Data your(beat) Kibana Kafka Data Nodes - Hot (X) Instances (X) Datastore Web APIs Redis Messaging Queue Nodes (X) Data Nodes - Warm (X) Social Sensors X-pack X-pack ES-Hadoop LDAP AD SSO Hadoop Ecosystem Authentication Notification

아파치루씬 (Apache Lucene) Created by - Doug Cutting Written in Java Apache Solr, Elasticsearch

RDBMS 에서는데이터를테이블형태로저장합니다. 열을기준으로인덱스를만듭니다. 책의맨앞에있는제목리스트와같습니다. DOC TEXT 1 The quick brown fox jumps over the lazy dog 2 Fast jumping rabbits

검색엔진에서는 inverted index 라는구조로저장합니다. RDBMS 와반대구조입니다. 텍스트를다뜯어서검색어사전을만듭니다. 책의맨뒤에있는페이지를가리키는키워드같습니다. TOKEN (TERM) DOC TOKEN (TERM) DOC Fast 2 jumps 1 The 1 lazy 1 brown 1 over 1 dog 1 quick 1 fox 1 rabbits 2 jumping 2 the 1

실제로는이렇게저장됩니다. 텍스트를저장할때몇가지처리과정을거칩니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 1, 2 quick 1, 2 fox 1 rabbit 2 jump 1, 2

텍스트처리 대소문자를변환합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC Fast fast 2 jumps 1 The the 1 lazy 1 brown 1 over 1 dog 1 quick 1 fox 1 rabbits 2 jumping 2 the 1

텍스트처리 토큰을 ( 보통 ascii 순서로 ) 재정렬합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits 2 jumping 2 the 1 jumps 1 the 1

텍스트처리 불용어 (stopwords, 검색어로서의가치가없는단어들 ) 를제거합니다. a, an, are, at, be, but, by, do, for, i, no, the, to 등등 TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits 2 jumping 2 the 1 jumps 1 the 1

텍스트처리 형태소분석과정을거칩니다. 보통 ~s, ~ing 등을제거하는과정입니다. 한글은의미분석을해야해서좀더복잡합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazy lazi 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbits rabbit 2 jumping jump 2 jumps jump 1

텍스트처리 jumping, jumps 가 jump 로똑같이바뀌었으므로토큰을병합해줍니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 2 quick 1 fox 1 rabbit 2 jump 1, 2

텍스트처리 동의어를처리합니다. TOKEN (TERM) DOC TOKEN (TERM) DOC brown 1 lazi 1 dog 1 over 1 fast 1, 2 quick 1, 2 fox 1 rabbit 2 jump 1, 2

검색 검색어도똑같이텍스트처리를합니다. The lazy rabbits 라고검색하면 lazi, rabbit 검색어를찾습니다. The lazy rabbits lazi rabbit 1 2 DOC TEXT 1 The quick brown fox jumps over the lazy dog 2 Fast jumping rabbits

검색엔진과 RDBMS 비교 RDBMS 는쿼리시점, 검색엔진은색인시점이중요합니다. RDBMS 검색엔진 데이터저장방식정규화역정규화 전문 (Full Text) 검색속도느림빠름 의미검색불가능가능 Join 가능불가능 수정 / 삭제빠름느림

Elasticsearch 클러스터링 Inverted Index 는한번생성되면변경이불가능하기때문에 Elasticsearch 는클러스터링을위해데이터를샤드라는단위로분리해서저장합니다. 샤드 (Shard) 루씬검색쓰레드 0 1 2 3 4 노드 (Node) Elasticsearch 실행프로세스

Elasticsearch 클러스터링 노드를여러개실행시키면같은클러스터로묶입니다. 0 1 2 3 4 Elasticsearch 클러스터 (Cluster)

Elasticsearch 클러스터링 샤드들은각각의노드들에분배되어저장됩니다. 0 2 1 4 3

Elasticsearch 클러스터링 무결성과가용성을위해샤드의복제본을만듭니다. 같은내용의복제본과샤드는서로다른노드에저장됩니다. 0 2 3 1 4 4 0 3 1 2

Elasticsearch 클러스터링 시스템다운이나네트워크단절등으로유실된노드가생기면 0 2 3 1 4 4 0 3 1 2

Elasticsearch 클러스터링 복제본이사라진샤드들은다른살아있는노드로샤드복제를시작합니다. 0 2 3 1 4 0 4 0 3 1 2 4

Elasticsearch 클러스터링 노드의수가줄어들어도샤드의수는변함없이무결성을유지합니다. 0 2 3 1 4 0 3 1 2 4

Aggregation Elasticsearch 에서는검색뿐아니라 Aggregation 기능을이용한데이터집계가가능합니다. Search aggregation hits (docs)

Web Log - 데이터분석 207.241.237.228 - - [08/Aug/2017:22:22:23 +0000] "GET /blog/tags/defcon HTTP/1.0" 200 24142 "http://www.semicomplete.com/blog/tags/c" "Mozilla/5.0 (compatible; archive.org_bot +http://www.archive.org/details/archive.org_bot)"

Web Log - 데이터분석 Logstash 를통해다음과같이파싱이가능합니다.

Web Log - 데이터분석 Logstash 를통해다음과같이파싱이가능합니다.

Web Log - 데이터분석 다음과같은형식의데이터들의처리가가능합니다. 텍스트 위치정보 숫자 키워드

Web Log - 데이터검색 공격에주로사용되는키워드들의검색. (admin, wp-admin, php 등 )

Web Log - 데이터검색 접속오류데이터들을검색. (response:404)

Web Log - 데이터검색 데이터를복합해서검색 ("admin" AND response:200)

Web Log - 데이터집계 Elasticsearch 의 Aggergation 기능을이용해서데이터집계가가능합니다. 분석된텍스트데이터 키워드데이터 수치 (Metric) 데이터

Ecommerce Data

Elasticsearch + Kibana Log : data + timestamp 시계열데이터를이용해서다양한시각화도구를만듭니다. 시각화도구를한눈에볼수있도록대시보드를만들고검색쿼리와기간을활용해서데이터간의연관성을파악합니다. 파악한연관성을바탕으로앞으로의목적달성을위한근거자료로활용합니다.

감사합니다 Elastic 부스에서더많은데모들을시연중이니 많이들러주세요. Copyright c 2017 SAMSUNG ELECTRONICS. ALL RIGHTS RESERVED