Semantic Search and Data Interoperability for GeoWeb



Similar documents
Semantic Search and Data Interoperability for GeoWeb

04 특집

2003 Digital for Next Generation

슬라이드 1

[ 표 33] -김문수... 3 [ 표 34] -문재인... 7 [ 표 35] -박근혜 [ 표 36] -손규 [ 표 37] -안철수 [ 표 38] -정몽준 [ 표 3] 지난 1년간가정살림변화 [ 표 40] 지

ad hwp

[Brochure] KOR_TunA

[ 표 34] 원하는차기대통상 [ 표 35] 안철수원장의출마에견해 [ 표 36] 안철수원장과야당후보와의단일화에대한견해 [ 표 37] 단일화할경우누가로단일화되어야하는지에대한견해 [ 표 38] 공천비리사건에대한박근혜후보의책임여부.

맘톡광고소개서

<C0CCBCF8BFE42DB1B3C1A4BFCFB7E12DB1E8B9CCBCB12DC0DBBCBAC0DAB0CBC1F5BFCFB7E12DB8D3B8AEB8BBB3BBBACEC0DAB0CBC1F52E687770>

Cover Story Oracle Big Data Vision 01_Big Data의 배경 02_Big Data의 정의 03_Big Data의 활용 방안 04_Big Data의 가치

응답자분포표 전 체 (1527) 남 자 (756) 49.5 여 자 (771) 세 (281) 대 (314) 대 (336) 대 (288) 세이상 (308) 20.1 졸이

Windows Live Hotmail Custom Domains Korea

Ⅰ. 조사목적 본조사는전국민을대상으로대통령국정수행지지도, 정당지지도등을 파악하여, 국민여론을파악하는기초자료수집에그목적을둠. Ⅱ. 조사설계 조사대상 전국거주만 19세이상성인남녀 표본수 총 1,035 명조사후, 지역, 성, 연령별사후보정 표본오차 95% 신뢰수준에서최대허용

Web Scraper in 30 Minutes 강철

스마트폰 저렴하게 구매하는곳

소규모 비즈니스를 위한 플레이북 여기서 다룰 내용은 다음과 같습니다. 1. YouTube 소개 2. YouTube에서 비즈니스를 위한 채널 만들기 3. 눈길을 끄는 동영상 만들기 4. 고객의 액션 유도하기 5. 비즈니스에 중요한 잠재고객에게 더 많이 도달하기

용자들_MKT_Proposal_201504_V6.pptx

Open Cloud Engine Open Source Big Data Platform Flamingo Project Open Cloud Engine Flamingo Project Leader 김병곤

[White Paper]다시보는 시맨틱 웹 그리고 시맨틱 기술 하는 Tabulator와 Sindice에 기반한 데이터 매쉬업 및 브라우징 서비스인 sig.ma는 꼭 한번 경험해 봐야 할 대상이 다. 또한, SemaPlorer나 DBpedia Mobile 경우는 LOD

2009방송통신산업동향.hwp

#³óÃÌ°æÁ¦ 64È£-Ä®¶ó¸é

¾Èµ¿±³È¸º¸ÃÖÁ¾

¾Ë±â½¬¿îÀ±¸®°æ¿µc03ÖÁ¾š

DataGraft Intro

i4uNETWORKS_CompanyBrief_ key

1~10

슬라이드 1

제 31회 전국 고교생 문예백일장 산문 부문 심사평.hwp

130726_트렌드씨_6월_rgb_s

레프트21

빅데이터_DAY key

1. 조사설계 조사대상 2017 년 2 월현재, 전국만 19 세이상남녀 표본의크기 조사방법 1,021 명 ( 가중전 1,021 명, 가중후 1,000 명 ) - 가중치를 1,000 명기준으로부여했으나, 보도시표본크기는 1,021 명으로보도해야함. 구조화된설문지를이용한전


2


chungo_story_2013.pdf

*중1부

2

Çѱ¹ÀÇ ¼º°øº¥Ã³µµÅ¥

...._


전반부-pdf

<4D F736F F F696E74202D20312E20B0E6C1A6C0FCB8C15F3136B3E2C7CFB9DDB1E25F325FC6ED28C0BA292E >

_

12월월간보고서내지편집3

에너지포커스 2007년 가을호


01_당선자공약_서울

인권문예대회_작품집4-2




목차

A°ø¸ðÀü ³»Áö1-¼öÁ¤

±¹³»°æÁ¦ º¹»ç1

¿¡³ÊÁö ÀÚ¿ø-Âü°í ³»Áö.PDF

전반부-pdf

뉴스레터6호

Microsoft PowerPoint 하반기 크레딧 전망_V3.pptx

50차 본문 최종

³»Áöc03âš

fsb9¿ù³»ÁöÃÖÁ¾Ãâ

¾ç¼º-¾÷¹«Æí¶÷-³»¿ëÃà¼Ò4

전도대회자료집

< DBAB4B9ABC3BB5FBAB9B9ABB0FCB8AEB8C5B4BABEF32D33B1C72E706466>

<3344C7C1B8B0C6C320BFE4BEE02D E706466>

µ¶ÀÏÅëÀÏÁý1~2Æíq36£02Ð


자식농사웹완


표1.4출력

003-p.ps

중앙도서관소식지겨울내지33

양성내지b72뼈訪?303逞


표1~4

160322_ADOP 상품 소개서_1.0

목 차 통계표요약... 1 응답자특성표... 4 표 1 이명박대통령국정수행평가... 5 표 2 18 대국회의정활동평가... 7 표 3 주요정당공천평가... 9 표 4 공천결과가후보선택에미친영향 표 5 19 대총선투표후보정당 표 6 민주통합당, 통합

About

歯세대갈등국민조사97.PDF


(최종) 주안도서관 소식지_7호.indd


<C3E6B3B2B1B3C0B C8A32DC5BEC0E7BFEB28C0DBB0D4292D332E706466>

wtu05_ÃÖÁ¾

목차 응 답 자 특 성 표... 1 표 1 차기대통령지지후보... 2 표 2 박근혜 vs 문재인... 6 표 3 박근혜 vs 안철수... 8 표 4 박근혜 vs 문재인 vs 안철수 표 5 가장경쟁력있는여권후보 표 6 가장경쟁력있는야권후보... 14

CONTENTS Volume 테마 즐겨찾기 빅데이터의 현주소 진일보하는 공개 기술, 빅데이터 새 시대를 열다 12 테마 활동 빅데이터 플랫폼 기술의 현황 빅데이터, 하둡 품고 병렬처리 가속화 16 테마 더하기 국내 빅데이터 산 학 연 관

PowerPoint 프레젠테이션

H3250_Wi-Fi_E.book

PowerPoint 프레젠테이션


제 출 문 환경부장관 귀하 본 보고서를 습마트기기 활용 환경지킴이 및 교육 통합 서비스 개 발 과제의 최종보고서로 제출합니다. 주관연구기관 : 주관연구기관장 : 2015년 10월 주식회사 덕키즈 김 형 준 (주관)연구책임자 : 문종욱 (주관)참여연구원 : 김형준, 문병

지지정당별지방선거투표의향별국정수행평가별국무총리인선평가별정부개각범위의견별사전투표제인지별사전투표참여의향별지방선거성격공감별차기대선후보선호도별성 * 연령별 자영업 (102) 블루칼라 (96) 12.

디지털데일리_스페셜리포트 1부.indd

i4uNETWORKS_CompanyBrief_ key

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

내지(교사용) 4-6부

<BFA9BCBABFACB1B8BAB8B0EDBCAD28C6EDC1FD292E687770>

클라우드컴퓨팅확산에따른국내경제시사점 클라우드컴퓨팅확산에따른국내경제시사점 * 1) IT,,,, Salesforce.com SaaS (, ), PaaS ( ), IaaS (, IT ), IT, SW ICT, ICT IT ICT,, ICT, *, (TEL)

Transcription:

빅데이터 비즈니스 전략 세미나 비정형 빅데이터의 가치와 서비스 활용 방안 2012.10.31 최광선 본부장 솔트룩스 전략사업본부

목차 비정형 빅데이터의 거버넌스 비정형 빅데이터 분석 사례 비정형 빅데이터 분석 방법 소셜 빅데이터 분석의 어려움 활용 서비스 소개 2

비정형 빅데이터의 거버넌스 3

데이터 IDC s Digital Universe Study, sponsored by EMC, June 2011; Booz & Company analysis 4

비정형 데이터 Text Documents Web Pages and Social Contents Media Formats : Audio, Video, Images Office Software Data Formats Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 5

단 1분 동안에 6

Big Data 전 세계 이메일 계정 수 : 29억 개 1 분당 이메일 송신 수 : 1.68억 개 페이스 북 회원 수 : 7억 vs. 7백만 게시글 : 1분당 70만개 댓글 : 1분당 50만개 유튜브 업로드 : 1분당 35시간 분량, 600개의 동영상 페이스 북 이미지 업로드 수 : 1일 1억장 [http://en.wikipedia.org/wiki/unstructured_data] 7

비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 8

비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 9

비정형 데이터 Dataversity, 2012 http://www.slideshare.net/dataversity/unstructured-data-and-the-enterprise 10

데이터 거버넌스 http://www.dataversity.net/the-difference-between-data-governance-data-management/ 11

[IN2] TM 플랫폼은 시맨틱 검색/마이닝을 통해 비정형 빅데이터 거버넌스 제공 시맨틱 검색 엔진 [IN2]Discovery 2 [IN2]SSAMZIE 소셜서치 & 마이닝 엔진 [IN2]DOR 클라우드 지원 통합 검색 엔진 하이브리드 자동분류 엔진 [IN2]HBC [IN2]SearchBox 사내 검색 포털 (Appliance) 12

기존 시스템 수준 빅데이터 비즈니스 전략 세미나 [IN2]플랫폼의 빅데이터 지능화를 통한 올바른 의사 결정 지원 의사결정 미래에 대한 이해와 대응 방안 제시가 가능한가? 기존 지식을 통해 새로운 지식 생산이 가능한가? 세상이 어떻게 변화해 가고 무엇이 핵심인가? 정보간의 상관 관계와 전문가 찾을 방법은? Level 5 예측성 Level 4 분석성 [IN2]SSAMZIE [IN2]Discovery 2 연관 정보의 발견과 재활용 방안은? Level 3 발견성 숨겨진 정보를 정확히 검색하려면? 원하는 정보를 빠르게 찾는 방법은? Level 2 접근성 [IN2]SearchBox 빅데이터의 체계적 관리 방안은? 보관을 좀더 구조적으로 할 수 있을까? 문서 손실을 방지할 수 있을까? Level 1 관리성 Level 0 저장성 [IN2]HBC [IN2]DOR 13

비정형 빅데이터 분석 및 활용 사례 (소셜 빅데이터 중심) 14

소셜 빅데이터 분석 사례 15

소셜 빅데이터 분석 사례 16

소셜 빅데이터 분석 사례 17

소셜 빅데이터 분석 사례 18

소셜 빅데이터 분석 사례 19

소셜 빅데이터 분석 사례 20

소셜 빅데이터 분석 사례 21

소셜 빅데이터 분석 사례 22

비정형 정보 분석 방법 23

이야기! 언제 어디서 상황분석 시계열분석 타임라인 누구에게로 상황 네트워크 분석 경로 누구로부터 누가 이야기 어디를 통해(채널) 어떻게 언어분석 내용 크기 얼마나 많이 (양) 무엇에 대해서 왜 추이 / 동향 분석 얼마나 자주 (빈도) 청취 24

트위터 : 140자 속에 숨겨진 이야기 25

SNS 데이터의 종류별 특징 * 분석의 묘미 26

비정형 정보 분석 절차 콘텐츠 수집 콘텐츠 저장 메타데이터 추출 / 어노테이션 키워드 및 토픽 추출 콘텐츠 분류 크롤링 Open API 대용량 분산 저장소 데이터 모델 Wrapping Parsing NLP, ML 언어자원 텍소노미 ML (SVM) 콘텐츠 및 메타데이터 색인 분석 대상 데이터 선택 (검색 및 질의) 연역적 추론 / 귀납적 추론 네트워크 분석 / 트렌드 분석 개체 프로파일링 대용량 분산 색인 색인 모델 센싱 / 예측 연합 및 융합 랭킹 모델 시각화 / 사용자 상호작용 추론 모델 추론 규칙 분석 알고리즘 통계 모델 개체 프로파일 모델 프로파일링 알고리즘 센싱 / 예측 모델 센싱 / 예측 알고리즘 통계 모델 UX 모델 시각화 알고리즘 상호작용 알고리즘 27

비정형 정보 분석 예시 비정형 정보 내용 분석 (예시) [Saltlux] 28

비정형 정보 분석 예시 비정형 정보의 구조화 (예시) [Saltlux] 29

비정형 정보 분석 예시 정형 정보와 비정형 정보의 연결 (예시) [Saltlux] 30

소셜 빅데이터 분석의 어려움 31

소셜 빅데이터 분석의 어려움 (실험) 집중해 주세요! ^^ 32

비정형 빅데이터 분석 시 고려사항 33

분석 품질 관리 요소 분석 목적 선정 비정형 텍스트 빅데이터로 부터 분석할 수 있는 주제인가? 분석 대상 출처의 선정 분석 목적에 적합한 출처인가? 분석 대상 범위의 선정 분석 대상 데이터의 선정 분석 방법의 선정 분석하고자 하는 관심 대상은? 분석 대상에 대한 관련 데이터의 선택 기준은? 어떤 분석 기법을 사용할 것인가? 확보/ 공급 언어 자원 분석의 수행 자동화된 분석 품질의 유지와 향상을 위해 할일은? 분석 결과의 해석 분석 결과를 비즈니스에 어떻게 활용할 것인가? 34

분석 목적 선정 무엇을 관찰하고 싶은가? 예) 정치인에 대해서 사람들이 정치인에 대해 궁금해 하는 것? 유명한 정치인은? 각각의 채널(트위터, 블로그)에서 스타는 누구일까? 내가 좋아하는 정치인과 싫어하는 정치인의 비교? 정치인에 대해 주로 이야기하는 이슈는? 사람들이 어떻게 이야기하고 있는지? 제품과 브랜드의 경우는? 35

분석 대상 출처의 선정 어떤 미디어(여론의 출처)를 선택할 것인가? Push Media vs. Feedback Media 여론의 절대적 규모 여론의 신뢰도 여론의 분포 공적 미디어 vs. 사적 미디어 프라이버시 분석 대상 소셜 미디어 블로그 카페 트위터 미투데이 페이스북 카카오톡 라인 36

분석 대상(범위)의 선정 분석하고자 하는 대상(범위)의 선정 전체 인물 vs. 관심 인물 전체 제품 vs. 관심 제품 전체 사건 vs. 관심 사건 전체 기간 vs. 관심 기간 전체 지역 vs. 관심 지역 품질관리의 비용대비 효과를 고려 37

분석 대상 데이터 확보/공급 기업 내 데이터 인쇄물 텍스트 입력 (자동/수동 검수) 디지털 파일 텍스트 추출 외부 데이터 웹 수집(크롤링) 정보 구조 해석(Wrapping) 텍스트 추출 Open API (개방형 API) 정보 해석 텍스트 추출 데이터 공급 계약 정보 해석 텍스트 추출 38

분석 대상 데이터 확보/공급 39

분석 대상 데이터 확보/공급 품질확보를 위한 고려사항 분석대상을 모두 포함하는 가? 범위: 대상, 기간 분석 필요시점에 확보/공급이 가능한가? 적시성 : 분석된 결과가 적시에 제공되어 활용될 수 있는가? 분석이 가능한 형태로 제공되는가? 표준 텍스트 형태 일부 PDF의 경우 한글 추출이 불가능함 40

분석 대상 데이터 선택 검색 기술을 활용 분석 대상 데이터의 일관성과 공정성 확보 동일한 조건에서 분석 대상 데이터 선택 가비지 데이터 제거를 위한 조건식 부여 의원 OR 의원님 OR 후보 OR 한나라 OR 당선 OR 재선 OR 공약 OR 투표 OR 진보 OR 보수 OR 정부 OR 지지율 OR 당론 OR 시민 OR 친박 OR 친이 OR 보선 OR 재보선 OR 민주노동당 OR 야당 OR 여당 OR 비례대표 OR 지역구 OR 국회위원 OR 국회 OR 정치 OR 선거 OR 민심 OR 정당 OR 민주 OR 무소속 OR 자유선진당 OR 미래희망연대 OR 통합진보당 OR 창조한국당 OR 민주통합당 OR 한나라당 OR 새누리 가수, 자동차, 탑기어, 노래, 음악, 레이서, 쉐보레, 뮤지션 국회의원을 검색하기 위한 검색식의 예 (가수 김태원) 41

분석 방법의 선정 관심도 분석 소셜 미디어 상의 노출 시간 변화와 정보량 변동에 따른 정규화 대상 미디어 별 가중치 설정 긍정/부정 분석 (호감/비호감 분석) 연관 주제 42

분석 결과의 해석 지수화의 한계 매일 변화되는 모습, 즉 동적인 변화가 적음 사용자에게 흥미를 주기에는 어려움 스토리의 발견 지수의 트렌드 연관 주제 및 정보 분석가의 분석 관점과 목적 43

언어자원의 품질 텍스트 분석(검색과 마이닝) 형태소 분석, 특성추출, 자동 군집, 자동 분류, 자동 요약, 토픽 연관성 분석, 개체명 분석, 감성(평판) 분석 언어 자원 텍스트 분석의 품질의 핵심 기본 언어자원 말뭉치 (코퍼스, Corpus), 기계사전, 형태소 사전, 구문 분석 사전, 시소러스 사전, 대역어 사전 관리 대상 언어자원 이형태어 사전, 개체명 사전(인물, 사건, 지역 ), 감성어 사전, 감성 분류 규칙 44

언어자원의 품질 45

언어자원의 품질 46

언어자원의 품질 47

언어자원의 품질 언제 관리해야 하는가? 시스템 구축 시점 vs. 시스템 운영시점 누가 관리해야 하는가? 시스템 개발팀 vs. 분석 전문가 그룹 vs. 시스템 운영팀 얼마나 관리해야 하는가? 분석 목적과 대상을 고려하여 시기와 범위를 결정 어떻게 관리해야 하는가? 엔진 수준 vs. 관리 시스템 수준 vs. 사용자 시스템 수준 48

전통적인 분석 vs. 빅데이터 분석 전통적인 분석 Business : 질문이 무엇인지를 결정 IT : 질문에 맞도록 데이터를 구조화 함 예 : 월간 영업 보고, 수익성 분석, 고객 조자 빅데이터 분석 IT : 창의적 발견이 가능한 플랫폼을 제공 Business : 어떤 질문이 가능할 지 탐구하고 탐색함 예 : 브랜드 감성, 제품 전략, 최대 자산가치 활용, 위험 예방 Infotec 2012, Jeff Zakrzewski, Vice President Sogeti USA 49

비정형 정보 분석 아키텍처 빅데이터 분석 플랫폼 심층 분석 서비스 기대 효과 소셜 데이터 기업 데이터 금융 데이터 통신 데이터 안보 데이터 의료 데이터 생산 데이터 언어 자원 확보/ 공급 분석 서비스 응용 및 시각화 분석 워크플로우 시스템 분석 서비스 컴포넌트 트랜드, 분류, 군집, 사회망, 인물, 감성 분석 기술 인프라 자연어처리, 기계학습, 통계, 시맨틱/추론 데이터 수집/통합/관리 인프라 분산, 병렬처리 인프라 하둡, NoSQL(HBASE, mongodb, ) 클라우드 컴퓨팅 인프라 도메인 특화된 분석 모델 사회, 시장 트랜드 분석 고객, 시민 목소리 분석 제품, 서비스 평판 분석 경쟁자 모니터링, 분석 사업 리스크 감지, 분석 부정 사용자, 비리 감지 생산 시스템 모니터링 실시간 마케팅 최적화 경쟁 전략 최적화 동적 비용 최적화 신 사업, 정책 발굴 위험 조기 감지 사전 대응 생산 시스템 최적화 * 품질유지와 개선을 위해서는 지속적 관리가 필요함 [Saltlux] 50

11.05 11.07 11.09 11.11 12.01 빅데이터 비즈니스 전략 세미나 소셜 빅데이터 분석 인프라 수집/분석 클라우드 규모 : 약 500 CPU Cores, 1,800 GB Ram, 230TB HDD 수집 및 저장 클라우드 서버 약 80대 (7개의 랙 사용) 분석 클라우드 서버 약 30대 (3개의 랙 사용) 전체 약 110대 (가정용 PC의 약 200~300배 컴퓨팅 파워) 원시 소셜 데이터 : 총 3억 건, 약 1.7 TB (2012월 8월 현재) 수집 속도 : 200만 건 / 일 이상 수집 방식 : 하이브리드 방식 (웹수집 + 오픈API) 저장 구조 : 클라우드 (NoSQL + 분산파일시스템) + 데이터 3중화 남서울대학교 IDC 미디어 수집 건수 용량 뉴 스 1,931,536 27 GB 블로그 58,499,109 1,500 GB 트위터 197,301,148 160 GB 미투데이 42,321,834 30 GB 200,000 150,000 100,000 50,000 0 전체 뉴스 총 계 300,053,627 1,717 GB 51

활용 서비스 소개 52

지니어스(Ziny.us) 53

지니어스(Ziny.us) 보는 즐거움 모으는 즐거움 나누는 즐거움 54

스마트 큐레이션 직관 과 통찰 비용 과 생산성 논 리 감 성 대용량 처리 이 성 창 조 인간과 로봇의 협력을 통한 감성 소통 서비스 반복적 업무 스마트 큐레이션 55

스마트 큐레이션 아티클 출판 아티클 학습 관심 콘텐츠 제시 56

감사합니다. 최광선 / 솔트룩스 전략사업본부 kschoi@saltlux.com 57