검색, Big Data에서 Big Insight로 기업, 미래를 발견하다! 2012. 2. 9 와이즈넛 전략기획실 강용성 상무
申. 聞. 鼓 *신문고 1401년 백성들의 억울한 일을 직접 해결하여 줄 목적으로 대궐 밖 문루( 門 樓 ) 위에 달았던 북. [출처] 네이버 백과사전
핸들에서 연기가 나다니.... / 중략 / 제프 자비스(Jeff Javis)란 유명 블로거는 / 중략 / [이뉴스투데이 2010/11/6 ]
現 在 의 申. 聞. 鼓
Agenda 01. Big Data 출현에 주목해야 하는 이유 02. 의사결정을 위한 데이터 분석기술 03. WISEnut s CASE STUDY
01. Big Data 출현에 주목해야 하는 이유
1.1 빅 데이터 " 기기와 사람이 생성한 컴퓨터 시스템 로그 파일, 전자금융거래, 웹검색 스트림, 이메일 메타데이터, 검색엔진 쿼리, 소셜네트워킹 활동 등에서 수집되는 엄청난 양의 정보를 지칭 " [source: Lucas Mearian Computerworld] " 인터넷 이용 환경의 발전은, 데이터의 폭발적 증가를 필연적으로 이끌고 있다. 현재 매월 300억 개의 콘텐츠가 페이스북상에서 유통되고 있다. 이렇게 폭증하는 데이터를 가리켜 빅 데이터(Big Data)라 명명하며.. " [Mckinsey Global Institute(MGI), 2010] " 기존의 관리 분석 체계로는 감당하기 어려운 막대한 데이터를 가리켜 빅 데이터(big data) 라고 부른다 " [삼성경제연구소, 정보홍수 속에서 금맥(金脈)찾기-빅 데이터 분석과 활용 보고서 中, 2010] 7
8 1.2 정보 플랫폼의 진화 정보시스템 통합 고도화, Mobile, Cloud, SNS 등 정 보 매 체 ( 多 ) 제타바이트 시대 웹사이트 방문기록, 검색 사이트 통계, 소셜미디어 소통기록 같은 정제되지 않 돌입 은 온라인 이용 현황 데이터 [WEB2.0] New Paradigm [Big Data] Business Paradigm shift 정형/비정형 데이터의 폭증 전세계 데이터는 매년 40% 증가 [매체의 발달] 정보의 증가 검색의 중요성 대두 McKinsey (2011. 05) Big Data: The next frontier for innovation, competition, and productivity ( 小 ) 비정형 데이터( 多 )
<출처 : KRG Impact 2012 / 2012년 IT시장전망 세미나> 1.3 빅데이터 주목해야 하는 이유 금융권 (은행/ 카드/ 보험/ 증권) 유통 / Retail 의료 / 제약 제조 빅데이터 활용 분야 * 고객 평판관리, 고객세분화를 통한 맞춤형 마케팅 * 마케팅 효과 측정 * 소비자 의견 활용 * 내외부 규정 괸리 * 복잡 다양한 상황의 상품 내출 관리 * 로그데이터 모니터링 * 위치기반 활용 실시간 마케팅 전개, 시간-예약 등 * 프로세스 개선, 데이터 실험 분야 * 딜러버리 현황, 공정 품질 관리 * 내외부 규제 관리 * 프로세스 개선 및 공정 및 품질 관리 * 평판관리, 소비자의 의견 활용, 공정 품질 관리 등
1.4 인사이트; 비즈니스 기회 및 가치 창출 10
02. 의사결정을 위한 데이터 분석기술
2.1 미래 예측을 위한 통찰 정형 데이터 (15%) 비정형 데이터 (85%) SAS SPSS 레볼류션R Data Mining Text Mining 검색 마이닝 분석 합리적 의사결정 12
<출처 : KRG Impact 2012 / 2012년 IT시장전망 세미나> 2.2 와이즈넛 ; 빅데이터 관련 기술 처리기술 분석기술 Text Mining Text Mining Sentimental Analysis 비정형 텍스트 데이터에서 가치와 Data Compression 의미가 있는 정보를 찾아내는 기술 In-Memory Clustering Clustering / Classification Classification 유사성 등의 개념을 바탕으로 데이터를 Collaborative Filtering 몇 그룹으로 분류하는 기술 Similar Document Search Sentimental Text Mining Analysis Sentimental Analysis 비정형 데이터의 Data 텍스트 감성을 Compression 데이터에서 분석하는 가치와 기술, 의미가 현재는 데이터의 있는 긍정/부정/중립 감성을 정보를 분석하는 찾아내는 분석이 기술, 주 현재는 많은 긍정/부정/중립 양의 데이터를 분석이 효과적으로 주 처리할 수 있는 압축기술 Clustering Collaborative / Classification Filtering Collaborative Filtering 데이터에 유사성 등의 대한 개념을 선호도와 바탕으로 관심 표현을 Similar Document Search 데이터를 바탕으로 몇 데이터에 그룹으로 비슷한 대한 분류하는 패턴을 선호도와 기술 가진 관심 데이터를 표현을 식별하는 바탕으로 특정분서에 기술 비슷한 대해 패턴을 유사/관련된 가진 데이터를 문서를 식별하는 검색하는 기술 기술
14 2.3 와이즈넛; 소셜 모니터링 서비스 기업의 운영중인 트위터 또는 경쟁사 트위터의 구전확산 성과분석과 전체 트위터 공간에서 관심 대상(제품, 인물, 이슈 등)에 대한 주제와 주제로 삼는 빈도에 대한 분석 결과 제공 Twitter Analysis 고객사 운영 트위터 계정 및 경쟁사 트위터 계정의 성과 지표 (팔로잉/팔로어/트윗/리트윗) 트래킹 Keyword Analysis 약 200만 명의 국내(한글 사용) 트위터 계정의 트윗을 전수 수집하여 관심 대상에 대해 분석 서비스에 등록한 트위터 발행 트윗의 확산 (Retweet) 성과 측정 관심 키워드 별 트위터 구전 내용 트래킹 서비스에 등록한 트위터 계정과 커뮤니케이션이 활발한 트위터 계정 분석 관심 키워드에 대한 기간 내 화제(이슈) 키워드 분석 등 Expected Effects 트위터 상의 활동 성과 측정 및 트위터 상 구전 트렌드를 파악하여 트위터 커뮤니케이션 전략 수립
15 2.4 소셜모니터링서비스 ; Opinion Mining 인터넷상에 존재하는 소셜 기반 문서는 Sentiment가 포함된 복수 개의 단어로 이루어진 의미패턴 으로 평균 3.2개 존재, 이를 언어 처리 기술 및 의미 기술을 적용한 분석 시스템으로 자동 분석 Text Mining 비정형 텍스트 데이터에서 가치와 의미가 있는 정보를 찾아내는 기술 Sentimental Analysis 수집문서 Clustering / Classification 유사성 등의 개념을 바탕으로 데이터를 몇 그룹으로 분류하는 기술 Collaborative Filtering Document A 액정 이 작지만 선명해서 산에서도 통화 잘 되는데, 데이터요금 은 싸지 않죠 데이터의 감성을 분석하는 기술, 현재는 긍정/부정/중립 분석이 주 분석모델 데이터에 대한 선호도와 관심 표현을 바탕으로 비슷한 패턴을 가진 데이터를 식별하는 기술 Anycall 통화품질 Show 악세서리 액정이 선명하다, Positive 통화품질이 우수하다, Positive 데이터요금 비싸다, Negative 요금제 디자인 A/S 단순 키워드 매칭이 아닌, 의미패턴을 sentiment와 함께 분석
16 2.4.1 Opinion Mining Concept 인터넷 상에 존재하는 가능한 모든 BUZZ를 수집하여 조사하고, 의미 패턴을 자동으로 분석하여 그 결과를 제공함 인터넷 상에 존재하는 가능한 모든 BUZZ를 수집하여 조사하고, 의미 패턴을 자동으로 분석하여 그 결과를 제공함 STEP1 분석모델링 STEP2 수집 STEP3 자동분석 STEP4 리포팅 온라인BUZZ 분석을 위한 수집/분석 설정 검증된 수집시스템 활용 국내 최고 수준의 텍스트 마이닝 기술을 적용한 분석시스템 인터넷을 통한 직관적이고 사용하기 편리한 리포트 제공 관심 대상에 대한 문서만 정확히 수집 BUZZ-패턴 룰 구축 대용량 데이터를 안정적으로 수집 한국인터넷 특성이 반 영된 지능형수집 형태소 분석을 이용한 화제어, 신규 키워드 추출 단순 키워드가 아닌 이용자 언급 의미 표현 을 추출 온라인 서비스 주1) : 웹을 통한 상시적인 자동분석 리포팅 심층분석 리포트 제공 주1) 시스템에 의해 생성된 자동분석 결과를 웹서비스로 제공
2.4.2 Opinion Mining ; 분석 과정 분석과정은 수집 분류 추출 분석 으로 구성 수집 분류 추출 분석 블로그 필터링 패턴추출 정성분석 웹사이트 SNS 문서 분류 정량분석 리포트 생성 게시판 Delivery
2.5.2 Example 요 근래 제 주위에 계신 분들은 한국통신 메가패스를 많이 쓰시더군요. 저 역시도 집, 회사 모두 메가패스를 사용하고 있습니다. 서비스 모델 : ABC인터넷 1 2 하지만 속도가 불만스럽네요 그래도 고장신고하면 즉시 달 려오고..ㅋㅋ A/S도 괜찮은것 같습니다. 가격도 그럭저럭 저렴하고.. 3 4 다른 인터넷 서비스는 어떤지 궁금하군요. 더 좋은 인터넷 서비스가 있다면 알려주세요~ ;) 1 속도 불만스럽다 - 부정 2 고장수리 빠르다 - 긍정 3 A/S 만족스럽다 - 긍정 4 가격 저렴하다 - 긍정 [Opinion Mining 분석]
2.5.2 Example (실제예) 저도 메가패스사용자 입니다. 인터넷속도가 왜이렇게 느리죠? 카테고리 분석모형 (정량분석) 분석룰 KORNET 전용선 NESPOT MEGAPASS MEGAPASS PREMIUM MEGAPASS LITE MEGAPASS SPECIAL 하나로 쓰고있는데 다 른 분들도 이렇게 속 도가 안나오나요? 품질 속도 느리다 신청 설치 지연되다 서비스 AS 불친절하다 서비스 MEGAPASS NTOPIA AS 좋다 메가패스 속도 측정을 해보려고 하는데요.. 이 사이트 접속도 잘 안되고 무척 느리네 요.. 모델 구분 KT 하나로 데이콤 초고속인터넷 메가패스 하나포스 - 무선인터넷 네스팟 하나포스 프리 국제전화 001 005 002 - 품질 기타 서비스지역 속도 요금 불친절 넓다 좁다 빠르다 느리다 비싸다 저렴하다 [Opinion Mining 분석]
20 2.6.1 Opinion Mining 제공 서비스 * 키워드 분석 ; 200만 명의 국내(한글 사용) 트위터 이용자들의 트윗을 전수, 수집관심 대상(들)에 대해 트위터 상에서 얼마나 많이 이야기되고 재인용, 확산되고 있는지를 트래킹하여 언급된 트윗, 리트윗된 트윗정보를 기간별 조회 제공 기간별 각 아이템별로 설정된 관심 키워드가 언급된 트윗 수 각 아이템별로 설정된 관심키워드 가 언급된 트윗 수의 추이
21 2.6.4 화제어 분석 화제어 분석을 통하여 분석 대상에 대한 최신 이슈, 소비자 관심사, 매치업 경쟁사 등의 인터넷 구전 트렌드를 신속하게 확인 가능 화제어 분석채널 / 기간설정 선택한 분석대상에 대한 기간 내 화제어 순위 분석결과 좌측에서 선택한 화제어의 일별 건수 추이 및 연관어 분석결과 화제어 란 소비자들이 브랜드, 제품, 서비스, 인물 등에 대해 이야기할 때 함께 언급하 는 다양한 차원 (이슈, 기 능, 특징, 경쟁사 등) 의 키 워드로 함께 많이 언급될 수록 분석대상과의 연관도 가 높음
03. WISEnut s CASE STUDY
3.1 '컴백' 소녀시대, 강렬한 'the Boys'
3.2 '컴백' 소녀시대, 강렬한 'the Boys' 2011년 10월19일, 소녀시대가 컴백 The Boys 를 발표하자 마자 네티즌들이 폭발적 으로 호응하여 소녀시대에 대한 인터넷 게시물이 급증 The Boys 뮤직비디오가 공개된 10월 19일, 소녀시대 인터넷 구전의 양은 지난 2009년 1월 Gee 뮤직비디오 공개 때의 3배에 달함 소녀시대 인터넷 구전 수 일일 추이 (2007.01.01 ~ 2011.12.31) 2011.10.19 신곡 The Boy 뮤비공개 2008.07. 뮤직뱅크 텔미 2009.01. 신곡 Gee 공개
3.3 '컴백' 소녀시대, 강렬한 'the Boys' 소녀시대에 대한 인터넷 게시글에서 의미 있는 내용(이하 U-Story )만을 추 출 분석한 결과, 작년 5월부터 9월까지 긍정지수는 낮아지는 형태였으나, 10 월을 기점으로 긍정지수가 급격히 증 가하면서 소녀시대의 인기를 확인할 수 있음 [소녀시대 U-Story 항목 별 비중 (2011년 5월~2011년 12월)] [11/6/1] [11/8/1] [11/10/19] [11/5/1] [11/7/1] [11/9/1] [11/12/1] Positive율 버즈수
3.4 '컴백' 소녀시대, 강렬한 'the Boys' 소녀시대 U-Story 분석 결과, 외모 에 대하여 이야기하는 내용이 전체 중 60%에 달해 가장 많았으며, 다음으로 능력, 이미지 순으로 많이 언급된 것으로 나타남 [소녀시대 U-Story 항목 별 비중 (2011년 3월~2011년 12월)]
27 4.1 WISEnut Technical Roadmap 탐색 통합 협업 지능화 WISE Referee V2.0 Smart Search Productivity of Search Databases Files & Folders V1.0 Search Formula-1 Keyword Search Directory WISE CIMS Personal Search Social Search Folksonomy Link Search V4.0 Search Formula-1 WISE Classifier WISE KMA V5.0 WISE TEA V1.0 WISE Referee V2.0 WISE InfoFinder V2.0 V2.0 WISE DSE NLP Search Reasoning Search Semantic Search < Source - Radar Network > 1980-1990 1991-2000 2001-2005 2006-2010 2011-2020
28 4.2 WISEnut Technical View Faster Search Relevant Search Business Oriented Search 필요한 정보를 쉽고 빨리 찾아주는 검색 문서별 핵심키워드 추출 전문검색(FTR) 기술 중복문서 추출 기술 다양한 검색 범위/조건 설정 기능 다양한 검색결과 노출 기법 정교한 색인/랭킹기법 적용 및 최적화 문서별 태그 등록 (사용자 단) 지속적 검색품질/사전 모니터링 및 관리 미인지 연관 정보까지 폭 넓게 추천해주는 검색 키워드별 연관키워드 매칭 기술 키워드별 전문가(인물) 분석 주요 단어별 Auto-Hyperlink 적용 카테고리/문서종류별 분류 동시 적용 다양한 검색 범위/조건 설정 기능 적용 본문 내 입력키워드 하일라이팅 적용 개인별 검색 히스토리 저장 및 제공 지식전문가에 의한 연관 정보 필터링 기존의 문서필드 분류기준 정비 업무에 직접적 도움을 주는 정보를 직관적으로 제시해주는 검색 개인별 검색 패턴 분석 조직별 검색 패턴 분석 키워드별 전문가/전문조직 매칭 기술 검색패턴에 따른 개인/조직별 랭킹 최적화 의미에 따른 유사문서 분석 기술 유사도에 따른 클러스터링 기법 연관정보에 대한 다양한 시각화 개인별 검색패턴분석대상필드/데이터 확보 조직 분류 범주 및 기준 확정
감사합니다. 전략기획실 강용성 상무 E-Mail: scott@wisenut.co.kr