Opinion Mining & Text Mining at SKPlanet : 대용량텍스트마이닝기반의평판분석, 큐레이션, 추천 Young-Sook Hwang youngsook.hwang@sk.com 2013. 11. 14
Table of Contents Introduction Text Mining & Opinion Mining? Background of OMP Overview of OMP Core Technologies Architecture of OMP Natural Language Processing Document Clustering & Categorization Topic Detection & Sentiment Analysis Keyword Analysis Opinion Driven Search Applications Pickat SeekRet T-store 영화추천 BINS(Business Insight System)
Introduction Text Mining 방대한텍스트데이터를수집, 자연어처리, 기계학습, 통계학등의기술을적용, 단순한정보검색이상의의미있는정보를추출, 가공하여제공하는기술 기반기술 Crawling Distributed Processing Machine Learning Text Preprocessing Natural Language Processing Ontology Construction 요소기술 Info. Retrieval Text Clustering Text Classification Sentiment Analysis Keyword Analysis Info. Extraction Summarization 응용기술 Opinion Mining Metadata Construction Contextual Advertising Question Answering Semantic Web Agent System
Introduction Opinion Mining 커뮤니티, 블로그, SNS 등다양한온라인채널에서발생하는사용자의견정보를수집, 분석하여특정주제를대상으로평판을분석하는기술 SKT 용 T map을설치하고지금까지 2회사용해봤습니다. 구동이원활하고안정적입니다. 이번에풀린윈도우폰용은메뉴등이단출합니다만, 미출시단말에대해지원해주어고마울따름입니다. The tilt and swivel LCD of PowerShot S3 is awesome. 스마트소비자를위한상품리뷰분석및검색 & 추천을연계한 e-commerce 캐논 600D 생각보다가볍고선명한화질은정말마음에들더군요 Subject Opinion QA detection Feature Opinion Mining Opinion summarization Opinion Retrieval identification Opinion Polarity measurement 고객관심과평판정보를연계, 편의성과재미를가미한 Marketing 소셜모니터링, 고객분석, Market Analytics 에기반한 Business Intelligence
Introduction 서비스이용 User Behavior E-Commerce 분야에서사용자구매패턴을분석한결과, 상품정보탐색, 여러채널별평판탐색및분석, 최종가격비교로이어지는 User Behavior 를보이고있으며상품정보및평판탐색시간증가등불편함이존재함 구매 Needs 구매 Needs 일반정보탐색 By User 기능 일반정보 평판정보 가격정보 검색 평판정보수집 By User 평판 기능평판가격 가격비교 가격 의사결정 의사결정 사용자구매의의사결정에있어평판정보및일반상품정보의통합적인제공이필요함
Introduction Background of OMP 결과로나온소스들을일일이들어가서읽어보고별도로정리가필요함 채널이나리뷰작성자가과연믿을만한지어떤지정보가없음
Introduction Background of OMP 관련된정보를클릭하여읽어보아도원하는답을얻기가어려움 답이있어도원하는수준의답이아님 작성자가과연믿을만한지알수가없음
Introduction Background of OMP Product 가격대비성능이좋은가습기
Introduction Background of OMP
Introduction Overview of OMP Customer Needs 한곳에서편하게다양한채널의믿을만한평판정보를얻을수없을까? 편의성제고신뢰도 / 다양성제공대용량처리 One-Stop 서비스 - 원하는정보를한곳에서일목요연하게요약 / 정리하여제공가능 수집채널의다양화 - 다채널대용량데이터수집제휴업체의리뷰데이터, 블로그, 커뮤니티, 뉴스, SNS 대용량수집및저장 -Hadoop 기술을이용한대용량데이터의분산수집및저장을통해 Scalability 확보 Simple Interface - 직관적이고쉬운 UI 구성이가능한다양한서비스 API 제공 지원언어확장 - 한국어, 영어등 평판검색 - 효율적인평판검색및다양한서비스 API 제공을위해다차원색인 효율적리소스 / 품질관리 - 사전및 DB 리소스관리도구 - 품질개선학습도구 신뢰도높은평판분석 - 자동분류와주제적합성판별 - 체계적인감성지식관리 - 정교한언어처리및분석기술 Global Scale Business 지원 -대용량의해외리뷰문서수집및분석을통해 Global Scale Business 수행가능
Core Technologies Architecture of OMP Crawler NLP & Text Mining 검색 & Service API News 수집환경 자동분류데이터 지식사전 Blog Twitter 1 수집 3 자동분류 4 감성분석 5 키워드분석 색인 7 서비스 API Cafe 2NLP ( 형태소분석, 청킹, 개체명인식, 구문분석 ) Etc. HBase 수집데이터 분류결과 감성분석결과 HDFS 키워드데이터 색인볼륨 USER
Core Tech. NLP 원문 문장분리, 띄어쓰기 & 철자교정 형태소분석 & 태깅 복합명사 & 개체명인식 복합용언구및양태분석 윤남텍가습기세척이쉬워마음에들어요디자인은좀더예뻣으면... 용량도조금더크면더좋을것같네요 ~ 윤남텍가습기세척이쉬워마음에들어요. 디자인은좀더예뻤으면... 용량도조금더크면더좋을것같네요 ~ 윤남텍 / 고유명사가습기 / 명사세척 / 명사 + 이 / 조사쉽 / 형용사 + 어 / 연결어미마음 / 명사 + 에 / 조사들 / 동사 + 어요 / 어미 +./ 문장기호디자인은좀더예뻤으면... 용량도조금더크면더좋을것같네요 ~ [ 윤남텍 / 고유명사가습기 / 명사 ]/ 상품명세척 / 명사 + 이 / 조사쉽 / 형용사 + 어 / 연결어미마음 / 명사 + 에 / 조사들 / 동사 + 어요 / 어미 +./ 문장기호디자인은좀더예뻤으면... 용량도조금더크면더좋을것같네요 ~ [ 윤남텍 / 고유명사가습기 / 명사 ]/ 상품명세척 / 명사 + 이 / 조사쉽 / 형용사 + 어 / 연결어미마음 / 명사 + 에 / 조사들 / 동사 + 어요 / 어미 +./ 문장기호디자인 / 명사 + 은 / 조사좀 / 부사더 / 부사예쁘 / 형용사 + 었으면 / 어미 +.../ 말줄임기호용량 / 명사 + 도 / 조사조금 / 부사더 / 부사크 / 형용사 + 면 / 어미더 / 부사좋 / 형용사 + 을 / 어미것 / 의존명사같 / 보조용언 + 네요 / 어미 ~
Core Tech. Doc. Classification 수집기에서실시간으로수집되는비정형문서들을정의된카테고리체계로자동분류하는기술로, 군집화기술을활용하여분류기학습데이터를효율적으로구축함 군집화및랭킹 대표문서추출 통계기반자동분류학습기 수집문서 카테고리관련수집문서 카테고리관련문서검색및수집모듈 News Blog, Cafe SNS 관리자에의한학습문서승인 분류학습집합 자동분류학습결과 카테고리별주제어사전 자동분류기 분류결과 주요기능및특징 1 Hybrid Categorization 기술 2 지속적인카테고리확장편의성을위해반자동학습집합구축및관리도구연동
Core Tech. Topic Detection & Sentiment Analysis 감성분석은감성지식기반의패턴기반방법론과기계학습방법론을혼용, 문서에표현된의견을주제어사전과감성사전에기반하여분석하며, 지식재사용성을고려하여계층적지식관리체계를설계 / 구축함 1 단계 2 단계 3 단계 Catetory1 Catetory1-1 Catetory1-1-1 Catetory1-1-2 카테고리분류 주제어사전 주제어사전 주제어사전 주제어인식 감성사전 감성사전 Aspect 감성분석
Core Tech. Keyword Analysis 다양한채널로부터수집된문서의주요키워드를추출하여, 분석한결과를채널 / 카테고리에따라다양한형태로가공하여제공하는기술 급상승-이슈키워드분석 : 단위시간 ( 시간 / 일 / 주 ) 내급상승 / 이슈가되고있는키워드분석 시계열분석 : 키워드의기간별관심도변화및긍부정변화율등의정보를제공 연관키워드분석 : 특정키워드를기준으로연관된키워드들의네트워크를구성하여제공 blog news café sns 애플아이폰 5 sk텔레콤 애플아이폰 5 캐리어 아이폰4 스마트폰 sk텔레콤 퍼펙트매치 아이폰4s lg전자 아이폰4 미스터피자 아이패드 아이폰4s 스마트폰 애플바베치킨피자 sk텔레콤 갤럭시노트 공동구매 sk텔레콤 아이튠즈 갤럭시 갤럭시노트 요금혜택 갤럭시 갤럭시s3 갤럭시s3 출장개통 갤럭시노트 lg유플러스 아이폰4s 아이엠스쿨 보호필름 방송통신위원회 보호필름 예약가입진행 그립감 애플코리아 예약판매 아이폰4 안드로이드 이동통신 보상기변 한정판케이스 갤럭시s3 애널리스트 삼성전자 트윅스 [ 아이폰 5 관련이슈키워드분석 : 2013.01] [ 공기청정기관련연관키워드네트워크분석 ]
Core Tech. Opinion Driven Search
OMP 적용사례 Pickat Pick@t Social Network 기반의생활정보공유서비스로 상황 / 위치에따라이용자의 Context에적합한지역컨텐츠를제공하는모바일앱서비스 OMP 활용 POI 관련문서수집, POI별감성분석을통해대표속성별긍 / 부정도측정 POI 와테마 ( 서비스주제어 ) 를자동매핑하여, POI 메타정보를 Rich하게만듦 [ 테마별 POI 매핑및랭킹 ] [ POI 감성랭킹및대표속성별감성분석 ]
OMP 적용사례 SeekRet OMP: Opinion Mining Platform Seekret API 급상승 / 이슈제품및 POI 조회 Crawler Index Text Mining HBase Hadoop 제품및 POI 감성검색 카테고리별제품및 POI 조회 요약 / 상세 / 비교정보검색 Entity-Driven Opinion Summary 실시간리뷰문서수집, 감성분석, 키워드분석및실시간색인 질의연관키워드및관련상품의평판요약정보와근거리뷰제시 다양한형태의사용자질의지원및그에적합한검색결과제공 - 자연어기반감성검색, 비교검색 - 검색범위내스크롤바를이용한관심속성가중치제약검색
OMP 적용사례 영화추천 User Modeling 영화추천 User / Topic 정보수집 자연어처리적용 성향분석 ( 취향및관심사 ) Service API ( 추천, 검색, 광고, 타겟팅 ) 정보수집 : 댓글, 메타, 별점, 구매로그 자연어처리적용 토픽모델링, 감성분석, 키워드추출 추천
OMP 적용사례 BINS OMP는 Biz Process 전과정에서적용가능하나, 우선마케팅 / PR/CS 등 4개분야를대상으로 SKP의 Business Insight 발굴및 Business Intelligence에활용 OMP 활용가능영역 주요활용분야 전략 인사관리 시장동향파악 ROI 측정 Risk 대응 미래예측 평판증대 Privacy 보호 Finance 연구 / 생산 마케팅 마케팅 PR CS 인물정보 CS/ 고객관리 홍보 /PR Trend 프로모션효과 기업 / 브랜드경쟁관계 상품 / 서비스경쟁관계 Media 분석 평판분석 리스크분석 SNA 분석 VOC 분석 고객요청사항 전문채널정보관리 온라인히스토리 온라인이미지 인물평가분석 비교분석
감사합니다 Q&A