비정형텍스트로부터감성정보추출 AIEXPO 박진우 / 기술개발본부장 INSERT LOGO
목차 I Overview II 감성분석방법 III 감성분석시고려요소 IV Diquest Sentiment Analyzer 소개
I. Overview Opinion mining (Sentiment Analysis) Analysis the sentiment of a person towards a topic Environment Reviews, Forums, Blogs, Micro-blogs의활성화대중매체 1인매체제품선택시타인의경험중시 SNS등을통한급속전파 Practical Use Idea Generation Customer feedback flame detection Marketing research 3
II. 감성분석방법 1. 분석단위에따른구분 Document Level Sentence or Phrase level Entity and Feature/Aspect Level Determine overall sentiment in document Each document focuses on a single subject? Each document contains a single opinion? Determine overall sentiment in sentence Each sentence focuses on a single subject? Each sentence contains a single opinion? A document has many opinions about many entities. 문서나문장의구분없이특정평가대상 (entity) 과평가기준 (aspect or feature) 별로감성을추출 4
II. 감성분석방법 2. Document Level Analysis 네이버긍정부정검색 5
II. 감성분석방법 3. Entity-Aspect Level Analysis 닐슨버즈메트릭스의 BAM 6
II. 감성분석방법 Statistical Approach Rule based Approach Syntactic Parser Approach most cost-effective, robust and adoptable in other domain hard to ensure high quality just can classify (good or bad ) generally implemented by using statistical classifier is constructed through linguistic knowledge incorporated, well-made pattern is highest quality, if patterns are sufficient and good but, hard to construct patterns more cost-effective than Rule based approach higher quality than statistical approach dependent on a parser s ability 7
III. 감성분석시고려요소 01 02 03 Opinion 의구성요소 Holder(Writer) 의특성 출처 (Source) 별특성 04 Target(Entity or Subject) 의특성 05 Aspect(Feature or Object) 의특성 06 Emotion(Predicate) 특성 07 구문의특성 8
III. 감성분석시고려요소 1. Opinion 의구성요소 Opinion 9
III. 감성분석시고려요소 2. Holder(Writer) 의특성 Person or Group Person Author itself or Group blog, reviews 텍스트상에언급안됨저자의메타정보를이용하여다양한분석가능 ( 성별, 연령별...) Citation 내동생은갤럭시 s 가더이쁘다네요. 난아이폰이이쁜거같은데, 여자친구는별로라네요. Only fact News, formal reviews 가격은아이폰이갤럭시 S 에비해더높다. 10
III. 감성분석시고려요소 3. 출처 (Source) 별특성 텍스트의정형성 news forum micro blog 텍스트의양 11
III. 감성분석시고려요소 4. Target(Entity or Subject) 의특성 hierarchical subjects & synonym 제품 가전제품 자동차 핸드폰 냉장고 갤럭시 S (SHW-M110S) 아이폰 (iphone) 정치인 인물 연예인 스포츠맨 Problem ellipsis anaphora 12
III. 감성분석시고려요소 5. Aspect(Feature or Object) 의특성 (1/2) dependent on a subject 자동차 핸드폰 연비승차감안정성제동력... 디자인편의성가격... 메모리베터리수명화질통화품질... 13
III. 감성분석시고려요소 5. Aspect(Feature or Object) 의특성 (2/2) hierarchical features & synonym 자동차평가요소 디자인 ( 모양 ) 외관 ( 외양 ) 내관 ( 내양 ) 제동력 컬러 ( 색깔 ) 장식 성능 주행성 출력 Problem 생략 : 아이폰의디자인이이쁘다. 아이폰이이쁘다. 14
III. 감성분석시고려요소 6. Emotion(Predicate) 특성 (1/2) 종류 감정 (emotion) - 아이폰이이쁘다. 평가 (appraisal) - 아이폰이갤럭시s보다무겁다. 사실 (fact) - 갤노트산지하루만에 OS가다운됬다. 태도 (attitude) - 나도아이패드사고싶다. 형태수식형 : 예쁜디자인서술형 : 디자인이예쁘다. 15
III. 감성분석시고려요소 6. Emotion(Predicate) 특성 (2/2) 의미의변형 target dependency - 핸드폰이크다 vs. 자동차가크다 feature dependency - 가격이높다 vs. 연비가높다 adverb에의한변형 - 강조 : 디자인이매우이쁘다. - 약화 : 디자인이조금이쁘다. - 부정 : 디자인이너무화려하다. 16
III. 감성분석시고려요소 7. 구문의특성 (1/2) 어순의다양성 SOP : 아이폰은디자인이이쁘다. PSO : 앙증맞은아이폰의디자인 POS : 앙증맞은디자인의아이폰 OPS : 디자인하면역시앙증맞은아이폰 17
III. 감성분석시고려요소 7. 구문의특성 (2/2) 복합구문 병렬구문 - 볼보와포르셰는뛰어난디자인에서좋은평가를받는다 - 제네시스가디자인과성능면에서모두뛰어나다. - 이쁘고앙증맞은디자인 - 제네시스가비싸지만그만큼값어치를한다. - 모닝은디자인이이쁘고, 마티즈는연비가좋다. 비교구문 - 연비는모닝보다마티즈가높다. - 모닝이디자인이이쁜반면에연비는마티즈가좋다. 18
IV. DISA(Diquest Sentiment Analyzer) 01 System Architecture 02 DISA1 (Rule based Approach) 03 DISA2 (Syntactic Parser based Approach) 19
IV. DISA(Diquest Sentiment Analyzer) 1. System Architecture(1/2) Contents Collector Contents DB Search Engine Related Contents Sentiment Analyzer Statistical Analyzer Reputation 20
IV. DISA(Diquest Sentiment Analyzer) 1. System Architecture(2/2) 21
IV. DISA(Diquest Sentiment Analyzer) 2. DISA1(Rule based Approach) Example> 출력이우수할뿐만아니라가격이나무랄데없어 Lexical POS Tag Mean Tag Entity Tag 출력 ncp @power $CAR_SPEC_HIGH 이 j 우수하ㄹ ncp @emo_pos_ncp@xsp@efa $EMO_POST_POSITIVE 뿐만아니라 % 뿐만 % 아니 % 라 $AND 가격 ncn @price $CAR_SPEC_LOW 이 j 나무라ㄹ데없어 pv pa % 나무라 % ㄹ % 데 % 없 % 어 $EMO_POST_POSITIVE Pattern 1 2 Subject No subject No subject Object 출력 가격 Predicate 우수하ㄹ 나무라ㄹ데없어 Appraisal 출력 : 우수하ㄹ =1 가격 : 나무라ㄹ데없어 =1 < Matching Rule > $CAR_SPEC_HIGH $EMO_POST_POSITIVE $AND $CAR_SPEC_LOW $EMO_POST_POSITVE 22
IV. DISA(Diquest Sentiment Analyzer) 3. DISA2(Syntactic parser based Approach)(1/3) Feature Augmenter Syntactic Parser Triple Extractor morph Tagged S S WPDIC NE Tagger Phrase Tagged Feature Augmented tag N NP N NP VP VP S N NP N NP VP VP S Assign phrases by word part dictionary definition. Feature information are added and modified by specified tags and NE tags. According to parsing rules which are made based on phrase structure grammar, build parsing tree of the given sentence. Traverse the tree in order to find out triples. Unbounded triple components are bound by searching child nodes of the tree. 23
IV. DISA(Diquest Sentiment Analyzer) 3. DISA2(Syntactic parser based Approach)(2/3) Example> 아이폰은디자인은좋은데음질은나쁘고가격은비쌉니다. Word-part POS tag Phrase assign NE augment 아이폰은 아이폰 (ncn) 은 (jct) NP[Obj,Noun] NP[Sub1,Noun] 디자인은 디자인 (ncp) 은 (jct) NP[Obj,Noun] NP[Obj1,Noun] 좋은데 좋 (pa) 은데 (eand) VP[Desc,And] VP[Pre1,Pos,Desc,And] 음질은 음질 (ncn) 은 (jct) NP[Obj,Noun] NP[Obj2,Noun] 나쁘고 나쁘 (pa) 고 (eand) VP[Desc] VP[Pre2,Neg,Desc,And] 가격은 가격 (ncn) 은 (jct) NP[Obj,Noun] NP[Obj3,Noun] 비쌉니다 비싸 (pa) ㅂ니다 (ef) VP[Desc] VP[Pre3,Neg,Desc,And] 24
IV. DISA(Diquest Sentiment Analyzer) 3. DISA2(Syntactic parser based Approach)(3/3) VP[Sub1, Obj5, Pre5] 15 99 S[Sub1, Obj5, Pre5] VP[Sub1, Obj1,Pre1,Pos,And] VP[Sub1, Obj4, Pre4, And] 16 Sub1 Sub1 7 VP[Obj1, Pre1, Pos, And] VP[Obj2, Pre2, Neg, And] VP[Obj3, Pre3, Neg] 7 7 7 아이폰은 디자인은 좋은데 음질은 나쁘고 가격은 비쌉니다 NP[Sub1] NP[Obj1] VP[Pre1,Pos,And] NP[Obj2] VP[Pre2,Neg,And] NP[Obj3] VP[Pre3,Neg,And] Sub1( 아이폰 ) Sub1( 아이폰 ) Sub1( 아이폰 ) Obj1( 디자인 ) Obj2( 음질 ) Obj3( 가격 ) Pre1( 좋은 ) Pre2( 나쁘고 ) Pre3( 비쌉니다 ) 25
THANK YOU 기술로변화를이끄는기업 - 다이퀘스트 서울시구로구구로 3 동 222-8 코오롱빌란트 2 차 501 호 Tel. 02-3470-4300 Fax. 02-3470-4301 박진우 / 기술개발본부장 E-mail. jwpark@diquest.com 홈페이지 www.diquest.com 블로그 http://blog.diquest.com/ INSERT LOGO