PowerPoint Presentation

Similar documents
290 정보과학회컴퓨팅의실제논문지제 24 권제 6 호 ( ) 1. 서론음성인식시스템은모바일디바이스의보편화로음성데이터에대한접근과확보가용이해짐에따라지난몇년간크게발전하였다. 화자식별 (Speaker Identification) 은개인성도의음성학적특징을모델링하고분류

DIY 챗봇 - LangCon

High Resolution Disparity Map Generation Using TOF Depth Camera In this paper, we propose a high-resolution disparity map generation method using a lo

논문제출양식

ch3.hwp

대학교육151호-합침

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

딥러닝 첫걸음

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

하나님의 선한 손의 도우심 이세상에서 가장 큰 축복은 하나님이 나와 함께 하시는 것입니다. 그 이 유는 하나님이 모든 축복의 근원이시기 때문입니다. 에스라서에 보면 하나님의 선한 손의 도우심이 함께 했던 사람의 이야기 가 나와 있는데 에스라 7장은 거듭해서 그 비결을

*논총기획(1~160)

슬라이드 1

김기남_ATDC2016_160620_[키노트].key

Naver.NLP.Workshop.SRL.Sogang_Alzzam

Reinforcement Learning & AlphaGo

DeepDive_ APT_....

PowerPoint 프레젠테이션

PowerPoint Presentation

R을 이용한 텍스트 감정분석

data driven_3.indd

PowerPoint 프레젠테이션

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN


15 홍보담당관 (언론홍보담당) 김병호 ( 金 秉 鎬 ) 16 (행정담당) 박찬해 ( 朴 鑽 海 ) 예산담당관 17 (복지행정담당) 이혁재 ( 李 赫 在 ) 18 (보육담당) 주사 이영임 ( 李 泳 任 ) 기동근무해제. 19 (장애인담당) 박노혁 ( 朴 魯 爀 ) 기동

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

DBPIA-NURIMEDIA

퇴좈저널36호-4차-T.ps, page Preflight (2)

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

4. 수업의 흐름 차시 창의 인성 수업모형에 따른 단계 수업단계 활동내용 창의 요소 인성 요소 관찰 사전학습: 날짜와 힌트를 보고 기념일 맞춰보기 호기심 논리/ 분석적 사고 유추 5 차시 분석 핵심학습 그림속의 인물이나 사물의 감정을 생각해보고 써보기 타인의 입장 감정

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

PowerPoint 프레젠테이션

자연언어처리

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

2 min 응용 말하기 01 I set my alarm for It goes off. 03 It doesn t go off. 04 I sleep in. 05 I make my bed. 06 I brush my teeth. 07 I take a shower.

빅데이터_DAY key

RNN & NLP Application

용어사전 PDF

PowerPoint 프레젠테이션

MVVM 패턴의 이해

Stage 2 First Phonics

Ch 1 머신러닝 개요.pptx

슬라이드 1

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

Hi-MO 애프터케어 시스템 편 5. 오비맥주 카스 카스 후레쉬 테이블 맥주는 천연식품이다 편 처음 스타일 그대로, 부탁 케어~ Hi-MO 애프터케어 시스템 지속적인 모발 관리로 끝까지 스타일이 유지되도록 독보적이다! 근데 그거 아세요? 맥주도 인공첨가물이

표상학습을이용한딥러닝이미지특성의범용분류성에대한실험적분석 지도교수장병탁 이논문을공학학사학위논문으로제출함 년 12 월 21 일 서울대학교공과대학컴퓨터공학부한동식 2016 년 2 월

Bitcoin_3.indd


1-1-basic-43p

_KF_Bulletin webcopy

TF_Dell x86_1..

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

< C0FCB8C15FC0A5BFEB2E696E6464>

텀블러514

본문01

MySQL-.. 1

야쿠르트2010 3월 - 최종

PowerPoint 프레젠테이션

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

공학석사학위논문 텍스트데이터를활용하는 추천시스템에서의행렬분해법 Matrix Factorization for Recommendation Systems Utilizing Text Data 2017 년 12 월 서울대학교대학원 전기 정보공학부 손동희

Lecture12_Bayesian_Decision_Thoery

논문제출양식

다중 곡면 검출 및 추적을 이용한 증강현실 책

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

4. 수업의 흐름 차시 수업모형에 따른 단계 단계 활동내용 요소 요소 유추 사전 인터뷰의 형식 소개하고 대상 짐작해 보기 Ex. My Mom 호기심, 몰입, 5 차시 관찰 핵심 가상의 인터뷰 꾸며보기 - 알고 있는 대상을 정하고 그 사람의 하루 생활 인터뷰로 만들어 보

(5차 편집).hwp

목차 AI Boom Chatbot Deep Learning Company.AI s Approach AI Chatbot In Financial service 2

May 2014 BROWN Education Webzine vol.3 감사합니다. 그리고 고맙습니다. 목차 From Editor 당신에게 소중한 사람은 누구인가요? Guidance 우리 아이 좋은 점 칭찬하기 고맙다고 말해주세요 Homeschool [TIP] Famil

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

Microsoft PowerPoint - 27.pptx

Kaggle 이란? 2010 년설립된빅데이터솔루션대회플랫폼회사 2017 년 3 월구글에인수 2

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

PowerPoint Template

04김호걸(39~50)ok

2

iPadApps_......

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

PowerPoint 프레젠테이션

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

Secure Programming Lecture1 : Introduction

DBPIA-NURIMEDIA

Introduction to Deep learning

PowerPoint 프레젠테이션

02본문

PowerPoint 프레젠테이션

4 : (Hyo-Jin Cho et al.: Audio High-Band Coding based on Autoencoder with Side Information) (Special Paper) 24 3, (JBE Vol. 24, No. 3, May 2019

12 김명섭 B-RN (2).hwp

43

Data Industry White Paper

< E20C6DFBFFEBEEE20C0DBBCBAC0BB20C0A7C7D12043BEF0BEEE20492E707074>

2011 <C560><B274><C5BC><B9AC><D3EC><D2B8> <CD5C><C885>.pdf

CTS사보-2월

1217 WebTrafMon II

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

서론

_KrlGF발표자료_AI


Transcription:

비윤리적 N 댓글분류를위한구문기반 CNN 과의미기반 LTM 의앙상블기법 부석준, 서수인, 김진영, 조성배 * 연세대학교컴퓨터과학과 sjbuhan@yonsei.ac.kr

순서 문제정의 사회적문제 : N의비윤리적댓글 기계학습을사용한비윤리적댓글분류 구문론적, 의미론적비윤리적댓글분류 관련연구 : 기존텍스트특징추출방법 방법 비윤리 N댓글분류기아키텍쳐와앙상블방법 M1: 전이학습을사용한 Character-level CNN 분류기 M2: 워드임베딩과 CNN-LTM 하이브리드분류기 실험결과 데이터셋및실험환경 정량적분석 : 분류기별분류정확도와전이학습효과 정성적분석 : t-ne 차원축소기법을사용한분류기분석 결론및요약 구문론적, 의미론적분류기의상호보완적관계 1

사회적문제 : N 의비윤리적댓글 문제정의 개인간의소통을위한 ocial Network ervice(n) 의약점 Cyberbullying: 사이버공간상에서타인을공격하는언어적폭력행위 N 의익명성으로인한사이버폭력증가 (Reynolds, 2011) 청소년중 43% 가사이버폭력피해경험 (Ybarra, 2010) 지난 10 년간의비윤리적언어폭력추세 (Google trend, 2017) 100 80 60 40 20 0 earch interest N 비윤리적댓글로인한사회적피해상황 2012년영국의 13세소녀에린갤러거사건 N에유포된본인의사진에달린수많은비윤리적댓글로인해자살 에린갤러거의언니또한같은이유로자살 비윤리적댓글로인한경제적손실연간 3조 6,000억추산 : 한국GDP 0.3% (IDG Tech Report, 2014) 2

기계학습을사용한비윤리적댓글분류 문제정의 최근 Natural Language Processing(NLP) 영역에서텍스트분류연구활발 단어로부터통계적의미를추출하는워드임베딩 (Mikolov, 2013) 언어를문자의시퀀스로구성된저수준신호로가정 (LeCun, 2015) 비윤리적댓글분류의어려움과기존기계학습방법의문제점 문제의어려움 의미론적 (emantic-level): 복잡한은유, 중의적인표현, 신조어 구문론적 (yntactic-level): 의도치않은오타, 의도적인문자교체 기존 NLP 연구의의미론 / 구문론적카테고리도입 기존기계학습방법을사용한비윤리댓글분류의문제점 텍스트로부터한가지특징만을추출 예시 : 단어의출현빈도, tf-idf 측정치, 단어간의 Cosine 유사성 3

구문론적 / 의미론적비윤리댓글분류 문제정의 문제정의 댓글의 Neutral/Unethical 2-classification 문제 문자또는단어의시퀀스와비윤리성 (0~1) 을맵핑하는함수작성 제안하는방법 ( 구문론적 / 의미론적비윤리댓글분류기의앙상블 ) 의의의 기존텍스트특징추출방법을개선한새로운특징추출방법제안 구문론적비윤리댓글분류를위한전이학습기법제안 인공지능학습시비윤리적댓글필터링 제안하는방법요약 구문론적 (yntactics), 의미론적 (emantics) 비윤리댓글분류기앙상블 문장의저수준특징으로부터구문론적비윤리성을모델링 문장의고수준특징으로부터의미론적비윤리성모델링 같은데이터셋을사용한방법중 tate-of-the-art 성능획득 (88.66%, 기존방법 82-84% 수준 ) 4

기존텍스트특징추출방법 관련연구 기존텍스트특징추출방법요약 Authors Method Description Turney, 2002 PMI-IR Compare the semantic orientation using predefined keywords Pang, 2002 BOW, VM Extracts features using predefined dictionary Mullen & Collier, 2004 PMI-IR, VM Combination of PMI-IR and machine learning algorithm Yun-tao, 2005 tf-idf Improved tf-idf approach using characteristic words Forman, 2008 tf-idf Improved tf-idf approach using BN Zhang, 2015 CNN Treat text as a kind of raw signal at character level 기존텍스트특징추출방법과의차이 yntactics: 인코딩한문자의시퀀스로부터추출한저수준시계열특징 emantics: 임베딩한단어의시퀀스로부터추출한고수준시계열특징 추출한구문론적 / 의미론적특징을모두사용하여비윤리댓글모델링 5

비윤리 N 댓글분류기아키텍쳐와앙상블방법 (1) 방법 아키텍쳐요약 NLP 도메인을양분하는카테고리 : yntactics/emantics (Collobert, 2008) yntactics: 구문론적비윤리댓글분류모델 (M1) 정수로인코딩한각문자의시퀀스이미지화 Convolutional Neural Network(CNN): 잡음-강건성 전이학습 (Knowledge-transfer) 방법을사용하여잡음-강건성개선 emantics: 의미론적비윤리댓글분류모델 (M2) 워드벡터로임베딩한각단어의시퀀스이미지화 Long hort-term Memory(LTM): 시계열데이터모델링 상호보완적관계를보이는 yntactics/emantics 기반앙상블방법 각모델은 0(Neutral) 에서 1(Unethical) 사이의값 y 출력 로그-스케일로변환시킨각모델의출력의산술평균으로비윤리성정의 s = 1 M y m + 1) mlog( 6

비윤리 N 댓글분류기아키텍쳐와앙상블방법 (2) 방법 Commentary Pseudo-badwords dataset Classification M1: Character-level CNN Generate random noise Insert Google-bad-words Feature extraction yntactic feature extraction Crop and padding characters Word2vector model emantic feature extraction Crop and padding words Word2vector model Transfer learning M2: Word-level CNN-LTM i t o i t t o i t t c o i t t c t o i t t c t o i t t c t t f f t o i t t c t f t o i t t c t f t o t c t f t c t f t f t f t t Ensemble Calculate log-scale score s M1, s M2 Averaging score upervised learning 7

M1: 전이학습을사용한 Character-level CNN (1) 방법 문장 : 문자의시퀀스로이루어진저수준신호 0~70사이의 71가지정수를사용한문자인코딩 abcdefghijklmnopqrstuvwxyz012345 6789-,;.!?: /\ _@#$%ˆ&* +-=<>()[]{} N 개의인코딩한 N 댓글이미지화 : (N, 225, 71) 벡터표현 구문론적비윤리댓글모델링방법의타당성 : 오타, 신조어대처 오타, 문자교체 : 문자의시퀀스로구성한이미지의잡음 컨볼루션, 풀링연산을사용한이미지및벡터의잡음강건성개선검증 (LeCun, 2015) 8

M1: 전이학습을사용한 Character-level CNN (2) 방법 컨볼루션연산 l 번째컨볼루션층출력되는벡터 c l ij, m m크기가중치벡터 w, 이전층출력값 y l 1 m 1 m 1 Input pixel y l 1 y l l = c ij = w ab y i+a j+b a=0 b=0 입력된이미지에대해필터연산을통해이미지를왜곡 l 1 Convolution filter w ab Output pixel y l 풀링층 l 번째풀링층출력되는벡터 p l ij, N N 입력중 k k 영역대상, 풀링거리 τ y l l = p ij = max c l 1 γ R ij τ 입력벡터중 k k 영역에대한대표값추출 해상도감소효과 Average pooling Max pooling 이미지의중요한부분을부각시키는컨볼루션연산과해상도를감소시켜유의미한특징을선택하는풀링연산 : 잡음 ( 오타및신조어 ) 강건성확보 9

M1: 전이학습을사용한 Character-level CNN (3) 방법 전이학습 : 기존모델이학습한특징을전이하여새로운모델에서재사용 사과를인식하는모델으로배인식 전자악기를배우는것이피아노연주를배우는데도움 핵심아이디어 : 기존모델이학습한도메인에서의특징을재사용가능 (Yosinski and Bengio, 2014) 전이학습을사용한잡음 - 강건성개선 배경 : 빈번한오타 / 대체문자대처를위해먼저문자의시퀀스중에서비속어를탐지하는기능필요 Pseudo-badwards 데이터셋작성 구글에서필터링대상으로정의한 400 개의 Google-bad-words 랜덤한위치에랜덤한비속어를삽입한 200M 개의임의의문자열 각데이터는 225 개의랜덤한문자의시퀀스로구성 비속어가삽입된경우비윤리적댓글으로라벨링 Neutral/Unethical 클래스수량동일 M1 모델의학습이전에 Pseudo-badwords 데이터셋학습 10

M2: 워드임베딩과 CNN-LTM 하이브리드분류기 (1) 방법 문장 : 단어의시퀀스로이루어진고수준신호 각단어의통계적의미추출 : 입력된단어를사용하여주변단어를예측하도록하는인공신경망사용 주변단어수 c = 5, 사전크기 V = 2000, 임베딩벡터크기 h = 30 C h = 1 C W ( x i ) i=1 Deep Neural Embedding Input layer W V Hidden layer h t Output layer W V N N 개의임베딩한 N 댓글이미지화 : (N, 225, 30) 11

방법 M2: 워드임베딩과 CNN-LTM 하이브리드분류기 (2) Long hort-term Memory(LTM) 시계열데이터모델링에적합한기억특성을가지는딥러닝모델 핵심아이디어 : 게이트를사용하여학습한이전정보 ( 상태 ) 의저장 / 삭제 / 출력을학습 (Graves, 2013) 셀상태 : 각 LTM 셀을관통하는핵심변수 CNN-LTM 하이브리드딥러닝모델 워드임베딩 : 단어로부터통계적의미추출, 단어를의미공간으로사상 CNN: 컨볼루션-풀링층을사용하여이미지벡터 (N, 225,30) 특징추출 LTM: 추출한특징 ( 단어벡터 ) 의시퀀스학습 의미론적비윤리댓글모델링방법의타당성 : 은유, 중의적표현, 신조어대처 은유, 중의적표현, 신조어 : 워드임베딩방법을사용하여통계적의미추출 (Mikolov, 2013) 컨볼루션, 풀링연산을사용한이미지벡터의특징추출 (Hinton, 2012) 심층 LTM 을사용하여시계열특징모델링 (Graves, 2013) 12

데이터셋및실험환경 실험결과 데이터셋 Kaggle 2013 년 Cyberbullying 댓글분류경연대회데이터셋 Cyberbullying ={ 구문론적비윤리 ( 비속어 ), 의미론적비윤리 ( 모욕감을주는문장 )} 8,700 개의데이터인스턴스가 0(Neutral) 또는 1(Cyberbullying) 라벨링 기존최고분류성능 : tf-idf 특징추출 +Boosting 방법, 86%(P. Goyal, 2013) Insult Date Comment 1 20120618 hut the fuck up. you and the rest of your family... 1 20120320 You need some serious psycho;logical help 0 20120527 What horrible trades are you talking about? 0 20120610 fucking weird game man 실험환경 Linux, Cuda, Tensorflow, Keras 딥러닝툴킷 GTX1080 x4 13

분류기별분류정확도와전이학습효과 (1) 실험결과 전이학습을위한 M1 모델의 Pseudo-badwords 학습반복회수별정확도 비윤리적단어의종류를고려하지않고존재여부를체크하는문제 문제의단순성에따라반복회수 5에서과적합문제발생 Early-stopping: 82.77% 분류정확도획득 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Train loss Test loss Train accuracy Test accuracy 14

분류기별분류정확도와전이학습효과 (2) 실험결과 M1 모델의비윤리적댓글학습반복회수별분류정확도 초기단계에서신경망에저장된기존지식의파괴와재구축으로인한불안정발생 (Bengio, 2014) 전이학습적용이전 80% 분류정확도, 적용이후 85.97% 분류정확도 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 Train loss Test loss Train accuracy Test accuracy 15

분류기별분류정확도와전이학습효과 (2) 실험결과 M2 모델의비윤리적댓글학습반복회수별분류정확도 M1 모델에비해상대적으로낮은성능 원인 : 8,700개적은수량의데이터로부터구성한통계적의미 Early-stopping: 반복회수 10에서 80.94% 성능획득 1.6 1.4 1.2 1 0.8 0.6 0.4 0.2 Train loss Test loss Train accuracy Test accuracy 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 16

구문론적, 의미론적분류기의상호보완적관계 실험결과 M1(yntactics), M2(emantics) 모델별강점 M1 advantages M2 advantages Misclassified Class Commentary M1 score M2 score 1 You are just wonderful and stupid 0.9795 0.2203 0 1 1 Would probably be cheaper just to legally change you name Why did your parents wish you were adopted If it were your mom sister and wife it would be only one person 0.0032 0.6326 0.4415 0.8978 0.1833 0.6870 1 You're a real bore ya know it 0.1428 0.3398 1 We will bury you in november parasites 0.0092 0.0363 각모델의 Log-scale 스코어의산술평균시 88.66% 분류정확도획득 오분류데이터 : 인간기준에서도윤리적판단어려운잡음데이터 17

t-ne 차원축소방법을사용한분류기분석 실험결과 t-ne 차원축소알고리즘을사용한댓글의의미공간사상 앙상블모델의출력층직전의활성화함수값사용 구문론적비윤리적댓글 ( 비속어중심 ) 중심부분군집화 의미론적비윤리적댓글 ( 의미중심 ) 우측부분군집화 18

요약, 결론, 향후연구 요약및결론 요약 비윤리적 N 댓글구분 : yntactics/emantics yntactics: CNN 모델을사용하여문자의시퀀스로구성된저수준신호모델링 전이학습을사용하여 M1모델의잡음-강건성개선 emantics: CNN-LTM모델을사용하여단어의시퀀스인고수준신호모델링 워드임베딩을사용하여단어의의미공간사상, 벡터화 두모델을앙상블하여최고성능 (88.66%) 획득 결론및향후연구 상호보완적관계에있는두모델의앙상블기법연구 전이학습적용시발생하는일시적학습곡선불안정을해석하기위한시각화기반신경망의분석방법연구 19