Microsoft PowerPoint - ai-8 기계 학습-I

Similar documents
Introduction to Deep learning

딥러닝 첫걸음

제4장 자연언어처리, 인공지능 , 기계학습

PowerPoint 프레젠테이션

빅데이터_DAY key

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

김기남_ATDC2016_160620_[키노트].key

통계적 학습(statistical learning)

adfasdfasfdasfasfadf

1-1-basic-43p

DIY 챗봇 - LangCon

Overview Decision Tree Director of TEAMLAB Sungchul Choi

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

탐색적데이터분석 (Exploratory Data Analysis) 데이터가지닌주요특성 / 개괄을 ( 우선적으로 ) 탐구함으로써 데이터분석을시도하려는형태 모델링이나가설을세우고이를검증하기보다데이터자체 가우리에게말하려고하는것을알아내는것의중요성을강 조하며시각화플롯을많이활용 J

슬라이드 1

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Resampling Methods

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

표본재추출(resampling) 방법

statistics

사회통계포럼

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

PowerPoint Presentation

Tree 기반의 방법

슬라이드 0

An Effective Sentence-Extraction Technique Using Contextual Information and Statistical Approaches for Text Summarization

REP - CP - 016, N OVEMBER 사진 요약 25 가지 색상 Surf 를 이용한 사진 요약과 사진 배치 알고리즘 Photo Summarization - Representative Photo Selection based on 25 Color Hi

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

PowerPoint 프레젠테이션

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

김경재 안현철 지능정보연구제 17 권제 4 호 2011 년 12 월

Ch 1 머신러닝 개요.pptx

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Sequences with Low Correlation

<31342DC0E5BAB4C5B92E687770>

Lecture12_Bayesian_Decision_Thoery

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

[ 그림2] 를참조하여이알고리즘의프로세스를순서대로생각해보면첫번째는최초중심값을랜덤하게선택한다. 두번째는 k개의중심값과각개별데이터간의거리를측정하고, 가장가까운클러스터를할당한다. 세번째는각클러스터마다새로운중심값을계산하고마지막엔새로선택된중심값이변화가없다면멈추고, 변화가있다면첫

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Multiple Linear Regression

Evolutionary Optimization of a Collection of Variable-Length Subpatterns for Pattern Classification ( ) ( ) Robert Ian McKay ( )

G Power


Microsoft PowerPoint - bioinfo_09lect12_shpark_microarray.ppt [호환 모드]

(001~006)개념RPM3-2(부속)

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

PowerPoint Presentation

소성해석

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

PowerPoint 프레젠테이션

hwp

MATLAB for C/C++ Programmers

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

1. Introduction : 모멘텀효과와패턴학습의적용 모멘텀현상은약 1 년여간의가격상승을보인자산이그방향성을단기간 (1~3 개월 ) 동안지속하는것을말한다. 이러한현상이주식, 채권, 커머더티, 환등의거의모든자산에서발생했음을 Moskovitz (2012) 등이조사, 보고

PowerPoint Presentation

Microsoft PowerPoint - Ch13

PowerPoint 프레젠테이션

제1강 인공지능 개념과 역사

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

슬라이드 1

DBPIA-NURIMEDIA

<4D F736F F F696E74202D D3120C0CEB0F8C1F6B4C9BCD2B0B3205BC0D0B1E220C0FCBFEB5D>

Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

슬라이드 1


Ch 8 딥강화학습

Reinforcement Learning & AlphaGo

Part Part

£01¦4Àå-2

PART

½ºÅ丮ÅÚ¸µ3_³»Áö

272*406OSAKAÃÖÁ¾-¼öÁ¤b64ٽÚ

슬라이드 1

비선형으로의 확장

True number of clusters = 3 V V1 2 군집의수선택 2.1 군집내와군집간제곱합이용 군집분석은각군집의평균의차이를크게하고 ( 군집간의변동을크게하고 ) 군집내의변동을작게하는 것이좋다. 군집의개수가늘어날수록커지고

텀블러514

02( ) SAV12-19.hwp

시스템경영과 구조방정식모형분석

Microsoft PowerPoint - LM 2014s_Ch4.pptx

PowerPoint 프레젠테이션

09권오설_ok.hwp

example code are examined in this stage The low pressure pressurizer reactor trip module of the Plant Protection System was programmed as subject for

커널 방법론

Chap 6: Graphs

확률과통계 강의자료-1.hwp

LiDAR A utomatic D etection for Misclassified A erial LiD A R D TD

블록체인전공 학수번호 과목명 학점 개 요 본과목에서는블록체인의기본기술들과암호화폐개념에대해공부한다. Bitcoin에서구체화된블록과체 GSIT101 블록체인및암호화폐입문 Introduction to Blockchain & Cryptocurrency 3 인, 분산합의, Do

2 : (EunJu Lee et al.: Speed-limit Sign Recognition Using Convolutional Neural Network Based on Random Forest). (Advanced Driver Assistant System, ADA

hwp

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

슬라이드 1

PowerPoint Presentation

Transcription:

기계학습 충북대학교소프트웨어학과이건명 충북대인공지능 1

기계학습 Part I 충북대학교소프트웨어학과이건명 충북대인공지능 2

1. 기계학습 기계학습 ( 機械學習, machine learning) 경험을통해서나중에유사하거나같은일 (task) 를더효율적으로처리할수있도록시스템의구조나파라미터를바꾸는것 (To improve the performance of a system with experience or example data at some task, to adjust the structure and/or parameters of system. Tom Mitchell, 1997) 알고있는것으로부터모르던것을추론하기위한알고리즘을설계하는것 (To design algorithms for inferring unknowns from knowns) 경험 일 효율 ( 성능 ) 필기문자이미지, 글자 문자판독 ( 인식 ) 정확도 사진, 얼굴영역 사진에서얼굴영역식별 정확도 이메일, 스팸여부 스팸이메일판단 정확도 풍경사진 유사한풍경사진식별 유사도 바둑대국 바둑두는방법 승률 기계학습 PlayTennis 문제 어떤사람이테니스를치는날의기상상황을조사한데이터 학습데이터 (training data) 테니스를치는날은? 흐리고적당한온도에습도는높고바람이센날 테니스를칠까? 충북대인공지능 3

기계학습 PlayTennis 문제 cont. Sunny Outlook Overcast Rain Humidity Yes Wind High Mild Weak Strong No Yes Yes No Outlook 조망 Temperature 기온 Humidity 습도 Wind 바람 PlayTennis 테니스여부 Sunny Hot Mild Weak? Rain Hot High Weak? 필기문자인식 기계학습 직접만든규칙이나휴리스틱 (heuristics) 복잡 불충분한성능 기계학습방법 자동으로분류규칙이나프로그램생성 괄목할만한성능 Image : MNIST data 충북대인공지능 4

기계학습 연역적학습 (deductive learning) 연역적추론 (deductive inference) 을통한학습 귀납적학습 (inductive learning) 사례들 (examples) 을일반화 (generalization) 하여패턴 (pattern) 또는모델 (model) 을추출하는것 일반적인기계학습의대상 학습데이터를잘설명할수있는패턴을찾는것 오컴의면도날 (Occam s razor) 가능하면학습결과를간단한형태로표현하는것이좋다 (1,2) -> 3 (4,8) -> 12 (10,13) -> 24 (23,52) -> 75 (43,101) ->144 (14,31) -> 45 (123,15) -> 138 학습알고리즘 (97,16) 113 기계학습 오컴의면도날 (Occam s razor) 원리에따른선택 충북대인공지능 5

2. 기계학습의종류와문제 (supervised learning) 입력 ( 문제 )- 출력 ( 답 ) 의데이터들로부터새로운입력에대한출력을결정할수있는패턴추출 비 (unsupervised learning, 자율학습 ) 출력에대한정보가없는데이터로부터필요한패턴추출 반 (semisupervised learning) 일부학습데이터만출력값이주어진상태에서일반화한패턴추출 강화학습 (reinforcement learning) 출력에대한정확한정보를제공하지는않지만, 평가정보 (reward) 는주어지는문제에대해각상태에서의행동 (action) 을결정 2.1 충북대인공지능 6

분류 (classification) 데이터들을정해진몇개의부류 (class) 로대응시키는문제 결정경계 (decision boundary) 분류문제의학습 학습데이터를잘분류할수있는함수를찾는것 함수의형태는수학적함수일수도있고, 규칙일수도있음 분류기 (classifier) 학습된함수를이용하여데이터를분류하는프로그램 분류기학습알고리즘 결정트리 (decision tree) 알고리즘 K-근접이웃 (K-nearest neighbor, KNN) 알고리즘 다층퍼셉트론신경망 딥러닝 (deep learning) 알고리즘 서포트벡터머신 (Support Vector Machine, SVM) 에이다부스트 (AdaBoost) 임의숲 (random forest) 확률그래프모델 (probabilistic graphical model) 충북대인공지능 7

이상적인분류기 학습에사용되지않은데이터에대해서분류를잘하는것 일반화 (generalization) 능력이좋은것 데이터의구분 학습데이터 (training data) 분류기 (classifier) 를학습하는데사용하는데이터집합 학습데이터가많을수록유리 테스트데이터 (test data) 학습된모델의성능을평가하는데사용하는데이터집합 학습에사용되지않은데이터이어야함 검증데이터 (validation data) 학습과정에서학습을중단할시점을결정하기위해사용하는데이터집합 과적합 (overfitting) 과부적합 (underfitting) 과적합 학습데이터에대해서지나치게잘학습된상태 데이터는오류나잡음을포함할개연성이크기때문에, 학습데이터에대해매우높은성능을보이더라도학습되지않은데이터에대해좋지않은성능을보일수있음 부적합 학습데이터를충분히학습하지않은상태 부적합 (underfitting) 적합 (good fitting) 과적합 (overfitting) 충북대인공지능 8

과적합회피방법 학습데이터에대한성능 학습을진행할수록오류개선경향 지나치게학습이진행되면과적합발생 학습과정에서별도의검증데이터 (validation data) 에대한성능평가 검증데이터에대한오류가감소하다가증가하는시점에학습중단 오류율 검증데이터 학습데이터 학습중지시점 학습시간 분류기의성능평가 정확도 (accuracy) 얼마나정확하게분류하는가 정확도 = ( 옳게분류한데이터개수 )/( 전체데이터개수 ) 테스트데이터에대한정확도를분류기의정확도로사용 정확도가높은분류기를학습하기위해서는많은학습데이터를사용하는것이유리 학습데이터와테스트데이터는겹치게않도록해야함 충북대인공지능 9

데이터부족한경우성능평가 별도로테스트데이터를확보하면비효율적 가능하면많은데이터를학습에사용하면서, 성능평가하는방법필요 K- 겹교차검증 (k-fold cross-validation) 사용 전체데이터를 k 등분 각등분을한번씩테스트데이터로사용하여, 성능평가를하고평균값선택 불균형데이터 (imbalanced data) 문제 특정부류에속하는학습데이터의개수가다른부류에비하여지나치게많은경우 정확도에의한성능평가는무의미할수있음 예. A 부류의데이터가전체의 99% 인경우, 분류기의출력을항상 A 부류로하더라도정확도는 99% 가됨. 대응방안 가중치를고려한정확도척도사용 많은학습데이터를갖는부류에서재표본추출 (re-sampling) 적은학습데이터를갖는부류에대해서인공적인데이터생성 충북대인공지능 10

회귀분석 (regression analysis) 학습데이터에부합되는출력값이실수인함수를찾는문제 회귀분석 (regression analysis) cont. 성능 오차 : 예측값과실제값의차이 테스트데이터들에대한 ( 예측값 실제값 ) 2 의평균또는평균의제곱근 모델의종류 ( 함수의종류 ) 에영향을받음 충북대인공지능 11

회귀분석의과적합 (overfitting) 과부적합 (underfitting) 과적합 지나치게복잡한모델 ( 함수 ) 사용 부적합 지나치게단순한모델 ( 함수 ) 사용 부적합 (underfitting) 적합 (good fitting) 과적합 (overfitting) 회귀분석의과적합 (overfitting) 대응방법 모델의복잡도 (model complexity) 를성능평가에반영 목적함수 = 오차의합 + ( 가중치 )*( 모델복잡도 ) 벌점 (penalty) 항 부적합 (underfitting) 적합 (good fitting) 과적합 (overfitting) 충북대인공지능 12

2.2 비 (unsupervised learning) 비 (unsupervised learning) 결과정보가없는데이터들에대해서특정패턴을찾는것 데이터에잠재한구조 (structure), 계층구조 (hierarchy) 를찾아내는것 숨겨진사용자집단 (hidden user group) 을찾는것 문서들을주제에따라구조화하는것 로그 (log) 정보를사용하여사용패턴 (usage pattern) 을찾아내는것 비의대상 군집화 (clustering) 밀도추정 (density estimation) 차원축소 (dimensionality reduction) http://www.youtube.com/watch?v=rhallmljuk 비 군집화 (clustering) 유사성에따라데이터를분할하는것 영상분할 (segmentation) image : Pedro Felzenswalb 충북대인공지능 13

비 군집화 cont. 일반군집화 (hard clustering) 데이터는하나의군집에만소속 예. k-means 알고리즘 퍼지군집화 (fuzzy clustering) 데이터가여러군집에부분적으로소속 소속정도의합은 1 이됨 예. 퍼지 k-means 알고리즘 용도 데이터에내재된구조 (underlying structure) 추정 데이터의전반적구조통찰 가설설정, 이상치 (anomaly, outlier) 감지 데이터압축 : 동일군집의데이터를같은값으로표현 데이터전처리 (preprocessing) 작업 성능 군집내의분산과군집간의거리 비 밀도추정 (density estimation) 부류 (class) 별데이터를만들어냈을것으로추정되는확률분포을찾는것 5 4 3 2 1 0-1 -2-2 -1 0 1 2 3 4 5 용도 각부류별로주어진데이터를발생시키는확률계산 가장확률이높은부류로분류 충북대인공지능 14

비 밀도추정 cont. 모수적 (parametric) 밀도추정 분포가특정수학적함수의형태를가지고있다고가정 주어진데이터를가장잘반영하도록함수의파라미터결정 전형적인형태 : 가우시안 (Gaussian) 함수또는여러개의가우시안함수의혼합 (Mixture of Gaussian) 비모수적 (nonparametric) 밀도추정 분포에대한특정함수를가정하지않고, 주어진데이터를사용하여밀도함수의형태표현 전형적인형태 : 히스토그램 (histogram) http://i.stack.imgur.com/pe0xu.gif 비 차원축소 (dimension reduction) 고차원의데이터를정보의손실을최소화하면서저차원으로변환하는것 목적 2, 3 차원으로변환해시각화하면직관적데이터분석가능 차원의저주 (curse of dimensionality) 문제완화 충북대인공지능 15

비 차원축소 cont. 차원의저주 (curse of dimensionality) 차원이커질수록거리분포가일정해지는경향 2 차원 4 차원 20 차원 50 차원 원이증가함에따라부분공간의개수가기하급수적으로증가 비 차원축소 cont. 주성분분석 (Principle Component Analysis, PCA) 분산이큰소수의축들을기준으로데이터를사상 (projection) 하여저차원으로변환 데이터의공분산행렬 (covariance matrix) 에대한고유값 (eigenvalue) 가큰소수의고유벡터 (eigenvector) 를사상축으로선택 충북대인공지능 16

비 이상치 (outlier) 탐지 이상치 다른데이터와크게달라서다른메커니즘에의해생성된것이아닌지의심스러운데이터 관심대상 잡음 (noise) 관측오류, 시스템에서발생하는무작위적인오차 관심이없는제거할대상 신규성탐지 (novelty detection) 와관련 비 이상치 (outlier) 탐지 cont. 점이상치 (point outlier) 다른데이터와비교하여차이가큰데이터 상황적이상치 (contextual outlier) 상황에맞지않는데이터예 ) 여름철에 25 도인데이터는정산, 겨울철에 25 도는이상치 집단적이상치 (collective outlier) 여러데이터를모아서보면비정상으로보이는데이터들의집단 충북대인공지능 17

비 이상치 (outlier) 탐지 cont. 부정사용감지시스템 (fraud detection system, FDS) 이상한거래승인요청시에카드소유자에게자동으로경고메시지전송 침입탐지시스템 (intrusion detection system, IDS) 네트워크트래픽을관찰하여이상접근식별 시스템의고장진단 임상에서질환진단및모니터링 공공보건에서유행병의탐지 스포츠통계학에서특이사건감지 관측오류의감지 2.3 강화학습 강화학습 (reinforcement learning) 학습알고리즘이환경 (environment) 와상호작용을통해보상 (reward) 이최대가되도록주어진상태 (state) 에서취할수있는적합한행동 (action) 을찾는것 시행착오 (trial and error) 적인방법으로적합한행동을탐색함 보상은어떤행동을해야하는지알려주는것이아니라행동에대한결과의평가치 ( 실수값 ) 로주어짐 보상은행동에대해바로나올수도있고, 한참지나서나올수도있음...... 충북대인공지능 18

강화학습 강화학습 cont. 정책 (policy) 의학습 각상태 (state) 에서의선택할행동 (action) 결정 예. 자전거탈때각상태에서의제어행동 바둑을둘때각상태에서의착수위치 패달가속한손주행두손주행두손주행 상태 행동 상태 행동 상태 행동 상태 행동 상태 정책 (policy) Image source : RÉMI MUNOS RAPPORT ANNUEL INRIA 2008 강화학습 강화학습 -cont. 적용분야 게임전략 제어전략 금융시장의매매전략 물류 (logistics) 문제 로보틱스 (robotics) 통신문제 충북대인공지능 19

2.4 반 반 (semi-supervised learning) 입력에대한결과값이없는미분류데이터 (unlabeled data) 를에사용하는방법 분류된데이터 (labeled data) 는높은획득비용, 미분류데이터는낮은획득비용 분류경계가인접한미분류데이터들이동일한집단에소속하도록학습 같은군집에속하는것은가능한동일한부류에소속하도록학습 반 반의가정 평활성 (smoothness, 平滑性 ) 가정 가까이있는점들은서로같은부류에속할가능성이높음 군집 (cluster) 가정 같은군집에속하는데이터는동일한부류에속할가능성이높음 매니폴드 (manifold) 가정 원래차원보다낮은차원의매니폴드에데이터에분포할가능성이높음 Image: ludovicarnold.altervista.org/ 충북대인공지능 20

충북대인공지능 21