Ch 8 딥강화학습

Similar documents
<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

PowerPoint 프레젠테이션

Ch 1 머신러닝 개요.pptx


Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

Buy one get one with discount promotional strategy

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

딥러닝 첫걸음

PowerPoint 프레젠테이션

제1강 인공지능 개념과 역사

untitled

PowerPoint 프레젠테이션

2002 Game White paper 2002 Game White paper

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

Introduction to Deep learning


The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo

김기남_ATDC2016_160620_[키노트].key


03.Agile.key

제2강 생각하는 기계

PowerPoint 프레젠테이션

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx


3장

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

¾Ë·¹¸£±âÁöħ¼�1-ÃÖÁ¾

01....b

2007백서-001-특집

00목차

(291)본문7

기획 1 서울공대생에게 물었다 글 재료공학부 1, 이윤구 재료공학부 1, 김유리 전기정보공학부 1, 전세환 편집 재료공학부 3, 오수봉 이번 서울공대생에게 물었다! 코너는 특별히 설문조사 형식으로 진행해 보려고 해 요. 설문조사에는 서울대학교 공대 재학생 121명, 비

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

PowerPoint 프레젠테이션

歯MW-1000AP_Manual_Kor_HJS.PDF

23

<33312D312D313220C0CCC7D1C1F820BFB0C3A2BCB12E687770>

adfasdfasfdasfasfadf

2002년 2학기 자료구조

R을 이용한 텍스트 감정분석

Data Industry White Paper

methods.hwp

PowerPoint 프레젠테이션

001지식백서_4도

슬라이드 1

BSC Discussion 1

제4차 산업혁명과 인공지능 차 례 제4차 산업혁명과 인공지능 2 제46회 다보스포럼이 2016년 1월 21일~24일 4차 산업혁명의 이해 라는 주제로 개최 되었습니다. 4차 산업혁명은 인공지능에 의해 자동화와 연결성이 극대화되는 단계 로서 오늘날 우리 곁에 모습을 드러

탄도미사일 방어무기체계 배치모형 연구 (Optimal Allocation Model for Ballistic Missile Defense System by Simulated Annealing Algorithm)

사회통계포럼

목차 BUG offline replicator 에서유효하지않은로그를읽을경우비정상종료할수있다... 3 BUG 각 partition 이서로다른 tablespace 를가지고, column type 이 CLOB 이며, 해당 table 을 truncate

Microsoft PowerPoint - ìž—ë²€ëflflëfiœ_ê°ŁíŽflíŁŽì−µ_엸미뇟_2ì°¨_ ppt [ퟸ펟 모ëfiœ]

PowerPoint 프레젠테이션

¼º¿øÁø Ãâ·Â-1

빅데이터_DAY key

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

Oracle Apps Day_SEM

신경망 (Neural Networks) < 인공지능입문 > 강의 허민오 Biointelligence Laboratory School of Computer Science and Engineering Seoul National University

<4D F736F F F696E74202D20B8B6C0CCC5A9B7CEC7C1B7CEBCBCBCAD202839C1D6C2F7207E203135C1D6C2F >

untitled

PowerPoint 프레젠테이션

감각형 증강현실을 이용한

388

untitled

Journal of Educational Innovation Research 2017, Vol. 27, No. 3, pp DOI: (NCS) Method of Con

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

APOGEE Insight_KR_Base_3P11

<302DC5EBC0CFB0FA20C6F2C8AD28BFCF292E687770>

03¼ºÅ°æ_2

SNU =10100 =minusby by1000 ÇÁto0.03exÇÁto0.03exÇÁ=10100 =minusby by1000 ·Îto0.03ex·Îto0.03ex·Î=10100 =minusby by1000

부산교육 311호

ȲÁø°æ

¿ÀǼҽº°¡À̵å1 -new

<BFB5BBF3C1A4BAB8C3B3B8AEBDC3BDBAC5DB20BFACB1B82E687770>

歯목차.PDF

44-4대지.07이영희532~

review hwp

878 Yu Kim, Dongjae Kim 지막 용량수준까지도 멈춤 규칙이 만족되지 않아 시행이 종료되지 않는 경우에는 MTD의 추정이 불가 능하다는 단점이 있다. 최근 이 SM방법의 단점을 보완하기 위해 O Quigley 등 (1990)이 제안한 CRM(Continu

PowerPoint 프레젠테이션

06_(58~65)_남종호 ok.hwp

<313620B1E8BFB5BFF52E687770>

시안

확률 및 분포

15_3oracle

쉽게배우는알고리즘 6장. 해시테이블 테이블 Hash Table

분석결과 Special Edition 녹색건물의 가치산정 및 탄소배출 평가 이슈 서 민간분야의 적극적인 참여 방안의 마련이 필요하다. 또한 우리나라는 녹색건축의 경제성에 대한 검증에 대 한 연구가 미흡한 실정이다. 반면, 미국, 영국, 호주 등은 민간 주도로 녹색건축물

, ( ) 1) *.. I. (batch). (production planning). (downstream stage) (stockout).... (endangered). (utilization). *

<C7CFB4C3B0F8BFF828C0FCC7CFC1F6B8F8C7D1C6EDC1F6292D31302E3128C3D6C1BE292D31302E31342E687770>

정보기술응용학회 발표

14(4) 09.fm

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

KSKSKSKS SKSKSKS KSKSKS SKSKS KSKS SKS KS KS C 3004 KS C

<C7A5C1F620BEE7BDC4>


歯표지.PDF


3Àӱݿ¬±¸º½-ÁÖÁ¦¹ßÇ¥ÃÖÁ¾

Transcription:

Chapter 8. 딥강화학습 < 기계학습개론 > 강의서울대학교컴퓨터공학부장병탁 교재 : 장교수의딥러닝, 홍릉과학출판사, 2017. Slides Prepared by 장병탁, 최진영 Biointelligence Laboratory School of Computer Science and Engineering Seoul National University Version 20171109 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 1

목차 8.1 강화학습과 MDP 문제... 4 8.2 MC 학습과 TD 학습.... 8 8.3 Sarsa와 Q학습알고리듬...... 11 8.4 딥큐넷 (DQN)...., 14 8.5 딥강화학습의활용 : AlphaGo.... 17 요약..... 19 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 2

들어가는질문 감독학습, 무감독학습과비교하여강화학습이다른점은무엇인가? 마코프결정문제 (MDP) 를정의하고다양한해결방법들을기술하시오. 벨만최적식, 동적프로그래밍의개념을설명하시오. MDP 문제해결을위한방법으로서의강화학습을설명하시오. 강화학습의다양한전략들을기술하고서로간의차이를설명하시오. 모델기반 vs. 모델프리 RL의차이를설명하시오. 오프라인 vs. 온라인 RL의차이를설명하시오. On-policy vs. Off-policy RL의차이를설명하시오. MC학습 ( 몬테칼로기반동적프로그래밍방식 ) 방법을설명하시오. TD학습방법을기술하고 MC 방법과의차이를설명하시오. TD 학습, Sarsa, Q 학습알고리듬을설명하고차이점을기술하시오 알파고가사용한딥강화학습 DQN 의핵심아이디어들을설명하시오. 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 3

8.1 강화학습과 MDP 문제 (1/4) Introduction 감독학습 : y = f( x) 무감독학습 : x= f( x) or 강화학습 (RL): p(a s) x ~ p( x) 강화학습의특징 에이전트의상태 (s) 와행동 (a) 에대해보상 (r) 을최대화하는정책 p(a s) 를찾는문제 환경과상호작용하는에이전트 ( 로봇 ) 순차적의사결정문제, 행동제어문제 미래보상고려, 지연된보상 (delayed reward) 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 4

8.1 강화학습과 MDP 문제 (2/4) Introduction n RL의 활용: 로보틱스, 게임 등 2017, 장교수의 딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 5

8.1 강화학습과 MDP 문제 (3/4) Markov Decision Process (MDP) - Markov Decision Process = { S, A, P, R, γ} S : States of the agent A : Actions of the agent a P : State transition probability Pss' = P(S t+ 1 = s' S t = s,a t = a) a R : Reward Rs =Ε (R t+ 1 S t = s, A t = a) γ : Discount factor - Markov Property: P(S S ) = P(S S ) t+ 1 + 1 1,..., t 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 6

8.1 강화학습과 MDP 문제 (4/4) 반환 (return, G): Discounted accumulated mean reward G = R +γ R +... = γ R = R +γg + 1 t+ 2 k = 0 t+ k+ 1 t+ 1 t+ 1 k π π t π t+ k+ 1 k = 0 Q (, s a) = E [ G S = s, A = a] = E [ γ R S = s,a = a] 정책 π (policy of the agent): π ( a s) = P( A = a S = s) t t 가치함수 V (Value function = 장기적반환 ): k π π π t+ k+ 1 t k = 0 V () s = E [ G S = s] = E [ γ R S = s] 최적정책 : Value function 을최대화하는정책을찾음 * π = arg max π V ( s) 벨만최적식 (Bellman optimality equation) see text: page 175 π * π = arg max Q π π ( s, a) 동적프로그래밍 (dynamic programming, DP) 강화학습 RL = Approximate Solution to MDP 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 7

8.2 MC 학습과 TD 학습 (1/3) Policy Iteration 강화학습의학습패러다임 - Evaluation: Q (, s a) 를현재의정책 π() s 를통해학습 π - Improvement: π() s 를현재의가치함수 Q (, s a) 를통해학습 π - Improvement 의예 : Greedy improvement arg max π ( ) (, ) k + 1 s = Qk s a a 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 8

Monte-Carlo RL (MC 학습 ) 8.2 MC 학습과 TD 학습 (2/3) Methods for RL - DP 방법에서에피소드의 Return (G) 을 Value function 으로부터 Sampling 하여근사 (MC 근사 ) G = [ R +γ R +... S = s, A = a] + 1 t+ 2 q ( s, a) E[G ( s, a) G ( s, a)... S s, A a] π = 1 + 2 + t = t = - 에피소드가끝나야학습이가능 - 에피소드의길이가길거나무한한경우사용하기어려움 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 9

8.2 MC 학습과 TD 학습 (3/3) Methods for RL Temporal Difference RL (TD 학습 ) V () s = E[ R +γ V ( s ) S = s] π t+ 1 π t+ 1 t Q (, s a) = E[ R +γ Q ( s,a ) S = s,a = a] π t+ 1 π t+ 1 t+ 1 - Bootstrapping 을사용해에피소드가끝나지않아도학습가능 - MC 방법에비해효율적 모델기반 vs. 모델프리 RL MC: 모델기반 ( 전이확률필요 ) TD: 모델프리 ( 전이확률불필요 ) 오프라인 vs. 온라인학습 MC: 오프라인 ( 샘플모아서 update) TD: 온라인 ( 바로 update) 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 10

8.3 SARSA 와 Q 학습알고리듬 (1/3) Value Based RL Bootstrapping Value Based RL - Value function만을학습 - Action의선택은 greedy policy를사용 : - 대표적으로 SARSA 와 Q-learning 이있음 arg max π ( ) (, ) k + 1 s = Qk s a - Table 을사용하는방법과 Approximation 을사용하는방법이있음 a 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 11

8.3 SARSA 와 Q 학습알고리듬 (2/3) Value Based RL SARSA Qs (, a) Qs (, a) [ r Qs (, a ) Qs (, a)] = + α t + 1+γ t + 1 t + 1 알고리즘 1: Sarsa 학습알고리즘 Q(s,a) 를임의값으로초기화 For 에피소드 =1,, n do s 초기화 s에따르는 Q( 예, ε-greedy) 를통해유래된 a를선택 For 시퀀스 t =1,,T do a 선택, 보상 r과다음상태 s 관측 s =s t+1 에따르는 Q ( 예, ε-greedy) 를통해유래된 a =a t+1 을선택 Qs (, a) Qs (, a) [ r Qs (, a ) Qs (, a)] s s ;; a a ;; End For End For = + α t + 1+γ t + 1 t + 1 - On-policy 알고리듬 : 경험을모으는 policy 가현재 policy 임 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 12

8.3 SARSA 와 Q 학습알고리듬 (3/3) Value Based RL Q-learning Qs (, a) Qs (, a) [ r max Qs (, a) Qs (, a)] = + α t + 1+γ t + 1 a 알고리듬 2;; Q-Learning 알고리듬 Q(s,a) 를임의값으로초기화 For 에피소드 =1,, n do s 초기화 For 시퀀스 t =1,,T do s 에따르는 Q ( 예, ε-greedy) 를통해유래된 a 를선택 a 선택, 보상 r 과다음상태 s =s t+1 관측 s s ;; End For End For Qs (, a) Qs (, a) [ r max Qs (, a) Qs (, a)] = + α t + 1+γ t + 1 a - Off-policy 알고리듬 : 경험을모으는 policy 가현재 policy 와다름 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 13

8.4 딥큐넷 (DQN) (1/3) Q-learning 의업데이트식 Qs (, a) Qs (, a) [ r max Qs (, a) Qs (, a)] = + α t + 1+γ t + 1 a DQN 은 Q 학습의오류함수최소화에딥신경망과오류역전파알고리듬을사용 1 [ max ( ', ) (, )] 2 L= r+γ Q s a Q s a 2 a Q(State,Action=0) Q(State,Action=1) State... Q(State,Action=K) 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 14

8.4 딥큐넷 (DQN) (2/3) Target Network Trick 학습초기 Q(s,a ) 이부정확하고변화가심함 è 학습성능저하 DQN과동일한구조를가지고있으며학습도중 weight값이변하지않는별도의네트워크 (Target Network) 에서 Q(s,a ) 를계산 - Target Network의 weight값들은주기적으로 DQN의것을복사 Replay Memory Trick Changing Data Distribution: Agent의행동에따라들어오는데이터의분포가변화함 (e.g. 어떤 mini batch를학습한후무조건왼쪽으로가도록 policy가변화 è 이후왼쪽으로가지않는경우의데이터를얻을수없게되어학습이불가능 ) (State, Action, Reward, Next State) 데이터를 Buffer에저장해놓고그안에서 Random Sampling하여 mini batch를구성하는방법으로해결 Reward Clipping Trick 도메인에따라 Reward 의크기가다르기때문에 Q value 의크기도다름 Q value 의크기 variance 가매우큰경우신경망학습이어려움 Reward 의크기를 [-1, +1] 사이로제한하여안정적학습 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 15

8.4 딥큐넷 (DQN) (3/3) Atari 2600 비디오게임에서실험절반이상의게임에서사람보다우수기존방식 (linear) 에비해월등한향상일부게임은실패 (reward가 sparse, 복잡한단계를필요 ) Paper Mnih, Volodymyr, et al. "Human-level control through deep reinforcement learning." Nature 518.7540 (2015): 529-533. Video https://www.youtube.com/watch?v=tmpftpjtdgg Open source https://github.com/gliese581gg/dqn_tensorflow 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 16

8.5 딥강화학습의활용 : AlphaGo (1/2) AlphaGo A3C와 Monte-Carlo Tree Search 알고리즘을조합탐색공간이매우큰바둑에서학습을통해서인간을뛰어넘는성능데모정책망 (policy network, actor) 과가치망 (value network, critic) 을따로학습정책망은프로기사들의기보를사용해지도학습후강화학습적용 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 17

8.5 딥강화학습의활용 : AlphaGo (2/2) Monte-Carlo Tree Search - Selection: a = arg max( Q( s, a) + u( s, a)), t a Ps ( t, a) us ( t, a) 1 + Ns (, a ) - Expansion: 잎노드에도착하면정책망을통해새로운잎노드생성 - Evaluation: V( sl) = (1 λ) vθ ( sl) + λzl - Backup: 1 i Nsa (, ) = 1(, sai,) Qsa (, ) = 1(, saiv,) ( sl) Nsa (, ) i i t Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Van Den Driessche, G.,... & Dieleman, S. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489. 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 18

요약 강화학습과 MDP 문제 MDP: State, Action, Reward, Transition, Discount 로구성. 순차적의사결정 강화학습은 MDP 문제를근사적으로해결하는머신러닝방법 Reward 기대치를최대화하는방향으로 Agent 의행동을선택하도록학습 Sarsa 와 Q-Learning Value Function 을 Approximation 하고이를최대화하는 Action 선택 Sarsa, Q-Learning DQN: Deep Neural Network 로 Q 값을근사 딥강화학습의활용 AlphaGo 바둑 AI RL 과 Monte Carlo Tree Search 정책망, 가치망에딥러닝을활용 2017, 장교수의딥러닝, SNU CSE Biointelligence Lab., http://bi.snu.ac.kr 19