Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

Similar documents
Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Ch 8 딥강화학습


(......).hwp

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

G hwp

Data structure: Assignment 1 Seung-Hoon Na October 1, Assignment 1 Binary search 주어진 정렬된 입력 파일이 있다고 가정하자. 단, 파일내의 숫자는 공백으로 구 분, file내에 숫자들은

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

Structure and Interpretation of Computer Programs: Assignment 3 Seung-Hoon Na October 4, George (아래 3개의 문제에 대한 구현이 모두 포함된 george.rkt파일을 제출하시오.

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

(define (domain blocksworld (:requirements :strips :typing (:types block (:predicates (on?x - block?y - block (ontable?x - block (clear?x - block (hol


Chap 6: Graphs

[로플랫]표준상품소개서_(1.042)


LIDAR와 영상 Data Fusion에 의한 건물 자동추출

Microsoft Word - Lab.4

04 Çмú_±â¼ú±â»ç

<C3D6C0E7C3B528BAB8B5B5C0DAB7E1292D322E687770>

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Data structure: Assignment 3 Seung-Hoon Na December 14, 2018 레드 블랙 트리 (Red-Black Tree) 1 본 절에서는 레드 블랙 트리를 2-3트리 또는 2-3-4트리 대한 동등한 자료구조로 보고, 두 가지 유형의 레

歯TC프로그래밍매뉴얼

À̵¿·Îº¿ÀÇ ÀÎÅͳݱâ¹Ý ¿ø°ÝÁ¦¾î½Ã ½Ã°£Áö¿¬¿¡_.hwp


歯목차.PDF

cat_data3.PDF

(Transer Function) X(w) Y(w) H(w) Y(w) X(w) H ( w) φ H(w) H(w) X(w) Y(w). Vo ( w) H v ( w) V ( w) I o( w) H i ( w) I ( w) V ( w) H z ( w) I ( w) I ( w

<B9CEC1D6C1A4C3A5BFACB1B8BFF82DBBE7B6F7B0FAC1A4C3A5BABDC8A328C6EDC1FD292E687770>

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

와플-4년-2호-본문-15.ps

DeepDive_ APT_....

1.PDF

Sequences with Low Correlation

Minimax lower bound 이광민 May Notation 모수공간 : Θ Action space : A Loss function : L : Θ A [0, ) Sample space : X Data : X P θ (Probability measure

02544Ac07¥Áöš

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

사용자 설명서 SERVO DRIVE (FARA-CSD,CSDP-XX)

1_12-53(김동희)_.hwp

미분기하학 II-16 복소평면의선형분수변환과쌍곡평면의등장사상 김영욱 (ÑñÁ) 강의양성덕 (zû ) 의강의록 Ø 'x! xxñ 2007 년 김영욱 (ÑñÁ) 강의양성덕 (zû ) 의강의록 (Ø 'x!) 미분기하 II 2007 년 1 / 26

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

Ch 1 머신러닝 개요.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

ETL_project_best_practice1.ppt


= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

Run 봄 연습 Mar 18 Mar 24, 2018, Week 3 문제 1. 초코바 입력 파일: 출력 파일: 시간 제한: 메모리 제한: standard input standard output 1 seconds 128 megabytes H W 격자 모양의 초콜릿이 있다.

(p47~53)SR

하루에 2시간 되는 거리를 매일 왔다 갔다 하는 것이 쉽지는 않았으나, 저는 다니는 동안 나름의 체력이 길러졌다고 생각합니다. 지하철로 이동하는 약 40분 정도 시간 동안 강의를 녹음한 것을 들으면서 굳이 책을 보지 않고도 강의를 복 습함으로써 시간을 효율적으로 사용했

< B5BFBEC6BDC3BEC6BBE E687770>

new kia in CEO column 함께 준비하는 따뜻한 겨울 지난 1일, 고객가치혁신 페스티벌 을 통해 올 한해 이뤄낸 의미있는 발전과 성과의 결과들을 함께 나누었습니다. 사용자와 고객에게 가장 편리한 전자계약 시스템을 만들기 위해 흘렸던 땀방울, 신차 런칭의 의

100, Jan. 21, 호, Jan. 21, , Jan. 21, 2005

<4D F736F F F696E74202D20B0FCBCF6B7CEC0C720C1A4BBF3B7F9205BC8A3C8AF20B8F0B5E55D>

화판

< C0CEC5CDB3DDB1A4B0EDBBEABEF7C0C7C7A5C1F62D322E6A7067>

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

Chapter 연습문제답안. y *sin-*cos*^ep-*/sqrt. y [ ; sinpi/ ; sin*pi ; ] 혹은 [ sinpi/ sin*pi ]. a ais[- ] b et.,., sin. c.. a A는주어진행렬 M의 번째열만을표시하는새로운행렬을나타낸다.

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

3장

슬라이드 1

PowerPoint 프레젠테이션

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

15_3oracle

chap 5: Trees

API STORE 키발급및 API 사용가이드 Document Information 문서명 : API STORE 언어별 Client 사용가이드작성자 : 작성일 : 업무영역 : 버전 : 1 st Draft. 서브시스템 : 문서번호 : 단계 : Docum

hwp

*165호_전체

슬라이드 1

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상


KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

Introduction to Deep learning

Microsoft PowerPoint - 기계공학실험1-1MATLAB_개요2D.pptx

- 2 -

DOOSAN vol

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

164

ISP and CodeVisionAVR C Compiler.hwp

4••••-•••.pdf

6주차.key

Microsoft PowerPoint - 30.ppt [호환 모드]

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

Artificial Intelligence: Assignment 1 Seung-Hoon Na October 16, A* Algorithm 본 과제에서는 M N Grid world에서 장애물이 랜덤(random)하게 배치되고, 시작 지점에서 장애물을 피해 목

¼øâÁö¿ª°úÇÐÀÚ¿ø

<566F6C20312D3220C0CFBABB20BCF6BBEAB9B020B1B3BFAA20B5BFC7E228C3D6C1BE E687770>

A 001~A 036

1. 이 책을 쓰도록 사명과 지혜와 용기를 주신 하나님 2. 이 책을 쓸 수 있게 한 지식의 도구인 한글을 발명하신 세종대왕님 3. 이 책을 쓰느라고 돈을 못벌어서 궁색하게 사는 장남을 불쌍하게 여기 셔서 용돈을 주시고, 하나님께 간절히 기도해 주신 어머님 4. 열매도

슬라이드 1

슬라이드 1

<B1E2C8B9BDC3B8AEC1EE2DC0CCC8ABBCAE2D30342E687770>

함수공간 함수공간, 점열린위상 Definition 0.1. X와 Y 는임의의집합이고 F(X, Y ) 를 X에서 Y 로의모든함수족이라하자. 집합 F(X, Y ) 에위상을정의할때이것을함수공간 (function space) 이라한다. F(X, Y ) 는다음과같이적당한적집합과

41호-소비자문제연구(최종추가수정0507).hwp

fx-82EX_fx-85EX_fx-350EX

Transcription:

Artificil Intelligence: Assignment 3 Seung-Hoon N November 30, 2017 1 1.1 Srs와 Q-lerning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음 그림과 같이 8 7 Grid world 로, Agent는 up, down, right, left의 4가지 ction을 수행하면서 시작 상태 S에서 목표 상태 G로 도달하는 것이 목적이다. 추가로, 중앙의 columns들에 바람 (wind)이 있어서 이 영역에서는 Agent가 up방향으로 해당 바람의 세기(strength) 만큼 이동하게 된다. 예를 들어, Agent가 G의 바로 왼쪽에서 right를 수행하면 G 보다 2칸 더 위에 위치하게 된다. Agent가 G의 바로 오른쪽에서 left를 수행하면 G보다 1칸 더 위에 위치하게 된다. (즉, Agent가 이동을 시작 할 때 위치의 column 상 strength만큼 위로 이동한후 해당 ction을 수행하는 것과 같다). Windy gridworld는 Undiscounted espisodic tsk로 gol에 도달할때마다 rewrd가 1씩 주어진다. 1.2 Srs와 Q-lerning구현 위의 Windy gridworld에 대해서 epsilon-greedy ction를 이용한 경우 Srs와 Q-lerning을 구현하시오 (python code). 이때, = 0.1, α = 0.5 로 한다. 참고로, Srs와 Q-lerning의 기본 알고리즘은 다음과 같다. 1

1.3 Srs와 Q-lerning학습 결과 확인 Srs와 Q-lerning각각에 대해서 학습한 결과의 Q vlues와 optiml policy는 별 도의 파일로 저장하고 이를 출력하는 python code를 작성하시오. 출력결과도 report하라. 1.4 Srs와 Q-lerning 시물레이션 Srs와 Q-lerning을 시물레이션하여 다음과 같이 time steps별로 수행된 epicodes수에 대한 curves를 비교하시오. (하나의 그래프에서 Srs와 Q-lerning 곡 선이 비교되도록 하면 된다.) 2

2 Policy Grdient Theorem Episodic 경우에 대해 다음 policy grdient theorem 을 증명하시오 (Sutton 교재 13.2절 참조). Theorem 1 (Policy grdient theorem) " # J(θ) = Eπ qπ (St, ) θ log π( St, θ) 위의 증명을 위해 다음의 단계를 거치시오 (Sutton 교재 9.2절 및 13.2절 참조). 1. 모든 episode는 공통 START 상태인 s0 에서 시작한다고 가정하여, 목적함수 (policy objective function) J(θ)는 시작 상태에서 현재 policy πθ 를 따랐을 때의 vlue로 다음과 같이 정의한다. J(θ) = vπθ (s0 ) 2. J(θ) = vπθ (s0 )를 전개하기 위해, stte-vlue function의 정의에 따라, vπθ (s)를 다시 다음과 같이 기술한다. " # vπ (s) = π( s)qπ (s, ) 3. vπ (s)를 정의에 따라 unfolding하여 다음을 유도한다 (이 과정을 상세히 정리할 것). vπ (s0 ) = η(s) π( s)qπ (s, ) s 이때 η()는 한 episode내에서 상태 s에 평균적으로 머무르는 time steps의 수로 다음과 같이 정의된다 (Sutton 교재 9.2절 참조). η(s) = h(s) + η(s0 ) π( s0 )p(s s0, ) s0 4. sttionry 분포 dπ (s) = P η(s) 0 의 s0 η(s ) J(θ) = vπ (s0 ) 형태로, 위의 식을 다시 기술한다. s 3 dπ (s) π( s)qπ (s, )

5. Expecttion의 정의에 따라 Policy grdient theorem을 최종 유도한다 (이 과정을 구체적으로 정리할 것). Tensorflow 사용 3 Tensorflow를 설치 (https://www.tensorflow.org/) 하여 다음의 과정을 수행 해보고 Convolutionl network의 기본 구조 및 학습 및 구현 방법을 이해하시오. (이 문제에 대한 보고서는 1페이지 이내로 간략히 정리할 것) 3.1 MNIST dtset에서 실행 다음 MNIST을 위한 분류기 Tutoril을 참조하여 해당 code mnist_softmx.py 를 이해하고 실행한 결과를 보이라. https://www.tensorflow.org/get_strted/mnist/beginners Tensorflow구동방식과 mnist_softmx.py의 핵심 함수에 대해 요약적으로 설 명하라. 또한, 다음에 대해서 간략히 설명하라. 1. loss function - squred error 2. loss function - negtive cross entropy 3. model prmeter 4. stochstic grdient decent 5. minibtch trining 6. regulriztion 7. computtionl grph 8. tf.vrible 9. tf.plceholder 3.2 CIFAR dtset에서 실행 다음을 각각 참조하여 CIFAR dtset에서 학습을 수행하고, 실행한 결과를 보 이라. https://www.tensorflow.org/tutorils/deep_cnn https://github.com/tensorflow/models/tree/mster/tutorils/imge/cifr10/ 4 Deep reinforcement lerning 본 문제에서는 Tetris게임의 ction을 학습하기 위해 Convolutionl network을 이 용한 deep reinforcement lerning을 구현한다. 다음은 이를 위해 확장해야 하는 pygme 코드이다. https://github.com/smrtviking/mtris 참고로 위의 코드를 설치하여 실행한 게임 화면은 아래와 같다. 4

4.1 DQN (Deep Q-network) 구현 DQN은 Experience reply로 (s,, r, s0 )로 구성된 reply memory D를 만들고, 이로부터 rndom mini-btch Di 를 샘플링하여 Di 에 대한 다음 loss function (squred error)를 줄이도록 network의 prmeter를 학습하는 것이다. Li = Es,,r,s0 Di [r + γmx0 Q(s0, 0 ; wold ) Q(s,, w)] 다음은 DeepMind의 DQN 논문에서 기술된 학습 lgorithm이다. (https://www.cs.toronto.edu/ vmnih/docs/dqn.pdf) Q(s,, w)을 위해 convolutionl networks으로 구성하여 w학습을 위한 일 반적인 DQN 알고리즘을 구현하고 이를 MTris학습에 적용하시오. 5

단, DQN은 어느 게임에도 적용될 수 있도록 modulrity를 유지하도록 하고, MTris code는 stte imge 및 rewrd를 추출하기 위해 적절히 수정 및 확장하 시오. 다음은 추가 comments이다. 1. tensorflow 1.0버전이상 호환되도록 작성하라 (linux ubuntu 플랫폼) 2. convolutionl networks의 딥 모델 구조는 3-4개 층 정도로 적절히 구성하면 된다. 3. Discount fctor는 γ는 [0.7, 0.95]사이의 값으로 적절히 설정하라. 4. code실행을 위한 간단한 README 4.2 DQN (Deep Q-network) 적용 DQN을 적용하면서 Trining epochs이 진행됨에 따라 Averge rewrd curvs를 그리시오. 다음은 DeepMind 논문의 해당 curves의 예이다. 4.3 DQN (Deep Q-network) 적용: Tetris 시물레이션 DQN을 통해 학습된 결과를 저장한 후, 이를 로딩하여 학습된 Agent가 수행한 ction에 따라 MTris가 ply되도록 시물레이션 code를 작성하시오. (실행하면 Agent의 ction에 따라 MTris가 자동으로 ply되어야 함) 4.4 Actor-Critic model 구현 Actor-critic model은 vlue network v(s, w)와 policy network π(s, θ) 두고 vlue network의 prmeter를 갱신할 때는 TD-lerning을, policy network의 prmeter 를 갱신할 때는 policy grdient의 q 함수대신 dvntge function Aπθ (s, )를 사 용한 다음의 policy grdient를 사용한다. J(θ) = Eπθ [ log π( St, θ)aπθ (S, )] Actor-critic model의 학습 lgorithm은 다음과 같다 (Sutton 교재 13.5절 참조) 6

v(s, w)및 Q(s,, θ)을 위해 convolutionl networks으로 구성하여 w, θ 파 라미터을 위한 일반적인 Actor-Critic 알고리즘을 구현하고 이를 MTris학습에 적용하시오. 단, 마찬가지로 Actor-critic model은 어느 게임에도 적용될 수 있도록 modulrity를 유지하도록 하고, MTris code는 stte imge 및 rewrd를 추출하기 위해 적절히 수정 및 확장하시오. 다른 조건은 DQN과 유사하게 설정할 것. 4.5 Actor-Critic model 적용 및 시물레이션 마찬가지로, Actor-Critic model을 적용하면서 Trining epochs이 진행됨에 따라 Averge rewrd curvs를 그리고, 이를 DQN과 비교하시오. 또한, Actor-Critic model을 통해 학습된 결과를 저장한 후, 이를 로딩하여 학 습된 Agent가 수행한 ction에 따라 MTris가 ply되도록 시물레이션 code를 작 성하시오. (실행하면 Agent의 ction에 따라 MTris가 자동으로 ply되어야 함) 5 Deep reinforcement lerning: Brekout 추가로 앞에서 구현된 DQN, Actor-critic model을 확장하여 Brekout게임에 적 용하라. 다음은 이를 위해 확장해야 하는 pygme 코드이다. https://github.com/johncheethm/brekout 참고로 위의 코드를 설치하여 실행한 게임 화면은 아래와 같다. 7

또는, 다음의 tri brekout 코드를확장해도된다. https://github.com/knuck/atri-brekout 위의 Atri brekout 게임화면은다음과같다. 제출해야하는코드는다음과같다. 1. DQN을이용한 Brekout 학습기 ( 학습결과저장 ) 2. DQN을이용한 Brekout 테스트 : performnce curve 도출 3. DQN을이용한 Brekout 테스트 : simultion ( 자동실행 ) 4. Actor-critic model을이용한 Brekout 학습기 ( 학습결과저장 ) 5. Actor-critic model을이용한 Brekout 테스트 : performnce curve 도출 6. Actor-critic model을이용한 Brekout 테스트 : simultion ( 자동실행 ) 8