Artificial Intelligence: Project 3 Seung-Hoon Na November 19, Sarsa와 Q-learning 1.1 Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음 그림

Similar documents
Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

Data structure: Assignment 1 Seung-Hoon Na October 1, Assignment 1 Binary search 주어진 정렬된 입력 파일이 있다고 가정하자. 단, 파일내의 숫자는 공백으로 구 분, file내에 숫자들은

Ch 8 딥강화학습

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

(define (domain blocksworld (:requirements :strips :typing (:types block (:predicates (on?x - block?y - block (ontable?x - block (clear?x - block (hol

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>


G hwp

Artificial Intelligence: Assignment 1 Seung-Hoon Na October 16, A* Algorithm 본 과제에서는 M N Grid world에서 장애물이 랜덤(random)하게 배치되고, 시작 지점에서 장애물을 피해 목

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

PowerPoint 프레젠테이션

Data structure: Assignment 3 Seung-Hoon Na December 14, 2018 레드 블랙 트리 (Red-Black Tree) 1 본 절에서는 레드 블랙 트리를 2-3트리 또는 2-3-4트리 대한 동등한 자료구조로 보고, 두 가지 유형의 레

PowerPoint 프레젠테이션

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

첨 부 1. 설문분석 결과 2. 교육과정 프로파일 169

3Àӱݿ¬±¸º½-ÁÖÁ¦¹ßÇ¥ÃÖÁ¾

[로플랫]표준상품소개서_(1.042)

歯목차.PDF

15_3oracle

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Print

Chap 6: Graphs

Structure and Interpretation of Computer Programs: Assignment 3 Seung-Hoon Na October 4, George (아래 3개의 문제에 대한 구현이 모두 포함된 george.rkt파일을 제출하시오.

<C3D6C0E7C3B528BAB8B5B5C0DAB7E1292D322E687770>

(......).hwp

Ch 1 머신러닝 개요.pptx

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Manufacturing6

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

FreeBSD Handbook

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

FreeBSD Handbook

Sequences with Low Correlation

thesis-shk

Microsoft PowerPoint - eSlim SV [080116]

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

슬라이드 1

Microsoft PowerPoint - eSlim SV [ ]

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

<B9CEC1D6C1A4C3A5BFACB1B8BFF82DBBE7B6F7B0FAC1A4C3A5BABDC8A328C6EDC1FD292E687770>

와플-4년-2호-본문-15.ps

딥러닝 첫걸음

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

04 Çмú_±â¼ú±â»ç

R을 이용한 텍스트 감정분석

DeepDive_ APT_....

164

1_12-53(김동희)_.hwp

1.PDF

歯경영혁신 단계별 프로그램 사례.ppt

에너지경제연구 제13권 제1호

김기남_ATDC2016_160620_[키노트].key

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

ch3.hwp

응답하라, 메가스터디 재수를 말한다. Ⅰ. 재수 大 해부 예전에 재수생이라고 하면 성적이 좋지 않아 대학입시에 실패한 학생 이라는 인식이 지배 적이었다. 하지만 최근에는 재수를 목표를 향한 재도전 이라고 긍정적으로 평가하는 경 향이 뚜렷해졌다. 때문에 대학

Microsoft Word - Lab.4

REP - networkx - 019, JULY 어 있고 Windows 계열도 지원하지만, Winodws OS의 경우 많은 버그를 가지고 있기 때문에 현재 Windows 운영 체제와 정상적으로 호환되는 패키지는 NetworkX 이다. 각 패키지의 종류와 각

<312E20C0AFC0CFC4B3B5E55F C0FCC0DAB1E2C6C720B1B8B8C5BBE7BEE7BCAD2E687770>

untitled

Reinforcement Learning & AlphaGo

SW¹é¼Ł-³¯°³Æ÷ÇÔÇ¥Áö2013

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

The Game Culture Column 게임문화칼럼 2011 Copyright, 2011 The Game Culture Column 2011 게임문화칼럼 tel fa

(p47~53)SR

ETL_project_best_practice1.ppt

< B5BFBEC6BDC3BEC6BBE E687770>

(001~031)15초등개뿔1-1_교부.ps

Run 봄 연습 Mar 18 Mar 24, 2018, Week 3 문제 1. 초코바 입력 파일: 출력 파일: 시간 제한: 메모리 제한: standard input standard output 1 seconds 128 megabytes H W 격자 모양의 초콜릿이 있다.

1

레이아웃 1

Microsoft PowerPoint - CoolMessenger_제안서_라이트_200508

1 n dn dt = f v = 4 π m 2kT 3/ 2 v 2 mv exp 2kT 2 f v dfv = 0 v = 0, v = /// fv = max = 0 dv 2kT v p = m 1/ 2 vfvdv 0 2 2kT = = vav = v f dv π m

경영과학(1) 본문

<C7A5C1F620BEE7BDC4>

화판

PDF_Compass_32호-v3.pdf

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

RVC Robot Vaccum Cleaner

11-19스포츠과학 145호 내지.indd

untitled

<C0B1B9DABBE7B4D E687770>

서현수

= Fisher, I. (1930), ``The Theory of Interest,'' Macmillan ,

<B1E2C8B9BDC3B8AEC1EE2DC0CCC8ABBCAE2D30342E687770>

빅데이터_DAY key

< C0CEC5CDB3DDB1A4B0EDBBEABEF7C0C7C7A5C1F62D322E6A7067>

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

100, Jan. 21, 호, Jan. 21, , Jan. 21, 2005

3장

무제-1

쓰리 핸드(삼침) 요일 및 2405 요일 시간, 및 요일 설정 1. 용두를 2의 위치로 당기고 반시계방향으로 돌려 전날로 를 설정합니다. 2. 용두를 시계방향으로 돌려 전날로 요일을 설정합니다. 3. 용두를 3의 위치로 당기고 오늘 와 요일이 표시될 때까지 시계방향으로

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

*165호_전체


(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

ASETAOOOCRKG.hwp

Transcription:

Artificial Intelligence: Project 3 Seung-Hoon Na November 19, 2019 1 Sarsa와 Q-learning 1.1 Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음 그림과 같이 8 7 Grid world 로, Agent는 up, down, right, left의 4가지 action을 수행하면서 시작 상태 S에서 목표 상태 G로 도달하는 것이 목적이다.1 추가로, 중앙의 columns들에 바람 (wind)이 있어서 이 영역에서는 Agent가 up방향으로 해당 바람의 세기(strength) 만큼 이동하게 된다. 예를 들어, Agent가 G의 바로 왼쪽에서 right를 수행하면 G 보다 2칸 더 위에 위치하게 된다. Agent가 G의 바로 오른쪽에서 left를 수행하면 G보다 1칸 더 위에 위치하게 된다. (즉, Agent가 이동을 시작 할 때 위치의 column 상 strength만큼 위로 이동한후 해당 action을 수행하는 것과 같다). Windy gridworld는 Undiscounted espisodic task로 goal에 도달할때마다 reward가 1씩 주어진다. 1.2 Sarsa와 Q-learning구현 위의 Windy gridworld에 대해서 epsilon-greedy action를 이용한 경우 Sarsa와 Q-learning을 구현하시오 (python code). 이때, = 0.1, α = 0.5 로 한다. 참고로, Sarsa와 Q-learning의 기본 알고리즘은 다음과 같다. 1 해당 연습문제에 대한 원문은 다음 Sutton http://incompleteideas.net/book/bookdraft2017nov5.pdf 1 교재를 참고할 것.

1.3 Sarsa와 Q-learning학습 결과 확인 Sarsa와 Q-learning각각에 대해서 학습한 결과의 Q values와 optimal policy는 별 도의 파일로 저장하고 이를 출력하는 python code를 작성하시오. 출력결과도 report하라. 1.4 Sarsa와 Q-learning 시물레이션 Sarsa와 Q-learning을 시물레이션하여 다음과 같이 time steps별로 수행된 epicodes수에 대한 curves를 비교하시오. (하나의 그래프에서 Sarsa와 Q-learning 곡 선이 비교되도록 하면 된다.) 2

2 Deep reinforcement learning 본 문제에서는 Breakout게임의 action을 학습하기 위해 Convolutional network을 이용한 deep reinforcement learning을 구현한다. 다음은 이를 위해 확장해야 하는 pygame 코드이다. https://github.com/aknuck/atari-breakout 참고로 위의 코드를 설치하여 실행한 게임 화면은 아래와 같다. 또는, 다음의 breakout 코드를 확장해도 된다. https://github.com/johncheetham/breakout 위의 breakout게임 화면은 다음과 같다. 3

2.1 DQN (Deep Q-network) 구현 DQN은 Experience replay로 (s, a, r, s0 )로 구성된 replay memory D를 만들고, 이로부터 random mini-batch Di 를 샘플링하여 Di 에 대한 다음 loss function (squared error)를 줄이도록 network의 parameter를 학습하는 것이다. Li = Es,a,r,s0 Di [r + γmaxa0 Q(s0, a0 ; wold ) Q(s, a, w)] 다음은 DeepMind의 DQN 논문에서 기술된 학습 algorithm이다. (https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf) Q(s, a, w)을 위해 convolutional networks으로 구성하여 w학습을 위한 일 반적인 DQN 알고리즘을 구현하고 이를 breakout학습에 적용하시오. 단, DQN은 어느 게임에도 적용될 수 있도록 modularity를 유지하도록 하고, Atari breakout code는 state image 및 reward를 추출하기 위해 적절히 수정 및 확장하시오. 다음은 추가 comments이다. 1. pytorch 1.0이상에서 호환되도록 작성하라 (linux ubuntu 플랫폼) 4

2. convolutional networks의 딥 모델 구조는 3-4개 층 정도로 적절히 구성하면 된다. 3. code실행을 위한 간단한 README 제출할 것 2.2 DQN (Deep Q-network) 적용 DQN을 적용하면서 Training epochs이 진행됨에 따라 Average reward curvs를 그리시오. 다음은 DeepMind 논문의 해당 curves의 예이다. 2.3 DQN (Deep Q-network) 적용: Breakout 시물레이션 DQN을 통해 학습된 결과를 저장한 후, 이를 로딩하여 학습된 Agent가 수행한 action에 따라 breakout가 play되도록 시물레이션 code를 작성하시오. (실행하면 Agent의 action에 따라 atari breakout가 자동으로 play되어야 함) 2.4 Actor-Critic model 구현 Actor-critic model은 value network v(s, w)와 policy network π(s, θ) 두고 value network의 parameter를 갱신할 때는 TD-learning을, policy network의 parameter 를 갱신할 때는 policy gradient의 q 함수대신 advantage function Aπθ (s, a)를 사 용한 다음의 policy gradient를 사용한다. J(θ) = Eπθ [ log π(a St, θ)aπθ (S, a)] Actor-critic model의 학습 algorithm은 다음과 같다 (Sutton 교재 13.5절 참조) 5

v(s, w)및 Q(s, a, θ)을 위해 convolutional networks으로 구성하여 w, θ 파라미터을 위한 일반적인 Actor-Critic 알고리즘을 구현하고 이를 breakout 학습에 적용하시오. 단, 마찬가지로 Actor-critic model은 어느 게임에도 적용될 수 있도록 modularity를 유지하도록 하고, Atari breakout code는 state image 및 reward를 추출하기 위해 적절히 수정 및 확장하시오. 다른 조건은 DQN과 유사하게 설정할 것. 2.5 Actor-Critic model 적용 및 시물레이션 마찬가지로, Actor-Critic model을 적용하면서 Training epochs이 진행됨에 따라 Average reward curvs를 그리고, 이를 DQN과 비교하시오. 또한, Actor-Critic model을 통해 학습된 결과를 저장한 후, 이를 로딩하여 학 습된 Agent가 수행한 action에 따라 breakout가 play되도록 시물레이션 code를 작성하시오. (실행하면 Agent의 action에 따라 breakout가 자동으로 play되어야 함) 2.6 제출 코드 및 결과: 요약 Deep reinforcement learning문제에서 제출해야 하는 코드 및 결과물은 다음과 같다. 1. DQN을 이용한 Breakout 학습기 (학습 결과 저장) 2. DQN을 이용한 Breakout 테스트: performance curve 도출 3. DQN을 이용한 Breakout 테스트: simulation (자동 실행) 4. Actor-critic model을 이용한 Breakout 학습기 (학습 결과 저장) 6

5. Actor-critic model을 이용한 Breakout 테스트: performance curve 도출 6. Actor-critic model을 이용한 Breakout 테스트: simulation (자동 실행) 3 제출 내용 및 평가 방식 코드는 python으로 본 과제 결과물로 필수적으로 제출해야 내용들은 다음과 같다. 코드 전체 테스트 결과: 각 내용별 테스트 코드 및 해당 로그 또는 출력 결과. 결과보고서: 구현 방법을 요약한 보고서. 본 과제의 평가항목 및 배점은 다음과 같다. 각 세부내용의 구현 정확성 및 완결성 (80점) 코드의 Readability 및 쳬계성 (10점) 결과 보고서의 구체성 및 완결성 (10점) 7