Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

Similar documents
Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.

Data structure: Assignment 1 Seung-Hoon Na October 1, Assignment 1 Binary search 주어진 정렬된 입력 파일이 있다고 가정하자. 단, 파일내의 숫자는 공백으로 구 분, file내에 숫자들은

(define (domain blocksworld (:requirements :strips :typing (:types block (:predicates (on?x - block?y - block (ontable?x - block (clear?x - block (hol

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

177


Artificial Intelligence: Assignment 1 Seung-Hoon Na October 16, A* Algorithm 본 과제에서는 M N Grid world에서 장애물이 랜덤(random)하게 배치되고, 시작 지점에서 장애물을 피해 목

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

텀블러514

PowerPoint 프레젠테이션

¿ÀǼҽº°¡À̵å1 -new

Ch 8 딥강화학습

Data structure: Assignment 3 Seung-Hoon Na December 14, 2018 레드 블랙 트리 (Red-Black Tree) 1 본 절에서는 레드 블랙 트리를 2-3트리 또는 2-3-4트리 대한 동등한 자료구조로 보고, 두 가지 유형의 레

Ch 1 머신러닝 개요.pptx

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

김기남_ATDC2016_160620_[키노트].key

Print

R을 이용한 텍스트 감정분석

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

< B3E220C3DFB0E8C1BEC7D5C7D0BCFAB4EBC8B820B9D720C1A4B1E2C3D1C8B820BEC8B3BBC0E E31302E E687770>

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

딥러닝 첫걸음

Structure and Interpretation of Computer Programs: Assignment 3 Seung-Hoon Na October 4, George (아래 3개의 문제에 대한 구현이 모두 포함된 george.rkt파일을 제출하시오.

歯목차.PDF

레이아웃 1

Data Industry White Paper

DeepDive_ APT_....

PowerPoint 프레젠테이션

04 Çмú_±â¼ú±â»ç

PowerPoint 프레젠테이션

<313120C0AFC0FCC0DA5FBECBB0EDB8AEC1F2C0BB5FC0CCBFEBC7D15FB1E8C0BAC5C25FBCF6C1A42E687770>

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

방송공학회논문지 제18권 제2호

슬라이드 1

77

IPAK 윤리강령 나는 _ 한국IT전문가협회 회원으로서 긍지와 보람을 느끼며 정보시스템 활용하 자. 나는 _동료, 단체 및 국가 나아가 인류사회에 대하여 철저한 책임 의식을 가진 다. 나는 _ 활용자에 대하여 그 편익을 증진시키는데 최선을 다한다. 나는 _ 동료에 대해

e- 11 (Source: IMT strategy 1999 'PERMISSION ' ) The World Best Knowledge Providers Network

1. What is AX1 AX1 Program은 WIZnet 사의 Hardwired TCP/IP Chip인 iinchip 들의성능평가및 Test를위해제작된 Windows 기반의 PC Program이다. AX1은 Internet을통해 iinchip Evaluation

<312E20C0AFC0CFC4B3B5E55F C0FCC0DAB1E2C6C720B1B8B8C5BBE7BEE7BCAD2E687770>

60

(p47~53)SR


비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Chap 6: Graphs

Run 봄 연습 Mar 18 Mar 24, 2018, Week 3 문제 1. 초코바 입력 파일: 출력 파일: 시간 제한: 메모리 제한: standard input standard output 1 seconds 128 megabytes H W 격자 모양의 초콜릿이 있다.

(001~031)15초등개뿔1-1_교부.ps

< DB9CCB7A1B1B3C0B020C3BCC7E8B0FC20C0CCC0FC20B1B8C3E0C0BB20C0A7C7D120BCB3B0E820BFACB1B820B9D720BFEEBFB520C7C1B7CEB1D7B7A520B0B3B9DF2E687770>

; struct point p[10] = {{1, 2, {5, -3, {-3, 5, {-6, -2, {2, 2, {-3, -3, {-9, 2, {7, 8, {-6, 4, {8, -5; for (i = 0; i < 10; i++){ if (p[i].x > 0 && p[i

화판

<C7A5C1F620BEE7BDC4>

PDF_Compass_32호-v3.pdf

RVC Robot Vaccum Cleaner

?

ICT03_UX Guide DIP 1605

Artificial Intelligence: Assignment 2 Seung-Hoon Na October 20, Map coloring 본 과제에서는 M N Grid world 지도상에서 각 region이 rectangle또는 polyomino유형으로 주

사회통계포럼

Web Scraper in 30 Minutes 강철

- 2 -

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

PowerPoint 프레젠테이션

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

Microsoft Word - logic2005.doc

표현의 자유

02 _ The 11th korea Test Conference The 11th korea Test Conference _

15_3oracle

REP - networkx - 019, JULY 어 있고 Windows 계열도 지원하지만, Winodws OS의 경우 많은 버그를 가지고 있기 때문에 현재 Windows 운영 체제와 정상적으로 호환되는 패키지는 NetworkX 이다. 각 패키지의 종류와 각

와플-4년-2호-본문-15.ps

untitled

FMX M JPG 15MB 320x240 30fps, 160Kbps 11MB View operation,, seek seek Random Access Average Read Sequential Read 12 FMX () 2

untitled

¼øâÁö¿ª°úÇÐÀÚ¿ø

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

Oracle Apps Day_SEM

Microsoft PowerPoint - chap04-연산자.pptx

Bigdata가 제공하는 구체적인 혜택과 변화 양상 기업의 데이터 기반의 의사결정 시스템 구축 의지 확대 양상 빅데이터를 활용한 경영 및 마케팅 지속적인 증가세 뚜렷 빅데이터를 도입한 기업은 사전 기대를 뛰어넘는 효과를 경험 본 조사 내용은 美 BARC- Researc

ISP and CodeVisionAVR C Compiler.hwp

, 2). 3),. II , 2 5. (game client software) (game server software). (character). (level up),,,, (item). (End User License Agreement, EULA.)

1. 자바프로그램기초 및개발환경 2 장 & 3 장. 자바개발도구 충남대학교 컴퓨터공학과

기획 1 서울공대생에게 물었다 글 재료공학부 1, 이윤구 재료공학부 1, 김유리 전기정보공학부 1, 전세환 편집 재료공학부 3, 오수봉 이번 서울공대생에게 물었다! 코너는 특별히 설문조사 형식으로 진행해 보려고 해 요. 설문조사에는 서울대학교 공대 재학생 121명, 비

Reinforcement Learning & AlphaGo

12¿ù 1~30

2힉년미술

The characteristic analysis of winners and losers in curling: Focused on shot type, shot accuracy, blank end and average score SungGeon Park 1 & Soowo


Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

Lab10

SIGIL 완벽입문

(JBE Vol. 24, No. 1, January 2019) (Special Paper) 24 1, (JBE Vol. 24, No. 1, January 2019) ISSN 2287-

<32392D342D313020C0FCB0C7BFED2CC0CCC0B1C8F12E687770>

CTS사보-2월

Pattern Recognition

Operation-name: 악성행위의종류를말하며, Sending SMS Calling Sending sensitive information Converting data 로분류합니다. Operation-target: 악성행위의목표물을말하며, Premium-rate SM

untitled

< C0FCB8C15FC0A5BFEB2E696E6464>

Transcription:

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, 2018 1 1.1 Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제 6.5에서 찾아볼 수 있다. http://incompleteideas.net/book/bookdraft2017nov5.pdf Windy gridworld는 다음 그림과 같이 8 7 Grid world로, Agent는 up, down, right, left의 4가지 action을 수행하면서 시작 상태 S에서 목표 상태 G로 도달 하는 것이 목적이다. 추가로, 중앙의 columns들에 바람(wind)이 있어서 이 영역 에서는 Agent가 up방향으로 해당 바람의 세기(strength)만큼 이동하게 된다. 예를 들어, Agent가 G의 바로 왼쪽에서 right를 수행하면 G보다 2칸 더 위에 위치하게 된다. Agent가 G의 바로 오른쪽에서 left를 수행하면 G보다 1칸 더 위에 위치 하게 된다. (즉, Agent가 이동을 시작 할 때 위치의 column상 strength만큼 위로 이동한후 해당 action을 수행하는 것과 같다). Windy gridworld는 Undiscounted espisodic task로 goal에 도달할때마다 reward 가 1씩 주어진다. 1.2 Sarsa와 Q-learning구현 (python code작성) 위의 Windy gridworld에 대해서 -greedy action를 이용한 경우 Sarsa와 Q-learning 을 구현하시오 (python code). 이때, = 0.1, α = 0.5 로 한다. 참고로, Sarsa와 Q-learning의 기본 알고리즘은 다음과 같다. 1

1.3 Sarsa와 Q-learning학습 결과 확인 Sarsa와 Q-learning각각에 대해서 학습한 결과의 Q values와 optimal policy는 별 도의 파일로 저장하고 이를 출력하는 python code를 작성하시오. 출력결과도 report하라. 1.4 Sarsa와 Q-learning 시물레이션 Sarsa와 Q-learning을 시물레이션하여 다음과 같이 time steps별로 수행된 epicodes수에 대한 curves를 비교하시오. (하나의 그래프에서 Sarsa와 Q-learning 곡 선이 비교되도록 하면 된다.) 2

2 Pytorch: Tutorial Pytorch를 설치 (https://pytorch.org/) 하여 아래 튜토리얼을 통해 기본 구조 및 학습 및 구현 방법을 이해하시오. 단, 동일한 환경상에서 구동 확인을 위해 pytorch 0.4.1 버전을 설치하시오. https://pytorch.org/get-started/previous-versions/ https://pytorch.org/tutorials/ https://pytorch.org/tutorials/beginner/deep learning 60min blitz. html https://pytorch.org/tutorials/beginner/data loading tutorial.html https://pytorch.org/tutorials/beginner/pytorch with examples.html 2.1 Pytorch: ConvNet for MNIST 다음 튜토리얼 자료 및 코드를 이해 및 참고하여 Convolutional networks (ConvNet)에 대해서 간략히 설명하시오. 또한, 튜토리얼 코드에 기반하여 MNIST 데이터셋상에 적용하고 학습완료 후 테스트셋상에서 성능결과를 출력하시오. 튜토리얼 자료: http://adventuresinmachinelearning.com/convolutional-neural-networks-tutorial 코드: https://github.com/adventuresinml/adventures-in-ml-code/blob/ master/conv net py torch.py 추가로, Assignment 5의 MLP의 모델들과 테스트셋에서 classification accuracy 성능을 비교하시오. 3 Deep Q Learning 본 문제에서는 breakout게임의 action을 학습하기 위해 DQN (Deep Q Learning)을 구현한다. 다음은 이를 위해 확장해야 하는 pygame 코드이다. https://github.com/aknuck/atari-breakout 위의 Atari breakout게임 화면은 다음과 같다. 3

3.1 DQN (Deep Q-network): Tutorial DQN은 Experience replay로 (s, a, r, s0 )로 구성된 replay memory D를 만들고, 이로부터 random mini-batch Di 를 샘플링하여 Di 에 대한 다음 loss function (squared error)를 줄이도록 network의 parameter를 학습하는 것이다. Li = Es,a,r,s0 Di [r + γmaxa0 Q(s0, a0 ; wold ) Q(s, a, w)] 다음은 DeepMind의 DQN 논문에서 기술된 학습 algorithm이다. (https://www.cs.toronto.edu/ vmnih/docs/dqn.pdf) 3.2 DQN (Deep Q-network): Pytorch 코드 다음 DQN pytorch 코드를 참조하여, DQN 기본구조를 이해하고 정리하시오. https://pytorch.org/tutorials/intermediate/reinforcement q learning.html 4

3.3 DQN (Deep Q-network): 구현 및 확장 DQN pytorch 코드를 참조하여 Q(s, a, w)을 위해 convolutional networks으로 구성하여 w학습을 위한 일반적인 DQN 알고리즘을 구현하고 이를 breakout 학습에 적용하시오. 다음 코드등 open source code를 활용하여 확장해도 된다. (보고서 작성시 출처를 밝힐 것) https://github.com/transedward/pytorch-dqn 단, DQN은 어느 게임에도 적용될 수 있도록 modularity를 유지하도록 하고, breakout code는 state image 및 reward를 추출하기 위해 적절히 일반화되어야 한다. 다음은 추가 comments이다. 1. pytorch버전은 0.4.1이어야 함 2. linux상에서 동작이 되도록 하고, os 버전등도 함꼐 기술 3.4 DQN (Deep Q-network): 적용 DQN을 적용하면서 Training epochs이 진행됨에 따라 Average reward curvs를 그리시오. 다음은 DeepMind 논문의 해당 curves의 예이다. 3.5 DQN (Deep Q-network) 적용: breakout 시물레이션 DQN을 통해 학습된 결과를 저장한 후, 이를 로딩하여 학습된 Agent가 수행한 action에 따라 breakout가 play되도록 시물레이션 test code를 작성하시오. (실행 하면 Agent의 action에 따라 breakout가 자동으로 play되어야 함) 4 제출 내용 및 평가 방식 코드는 python으로 본 과제 결과물로 필수적으로 제출해야 내용들은 다음과 같다. 코드 전체 테스트 결과: 각 내용별 테스트 코드 및 해당 로그 또는 출력 결과. 결과보고서: 구현 방법을 요약한 보고서. 본 과제의 평가항목 및 배점은 다음과 같다. 5

각세부내용의구현정확성및완결성 (80 점 ) 코드의 Readability 및쳬계성 (10 점 ) 결과보고서의구체성및완결성 (10 점 ) 6