AIGo 개발 줂갗 보곀.hwp

Similar documents
딥러닝 첫걸음

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

본보고서는 과학기술정보통신부정보통신진흥기금 을지원받아제작한것으로과학기술정보통신부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소기술 공학연구실추형석선임연

G hwp

PowerPoint 프레젠테이션

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

특허청구의 범위 청구항 1 다수개의 씨줄과 날줄이 교차하도록 도시된 보드판과, 두벌의 돌을 포함하는 바둑규칙을 활용한 대전용 보드게 임 도구에 있어서, 상기 보드판은 M개의 씨줄과 N개의 날줄이 상호 교차하도록 구성된 M N개의 착점을 가지며, 상기 M N개의 착 점

시장분석통계Ⅰ. 서론부록인공신경망의시초라할수있는퍼셉트론 (perceptron) 은 1957 년 Frank Rosenblatt 가발명했고딥러닝의 학습알고리즘인오차역전파법 (back-propagation) 은 1986년 LeCun에의해발명됐다. 이미딥러닝의핵심이론은 198

체스가 그랬듯, 언젠간 바둑에서도 기계가 인간을 넘을 날이 올 것이라고 생각했기 때 문에, 승패 자체가 놀라울지언정 큰 충격은 아닐 것이라 생각했습니다. 그러나 오늘의 대국을 보고는 너무나도 큰 충격을 받아서, 꼭 이 이야기에 대하여 (주변의 관심 있는 사람들과) 의견

Introduction to Deep learning


Data Industry White Paper

1217 WebTrafMon II

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

<313620B1E8BFB5BFF52E687770>

Microsoft PowerPoint - chap06-1Array.ppt

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

<4D F736F F F696E74202D203034BECBB0EDB8AEC1F228BECBC6C4B0ED20BECBB0EDB8AEC1F220C0CCBEDFB1E2292E >

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

Network Security - Wired Sniffing 실습 ICNS Lab. Kyung Hee University

(JBE Vol. 24, No. 2, March 2019) (Special Paper) 24 2, (JBE Vol. 24, No. 2, March 2019) ISSN

Ch 1 머신러닝 개요.pptx

PowerPoint 프레젠테이션

Ch 8 딥강화학습

목 차 1. 연구 목적 2. 컴퓨팅 파워와 병렬 컴퓨팅 3. AlphaGo의 계산량 분석 4. 결 론

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE


SOSCON-MXNET_1014

PowerPoint 프레젠테이션

Artificial Intelligence: Assignment 3 Seung-Hoon Na November 30, Sarsa와 Q-learning Windy Gridworld Windy gridworld는 (Sutton 교재 연습문제 6.5) 다음

00_임원소개

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap04-연산자.pptx

Microsoft Word doc

설계란 무엇인가?

SuaKITBrochure_v2.2_KO

PowerPoint 프레젠테이션

APOGEE Insight_KR_Base_3P11

Slide 1

다양한 예제로 쉽게 배우는 오라클 SQL 과 PL/SQL

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.7, No.11, November (2017), pp

BMP 파일 처리

2 김세영 I. 서론 교육방법은 분야에 따라 매우 다양할 수 있 는데 큰 기준으로 구분한다면, 이론을 토대로 교육하는 방식과 경험에 근거하여 교육하는 방 식이 있을 것이다. 그 두 개의 범주는 다른 성 격을 지닌 독립적인 부분으로 간주되는 경우가 많지만 실상 이론이라는

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

3.2 만년패와귀곡사 51 그림 백이가일수하면흑은귀를건드린 다. 그림 흑 6 은순서넘김. 백이 7 로단패를 해소하면흑의 0.5 집승이다. 있다. 정말로죽지않은돌이라면끝내기후에공통빈점을메워야하니, ( 흑돌이죽었다고생각하는자신은그러지않겠지만 ) 흑이

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

44권4호-02

chap 5: Trees

1-1-basic-43p

Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology Vol.8, No.10, October (2018), pp

PowerPoint 프레젠테이션

Eclipse 와 Firefox 를이용한 Javascript 개발 발표자 : 문경대 11 년 10 월 26 일수요일

System Recovery 사용자 매뉴얼

07( ) SA13-48.hwp


THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

슬라이드 1

01 ( ).hwp

PowerPoint Presentation

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

¹Ì·¡Æ÷·³-5±âºê·Î¼Å_1228.ps

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

PowerPoint 프레젠테이션

소성해석

Delving Deeper into Convolutional Networks for Learning Video Representations - Nicolas Ballas, Li Yao, Chris Pal, Aaron Courville arXiv:

수식모드수식의표현법 수학식표현 조남운 조남운 수학식표현

쉽게 풀어쓴 C 프로그래밍

Best of the Best Benchmark Adobe Digital Index | APAC | 2015

커널연구회(

1. GigE Camera Interface를 위한 최소 PC 사양 CPU : Intel Core 2 Duo, 2.4GHz이상 RAM : 2GB 이상 LANcard : Intel PRO/1000xT 이상 VGA : PCI x 16, VRAM DDR2 RAM 256MB

PowerPoint Presentation

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

PowerPoint Presentation

04 Çмú_±â¼ú±â»ç

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

User Guide

RVC Robot Vaccum Cleaner

이도경, 최덕재 Dokyeong Lee, Deokjai Choi 1. 서론

제 3강 역함수의 미분과 로피탈의 정리

금오공대 컴퓨터공학전공 강의자료

12 김명섭 B-RN (2).hwp

UI TASK & KEY EVENT

ArcGIS Desktop 9.2 Install Guide

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

03_queue

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

다중 곡면 검출 및 추적을 이용한 증강현실 책

Parallel Computation of Neural Network

<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

설계란 무엇인가?


빅데이터_DAY key

미래포럼수정(2.29) :36 PM 페이지3 위너스CTP1번 2540DPI 200LPI 미래에 대해 얼마나 알고 계십니까? 새로운 미래, 어떻게 맞이할 것입니까? 오늘보다 나은 내일, 더 큰 미래를 열어갑시다 2014년 아시아 세계경제 33% 차지

Transcription:

AIGo 개발중간보고 AIGolab(https://aigolab.tistory.com) AIGo 프로젝트는지난 2016년 03 월, 한국의이세돌九단과 5번기를벌인 Google DeepMind의인공 지능 AlphaGo 에영감을받아시작됐습니다. AIGo 프로젝트는약 1년 4개월의연구및개발을거쳐 정책망(Policy Network) 를이용해오픈소스바둑인공지능 GNUGo를 3 점접바둑으로이기고, 타이젬 4 급정도의기력을갖출정도로성장했습니다. 정책망의지도학습이끝난지금, 지금까지 AIGo 프로 젝트를진행함에있어 AIGo 의작동원리, 개발당시에생겼던문제점들을담았습니다. 개발환경 AIGo의개발환경은 Intel Xeon E3-1260v6, NVIDIA GTX1080, 16GB RAM, Ubuntu Server 16.04 이며, 개발언어는 Julia를사용하고 Julia의 MXNet, HDF5 패키지를사용하였습니다. Julia 는데이터연산에특화된언어입니다. 그렇기 에행렬연산과대용양데이터처리에특화된언 어이며, MXNet은가볍고빠른딥러닝프레임워크 입니다. HDF5는대용양의데이터를저장하기위한 파일형식입니다. AIGo 구성요소 AIGo는 AIGo가작동하는 Server와 Server에접속 하여대국하는 Client 로구성됩니다. 바둑판은가로세로 19칸씩총 361개의칸으로 구성되어있습니다. 따라서돌의상태를저장할크 기의배열이필요합니다. AIGo는각칸의상태를 표현하기위해 BLACK_STONE, WHITE_STONE, EMPTY 를정의하였습니다. 개수를담은 를 크기의 또한각돌의활로의 liberty_count와활로를담은 liberties 2 차원배열로써정의했습니다. liberty_count는해당위치에돌이있지않으면 -1 을갖게됩니다. 또한돌을드러내는것을구현하 기위해같은색의연결된돌을묶은 groups 역시 크기의 2 차원배열로써정의했습니다. 또 한현재순서를알리는 current_player 와, 게임이 진행중인지혹은종료되었는지를나타내는 is_ended 도정의했습니다. 바둑판에돌을착수하면위의변수들을모두변 경하게됩니다. 그림1. AIGo Server와 Client의통신 AIGo Client는 GTP(Go Text Protocol) 을사용하여 Server 와통신합니다. Client는서버에서받은정보 를 GoGUI 를사용하여화면에출력하게됩니다. 바둑판구현 바둑판구현은바둑인공지능개발에있어필수 적인요소입니다. 바둑은 19줄로구성된판에흑 백양대국자가순서대로한번씩착수하는게임 입니다. 또한돌의활로가 0이되면돌을드러내 게되는데, 이러한바둑의규칙을구현하는것은 바둑인공지능개발의첫번째관문입니다. 정책망설계 바둑판상황 ( ) 에대한착수가능한위치( ) 에둬 야할확률 를만드는것은바둑의무한대 에가까운경우의수 ( ) 와바둑패턴의복잡 성때문에어렵습니다. 그렇기에 Deep Convolutional Neural Network 로정책망을설계하 여 를추정하였습니다. AIGo의정책망은총 8층의 Convolutional Layer 로구성되어있습니다. 정책망의자세한구조는 요. AIGo Data Table 1을참고하세 정책망은단순바둑판상황뿐만아니라여 러가지바둑판의특성들이결합된총 크기의정보가입력됩니다. 자세한내 용은 Data Table 2 에있습니다.

정책망지도학습학습되지않은 AIGo 정책망을학습하기위해 AIgo 정책망을 KGS(KGS Go Server) 의 6단이상의기보를바탕으로학습하여정책망가중치 를구했습니다. 정책망학습은 SGD(Stochastic Gradient Descent) 를이용하여진행됐고, 아래함수의함숫값을줄이는방향으로진행됩니다. log 위상황은돌의활로의개수가 흑이따낸상황입니다. 아래표와같습니다. 0이되어백돌을 정상적인활로데이터는 AIGo 정책망지도학습에선 learning rate는 을, momentum은 를, mini-batch 크기는 를사용하였습니다. 정책망학습시도 1 첫번째정책망지도학습시도는 보, 8,697,068 50,196장의기 개의착점데이터를가지고총 50epoch 까지진행됐습니다. 50epoch AIGo의정책망은 51.3% 를기록했습니다. 학습이후 training-set에대하여정확도 A B C D E 19-1 5-1 -1-1 18-1 5-1 -1-1 17 3-1 -1-1 -1 16-1 -1-1 -1-1 15-1 -1-1 -1-1 14-1 -1-1 -1-1 하지만, 같았습니다. 오류가존재하는학습데이터는아래와 50epoch 학습을마친후, AIGo 정책망의출력값 중가장큰값에착수하도록하여타이젬 정선대국을진행했습니다. 5단과 A B C D E 19 1 4-1 -1-1 18-1 5-1 -1-1 17 3-1 -1-1 -1 16-1 -1-1 -1-1 15-1 -1-1 -1-1 14-1 -1-1 -1-1 결과적으로, 먹여치기등의행위는바둑의규칙에어긋나는것처럼학습되었습니다. 위타이젬 5단과의기보처럼 AIGo의정책망은 학습데이터에없는상황에서도유기적으로문제 를해결하는모습을보였습니다. 하지만, 첫번째 시도에쓰인학습데이터엔활로개수를잘못세 는문제점이존재했습니다.

해당문제는타이젬 8급과의정선대국에서발견 됐는데, 위타이젬 8급과의실전대국기보에서 흑의 175수로먹여치는수를 AIGo가바둑의규칙 에어긋나는자충수로판단하여오류를내보냈습 니다. 하지만이는전혀문제가없는수이며결국 우상귀의백대마는죽었습니다. 또한위문제는대마의사활처리까지영향을미 쳤습니다. [GNUGo( 흑) 3 점접바둑, 백 1 집승] 위기보는정책망으로타이젬 5단과 9점접바둑 을둔기보입니다. 우변에서의전투에서흑의대 마가몰살되었으며, 좌변에서도전투의실패로흑 진이상당히깨져결국 AIGo 가패배했습니다. [ 타이젬 4 급( 흑), 백 12.5 집승] 결국위의심각한문제때문에지금까지학습된 를초기화했습니다. 정책망학습시도 2 첫시도가실패로돌아가고 AIGo 정책망은활로 계산을다시정확하게하여다시학습한결과, 학 습데이터에문제가생기지않아학습성능은더 욱향상되었습니다. 새로운정책망학습에서총 30epoch의학습이후 training-set에대해 52% 의 정확도를기록했습니다. 그결과, AIGo 정책망으로만타이젬 4급을호선 으로이기며, 타이젬 5단과 9점접바둑에서는무 리없이이기며, GNUGo와 3점접바둑도이기는 성과를이륙했습니다. [ 타이젬 5 단( 백), 9 점접바둑흑불계승]

하지만, 여전히문제가존재합니다. 위기보는타이젬 8단과 5 점접바둑기보입니다. AIGo는흑34로제압된돌한점을움직이는선택 을했습니다. 하지만이는무리수입니다. AIGo 정 책망이제시한위바둑판에서사람이둘확률이 두번째로높은수로 A로표시된곳을제시했습니 다. 실전에서의수와 A 두착점을 MCTS 알고리즘 을통해해당수의가치를판단하도록하여개선 할수있을것으로예상됩니다. 결론 AIGo 의정책망은지도학습만거치고서타이젬 3~4 급수준에도달했습니다. 중간활로계산의문 제로인해학습결과가좋지않았으며, 학습데이 터의문제가있을때수렴속도보다문제가없을 의수렴속도가더빠른것으로보아, 학습데이 터의오류가학습효율에영향을미친다는사실 또한알수있었습니다. AIGo 향후현바둑판상황( ) 에서의승률 를 구하는가치망을구현하고, fast rollout policy를 구현할예정입니다.

Data Table 1 정책망구조 층이름 패치 필터 활성함수 conv1 ReLU bn1 conv2 ReLU bn2 conv3 ReLU bn3 conv4 ReLU bn4 conv5 ReLU bn5 conv6 ReLU bn6 conv7 ReLU bn7 conv8 Softmax (conv는 convolutional layer 이고, bn은 batch normalization 입니다.)

Data Table 2 정책망입력데이터 특성이름 크기 설명 Stone Color 바둑판위각칸의정보. ( 빈칸/ 내돌/ 상대돌) Ones 1로채워진상수층 Turns Since 이돌이몇수전에놓였는가? Liberties 돌의활로 1 개수 Capture Size 해당위치에착수시따내게되는돌의수 Self Atari Size 상대가돌을놓았을때잃게되는돌의수 Liberties After Move 해당위치에착수시돌의활로의개수 Sensibleness 바둑의규칙에맞는수인가? Zeros 0으로채워진상수층 1 돌이뻗어갈수있는주위의빈칸, 활로의개수가 0 이되면돌을따내게됨.