2018. 1. 23. AlphaGo Zero 의인공지능알고리즘 추형석선임연구원
본보고서는 과학기술정보통신부정보통신진흥기금 을지원받아제작한것으로과학기술정보통신부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소기술 공학연구실추형석선임연구원 (hchu@spri.kr)
구글딥마인드가개발한인공지능바둑프로그램 AlphaGo는지난 2017년 5월중국의바둑신성커제 9단과대결에서완승한뒤바둑계에서화려하게은퇴했다. 커제 9단과대결했던 AlphaGo는과거이세돌 9단과대결했던 AlphaGo보다완벽에가까울정도로개선됐다. 그렇다면어떻게개선된것일까? 딥마인드는커제 9단의대국이후개선된형태의 AlphaGo에대해구체적인내용을공개한다고밝혔다. 딥마인드의최고경영자인데미스하사비스는특히개선된 AlphaGo가인간의기보를전혀학습하지않았고, 컴퓨터 1대수준에서경기에임했다는사실이기존과의차별점이라고밝히면서대중의궁금증을자아냈다. 2017년 10월세계최고의학술지네이처에는 Mastering the Game of Go without Human Knowledge 라는제목의논문이게재됐다. 바로개선된 AlphaGo의세부내용을담은 AlphaGo Zero에관한논문이다. 사실 AlphaGo를개선한다는것은매우도전적인영역으로인식됐다. 그이유는역설적으로 AlphaGo가사용한인공지능알고리즘때문이다. 과거 AlphaGo는전문바둑기사의착수선호도예측과바둑판상태의승률을계산하기위해심층학습 (Deep Learning) 을활용했다. 심층학습의가장큰한계는예측한결과에대한인과관계를설명할수없다는점이다. 다시말하면, 과거 AlphaGo가실수했던측면의어떤부분이잘못됐는지를전혀알수없다는것이다. 그러나 AlphaGo Zero는이러한우려를불식시키며개선에성공하고바둑계의최정상자리를차지했다. 이번보고서에서는 AlphaGo Zero의인공지능알고리즘을분석해보고자한다. 특히과거 AlphaGo와의어떠한차별점이있는지에대해집중적으로다룰것이다. 결론적으로 AlphaGo Zero는인간의기보를전혀학습하지않았고, 자체대국결과를학습데이터로활용하는방법을시도했다. 그결과 AlphaGo Zero는최정상바둑실력을입증했다. 수천년을이어온바둑이약 40일간학습한인공지능에정상을내준것이다.
AlphaGo, an artificial intelligence Go program developed by Google's Deep Mind, retired brilliantly from Go community after winning against Ke Jie in May, 2017. AlphaGo, which confronted Ke Jie, was improved to be closer to perfection than the AlphaGo, which confronted Lee Se-dol. So how did it improve? Deep Mind announced that it will release specific details of the improved version of AlphaGo since competition with Ke Jie. Deep Mind CEO Chief Executive Demis Hassabis said that the fact that the improved AlphaGo did not learn human knowledge at all and that the game was played at the level of one computer was a distinction from the past. In October, 2017, the world's leading journal Nature published a paper entitled Mastering the Game of Go without Human Knowledge. It is an article on AlphaGo Zero which contains details of the improved AlphaGo. In fact, improving AlphaGo was seen as a very challenging area. The reason is paradoxically because of the AI algorithm used by AlphaGo. In the past, AlphaGo used deep learning to calculate the winning rate and preference positions of professional Go player. The greatest limitation of deep learning is that it can not account for the causal relationship between predicted results. In other words, in the past, AlphaGo never knew what went wrong in order to make up the mistake. However, AlphaGo Zero succeeded in improving the situation by eliminating these concerns and took the top spot in the Go. In this report, I try to analyze AlphaGo Zero's artificial intelligence algorithm. In particular, I will focus on what differentiates AlphaGo from the past. In conclusion, AlphaGo Zero has not trained human Go data, but tried to use self-play data for training. AlphaGo Zero proved to be the best player in the league with its excellent results. Thousands of years passed Go history gave the summit to the learned artificial intelligence for about 40 days.
1. 배경 1 2. AlphaGo Zero 의특징 4 3. AlphaGo Zero 의인공지능알고리즘 8 4. 결론 11
1. Backgrounds 1 2. Features of AlphaGo Zero 4 3. AI Algorithms of AlphaGo Zero 8 4. Conclusions 11
1. 배경 지난 2016년 3월이세돌 9단과대결하여 4:1로승리한 AlphaGo는인류역사의큰획을긋는성과로기억됐다. 당시 AlphaGo는완벽하지않은프로그램이었다. 의미없는수를두거나, 계가시점에서실수를하는등개선의여지가남아있었기때문이다. 또한슈퍼컴퓨터급의계산장비를활용했다는점에서형평성의논란도있었다. 그러나 AlphaGo가보여준바둑실력은이미최정상임을입증한상황이었기때문에, 더성능을높인다는것은도전의영역이었다. 이세돌 9단과의대결이후 AlphaGo의성능을향상시킨다는점은요원할것으로예측됐다. 가장큰이유는역설적으로 AlphaGo의알고리즘때문이다. AlphaGo는전문바둑기사의착수선호도예측과현재바둑판상태의승리할확률을예측하기위해인공신경망 (Artificial Neural Network) 기술을활용했다. AlphaGo의인공신경망은이미지분류에최적화된합성곱신경망 (Convolutional Neural Network) 으로, 현재바둑판을 48가지특징 (Feature map) 으로세분화하여학습에활용했다. 인공신경망기술은신경계의정보전달기능을모사한방법론으로현대심층신경망 (Deep Neural Network) 의모태가된다. 인공신경세포 (Artificial Neuron) 를여러층쌓은구조인심층신경망은복잡한비선형적인현상을분류하고예측하는데활용된다. 그러나심층신경망에는가장큰단점이존재한다. 바로입력과출력의상관관계를설명할수없다는점이다. 다시말하자면 AlphaGo가범했던실수에대한원인이무엇인지규명해내기어렵다는것이다. AlphaGo 개발회사인딥마인드 (DeepMind) 는이러한상황을개선하기위해탐색알고리즘인몬테-카를로트리탐색 (Monte-Carlo Tree Search, MCTS) 을향상시켰다. MCTS의개념은탐색알고리즘으로부터출발한다. 1) 탐색알고리즘은기존바둑인공지능에서가장널리활용되는방법이다. 탐색알고리즘의기능은수를읽는행위와비슷하게볼수있다. 바로현재바둑판상태에서승리할수있는수를예측하는것이다. 바둑게임을비롯한보드게임 (board game) 2) 은구조상게임의진행상황을트리 (Tree) 형태로표현할수있다. 따라서승리할확률이매우높은수를찾는것은트리를탐색하여최적의경로를찾는행위로볼수있다. 1) 자세한내용은 AlphaGo 의인공지능알고리즘 소프트웨어정책연구소 (2016) 이슈리포트참고 2) 경기자두명이서로번갈아가며행위를하는게임으로바둑, 체스, 장기등이해당함. 1
그러나현재바둑판상태에서승리할확률을정확하게아는것은매우어렵다. 바둑경기는경우의수가거의무한대에가깝기때문이다. AlphaGo는특정바둑판상태의승률을정확하게근사하기위해인공신경망알고리즘을활용했다는점이기존접근법과차별점이다. 인공신경망기술역시만능은아니기때문에, 간단한규칙에의거한임의 (random) 시뮬레이션과그결과를되먹임 (feedback) 하여승률예측성능을향상시켰다. 이접근방법이 MCTS로일반적인트리탐색 (Tree Search) 과구분된다. 몬테-카를로는일종의임의시뮬레이션을나타내는것으로이해할수있다. 몬테 - 카를로트리탐색 (MCTS) 알고리즘 < 바둑게임에서의 MCTS의진행방식 > 1선택 : 현재바둑판상태에서특정경로로수읽기를진행 2확장 : 일정수이상수읽기가진행되면그지점에서한단계더착수지점을예측 ( 게임트리의확장 ) 3시뮬레이션 : 2에서선택한노드에서바둑이종료될때까지고속시뮬레이션수행. 속도가빠르기때문에여러번수행할수있으나착수의적정성은떨어짐 4역전파 : 3의결과를종합하여확장한노드의가치 (2에서한단계더착수한것의승산 ) 를역전파하여해당경로의승산가능성을갱신 2
딥마인드는이세돌 9단과의대결이후에 AlphaGo의 MCTS를개선시키는데집중했다. 이세돌 9단과대결한 AlphaGo( 이하 AlphaGo Lee) 는 16만개의전문바둑기보에서추출한 2,940만개의바둑판상태를학습하여착수선호도를예측하고, MCTS를활용해대국을진행했다. AlphaGo Master는 AlphaGo Lee와유사하게전문바둑기사의기보를바탕으로학습한인공신경망을활용한다. AlphaGo Master는 AlphaGo Lee의인공신경망을개선하기위해자체대국의 MCTS에서산출한착수선호도를추가적으로학습한것이차별점이다. 다시말하자면 AlphaGo Lee에서임의시뮬레이션은단순히트리탐색에활용됐으나, AlphaGo Master에서는시뮬레이션결과를학습하는부분에도활용했다. AlphaGo Master는이세돌 9단과의대국이후온라인바둑사이트 Tygem에 Master 라는아이디로 60전전승 (2017년 1월기준 ) 을거뒀다. 전세계의쟁쟁한 9단기사들과의대국에서모두승리했다는사실은앞서기술한알고리즘의개선이상당한성능향상을달성했다는것이다. 대국에참여했던바둑기사들은 AlphaGo Master가인간이바둑을두는틀에서벗어났고, 인공지능의바둑실력이인간을완전히뛰어넘을가능성이높다고평했다. 또한지난 2017년 5월개최된 Future of Go Summit 에서 AlphaGo Master는중국의바둑신성커제 9 단과대결하여 3:0으로승리했다. 딥마인드는 AlphaGo Lee에서제기됐던문제를해결하기위해인공신경망기술에서해결책을찾기보다전체적인알고리즘의변화를모색했다. 인과관계가불분명한인공신경망을개선하는것은모래사막에서바늘을찾는것만큼어려운일이다. 인공신경망의개선은수많은모수 3) 를미세조정하며경험적으로추정하는것이일반적이기때문이다. 그러나 AlphaGo Master 역시전문바둑기사의기보에의존한결과였다. AlphaGo Master는 MCTS의자체대국결과를인공신경망에학습시켰다는점이차별점이나, 인공신경망은과거인간의기보를학습한정보로구축된것이기때문이다. 그러나딥마인드의최고경영자데미스하사비스는 2017년 1월한국제학회에서인간의기보를전혀학습하지않은 AlphaGo를개발중이라고밝혔다. AlphaGo Master를뛰어넘는 AlphaGo의내용은지난 2017년 10월세계최고의학술지인네이처에소개됐다. 이것이이번보고서에서다루고자하는 AlphaGo Zero다. 2장에서는 AlphaGo Zero의특징을살펴보고, 3장에서는 AlphaGo Zero 의인공지능알고리즘에대해서소개한다. 3) 학습률, 은닉층의개수, 합성곱신경망의크기, 활성함수의선택등많은모수가존재 3
2. AlphaGo Zero 의특징 AlphaGo Zero의상세내용은 2017년 10월네이처에발간된 Mastering the Game of Go without Human Knowledge 에서확인할수있다. 먼저제목에서도알아낼수있듯이 AlphaGo Zero는인간의바둑기보를전혀활용하지않고개발한바둑인공지능이다. AlphaGo Zero가기존 AlphaGo Lee( 이세돌 9단과대결 ), 혹은 AlphaGo Master ( 커제 9단과대결 ) 와의차별점은크게네가지가있다. 먼저 1무작위방식 (random play) 의자체대국을통해강화학습 (reinforcement learning) 을활용한점이다. 과거두가지버전의 AlphaGo는약 16만개의전문바둑기보를학습한반면, AlphaGo Zero는스스로바둑을두면서학습하는접근법을선택했다. 2두번째차별점은인공신경망학습에활용된특징맵 (feature map) 이다. AlphaGo Zero는흑돌과백돌두가지만을활용했다. 기존 AlphaGo는흑돌, 백돌을포함한눈, 활로, 꼬부림등 48가지특징을활용했다는점을상기하면, AlphaGo Zero 는오히려더단순한접근방법을취했다. 3다음으로인공신경망의형태와구조의변화다. AlphaGo Lee는 [ 그림 2 ( 좌 )] 와같이두가지형태의인공신경망을활용했다. 정책망 (Policy Network) 은전문바둑기사의착수선호도를학습한인공신경망이다. 특정바둑판상태가정책네트워크에입력으로들어가게되면, 출력으로규칙상착수가능한모든수에대해서착수선호도 ( 확률값 ) 가산출된다. 이착수선호도는 MCTS에서트리를확장하는시점에활용된다. 정책망의기능은게임트리의폭을줄이는용도로, 전문바둑기사의관점에서착수할지점을선별하는역할을한다. 가치망 (Value Network) 은현재바둑판상태에서승리할확률을찾아내는역할을한다. 앞서기술했듯이바둑은거의무한대경우의수를가지고있기때문에, 특정바둑판상태의승률을정확히예측하기는어렵다. 따라서승률을예측하기위한접근을취할수밖에없다. AlphaGo Lee는가치망을학습하기위해자체대국으로생성된 3,000만개의바둑판상태를활용했다. 가치망의기능은게임트리의깊이를줄이는역할을한다. 정리하자면, AlphaGo Lee는정책망과가치망이라는두가지인공신경망을활용했다. 반면, AlphaGo Zero는두가지신경망을하나로합쳤다. AlphaGo Lee는두가지신경망을따로학습하는전략을택한반면, 정책 4
망과가치망의역할이궁극적으로게임에서승리하기위한방법이기때문에 AlphaGo Zero는하나로합쳐진형태를활용한것으로추정된다. 인공신경망의구조역시변경됐다. AlphaGo Zero는 ILSVRC 4) 2015의우승팀인마이크로소프트가개발한잔차신경망 (Residual Network) 을활용했다. 잔차신경망은이미지분류문제를 95% 의정확도로해결한것으로이미지에서패턴을인식하는데가장성능이좋은것으로알려져있다. 4마지막차별점은트리탐색기법을개선했다. 기존 AlphaGo의 MCTS는랜덤시뮬레이션단계에서롤아웃 (rollout) 정책 5) 을활용했다. 롤아웃은정책망과유사한역할을하나, 빠른속도로시뮬레이션하기위해고안된간단한정책이다. 롤아웃은 [ 그림 2 ( 우 )] 과같이바로직전착수한지점을중심으로 3x3 바둑판에간단한규칙에의해바둑돌을신속하게착수하는과정으로진행된다. 이후게임의결과를바둑트리의노드값에되먹임하여, 착수전략을향상시킨다. 이롤아웃정책은복잡한바둑게임을지나치게단순화한경향이있었기때문에, 이부분이기존 AlphaGo의실수의원인중하나라고도볼수있다. 따라서 AlphaGo Zero에서는롤아웃을활용하지않고, 랜덤시뮬레이션의정책으로앞서기술한잔차신경망을적용했다. 인공신경망기술기반의정책은롤아웃보다훨씬많은계산을요구하지만정확도가향상되는장점이있다. 자료 : Mastering the game of Go with Deep neural networks and tree search, Nature(2016) 4) Imagenet Large Scale Visual Recognition Challenge 는지난 2010 년부터개최된경진대회로수천만장의이미지 (Imagenet 데이터베이스 ) 에서객체를적절하게분류하는임무를수행함. 5) 여기서정책의의미는착수를결정하는규칙으로해석가능함. 5
잔차신경망 (Residual Network) Ÿ 잔차신경망은 2015 년 ILSVRC(Imagenet Large Scale Visual Recognition Challenge) 의우승팀인마이크로소프트연구진이개발한인공신경망으로이미지인식에특화 이미지분류에서 3.57% 의오차율로우승 152 층의합성곱신경망층을활용 Ÿ 인공신경망의은닉층의개수가많아질수록성능이개선될여지가있었으나, 기술적으로 30 층이상에서는성능이정체되는현상이발견되어, 이를개선하기위한방법으로잔차신경망이소개됨 Ÿ 잔차신경망은구조적으로동일한성능을갖는신경망을중복하여연결하고, 그사이에얕은신경망을추가함으로써성능향상을도모함 이것으로 AlphaGo Zero 의네가지차별점을살펴봤다. 요약하자면 AlphaGo Zero 는인간의기보를전혀사용하지않고무작위대국을통해학습했다. 대국 상황의분류성능을극대화하기위해최신잔차신경망구조를활용했으며, 과거 정책망과가치망의기능을하나로합쳤다. 또한일원화된탐색전략으로성능향 상을도모했다. 그러나지금까지의내용을토대로보면, 아직도 AlphaGo Zero 가 왜인간을넘어서는성능을갖게됐는지 쉽게이해되지는않는다. 기술적인 차별점은있으나왜이러한차별점으로인해성능이향상됐는가는여전히의문 으로남는다. 그근거에대해서는 3 장에서더세부적으로살펴볼것이다. AlphaGo Zero의성능은언론에도많이보도됐듯이무작위대국을토대로학습하여 3일만에학습했던 AlphaGo Lee의성능을뛰어넘었다. 3일간 AlphaGo Zero는약 490만자체대국을수행하여바둑지식을학습했다. AlphaGo Zero의자체대국착수는약 0.4초마다이루어졌으며, 이시간동안 1,600회의 MCTS를계산했다. 최종적으로 AlphaGo Zero는 40일간의학습을통해 AlphaGo Master 를능가했다. 이기간동안 AlphaGo Zero는 2,900만번의자체대국을수행했다. AlphaGo Zero와기존 AlphaGo와의성능은다음 [ 그림 3] 과같고, AlphaGo Lee, Master, Zero의차별점은 < 표 1> 과같다. 6
a. 40일간자체대국으로학습한 AlphaGo Zero의성능 b. 다양한바둑인공지능프로그램간의성능비교 자료 : Mastering the game of Go without human knowledge, Nature(2017) 버전 AlphaGo Lee AlphaGo Master AlphaGo Zero 차별점 - 최초로프로 9 단바둑기사와대결하여승리 - 정책망과가치망학습에인간의기보 16 만개활용 - 바둑온라인경기사이트 Tygem 에서 60 전전승 - MCTS 의자체대국결과를정책망과가치망학습에활용 (AlphaGo Lee 에서활용된신경망을초기값으로활용 ) - AlphaGo Master 와대국하여 89:11 로압도적승리 - AlphaGo Master 와같은방식으로정책망과가치망을학습했으나, 인간의기보를전혀활용하지않음 특히 AlphaGo Zero는 TPU(Tensorflow Processing Unit, 그림 4) 네장을활용하여달성했다는점이주목할부분이다. TPU는구글이개발한연산처리장치로, 인공신경망연산에최적화되어있다. 현대인공지능컴퓨팅인프라로주목받고있는연산처리장치는 GPU(Graphical Processing Unit) 가대표적이나, 전력소비가상대적으로높은편이다. TPU는인공신경망에필요한연산만을처리하기위한구조를구현하여 GPU대비최대 80배의전력절감효과를달성했다. 6) 또한 TPU 6) Jouppi, Norman P., et al. "In-datacenter performance analysis of a tensor processing unit." arxiv preprint arxiv:1704.04760 (2017). 7
네장의구성은고성능 PC 1대수준의전력으로도구동하기때문에, 슈퍼컴퓨터급자원을활용한 AlphaGo Lee와의형평성문제도해결했다. 이부분역시지난 2017년 1월데미스하사비스가차세대 AlphaGo를개발하기위해중점을두었던사항이다. 저전력과고성능의두마리토끼를모두잡기에는매우요원한일이라여겨졌지만, 두가지를모두해결한딥마인드의저력이놀라울따름이다. 자료 : Build and train machine learning models on our new Google Cloud TPUs, Jeff Dean (2017) 8
3. AlphaGo Zero 의인공지능알고리즘 AlphaGo Zero는자체대국결과를기반으로학습했다. 자체대국알고리즘에는인간의기보가전혀활용되지않았고, 전적으로바둑규칙만을적용했다. AlphaGo Zero에는여전히심층학습기술이활용됐다. 일반적으로심층학습은많은데이터를요구하는데, AlphaGo Zero는이데이터를자체대국으로생산하여학습했다. AlphaGo Zero의자체대국은이미알려졌다시피무작위접근으로부터출발한다. 자체대국에서착수를결정하는인공신경망역시무작위로초기화된다. AlphaGo Zero는자체대국에서한번의착수를위해 1,600번의 MCTS 탐색을실시한다. 바둑게임트리를확장하는방법은앞서기술한잔차신경망이활용되고, 가장초기단계에는잔차신경망을구성하는모수가모두무작위로초기화된다. 1,600번의 MCTS 탐색은 1,600번의수를읽는것으로이해할수있으며, 인공신경망의학습이성공적으로이루어질수록 1,600번의수읽기가더정교해진다는것을의미한다. 수읽기가정교해질수록 AlphaGo Zero의바둑실력은향상된다고볼수있다. 그렇다면 AlphaGo Zero의인공신경망은어떠한방법으로학습된것일까? 그해답은 1장에서기술했던 AlphaGo Master에서찾아볼수있다. AlphaGo Master 는 MCTS를통한자체대국의결과를인공신경망학습에활용했던것이 AlphaGo Lee와의차별점이었다. MCTS를통한자체대국은일종의시뮬레이션과같기때문에결과물로기보가나온다. AlphaGo Master는 MCTS 자체대국기보를학습하는접근으로성능향상에성공했다. AlphaGo Zero는 MCTS 자체대국결과를학습했다는점에서 AlphaGo Master와동일한접근을취하지만, AlphaGo Zero는 MCTS 시뮬레이션에서바둑규칙이외에어떠한인간의지식이포함되지않았다는것이다. AlphaGo Zero는약 3일간 490만자체대국을학습하여진화했다. 490만자체대국은각각의바둑판상태로분할되어, 인공신경망학습은 2,048개바둑판상태를단위로총 70만번을수행했다. 7) 학습에활용된하드웨어는 GPU 64개와 CPU 19개다. 4장의 TPU를활용한것은학습이완료된버전 (inference) 을토대로대국을수행하는데활용됐다. 지금까지기술한 AlphaGo Zero 알고리즘의학습과정을표현하면 [ 그림 5] 와같다. 7) 490 만자체대국이평균적으로약 292 수까지진행된것으로분석됨 9
: 바둑판의상태, : AlphaGo Zero의인공신경망 : 인공신경망의결과값 착수선호도, : MCTS의착수선호도 : 인공신경망의결과값 승리확률, : MCTS 시뮬레이션결과 ( 승패여부 ) 자료 : Mastering the game of Go without human knowledge, Nature(2017) 인공신경망의형태와구조변화도 AlphaGo Zero의바둑실력향상에기여했다. 정책망과가치망을합친인공신경망형태는이미 AlphaGo Master에서구현한결과였다. 정책망과가치망의역할은궁극적으로바둑게임에서승리하기위한도구이기때문에, 이를합치는방향은적절한접근이라고분석된다. 그러나 AlphaGo Master의인공신경망의초기값은무작위로초기화된것이아닌, 인간의기보를통해학습된것을활용했다는점이 AlphaGo Zero와의차이점이다. 이부분이시사하는바는인간의바둑지식이편향되어있다고도추론할수있다. 수천년을이어온바둑격언이오히려무한대의경우의수에서오는바둑의다양성을제한했다고도볼수있기때문이다. 또한 AlphaGo Zero는이미지인식에가장좋은성능을보유한잔차신경망을사용하여바둑실력을더향상시켰다. 딥마인드는다음 [ 그림 6] 과같이다양한형태와구조의시뮬레이션을통해궁극적으로앞서소개한 AlphaGo Zero의인공신경망형태를활용했다. 10
dual-res : 정책망과가치망이하나로합쳐진잔차신경망 (AlphaGo Zero) sep-res : 정책망과가치망을따로분리한잔차신경망 dual-conv : 정책망과가치망이하나로합쳐진합성곱신경망 sep-conv : 정책망과가치망을따로분리한합성곱신경망 (AlphaGo Lee) 자료 : Mastering the game of Go without human knowledge, Nature(2017) 지금까지 AlphaGo Zero의인공지능알고리즘에대해살펴봤다. 그러나여전히 AlphaGo Zero가기존 AlphaGo를뛰어넘는성능을갖게된지에대한명쾌한해답은여전히내리기힘들다. MCTS와인공신경망알고리즘의변화등기술적인차별점은존재하나, 알고리즘의변화로인한성능향상은직관적이고경험적인결과라는점이기때문이다. AlphaGo Zero의알고리즘은대부분 AlphaGo Master 에서적용된것을차용했다. 다른점은단지인간의기보를전혀사용하지않았다는것이다. 딥마인드는 AlphaGo Zero의접근을일반화하기위해지난 2017년 12월 5일 AlphaZero 에대한논문을 arxiv에게재했다. 8) AlphaZero는바둑과유사한보드게임인체스와쇼기 ( 일본식장기 ) 에서 AlphaGo Zero와동일하게인간의대국을전혀활용하지않는방법을적용하여학습했다. AlphaZero는기존인공지능프로그램과대결하여압도적으로승리하여그성능을입증했다. 8) Silver, David, et al. "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm." arxiv preprint arxiv:1712.01815 (2017). 11
4. 결론 AlphaGo Zero는인간의기보를학습하지않았다는점에서가장큰관심을받았다. 최근인공지능의큰흐름을주도하고있는심층학습 (Deep Learning) 은필연적으로대규모데이터를요구하기때문이다. 심층신경망을수학적으로표현하자면수백만개의미지수를갖는비선형함수다. 수백만개의미지수를적절하게추정하기위해필요한데이터는상식적으로미지수보다는많아야한다. 결국성공적인심층학습을위해서는양질의데이터공급이우선적이라고볼수있다. AlphaGo Zero는양질의데이터공급처를자체대국에서찾은것이지금까지일반화된접근법과의차별점이다. 딥마인드는 AlphaGo Zero에이어지는 AlphaZero 를통해규칙으로데이터를생산하여학습한다는메커니즘을증명했다. 또한무작위접근이오히려성능향상에긍정적인역할을한것으로추정된다. 과거 AlphaGo가학습했던인간의기보는수천년의바둑격언을바탕으로한다. 그러나바둑의경우의수는인간이인지할수있는것보다훨씬많다. 그간누적된인류의바둑지식은분명바둑의정수가담겨있으나, 편향이존재할가능성이높다고볼수있다. 학습방법과 MCTS 구조가모두동일한 AlphaGo Zero와 AlphaGo Master의차이점은인간의기보를학습했는지에대한여부다. AlphaGo Zero가 AlphaGo Master를 89대 11로물리쳤다는점에서, 전문바둑기사의기보가편향이있다는사실을간접적으로추론할수있다. 그러나 AlphaGo Zero의접근법이성공했는지에대한논리적인근거는여전히불분명하다. 기술적인알고리즘의개선을통해성능이향상됐다는점일뿐이다. 결국 AlphaGo Zero의성능은직관적이고경험적인결과에의거한것이라고볼수있다. 이것은인공신경망의특성과도부합하는것이다. 인공신경망역시현상과패턴을분류하는데높은성능을가지고있으나, 왜잘하는지에대한인과관계가명확하지않기때문이다. 이를해결하기위해설명가능한인공지능 (Explainable AI) 에대한연구가활발히추진중이다. 미국의방위고등연구계획국 (DARPA) 는 2018년설명가능한인공지능연구에수천만달러의연구비를투입할예정이다. AlphaGo Zero 가보여준성과는지난이세돌 9 단과의대국만큼충격적인결과다. AlphaGo 가공개된지채 2 년이되기전에, 딥마인드는인공지능역사에다시한번큰 획을그었다. 인공지능의진화속도는우리가생각했던것보다매우빠를수도있다. 12
[ 참고문헌 ] 1. 국외문헌 Silver, David, et al. Mastering the game of Go with deep neural networks and tree search. Nature 529.7587 (2016): 484-489. Silver, David, et al. Mastering the game of go without human knowledge. Nature 550.7676 (2017): 354. He, Kaiming, et al. "Deep residual learning for image recognition." Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. 2. 국내문헌 AlphaGo의인공지능알고리즘분석, 이슈리포트 2016-002, 소프트웨어정책연구소 (2016) 게임인공지능동향, SPRi SW산업동향, 소프트웨어정책연구소 (2016) 알파고세계바둑계를정복하다, SPRi SW산업동향, 소프트웨어정책연구소 (2017) 알파고제로, 인공지능의새길을열다, SPRi 칼럼, 소프트웨어정책연구소 (2017) 13
주의 1. 이보고서는소프트웨어정책연구소에서수행한연구보고서입니다. 2. 이보고서의내용을발표할때에는반드시소프트웨어정책연구소에서수행한 연구결과임을밝혀야합니다. [ 소프트웨어정책연구소 ] 에의해작성된 [SPRI 보고서 ] 는공공저작물자유이용허락표시기준제 4 유형 ( 출처표시 - 상업적이용금지 - 변경금지 ) 에따라이용할수있습니다. ( 출처를밝히면자유로운이용이가능하지만, 영리목적으로이용할수없고, 변경없이그대로이용해야합니다.)