주간기술동향 2016. 2. 24. 최신 ICT 이슈 인공지능 바둑 프로그램 경쟁, 구글이 페이스북에 리드 * 바둑은 경우의 수가 많아 컴퓨터가 인간을 넘어서기 어려움을 보여주는 사례로 꼽혀 왔 으며, 바로 그런 이유로 인공지능 개발에 매진하는 구글과 페이스북은 바둑 프로그램 개 발 경쟁을 벌여 왔으며, 프로 9 단에 도전장을 낸 구글이 일단 한발 앞서 가는 모양새 구글과 페이스북의 AI(인공 지능) 바둑 프로그램을 둘러싼 경쟁에서, 일단 구글이 페 이스북에 한발 앞서 가는 형국 - 양사는 지난 1 월 27 일에 AI 바둑 프로그램에 관한 논문을 동시에 발표했으며, 딥 러닝을 채택한 점은 동일하지만, 프로 기사에 승리한 구글이 페이스북보다 기술 경 쟁에서 앞서 있는 것으로 보임 - 구글의 AI 연구부문인 딥마인드(DeepMind) 는 네이처지에 Mastering the game of Go with deep neural networks and tree search(심층신경망과 트리 탐색으로 바둑 게임 마스터하기) 라는 논문을 발표 - 또한, 자신들이 개발한 AI 바둑 프로그램 알파고(AlphaGo) 가 2015 년 10 월에 유 럽 바둑 챔피언인 프로 2 단 판 후웨이와 5 번 맞붙어 전승을 기록했다고 발표 - 페이스북도 같은 날, Better Computer Go Player with Neural Network and Long-term Prediction(신경망과 장기 예상을 통한 컴퓨터 바둑 플레이어 개 선) 이라는 논문을 코넬대학이 운영하 는 논문 라이브러리인 아카이브(arXiv) 에 공개 - 양사의 AI 바둑 접근 방식은 비슷하며, 차이점은 구글은 컴퓨터가 시행착오를 <자료> Go Game Guru (그림 1) 알파고에 5 전 전패한 프로 2 단 * 본 내용과 관련된 사항은 산업분석팀( 042-612-8296)과 최신 ICT 이슈 컬럼니스트 박종훈 집필위원 (soma0722@naver.com 02-739-6301)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다. 22 www.iitp.kr
최신 ICT 이슈 통해 작업을 수행하기 위한 최적의 방법을 학습해 나가는 강화 학습 이라는 기계학 습 기법을 사용하는 반면 페이스북은 사용하지 않는다는 것 구글의 알파고는 크게 세 가지 구성요소로 이루어지며, 기존 바둑 프로그램에서 사용 해 오던 MCTS 라는 방법에, 새로 두 가지 기계학습 방식을 추가하여 결합하였음 - 기존 AI 바둑 프로그램은 모두 몬테카를로 트리 탐색(MCTS) 기법을 사용하고 있 으며, 이 방식은 수학적이나 이론적으로 문제에 접근할 수 없을 경우 수많은 무작위 수를 적용하여 반복실험을 하여 예상확률을 알아내 해답을 찾는 것임 - 즉, 아무렇게나 바둑을 최후까지 둬보는 시도를 수백만 번 반복한 후 가장 승률이 높아지는 수를 다음 수로 선택하는 기법 - 그러나 바둑의 국면은 구글 사명의 기원인 구골(Googol, 10 의 100 승)을 훨씬 웃도 는 250 의 150 승 정도이며, 게다가 각 수가 서로 유기적으로 연결되어 있어 중간에 수 하나가 달라짐으로써 엄청난 결과의 차이를 가져올 수 있음 - MCTS 는 나름 효과적 방안이긴 하나, 기존 MCTS 기반 바둑 프로그램들은 아마 6 단 정도의 실력이라고 하며, 이 때문에 체스와 인공지능과는 달리 바둑은 당분간 인 공지능이 인간을 넘어서기 어렵다는 것이 사실로 여겨져 왔음 - 구글의 알파고는 MCTS 방식으로 최선의 수를 알아내는 것이 소모적이라 보았고, 따라서 시도범위를 좁힐 필요가 있다고 판단했으며, 이를 위해 수 탐색범위와 깊이 를 줄이기 위해 두 가지 기술을 개발하여 결합하였음 (a) Selection (b) Expansion (c) Evaluation (d) Backup (그림 2) 알파고의 몬테카를로 트리 탐색(MCTS) 기법 정보통신기술진흥센터 23
주간기술동향 2016. 2. 24. 구글이 MCTS 방식의 시도 범위를 줄이기 위해 추가한 두 가지 요소는 가치 네트워 크(value network) 와 폴리시 네트워크(policy network) 임 - 구글의 네이처지 논문 첫 문장은 완벽한 정보를 가지고 있는 모든 게임은 각 지점 에 최적의 가치함수를 갖고 있다 로 시작하였으며, 이는 가장 최적의 지점에 최적의 수가 두어지도록 했다는 것으로 연구팀의 개발 목표를 알 수 있게 해줌 - 알파고가 바둑의 어떤 국면에서 어느 쪽이 우세한지 여부를 판단하는 데 사용하는 것이 가치 네트워크 라면, 무수히 존재하는 다음 한 수 중에서 어느 수가 더 유리 한지 판단을 위해 사용하는 것이 폴리시(전략 또는 정략) 네트워크 임 - 가치 네트워크를 통해 어떤 곳에 놓을 때 최적의 승률을 낼 지 알아내는 작업을 함 으로써 검색의 깊이 를 줄였고, 적절한 바둑 수를 축적한 폴리시 네트워크에서 예측 가능한 행위를 추출함으로써 검색의 범위 를 줄인 것임 가치 네트워크와 폴리시 네트워크의 작동을 위해서는 알파고를 훈련시켜야 했으며, 여 기서 중요한 점은 훈련규칙을 인간이 아닌 컴퓨터 스스로 만들어냈다는 점 - 훈련은 3 단계로 진행되었으며, 이 과정에서 지도학습(Supervised Learning: SL) 과 강화학습(Reinforced Learning: RL) 이라는 두 가지 학습법이 동원 - 1 단계는 폴리시 네트워크에 대한 지도학습으로 방대한 바둑 데이터베이스를 활용하 는 것이며, 프로기사가 둔 3,000 만 건의 수를 교습 데이터 로 삼아 딥러닝에서 자 주 이용되는 나선형 신경망(Convolutional Neural Network, Conv-Net)을 이용하여 (a) (b) (그림 3) 알파고에 적용된 3 단계 신경망 학습 방법 24 www.iitp.kr
최신 ICT 이슈 학습시켰음 - 프로기사들은 다양한 평가요소에 근거하여 다음 수를 생각하지만, 수의 유리함과 불 리함을 판단하기 위한 평가방법을 언어나 수식으로 정의하기는 어려움 - 체스나 장기라면 기물의 종류나 수에 의해 평가가 가능하지만 바둑의 경우는 돌에 종류가 없으며, 돌의 중요성도 국면에 따라 크게 변하기 때문 - 기존 AI 바둑 프로그램에서 확률적 수법이 사용된 것은 프로그래머가 자신의 바둑 지식을 근거로 평가방법을 생각해 내는 것이 너무 어려웠기 때문임 - 이에 비해 Conv-Net 은 수의 유리함과 불리를 판단하는 평가요소(기계학습에서는 특징 이라 부름) 자체도 데이터를 바탕으로 찾아내며, 여러 평가요소 중 어느 것을 중시하면 유리한 한 수를 낼 수 있는가 하는 규칙(기계학습에서는 특징 가중치 라 부름)도 데이터를 바탕으로 찾아 냄 - 지금까지는 프로그래머가 생각해야 했던 평가요소와 규칙을 컴퓨터가 자동으로 찾 아 낸다는 점이 알파고에서 가장 주목해야 할 지점임 알파고 훈련의 2 단계와 3 단계는 폴리시 네트워크와 가치 네트워크에 대한 강화학습 의 단계로, 이를 통해 지금까지 컴퓨터로는 불가능하다고 여겨졌던 바둑 국면의 유리함 과 불리함의 계산을 가능하게 만들었음 - 2 단계는 지도학습으로 훈련된 폴리시 네트워크에 강화학습과 딥러닝을 조합한 방법 으로 다시 훈련시키는 것 - 강화학습은 컴퓨터가 시행착오를 반복하며, 더 나은 방법을 학습해 나가도록 하는 방법인데, 행위마다 긍정과 부정의 포상을 줌으로서 결국 가장 많은 긍정의 포상을 받 을 수 있는 선택을 하게 만드는 원리 - 강화학습은 지도학습으로 습득한 데 이터를 실전을 통해 가다듬는 단계로, 알파고는 지도학습을 통해 훈련된 폴 리시 네트워크로 구현한 AI 바둑 프로 그램끼리 수천 회 대국시킴으로써 어 떤 수를 내면 더 높은 승률이 나는지 를 컴퓨터에 학습시켰음 (그림 4) 알파고 형세 판단의 정확성 정보통신기술진흥센터 25
주간기술동향 2016. 2. 24. - 3 단계는 국면의 우세함을 판단하는 가치 네트워크를 훈련시키는 것으로 알파고는 여기에도 강화학습과 딥러닝을 조합한 방법을 사용 - 폴리시 네트워크와 가치 네트워크는 최적의 수를 찾는 역할을 한다는 점에서는 비슷 하지만, 폴리시 네트워크가 여러 경우의 수를 제시하는 반면, 가치 네트워크는 가장 적합한 하나의 예측 만을 제시함 - 이상 3 단계 훈련을 통해 알파고는 바둑의 국면(형세) 판단이 가능해졌으며, 딥마인 드를 이끌고 있는 데미스 하사비스는 이것이 알파고의 최대 위업이라 강조 - 폴리시 네트워크와 가치 네트워크에 의해 시행범위를 줄였기 때문에 실제 경기를 할 때 알파고가 몬테카를로 트리 탐색으로 실행하는 시행 횟수는 기존 AI 바둑 프로그 램과 비교하여 크게 적어졌다고 함 - 구글에 따르면 알파고의 시행 횟수는, 1997 년 IBM 의 슈퍼컴퓨터 딥블루(Deep Blue) 가 체스 세계 챔피언을 이길 당시 딥블루의 시행 횟수의 수천 분의 1 수준 - 시도 횟수가 적다는 것은 슈퍼컴퓨터와 같은 강력한 컴퓨팅 자원이 아니더라도 알파 고를 실행시킬 수 있다는 것을 의미하며, 이제 체스에 이어 바둑도 인간을 넘어설 수 있는 가능성이 높아졌음을 의미 페이스북 역시 다음 수의 유리함과 불리함을 판단하는 부분의 개발에 Conv-Net 을 사 용하고 있으며, 다음 단계로 구글처럼 강화학습의 채택을 검토하고 있다고 함 - 알파고의 폴리시 네트워크에 해당하는 부분에서 페이스북 역시 몬테카를로 트리 탐 색의 시도범위를 좁히는 데 Conv-Net 을 사용하고 있는 것이며, 페이스북 AI 연구 소장인 얀 레쿤은 다음 단계로 강화학습의 채용을 검토 중이라 밝힘 - 페이스북이 독특한 점은 자신들이 개발한 AI 바둑 프로그램 다크포레스트(DarkForest) 를 온라인 바둑 사이트인 KGS(www.gokgs.com) 를 통해 누구나 대국 가능하게 공 개하고 있다는 것 - 얀 레쿤은 페이스북의 AI 에 대한 접근은 프로그램을 신속히 출시한 후 여러 번 수 정 해 나가는 것이라며, 구글과 같이 큰 승부를 하는 것이 아니라 바둑을 즐기는 기 사들과 대국해 나갈 방침이라고 밝힘 페이스북이 지적한 구글의 큰 승부는 정상급 프로 기사와의 승부를 말하는데, 오는 3 월 9 일부터 15 일까지 알파고는 한국의 이세돌 9 단과 5 번기 대국을 벌일 예정 26 www.iitp.kr
최신 ICT 이슈 - 바둑 실력의 강함을 나타내는 지표 로 Elo Rating 이 있는데, 알파고 가 5 전 전승을 거둔 유럽 바둑 챔 피언 판 후웨이 2 단의 Elo Rating 점수는 2,908 점이며, 알파고는 그 보다 높은 3,140 점으로 프로 5 단 정도에 해당한다고 함 - 2014 년 일본의 노리모토 9 단은 바둑 프로그램 크레이지스톤과 4 점을 깔아주고 대국을 벌여 1 승 1 패를 기록한 바 있음 - 2015 년 조치훈 9 단은 바둑 프로 (그림 5) 알파고의 Elo 점수(프로 5 단 수준) 그램 돌바람과 4 점 접바둑을 두어 불계패한 바 있으며, 크레이지스톤과는 3 점 접바 둑을 두어 이긴 바 있음 - 알파고는 다른 바둑 프로그램과 총 495 회 경기를 해 494 회 승리했다고 하며, 나아 가 4 점 접바둑도 두었는데, 크레이지스톤과 4 점 접바둑을 두어 77%의 승률을 기록 했다고 함 - 이세돌 프로의 승리를 낙관하는 분위기가 우세하지만, 승률을 50 대 50 으로 예상하 는 딥마인드 측의 발언도 전혀 근거 없는 예측은 아닌 것으로 보임 <참 고 자 료> [1] Danielle Muoio, How Google's AI is teaching itself to play computer games like a human, Tech Insider, 2016. 2. 9. [2] Ian Allison, Next generation of machine learning rockstars will trade Google and Facebook for top secret hedge funds, International Business Times, 2016. 2. 5. [3] David Silver et al., Mastering the game of Go with deep neural networks and tree search, Nature, 2016. 1. 28. [4] Ben Guarino, Google s A.I. Beats Facebook in Race to Win at the Ancient Game of Go, Inverse, 2016. 1. 27. 정보통신기술진흥센터 27