최신 ICT 이슈 최신 ICT 이슈 알파고의 심층강화학습을 뒷받침한 H/W 와 S/W 환경의 진화 * 알파고의 놀라운 점은 바둑의 기본규칙조차 입력하지 않았지만 승리 방식을 스스로 알아 냈다는 것이며, 알파고의 핵심기술인 심층강화학습이 급속도로 발전한 배경에는 하드웨 어의 진화와 함께 오픈소스화를 통해 발전하는 AI 관련 소프트웨어들이 자리하고 있음 2014 년 5 월 와이어드 매거진은 바둑 프로그램이 핸디캡 없이 프로기사에 승리하려면 10 년 이상 걸릴 것으로 예측했으나, 2 년도 안된 2016 년 3 월에 프로 9 단에 낙승 - 바둑 프로그램 개발 경쟁은 수십 년 전부터 시작되었으며, 프로그램의 기력이 아마 추어 최고수 정도로 올라온 수년 전부터는, 그 해 바둑 프로그램 경연대회 1 위 프로 그램과 인간 프로기사의 접바둑 대국을 특별 이벤트로 진행해 오고 있음 - 와이어드 매거진의 기사는 2014 년 최고 의 바둑 프로그램으로 선정된 크레이지스 톤(Crazy Stone)과 일본 노리모토 요다 9 단의 대결 직후 나온 것으로, 당시 요다 9 단은 넉점 접바둑을 두어 1 승 1 패를 기록 - 그러나 그로부터 불과 1 년 반 뒤인 2015 년 10 월에 구글 딥마인드(DeepMind)가 개발한 알파고(AlphaGo)는 핸디캡 없이 <자료> Wired Magazine (그림 1) 크레이지스톤 vs. 요다 9 단 프로 2 단을 5:0 으로 제압했으며, 그 5 개월 뒤에는 프로 9 단을 4:1 로 제압 예상보다 10 년 앞서 바둑 AI 가 인간을 넘어설 수 있었던 가장 큰 이유는 딥마인드가 자신들의 특기인 심층강화학습 을 바둑이라는 대전형 게임에 도입했기 때문 - 심층강화학습은 심층학습(Deep Learning) 과 강화학습(Reinforcement Learning) 을 결합한 기술로 일찍이 딥마인드는 이 기술을 적용해 벽돌깨기 비디오게임을 스스 로 학습해 최고점을 올리는 AI 를 개발한 바 있음 * 본 내용과 관련된 사항은 산업분석팀( 042-612-8296)과 최신 ICT 이슈 컬럼니스트 박종훈 집필위원 (soma0722@naver.com 02-739-6301)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다. 정보통신기술진흥센터 23
주간기술동향 2016. 3. 30. - 심층학습(딥러닝)은 신경세포의 기능을 모방한 신경망을 다단으로 겹쳐 대량의 데이 터로부터 학습하는 기계학습 기법으로, 특히 이미지 데이터에 찍힌 객체의 종류를 식별하는 것은 다른 기법에 비해 압도적으로 정밀도가 높음 - 강화학습은 컴퓨터가 선택한 행동과 그에 따른 환경변화에 어떤 보상 을 설정함으 로써 더 높은 프리미엄을 받을 수 있는 행동을 학습시키는 기술임 - 딥마인드가 개발한 비디오게임용 AI 의 명칭은 Deep Q-Network(DQN) 인데, 이 는 심층신경망(Deep Neural Network, DNN)과 강화학습 기법의 하나인 Q-학습 (Q-Learning)을 조합한 것 - 딥마인드는 이와 유사하게 딥러닝과 강화학습의 과정을 바둑 AI 에 접목시켜 알파고 를 탄생시켰음 딥마인드가 개발한 심층강화학습 의 가장 놀라운 점은 데이터만 입력되면 사람의 개입 없이 컴퓨터가 알고리즘을 자동 생성한다는 것 - 이전에도 게임에서 높은 점수를 낼 것을 목표로 한 다수의 강화학습 연구가 이루어 지고 있었지만, 딥마인드의 DQN 이 연구자들을 놀라게 한 것은 DQN 은 게임 화면 과 점수만을 입력 데이터로 하여 높은 점수를 내는 행동 패턴을 스스로 학습한 점 - 딥마인드는 DQN 에 벽돌깨기 외에도 수십 개의 비디오 게임을 학습시켰고 그 결과, 과반의 게임에서 숙련된 인간과 동등한 점수를 획득했다고 하며, 이들 게임 모두 게 임 방법을 컴퓨터 스스로 학습한 것임 - 알파고도 마찬가지여서, 일반인들의 오해 중 하나는 알파고는 잘 설계된 알고리즘에 따라 막대한 컴퓨팅 자원으로 연산을 하는 것뿐이지 않느냐는 것인데, 알파고에는 심지어 바둑의 규칙조차 입력되어 있지 않으며, 알고리즘은 스스로 만들어내고 있음 - 바로 이 점 때문에 구글은 딥마인드의 심층강화학습 기술에 주목한 것이며, 2014 년 1 월 추정 가격 약 5 억 달러에 딥마인드를 인수 심층강화학습이 적용된 것 외에도 알파고에는 더욱 놀라운 혁신이 담겨 있으며, AI 를 단련하는데 필요한 빅데이터를 컴퓨터 스스로 만들어 낸 것 - 알파고는 바둑판 위의 정보를 마치 비디오게임의 화면처럼 내려다 보며 형세를 판단 하고, 대국의 승패 여부를 강화학습의 보상 으로 치환하여 어떤 수를 둘 지 판단하 는 신경망을 단련 24 www.iitp.kr
최신 ICT 이슈 - 그러나 알파고의 가장 중요한 혁신적 성과는 지금까지 바둑 기사들이 만들어 온 기 보 데이터베이스의 수백 배에 달하는 데이터를 바둑 AI 끼리의 대국을 통해 스스로 만들어 냈다는 점에 있음 - 이 점 역시 오해가 있는 부분인데, 알파고는 인간의 기보만을 학습 데이터로 사용한 것이 아니라, 그보다 훨씬 많은 빅데이터를 스스로 만들어 내, 이를 국면의 형세 판 단, 즉 승리 확률 평가 의 정밀도 향상에 연결시켰음 이상 두 가지 혁신을 위해 딥마인드는 3 단계 과정을 통해 알파고가 스스로를 단련시 키게 만들었으며, 첫 번째 단계에서는 사람의 대국 데이터로 착수 신경망 을 단련 - 딥마인드 연구팀은 우선 대규모 바둑대국 사이트 KGS GO Server 에 저장된 고수 들의 기보 데이터베이스를 바탕으로 3,000 만 건의 착수 데이터, 즉 어떤 국면에서 바둑기사들은 다음에 어디에 두었는가? 하는 정보를 추출 - 그런 다음 이 정보를 교사 데이터로 삼아 신경망에 단지 지도학습(Supervised Learning) 만을 실행하였음 - 이 때 사용된 신경망의 구성은 이미지 인식에서 뛰어난 실적을 올린 나선 신경망 (Convolutional Neural Network, CNN) 이며, CNN 은 뇌의 시각 피질의 신경세포 기능을 힌트로 고안된 신경망 - 다소 과장스럽게 비유한다면, CNN 은 바둑 기사가 위에서 바둑판을 내려다 보고 있 을 때의 시각 피질에 있는 신경세포의 기능을 시뮬레이션 한다고 볼 수 있음 - 알파고에 사용된 13 개 층의 CNN 으로 구 성된 착수 신경망 은 바둑판을 19 19 픽 셀의 이미지로 간주하여 이미지 인식과 거 의 같은 요령으로 데이터를 입력함 - 한 가지 다른 점은 이미지 인식의 경우 1 픽셀에 포함된 데이터 열에서 RGB(빨강, 녹색, 파랑)라는 색상 데이터를 입력하지만, 알파고는 돌의 색상(흑, 백, 없음), 몇 번 째 수에 둔 돌인가, 그 수에 몇 개의 돌을 따냈는가? 등 즉 그 국면에 이르기까지의 <자료> ITPro (그림 2) 물체인식 신경망과 착수 신경망 정보통신기술진흥센터 25
주간기술동향 2016. 3. 30. 기보 데이터를 신경망에 입력하게 됨 - 그러면 이 신경망은 다음에 어떤 수를 두면 좋은가 를 마찬가지로 19 19 픽셀 데 이터(수를 놓는 후보 장소에 값이 들어가고 나머지는 제로)의 형식으로 출력해 줌 - 딥마인드가 발표한 논문에 따르면, 고수들이 놓은 3,000 만 번의 수로 단련한 착수 신경망 을 검증한 결과 고수들의 착수를 57.0% 재현하였으며, 기존 연구에서는 44.4%가 최고치였다고 함 - 논문에 명확히 언급되어 있지는 않지만, 바둑의 역사에서 축적된 정석 이라는 것 역 시 3,000 만 수의 학습을 통해 거의 재현할 수 있다고 볼 수 있음 두 번째 단계로 연구팀이 실시한 것이 딥마인드가 자랑하는 심층강화학습인데, 이 단 계에서는 서로 다른 버전의 바둑 AI 끼로 계속 대전을 치르게 하였음 - 첫 번째 단계에서 단련된 착수 신경망을 초기값으로 하고, 이후 착수 신경망들끼리 대전 시킨 다음, 승리를 보상 요인으로 해 신경망의 매개변수를 수정하는 강화학습 을 실시 - 첫 번째 단계에서 교사로 생성된 착수 신경망 은 어떤 국면에서 다음 수 를 유추하기는 하지만, 최종적으로 승리하기 위한, 앞을 내다본 수 를 유 추하지는 않음 - 딥마인드 연구팀은 신경망끼리의 대전을 통해 바 로 이 승리를 이끄는 수 의 단련을 도모했다고 <자료> ITPro (그림 3) 착수 신경망의 강화학습 하며, 다양한 유형의 착수에 유연하게 대응할 수 있도록 최신 버전과 이전 버전 중 무작위로 선택한 버전들끼리 대국을 치르게 하였음 세 번째 단계는 알파고 단련에서 가장 중요한 과정이며, 서로 다른 버전들 간의 대국으 로 만들어진 빅데이터를 통해 승리 확률 평가 를 출력하는 신경망을 훈련시켰음 - 착수 신경망과 별도로 반면( 盤 面 ) 또는 국면( 局 面 )의 형세를 판단하는 국면 평가 신 경망 이 중요한 이유는, 평가의 정확도를 높일수록 컴퓨터가 그 후의 전개를 예측하 기 위한 연산을 많이 줄일 수 있기 때문 - 따라서 국면 평가 신경망 은 최소한 착수 신경망과 대등하거나 그 이상으로 중요한 바둑 AI 의 요체 라 할 수 있음 26 www.iitp.kr
최신 ICT 이슈 - 국면 평가 신경망 은 착수 신경망과 거의 동일한 구성으로, 입력 데이터는 마찬가지 로 국면 데이터가 되지만, 출력 데이터는 승패의 예측이 됨 국면 평가 신경망 역시 기보 데이터베이스를 바탕으로 지도학습을 통해 단련하였으며, 바로 이 지점에서 딥마인드는 기존 바둑 AI 개발의 커다란 난제를 해결 - 기존 바둑 AI 개발자들을 좌절시켰던 장벽은 국면을 평가하는 AI 를 충분히 단련시 킬 수 있는 기보 데이터베이스라는 것이 세상에는 존재하지 않는다는 점 - 착수 신경망 단련에 사용된 KGS Go Server 의 기보 데이터베이스를 사용하면 되지 않느냐고 생각할 수 있지만, 이 데이터베이스를 통해 국면 평가의 정확도를 높이는 것은 미흡했다고 함 - KGS Go Server 에서는 고수들의 3,000 만 개 착수를 추출했으며, 바둑 한 경기가 대체로 200 수 전후임을 감안하면, 이는 약 15 만 대국 200 수 가 됨 - 이 데이터베이스로 AI 를 단련시키면 어느 한 경기의 기보에 포함된 200 수에 대해 각 수마다 달라지는 국면 평가를 승패와 결부시켜 모두 동일하게 해석하는 오류를 범할 수 있음(바둑 국면이 역전을 거듭한 경기라면 과잉 적용의 오류가 발생) - 소위 과잉학습 현상이 나타나면 AI 가 새로운 국면 전개에 대응할 수 없게 되며, 특히 체스나 장기에 비해 수의 자유도가 매우 높은 바둑에서는 유사한 국면이 그대 로 나타나지 않는 이상, 과잉학습은 바둑 AI 에게 치명적인 약점이 되어 버림 이 세상에 국면 평가를 단련시키기 위한 기보 데이터베이스가 없다면 방법은 새로 만 들어 내는 것인데, 여기에 알파고의 돌파구가 있었음 - 딥마인드는 두 번째 단계의 강화학습으로 단련된 착수 신경망끼리 대전시킴으로써 새롭게 3,000 만 대국 분의 기보 데이터를 만들어 냈으며, 이는 KGS Go Server 에 서 취득한 인간 고수들의 대국 데이터베이스 보다 200 배 이상 많은 것 - 이는 첫 번째와 두 번째 단계에서 고수 수준의 기력을 가진 착수 신경망을 얻을 수 있었기 때문에 취할 수 있는 방법이었음 - 이 정도의 데이터가 있으면 데이터를 사치스럽게(낭비해가며) 사용할 수 있는데, 연 구팀은 과잉학습을 피하기 위해 약 200 개의 국면으로 이루어지는 하나의 기보 데 이터에서 단지 하나의 국면 만을 떼어 내 학습 데이터로 채용했다고 함 - 그 국면에서의 반상 데이터를 입력 데이터로, 그 후의 승패를 출력 데이터(교사 데 정보통신기술진흥센터 27
주간기술동향 2016. 3. 30. 이터)로 하여, 3,000 만 대국의 데이터를 사용해 국면 평가 신경망을 단련시킨 것 - 알파고가 프로 9 단에게 승리한 것은, 이처럼 3,000 만 수의 기보와 강화학습을 통 해 단련시킨 착수 신경망, 그리고 그 신경망끼리의 대전 기보를 통해 단련시킨 국 면 평가 신경망 이라는 두 가지 혁신의 산물이었음 이처럼 바둑 AI 가 예상보다 빨리 인간을 넘어서게 된 데에는 심층강화학습의 역할이 컸지만, 동시에 최근 벌어지고 있는 심층학습 관련 인프라의 진화도 간과할 수 있음 - 알파고에 적용된 심층강화학습의 기법이 컴퓨터 상에서 구현될 수 있었던 배경에는 지난 1 년 반 동안 전개된 심층학습 관련 하드웨어와 소프트웨어 인프라 양 측면의 놀라운 진화가 자리잡고 있음 - 심층학습을 둘러싼 인프라의 발전이 알파고의 성과를 뒷받침한 동력이라는 사실은 바둑 이외의 분야, 특히 대표적으로 자율운전 분야에서도 인공지능이 놀라운 진전을 보이고 있다는 점에서 확인할 수 있음 - 예를 들어, CES 2016 에 전시되어 관심 을 모은 AI 개발 스타트업 Preferred Network(PFN) 의 자율운전 AI 역시 심 층강화학습으로 단련시킨 것임 - PFN 은 자율운전 AI 를 개발하며, 자동차 의 속도와 방향의 변화, 자동차가 갖춘 각종 센서의 출력 데이터를 컴퓨터에서 <자료> PFN (그림 4) 충돌회피를 학습한 자율운전 AI 재현할 수 있는 시뮬레이터를 개발했는데, 이 시뮬레이터가 만들어내는 가상공간에 서 자동차를 여러 번 주행시키면서 부딪히는 것을 처벌하는 강화학습을 신경망에 실 행시켰다고 함 - 또한, PFN 은 여러 대의 신경망을 동시에 학습시킴으로써 하나의 신경망을 고속으 로 학습시키고 있으며, 병렬처리의 활용과 함께 시뮬레이터를 사용하여 실제 공간에 서보다 100 만 배 빠른 학습이 가능하다고 함 알파고와 PFN 의 사례는 학습과 시뮬레이션을 위한 컴퓨팅 자산을 많이 보유한 기업 일수록 AI 연구에서 우위를 점할 가능성이 높음을 실증하고 있음 - PFN 사례는 AI 개발에 있어 학습을 가속화시키기 위한 IT 인프라가 앞으로 매우 중 28 www.iitp.kr
최신 ICT 이슈 요해질 것임을 시사함 - 딥마인드 연구팀 역시 강화학습 실행을 위해 구글 클라우드 플랫폼(Google Cloud Platform)의 대용량 컴퓨팅 자원을 활용하였음 - 즉, 딥마인드가 2014 년 1 월 구글에 인수된 이후, 구글이 가진 방대한 컴퓨팅 자원 에 접근할 수 있게 된 것이 바둑 AI 가 예상보다 10 년 일찍 프로 기사에 승리할 수 있게 만든 한 요인이 되었다고 말할 수 있음 하드웨어 자원과 더불어 소프트웨어의 진화, 구체적으로 신경망 학습 알고리즘의 진화 역시 바둑 AI 의 10 년 빠른 승리 요인으로 꼽을 수 있음 - 최근 몇 년간 신경망을 효율적으로 학습시키는 최적화 기법이 잇따라 발견되었음 - 신경망에 학습을 실시하고 매개변수를 조금 바꿀 때, 매개변수를 변화시키는 알고리 즘에 결함이 있는 경우 매개변수 공간이 일종의 함정에 빠진 것처럼 빙빙 맴도는 등 언제까지고 학습이 진행되지 않는 경우가 있었음 - 지금까지 함정을 잘 회피하며 학습을 진행시키는 최적화 알고리즘이 제안되어 왔고, 그때마다 학습 속도가 향상되어 왔음 - 구체적으로는 고전적인 확률적 기울기 강하법(SGD)을 기점으로, AdaGrad(2011 년), RMSProp(2012 년), Adam(2015 년) 등의 개선된 알고리즘이 차례로 제안되었음 - 이와 동시에 통계물리와 화학 등 외부 학술 영역에서 해밀턴-몬테카를로 법 같은 새로운 알고리즘이 제기되며 학습속도가 향상되었으며, 계량화하기 어렵지만 일련의 최적화 기법 개선으로 신경망의 학습속도가 대체로 열 배 가량 향상되었다고 함 아울러 소프트웨어적 진화가 대중적으로 공유되고, AI 관련 기술들이 오픈소스화 되고 있는 점도 AI 의 진화 속도를 극적으로 높이는 환경요인이 되고 있음 - 정보과학의 세계에서는 최적화 기법을 비롯한 최신의 성과를 보고하는 논문들이 심 사 없이 우선 속보 논문 사이트인 ArXiv(아카이브) 에 기고되며, GitHub(깃허브) 등 에 소스코드와 데이터도 공개됨 - 이 때문에 전 세계의 연구자들은 그날 그날의 연구성과를 자신의 컴퓨터에서 추가 시험할 수 있고, 이 성과들은 다시 즉시 다른 과학자들과 공유될 수 있음 - ArXiv 와 GitHub 등을 통해 성과의 공유가 대중적으로 이루어지면서, AI 기술의 연 구 개발 속도는 최근 들어 이전과 비교할 수 없을 정도로 고속화되고 있음 정보통신기술진흥센터 29
주간기술동향 2016. 3. 30. - 신경망의 학습속도는 AI 개발 기업들의 경쟁력의 원천인데, 구글의 경우 최신 연구 성과를 자체 OSS(오픈소스소프트웨어)인 TensorFlow(텐서플로우) 에 구현하여 검 증하고 있음 - 딥마인드가 알파고의 신경망 학습에 사용한 것이 구글의 텐서플로우였으며, 이러한 AI 소프트웨어의 급속한 진화도 10 년 빠른 승리의 큰 요인 중 하나라 할 수 있음 AI 관련 소프트웨어 기술이 오픈소스화 되고 있다는 사실은 협업적 경쟁 을 할 수 있 는 고차원적 인성( 人 性 )의 중요성을 시사 - 2000 년대 중반 이후 ICT 기술과 서비스의 급속한 발전은 하드웨어, 소프트웨어, 통 신 인프라의 발전에 힘입은 바 크지만, 이를 활용하는 사람들의 공유와 협업, 그리고 그 위에서의 경쟁이 있었기에 가능 - 공유와 협업은 사실 인터넷의 기본 정신이기도 하며, 웹 2.0 과 플랫폼 시대를 거치 며 협업적 경쟁은 이제 기술과 서비스를 개발하는 사람들이 기본적으로 견지해야 할 태도로 자리잡고 있음 - 세 번째 물결을 맞이하고 있는 인공지능 기술이 이전 두 번의 경험과 결정적으로 다 른 점이 바로 이 협업적 경쟁이라는 패러다임 위에서 개발이 이루어지고 있다는 것 - 인공지능 기술 개발자들이 앞선 주자들을 따라잡고 추월하기 위해서는 막대한 자원 의 투입과 지원을 기대하기 보다, 최신의 연구에 함께 참여하여 협업하고 그 성과를 공유하는 가운데 창의적 시각을 가미하려는 노력을 경주해야 할 것 <참 고 자 료> [1] Christof Koch, How the Computer Beat the Go Master, Scientific American, 2016. 3. 19. [2] Cade Metz, In Two Moves, AlphaGo and Lee Sedol Redefined the Future, WIRED, 2016. 3. 16. [3] Andrew Meola, Google's AI program AlphaGo just made history a full decade before experts predicted, Business Insider, 2016. 3. 15. [4] Alan Levinovitz, The Mystery of Go, the Ancient Game That Computers Still Can t Win, WIRED, 2014. 5. 12. 30 www.iitp.kr