물리학에서의기계학습 II 기계학습에기반을둔소재물성예측 DOI: 10.3938/PhiT.27.001 현윤경 Predicting Materials Properties by Using Machine Learning YunKyong HYON 저자약력 현윤경박사는 KAIST 수리과학과에서일반사각격자에서의혼합유한요소개발과해석을주제로박사학위를받았으며, 이후미국미네소타대학 (University of Minnesota) 내의 Institute for Mathematics and its Applications (IMA) 에서복잡유체에대한수리모델링과계산을연구했다. 2012 년도 4 월부터국가수리과학연구소선임연구원으로재직중이다. 2013 년부터빅데이터분석모델개발과수리과학기반의기계학습기반의데이터분석기술연구를진행중이다.(hyon@nims.re.kr) Big Data has been already attracting attention in almost all research fields. Data analytics plays an important role in finding new values in almost all fields, such as society, culture, science, information communication, and the analysis and interpretation of many phenomena. Base on big data, machine learning has also been attracting attention as a method to solve problems in various fields such as social science and the physical and biological sciences. In particular, the development of deep learning methods and its numerous applications have been the focus of much attention. The research on and the development of machine learning algorithms, as well as the findings in fields to which they have been applied, such as the physical and the biological science, are expanding. Machine learning algorithms can also be used as modeling methods for highly complex problems and, in combination with object recognition, speech recognition, sensor data analysis, etc., in autonomous automobiles. Such algorithms are also being introduced into medical care in efforts to extending life and to provide for human welfare. Recently, machine learning has been suggested as a way to address issues with both industrial productivity and efficiency. Furthermore, many more applications and uses of machine learning can be found in many other areas. In this article, we present a mechanical learning methodology that can predict the properties of the new material that could not be obtained through conventional computer simulation. We discuss this machine learning method and show that its use should shorten for new materials development times by predicting their physical properties before having to perform material synthesis experiment. 들어가기 ( 빅데이터 ) 인터넷의발달과함께 1990년대말등장한빅데이터는 2000년들어다른어떤것들보다많은주목을받았다. 기술과컴퓨터의발달에힘입어대용량의데이터를처리할수있는도구가갖추어졌으며, 기존에사용되지않았던데이터로부터새로운가치창출이라는사회적수요와맞아떨어졌다. 일부에서는거품이라는반론도있었지만기존에버려졌던데이터의발굴과활용은충분한가치를가지고있다. 빅데이터를통하여기존과학이가지고있던한계를극복하기위한새로운과학의패러다임도만들어졌다. 최초과학의패러다임은자연현상을관찰하여기록 / 분류 / 목록화하고탐구하는것이었다면, 다음단계로는관찰된결과를바탕으로이론을도출하고연구하는이론과학이등장하였다. 또한단계넘어컴퓨팅기술의발전에따라현상의해석을위해도출된이론과모델을컴퓨터시뮬레이션을통해서검증하는계산과학의시대가열렸다. 오늘날은컴퓨터의발전과계산방법에발전이지속적으로이루어지고이전시대의과학을통해쌓여진데이터의활용이맞물려지금우리에게많은관심과새로운과학연구의방향을제시하고있는데이터과학 (Data Sceince, Data-Intensive Science) 이새로운과학의시대를이끌어가고있다. 이새로운과학의흐름은새로운패러다임을제시했고,( 그림 1) 이는기존의실험과가설기반의전통적방법론을지양하며고기능 고정밀시험기기와인터넷으로연결된세계곳곳에위치한측정 관찰기기로부터생산된대용량데이터의수집과처리그리고분석을통 2 물리학과첨단기술 JANUARY/FEBRUARY 2018
Fig. 1. The Evolution of Science Paradigms.[1] [3] Fig. 3. Neural network training pipeline and architecture. 에서 활용이 보다 적극적이다. 데이터분석을 통한 추이(trend) 와 패턴(pattern)의 예측에서 대표적인 사례 중에 하나가 구글 Fig. 2. Weekly percentage of sentinel physician visits related to influenza-like illness (ILI) reported by the Centers for Disease Control and Prevention (CDC) and estimated using Google Flu Trends (GFT), [2] United States, October 2010-March 2014. 트랜드(Google Trends) 서비스를 활용한 독감의 유행 수준을 파악한 것이다.(그림 2) 구글은 검색기술의 장점을 활용하여 독감자체의 발생보다는 독감에 걸리면 나타나는 증상들에 관 한 검색어가 얼마나 자주 검색됐는지를 파악해 독감 확산을 [1] 허블망원경으로부터 얻는 예측했다.[2] 당시 이것은 미국 질병 통제 예방센터(Centers for 대용량이미지 데이터의 분석을 통한 새로운 초신성의 발견과 Disease Control and Prevention)의 공표보다 일주일에서 열 유럽의 강입자(hadron) 충돌실험을 통하여 힉스입자의 존재를 흘 앞서 독감의 창궐을 탐지해 냈다. 이외에도 다양한 사례들 증명한 것이 데이터과학의 대표적인 예이다. 이러한 새로운 발 이 존재한다. 특히 구글번역기는 우리 일상생활 속으로 들어온 견과 증명을 위한 과학방법에서 중요한 것은 실험을 위한 거 빅데이터 활용의 전형적인 예이다. 이러한 빅데이터를 기반으 대한 실험 장치를 만들고 운영하는 것뿐만 아니라 이로부터 로 하여 대용량 데이터 처리와 분석에 적합한 알고리즘 혹은 수집되는 대용량의 데이터 분석에 많은 연구자들의 공동노력이 프레임워크의 개발이 더욱더 중요해졌으며 이를 자동으로 처리 이러한 결과를 도출했다는 것이다. 데이터과학의 중요한 역할 하고 분석하는 기계학습이 다시금 주목을 받게 되었다. 해 과학적 발견을 시도하고 있다. 은 확보된 대용량의 데이터를 기반으로 이전에는 시도하지 못 했던 복잡한 현상을 규명하고 거대 도전 과제의 해결을 모색 할 수는 있는 여건을 갖추었다는 것이다. 그러나 이러한 새로 운 발견은 데이터 공유 융합뿐만 아니라 학제 간 연구 분야 [1] The Fourth Paradigm: Data Intensive Scientific Discovery, 2009 Microsoft research. [2] Martin LJ, Xu B, Yasui Y, PLoS ONE 9(12), e109209 (2014). doi:10.1371/journal.pone.0109209. [3] David Silver et al., Nature 529, 484 (2016). 간 협력이라는 기반이 반드시 필요하다. 빅데이터의 활용분야 는 기존에 도전하지 못했던 거대한 과학적 발견에만 국한되지 는 않는다. 인간의 삶과 질을 개선할 수 있는 사회과학적 분야 3
물리학에서의 기계학습 II [4] Fig. 4. Empirical evaluation of AlphaGo Zero. 기계학습 여기서 우리가 인공지능을 다루는 것은 아니지만 기계학습을 언급하면서 인공지능을 떼어놓고 말하기 어렵다. 최근 기계학습 을 기반으로 하는 인공지능의 연구와 개발이 더욱더 활발해지고 있으며, 벌써 2년 전에 바둑기사들의 수많은 기보 데이터를 학습 (그림 3)한 구글딥마인드(Google DeepMind)의 알파고(AlphaGo) [9] Fig. 5. Typical CNN architecture. 가 큰 반향을 일으켰다.[3] 발전을 거듭하여 얼마 전에는 규칙기반 (rule based)의 강화학습(reinforcement learning)으로 무장한 데이터가 없는 상태에서 해당 속성을 예측하는 기계학습 방법을 알파고제로(AlphaGo Zero)가 바둑에 있어서이지만 인간의 한계 말하며, k-means, mixture models, hierarchical clustering과 [4] 를 뛰어 넘었다.(그림 4) 인공지능의 개발은 과학의 새로운 발 같은 군집화(Clustering) 방법과 독립 성분 분석(Independent 견과 해석에 대한 접근보다는 인간의 삶의 질을 향상하는 기술개 Component Analysis)이 대표적인 예이다. 또한 최근 많은 관심 발 특히 의료데이터 분석을 통한 질병예측에 많은 노력을 기울이 을 받고 있는 인공신경망(Artificial Neural Network)을 이용한 [3,5] 기계학습의 태생 자체가 인공지능을 개발하기 위한 Autoencoders, Deep Belief Nets(DBN), Hebbian Learning, 방법으로 제시되었으며 빅데이터 이전에 기계학습과 관련된 많 Generative Adversarial Networks(GAN) 등이 있다.[8] 인공신경 은 연구들이 이루어져오고 있었다. 그럼에도 불구하고 빅데이터 망은 현재의 기계학습 연구와 활용을 이끄는 중요한 축 중 하나 의 등장이 기계학습의 중요성을 더욱더 강조하며 기계학습과 인 이다. 과거 인공신경망의 단점이었던 수학연산 XOR 계산능력을 공지능의 시대를 이끄는 포석이 된 것은 사실이다. 여기에서는 숨겨진 층(hidden layer)을 도입하여 해결한 것이 심층학습(Deep 인공지능을 다루지 않고 기계학습의 장점을 활용하여 새로운 소 [10] Learning)의 핵심이다. 합성곱 신경망(Convolutional Neural 재를 예측하는 연구와 결과에 대하여 다음 섹션에서 집중적으 Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 로 다룰 것이다. 우선 기계학습은 크게 지도학습(supervised 제한된 볼츠만 머신(Restricted Boltzmann Machine, RBM), 심층 [6] learning)과 비지도학습(unsupervised learning)으로 구분하며 신뢰 신경망(Deep Belief Network, DBN), 심층 Q-네트워크(Deep 지도학습은 예측하고자 하는 것에 대한 답을 알고 있는 트레이닝 Q-Networks) 등 다양한 심층학습들이 연구 개발되고 있으며,(그 고 있다. 데이터(training data)라 불리는 데이터집합(data set)이 주어진 상태에서 기계학습 알고리즘을 통하여 예측모델을 만들어 답을 모르는 테스트 데이터(test data) 집합에 대하여 특성을 분석하거 [4] David Silver et al., Nature 550, 354 (2017). [5] https://www.ibm.com/watson/. [6] Christophe Bishop, Pattern Recognition and Machine Learning (Springer, 2011). [7] https://en.wikipedia.org/wiki/supervised_learning. [8] https://en.wikipedia.org/wiki/unsupervised_learning. [9] https://en.wikipedia.org/wiki/convolutional_neural_network. [10] https://en.wikipedia.org/wiki/deep_learning. 나 예측하는 일련의 학습을 의미한다. 대표적으로 서포트 벡터 머신(support vector machine), 은닉 마르코프 모델(Hidden Markov model), 회귀 분석(Regression), 신경망(Neural network), 나이브 베이즈 분류(Naive Bayes Classification) 등이 지 [7] 도학습 알고리즘에 해당한다. 4 후자인 비지도학습은 트레이닝
Fig. 7. Learning performance of electron charge density-based finger[11] print vectors. [11] Fig. 6. The machine (or statistical) learning methodology. 림 5) 활용분야는 영상인식(Image recognition), 자연어처리 (Natural language processing), 신약개발과 독성학(Drug discovery and toxicology), 추천시스템(Recommendation systems), 생물정보학(Bioinformatics), 자동음성인식(Automatic speech recognition) 등과 같이 광범위하게 확장되고 있다. 심층학습의 장점 중 하나는 보통의 데이터 분석에 있어서 데이터 도메인에 대한 통찰력을 반영한 속성(feature)을 선택하고 속성 간의 상관 관계를 분석하는 속성에 대한 전처리가 필요하지 않다는 것이다. 오히려 분석에 필요한 속성을 자동으로 선택한다. 이러한 장점은 데이터의 속성에 대한 기존의 통찰력이 없거나 매우 복잡해서 분 석해 내기가 어려울 경우에 매우 유용한다. 반대로 중요한 속성 을 알고 있는 경우 이를 활용하기에는 구조적으로 복잡하다는 단 점이 있다. 기계학습 기반 소재물성 예측 Fig. 8. Prediction performance of the developed linear and non-linear [13] learning models. 소재정보학에 있어서 데이터과학의 적용은 기존 계산으로 도 출된 입력과 출력의 결과데이터를 바탕으로 기존의 제일원리계 양자역학에서 도출된 밀도범함수 이론(Density Functional 산을 하지 않고 소재의 물성을 예측함으로써 계산에 필요한 시간 Theory, DFT)에 기반을 둔 제일원리계산(first-principles calcu- 을 단축할 뿐만 아니라 관찰과 계산에서 찾기 어려웠던 물성을 lations)은 소재분야에서도 물성을 계산하는데 주요한 방법으로 예측하고자 하는 목적을 가지고 있다.(그림 6) 전자의 경우 많은 등장했다. 빅데이터에서와 마찬가지로 컴퓨팅 알고리즘과 계산자 연구를 통하여 예측가능성이 입증되고 있다. 원의 확대는 제일원리계산의 확대와 이를 통하여 소재와 관련한 비선형적인 물성을 보다 정확하고 효과적으로 예측할 수 있는 속 수많은 계산이 가능하게 되었다. 이 결과로써 다양한 물성에 대 성(feature)에 대한 연구와 그에 적합한 기계학습 방법론의 연구 한 데이터가 충분히 축적이 되었다. 이는 데이터과학을 적용할 가 진행되고 있다.[12] 6개의 기본함수인,,,, [11 13] 또한 소재의 수 있는 만큼 유효한 데이터 양이 되었으며, 향후 더 많은 데이터 의 전략적인 축적은 더 효율적이고 정확한 예측모델을 구축할 수 있을 것이다. 하지만 어떤 경우는 계산 알고리즘에 종속성이 높 [11] G. Pilania et al., Scientific Reports 3, 2810, DOI: 10.1038/ srep02810. [12] G. Pilania et al., Scientific Reports 6, 19375 DOI: 10.1038/srep19375. [13] C. Kim et al., Chem. Mater. 28, 1304 (2016). 고, 계산자의 기호에 따른 알고리즘 활용과 변수들의 적합도 문 제는 여전히 기계학습의 적용에 있어서 해결해야 할 많은 어려운 점이 있다. 5
물리학에서의 기계학습 II 하고 있다. 데이터속성의 중요도는 기계학습에서의 차원축소법(dimensional reduction) 방법과 연계될 수 있으며 데이터분석에 있어 서 효율적인 속성의 활용에 중요한 정보를 제공할 수 있다. 이와 같이 소재정보학 또는 신소재의 예측이나 후보물질의 도 출에 있어서도 충분한 소재 데이터의 확보 위에 기계학습 방법을 적용하면 기존에 과학적 접근방법보다 나은 효율을 얻을 수가 있 다. 더욱더 다양한 소재데이터와 기계학습의 접목이 기존에 해결 하지 못한 문제들을 해결할 수 있을 것으로 기대되며, 향후 다양 한 소재데이터에 대한 기계학습 방법론의 적용에 대한 연구결과 들이 쏟아져 나올 것으로 기대된다. Fig. 9. Prediction of bandgap in Gradient boosting tree regression with Computational Materials Repository (CMR) double perovskite data. 앞으로 앞서 기술된 기계학습 방법론 이외에도 전통적인 이론에 기반 을 둔 새로운 방법론들이 등장하고 있어 이를 간단히 소개하고자 한다. 소재에 있어서 분자의 구조정보는 합성 후의 물성을 결정 하는데 중요한 역할을 한다는 것은 물성을 예측하는 기계학습의 적용에 있어서 매우 많은 정보를 제공한다. 특히 기계학습의 예 측정확도와 효율을 결정하는 속성(feature)의 결정에 있어서 매우 중요하다. Fig. 10. Feature importance in gradient boosting tree regression with Computational Materials Repository (CMR) double perovskite data. 1. 그래프 합성신경망(Graph Convolutional Neural Networks, GCNN) ln, 로부터 쉽게 1,245,944개의 합성속성을 구성할 수 있으며 이 합성속성들에 대한 기계학습의 적용을 통하여 유효 속성을 탐색할 수 있으며 비선형물성에 대한 예측모델을 구성하 [12] 여 물성을 예측할 수 있다.(그림 7, 8) 그리고 소재에 있어서도 기존의 이론과 계산방법으로 설명하기에 매우 복잡한 물리현상 의 경우 데이터 기반의 모델을 세우고 기계학습을 적용할 경우 [13] 효과적으로 해석이 가능해졌다. 이러한 비선형 특성을 가지고 있는 데이터의 분석에 적용이 가능한 방법으로 gradient boost[14] ing 타입의 결정트리(decision tree) 방법이 있다. 이를 이용하 여 이중 페로프스카이트(double perovskite) 데이터를 기반으로 분자구조 등 구조의 정보를 나타내는 방법으로는 그래프이론 을 적용해 볼 수 있다. 그래프이론은 구조의 위치, 결합과 관련된 속성을 나타낼 수 있는 도구를 제공하며 이를 해석해 낼 수 있는 엄밀한 이론을 제공함으로써 보다 정확하고 효과적인 결과를 도 출할 수 있다. 이를 적용한 것 중에 하나가 그래프 합성신경망이 [15] 다. 그림 11은 이를 crystalline 소재 디자인에 적용한 예이며, GCNN의 구조를 표현한 것이며, 이 방법을 활용한 예측결과는 그림 12와 같다. 2. 위상학적 데이터 분석(Topological Data Analytics, TDA) 예측모델을 만들고 밴드갭(bandgap)을 예측할 수 있으며 그에 대한 결과는 그림 9와 같다. 구조의 본질적인 속성을 해석해내는 이론이 위상학이다. 이를 이 기계학습 방법은 비선형 특성을 가지고 있는 데이터를 분석 하고 예측하는 데에 장점을 가지고 있으며, 또한 속성이 예측에 있어서 어느 정도로 역할을 하는지 그 중요도(feature im- [14] Chen, Tianqi, Carlos Guestrin, XGBoost: A Scalable Tree Boosting System (2016). CoRR. abs/1603.02754. arxiv:1603. 02754. [15] T. Xie et al., Crystal Graph Convolutional Neural Networks for Accurate and Interpretable Prediction of Material Properties, arxiv:1710.10324. portance)로 정의하여 제공하고 있다.(그림 10) 이는 해당 데이 터 도메인에 대한 기존 통찰력을 통한 데이터 분석의 효과를 기 계학습 방법론과 비교할 수 있는 중요한 요소를 제공하고 있어서 기계학습을 통한 예측결과의 해석과 설명에 필요한 근거를 제시 6
Fig. 11. Illustration of the crystal graph convolutional neural network (CGCNN). [15] Fig. 13. Progression Analysis of Disease analysis of the Nederlands Kanker Instituut data. [18] Fig. 12. Extraction of site energy of perovskites from total formation energy. [15] 데이터분석에적용한것이위상학적데이터분석 (TDA) 이다. 위상학적데이터분석은기존에데이터분석방법론이분석해내지못한새로운것을찾아내기도한다. [16 18] 그림 13은위상학적데이터분석을통하여암에대한분석결과를데이터시각화를통하여나타낸것이다. 소재분야에서있어서도위상학적물성에대한통찰력을바탕으로위상학적데이터분석을적용한연구결과가나오고있다. [19] 향후데이터분석과예측에있어서다양한활용이이루어질것으로기대된다. 나오는글 빅데이터시대를지나기계학습과인공지능기반의 4차산업혁명이이끄는시대에들어가고있다. 기계학습과인공지능의역할은사회 과학적요구와맞물려시간이갈수록더욱더증가하고있다. 이러한흐름에서과학적패러다임역시새로운국면으로 접어들고있다. 이러한변화속에서데이터의가치를인식하고데이터의적극적활용이필요한시기이다. 다른분야와달리소재정보학분야에서의기계학습도입은조금은늦었지만많은연구자들이관심을가지고적극적으로연구를진행하고있으며, 앞서살펴본것과같이여러연구결과들이신소재개발및소재정보학에서의기계학습의가능성을입증하고있다. 우선해결해야할것은유효한데이터의확보를통한빅데이터구축이며, 연구에있어서는여러분야간의융합이다. 또하나중요하게생각해야할것은기계학습과인공지능이전통적인과학적방법을완벽히대체하는것이아니라는것이다. 데이터의관점에서만보더라도기계학습과인공지능은데이터분석과활용면에서의역할이라는위치를가짐으로써기존의연구방법과상호보완적인위치에있다. 이러한새로운과학방법에대한이해를통해유효성을확인하고관심분야에서의적극적인활용을함으로써새로운가치의발굴과새로운현상의이해가이루어질것으로생각된다. [16] Gunnar Carlsson, Bulletin of The American Mathematical Society 46, 255 (2009). [17] Gurjeet Singh et al., Topological Methods for the Analysis of High Dimensional Data Sets and 3D Object Recognition, Eurographics Symposium on Point-Based Graphics 22, (2007). [18] Monica Nicolau et al., PNAS 108, 7265 (2011). [19] Yongjin Lee et al., Nature Communications 8, 15396 (2017). 물리학과첨단기술 JANUARY/FEBRUARY 2018 7