/ 물리학에서의 기계학습 I 힉스와 인공지능 DOI: 10.3938/PhiT.26.047 김 태 정 Higgs and Artificial Intelligence Tae Jeong KIM Since the discovery of the Higgs boson, we have been facing new challenges. Nature is still there to be discovered and understood. The Large Hadron Collider at the CERN has collected many more data than ever before. Data are being collected, and 100 times more will be collected in coming years. Artificial Intelligence is everywhere in the world and has already been acknowledged by all big data companies and institutes to be a power in itself. In this article, recent developments in artificial intelligence for tackling the data deluge in particle physics will be discussed. Fig. 1. The diphoton invariant mass distribution. The events at 125 [2] GeV is possibly from the Higgs boson decaying to two photons. 인공지능이라는 이름이 하나의 유령처럼 전 세계를 떠돌고 있다. 구글의 자율 주행, 페이스북의 얼굴 인식, 네이버의 음성 다. 21세기 현재를 살고 있는 지금 우리는 똑같은 질문을 하지만 인식, 아마존의 고객 패턴 분석 등 빅 데이터가 있는 곳에는 우리들의 가장 그럴듯한 답은 표준모형이다. 표준모형의 완성은 인공지능이 있고 인공지능은 미래의 공상과학이 아닌 현실을 공식적으로 2012년 7월 4일 CERN에서 힉스입자의 발견을 발표 바꾸는 하나의 도도한 흐름으로 인정받고 있다. 이제 빅 데이 하면서 이루어졌다. 터를 다루는 입자물리학은 좀처럼 드러내고 있지 않는 자연을 괴하는 경우 두 광자의 불변질량을 보여주고 있다. 이 힉스입자 이해하기 위해 인공지능을 데이터 분석의 중요한 방법으로 대 의 존재는 거의 60년 전 1964년 벨기에의 프랑수와 앙글레르, 치해야 할 시기를 맞이하고 있다. 로버트 브라우트 그리고 영국의 피터 힉스가 입자의 질량을 힉스 [1,2] 그림 1은 힉스입자가 두 개의 광자로 붕 장을 이용해 설명하면서 힉스입자가 있을 것이라고 예상되어 왔 포스트 힉스시대 다. 거의 60년 만에 힉스입자를 발견한 이후 5년이 지난 지금 발 견 당시의 물리학자들이 느꼈던 감동은 이제 아직 풀리지 않고 세상을 이루는 가장 작은 입자가 무엇일까? 이 질문은 고대 그 리스 시대 때부터 해왔고 많은 철학자들이 그럴듯한 답을 내놓았 있는 우주를 이해하기 위한 절실한 호기심으로 바뀌고 있다. 은하계의 회전속도는 예상하는 것보다 빠르게 돌고 있고 이 빠른 속도를 설명하기 위해서는 구심력으로 작용할 수 있는 우 저자약력 리가 살고 있는 세계와 상호작용을 하지 않아 보이지 않는 암 김태정 교수는 고려대학교 입자물리 전공 박사(2007)로 2008년부터 미국 University of Iowa, 벨기에 Brussels University(VUB) 연구원을 거쳐 2014년 전북대학교 조교수를 거쳐 2015년부터 한양대학교 부교수로 재직 중이다. CMS 국제공동연구팀에서 top quark cross section 그룹 convener로 활동하는 등 top quark와 관련 연구를 중점으로 하고 있다. (taekim@hanyang.ac.kr) 흑 물질이 있어야 한다. 이를 설명하기 위한 이론 중 하나는 초 20 [1] ATLAS collaboration, Phys. Lett. B 716, 1 (2012). [2] CMS collaboration, Phys. Let. B 716, 30 (2012).
대칭이론으로이이론에서는표준모형의입자들에서스핀정보만반대인같은수만큼의새로운입자가존재한다. 예를들어스핀이 1/2인페르미온과대칭을이루는스핀이 1인페르미온이존재하고스핀이 1인보존과대칭이되는스핀이 1/2인보존인입자가존재한다. 초대칭이론에 R 반전성을도입하면가장가벼운중성인뉴트랄리노입자가안정적이되어서암흑물질의후보가된다. 또한초대칭이론은또한힉스입자의질량이양자역학적보정에의해아주커지지않고 125 GeV 로낮은이유즉, 계층문제를자연스럽게설명해주기도한다. 그래서물리학자들은초대칭입자를찾기시작했고초대칭입자가있다면 CERN의강입자충돌기 (LHC) 에서 1 TeV 이하에서발견될수있을것이라고예상하였다. 하지만 LHC에서데이터를받기시작한후 8년, 힉스발견이후 5년이지난지금아직초대칭입자의흔적을못찾고있다. 물론초대칭입자의질량이현재 LHC 충돌에너지로는탐색이점점어려워지는 1 TeV 이상일수있지만그동안낮은질량의초대칭입자를통해힉스입자질량문제를자연스럽게풀려고했던많은이론들이위협을받고있는상황이다. 빅데이터한가지예전과달라진점이있다면힉스발견이후 LHC에서만들어진데이터의양을보면구글이나페이스북못지않게방대하다는점이다. LHC에서 1초에양성자가십억번이상충돌하고이때양성자가붕괴하여만들어지는데이터의양은 1초에 1 PB 이다. 하지만모든데이터를저장할수없고관심있는충돌사건만저장하는데이데이터만해도 LHC에서매년 200 PB의양이쌓이게된다. 저장된데이터는세계소속기관으로복사되어저장되고데이터분석을할수있는포맷형태로바꾸어다시저장되어결국에는 1 EB가넘는데이터가매년생기고데이터분석을진행하게된다. 이게전부가아니라 2023년이후 LHC는광도가좀더높은양성자빔을이용하여 1초당충돌하는양성자충돌의개수를 10배이상늘릴계획이다. 이를 High-Luminosity LHC(HL-LHC) 라부르고이기간동안받을것으로예상되는데이터의양은현재보다 100배이상많을것으로예상하고있다. 이런빅데이터를입자물리에서분석하는방법은전통적으로물리적인지식을동원하여가장효율적이라고생각하는변수를인간이찾아내어 1차원혹은 2차원분포에서직선하나로신호와배경사건을구분해내는것이었다. 하지만원자세계에서물리적인현상은확률적으로분포하기때문에단순히선형적으로는효율적으로원하는신호를분리해낼수없어곡선형태의비선형적인분류방법이필요하게되었다. 이는인공지능의한분야인기계학습의시작이라고할수있다. Fig. 2. Boosted Decision Tree used for observation of single top quark production. [3] 기계학습 인공지능이란말그대로인간의지능을기계로구현하는것으로포괄적인의미를가지고있다. 이중기계학습은구체적으로어떤임무가주어졌을때훈련데이터를통해서성능을향상시키고자하는컴퓨터알고리듬연구라고정의할수있을것이다. 이는전통적으로사람이프로그램을만드는것과는다르게컴퓨터에데이터와결론을넣고컴퓨터를학습시켜컴퓨터가프로그램을만들도록하는것이다. 사실입자물리에서기계학습을통한데이터분석은이미오래전부터시도되어왔다. 예를들어가장많이쓰이는기계학습방법으로는의사결정구조 (Boosted Decision Tree 이하 BDT) 라는것이있다. 신호와배경사건을구분할수있는많은변수를입력값으로컴퓨터에넣어주면컴퓨터가신호와배경사건을구분할수있는효율적인변수를선정하고스캔하여변수에적용하는값을선택해서준다. 그림 2는입자물리데이터분석에서사용되는 BDT의기본적인구조를보여주고있다. 입자물리실험에서기계학습의승리는 2009년단일탑쿼크라는새로운입자의발견이라고할수있다. 단일탑쿼크는탑쿼크의쌍생성과많이비슷하고생성되는확률이작아단순하게선형적인즉하나의변수에값을적용하여잘라내는방법으로는구분해내기가쉽지않은물리적인사건이다. 여러가지변수를이용하여 BDT 또는단순한신경망알고리듬 (Artificial Neural Network) 을이용하여발견할수있었다. 그림 3은기계학습에서나온출력값을보여주고있고검은색점들은실험에받은충돌데이터이고단일탑쿼크사건이있을때데이터와잘일치됨을볼수있다. 이뿐만아니라기계학습은 2012년힉스발견에서도힉스입자가광자로 [3] https://www-d0.fnal.gov/run2physics/top/singletop_observation/. 물리학과첨단기술 DECEMBER 2017 21
물리학에서의 기계학습 I Fig. 4. Example of a simple neural network. 비교하는 것이다. 그 차이를 나타내는 지표를 손실 함수(Loss) 라고 하고 보통 평균 제곱 오차(mean squared error)와 교차 Fig. 3. The discriminant output from the Boosted Decision Trees [4] Analysis. The signal of the single top quark process is indicated by blue color. 엔트로피 오차(cross entropy error)를 이용한다. 이 함수가 최 붕괴하는 경우 이용되었다. 광자의 에너지 값을 결정하기 위해 으로 편미분하여 기울기가 하강하는 방향으로 매개변수 값을 회귀분석을 이용하였고 힉스입자가 광자로 붕괴하는 경우를 다 조정하는 것이다(갱신된 가중치 가중치 학습률 편미분값). 솟값이 0이 될 때까지 인간이 아닌 컴퓨터가 가중치 값과 편향 값을 조정해준다. 방법으로는 손실 함수를 가중치 또는 편향값 른 사건과 구분하기 위해 분류기법을 위해 이용되었다. 다시 처음 질문으로 돌아가 그 동안 딥러닝이 많이 쓰이지 않았던 이유를 살펴보면 훈련 데이터에만 좋은 성능을 발휘하 딥러닝 는 과적합(overfitting)에 관한 문제이고 은닉층이 많아지면서 훈련 속도가 느려진다는 문제였다. 이런 과적합의 문제는 예전 최근 2-3년간 기계학습에 관한 논문들이 쏟아져 나오고 있고 보다 훨씬 많은 데이터의 양과 무작위로 몇 개의 뉴런을 제거 우리는 다시 기계학습을 이야기하고 있다. 다시 기계학습을 이야 하는 방법인 dropout 같은 방법으로 지나친 학습을 억제할 수 기하는 이유를 찾기 전에 인공지능을 이루고 있는 기본구조인 인 있게 되었고 알고리듬의 발전(예를 들어 활성화 함수로 간단한 공뉴런에 대해 살펴보자. 인공뉴런의 구조는 예를 들어 입력 신 ReLU의 사용)과 하드웨어적으로는 그래픽 처리 장치(GPU)의 호가 두 개(x1,x2)라면 두 개의 신호를 입력으로 받아 각각의 입 발전으로 훈련 속도가 예전보다 빨라지게 되면서 여러 하이퍼 력값에 가중치(w1,w2)를 부여하고 여기에 편향값(b)을 더하여 그 파라미터들(각 층의 뉴런 수, 배치 크기, 학습률 등)을 빠른 시 합(b+w1x1+w2x2)이 어떤 기준값 0보다 크면 1을 출력하고 작 간안에 최적화시키는 것이 가능하게 되었다. 이는 딥러닝이 데 으면 0을 출력하는 아주 단순한 구조이다. 이와 같이 신경망은 이터 분석에 중요한 수단이 될 수 있는 중요한 요소가 된다. 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성된다. 입력신호의 총합을 출력층의 신호로 바꾸어 주 무거운 바텀 쿼크의 구별 는 함수를 활성화 함수라고 하고 단순 인공뉴런에서는 활성함수 가 계단함수가 될 것이다. 여기서 4차 혁명이라고 부르는 딥러닝 입자물리에서 이런 딥러닝을 이용한 연구가 활발하게 진행되 즉, 인공뉴런이 여러 겹 쌓여 있는 다중 신경망으로 나가는 핵심 고 있다. 표준모형에는 6개의 쿼크가 존재하는데 이중 수명이 은 활성화 함수를 비선형으로 쓰는 것이다. 비선형 함수를 어떤 짧아 바로 붕괴하는 탑 쿼크를 제외하고 상대적으로 무거운 질 함수를 쓰는 것이 좋은지에 대한 연구가 많이 이루어졌고 최근에 량을 가진 바텀 쿼크를 구분하는 일은 쉽지 않은 과제 중 하나 는 sigmoid, ReLU, tanh 등이 많이 쓰이고 있다. 그림 4는 은닉 이다. 최근 CERN의 CMS(Compact Muon Solenoid) 국제공동 층이 하나인 단순한 2층 신경망 구조를 보여주고 있다. 마지막 실험에서 딥러닝을 이용하여 이 무거운 쿼크를 구분하는 데 좋 활성화 함수를 거치면서 출력층의 값이 확률값(예를 들어 0부터 은 성능을 보여주고 있다. 먼저 쿼크가 어떻게 입자 검출기에 1까지)을 가지게 된다. 서 검출되는지 살펴보자. 탑 쿼크를 제외한 다른 쿼크들은 혼 중요한 것은 매개변수인 가중치와 편향값을 조정하여 원하는 출력층의 값을 얻는 것이다. 그 방법으로 신경망에서 나온 출력 값이 우리가 원하는 값인지 확인하기 위해 알고 있는 정답과 22 [4] V. M. Abazov et al., Phys. Rev. Lett. 103, 092001 (2009).
Fig. 5. Output from the deep learning framework for b-tagging. The output discriminator is close to 1 for bottom quark indicated by red color (color online).[5] Fig. 6. An illustration of the deep convolutional neural network architecture.[6] 자 존재할 수 없어 항상 다른 쿼크와 함께 존재한다. 가속기 충돌에서 생성된 쿼크 입자 또는 강한 상호작용을 매개하는 글 루온입자들은 에너지를 가지고 한쪽 방향으로 날아가면서 더 이상 붕괴하지 않는 안정적인 하드론 입자(세 개의 쿼크로 이 루어진 바리온 또는 두 개의 쿼크로 이루어진 메존) 입자들을 만든다. 이런 입자들을 하드론이라고 부르고 일정한 원안의 묶 음을 제트(jet)라고 부른다. 무거운 바텀 쿼크가 가지고 있는 특 징은 다른 업, 다운, 스트레인지 쿼크보다 무겁고 수명이 길어 붕괴하기까지 1.5 ps 시간이 걸려 그동안 1.8 mm 정도 더 날 아가고 하전입자를 띤 입자들을 더 많이 만들어 낸다. CMS 공 동실험에서는 이런 특징적인 정보들을 입력 값으로 은닉층의 개수는 4개이고 각 층의 노드(nodes)가 100개인 딥러닝 신경 망 구조를 사용하여 무거운 바텀 쿼크를 구분하려고 시도하였 Fig. 7. ROC curves of the deep convolutional network comparing with [6] other algorithms. 다. 그림 5는 바텀쿼크(빨간색)의 출력값이 1에 가깝고 나머지 쿼크들은 0에 가까워 바텀쿼크가 잘 구분되고 있음을 보여주고 eta-phi 평면(그림 6 참조)에서의 에너지 분포를 사진처럼 이 있다. 딥러닝을 이용한 분류는 기존의 방법보다 좋은 성능을 미지로 이용한다면 사진에서 고양이와 강아지를 분류하듯이 구 보여주어 CMS 공동실험에서는 딥러닝을 이용한 분류방법을 분할 수 있을 것이다. 최근 한 연구에서 이미지의 특징을 필터 [5] 바텀 쿼크를 분류하는 대표적인 방법으로 쓰고 있다. 를 통해 뽑아내는 합성곱 신경망(Convolution Neural Network) 기법을 이용하여 인간이 그동안 만들어낸 복잡한 변수보다 좀 글루온과 쿼크 제트의 구분 [6] 더 많은 정보를 컴퓨터가 스스로 찾아낼 수 있게 하였다. 합 성곱 신경망에서 합성곱 층을 여러 개 이용한다면 좀 더 복잡 입자물리 실험에서 또 한 가지 어려운 질문 중 하나는 쿼크 한 특징들을 뽑아낼 수 있다. 이를 통해 인공지능으로 기존의 제트와 글루온 제트를 구분하는 것이다. 쿼크 제트와 글루온 인간이 만들어낸 변수보다 쿼크 제트와 글루온 제트 구분을 제트는 서로 다른 강한 상호작용으로 인해 검출기에 각각 다 더 잘 할 수 있는 것을 보여준 것이다. 그림 7을 보면 Deep 른 형태로 에너지를 남긴다. 글루온 제트가 쿼크 제트보다 더 많은 입자들을 만들어내고 넓게 분포하는 성질을 가지고 있다. 기존에는 물리적인 지식을 동원하여 복잡한 변수를 사람이 직 접 만들어 구분하려는 노력을 하였다. 하지만 검출기에 남겨진 [5] CMS collaboration, CMS-DP-2017/005. [6] Patrick T. Komiske, Eric M. Metodiev and Matthew D. Schwartz, JHEP 01, 110 (2017). 23
물리학에서의기계학습 I (a) (b) Fig. 8. (a) Jet image for signal and (b) Jet image for background. [7] CNN 방법 ( 실선검은색또는회색 ) 이다른방법보다같은쿼크제트효율을보일때더많은글루온제트를제거시켜더좋은성능을가지고있다는것을보여주고있다. 탑쿼크제트의구분입자물리에서합성곱신경망을이용하는가장대표적인예는탑쿼크제트의구분이다. 표준모형에서가장무거운입자인탑쿼크는바텀쿼크와 W 보존입자로붕괴한다. 그리고 W 보존입자는많은경우두개의쿼크로붕괴한다. 이때최종적으로쿼크는제트의형태로검출기에에너지를남기고결국세개의제트입자가된다. 하지만만약탑쿼크의운동량이아주크다면세개의제트입자가한방향으로붕괴되면서하나의큰제트입자형태로나타날수있다. 이때검출기의 eta-phi 평면상의에너지분포 ( 그림 8) 는하나의커다란원에세개의제트입자하부구조형태를띠게된다. 반면배경사건인 QCD 과정을통해서오는여러제트는하부구조가없는형태를띠게된다. 이평면상의에너지분포를합성곱신경망으로분석한다면좀더효율적으로신호와배경사건을구분할수있음을보여주고있다. [7] 소프트웨어가속기를기반으로하는입자물리실험데이터분석에서실질 적으로딥러닝을구현하는방법은크게두가지가있다. 하나는전통적으로 BDT같은기계학습알고리듬을위해개발한 Toolkit for Multivariate Analysis(TMVA) [8] 를이용하는방법이다. TMVA 는입자물리실험목적으로만들어진소프트웨어로지난이십여년동안사용되었기때문에입자물리데이터분석에필요한새로운요구가있을때쉽게구현해낼수있다. 문제는최근빠르게발전하고있는딥러닝관련알고리즘과아이디어를바로적용하기가쉽지않고학습속도도아직까지는최적화가되어있지않아느리다는단점이있다. 또다른방법은딥러닝오픈소스라이브러리 Tensorflow, theano, Caffe, MXNet 등을쓰는것이다. 이는빠르고최신딥러닝알고리즘을이용할수있지만문제는입자물리에서쓰고있는데이터형식과맞지않아직접적으로쓰기에는힘들고데이터형식을바꾸어줄필요가있고입자물리데이터분석에필요한기술적지원을장기간안정적으로받을수있는지도보장이되어있지않다는점이다. 하나의프레임워크를이용한다는것은공동연구를효율적으로할수있다는점뿐만아니라결과의재생산을위해서도필요하다. 입자물리실험에서현재다양하게존재하고있는딥러닝관련프레임워크를하나로만들려는노력이필요하고실제로논의가진행되고있다. 앞으로의전망 지금까지연구들은대부분데이터과학자들이빅데이터의성능을입증하기위해입자물리의빅데이터를활용하였다면이제는입자물리학에서필요한직접적인요구에맞게딥러닝이활용될때이다. 예를들어입자물리실험그룹에서사용되고있는패턴분석프로그램이나입자재구성방법들이딥러닝방법으로대체되고있고딥러닝을이용하여인간이생각해내지못한정보까지데이터에서축출하여물리학자들이전통적인실험에서할수있는영역의범위를크게확장하고있다. 힉스입자의발견이후새로운물리현상의발견이요구되고있고 2023년부터 HL-LHC 가가동되면데이터의양이현재의백배이상이될것으로예상되는지금기계학습은적절한시기에딥러닝이라는이름으로다시살아나고있다. 이를통해바텀쿼크의판별같은입자의재구성의활용에서부터우리가잘모르고있는새로운물리현상의발견, 단면적이작아잘보이지않았던희귀과정의발견, 어디에나있으나보이지않는암흑물질의발견이라는중요한임무에적극적으로활용될것으로보인다. [7] Aristomenis Donos, Jerome P. Gauntlett, Tom Griffin, Nakarin Lohitsiri and Luis Melgar, JEHP 05, 006 (2017). [8] http://tmva.sourceforge.net/. 24 물리학과첨단기술 DECEMBER 2017