ETRI, Kim Kwihoon (kwihooi@etri.re.kr)
1 RL overview & RL 에주목하는이유? 2 RL Tech. Tree 3 Model-based RL vs Model-free RL 4 몇가지사례들 5 Summary 2
AI Framework KSB AI Framework BeeAI,, Edge Computing EdgeX,, AI System Kim Kwihoon Data Scientist/AI Expert? Industrial Solution (DNA) AI Industrial Solution Smart Construction, Network Control, Traffic light Management, Building Energy Control, Plant Safety Control, Health Alarm prediction,,, Classical ML SVM, DT, Genetic ALG,, DL/RL MLP, CNN, LSTM, GAN, TL, DA, Deep RL,, AI Algorithm ETRI Researcher KAIST Ph.D (Major: AI) ITU-T SG11 Rapporteur AI 프렌즈 Operator Co-worker Major Co-worker 원자력연, 표준연, 에너지연 SKT 미래전략, 삼성전자, HECAS,FISYS, 씨엘, 엔비엘, 비젠트로, 여의시스템등 28 개업체 KAIST, 중앙대, 한기대 3
4
MDP 환경 environment partially observable state 상태 (state) observation 행동 (action) 에이전트 agent * 강화학습이란무엇인가? 이정원, 김승현 5
1. 진정한인공지능의가능성 강화학습은지도학습과는달리에이전트가존재합니다. 에이전트는주어진환경에서스스로행동을선택하며학습에필요한데이터를모읍니다. 학습을하기위해새로운정보가필요하다면에이전트는 exploration 을할것입니다. 이미충분히환경을탐험했다면주어진데이터에대해서 exploitation 을할것입니다. 사람도새로운환경에서무엇인가를배울때스스로데이터를수집하면서학습합니다. 따라서강화학습은지도학습보다는조금더사람의학습방법에가깝다고말할수있습니다. 강화학습의중요한특징중하나는경험을통해학습한다는것입니다. Trial & error 라고도부르는이방법은직접시도를한다는것이독특합니다. 강화학습에이전트가시도를통해혹은경험을통해학습하기때문에비효율적이라는단점이있습니다. 하지만이런특성은동물의자연스러운학습방법을닮아있습니다. 강화학습이현재는당장비효율적인면이많지만앞으로발전할수있는면도많습니다. RLKorea 운영진은미래에투자한다는개념으로강화학습을공부하고있습니다. * RLKorea 운영진의의견 6
2. 강화학습논문의양증가 딥러닝분야에서유명한국제학회는 ICLR, NIPS, ICML 이있습니다. 최근에 Harvard NLP 에서 2018 년, 2019 년 ICLR 에제출한논문을분석했습니다. 아래첫번째그림은 2018 년 ICLR 에제출된논문이고분야별로몇개의논문이제출되었는지를보여줍니다. 무수히많은논문이쏟아지는 GAN 보다도더많은논문이제출된것을볼수있습니다. 두번째그림은 2019 년 ICLR 에제출된논문을보여줍니다. 흥미로운점은 GAN 의논문수는줄어든반면강화학습의논문수는늘었다는것입니다. * RLKorea 운영진의의견 7
3. 인공지능선도기업의활발한연구 현재인공지능분야는거대한 IT 기업들이선도해가고있습니다. 구글, 페이스북, 마이크로소프트, OpenAI 에서많은딥러닝논문을출판하고있습니다. 특히 DeepMind 와 OpenAI 에서수많은강화학습논문을내고있습니다. FAIR(Facebook AI Research) 와 Microsoft Research 에서도꾸준히강화학습논문을내고있습니다. 학계가아닌기업에서활발히강화학습을한다는사실을보면강화학습은미래가밝은기술이라고생각할수있습니다. 또한점점다양한 application 에적용한논문이나오는것을보면강화학습이적용되는범위가넓어지고있다는것을알수있습니다. * RLKorea 운영진의의견 8
9
알파고의후예들 : 알파고 Fan, Lee, Master, Zero (2017.10.) 알파 Zero : 바둑말고다른게임에적용가능한알파 Zero (2018.01.) 알파 Fold : 단백질 3 차구조를예측하는알파폴드, 단백질구조예측학술대회 (CASP) 우승 (2018.12.) 알파스타 : 스타크래프트대결 10:1 승리 (2019.01.) 10
11
4. 각도메인의문제를풀기위해 딥러닝은크게 Vision, NLP, Sound 와같은도메인으로나눌수있습니다. 강화학습은게임, 제어, 자연어처리, 비전, 추천, 최적화로나눠볼수있습니다. 각도메인에속한엔지니어는그도메인의문제를풀기위해다양한기술을사용합니다. 1, 2, 3 에서말한이유가아닌현재직면하고있는문제를풀기위해강화학습을공부해야하는경우가있습니다. 각도메인별로간단히예시를들어보겠습니다. 1) 게임. 대전게임에서상대해주는에이전트. 게임레벨컨트롤 2) 제어. 차량의거동결정 ( 차선을바꾸고싶은지, 핸들을틀고싶은지 ). 공장로봇자동화. 사람의업무를보조하는로봇. 의수나근육보조로봇. 서비스로봇 3) 자연어처리. 챗봇의좀더자연스러운대화 4) 비전. Object tracking. Segmentation 보조하는에이전트 5) 추천. 실시간으로사용자의상황에따라추천 ( 피드추천, 광고추천 ) 6) 최적화. 데이터센터에너지최적화. 최적설계. Task scheduling. Neural Architecture Search * RLKorea 운영진의의견 12
https://planspace.org/20170830-berkeley_deep_rl_bootcamp/ 13
https://stevenschmatz.gitbooks.io/deep-reinforcement-learning/content/ 14
* OpenAI 의주요알고리즘여행및적용사례소개, 플랜아이차금강 15
What is the difference between model-based and model-free reinforcement learning? https://www.quora.com/what-is-the-difference-between-model-based-and-model-free-reinforcement-learning 16
https://www.quora.com/what-is-the-difference-between-model-based-and-model-free-reinforcement-learning 17
https://www.quora.com/what-is-the-difference-between-model-based-and-model-free-reinforcement-learning 18
Littman, MLSS 2009 19
Littman, MLSS 2009 20
Littman, MLSS 2009 21
22
NIPS2017, Tutorial 23
NIPS2017, Tutorial 24
David silver, lecture note 25
David silver, lecture note 26
David silver, lecture note 27
David silver, lecture note 28
David silver, lecture note 29
David silver, lecture note 30
David silver, lecture note 31
ICRA 2018 Spotlight Video https://www.youtube.com/watch?v=g7lxiuec8x0&feature=share 32
33
34
35
ICLR 2018 https://www.youtube.com/watch?v=j-3nukzmfa8&feature=share 36
37
38
39
40
41
Google DeepMind https://deepmind.com/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-40/ 42
ETRI KSB 융합연구단 + 한기대 43
44
NIPS2017, Tutorial 45
대덕연구단지를 AI 메카로 ~ 대한민국을 AI 메카로 ~ 46
ETRI, Kim Kwihoon (kwihooi@etri.re.kr) 47