본보고서는 미래창조과학부정보통신진흥기금 을지원받아제작한것으로미래창조과학부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소연구조정실추형석선임연구원 (hsc

Similar documents
딥러닝 첫걸음

Introduction to Deep learning

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

빅데이터_DAY key

( 분류및특징 ) 학습방법에따라 1 지도학습 (Supervised 2 비지도 학습 (Unsupervised 3 강화학습 (Reinforcement 으로구분 3) < 머신러닝의학습방법 > 구분 지도학습 (Supervised 비지도학습 (Unsupervised 강화학습 (

보고싶었던 Deep Learning과 OpenCV를이용한이미지처리과정에대해공부를해볼수있으며더나아가 Deep Learning기술을이용하여논문을작성하는데많은도움을받을수있으며아직배우는단계에있는저에게는기존의연구를따라해보는것만으로도큰발전이있다고생각했습니다. 그래서이번 DSP스마

Tree 기반의 방법

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Ch 1 머신러닝 개요.pptx

<B3EDB4DC28B1E8BCAEC7F6292E687770>

1-1-basic-43p

65 Soon-Kwi Kim Young-Hoon Lee 한국프로야구의매시즌별팀당경기수가동일하지않으므로, 본연구에서는시즌별팀당경기수 G로나눈시즌별경기당득점수 rsg와경기당실점수 rag를변수 rs와 ra 대신사용하였다. 절에서승률을정의하고,.절에서 rsg rag와승률간의상

<BFACB1B831382D31355FBAF2B5A5C0CCC5CD20B1E2B9DDC0C720BBE7C0CCB9F6C0A7C7E820C3F8C1A4B9E6B9FD20B9D720BBE7C0CCB9F6BBE7B0ED20BFB9C3F8B8F0C7FC20BFACB1B82D33C2F7BCF6C1A E687770>

15인플레이션01-목차1~9

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


<4D F736F F D20B1E2C8B9BDC3B8AEC1EE2DC0E5C7F5>

i

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

3 Gas Champion : MBB : IBM BCS PO : 2 BBc : : /45

untitled

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

statistics

310 Jang Taek Lee 1.83을주로사용하며, 한국프로야구인경우도 Lee (2016b) 에의하면 1982년부터 2015년전경기를이용한 γ의최적해는메이저리그와같게 1.83으로나타났다. 피타고라스정리의최적지수 γ의추정문제를다룬연구들은메이저리그인경우, Davenpo

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

Microsoft PowerPoint - 실습소개와 AI_ML_DL_배포용.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

사회통계포럼

(JBE Vol. 23, No. 2, March 2018) (Special Paper) 23 2, (JBE Vol. 23, No. 2, March 2018) ISSN

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

분석기법의기본개념부터활용까지사례중심의 A to Z 학습 데이터분석기본 교육기간 : 3 일 (24 시간 )/ 비합숙 교육비 : 회원 62 만원 / 비회원 69 만원 데이터분석핵심이론학습및현업에적용 현장에서발생하는변수를이해하고상황에따른최적화방안도출 품질향상을위한부적합원인도

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

[11하예타] 교외선 인쇄본_ver3.hwp

신경망 (Neural Networks) < 인공지능입문 > 강의 허민오 Biointelligence Laboratory School of Computer Science and Engineering Seoul National University

에듀데이터_자료집_완성본.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<BFACB1B831382D31365FBAF2B5A5C0CCC5CD20BAD0BCAEBFA120C0C7C7D120BFE4C0B2BBEAC1A420B9E6B9FD20BAF1B1B35F33C2F7BCF6C1A E687770>

exp

제 4 장수요와공급의탄력성

2 : (Seungsoo Lee et al.: Generating a Reflectance Image from a Low-Light Image Using Convolutional Neural Network) (Regular Paper) 24 4, (JBE

방송공학회논문지 제18권 제2호

외국인투자유치성과평가기준개발

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

170918_hjk_datayanolja_v1.0.1.

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

Artificial Intelligence: Assignment 5 Seung-Hoon Na December 15, Numpy: Tutorial 다음 자료를 참조하여 numpy기본을 공부하시오.


<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

제 4 장회귀분석

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

PowerPoint 프레젠테이션

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

기획특집 4 I 머신러닝알고리즘을이용한부동산가치산정에관한소고 Ⅱ. 인공지능의정의와주요분야 1956년여름개최된다트머스학술회의 (Dartmouth Conference) 를통해인공지능이라는용어가널리알려지고, 인공지능이새로운연구분야로서확립되게된다. 인공지능이라는용어를처음고안한

슬라이드 1

01 AI Definition 02 Deep Learning Theory - Linear Regression - Cost Function - Gradient Descendent - Logistic Regression - Activation Function - Conce

때문이다. 물론가장큰이유는, 다음절에서살펴보겠지만최근들어딥러닝구조를학습하는데필요한여러가지테크닉들이개발되었기때문이다 [6,7]. 딥러닝이산업현장에서선호되는데는몇가지이유가있다. 일단은어려운문제를잘해결한다는것이다. 예를들어서, 물체인식과음성인식등전통적인패턴인식의문제에서딥러닝



에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

<4D F736F F D20C3D6BDC C0CCBDB4202D20BAB9BBE7BABB>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 3강 역함수의 미분과 로피탈의 정리

슬라이드 1

통계적 학습(statistical learning)

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

MATLAB for C/C++ Programmers

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

= ``...(2011), , (.)''

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Jul.; 29(7),

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

교육학석사학위논문 윤리적입장에따른학교상담자의 비밀보장예외판단차이분석 년 월 서울대학교대학원 교육학과교육상담전공 구승영

2003report250-9.hwp

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

R을 이용한 텍스트 감정분석

오늘의매치업 양팀맞대결정보 승 패 무 승률 VS 승 패 무 승률 시즌전체 시즌상대 순위 : 4위 WL 최근 5 경기 WL 순위 : 4위 최근경기결과및일정 시리즈정보 NC 다이노스對두산

PowerPoint 프레젠테이션

경제관련 주요 법률 제,개정의 쟁점 분석.doc

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

(001~006)개념RPM3-2(부속)

Microsoft PowerPoint - CSharp-10-예외처리

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Transcription:

2015. 12. 28. (2015-013 호 ) 기계학습경진대회활성화방안 빅콘테스트 결과와시사점 추형석

본보고서는 미래창조과학부정보통신진흥기금 을지원받아제작한것으로미래창조과학부의공식의견과다를수있습니다. 본보고서의내용은연구진의개인견해이며, 본보고서와관련한의문사항또는수정 보완할필요가있는경우에는아래연락처로연락해주시기바랍니다. 소프트웨어정책연구소연구조정실추형석선임연구원 (hschu@spri.kr)

빅콘테스트 2015는 야구경기예측 이라는현실적인문제를사전에제공된데이터와기계학습방법론을사용하여해결하는경진대회이다. 이번콘테스트에서는약 80여가지의야구경기관련데이터를제공하고, 딥러닝방법론에가산점을부여하여기계학습의활용을장려했다. 하지만지금까지기계학습관련콘테스트의결과를심도있게분석하여대학생과일반참가자들이기계학습을어떻게인식하고활용하는지에대한자료는찾아보기어렵다. 이에본보고서에서는빅콘테스트 2015에참여한 103개팀의결과자료를분석하여참가자들이문제를해결하기위해어떠한방법론을사용하고어떤결과를예측했는지를제시하고, 시사점을도출해보고자한다. 분석결과, 참가자들의대부분이네가지단계 ( 데이터수집 데이터선별 예측모델링 결과 ) 를거쳐서문제를해결했으며, 특히데이터의수집과선별에중점을두어상관관계가높은데이터의추출에노력을기울였다. 또한참가자들의예측방법론사용분포와기계학습적용비율을조사한결과, 전체 103 개팀에서가장많이사용한예측방법론은회귀분석으로약 43% 를차지했고, 기계학습적용비율은약 72% 이었다. 최종수상한 14팀중 12팀이기계학습방법론을사용하여기계학습의보편적활용가능성을입증했으며, 그외에도딥러닝의활용, 상관성이높은데이터선별, 예측모델의최적화기법, 여러가지예측모델의동시적용등이예측가능성을높이기위해사용되었다. 하지만콘테스트의변별력을더확보하기위해서는문제의난이도를높이고문제에대한선행연구분석으로구체적인가이드라인을제시할필요가있다. 또한국내외기계학습경진대회의장점을벤치마킹하여양질의콘테스트를위한지속적인프로그램개선을해야할것이다. 이번콘테스트는취업연계프로그램을통한기계학습의저변확대에는긍정적인효과가있었으나, 향후에는더욱다양한유인동기를제공하여콘테스트의질적인향상을도모해야할것이다.

1. 개요 1 (1) 배경 1 (2) 대회개요및분석목적 2 2. 분석방법 7 (1) 예측방법론관점 7 (2) 문제해결절차 10 3. 분석결과 12 (1) 챌린지리그 프로야구승률예측 12 (2) 퓨처스리그 프로야구누적관객수예측 16 (3) 종합결과분석 20 4. 시사점 21 [ 부록 ] 24 [ 참고문헌 ] 30

1. 개요 (1) 배경 빅데이터와기계학습을사용하여 SW를도구로활용한현실적문제해결이가능해짐ㅇ과거에는현실적인문제해결의주체가분야별전문가에한정되어있었지만, 현재는방대한양의데이터, 즉빅데이터에의접근성이용이해지고이를분석하여패턴을찾아내는기계학습의활용이확대됨 빅콘테스트 는 야구경기예측 이라는현실적인문제를사전에제공된데이터와기계학습방법론으로해결하는경진대회ㅇ글로벌 SW 기업들은빅데이터와기계학습을기반으로한지능형 SW 개발에박차를가하고있음 에서개발한지능형컴퓨터왓슨 은 년 퀴즈쇼제퍼디 에참여하여우승한뒤헬스케어 날씨예보 클라우드서비스등그활용분야를넓혀가고있음 구글의딥러닝프로젝트인구글브레인은약천만개의유튜브영상중고양이를인식하는데성공함 약 의정확도 페이스북의딥러닝기반얼굴인식기술은약 백만개이상의사진을토대로사람의얼굴을자동으로인식함 약 의정확도 ㅇ빅콘테스트 2015에서는 야구경기예측 에관련한양질의데이터를제공하고, 기계학습의활용을장려함 약 여종의야구경기관련데이터제공 이번콘테스트에서는기계학습방법론중특히딥러닝을사용한경우가산점을부여하는평가지표를마련함 1) 구글브레인은물체 (object) 가고양이인지의여부정보없이학습함 2) 딥러닝은최근인공지능의핵심알고리즘으로각광받고있는방법론으로, 빅데이터에서패턴을효율적으로파악할수있는방법중하나임 https://en.wikipedia.org/wiki/deep_learning 1

더욱이콘테스트후원기업들과의취업연계프로그램으로국내데이 터과학자발굴에긍정적인역할을할것이라예상 빅콘테스트 2015는올해로 3회차를맞는기계학습경진대회이나아직까지결과에대한분석자료를찾아보기어려움ㅇ이에본보고서에서는참가자들의발표자료를모두분석하여참가자들이어떠한방법론을사용하고어떤결과를예측했는지를제시하고자함ㅇ분석결과를토대로더양질의콘테스트를위한시사점을도출하고, 국내외기계학습경진대회사례를분석하여향후방향을제시하고자함 (2) 대회개요및분석목적 대회개요ㅇ ( 제목 ) 빅콘테스트 2015 기계학습기반야구경기예측 참가신청기간 * 분석결과제출기한은 2015년 9월 6일까지 야구경기예측문제는난이도에따라대학생과일반인이참가할수있는챌린지리그와고등학생과대학생을대상으로한퓨처스리그두가지로나뉨 * 국내프로야구는 1군선수들이경쟁을하는 챌린지리그 와 2군선수들로이루어진 퓨처스리그 두개의리그로나뉜것을바탕으로기획함 챌린지리그 년프로야구구단별승률예측 * 2015년 9월 30일기준프로야구팀 10개구단별승률예측 * 사전에제공된데이터는개인선수별성적, 연도별팀통산성적및전적자료이고, 자세한설명은후술함 2

2015. 9. 6 순위 / 승률 순위 팀명 승률 1 삼성 0.610 2 NC 0.580 3 두산 0.567 4 넥센 0.553 5 롯데 0.480 5 한화 0.480 7 KIA 0.475 8 SK 0.462 9 LG 0.431 10 KT 0.366 데이터 + 기계학습 ( 약 20경기예측 ) 2015. 9. 30 순위 / 승률예측 순위 팀명 승률? 삼성?? NC?... 두산.. 넥센롯데한화 KIA SK LG? KT? 퓨처스리그 년프로야구구단별누적관객입장수예측 * 2015년 9월 30일기준프로야구 10개구단별누적관객입장수예측 * 제공된데이터는챌린지리그데이터를포함하여 2015년일자별누적관객수데이터가추가됨 2015. 9. 6 누적관객수 팀명 관객수 삼성 514,971 넥센 487,562 NC 514,651 LG 1,011,294 SK 782,133 두산 1,094,381 롯데 796,905 KIA 679,118 한화 657,385 KT 634,465 데이터 + 기계학습 ( 약 20경기예측 ) 2015. 9. 30 누적관객수예측팀명관객수삼성? 넥센? NC... LG SK 두산롯데 KIA 한화 KT? 3

ㅇ ( 목적 ) 기계학습을사용하여빅데이터문제해결을직접체험하고분석하는기회를제공함으로써, 현안문제를해결할수있는빅데이터전문가를발굴하고취업연계지원ㅇ ( 주최 ) 소프트웨어정책연구소, 한국정보화진흥원, 한국정보통신진흥협회, KT * ( 주관 ) 미래창조과학부, 한국빅데이터연합회ㅇ ( 평가 ) 1차서류심사와 2차발표심사를통해총 14개참가자에게수상 차서류심사기준은예측의정확도에중점을둠 * 예측의정확도는 2015년 9월 30일기준실제결과값과예측값의제곱평균제곱근오차 (Root Mean Square Error, 이하 RMSE) 3) 로계산하고, 이것은예측항목별오차의제곱의합을평균한값으로예측값이얼마나정확한지나타낸지표임 * 총참가자중 18개팀을선별 ( 각리그별 9개팀 ) 차발표심사는 차심사통과자에한해서진행 * 딥러닝을사용한참가자에게는가산점을부여하여변별력확보 대회분석목적및방법ㅇ콘테스트참여자들의결과분석을통해기계학습방법론에대한인식과수준파악 참가자의발표자료와보고서를토대로예측에사용한방법론 예측의정확도 추가데이터수집내용 개발환경등을분석 기계학습현황파악지표로예측방법론 별사용분포와기계학습적용비율도출 * 참가자가주로많이사용한방법론을기준으로 4가지분류항목을도출 기계학습사용여부와수상의상관성분석 3) RMSE, 여기서 는예측값, 는실제값 ( 개 ). RMSE 는예측모델의정확도 를판단하는가장기본적인측도로예측의정밀도를표현하는데적합함. https://en.wikipedia.org/wiki/root-mean-square_deviation 4

콘테스트대상수상자와우수참가자사례분석ㅇ향후콘테스트의질적인성장을위한보완사항과제언을도출함 분석결과를바탕으로차회콘테스트발전방향제시 국내외기계학습관련콘테스트와비교 캐글 코드스프린트 대회세부사항 ㅇ참가인원과자격 < 표 1> 구분 팀수 인원수 ( 명 ) 참가자격 챌린지리그 58 230 대학생이상누구나 퓨처스리그 45 176 고등학생, 대학 ( 원 ) 생 ( 휴학생포함 ) 총계 103 406 - ㅇ대회공식제공데이터 ( 스포츠투아이제공 ) 개인선수별성적 익명 실명 * 연도별투수 29개, 타자 26개지표 [ 그림 1] 5

연도별팀통산성적및전적자료 개 * 성적자료 : 통산팀투수성적, 통산팀타격성적, 팀투수 / 타자성적, 평균자책점 / 타율순위, 부문별최다선수, 구장별투수 / 타격성적, 팀연도별주요부문성적, 팀월별통산성적, 연도별구단변천및팀순위, 구단별감동이동상황, 연도별감독성적 * 전적자료 : 통산팀간승패, 팀순위및팀간승패, 전기 / 후기승패, 팀연도별월별승패 [ 그림 2] 년구장별일일입장객수 그림 사전제공된데이터외에추가로데이터를수집하여사용할수있음 6

2. 분석방법 (1) 예측방법론관점 빅콘테스트 2015 대회문제는기계학습기반야구경기예측으로 [ 그림 4] 와같이문제를도식화할수있음ㅇ 입력값 모델 결과값 의 3단계로추상화 입력값 콘테스트에서제공한자료이외에필요한자료를추가적으로수집하고적용함 예측모델 입력값을바탕으로결과값을추정하는것으로기계학습을비롯한여러가지방법론사용 결과값 콘테스트문제에서요구하는프로야구팀별승률이나누적관객수의예측값 7

참가자팀별방법론분석 ㅇ모든참가자 (103 팀 ) 들이제출한결과발표자료와보고서를토대로예측 방법론과세부내용정리 ( 분석예시 < 표 2>, 수상자분석은부록참조 ) 팀명 4) 예측방법론방법론분류세부내용정리 RMSE 순위 Team1 Team2 Deep Neural Network (Multi-training) Random Forest, CART, Multi-layer Perceptron, Conditional Inference Tree o Model - Deep Neural Network (Multi-step MLP) - 타자, 투수의각지표별상관관계가분석 - 타자의경우 ACF를사용하여 40타석고려인공신경망 - input : 타자, 투수의누적데이터 - hidden : 3 layers - output : 승 / 패확률 - Python: Library (scikit-learn, Keras) o Models - 네가지방법론을종합하여최종승률예측 - 4가지유형별승패기타기계학습 ( 팀자체, 상대팀별, 요일별, 홈 / 어웨이 ) - 4가지모델의승패결과 (0 or 1) - 방법론별정확도를가중치로사용함 0.0156 14 없음없음 ㅇ < 표 2> 의내용을바탕으로예측방법론사용분포와기계학습적용비율 두가지지표를도출함 예측방법론사용분포는각팀이최소한번이상사용한방법론을 모두포함함 * 예측과정이아닌데이터선별과정에서도방법론이사용될수있으며, 여러 가지방법론을적용하여가장좋은예측모델을제안한경우도해당방법론 들을모두예측방법론분포에포함 * 예를들어 < 표 2> 의 Team2 의경우 예측방법론 열에기술된 4 가지 방법론을사용함 (Random Forest, Classification and regression tree, Multi-layer perceptron, Conditional inference tree) 기계학습적용비율은인공신경망 회귀분석 기타기계학습 통계모 델로분류하여도출 표 참조 4) 팀명은익명화하여표현함 8

방법론분류세부예측방법론 ( 예시 ) 비고 인공신경망 Deep Neural Network Deep Belief Network Multi-layer Perceptron 딥러닝 회귀분석 기타기계학습 통계모델 Linear Regression Logistic Regression Poisson Regression Regularized Regression Auto Regressive Method Decision Tree Random Forest Ensemble Learning Principal Component Analysis Support Vector Machine Pythagorean Expectation Bradley-Terry Model Monte Carlo Method Distribution Analysis Simple Modeling (Mean, Median) 기계학습 ( 학습과정이포함됨 ) 비기계학습 ( 학습과정이없이모델자체로결과예측 ) * 통계모델은학습과정이없이야구통계분야에서도출된모델이나간단한평균, 중간값등을사용하여직접예측결과를제시함 * 인공신경망, 회귀분석, 기타기계학습, 통계모델 4가지분류는 < 표 2> 의 방법론분류 열에표현하고, 이것은팀별 예측방법론 열에서가장중요도가높은것으로추정 * 예를들어 < 표 2> 의 Team2 는 4가지방법론중랜덤포레스트를가장비중있게사용했으므로 기타기계학습 으로분류 * 딥러닝은인공신경망분류에포함됨 5) 5) < 표 3> 에제시된방법이외에 Recurrent Neural Network, Convolutional Neural Network, Restricted Boltzmann Machine 등이딥러닝에포함됨 9

(2) 문제해결절차 콘테스트참가자 103개팀의분석결과대다수의참가자가 < 표 4> 과같은네단계의절차를거침 데이터확보 데이터선별 예측모델링 결과 1 데이터확보 대부분의참가자들이대회에서제공한데이터보다더상세한자료를수집하고가공함 * 제공된투수 / 타격데이터가연도별자료이기때문에, 추가적으로경기별데이터를수집하여예측모델에적용함. 또한연도별투수 29개, 타격 26개지표를사용하여미국메이저리그의통계수치인 Sabermetrics 6) 를도출함 * 참가자중 10개팀이웹크롤링 7) 을사용하여데이터를자동으로수집하고분류함 * 특히경기당타자의타격결과를기록한이미지 [ 그림 5] 를추상화하여팀의공격력을추정하고, 예측모델의지표로사용한경우도존재함 6) 미국의야구통계학자빌제임스가제안한통계학적 / 수학적야구분석방법론으로기본적으로수집된야구경기지표를통계모델을사용하여새로운의미를부여함. 예를들어 BABIP(Batting Average on Balls in Play) 는인플레이로이어진타구에대한타율을계산하는지표임 7) 자동화된방법으로월드와이드웹 (www) 을탐색하고수집하는행위를지칭함 10

문제의예측성능을높이기위해서야구외적인요소도고려 * 퓨처스리그의누적관객수예측에서는날씨와같은경기외적인요소가큰관련성이있기때문에참가팀들이별도로기상청의일기예보등을토대로예측모델에반영함 2 데이터선별 약 여가지의데이터가제공되었으나 목표문제와의관련도가적은지표도있기때문에이를취사선택할수있는데이터선별과정수행 * 선형상관관계 (Linear correlation) 분석은가장먼저시도할수있는선별방법으로, 특정데이터항목과결과값이선형적으로얼마나관계가있는지를나타냄 8) * 예를들어팀의총득점이증가할수록승률이증가하는반면에, 팀의총홈런수와승률은큰관련성이없음 * 그밖에, 기계학습의차원축소 (Dimensionality reduction) 기법으로데이터를선별할수있는주성분분석 (Principal Component Analysis), 선형 / 비선형상관계수를도출하는회귀분석 (Regression) 기법등이사용됨 수상한팀의대부분이세밀한데이터선별과정을거쳤기때문에 참가자들이데이터의중요성을잘인지했다고볼수있음 3 예측모델링 예측모델링에사용된방법론은 표 와같이분류되고 기계학습의경우모델을학습하는과정과예측하는과정이구분되는반면통계모델은학습의과정없이바로결과를예측함 * 기계학습의경우주로인공신경망, 회귀분석을사용했고기타기계학습으로는결정나무, 지지벡터머신등이사용됨 * 통계모델은야구통계모델을직접차용해서사용하거나, 확률분포분석과평균을사용하여직접모델링한경우가포함됨 4 결과 : 예측모델을바탕으로결과값예측 8) 특정데이터항목의값이증가할수록결과값이증가하거나감소하는경향이있으면높은선형상관관계가있음 11

3. 분석결과 (1) 챌린지리그 프로야구승률예측 예측방법론분포와기계학습적용비율도출ㅇ총참가팀수는 58개이고, 이중분석이가능한팀은 52개 * 나머지 6개팀은결과물의설명이부족하여분석에서제외ㅇ예측방법론분포 [ 그림 6] 과상위 5개예측방법론 < 표 5> 한팀이여러가지방법론을사용한것도모두포함 예측방법론사용횟수사용비율 총계 85 9) 100% 선형회귀분석 (Linear Regression) 피타고리안승률 (Pythagorian Expectation) 다층퍼셉트론 (Multi-layer Perceptron) 랜덤포레스트 (Random Forest) 심층신경망 (Deep Neural Network) 14 16.5% 13 15.3% 10 11.8% 7 8.2% 6 7.1% 기타방법론 35 41.1% * < 표 5> 의 5 개방법론은 [ 부록 ] 에서간략히소개 9) 52 개팀이총사용한예측방법론의수는 85 개이고, < 표 4> 의 2 데이터선별과정과 3 예측모델링과정에서사용된방법론을모두포함 12

ㅇ < 표 3> 의분류방법에따른결과는 [ 그림 7] 과같음 각팀에서가장비중있게사용한예측방법론을 가지분류중하나로선택함 분석결과챌린지리그참가자의 팀 가기계학습 인공신경망 회귀분석 기타기계학습 을사용하여목표문제를해결 수상결과 < 표 6> 분석 팀명예측방법론 RMSE Challenge1 Principal Component Analysis Exploratory Data Analysis Multi-step Linear Regression 딥러닝사용여부 RMSE 순위최종순위 (1차서류심사 ) 0.0091-1 2 Challenge2 Deep Neural Network 0.0106 O 2 1 Challenge3 Support Vector Machine 0.0130-4 3 Challenge4 Linear Regression 0.0131-5 5 Challenge5 Challenge6 Linear Regression Regularized Regression Random Forest Support Vector Machine Linear Regression Pythagorean Expectation 0.0143-6 4 0.0147-7 6 Challenge7 Pythagorean Expectation 0.0149-8 - Challenge8 Challenge9 Bradley-Terry Model Pythagorean Expectation Deep Neural Network (Multi-training) 0.0151-9 - 0.0156 O 14 7 13

ㅇ 1차서류심사는평가지표의첫번째기준인 RMSE와두번째기준인딥러닝사용여부로평가 (58개팀중 9개팀선별 ) 서류심사통과 개팀의분석내용은부록참조ㅇ최종수상결과는 RMSE, 발표평가, 기계학습가산점세가지항목으로구분하여평가하고 9개팀중 7개팀선별 에가장높은가중치가부여되었으나 발표평가와기계학습가산점으로인한최종순위변동이있었음 * 기계학습을잘활용한 Challenge9 팀이수상순위권에포함되어기계학습가산점이수상의결정요소로작용됨을입증함ㅇ대상수상팀사례분석 Challenge2 팀 RMSE : 0.0106 - 최종결과값인 9월 30일 (141 경기 ) 기준 1경기당승률은 0.007로 10개팀별약 1.5경기예측오류 - 9월 6일부터 30일까지잔여경기는약 20경기로잔여경기대비예측오류는 7.5% 추가데이터수집 - 웹크롤링을통한경기별상세기록수집 - 승률예측에가장중요한요소로 1 상대팀과의역대전적, 2 최근경기결과를바탕으로한팀의상승 / 하락세 예측모델 - 딥러닝을사용하여잔여경기별승 / 패예측 1 상대팀과의역대전적데이터 딥러닝 승리확률예측 2 최근경기결과데이터 딥러닝 승리확률예측 - 가중치 *1 + 2의모델로최종승 / 패예측 결과분석 - 수상의요인으로는상관성이높은데이터의선별에서찾을수있음 - 딥러닝과앙상블학습을통해예측성능을높임 14

ㅇ우수참가자사례분석 Challenge9 팀 RMSE : 0.0156 - 프로야구팀별약 2.2경기예측오류 - 잔여경기 ( 약 20경기 ) 대비예측오류는 11% 인공신경망모델링 - 야구의계층적특성을반영함 (1구 타석 회 경기 ) - 타자의타석별지표를통하여각회별로나올수있는결과를종합한뒤최종승리확률을도출 [ 그림 9] 예측모델 - 다층퍼셉트론을 2중으로설계함 1 타자의과거성적과경기외부요인을종합하여각타자가네번의타순에서성적 (performance) 을도출 2 타자의성적에서도출된값으로각회별결과를예측하고, 이를바탕으로최종승리확률을예측함 결과분석 - 인공신경망이가지고있는계층적특성을가장잘반영하여모델링함 - 전반적으로기계학습에대한이해도가높음ㅇ수상결과를종합해보면기계학습방법론을사용한참가자들이대체로예측성능이뛰어났으나더간단한통계모델로도예측이가능함 챌린지리그에서수상한 팀중 팀이기계학습방법론사용 피타고리안승률 부록참조 은야구통계학자가직접개발한모델로실제승률과매우높은상관관계가있기때문에예측의정확도측면에서이점을가짐 * 실제로 1차서류심사를통과한 9개팀중 3개팀이피타고리안승률을사용함 * 피타고리안승률과같이실제결과와밀접한관계가있는모델은참고모델로제시하여기준점을부여하는등의개선이필요함 15

(2) 퓨처스리그 프로야구누적관객수예측 예측방법론분포와기계학습적용비율도출ㅇ총참가팀수는 45개이고모두분석대상임ㅇ예측방법론분포 [ 그림 10] 과상위 5개예측방법론 < 표 7> 예측방법론사용횟수사용비율 총계 69 10) 100% 선형회귀분석 (Linear Regression) 평균모델 (Mean) 랜덤포레스트 (Radom Forest) AR 방법 (Auto Regressive Method) 다층퍼셉트론 (Multi-layer Perceptron) 18 26.1% 9 13.0% 9 13.0% 5 7.25% 5 7.25% 기타방법론 23 33.4% * < 표 6> 의 5 개방법론중챌린지리그와중복된것을제외하고 [ 부록 ] 에서간 략히소개 10) 45 개팀이총사용한예측방법론의수는 69 개 16

ㅇ < 표 3> 의분류방법에따른결과는 [ 그림 11] 과같음 분석결과챌린지리그참가자의 팀 가기계학습 인공신경망 회귀분석 기타기계학습 을사용하여목표문제를해결 기계학습방법론중회귀분석의사용비율이가장큰이유는누적관객수자체가시간에따라증가하는경향을갖기때문 * [ 그림 12] 는삼성구단의월별총누적관객수를나타낸것으로선형적으로증가함을알수있음 17

수상결과 < 표 8> 분석 팀명방법론 RMSE 딥러닝사용여부 RMSE 순위 (1 차서류심사 ) 최종순위 Futures1 Linear Regression 14,523-1 2 Futures2 Linear Regression 15,335-2 1 Futures3 Linear Regression 16,575-3 3 Futures4 Mean 16,790-4 5 Futures5 Mean 16,976-5 - Futures6 Restricted Boltzmann Machine 17,372 O 7 4 Stacked Autoencoder Futures7 Random Forest 17,479-8 6 Futures8 Linear Regression 17,533-9 - Futures9 Random Forest 17,727-10 7 ㅇ평가지표는챌린지리그와동일하고 1 차서류심사를통과한 9 개팀에대 한세부내용은부록참조 ㅇ최종평가결과역시 RMSE 가가장큰평가지표로사용되었으나, 기계학 습방법론을사용한팀에대한가중치를부과하여변별력을높임 ㅇ대상수상팀사례분석 Futures2 팀 RMSE : 15,335명 - 9월 30일기준 10개구단의총누적관객수는 7,172,865명이고, 예측해야할 9월관객수는 1,146,989명으로이기간중관객 10,000명은약 0.87% 비중을차지 - RMSE는구단별예측이평균적으로 15,335명이차이가나는것을표현하며, 이는예측한 9월관객수대비약 1.3% 의오차를가짐 데이터수집및선별 - 날씨의특수성반영 ( 기상정보 ) - 주중과주말, 공휴일의특성반영 - 홈 / 원정여부, 구단별관중동원력 18

예측모델 - 선형회귀분석으로일자별관중수예측 - 기상정보활용가능여부에따라서모델을구분함 1 9/6 ~ 9/15 : 팀정보, 요일, 주말여부, 기온, 강수여부 2 9/15 ~ 9/30 : 팀정보, 요일, 주말여부 결과분석 - 여러가지선형모델을적용하여예측에사용할최적의모수를선택함ㅇ우수참가자사례분석 Futures6 팀 RMSE : 17,372 명 - 프로야구팀별약 1.5% 9 월관객수예측오류 데이터선별 - 입력값총 19 개 ( 날씨, 요일, 홈 / 원정, 경기시장, 구장등 ) - 예측값은 9 월구장별관객수 예측모델 - Deep Belief Network 와 Stacked Auto-Encoder 를사용하여모델링한뒤성능이더좋은 Deep Belief Network 선택 - 과적합 (Overfitting) 문제 11) 를해결하는 Validation 기법을사용 * Training( 학습 ) Validation( 검증 ) Test( 테스트 ) - 은닉층 (Hidden Layer) 는총 3 개의계층을사용했고, 각층별노드개수는 100 개 결과분석 - 인공신경망의계층적특성을잘살리지는못했으나 Validation 기법을사용함으로써예측성능을높임 - 타팀과는다르게알고리즘을직접구현함 (C++ 사용 ) 11) 인공신경망에서과적합문제 (Overfitting Problem) 는학습시학습데이터에크게의존하게되어발생하는문제로, 학습데이터의예측성능은매우높지만테스트데이터의예측성능은크게떨어지는현상을말함 19

ㅇ퓨처스리그의문제는챌린지리그보다상대적으로쉽고, 누적관객수라는지표자체가강한선형성을가지기때문에선형회귀분석을사용해도좋은예측성능을보임 문제의난이도가낮으면간단한모델로도예측이가능하기때문에참가자들의변별력이떨어지므로 난이도를높이는방향이적절 * 데이터자체에서결과값과강한상관관계가있는문제는적절하지않음 (3) 종합결과분석 예측방법론분석결과, 참가자 97개중기계학습을사용한팀은 72%(70팀 ) 이고, 기계학습방법론중에서는회귀분석이 43%, 인공신경망과기타기계학습이각각 28.5% 를차지함 문제의난이도관점에서수상팀 1등과 7등의예측성능차이는수상팀평균대비챌린지리그 48.6%, 퓨처스리그 19.4% ㅇ각리그수상팀의 1등과 7등의 RMSE 차이를수상팀의평균으로나눈것이 1등과 7등의실력차이임ㅇ챌린지리그수상팀의평균 RMSE는 0.0134이고 1등과 7등의 RMSE차이가 0.0065으로 48.5%, 퓨처스리그수상팀의평균 RMSE는 16,543명이고 1등과 7등의 RMSE 차이는 3,204명으로 19.4% 임ㅇ따라서챌린지리그는 1등과 7등의실력차이가퓨처스리그보다는크다는것은챌린지리그문제의난이도가더높았다는점을시사함 이번콘테스트에서가산점을둔 딥러닝 은수상의요인으로작용했으나예측방법론사용분포의관점에서는많은비중을차지하지못함ㅇ챌린지리그에서는딥러닝을사용한팀이 1등을했지만단두팀만이딥러닝을사용함 (< 표 6> 참조 ) ㅇ퓨처스리그에서는단한팀이딥러닝을사용했고, 그성능또한선형회귀분석에미치지못함 20

4. 시사점 빅콘테스트 2015 분석결과보편적으로기계학습의예측성능이뛰어남ㅇ참가자의 72% 가기계학습법을사용하여프로야구경기예측문제해결 최종수상을받은 개팀중 개팀이기계학습방법론을사용ㅇ기계학습방법론중 43%(30팀 ) 가회귀분석을사용했고, 이중대부분이선형회귀분석임 퓨처스리그에서는누적관객수예측문제자체가가지고있는선형성때문에 그림 개팀이회귀분석을사용함 챌린지리그에서도 개팀이회귀분석을사용했는데 이부분이시사하는바는높은상관관계를갖는데이터를선별하여예측모델을단순화한것으로판단됨 선형회귀분석을예측모델로사용한팀은 차서류통과팀 개중 개로높은예측성능을보였기때문에 선형회귀분석이문제해결에있어서간단하지만효율적인모델임ㅇ콘테스트에서가산점을부여한딥러닝방법론은예측방법론분포의관점에서챌린지리그 6회, 퓨처스리그 4회가사용됨 12) 수상팀 팀중딥러닝을사용한비율은 팀 으로콘테스트의 딥러닝사용시가산점부여 가참가자들에게큰동기가됐다고보기어려움 * 그이유는문제자체가복잡하지않기때문에, 선형회귀분석이나통계모델과같이간단한모델을사용해도어느정도예측이가능함 수상팀중딥러닝을적용한팀은총 팀으로이중 팀은인공신경망의계층적특성을사용하여딥러닝을가장잘응용함 12) 챌린지리그 6 회 (Deep Neural Network 6 회 ), 퓨처스리그 4 회 (Deep Neural Network 3 회, Restricted Boltzmann Machine 1 회 ) 21

딥러닝은학습신경망의구조에따라그성능이좌우되고 어떻게효율적인신경망을구축할것인가에대한변수가많기때문에높은예측성능을확보하기어렵다는점이있음 * 국내외딥러닝관련강의자료를활용하여효율적인신경망구축을위한가이드라인을제시할필요가있음 향후콘테스트에서는문제에대한더구체적인제한사항과난이도조절이필요함ㅇ야구경기승률을예측한챌린지리그에서는문제의난이도가적절한것으로판단되나결과값과큰상관관계를갖는모델에대한제한이필요함 피타고리안승률모델을기준점으로제공하여참가자들이적용할모델의정확도를판단ㅇ퓨처스리그는상대적으로난이도가쉽기때문에변별력을높이기위한문제를고려해야함 콘테스트참가자의대부분이데이터의중요성을인지하고추가적인데이터확보와데이터선별에큰비중을둠ㅇ수상자의대부분이참신한데이터수집과세밀한데이터선별과정을거침ㅇ 10개팀이웹크롤링을사용하여데이터를수집하였으며, 여러가지상관관계분석을통해의미있는데이터를선별 수상팀중 개팀이웹크롤링을사용했으므로 추가적인데이터수집이수상에긍정적인역할을함 빅콘테스트의향후발전방안ㅇ예측문제의범위와난이도조정으로콘테스트의질적향상도모 자연과학분야에서는아직까지경향성이나법칙이발견되지는않았으나매우중요하고방대한데이터를처리해야하는난제가많음 * 대학과연계하여가장예측을잘한팀과공동으로논문을작성하는등참가자개인의실적을쌓을수있는동기부여 22

또한빅데이터를기반으로한패턴분석등기업에서사업적으로중요한예측문제들역시산재해있음 * 기업에서실제문제를직접제안하고이를가장성공적으로해결한팀에게취업기회를부여하는등의연계프로그램으로윈-윈체계마련ㅇ국내외기계학습기반콘테스트에서향후방향모색 기계학습기반문제해결오픈플랫폼인캐글 은전세계의기업이상금을동반한문제를내고 이를해결한개인이나팀에게상금수여 년 월기준약 만명의데이터과학자인력풀확보 * 대표적인문제로 2012년병원에서불필요한진료여부예측문제 (Heritage health prize) 에 3백만달러의상금을제시함 * 마이크로소프트의동작인식장치인키넥트의성능을높이는문제와유럽입자연구소 (CERN) 의힉스입자와관련한문제등다양한분야를포괄함 국내에서는 플래닛의코드스프린트 가다양한문제를제시함 * 2015년 7월에실시된문제는두가지로로보코드챌린지게임과 VOD 추천 * 문제의결과에따라 1~3등에게는상품이수여되고, SK 플래닛입사시가산점을부여함 우리나라에서도캐글과같은시스템도입을적극적으로고려하여현실적인기업의문제를해결하는방향을모색해야함 * 지식기반의 SW 중심사회는현실적인문제를해결하고, 지능형 SW의핵심인데이터과학자를육성해야실현될수있음 13) Kaggle 홈페이지, https://www.kaggle.com 14) SK 플래닛코드스프린트홈페이지, http://codesprint.skplanet.com/2015 23

[ 부록 ] 1. 챌린지리그 / 퓨처스리그방법론소개 < 선형회귀분석 > 선형회귀 (Linear Regression) 분석은종속변수와한개이상의독립변수 ( 설명변수 ) 와의선형상관관계를모델링하는기법 한개의독립변수를사용할경우단순선형회귀, 두개이상의독립변수를사용할 경우에는다중선형회귀라고지칭함 - 이관계를일반화하면주어진데이터집합 에대하 여다음과같은식으로나타낼수있음, - 여기서 는종속변수, 는 개의독립변수를나타내고총 데이터의수는 개 - 위식에서미지수는 개의선형기울기 와 개의절편 이고, 일반적으로 미지수보다데이터가많은 overdetermined system 이기때문에이시스템을푸 는해법에따라해가무수히많을수있음 - 시스템해법의전통적인방법에는최소제곱법 (Least Squares Method) 이있음 선형회귀분석은독립변수와종속변수가선형적인상관관계가있다는가정이있어 야성공적인예측모델로사용할수있으므로, 독립변수의선택이가장중요함 < 피타고리안승률 > 피타고리안승률 (Pythagorean Expectation) 은미국의야구통계학자빌제임스가 제안한공식으로승률이팀의총득점과실점으로표현될수있음 - 피타고리안 이라는단어는득점과실점의관계가피타고라스의정리와유사한 형태를가지기때문 - 구체적인식음다음과같음 총득점 승률 총득점 총실점 - 여기서 은보통 2 를나타내지만리그마다조금씩다를수있음 ( 우리나라프 로야구는 1.8 ~ 1.85 사이의수치임 ) 피타고리안승률은실제승률과매우높은상관관계를가지고있으므로, 콘테스트 의많은참가자들이프로야구승률예측에사용함 24

< 다층퍼셉트론 / 심층인공신경망 > 다층퍼셉트론 (Multi-layer Perceptron) 과심층인공신경망 (Deep Neural Network) 은기계학습의인공신경망 (Artificial Neural Network) 기법에서가장널리사용되는방법 - 다층퍼셉트론과심층인공신경망은네트워크의구조적인측면에서큰차이가없지만, 신경망을학습하는과정에서그차이점이존재함 - 다층퍼셉트론의경우지도학습 (Supervised Learning) 으로신경망을학습하는데여기서 Vanishing Gradient 15) 문제가발생하기때문에, 이것을극복하고자한학습방법이심층인공신경망에적용된비지도학습 (Unsupervised Learning) 임 - 인공신경망의가장큰장점은비선형관계를모델링할수있다는점이지만, 경험에의한최적화가필수적이므로이에소요되는비용이상당할수있음 인공신경망으로예측모델을구축하는단계는크게학습 (train) 과시험 (test) 두단계로나누어짐 - 인공신경망의구조는입력층 (Input Layer), 은닉층 (Hidden Layer), 결과층 (Output Layer) 로구성되며은닉층의개수와해당은닉층의노드개수를정함으로써신경망을구축할수있음 - 이신경망을학습 (train) 시키는방법중, 지도학습의경우일반적으로오차역전파법 (Error Back-propagation Method) 을사용하며이것은신경망의오차를최소화하는가중치갱신을통해이루어짐 - 다층퍼셉트론을예로들어보면다음과같은그림으로표현되는데, 이구조에서미지수는가중치인 와 임 - 층과층사이는활성함수가존재하며이것은정보의전파도혹은전파확률을 나타냄. 사용되는함수는시그모이드, 탄젠트하이퍼볼릭, 가우시안분포등이있 음 15) Vanishing Gradient 문제는지도학습의오차역전파법으로부터제기된문제로, 오차를미분한값이빈번한연쇄법칙 (Chain rule) 에의해서사라지게 (vanish) 되는것을뜻함 https://en.wikipedia.org/wiki/vanishing_gradient_problem 25

< 랜덤포레스트 > 랜덤포레스트 (Random Forest) 는앙상블학습방법의일종으로, 다수의결정트리를학습시키고이로부터분류나예측을출력하는기계학습기법임 - 결정나무 (Decision Tree) 기법은그결과와성능의변동폭이크다는결점을가지고있기때문에이를극복하는것이이방법론이부상하게된동기임 - 랜덤포레스트의가장핵심적인특징은임의성 (Randomness) 에의해서서로다른특성을갖는여러개의결정트리로구성된다는점이고, 이에따라결과의일반화성능을향상시킴 랜덤포레스트의학습방법중가장일반적인방법은배깅 (Bagging) 을사용한방법으로이것은부트스트랩을통해여러개의트리를학습시키고하나의포레스트로결합하는과정을말함 - 결정나무는작은편향과큰분산을갖는경향이있기때문에과적합의위험이존재함. 부트스트랩과정은편향의크기는유지하면서분산을감소시키기때문에더나은성능을확보할수있음 - 추가적으로랜덤포레스트기법을사용하여변수의중요도를측정할수있음 < AR 방법 > AR(Auto Regressive) 방법은시계열분석 (Time series analysis) 의한방법으로미래의예측값을과거의데이터로추정하는것을말함 - AR 방법은과거데이터의수 에따라 라고정의하며이것을수식으로나타내면다음과같음 - 여기서 는 시점에서의시계열데이터를나타내며 는시계열모수임 콘테스트에서는누적입장관객수문제를시계열분석으로처리함 < 평균모델 > 평균모델은이번콘테스트에서직접모델링을수행한것을말하며, 그모델링의기법이평균이나중간값등간단한지표로부터도출됨 - 예를들어, 누적관객수예측문제에서구단의요일별, 홈 / 원정별관객수의평균과가중치를바탕으로최종누적관객수를예측한경우에평균모델에포함 - 상대적으로다른기법들보다매우간단하나, 평균모델을사용한팀의 RMSE 값이고급기계학습을사용한팀보다낮은경우도있었음 26

2. 챌린지리그 1 차서류심사통과참가자분석 팀명예측방법론방법론분류세부내용정리 RMSE 순위 Challenge1 Challenge2 Challenge3 Principal Component Analysis, Exploratory Data Analysis, Multi-step Linear Regression Deep Neural Network Support Vector Machine Challenge4 Linear Regression Challenge5 Linear Regression, Regularized Regression, Random Forest, Support Vector Machine 기타기계학습 인공신경망 기타기계학습 회귀분석 회귀분석 o Model - Principal Component Analysis : 주성분분석 - Exploratory Data Analysis : 자료분석 - Multi-step Linear Regression : 추정 - 10년간팀별투타성적 (53개), 연도 / 월별승패 (4개) - PCA로주성분분석후 EDA로자료선별 - 다중회귀분석으로최종승률도출 o Model - Deep Neural Network - 앙상블학습을통한신뢰성제고 - 투타지표, 상대전적, 분위기등 8개지표 - 웹크롤링 - R : 딥러닝패키지사용 o Model - Support Vector Machine Time Series - 기대승률한가지의지표사용 - 기대승률을시계열로처리하여 hyperplane을 찾음 ( 예측값을다음예측에적용 ) o Model - Linear Regression - 다중공선성기법 : 데이터선별 - 상관관계분석으로데이터선별 - 경기당실점, OPS로모델구축 - R을활용하여잔여경기승수도출 o Model - Lasso (Least Squares) - Ridge (Tikhonov Regularization) - Elastic Net (Regularized Regression) - Random Forest, SVM - 팀 (3개), 투수 (11개), 타자 (16개) 정보사용 - P value로유효한데이터분류 - 각모델별로가장좋은결과를선택 (Lasso) 0.0091 1 0.0106 2 0.0130 4 0.0131 5 0.0143 6 27

Challenge6 Linear Regression, Pythagorean Expectation 회귀분석 o Model - 선형회귀분석, 피타고리안승률 0.0147 7 - 상대전적승률, 후반기승률, 피타고리안승률 - 3가지입력값을토대로선형회귀모델구축 o Model Challenge7 Pythagorean Expectation 통계모델 - 피타고리안승률 - 득실점예측 ( 회귀분석 ) 0.0149 8 - 경기스코어 Challenge8 Bradley-Terry Model, Pythagorean Expectation 통계모델 o Model - Bradley-Terry 모델, 피타고리안승률 - 상대전적승률 -> 잔여경기승률 0.0151 9 o Model - Deep Neural Network (Multi-step MLP) Challenge9 Deep Neural Network (Multi-training) 인공신경망 - 타자, 투수의각지표별상관관계가분석 - 타자의경우 ACF를사용하여 40타석고려 - input : 타자, 투수의누적데이터 0.0156 14 - hidden : 3 layers - output : 승 / 패확률 - Python: Library (scikit-learn, Keras) 28

3. 퓨처스리그 1 차서류심사통과참가자분석 팀명예측방법론방법론분류세부내용정리 RMSE 순위 Futures1 Linear Regression 회귀분석 Futures2 Linear Regression 회귀분석 Futures3 Linear Regression 회귀분석 Futures4 Mean 통계모델 Futures5 Mean 통계모델 Restricted Boltzmann Futures6 Machine, 인공신경망 Stacked Autoencoder Futures7 Random Forest 기타기계학습 Futures8 Linear Regression 회귀분석 Futures9 Random Forest 기타기계학습 - 요일, 날씨, 메르스기간 - 모수의적합성검증 - 일자별관중현황, 기상정보, 홈원정, 요일 - 여러선형모델을비교함 - 요일, 홈원정, 관중수, 메르스고려 - R을사용한웹크롤링 - 홈원정, 날씨, 선발, 요일, 분위기 - 요소별가중치를평균치등을사용 - 홈원정, 요일별관람객수, 대전인기도배율 - 평균을사용하여간단한모델제시 - 예측웹페이지제작 - 요일, 홈원정, 구장, 시기, 날씨 - 신경망학습시 Validation기법적용 - RBM의예측성능이더좋았음 - C++ 로직접알고리즘구현 - 요일, 구장, 날씨, 경기외정보 - 웹크롤링 - 모수별중요도평가 - 요일, 홈원정, 구장, 강수량 - 선형모델적용 - 월, 요일, 홈 / 원정, 구장, Median 변수특성고려 - 웹크롤링 14,523 1 15,335 2 16,575 3 16,790 4 16,976 5 17,372 7 17,479 8 17,533 9 17,727 10 29

[ 참고문헌 ] 1. 국외문헌 Taigman, Y., Yang, M., Ranzato, M. A., & Wolf, L. (2014). Deepface: Closing the gap to human-level performance in face verification. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on (pp. 1701-1708). IEEE. 2. 기타 IBM Watson Homepage. http://www.ibm.com/smarterplanet/us/en/ibmwatson/ Kaggle Homepage. https://www.kaggle.com/ SK Code Sprint. (2015). http://codesprint.skplanet.com/2015 Wikipedia. AR Model. https://en.wikipedia.org/wiki/autoregressive_model Wikipedia. Deep Learning. https://en.wikipedia.org/wiki/deep_learning Wikipedia. Google Brain. https://en.wikipedia.org/wiki/google_brain Wikipedia. Linear Regression. https://en.wikipedia.org/wiki/linear_regression Wikipedia. Pythagorean Expectation. https://en.wikipedia.org/wiki/pythagorean_expectation Wikipedia. Random Forest. https://en.wikipedia.org/wiki/random_forest 30

주의 1. 이보고서는소프트웨어정책연구소에서수행한연구보고서입니다. 2. 이보고서의내용을발표할때에는반드시소프트웨어정책연구소에서수행한 연구결과임을밝혀야합니다. [ 소프트웨어정책연구소 ] 에의해작성된 [SPRI 보고서 ] 는공공저작물자유이용허락표시기준제 4 유형 ( 출처표시 - 상업적이용금지 - 변경금지 ) 에따라이용할수있습니다. ( 출처를밝히면자유로운이용이가능하지만, 영리목적으로이용할수없고, 변경없이그대로이용해야합니다.)