Jurnal f the Krean Data & Infrmatin Science Sciety 2017, 28(2), 237 250 http://d.di.rg/10.7465/jkdi.2017.28.2.237 한국데이터정보과학회지 게임데이터를이용한지표개발과승패예측모형설계 구지민 1 김재희 2 12 덕성여자대학교정보통계학과 접수 2017 년 1 월 11 일, 수정 2017 년 3 월 10 일, 게재확정 2017 년 3 월 14 일 요약 스포츠의새로운분야로자리잡고있는 e- 스포츠는국내뿐아니라해외에서도많은인기를얻고있다. 그중 AOS (aen f strife) 장르의게임들은대표적인 e- 스포츠대회중하나로주목받으며, 방송및미디어매체는다양한통계지표를활용한게임중계를실시하고있다. 본논문에서는 AOS 장르의게임인리그오브레전드의게임데이터를이용한통계적분석으로게임내지표를개선하고승패예측을위한승패예측모형을설계한다. 인자분석을통해구한인자로기존의지표를개선하는새로운지표를창출하고, 판별분석, 인공신경망, SVM 을이용한승패예측모형을추정해모형간비교를실시하였다. 그결과, 게임내포지션의특성을반영한인자점수로새로운지표를제안하였으며, 세가지승패예측모형은모두평균 95% 의높은정분류율을보였다. 주요용어 : 게임데이터, 승패예측모형, 인공신경망, 인자분석, 판별분석, SVM. 1. 서론 온라인게임은가상세계라는방대한플랫폼을바탕으로스포츠, RPG (rle playing game), FPS (first persn shting) 등다양한장르의개발을이루었다. 그중 RTS (real-time strategy) 장르 의특별한형태인 AOS (aen f strife) 장르게임은최근 e- 스포츠산업의성장과더불어많은유저 (user) 들의관심을받게되었으며, e- 스포츠산업의대표주자로떠오르며국내및해외대회를개최하 였다. MOBA (multiplayers nline battle arena) 또는 ARTS (actin real time strategy) 로도불리 는 AOS 게임은플레이어의전략과운영이게임의승패를좌우하는중요한요소로작용한다. e- 스포츠 대회에참가하는프로게임단은코치진을구성해게임의내적분석과전략을세우며팀의성적을향상시 키기위한노력을거듭하고있다. 선수들은게임영상을리플레이하며피드백과토의를진행해향후게 임운영의개선점을찾고있다. 최근스포츠게임에서의데이터분석도활발하며팀의능력파악과전략 개발에대한연구결과가있다. Kim and Lee (2016), Ch (2016) 는야구게임에서승리모형을다루고 Kang 등 (2015) 은배구팀의전략을세우기위한정보를얻기위한모형을제안하였다. e- 스포츠시장이활성화됨에따라 e- 스포츠콘텐츠를제공하는방송 웹진등의미디어는게임의승 패예측과더불어선수들의경기지표에관심을두고있다. 그중 AOS 장르게임인리그오브레전드 (League f Legends) 는 10 명의선수가한게임에참여하기때문에게임내에서영향력있는선수를선 이논문은 2016 년도정부 ( 미래창조과학부 ) 의재원으로한국연구재단의연구 (NRF:2014R1A1A3050229) 지원과산업통상자원부 (MOTIE) 와한국에너지기술평가원 (KETEP) 의지원을받아수행한연구과제입니다 (N. 20161210200610). 1 (01369) 서울시도봉구삼양로 144 길 33, 덕성여자대학교정보통계학과, 학사과정. 2 교신저자 : (01369) 서울시도봉구삼양로 144 길 33, 덕성여자대학교정보통계학과, 교수. E-mail: jaehee@duksung.ac.kr
238 Jimin Ku Jaehee Kim 정하기위한과정에서게임데이터를이용한지표를활용해왔다. 하지만객관성의측면에서기존지표가가지는문제점이제기되었고, 이를보완하기위한노력들이지속되고있다. 본연구에서는 AOS 장르의게임인리그오브레전드의게임데이터를이용한통계적분석을실시해게임에서사용될수있는지표를탐색하고, 승패를예측하는모형을설계하고자한다. 게임사에서제공하는기존지표와인자분석결과를바탕으로만들어진새로운지표를비교하며, 통계적방법과인공신경망, SVM을이용한승패예측모형을설계한다. 각모형간의비교를통해모형별특징을정리하고승패예측모형의활용방안을제언한다. 본연구는게임데이터에대해통계패키지 R을활용하여통계적분석을실시하며 e-스포츠분야의지표연구를활성화하고, 게임데이터의활용성을높이는데기여할수있을것으로기대한다. 본논문의구성은다음과같다. 2절에서는게임분야의지표와승패관련연구를살펴보고본연구의필요성을설명한다. 3절에서는본연구에서사용된게임데이터를설명하고 4절에서는분석모형에대한설계와식을설명한다. 5절에서는분석결과와모형간비교를보여주며 6절에서는향후연구에대한보완을제안한다. 2. 게임데이터관련기존연구온라인게임의성장과함께 e-스포츠문화가생성되면서 e-스포츠와관련된많은연구들이이루어졌다. Park (2009) 는 e-스포츠의가치와스포츠로서의 e-스포츠를바라보고 e-스포츠의문제점을해결하기위한방안을제시하였으며, Oh 등 (2012) 은 e-스포츠에대한연구동향을알아보고연구주제와분석방법을정리하였다. e-스포츠분야의승패예측모형을설계하기위해기존스포츠산업에서의승패예측과관련한연구를살펴보았다. Gu 등 (2009) 은다중회귀분석을이용해경기에영향을미치는요인을분석하고회귀분석, 인공신경망을이용한승패모형을설계하였다. 또한 Kim 등 (2012) 은로지스틱회귀분석, 의사결정나무분석을통해 2010-2011 시즌의한국남자프로농구경기기록을이용한승패결정요인을분석하였다. 게임산업에서도방대한양의게임데이터를이용한연구들이진행되었다. Ryu 등 (2009) 은온라인게임의주요관리지표인신규이용자, 동시접속자등에대한분석및예측을위해생존모형과 Bass 의확산모형을사용하였다. Lee (2008) 는게임내의중요요소들을도출하고 AHP (analytic hierarchy prcess) 를이용한평가요인간의중요도를분석하였다. 이후게임에서의로그데이터를처리하는기술이발달하면서, 로그데이터를이용한분석연구도생겨나기시작했다. Kim 등 (2015) 은 FPS 게임서버의로그를분석해클라이언트단의보안솔루션로그와서버로그를융합한치팅탐지모형을설계하였으며, Kim 등 (2013, 2014) 은온라인게임의로그데이터를분석해게임봇을검출하는방법과그과정을소개하였다. 이와같이 e-스포츠와온라인게임산업에서는이용자의행동분석과함께게임데이터를이용한다양한연구가이루어지고있음을확인할수있었다. 따라서본연구에서는 e-스포츠현장에서활용될수있는승패예측모형의설계와함께기존의게임지표를개선하여게임운영의전략수립과발전에도움을주고자한다. 3. 리그오브레전드게임데이터설명 3.1. 분석데이터의출처및설명본연구에서는 e-스포츠를대표하는게임중하나인라이엇게임즈의리그오브레전드게임데이터를이용해분석을실시하였다. AOS장르의게임인리그오브레전드는개발자사이트를통해게임 API (applicatin prgramming interface) 를제공하고있으며, 이를이용한게임데이터의분석이가능하다.
Develpment f game indicatrs and winning frecasting mdels with game data 239 분석데이터는리그오브레전드한국서버의 2016 시즌에서 6.8 패치버전이전까지플레이된 5 5 랭 크게임으로소환사의협곡맵에서진행된게임을선택하였으며, 챌린저와다이아몬드랭크에속한선수 들의게임데이터를사용하였다. 이러한기준을만족하는데이터로 n = 376 개의게임데이터가선택되었으며, 통계적분석을실시하 기위해플레이어별데이터와팀별데이터를분리하는과정을거쳤다. 경기데이터는오픈소스 R 을 이용한통계분석을실시하였다. 3.2. 변수의선정 리그오브레전드게임내소환사의협곡맵은 5 5 게임으로 5 명의플레이어가한팀이되어상대방의 적기지를부수면승리하는게임이다. API 에서는한게임이끝나게되면시간대별로기록된게임데 이터를가져올수있으며, 한번의게임데이터에는총 184 개의변수가포함되어있다. 플레이어개인이 게임내미치는영향력에대해인자분석을실시하기위해데이터를가공하는과정을거쳐 17 개의연속 형변수와승패를나타내는이산형변수 1 개, 포지션분류를위한문자형변수 1 개를선택하였으며, 데 이터가공과정에서는 e- 스포츠대회중계방송혹은웹진에서언급되는지표들을참고하였다. 그결과 선택된변수의유형과설명은 Table 3.1 과같다. 각변수는수행과정에앞서전처리과정을거치며표 준정규화를이용한다. 승패예측모형에투입될변수를선택하기위해플레이어개인데이터를팀단위데이터로통합하는과 정을거쳤다. 플레이어개인데이터에포함된 17 개변수가모형을설명하는변수로전부투입될경우 모형의신뢰도가떨어질수있다는점을고려해개인데이터를팀단위의데이터로변환하였다. 그결과 10 개연속형변수와승패를나타내는 1 개의이산형변수를정의할수있었다. 팀단위데이터의타입과 설명은 Table 3.2 와같다. Table 3.1 Variables f League f Legends game s player data Name (Cntinuus) Descriptin Variable champlevel Champin level achieved X 1 kills Number f kills X 2 deaths Number f deaths X 3 assists Number f assists X 4 ttaldamagedealt Ttal damage dealt X 5 largestcriticalstrike Largest Critical Strike X 6 ttaldamagedealttchampins Ttal damage dealt t champins X 7 ttaldamagetaken Ttal damage taken X 8 ttalheal Ttal heal amunt X 9 mininskilled Minins killed X 10 gldearned Gld earned X 11 wardplaced Number f wards placed X 12 wardkilled Number f wards killed X 13 ttalunitshealed Ttal units healed X 14 ttaltimecrwdcntrldealt Ttal dealt crwd cntrl time X 15 time Millisecnds int the game the frame ccurred X 16 neutralmininskilled Neutral minins killed X 17 Name (Discriminant) Descriptin Variable winner Flag indicating whether r nt the participant wn Y lane Participant s lane K (Legal values : MID, TOP, JUNGLE, BOT)
240 Jimin Ku Jaehee Kim Table 3.2 Variables f League f Legends game s team data Name (Cntinuus) Descriptin Variable kills Number f kills the team X 1 deaths Number f deaths the team X 2 assists Number f assists the team X 3 ttaldamagedealt Ttal damage dealt the team X 4 mininskilled Number f Minins the team killed X 5 gldearned the team Gld earned X 6 wardplaced Number f wards the team placed X 7 wardkilled Number f wards the team killed X 8 inhibitrkills Number f inhibitrs the team destryed X 9 twerkills Number f twers the team destryed X 10 Name (Discriminant) Descriptin Variable winner Flag indicating whether r nt the participant wn Y 3.3. 기존캐리레이팅계산 캐리레이팅 (carry rating) 이란게임내에서각포지션이수행하는주요역할을반영해선수의실력 을나타내는지표이다. 리그오브레전드게임대회가신설된이후로 MVP 선수를선정하는데에주로 사용되었으며, 각팀의키플레이어와선수랭킹을메길때에도캐리레이팅을이용하고있다. Table 3.3 Carry rating Psitin Name Descriptin Frmula TOP D(T)PM Ttal damage per minute (Ttal damage dealt t champins) + (Ttal damage taken t champins)/time JUNGLE KA% Cntributin t kill (Number f kills)+(number f assists) + (Ttal number f kills) MIDDLE DPM Damage per minute (Ttal damage dealt t champins)/time BOT-AD DPM Damage per minute (Ttal damage dealt t champins)/time BOT-SUPPORT APG Number f Assist per game Number f assists 게임초기에는선수들을평가하는데있어식 3.1의 KDA (kill-death-assist) 수치와 MVP (mst valuable player) 선수를투표하는판정단의채점을 MVP 선정의주요지표로사용하였다. KDA수치는다음과같이계산되어진다. 하지만 KDA 수치는게임내플레이요소들이반영되기보다는게임의일부요소만이반영되었으며, MVP 선정단의채점역시주관적인판단이라는유저들의지적이있었다. 실제로경기내에서적에게가한데미지가낮았음에도불구하고 MVP로선정된선수도있었으며, MVP 판정단의판정으로유저들의예측과는다른선수들이선정되기도하였다. KDA = { Number f kills + Number f assists, Number f deaths if Number f deaths > 0, (Number f kills + Number f assists) 1.2, if Number f deaths = 0. (3.1) 리그오브레전드게임은이와같은문제점을개선하기위해리그오브레전드챔피언스코리아 ( 이하 LCK) 에포지션별세분화된지표로캐리레이팅을도입하였으며, LCK 2015 Summer 시즌부터시범 적으로사용하였다.
Develpment f game indicatrs and winning frecasting mdels with game data 241 4. 모형의설계 4.1. 캐리레이팅모형현재사용되고있는캐리레이팅지표는게임데이터중일부요소만을반영하기때문에누락된요소들은캐리레이팅계산에이용되지않고있다. 본연구는결손데이터의수를줄이고데이터가가지는변수를최대한으로설명하기위해인자분석을이용한캐리레이팅지표의개선안을제시한다. 데이터는표면적으로드러나는요소외에잠재적으로존재하는설명요인들이존재한다. 여러개의변수가관측되는데이터의경우변수간의관계에대한분석이필요한데, 이과정에서사용할수있는분석이바로다변량통계분석이라할수있다. 그중인자분석은서로관련이있는변수들속에서변수들을잘설명하는인자를찾아내는분석방법으로 Kim (2015) 를참조한다. 다중인자모형은 X µ = LF + ϵ (4.1) 으로변수들을공통인자 F 와특수인자 ϵ의선형결합으로표현한다. 여기서 µ 는 X의평균벡터로 X = (X 1, X 2,, X p), p = 17이고, F 는공통인자벡터, ϵ은특수인자, L은인자적재행렬을나타낸다. 분석과정에서는 376개의게임중승리한경우에해당하는유저들의게임내데이터를가져와이를각포지션별로나누고, 포지션별로나뉜데이터에따라각포지션의특성을설명하는공통인자들을찾는다. 또한인자모형에대한적합으로인자점수를추정하여이를캐리레이팅의개선된지표로설정한다. 추정된인자점수는기존의캐리레이팅과의비교를통해차이점을보여준다. 4.2. 승패예측모형 현재까지예측모형은금융, 주식등의분야에서주로연구되었으며회귀분석, 마코프연쇄를이용 한다양한승패예측모형의연구가이루어져왔다. 본연구에서는기존의통계적예측기법인판별분석, 인공신경망, SVM 을이용한예측모형을설계해각모형간비교를통해예측모형의차이점을알아보 고최선의모형을선택한다. 승패예측의기준으로사용되는변수는 1 ( 승리 ) 과 0 ( 패배 ) 으로표현된 winner 변수이다. 본연구에서는정분류율을모형의예측성능을판단하는평가지표로사용한다. 판별분석은이미알려진집단으로구성된자료들로부터정보를얻어집단을구별할수있는함수를 결정하는것이다. 판별분석은분석하고자하는자료의변수들이서로상관성이높지않고이상점이없 으며종속변수가질적변수일때사용할수있다. 다변량정규분포를따르며공분산행렬이동일한경우 는선형판별함수를사용하지만공분산행렬이다른경우에는이차판별함수를사용한다. 이는분산간 차이정도에의해결정되며, 통계적방법으로분산동일성검정을실시해모형을결정한다. 이차판별함 수는 Q(X) = 1 2 ln Σ1 Σ 2 1 2 (µ 1Σ 1 1 µ 1 µ 2Σ 1 2 µ 2)X 1 2 X (Σ 1 1 Σ 1 2 )X (4.2) 으로표현되며, 표본을이용하는경우 µ 1,µ 2 대신표본평균 X 1, X 2 을이용한다. Σ 1, Σ 2 는각각승리그 룹과패배그룹의공분산행렬로, Σ 1,Σ 2 에대해서는공분산행렬추정량 S 1, S 2 을사용하게된다. 본분석 에서 Q(X) 의표본함수인 Q s(x) 는 Q s(x) > ln p1 p 2 (4.3) 이면 X ( 플레이어 ) 를승리그룹에분류하고, 그렇지않으면 X 를패배그룹에분류한다. 여기서 p 1, p 2 는 각각플레이어가승리, 패배그룹에서발생하는사전확률이다. 본분석에서는승패예측모형을결정하 기위해서게임이종료된시점에서의팀별데이터를이용하며분석과정을통해모형의모수를추정한 다.
242 Jimin Ku Jaehee Kim 인공신경망은생물의신경망을모방하여컴퓨터에구현한학습알고리즘이다. 신경망 (neural netwrk) 에서각노드들은네트워크를형성하며생물의뉴런역할을한다. 인공노드들은입력층, 은닉층, 출력층으로구분되어지며데이터의입력값에따라원하는출력이나올수있도록링크의가중치를조 정하는방법으로학습을수행한다. 본연구에서는게임내팀데이터변수들을입력층으로, 출력층의처 리단위의수는 0 ( 패배 ) 과 1 ( 승리 ) 의값으로부여한단일은닉층신경망 (single-hidden-layer neural netwrk) 를이용한다. 은닉층처리단위의수는입력층과출력층에사용된단위수의평균을사용하였으 며소수점은반올림하였다. 신경망의장점은학습이가능하다는점인데이학습과정을통해비용함수를최소화할수있다. 비 용함수는최적해를찾기위해확률과정을수반하며비용함수를찾는과정에서는시그모이드함수가 사용된다. 시그모이드함수는로지스틱함수의특별한형태로미분이되지않는계단식의함수를미분 가능하도록곡선형태로바꾸어주는활성화함수이다. 주로은닉층의입출력특성을표현하는데사용되 며, 은닉층에서는입력된데이터의합성값들이활성화함수를거치며입력된값에내재하고있는패턴과 특성을알아낸다. 시그모이드활성화함수의식은 f() = 1 1 + e (4.4) 이고, 입력층의벡터 ( 플레이어데이터 ) 로표현되는 X = ( 1, 2,, p) 를활성화함수 (4.4) 에대입 하면은닉층의 j 번째뉴런은 H j = 1 1 + ep[ n u=1 wu j u j ] (4.5) 와같이표현된다. 수식에서 w 는입력층에서은닉층으로향하는가중치로, 가중치가포함된값을계산 해은닉층의출력값을 (H 1, H 2,, H k ) 과같이나타낼수있다. 은닉층의출력값과출력층으로향하 는가중치벡터인 V = (v 1, v 2,, v k ) 를적용하면출력층의 i 번째패턴은 와같이표현할수있다. Y i = k V jh j (4.6) j=1 SVM (supprt vectr machine) 은다른범주에속한데이터간의간격이최대가되도록하는선또 는평면을찾는분류모형으로 Hastie 등 (2001) 을참조한다. 입력된데이터가선형으로구분되지않 는경우데이터를고차원으로대응시켜카테고리를분류하는선또는평면을찾을수있다. 시험데이터 (training data) 는 {( 1, y 1),, ( m, y m)} 으로표기한다. 여기서 i = ( i1,, ip) R p, { 1, 1} 이다. 고차원평면기하연구에의해모든 i 에대해 y if( i) 0 을만족하는 f() = β + β 0 를찾을수있다. minimize 1 2 β 2 + γ m [ n ] ξ i, m = 3 i=1 y i subject t ξ i 0, y i( iβ i + b) 1 ξ i i, i = 1,, m (4.7) 여기서 {ξ 1, ξ 2,, ξ m} 는여유변수 (slack variable) 로 ξ i 0, m i=1 ξi cnstant를만족한다. γ는예측과정에서의오류를줄이기위한패널티항이다. γ에대한최적값은교차타당성 (crss-validatin) 계산을통해구하며, γ 는특성공간 (feature space) 를확장시키는역할을한다. 이과정에서데이터 를고차원으로변환하는대신고차원에서백터의내적연산으로계산한값과같은값을반환하는커널
Develpment f game indicatrs and winning frecasting mdels with game data 243 함수 (kernel functin) 을사용한다. 본분석에서는가우시안 RBF 커널함수 (Gaussian radial basis functin) k(, ) = ep( σ 2 ) (4.8) 을이용한다. 가우시안 RBF 커널은일반적으로데이터에대한사전정보가없을때주로이용되며다양한데이터의형태에잘적용된다는장점이있다. 본분석에사용되는게임데이터는다변량자료로팀의승패를 0과 1로구분하기위해가우시안 RBF 커널함수를이용한다. 5.1. 캐리레이팅모형 5.1.1. 인자분석결과 5. 데이터분석및결과 인자점수를생성하기위해각포지션별로인자분석을실시하였다. 대표적으로승리한팀에서탑 (TOP) 포지션에해당하는플레이어의데이터를추출해프로맥스 (prma) 회전된인자분석을실시한 결과는 Table 5.1 과같다. Table 5.1 Factr ladings f the TOP psitin Variable Variable Name Factr1 Factr2 Factr3 Factr4 Factr5 X1 champlevel 0.48 0.541 X2 kills 0.949 X3 deaths 0.635-0.137 0.146 X4 assists 0.809-0.171 X5 ttaldamagedealt 0.842 0.143 X6 largestcriticalstrike -0.256 0.263 0.198 0.209 0.128 X7 ttaldamagedealttchampins 0.408 0.309 0.383 X8 ttaldamagetaken 0.805 0.498 X9 ttalheal 0.457 0.739 X10 mininskilled 1.176-0.108-0.235 X11 gldearned 0.38 0.515 0.243 X12 wardsplaced 0.511 0.4-0.134 X13 wardskilled 0.291 0.504-0.196 0.137 X14 ttalunitshealed 0.447 X15 ttaltimecrwdcntrldealt 0.292-0.163 X16 time 0.71 0.371-0.116 X17 neutralmininskilled -0.144 0.901 인자 1 (Factr 1) 은방어력기반의챔피언성장인자를의미하며챔피언의레벨 X 1 과골드획득량 X 11 을포함한다. 특징적으로적에게받은총데미지 X 8 가포함되는데, 이는방어력기반으로얼마나적의데미지를잘받고아군을보호하는자세를취했는가를의미한다. 따라서인자 1은탑포지션이얼마나방어력에충실했는가를보여주는인자로판단할수있다. 인자 2는공격력기반의챔피언성장인자를의미한다. 인자 1과의차이점은적에게받은총데미지변수 X 8 이생략되고적에게가한피해량 X 5 가포함되었다는점이다. 적에게가한피해가높을수록방어력기반의챔피언성장보다는공격력위주의챔피언성장이이루어졌음을뜻하며, 미니언처치수 X 10 를포함해챔피언성장이얼마나잘되었는가를보여준다. 인자 3은챔피언처치인자로탑포지션이적을얼마나처치했는지를의미한다. 특히킬횟수 X 2 변수를포함하는것으로보아챔피언처치횟수로얼마나성장하였는가를보여준다. Figure 5.1은프로맥스회전된탑포지션의인자패턴이다. 인자 1의축과가장가까운변수는적에게받은총데미지변수 X 8 이며, 인자 2의축과가장가까운변수는미니언처치수 X 10 와골드획득량
244 Jimin Ku Jaehee Kim X 11 으로나타났다. 오른쪽그림은인자점수결과로탑포지션에서인자 1 과인자 2 에해당하는점수를 산점도로인자 1 과인자 2 의값이높을수록경기내에서좋은플레이를보였다고할수있다. factr pattern factr scres factr2 0.2 0.0 0.2 0.4 0.6 0.8 1.0 1.2 X6 X10 X5 X21 X2 X13 X1 X20X16 X17 X28 X7 X22 X X9 X3 X factr2 2 1 0 1 2 3 4 451 1639 3389 2121 323 2657 1972 3667 681 2120 2414 159737 1837 1524 86 220 1039 1118 2326 3481 121 30 288 1277 1377 1677 1727 2670 2680 1823 2448 163 1986 1598 3362 2962 1167 470 2733 2462 2756 1300 2162 3763 133 40 3709 2609 3135 3782 2834 3576 1281 827 3492 2601310 3810 3736 2977 701 18 94 994 918 1044 797 3379 1945 3090 372 305 340 492 1765 1736 2570 2689 723 2583 2613 1414 661 2238 960 579 1841 1153 1432 63 1198 1927 2197 3142434 3566 3551 3162 2332 3264 210 277 484507 78119 387 541778 872 1209 3692 1318 1322 2266 2213 2396 1869 3799 3217 3027 2310 3613 3122 2274 2498 2626 16511667 9001352 1681 981 2184 2178 2643 3440 2999 3337 1785 2787 2402 123612 819 1051 529 1348 2070147 1017909362 4154 200 238 242 439 700 882 1424 2365 2008 2033 2505 2029 1936 976 1772 1809 1249 1092 1366 924 405 1256 1402 14511481 1543 1710 1697 1896 2087 2526 2531 2071 2287 2549 2793 2700 2765 2952 3409 3441 3671 3622 3321 3828 3223 3280 3394 3417 3774 3835 2815 3848 3345 3017 3290 3172 3508 3191 2866 3120 446 430 556 605 1555 348 581 638 474 109 766 1010 1584 2349 2320 1223 1065 1213 1386 1817 2475 2897 2859 3526 3540 3590 3309 3093 3548 3234 3609 3637 2100 3748 1462 1794 1480 1569 650 592 189265 625 657 748 962 1642 1969 3062 2014 3246 2750 3160 1089 1960 1905 1508 1854 2421 1126 1998 2516 3354 3519 3320 2927 2885 2390 291073 6 512 769 861 1138 1918 2058 2134 3008 847 711 351 948 805 1176 1887 2245 2560 2708 3044 2822 3204 1512 29893658 1393 1187 1619 2147 21561444 2258 3040 3291 3645 3719 24521531 2871 2050 1622 3105 1106 315 2101 2595 3456 3471 2206 2725 3190 2911 2374 851 226 673 1762 398 1337 1720 2712 2779 2938 2945 32563688 3815 3760 2579 416176 3053 3079 1609 1876 2293 3427 2804 2633 3595 2359 15711752 538 7821026 2490 2907 1149 1495 3728 833 938 569 2225 0.2 0.0 0.2 0.4 0.6 0.8 factr1 2 1 0 1 2 3 factr1 Figure 5.1 Factr pattern and factr scres f the TOP psitin 탑포지션에서실시한인자분석과동일한방법으로정글 (JUNGLE), 미드 (MIDDLE), 바텀 (BOTTOM) 포지션을대상으로인자분석을실시하였고, Table 5.2 와같은인자분석결과를얻을 수있었다. 게임내에서바텀포지션은원거리딜러와서포터라는두가지포지션으로나눌수있다. 바 텀포지션의인자분석을실시한결과인자 1 은원거리딜러 (AD) 인자를나타내었고, 인자 2 는서포터 (SUP) 인자로판단할수있었다. 따라서바텀포지션은두가지포지션으로세분화하여표현하였다. Table 5.2 Factr ladings f all psitins Variable TOP JUNGLE MIDDLE BOT-AD BOT-SUP Factr1 Factr2 Factr1 Factr2 Factr1 Factr2 Factr1 Factr2 X 1 0.48 0.541 0.6 0.266 0.864 0.114 0.677 0.556 X 2-0.306 0.978 0.338-0.164 X 3 0.635-0.137 0.648-0.172 0.869 0.193 0.548 X 4 0.809-0.171 0.819 0.286 0.492-0.244 0.765 X 5 0.842 0.232 0.386 0.956-0.148 1.049 X 6-0.256 0.263-0.159 0.172-0.149 0.712-0.148 X 7 0.408 0.309 0.257 0.704 0.525 0.167 0.795 X 8 0.805 0.796 0.669 0.218 0.786 X 9 0.457 0.462-0.101 0.246-0.145 0.598 X 10 1.176 0.322 0.612 1.146-0.265 0.98-0.199 X 11 0.38 0.515 0.469 0.951 X 12 0.511 0.4 0.48 0.522 0.84 0.763 0.381 X 13 0.291 0.504 0.637-0.166 0.647 0.242-0.354 0.872 X 14 0.618-0.121 0.588 0.208 0.771 X 15 0.292 0.256-0.271 0.297 X 16 0.71 0.371 0.251 0.106 0.16 0.398 0.167 X 17-0.144 0.893 0.761 0.322 0.467 0.842
Develpment f game indicatrs and winning frecasting mdels with game data 245 5.1.2. 캐리레이팅의비교 기존의캐리레이팅과인자분석을이용해새롭게도출한캐리레이팅의비교를실시하였다. 기존캐 리레이팅계산법으로각포지션별가장높은점수를받은 10 명의유저번호인 ID 를가져왔으며, 인자 분석에의한각포지션별캐리레이팅계산으로높은점수를받은 10 명의 ID 를가져왔다. 캐리레이팅 계산과정중데이터내에서원거리딜러와서포터의구분이되어있지않은점을고려해군집분석을 통해바텀포지션을 2 개의그룹으로분리하였고, 분리된데이터로각포지션별캐리레이팅을계산하였 다. Table 5.3 Carry Rating using the eisting indicatrs TOP JUNGLE MIDDLE BOT(AD) BOT(SUP) ID C.R ID C.R ID C.R ID C.R ID C.R 1 451 12149.8 779 0.947 828 9268.14 1306 9644.40 656 34 2 681 9694.19 1868 0.938 28 8452.86 1117 8635.50 403 32 3 1639 8134.94 346 0.909 124 8141.433 3116 8622.26 1282 29 4 737 8013.08 276 0.870 1839 7626.18 3089 7809.81 2461 29 5 159 7987.54 1544 0.857 1637 7453.35 1208 7809.21 2629 28 6 1277 7689.52 591 0.857 1320 7356.50 2585 7786.38 983 27 7 1524 7222.94 150 0.828 881 7325.68 3694 7689.86 1038 27 8 220 7099.78 721 0.826 1676 7283.65 3606 7680.42 3338 27 9 1736 7034.02 961 0.815 1898 7188.92 3809 7388.79 3104 26 10 323 6907.55 1128 0.813 324 7006.60 90 7382.74 3286 26 Table 5.4 Carry Rating using the factr scres TOP JUNGLE MIDDLE BOT(AD) BOT(SUP) ID C.R ID C.R ID C.R ID C.R ID C.R 1 1639 4.142 1040 3.857 3806 2.994 1306 3.991 1974 3.750 2 451 4.117 3570 3.279 1637 2.989 1117 3.889 1640 3.076 3 3389 3.353 3463 3.003 1973 2.930 1970 3.743 2645 3.041 4 323 3.039 3171 2.909 1975 2.904 2585 3.476 1838 2.645 5 2121 2.998 1638 2.782 124 2.656 1636 3.395 2461 2.570 6 2657 2.730 259 2.741 324 2.620 2642 3.284 321 2.511 7 1972 2.691 1669 2.717 1839 2.533 3809 2.917 2581 2.446 8 2120 2.564 2388 2.662 28 2.231 1825 2.851 1824 2.195 9 3667 2.540 2260 2.573 828 2.155 90 2.832 338 2.178 10 681 2.460 826 2.541 2644 2.058 3116 2.810 19 2.177 Table 5.3과 Table 5.4를비교한결과각포지션별로동일하게추출된 ID가존재하였다. 미드포지션의인자 1은미드포지션성장인자를의미하는데, 기존의캐리레이팅과비교한결과포지션의성장이높을수록분당데미지가높게측정되었다. 기존의캐리레이팅이분당데미지만을반영한다면개선된캐리레이팅은미드포지션의성장과관련된요소들이반영되므로게임의상세한부분을표현한다고볼수있다. 탑포지션의경우에는공격력위주의챔피언성장인자점수를캐리레이팅으로판단하였다. 스프링시즌 6.8 패치버전에서는탱커형챔피언이유행하였기때문에방어력기반의챔피언성장인자가더적합할것으로예상되었으나이와달리공격력위주의챔피언성장에서의캐리레이팅계산이기존의캐리레이팅계산과유사한결과를보였다. 이는프로경기가아닌일반유저들의게임데이터라는점에서밴픽 (ban-pick) 과정과게임운영방식의차이로인한결과가발생한것으로사료된다. 캐리레이팅비교과정에서가장큰차이를보이는부분은정글포지션과서포터포지션이다. 정글포지션은킬관여율로불리는캐리레이팅을채택하고있는데, 킬과어시스트요인외에게임내적요소들이반영되지않는다는점이문제로지적되었다. 이를개선하기위해캐리형정글포지션인자를선택해인자점수에의한캐리레이팅계산을실시하였다. 서포터포지션역시게임당어시스트수로계산된기존의캐리레이팅대신서포터포지션인자점수를선택했다. 어시스트횟수뿐아니라서포터의시야
246 Jimin Ku Jaehee Kim 장악능력을반영하기때문에인자분석으로계산된캐리레이팅이기존보다개선된지표로사용될수 있을것으로보인다. 5.2. 승패예측모형 5.2.1. 판별분석결과 판별분석을실시하기에앞서모형을결정하기위해공분산행렬에대한동일성검정을실시하였다. 검정결과유의수준 5% 에서그룹간공분산행렬이모두같다는귀무가설을기각하므로그룹간공분산 행렬이다르다는결과에근거하여두그룹을분리하는이차판별함수를선택하였다. Table 5.5 Means f variables Grup X 1 X 2 X 3 X 4 X 5 X 6 X 7 X 8 X 9 X 10 0 (Defeat) 15.95 26.07 25.96 438252.55 571.70 44979.26 67.86 23.02 0.09 1.38 1 (Win) 26.03 16.05 45.00 542299.39 621.33 55251.62 70.28 24.90 1.07 5.79 Table 5.5 는그룹별변수들의평균을나타낸것이다. 변수별평균을살펴보면죽은횟수변수 X 2 를 제외한나머지변수들의평균이승리 (1) 그룹에서높게나타나는것을알수있다. Table 5.6 Classificatin using quadratic discriminant functin Original Classificatin 0 (Defeat) 1 (Win) 0 (Defeat) 92.46% 7.54% 1 (Win) 2.27% 97.73% 판별분석에의한분류결과는 Table 5.6과같다. 판별모형의정분류율은 94% 로높은분류성능을보였다. 특히기존의승리그룹을정확하게분류할확률은 98% 로매우높게나타났다. 반면패배를승리로분류할경우는잘못된판단을내릴수있게하는위험한오류인데, 이경우에서의확률이 7.54% 로높게나타나는특징을보였다. 5.2.2. 인공신경망분석결과신경망분석은모든변수를투입하는신경망 ( 입력층-은닉층 -출력층) 모형으로신경망 (10-6-2) 모형을설정하였다. 출력층처리단위는 0 ( 패배 ) 와 1 ( 승리 ) 의값으로부여하였으며, 은닉층개수는입력층과출력층처리단위의평균값인 6을사용하였다. X1 I1 B1 B2 X2 I2 X3 I3 H1 X4 I4 H2 X5 I5 H3 O1 Y1 X6 I6 H4 O2 Y2 X7 I7 H5 X8 I8 H6 X9 I9 X10 I10 Figure 5.2 Single-hidden-layer neural netwrk fr League f Legends game data
Develpment f game indicatrs and winning frecasting mdels with game data 247 Figure 5.2 는신경망 (10-6-2) 모형을적용한결과를그림으로그린결과이다. 죽은횟수를나타내는변수 X 2 가패배 (0) 를결정하는데주로작용하는것을알수있으며, 적에게가한데미지변수 X 4 는승리 (1) 를결정하는데크게작용하는요소임을확인할수있다. Table 5.7 Classificatin using neural netwrk Classificatin 0 (Defeat) 1 (Win) Original 0 (Defeat) 95.13% 4.87% 1 (Win) 4.2% 95.8% Table 5.7 을보면인공신경망모형에의한분류결과승리그룹과패배그룹을정확히분류할확률은약 95% 로높게나타났다. 패배그룹과승리그룹을정확히구별하는분류율의차이는각각 95.13%, 95.8% 로큰차이를보이지않는다. 오분류경우를살펴보면패배를승리로분류할확률과승리를패배로분류할확률이각각 4.87%, 4.2% 로오류율의차이또한적게나타났다. 5.2.3. SVM 분석결과 SVM 을이용해승패예측모형을적합한결과는 Table 5.8 에서보여준다. SVM 모형에의한분류결과승리그룹과패배그룹을분류할확률은약 94% 로높게나타났다. 패배그룹과승리그룹을구별하는분류율은각각 94.7%, 94.27% 로큰차이를보이지않으며, 패배를승리로분류할확률이 5.3% 로승리를패배로분류할확률인 5.73% 와큰차이를보이지않았다. Table 5.8 Classificatin using SVM Classificatin 0 (Defeat) 1 (Win) Original 0 (Defeat) 94.7% 5.3% 1 (Win) 5.73% 94.27% 0 1 2 1 0 1 2 2 1 0 1 2 SVM classificatin plt tdeaths tkills Figure 5.3 Classificatin plt by SVM
248 Jimin Ku Jaehee Kim Figure 5.3 을보면죽은횟수 (tdeaths) 가증가하면 0( 패배 ) 그룹으로분류될확률이높으며, 킬횟수 (tkills) 가증가하면 1 ( 승리 ) 그룹으로분류될확률이높은것을보아분류가잘되어보인다. 5.2.4. 승패예측모형간비교 판별분석과인공신경망, SVM 을이용한승패예측모형을설계하고각모형의예측율을알아보았다. 모든모형에서평균 95% 의예측율을보였으며모형간정분류율은크게차이가나지않는것을알수 있었다. 하지만모형의예측율에서패배를승리로분류하거나, 승리를패배로분류하는오류율의차이 가있음을알수있었다. Table 5.9 는승패예측모형별오류율을정리한표이다. 패배를승리로분류 하는오류는게임운영에필요한전략을세우는데있어위험요소가될수있다. 판별분석을이용한 승패예측모형에서패배를승리로분류하는오류가 7.54% 로가장높게나타났으며, 인공신경망모형이 4.87% 로가장낮은수치를보였다. 인공신경망모형의경우판별분석과달리공분산행렬을사용하지 않고학습과정을통해최종모형이선택되었기때문에이과정에서오류율이달라진것으로생각된다. Table 5.9 Cmparisn f misclassificatin f mdels Original-Classificatin Discriminant Neural Netwrk SVM 0-1 7.54% 4.87% 5.3% (Defeat-Win) 1-0 2.27% 4.2% 5.73% (Win-Defeat) 6. 결론본연구는 e-스포츠분야의게임인리그오브레전드의게임데이터를이용해캐리레이팅지표를개선하고승패예측모형을적합해보았다. 인자분석을통해만든새로운지표와기존지표의차이를비교해본결과기존지표에포함되지않았던요소들을보다다양하게반영할수있었으며, 게임내포지션을대표하는인자를선택할수있었다. 승패예측모형은통계적방법인판별분석, 학습과정을포함하는인공신경망모형과 SVM을이용한모형으로모형간차이를비교해보고, 게임승패분석에가장적합한모형을선택할수있었다. 이러한모형은게임승패예측에활용될수있다. 판별분석의경우평균 95% 의확률로승패를예측하였으나, 승리를패배로분류하거나패배를승리로분류하는오류의정도가다른두가지모형에비해높게나타났다. 또한패배와승리를분류하는데확률의차이가크게나타난다는특징을파악할수있었다. 인공신경망모형과 SVM을이용한모형은평균 94% 의확률로승패를예측했다. 특히판별분석과다르게패배를승리로분류하거나승리를패배로분류하는오류율의차이가적고, 패배와승리를분류하는확률의차이가크지않았다. 이는판별분석에서는공분산행렬을활용해분류모형을적합하지만, 인공신경망과 SVM은학습과정을통한추정과예측과정이포함된다는점에서분류확률의차이가나타난것으로보인다. 향후연구에서는학습을통한추정과공분산행렬을포함한식의차이가어떠한원인에의해발생하는지를파악해야할것이다. 공분산행렬에따른분류정확도의변화를알아보기위해모의실험이필요할것이며, 승패예측모형의오류율을줄이기위한분석이이어져야할것이다. 또한시간대별로게임의승패확률을알아보기위해서는다변량시계열분석이필요해보인다. 시간을요인으로반영하는승패예측모형을설계해현재모형들과의차이를알아보고, 정확도를향상시킨모형의개발을기대한다.
Develpment f game indicatrs and winning frecasting mdels with game data 249 References Ch, D. (2016) The winning prbability in Krean series f Krean prfessinal baseball. Jurnal f the Krean Data & Infrmatin Science Sciety, 27, 663-676. Gu, S. H., Kim, H. S. and Jang, S. Y.(2009). A cmparisn study n the predictin mdels fr the prfessinal basketball games. Krean Jurnal f Sprt Science, 20, 704-711. Hastie, T., Tibshirani, R. and Friedman, J. (2001). The elements f statistical learning, Springer Verlag, Germany. Kang, B., Huh, M. and Chi, S. (2015) Perfrmance analysis f vlleyball games using the scial netwrk and tet mining techniques. Jurnal f the Krean Data & Infrmatin Science Sciety, 26, 619-630. Kim, J. H. (2015). R multivariate statistical analysis, Kywsa, Seul. Kim, J. Y. and Lee, H. J. (2013). A study f gamebt detectin using nline game lg data analysis. Prceedings f the Krea Infrmatin Science Sciety 2013 Fall Cnference, 680-682. Kim, J. Y. and Lee, H. J. (2014). Gamebt detecting rule verificatin and gamebt detectin using nline game lg data. Prceedings f the Krea Infrmatin Science Sciety 2014 Winter Cnference, 835-837. Kim, S.-K. and Lee, Y.-H. (2016) The estimatin f winning rate in Krean prfessinal baseball league. Jurnal f the Krean Data & Infrmatin Science Sciety, 27, 653-661. Kim, S. H. and Lee, J. W. (2012). Estimating the determinants f victry and defeat thrugh analyzing recrds f Krean pr-basketball. Jurnal f the Krean Data & Infrmatin Science Sciety, 23, 993-1003. Kim, S. M. and Kim, H. K. (2015). A research n imprving client based detectin feature by using server lg analysis in FPS games. Jurnal f the Krea Institute f Infrmatin Security and Cryptlgy, 25, 1465-1475. Krea Cuncil f Sprt fr All, Sprts Encyclpedia, Available: http://prtal.sprtal.r.kr (dwnladed 2016, Aug. 24). League f Legend Develpers Web Site, Available: https://develper.ritgames.cm/. Lee, C. S. (2008). Evaluatin mdel f n-line game using analytic hierarchy prcess. Jurnal f Glbal E-Business Assciatin, 9, 109-127. Oh, S. S. and Kim, D. H. (2012). Analysis f the academic research trend f e-sprts. Jurnal f Krean Sciety fr Wellness, 7, 113-121. Park, B. I. (2009). e-sprts value and the cntrversial issues and slutins fr a prblem f e-sprts frm a sprtive pint f view. Jurnal f Sprt and Leisure Studies, 36, 101-120. Ryu, S. I. and Park, S. J. (2009). Indicatr analysis and predictin methds f nline games using parametric methd and Furier analysis. Prceedings f Asia Pacific Jurnal f Infrmatin Systems, 2, 466-481.
Jurnal f the Krean Data & Infrmatin Science Sciety 2017, 28(2), 237 250 http://d.di.rg/10.7465/jkdi.2017.28.2.237 한국데이터정보과학회지 Develpment f game indicatrs and winning frecasting mdels with game data Jimin Ku 1 Jaehee Kim 2 12 Department f Infrmatin and Statistics, Duksung Wmen s University Received 11 January 2017, revised 10 March 2017, accepted 14 March 2017 Abstract A new field f e-sprts gains the great ppularity in Krea as well as abrad. AOS (aen f strife) genre games are quickly gaining ppularity with gamers frm all ver the wrld and the game cmpanies hld game cmpetitins. The e-sprts bradcasting teams and webzines use a variety f statistical indicatrs. In this paper, as an AOS genre game, League f Legends game data is used fr statistical analysis using the indicatrs t predict the utcme. We develp new indicatrs with the factr analysis t imprve eisting indicatrs. Als we cnsider discriminant functin, neural netwrk mdel, and SVM (supprt vectr machine) fr make winning frecasting mdels. As a result, the new psitin indicatrs reflect the nature f the rle in the game and winning frecasting mdels shw mre than 95 percent accuracy. Keywrds: Discriminant analysis, factr analysis, game data, neural netwrk, supprt vectr machine, winning frecasting mdel. This research was supprted by Prgram thrugh the Natinal Research Fundatin f Krea (NRF) funded by the Ministry f Science, ICT and Future Planning (NRF: 2014R1A1A3050229). This wrk was als supprted by the Krea Institute f Energy Technlgy Evaluatin and Planning (KETEP) and the Ministry f Trade, Industry & Energy (MOTIE) f the Republic f Krea (N. 20161210200610). 1 Undergraduate student, Department f Infrmatin and Statistics, Duksung Wmen s University, Seul 132-714, Krea. 2 Crrespnding authr: Prfessr, Department f Infrmatin and Statistics, Duksung Wmen s University, Seul 01369, Krea. E-mail: jaehee@duksung.ac.kr