최신 IT 동향 세이버 메트릭스(야구 분석)에서 배우는 빅데이터 성공 비결 * 야구는 일찍부터 기록의 경기라 불리웠으나, 최근 IT 의 발전에 힘입어 방대한 데이터 축 적 및 분석 기술이 접목되면서 이전과는 다른 선수 역량 평가 모델링 방법과 구단 경영 효율화 방안이 개발되는 등 성공적인 빅데이터 활용 사례로 주목받기 시작 모든 스포츠 종목은 기록을 남기지만, 야구를 일컬어 기록의 경기 라 하는 것은 경기 도중 일어난 이벤트를 최대한 꼼꼼히 기록하기 때문 - 야구 기록의 아버지로 불리는 핸리 채드윅이 개발한 박스 스코어(Box Scores)는 야 구 경기의 결과는 물론 과정을 소상하게 기록할 수 있음 - 투수가 던진 공은 스트라이크인지 볼인지, 구종은 무엇인지, 좌우상하 어느 코스로 들 어왔는지가 기록되며, 타자가 친 공은 아웃인지 히트인지, 땅볼인지 뜬 공인지, 방향은 <자료>: Google Image Search (그림 1) 야구 경기의 결과 및 과정을 기록하는 박스 스코어 * 본 내용과 관련된 사항은 정보서비스팀( 042-710-1771)과 크로센트 박종훈 수석 아키텍트( 02-2078- 2088)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 NIPA 의 공식적인 입장이 아님을 밝힙니다. 27
주간기술동향 2012. 10. 17. 어디를 향했는지가 모두 기록됨 - 스포츠 중계시 운동 선수들의 지금까지 축적된 기록을 야구처럼 숫자로 세세하게 알 려주는 경기도 없으며, 야구처럼 다음 상황에 대한 예측을 계속 쏟아내는 스포츠도 없 는데, 이는 야구가 꼼꼼히 기록된 과거 데이터를 보유하고 있기 때문에 가능한 일 야구의 기록은 단순한 기록에서 점차 분석의 대상으로 발전해 왔으며, 1970 년대 세이 버 메트릭스(Sabermetrics)가 등장하면서부터 데이터의 중요성에 더욱 주목하기 시작 - 세이버메트릭스는 빌 제임스가 결성한 SABR(Society for American Baseball Research, 미국 야구 학회)와 측정 지표의 의미인 Metrics 를 조합한 단어 - 세이버 메트릭스는 야구의 본질을 데이터로 보고, 야구의 구조를 과학적 데이터 통계 와 분석을 통해 규명하려는 시도를 일컬음 - 빌 제임스 이전에도 야구 통계에 대한 관심이 있었으나 SABR 결성 이후 데이터를 통 한 야구 구조 분석의 체계화가 본격적으로 성립됨 - 세이버 메트릭스는 많은 변화를 겪으며 발전해 왔고, 빌 제임스가 개인 취미 차원에서 시작한 이 작업은 1980 년대를 거쳐 1990 년대에 들어서면서 본격적으로 미국 프로 야구계(메이저리그)에 영향을 미치기 시작 - 세이버 메트릭스가 야구계뿐 아니라 대중들에게 크게 주목받게 된 계기는 2003 년 마 이클 루이스가 저술한 머니볼(Moneyball) 의 발간 - 머니볼은 빌 제임스의 이론을 한층 발전시켜, 당시 메이저리그 최약체였던 오클랜드 어슬레틱스를 강팀으로 변모시킨 빌리 빈의 실화를 다룬 책으로 2011 년에 영화화됨 - 빌리 빈의 조력자인 폴 디포디스타는 하버드대 경제학과 출신으로 컴퓨터와 수학을 이용해서 야구를 과학의 반열에 올린 인물로 평가받기도 함 세이버메트릭스와 머니볼은 야구계를 넘어 기업 경영인들에게 큰 호응을 받았으며, 이 유는 모든 데이터를 승리하는 방법 이라는 관점에서 새롭게 해석했기 때문 - 머니볼에 나오는 명대사이자 핵심 메시지는 팀은 선수를 사는 것이 아니라, 승리를 사야 한다 는 것으로, 단지 보여지는 기록이 좋은 선수가 아니라 팀의 승리에 기여하 는 기록이 좋은 선수를 확보해야 한다는 뜻을 담고 있음 - 예를 들어 세이버 메트릭스는 타자를 평가할 때, 단순히 몇 번 중에 몇 번을 쳤는가를 계산하는 것이 아니라, 팀의 승리를 위해 어떤 기여를 했는지를 평가 28 www.nipa.kr
- 비록 안타를 많이 치지 못해도 팀의 승리에 기여하는 진루타, 희생번트, 희생플라이 등을 많이 친 타자가 보다 가치있는 타자이고, 이런 타자들이 많으면 결국 더욱 많은 승리를 얻을 수 있다는 것 - 이러한 이론은 기업 경영이론과 흡사한 것으로, 직원들의 가치를 어떻게 평가할 것인 지, 직원 구성을 어떻게 할 것인지 등으로부터 시사점을 얻거나 직접 적용할 수 있기 때문에 일반 경영이론으로까지 격상되고 있음 빌 제임스의 혁신적 발견은 매우 많지만, 그 가운데 가장 유명한 것이 궁극적 목적인 팀 의 승리와 관련된 소위 피타고라스 기대승률(Pythagorean expectation) 수식 - 팀의 연간 승률 = 팀 연간 총득점 n/(팀 연간 총득점 n+팀 연간 총실점 n) - 지금까지 축적된 데이터에 따르면 메이저리그에서 n 자승의 값은 1.83 자승 - 이 수식은 승률과 득점수 및 실점수의 관계를 나타내는 것으로, 타격ㆍ투구ㆍ수비 등 측정할 수 있는 모든 항목에서 선수의 활약을 승리에 대한 공헌으로 나타내려는 시행 착오를 거쳐 공식화되었음 - 공식에 따르면 팀의 연간 총득점과 총실점을 알면 연간 승률 추정이 가능한데, 미국 프로야구는 물론 일본 프로야구의 모든 팀 중 90% 이상이 이 모델에 부합 - 수식은 사실 직관적으로 이해가능한 것으로, 팀의 승리를 높이기 위한 방법으로는 득 점을 높인다 거나 실점을 최소화한다 라는 두 가지 외에 다른 것이 없음 - 피타고라스 기대 승률에 따르면 공격의 최대 목표는 득점을 보다 많이 빼앗는 것 이 되며, 수비의 목표는 실점을 극한까지 억누르는 것 으로, 야수와 투수의 역량 평가는 어디까지나 이 관점에서 이루어져야 함 세이버 메트릭스의 관점에 따르면 선수에 대한 평가 지표가 달라지게 되며, 가장 빈번 히 회자되는 것이 타자를 평가할 때 타율 대신 OPS 를 사용하는 것 - 투수의 투구 능력이나 야수의 수비능력보다 상대적으로 계량화가 쉬운 것이 타자의 타격능력이기 때문에 세이버메트릭스도 타격 평가 부문에서 먼저 시작 - 빌 제임스는 안타나 볼넷, 몸에 맞는 공, 홈런, 도루 등 각각의 타격이나 주루 플레이 의 결과가 득점 발생에 어느 정도 영향을 주는 지에 대해 고찰해 나갔으며, 다양한 개 량이 더해지면서 상당히 정밀한 득점 모델을 정립 - 전통적으로 타격에 대한 평가 지표는 기록의 아버지라 불리는 핸리 채드윅이 개발한 29
주간기술동향 2012. 10. 17. <자료>: Dataspora 박스 스코어 에 따른 타율, 홈런, 타점이었으며, 그 중에서도 타율이 가장 대표적 - 그러나 세이버메트릭스에서는 타율 대신 OPS(출루율+장타율, On base percentage Plus Slugging percentage)로 타자를 평가 - OPS 가 타율과 다른 점은 볼넷과 몸에맞는공에 의한 출루를 포함하는 것으로, 예를 들어 타율이 높지만 삼진이 많은 타자보다 타율이 좀 낮더라도 볼넷을 골라내는 능력 이 높아 출루율이 높다면, 팀의 득점을 높이는 데 더 많은 기여를 할 수 있다는 것 - 또한 OPS 에서 장타율이란 장타를 칠 확률이 아니라 한 번의 타격 기회에서 얼마나 더 많은 루까지 갈 수 있는지를 의미하는 것으로, 가령 장타율 150%는 타수마다 1.5 루의 진루를 기대할 수 있음을 뜻함 - 팀의 득점이라는 관점에서 보면 가능한 출루를 많이 하면서 더 많은 루까지 나갈 수 있는 능력을 가진 선수들로 구성하는 것, 즉 OPS 가 높은 선수들로 구성하는 것이 최 선으로 통상 OPS 가 1 을 넘어가는 타자는 슈퍼스타급 플레이어로 볼 수 있음 - 타율은 그 개념상 타석에 들어서서 어느 정도 비율로 안타를 치는가를 나타내는 것으 로 애초부터 득점에 대한 영향력은 배제되어 있지만, OPS 는 순전히 득점에 대한 공헌 <표 1> 타율과 OPS 의 비교 (그림 2) 세이버의 대표적 분석 지표인 OPS 구분 타율(Batting Average) OPS 산출공식 타율=안타 수 타수 OPS = 출루율+장타율-출루율=(안타+몸에맞는공+볼넷) (타수+몸에맞는공+볼넷+희생플라이)-장타율= {단타의 개수+(2 루타의 개수 2)+(3 루타의 개수 3)+(홈런의 개수 4)} 타수 평가 관점 타격의 정확도 득점에 대한 공헌도 수준급 기준 3 할(0.3) 이상이면 수준급 0.8 이상이면 수준급 <자료>: NIPA 정리 30 www.nipa.kr
이라는 관점에서 개발된 지표 OPS 와 같은 지표를 통해 선수 개개인의 활약을 득점이나 실점으로부터 나타낼 수 있 게 되면, 그 선수의 존재가 팀의 승리에 어느 정도 기여하는지를 구체적으로 알 수 있음 - 예를 들어, 연간 총득점과 총실점이 모두 450 점이고, 승률은 5 할로 50 승 50 패를 기록했으며, 주전 선수 9 명이 100 경기에 출장해서 모두 50 점씩 공헌한 팀일 경우 - 주전 선수 1 명을 공수에 걸쳐 100 점의 득점에 공헌할 것으로 기대할 수 있는 선수 를 영입한다면, 연간 총득점은 450 에서 500 으로 증가하게 되며, 피타고라스 기대승 률에 의해 승률은 5 할 5 푼으로 5 승이 높은 55 승을 기대할 수 있게 됨 - 즉, 새로 보강된 선수의 능력은 승리에 대한 공헌이라는 기준으로 변환해서 파악하는 것이 가능하기 때문에, 평균적인 선수에 비해 연간 약 5 승을 추가할 수 있을 정도의 가치가 있는 것으로 간주할 수 있음 - 이것이 바로 선수 한 명을 영입하는 것이 선수를 사는 것이 아니라 승리를 사는 것이 되어야 한다 는 머니볼의 명제 OPS 를 포함한 세이버 메트릭스의 지표들은 보다 객관적인 평가기준으로 인정받으며, 한정된 예산 내에서 강팀을 만들어야 하는 구단들에게 필수불가결한 도구 - 현재 메이저리그에서는 OPS 외에도 야수의 수비능력, 투수 투구능력ㆍ선발/구원투수 투구 이닝수 데이터를 기본으로 후보 선수에 비해 얼마나 팀의 승리에 기여할 수 있 는지를 등급화하는 모델이 다수 등장 - 세이버 메트릭스는 이전에 비 해 더욱 많은 영역에서 큰 폭 으로 데이터를 활용하고 있으 며, 메이저리그 구단에서는 당 연한 것으로 뿌리내리고 있음 - 메이저리그 구단의 프런트는 선수의 가치를 승리에 대한 공 헌도를 근간으로 선수의 연령, 자유계약 선수까지의 기간 등 다양한 요소를 고려하여 평가 <표 2> 미래 가치 예측으로 트레이드 가치 산정 구분 Sal(M) WAR Val(M) Net(M) 2009 0.8 달러 0.5 2.5 달러 1.7 달러 2010 21.0 달러 0.5 2.7 달러 -18.4 달러 2011 23.0 달러 0.5 2.7 달러 -20.4 달러 2012 21.0 달러 0.5 2.7 달러 -18.4 달러 2013 21.0 달러 0.5 2.7 달러 -18.4 달러 2014 21.0 달러 0.5 2.7 달러 -18.4 달러 2015 2016 FA Picks 합계 107.8 달러 3.0 15.7 달러 -92.1 달러 <자료>: Begondtheboxscore 31
주간기술동향 2012. 10. 17. - 과거의 성적=선수의 능력 이기는 하지만 실제의 선수는 성장하거나 노쇠하기 때문에 이를 고려한 선수의 미래 예측 도 점차 중시되고 있는 분야 - 최근 프로구단들은 팀의 핵심이 될 선수를 연봉이 비교적 낮은 단계에서 장기 계약을 맺음으로써 전력과 자금 양 측면에서 안정화를 도모하는 경향이 강해지는 추세 - 느닷없이 좋은 성적을 남긴 신인 선수와 장기 계약을 맺었다가 이후 성적이 안 좋아 진다면 경영 압박이 될 것이며, 따라서 어느 선수와 얼마 기간 동안의 계약을 맺어야 할 것인가가 핵심 포인트가 되고, 이때 선수의 미래 예측 은 주요 참고 데이터 팀의 선수 구성 이외에도 프로야구 구단 운영에서 데이터 분석의 중요성은 커지고 있음 - 2000 년대 초중반의 오클랜드에 이어 최근 약체 구단에서 강팀으로 거듭난 탬파베이 레이즈 역시 월스트리트 출신의 수리 과학에 일가견이 있는 오너 그룹이 맡은 이후 팀 편성뿐 아니라 모든 면에서 데이터 분석 기법을 활용한 것으로 밝혀지고 있음 - 탬파베이 구단은 감독을 채용할 때, 유연성이 있어야 한다거나 표리부동하지 않아야 한다는 등의 성격적인 면 외에 세이버메트릭스 등 수학적 접근에 대한 이해도를 조건 으로 내세우고 있음 - 샌프란시스코 자이언츠 구단은 2008 년 마이크로소프트 총괄 고문 변호사였던 빌 뉴 가 구단주가 되면서 선수들의 훈련은 물론 관중 동원과 같은 마케팅에 첨단 IT 기술 을 접목해서 주목을 받고 있음 - 자이언츠 구단은 이미 2007 년에 티켓 서비스 및 고객 관리 담당 부사장인 러스 스탠 리가 12 개의 변수를 분석해서 그날의 적절한 입장권 가격을 추천해주는 소프트웨어 큐(Qcue) 를 개발 - 당시만 해도 모든 구단은 가격 변동에 따른 입장 감소를 걱정하여 표 값을 동결하는 상황이었으나 스탠리는 베리 본즈가 통산 홈런 신기록인 756 번째 홈런을 앞두고 10 달러짜리 입장권을 100 달러로 올려도 될 것이라는 확신을 얻은 후 본격적으로 도입 - 스탠리는 빌 뉴 구단주와 함께 큐 프로그램을 단계적으로 도입했으며, 2009 년에는 외야석 상단에 적용해서 전년 대비 2 만 5,000 장의 표를 더 팔았고, 50 만 달러의 추 가 수입을 거둠 - 2010 년에 자이언츠는 큐 시스템을 홈 구장 전체 좌석에 도입했으며, 전년대비 700 만 달러의 추가 수익이라는 성과를 이룸 32 www.nipa.kr
야구 데이터 분석의 새로운 지평을 연 세이버메트릭스는 최근 빅데이터와 접목되면서 분석의 범위를 한층 더 확대시켜 또 다른 전기를 맞이하고 있는 상황 - 세이버메트릭스는 축적된 데이터의 해석을 기본으로 야구의 구조를 해명하는 기법으 로서 말하자면 데이터 아웃풋(output)의 기술 혁신으로 분류할 수 있음 - 그러나 세이버메트릭스에서 분석 대상으로 삼는 수집 가능한 데이터에는 한계가 있었 는데, 지금까지의 기술로는 그라운드에서 발생하는 일을 모두 기록하는 것이 사실상 불가능하고, 수집ㆍ분석이 어려운 데이터 영역이 존재했기 때문 - 이러한 제약적 상황을 타파한 것이 카메라로부터 얻은 정보를 자동으로 데이터화해 나가는 트래킹(tracking) 기술, 말하자면 인풋(input) 기술의 혁신으로서 이로부터 야 구의 빅데이터화가 시작 - 여전히 야구의 기본적인 데이터 기록 방식은 사람이 박스 스코어에 기입해 두는 것이 지만, 최근 수년 간은 카메라와 컴퓨터에 의한 데이터의 자동 수집으로 전환되는 과도 기에 있음 - 메이저리그 사무국이나 각 구단에 의한 신기술의 적극적 도입 추세는 확연해지고 있 으며, 디바이스와 컴퓨터에 의한 자동 기록의 장점이 매우 많은 데다가 특히 다양한 데이터를 낮은 비용에 대량으로 수집할 수 있기 때문 - 2003 년에 출간된 머니볼에도 빅데이터의 방향성이 어슴푸레 나타나 있으며, 빌리 빈 이 개발한 AVM 시스템즈 는 구장에서 벌어지는 모든 사건에 대해 각 선수가 어느 정도 영향을 미치고 책임을 졌는지를 규명하고자 시도한 것 - 당시에는 기술의 제약으로 목표를 완전히 구현하지 못했으나, 이제 컴퓨팅 기술과 비 용의 하락, 빅데이터 분석 기술의 등장으로 점차 가능하게 되었음 트래킹 기술을 이용한 데이터의 자동 수집은 야구를 물리적 현상으로 파악할 수 있는 토대를 마련함으로써 야구의 본질에 대한 이해를 한층 심화시키는데 기여 - 스포츠 비전이 개발한 PITCH f/x, HIT f/x, FIELD f/x 라는 트래킹 시스템은 구장 내에 다수의 카메라를 배치하여 이들로부터 얻을 수 있는 정보를 자동적으로 입수함 으로써 야구를 물리 현상 으로 기록 - 지금까지 사람에 의한 기록에서는 안타, 땅볼, 스트라이크, 실책 등 야구 규칙에 따라 데이터를 축적했지만, 트래킹 시스템은 야구를 물리 법칙에 따른 현상으로서 보다 일 33
주간기술동향 2012. 10. 17. Two- Seamer 4-Seamer Cutter Changeup Slider Curv 75~84 85~89 90+ <자료>: The Cub Reporter (그림 3) 다양한 유형의 PICH f/x 트래킹 시스템 반화, 형식화, 구조화된 형식으로 기록 - 가령 투수 평가용 트래킹 시스템인 PITCH f/x 는 1 초 동안 수십 콤마의 정교함으로 투수가 던지는 볼을 데이터화해 속도나 볼의 변화량 등을 상세하고 객관적으로 기록 - 이 데이터를 이용하면 투수의 슬라이더가 동일한 릴리스 포인트에서 뿌려지는 무회 전 볼 에 비해 어느 방향으로 얼마나 회전하는지, 어느 정도 휘어져 나갔는지를 검증 - 정해진 기준과 비교하는 방식으로 볼의 움직임을 정밀하게 측정하므로 그 결과, 모든 투수들의 슬라이더가 어느 방향으로 얼마나 회전해 휘어지는지를 객관적으로 비교, 분석하는 것이 가능 - 지금까지 수작업 입력은 슬라이더의 속도나 휘어지는 폭이 아무리 달라도 슬라이더는 단지 슬라이더 > 혹은 슬라이더 << 와 같은 방식으로만 표기했으며, 이러한 예만 보더라도 빅데이터화에 의해 분석의 차원이 크게 심화된 것을 알 수 있음 빅데이터화에 따라 야구가 물리 현상으로 이해되면서, 투수 놀음이라는 야구에서 투수 의 능력은 보다 명확하게 평가되고 비교되기 시작 - 투수 자신의 생각이나 스카우터의 주관으로 투수가 던진 공의 구종을 정하는 지금까 지의 방식에 비해, 객관적인 물리 정보를 통해 공을 엄밀하게 범주화하게 되면 주관이 비집고 들어올 여지를 배제할 수 있음 - PITCH f/x 시스템에서 측정한 데이터는 어떤 투수의 구종이 무엇인가 보다 그 구종 이 같은 리그의 비슷한 투수군의 동일 구종에 비해 얼마만큼 삼진을 빼앗을 수 있는 지, 혹은 실점 위험이 적은 땅볼을 유도할 수 있는지를 명확히 수치화 함 34 www.nipa.kr
<자료>: Tru Media Networks (그림 4) 다양한 유형의 HIT f/x 트래킹 시스템 - 이를 통해 투수가 타자를 얼마나 제압할 수 있는지 가 명확하게 되고, 특정의 구종이 나 복수 구종의 콤비네이션이 얼마나 가치 있는지에 대해 객관적인 판단이 가능 - 세이버메트릭스의 최우선 원칙인 팀의 승리와 직결되는 두 가지 요소 중 하나인 실점 을 줄이는 힘을 투수가 던지는 구종별로 계측할 수 있게 된 것 타자의 평가 기준은 트래킹 기술의 도입에 의해 한층 더 빠르게 변화될 가능성이 큼 - OPS 를 통한 타자의 능력 평가는 과거의 데이터 만을 분석 대상으로 하기 때문에 운 이 좋은 선수의 능력을 오판할 수 있는 위험이 존재한다는 지적이 있어 왔음 - 예를 들어 정통으로 맞은 직선타를 많이 쳤으나 야수 정면으로 날아가 아웃되는 경우 나, 반대로 힘없이 빗맞은 타구가 운좋게 야수가 없는 곳으로 날아가 안타가 되는 경 우처럼, 객관적으로 선수의 실력을 반영하지 못하는 결과도 포함되어 있다는 것 - 타자 평가용 트래킹 시스템인 HIT f/x 는 새로운 기준을 제시해서 이 문제를 해결하며, 득점을 올린다라는 관점에서 바라보면 타자가 배트를 휘둘렀을 때, 볼에 얼마나 강한 힘을 더할 수 있는가 라는 기준에 도달하게 됨 - 홈런이 가장 알기 쉬운데, 홈런을 치려면 투수가 던진 공에 대해서 펜스를 넘기는데 필요한 물리적인 힘을 일정한 각도로 더해야만 하며, 홈런이 아니더라도 볼에 강한 힘 을 더하는 것이 득점을 올린다는 관점에서 유리한 것은 자명한 사실 - HIT f/x 는 타자의 타구에 대해 거리, 탄착점(볼이 떨어진 위치나 볼이 잡힌 위치), 도 달시간(풍속 등의 환경 데이터도 포함)을 측정하며, 이 데이터를 통해 타자가 볼에 물 리적인 힘을 더하는 능력을 객관적으로 파악 - 따라서 뛰어난 타자는 투수가 던지는 모든 공에 대해 높은 비율로 강한 힘을 더할 수 35
주간기술동향 2012. 10. 17. 있는 선수 로 재정의 할 수 있으며, 야구를 물리적 현상으로 파악하는 관점에서는 매 우 직관적이고 알기 쉬운 타자 평가 기준이 됨 빅데이터와 트래킹 기술은 지금까지 객관적 평가를 할 수 없었던 야수의 능력을 규명하 는 데에도 위력을 발휘하고 있는데, 대표적인 예가 포수의 포구 능력 - 포수의 능력은 승리를 좌우하는 중요한 요소라고 인식되고 있지만 포수의 능력 차이 에 따라 실점에 얼마나 차이가 생기는 지에 대한 객관적인 분석은 지금까지 없었음 - 그러나 PITCH f/x 시스템의 데이터가 입력되면서 변화가 생겼는데, 가령 스트라이크 존 외곽에 걸치는 직구가 들어올 때, 같은 코스임에도 불구하고 포수의 포구 능력 차 이에 따라 심판이 스트라이크를 판정하는 비율이 다르다는 것이 밝혀짐 - 이는 캐칭이 능숙한 포수는 미트를 움직이지 않고 공을 받을 수 있지만, 능력이 부족 한 포수는 같은 공을 받을 때 볼의 힘에 밀려 미트가 움직이고, 이것이 심판의 판정에 영향을 주기 때문으로 분석 - 트래킹 시스템에 의해 어느 포수가 리그의 평균적인 포수와 비교하여 얼마나 볼을 스 트라이크로 판정받게 했는지, 반대로 스트라이크를 볼로 만들었는지가 밝혀짐에 따라, 포수가 실점을 얼마나 줄이거나 늘렸는지를 평가할 수 있게 되었음 - 메이저리그의 경우 평균적인 포수에 비해 우수한 포수는 포구 능력 만으로 연간 15~20 점의 실점을 줄일 수 있으며, 반대로 능력이 떨어지는 포수는 15~20 점 정도 실점을 더 늘려버린다고 함 - 물론, 이것으로 포구 능력의 모든 것을 밝혀낼 수 있는 것은 아니지만, 아무도 몰랐던 혹은 감으로만 말했던 것에 비하면 장족의 발전이라 할 수 있으며, 아울러 이 평가는 관점을 바꾸면 심판의 능력을 표시하는 것이기도 함 - 현재는 그야말로 경험의 영역으로만 치부되어 오던 포수의 투수 리드 능력 을 평가 하기 위한 시행착오도 반복되고 있으며, 비단 포수뿐 아니라 그라운드 안의 모든 선수 는 물론 감독, 코치, 심판들도 트래킹 시스템의 가차없는 시선에 추적을 받고 있음 트래킹 시스템 도입에 의한 야구 분석의 신기원은 구장 전체를 조감으로 촬영하여 수비 하는 야수와 주자의 움직임 데이터를 취득하는 FIELD f/x 에서 정점을 이룸 - 종래 세이버메트릭스에서는 야수의 수비력을 측정할 때, 타구의 도달점, 땅볼ㆍ플라이 등 타구의 성질, 타구의 힘, 주자 상황 등의 데이터로부터 추측하는 것이 기본 36 www.nipa.kr
<자료>: Sports Vision (그림 5) 야구 빅데이터 분석의 정점 FIELD f/x 트래킹 시스템 - 그러나 FIELD f/x 의 등장으로 지금까지 파악이 어려워 고려하지 않았던 위치 선정 을 필두로 타구의 도달시간 등 수비력을 측정하는데 있어 빠뜨릴 수 없는 객관적 정 보를 자동으로 수집하는 것이 가능하게 되었음 - 구장에서 일어나는 모든 사건에 대해 수비ㆍ주루 면에서 각 선수가 어느 정도 책임졌 는지를 측정하려면, 최소한 다음과 같은 복잡한 데이터가 필요 상황 수비 (야수측) 공격 (주자측) 무사, 주자 2 루, 타자 좌중간 지점에 도달 시간 *.*초의 타구를 날림 1) 투수는 던진 구종 2) 외야수가 아웃으로 처리했는지 여부 3) 무사 2 루에서 안타가 난다면 단타 2 루타 3 루타 홈런이 되는 확률 4) 2 루 주자가 3 루까지 가는 확률 5) 2 루 주자가 홈에서 아웃되는 확률 6) 타자 주자를 2 루까지 진루시키지 않을 확률(중계 플레이 포함) 7) 각 야수의 수비 위치 1) 안타의 경우, 2루 주자가 홈에서 살 수 있을 확률 2) 타자가 1 루로 먼저 진루할 확률 3) 주자가 아웃이 되는 확률 4) 주자의 리드 폭 - 그러나 이러한 데이터가 제대로 획득되면 세이버는 수비로 실점을 억제하는 힘 혹은 주루로 득점을 높이는 힘을 산출할 이론을 이미 체계화시키고 있음 - 스포츠 관련 미디어에서는 FIELD f/x 의 데이터를 사용한 혁신적인 수비력 보고서도 발표되기 시작하고 있어, 지금까지 이상으로 엄밀하게 선수의 활약이 득점이나 실점 에 미치는 영향을 분석 빅데이터화에 의해 자원 부족이나 데이터 부족이라는 족쇄가 풀리면서 미국에서는 세이 37
주간기술동향 2012. 10. 17. 버메트릭스와 잘 접목하여 새로운 인사이트를 얻으려는 경쟁이 전개되기 시작 - 메이저리그 사무국은 솔선해서 트래킹 기술을 도입하여 인풋 데이터를 전 구단에 제 공하고 있으며, 여기에 구단이 독자적으로 획득한 데이터를 합하면, 이미 데이터의 볼 륨은 빅데이터란 명칭이 전혀 무색하지 않은 수준 - 이제는 빅데이터 분석에서 앞선 구단이 승률을 높일 수 있다는 이점을 얻을 수 있는 상황이 만들어지고 있음 - 선수들 역시 그동안 감각에 의지하기 십상이었으나 이제 수치로 표현되는 자신의 퍼 포먼스를 보고 스스로의 컨디션을 숫자와 비디오로 확인하면서 파악 - 특히 빅데이터와 함께 클라우드가 이런 측면을 강화하고 있으며, 야구 선수들은 아이 패드를 통해 언제 어디서나 경기 동영상은 물론 이전 경기 데이터뿐만 아니라 실시간 분석을 통한 데이터 차트에 접근 빅데이터에 대한 논의가 무성한 가운데, 야구가 새로운 분석 패러다임 이라는 빅데이터 의 본질을 가장 잘 보여주고 있는 성공적 활용 사례를 제시 - 지금까지는 기술적, 경제적 요인 등으로 인해 데이터 획득 및 저장에 한계가 있었으며, 이러한 제약 속에서 얻어진 한정된 데이터를 분석한 다음, 이 결과를 가지고 어떻게 활용할 지를 결정하는 방식이었음 - 그러나 빅데이터의 패러다임은 원하는 모든 데이터는 언제나 얻을 수 있다는 가정에 서 출발하며, 무엇을 할 것인지 먼저 목표를 정한 후 이에 필요한 데이터들을 수집하 <자료>: Google Image Search (그림 6) 농구( 左 )와 배구( 右 )의 데이터 분석 소프트웨어 38 www.nipa.kr
여 분석하는 방식으로 전개됨 - 야구는 일찍이 세이버메트릭스를 통해 승리를 얻는 법 이라는 목표를 달성하기 위한 데이터 분석을 시도하였으며, 이제 빅데이터와 결합하면서 야구장에서 벌어지는 모든 이벤트에 대해 필요한 것은 무엇이든 수집하여 분석해가고 있음 - 야구의 뒤를 이어 최근에는 미식축구와 아이스하키 등도 통계 분석에 뛰어들고 있고, 농구, 배구 등도 기록을 축적해 가고 있는데, 모두 승리 라는 명확한 목표를 가지고 데이터 분석에 대응 - 야구의 세이버메트릭스가 시사하는 것은 빅데이터 분석에서 가장 중요한 것이 어떤 데이터를 수집할 것인지가 아니라 무엇 을 위해 데이터를 수집하는가라는 점 39