한국체육학회지, 2017, 제 56 권제 6 호, 595-605 The Korean Journal of Physical Education, 2017, 56(6), 595-605 http://dx.doi.org/10.23949/kjpe.2017.11.56.6.43 ISSN 1738-9666(Print) / ISSN 2508-7029(Online) Mecab-ko 형태소분석을이용한한국체육학회지연구동향분석 The Research Trend Analysis of the Korean Journal of Physical Education using Mecab-ko Morphology Analyzer 박성건, 김완섭숭실대학교 이대택 * 국민대학교 Sung-Geon Park, Wanseop Kim Soongsil Univ. Dae-Taek Lee Kookmin Univ. 요약본연구의목적은 Mecab-ko 형태소분석을기반으로한국체육학회연구자들이선호하는연구분야가무엇이며, 인문사회과학과자연과학분야간연구자들의관심사에차이점이있는지그리고이유는무엇인지텍스트분석을통해알아보는것이다. 본연구를위해수집된데이터는 2002년 3월 ~2017년 3월까지한국체육학회지온라인에게재된 5,014편의논문이다. 본연구에서는수집된문서에서키워드를추출하기위해 Mecab-ko 형태소분석기를사용하였다. 연구결과, 한국체육학회지에게재되는논문수는감소하고있는것으로나타났다. 연구자들이선호하는연구분야는여가, 생활체육및건강이경기력향상보다상대적으로높게나타났으며, 관심이높은연구대상은여성, 중년, 노인으로나타났다. 인문사회과학분야연구자들은전통적연구분야와사회적관심사에모두관심을보인반면에, 자연과학분야연구자들은전통적연구를보다깊게연구하는것에관심이높은것으로나타났다. 결론적으로, 스포츠분야융합연구활성화를구현하기위해서는연구의깊이와폭에중점을두어야하는학문분야가무엇인지, 새로운학문분류체계및정립이필요하다. 주요어 : 한국체육학회지, 연구동향, 비정형데이터, 텍스트마이닝, Mecab-ko 형태소분석 Abstract The purpose of this study is to investigate what kind of research fields are preferred by the researcher of the Korean Physical Education Society using the Mecab-ko morpheme analysis and whether there are differences in the interests of researchers between the humanities and social sciences and natural sciences. A total of the data collected for this study are 5,014 papers published online from March 2002 to March 2017 in the Korean Journal of Physical Education was collected. In this study, we used Mecab-ko morpheme analyzer to extract the keyword from the collected documents. As a result, the study found that the number of papers published in KAHPERD appeared to be decreasing. It was also that the main concern of researchers in KAHPERD toward was leisure, live sports and health were relatively higher than the improvement of performance. The research subjects that were interested in the research were women, middle-aged and elderly. The study found that researchers in the humanities and social sciences have shown interest in both traditional research and social interests, while researchers in the natural sciences have shown an interest in a deeper study of traditional research. In conclusion, in order to realize the revitalization of sports convergence research, it is necessary to establish standards for the field of study which should focus on the depth and breadth of research. Key words: KAHPERD, Research trend, Unstructured data, Text-mining, Mecab-ko *dtlee@kookmin.ac.kr 이논문은 2017 년도정부 ( 교육부 ) 의재원으로한국연구재단의지원을받아수행된기초연구사업임 (NRF-2017R1A6A3A11034642). Copyrightc2017 KAHPERD
596 한국체육학회지제 56 권제 6 호 서론 한국체육학회는 1953년창립한이래로현재까지한국스포츠연구분야의대표적인학술단체로자리매김하고있다 (http://www.kahperd.or.kr). 한국체육학회에서발행하는한국체육학회지는 2003년이후인문사회과학과자연과학으로구분되어발간되고있다. 한국체육학회지에수록된논문들은국내스포츠연구자들의관심주제, 연구방향성, 그리고학술단체의특성을반영한다. 또한, 연구자들의관심사항과연구는 연구동향 이라는주제어로수차례분석된바있다. 텍스트를이용하여연구동향을분석한대다수의선행연구에서는문서집합에서출현빈도가높은를추출하고동시출현의를분석하고있다 ( 박성건, 이수원, 황영찬, 2017a). 이때, 분석대상문장은 의미를갖는최소단위 로분리하는과정이필요하며, 이를형태소분석 (Morphology analysis) 이라고한다 ( 홍진표, 차정원, 2008). 형태소분석은형태소분석모델, 분석알고리즘, 분석방향, 어절검색방향, 문법형태소사전, 형태소처리단위등전처리및분석기법에따라그결과값이달라지기때문에, 빈도색인어분석에서는매우중요한과정이다. 현재알려진한국어처리가가능한형태소분석기는 KLT2000, 한나눔, 꼬꼬마, 에스프레소, U-WIN, KorLex, Mecab-ko 등이있으며 ( 박성건, 2017), 각각의형태소분석기는사용되는 OS 환경 (Windows or Linus) 과지원되는프로그래밍언어 (Java, Python, Perl, R 등 ) 에따라일부차이가있는것으로알려져있다. 특히, 본연구에서사용된 Mecab-ko 형태소분석기는 21세기세종계획의사전및말뭉치를사용하여기계학습을하고, 띄어쓰기가잘못된오류를교정해주며, Solr/Lucene, ElasticSearch 색인에사용가능한플러그인을제공한다 (http://eunjeon.blogspot. kr/2013/02) 는점에서다른한국어형태소분석기보다성능이뛰어난장점이있다. 또한, 본연구에서사용된 Mecab-ko 형태소분석기는수작업에의해각를인덱싱하여빈도를산출하는방식보다상대 적으로인력및시간의효율성이뛰어난것으로알려져있다. 체육학분야에서텍스트를활용하여연구동향을분석한선행연구들을살펴보면, 분석대상문헌의논문명, 저자명, 초록, 키워드등을이용하여특정학술지및연구분야에영향력을행사한연구자가누구인지, 특정학술단체에포함된연구자들의주요관심분야및연구주제는무엇인지, 그리고이러한것들이시간의흐름에따라어떻게변화되는지분석하고있다 (Jon Dart, 2014; Lei Wang, Bart Thijs & Wolfgang Glänzel, 2015; 김흥렬, 박상현, 원도연, 2015; 이한주, 손나래, 이태구, 2015; Wu, Zhang, Hao & Qin, 2016; 박성제, 이제욱, 이현우, 2016; 서건우, 구강본, 2016). 또한, 한국체육학회지에게재된연구동향과관련된선행연구에서는특정주제 ( 예를들면, 무용, 댄스스포츠, 해양스포츠 등 ) 또는특정학문분야 ( 예를들면, 여가레크레이션, 스포츠심리학 등 ) 를중심으로연구동향을살펴보고있어한국체육학회전반의연구흐름을파악하고스포츠과학이어떤방향으로흘러가고있는지확인할수있는기초자료가매우부족한실정이다. 따라서, 본연구에서는텍스트분석시다른형태소분석기보다성능이우수한 Mecab-ko 형태소분석기를이용하여텍스트빈도분석을통해 1) 한국체육학회연구자들이선호하는연구분야는무엇이며, 시기별차이점은있는지, 그리고 2) 인문사회과학과자연과학분야의연구자들의관심사는각각무엇인지알아보고자한다. 연구방법 1. 데이터수집본연구에서는웹크롤러 (Web-crawler) 를개발하여한국체육학회온라인저널에게재된한글과영문으로된논문명, 저자명, 주요어, 논문초록을수집하였다 ( 박성건, 박광원, 강현욱, 2017b). 웹크롤러는
Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석 597 표 1. 한국체육학회지온라인에게재된논문정보수집을위해개발된웹크롤러의예시 listurlbase = "https://kahperd.jams.or.kr/po/search/poartisearlist.kci?printcondition=&printoperation=&printkeyword=&pubiinsiid=ins000 001347&first=1&itemTypeCd=13%2C14&from=searchFromThesis&startPg=@@!@&sortName=accuracy&sortDir=asc&konanQuery= D700_SYST_LOCA_ID1%3D%27INS000001347%27&reKwd=&condition=text_idx&kwd=" connecturlbase = "https://kahperd.jams.or.kr/po/volisse/sjpubsartipopview.kci?soceid=@1@&artiid=@2@&sereid=@3@&submcnt=@4@" import urllib.request as ul import urllib3 as ul3 from bs4 import BeautifulSoup import re from functools import reduce import sys import os compdickeys = [" 학술지명 ", " 제목 ( 원어 )", " 제목 ( 영어 )", " 키워드 ( 원어 )", " 키워드 ( 영어 )", " 저자 ", " 초록 ( 원어 )", " 초록 ( 영어 )", " 분야 " ] def getdata(parameters): print(parameters) connecturl = connecturlbase.replace("@1@", parameters[0].replace("'","")) connecturl = connecturl.replace("@2@", parameters[1].replace("'","")) connecturl = connecturl.replace("@3@", parameters[2].replace("'","")) connecturl = connecturl.replace("@4@", parameters[3].replace("'","")) html = ul.urlopen(connecturl) soup = BeautifulSoup(html) compdic = {} components = soup.select("tr") for i in range(0,len(components)): if " 페이지구간 " in components[i].select("th")[0].text: break; elif " 학술지명 " in components[i].select("th")[0].text: compdic[" 학술지명 "] = re.sub("[^ 가 - 힣 0-9 ]","",components[i].select("td")[0].text) elif " 제목 ( 원어 )" in components[i].select("th")[0].text: compdic[" 제목 ( 원어 )"] = re.sub("[^ 가 - 힣 A-z:,.0-9 ]","",components[i].select("td")[0].text) elif " 제목 ( 영어 )" in components[i].select("th")[0].text: compdic[" 제목 ( 영어 )"] = re.sub("[^a-z:,.0-9 ]","",components[i].select("td")[0].text) elif " 키워드 ( 원어 )" in components[i].select("th")[0].text: compdic[" 키워드 ( 원어 )"] = re.sub("[^ 가 - 힣 :A-z0-9, ]","",components[i].select("td")[0].text).replace(",","@") elif " 키워드 ( 영어 )" in components[i].select("th")[0].text: compdic[" 키워드 ( 영어 )"] = re.sub("[^a-z:,0-9 ]","",components[i].select("td")[0].text).replace(",","@") elif " 저자 " in components[i].select("th")[0].text: lengthauthor = len(components[i].select("td")[0].contents) authors = "" for j in range(0,lengthauthor): if j % 2 == 0: authors += "@"+re.sub("[^ 가 - 힣 (),A-z 一 - 龥 ]","",components[i].select("td")[0].contents[j]) compdic[" 저자 "] = authors elif " 초록 ( 원어 )" in components[i].select("th")[0].text: try: compdic[" 초록 ( 원어 )"] = re.sub("[^ 가 - 힣 ():,A-z0-9.\"\' ]","",components[i].select("td")[0].select("#abskorfullview")[0].text.replace(" 줄이기 ","")) except: compdic[" 초록 ( 원어 )"] = re.sub("[^ 가 - 힣 ():,A-z0-9.\"\' ]","",components[i].select("td")[0].text) elif " 초록 ( 영어 )" in components[i].select("th")[0].text: try: compdic[" 초록 ( 영어 )"] = re.sub("[^():,a-z0-9.\"\' ]","",components[i].select("td")[0].select("#absengfullview")[0].text.replace(" 줄이기 ","")) except: compdic[" 초록 ( 영어 )"] = re.sub("[^():,a-z0-9.\"\' ]","",components[i].select("td")[0].text) elif " 분야 " in components[i].select("th")[0].text: compdic[" 분야 "] = re.sub("[^ 가 - 힣 ():,A-z0-9.\"\' ]","",components[i].select("td")[0].text).replace(",","@") result = "" for key in compdickeys: value = compdic.get(key) if value == None: result += "#"+"None" else: result += "#"+value return result[1:]...( 중략 )
598 한국체육학회지제 56 권제 6 호 그림 1. Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석프로세스 표 2. 본연구에서분석된논문의특성 ( 단위 : 편 / 명 (%) ) 구분 논문수저자수논문 1편당평균저자수인문사회자연과학합계인문사회자연과학합계인문사회자연과학전체 2002-2005 1,041(63.5) 598(36.5) 1,639(100) 1,777(54.2) 1,504(45.8) 3,281(100) 1.71 2.52 2.00 2006-2009 888(69.1) 397(30.9) 1,285(100) 1,701(61.4) 1,068(38.6) 2,769(100) 1.92 2.69 2.15 2010-2013 806(77.7) 231(22.3) 1,037(100) 1,580(72.4) 603(27.6) 2,183(100) 1.96 2.61 2.11 2014-2017 818(77.7) 235(22.3) 1,053(100) 1,747(74.0) 615(26.0) 2,362(100) 2.14 2.62 2.24 합계 3,553(70.9) 1,461(29.1) 5,014(100) 6,805(64.2) 3,790(35.8) 10,595(100) 1.92 2.59 2.13 HTML(Hyper Text Markup Language) 로이루어진웹사이트에포함된정보중사용자가원하는정보를추출하기위한소프트웨어기술이다 ( 조완섭, 이정은, 최치환, 2013). 본연구에서는온라인한국체육학회지에게재된연도별호별논문명, 주요어, 저자명및소속, 논문초록 ( 국문및영문 ) 을수집하기위해웹크롤러를개발하였다 < 표 1>. 웹서버와웹브라우저가요청하고응답하는과정은 http 프로토콜 (Protocol) 방식에따라진행되는데, 파이썬 (Python) 표준모듈에서는 urllib 모듈이사용된다. BeatifulSoup 클래스는객체를초기화할때 HTML 텍스트와파싱 (Parsing) 에사용할파서라이브러리 (Parser library) 의이름을인자로넘겨주고, BeautifulSoup 객체는 HTML 요소의탐색과조작을지원하는다양한메소드와속성을지원해준다. 본연구를위해수집하고자하는정보의종류는다르나구조적으로반복되고있기때문에조건문 (for) 과 elif 함수를사용하였다. 웹크롤러로수집된논문은 2002년 3월 ~2017 년 3월까지한국체육학회지온라인웹사이트에게재된논문 5,014편이며, 엑셀형태의데이터파일로저장하였다. 그다음텍스트처리를위해분석대상문서의파일형식은텍스트파일확장자.txt로변환하고, 유니코드는 UTF-8 로설정하였다. 2. 데이터처리방법전체적인연구과정은 < 그림 1> 과같다. 현재공개된한국체육학회지온라인논문투고시스템에서는논문투고시각분과별선택이가능하지만, 게재완료된논문이어떤분과인지, 심지어인문사회과학인지자연과학인지도구분할수없는상태이다. 이러한문제점을해결하기위해본연구에서는한국체육학회지의출판물을이용하여수작업으로인문사회과학과자연과학을구분하였다 < 표 2>. 자연과학분야논문 1편당저자수 (2.59) 가인문사회과학 (1.92) 보다상대적으로높게나타난것은장비사용의보조, 피험자통제등실험연구특성에의한것으로추정된다. 본연구에서권별은한국체육학회지의출판횟수를의미하며, 2002년은 5권 (1월제외 ), 2017 년은 2권 (1~3 월 ) 으로산출하였다. 각기수별연도별인문사회과학과자연과학에서다루어진연구주제가무엇인지파악하기위해수집된문서집합을각품사로구분하는형태소분석 (Morphological analysis) 을실시하였다. 형태소란언어에있어서 최소의미의단위 를말하며, 어휘적의미와문법적의미를모두포함하는개념이다. 예를들어, 아버지가방에들어가신다 라는문장을형태소
Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석 599 분석을한다고가정하자. 이때, 아버지 가일반명사 (NNG) 인지, 형용사 (VA) 인지품사에대한태깅 (Part-of-speech tagging) 이필요하고, 문법적으로 아버지가방에들어가신다 혹은 아버지가방에들어가신다 처럼띄어쓰기보정이필요한데, 이러한과정을모두수행하는것을형태소분석이라고한다. Mecab-ko 형태소분석기는다른형태소분석기에비해품사태깅에소요되는시간이길어지는반면에, 띄어쓰기자동보정기능이우수한특징이있다 (http://eunjeon.blogspot.kr). 형태소분석을통해추 출한의품사는명사, 형용사이며, 추출된의어휘출현빈도를산출하였다. (http://konlpy-ko.readthedocs.io/ko/v0.4.3/morph) 또한, 일반적인형태소분석에서는마침표 (.), 콤마 (,), 물음표 (?), 한글자어휘는불용어로인식하여제거하지만, 스포츠과학분야에서한글자어휘 ( 예를들면, 뇌, 골, 승, 패 등 ) 는의미있는정보로사용되는경우가많기때문에본연구에서는후처리과정에서선별적으로불용어를제거하였다. 추가적으로, 운동, 스포츠, 영향, 관계, 분석, 연구, 체육 표 3. 한국체육학회지 ( 논문명기준 ) 에출현빈도가높은상위 100 개추출결과 1 선수 394 26 동기 167 51 모형 127 76 야구 92 2 만족 394 27 체력 162 52 학생 125 77 스트레스 90 3 활동 390 28 개발 160 53 건강 123 78 중년 89 4 참여 358 29 몰입 159 54 축구 119 79 기술 88 5 여가 348 30 조직 155 55 가치 117 80 차이 87 6 효과 289 31 지도자 152 56 문화 113 81 지속 87 7 신체 272 32 사회 151 57 대학 112 82 사회적 86 8 요인 266 33 방안 149 58 탐색 111 83 구성 86 9 무용 252 34 골프 149 59 혈중 106 84 전략 85 10 여성 250 35 서비스 147 60 비만 106 85 트레이닝 84 11 수업 249 36 유형 146 61 수준 105 86 조절 82 12 행동 232 37 선수들 141 62 평가 105 87 환자 82 13 생활 230 38 노인 136 63 경기 104 88 심리적 81 14 학교 219 39 과정 136 64 청소년 104 89 운동학적 80 15 비교 213 40 교사 135 65 검증 103 90 근력 80 16 프로 205 41 이미지 135 66 훈련 103 91 척도 80 17 변화 203 42 특성 135 67 학습 103 92 직무 79 18 의도 199 43 인식 132 68 대학생 102 93 충성 79 19 한국 195 44 참가 132 69 수행 102 94 초등 78 20 교육 187 45 브랜드 131 70 품질 99 95 관람 77 21 기능 178 46 능력 131 71 구매 99 96 주간 77 22 중심 174 47 동작 131 72 고등 96 97 속성 74 23 프로그램 171 48 고객 130 73 고찰 96 98 복합 74 24 태권도 167 49 여자 129 74 팀 96 99 섭취 73 25 태도 167 50 경험 127 75 장애 94 100 형태 73
600 한국체육학회지제 56 권제 6 호 표 4. 한국체육학회지 ( 논문명기준 ) 출현빈도가높은상위 30 개추출결과 ( 매 4 년기준 ) 2002~2005 2006~2009 2010~2013 2014~2017 빈도 빈도 빈도 빈도 1 활동 117 1 만족 129 1 여가 96 1 선수 106 2 선수 105 2 선수 89 2 선수 94 2 활동 104 3 여가 103 3 활동 86 3 만족 91 3 참여 101 4 만족 100 4 신체 83 4 참여 84 4 여가 85 5 참여 95 5 요인 83 5 활동 83 5 효과 80 6 무용 92 6 참여 78 6 수업 66 6 만족 74 7 변화 87 7 여성 75 7 요인 64 7 행동 73 8 비교 79 8 수업 74 8 생활 61 8 학교 72 9 효과 78 9 효과 70 9 효과 61 9 신체 59 10 여성 74 10 프로 64 10 신체 56 10 수업 54 11 신체 74 11 여가 64 11 행동 55 11 교육 54 12 요인 71 12 비교 64 12 여성 54 12 한국 51 13 생활 70 13 무용 63 13 무용 54 13 생활 51 14 유형 64 14 의도 59 14 동기 50 14 의도 51 15 동작 60 15 체력 58 15 학교 50 15 중심 50 16 체력 60 16 고객 55 16 지도자 47 16 방안 49 17 기능 58 17 조직 54 17 사회 46 17 몰입 49 18 교육 56 18 서비스 54 18 의도 46 18 프로그램 49 19 한국 56 19 행동 50 19 프로 45 19 요인 48 20 수업 55 20 브랜드 49 20 몰입 44 20 여성 47 21 참가 54 21 동기 49 21 모형 43 21 개발 46 22 행동 54 22 골프 49 22 한국 42 22 무용 43 23 프로 53 23 이미지 48 23 중심 42 23 탐색 43 24 학교 52 24 변화 48 24 태도 40 24 여자 43 25 태도 51 25 생활 47 25 교육 40 25 프로 43 26 특성 50 26 한국 46 26 기능 39 26 학생 42 27 태권도 50 27 학교 45 27 태권도 39 27 선수들 41 28 서비스 48 28 프로그램 45 28 변화 38 28 비교 40 29 혈중 47 29 태도 44 29 프로그램 38 29 대학 39 30 수행 47 30 개발 42 30 개발 37 30 동기 38 등반복적으로사용되는와 관한, 따르는 등의수식어는연구동향분석에영향을주지않기때문에이를제외하였다. 그리고 Mecab-ko 형태소분석기는리눅스 (Linux) 환경이윈도우 (Window) 보다데이터처리를위한라이브러리의사용이쉽기때문에, 본 연구에서는 Virtual Machine을사용하여개발환경을리눅스로설정하고, Python 프로그래밍을사용하여 Mecab-ko 형태소분석기를구현하였다.
Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석 601 결과 1. 한국체육학회지연구이슈및특징분석 < 표 3> 은 2002년 3월 ~2017 년 3월까지한국체육학회지에게재된논문명에서출현빈도가높은상위 100 개 ( 명사, 형용사 ) 를추출한결과이다. 한국체육학회지에논문을게재한스포츠과학자들의주요관심사는 1) 엘리트선수들의경기력향상연구, 2) 여가 활동수준파악및건강상태측정연구, 3) 학교체육관련연구, 4) 여성, 노인, 청소년, 중년과같은특정집단을대상으로한연구, 5) 무용, 태권도, 골프, 축구등특정종목에치중된연구등으로나타났다. 추가적으로, 매 4년마다출현빈도가높은상위 30 개 ( 명사, 형용사 ) 를추출하여분석한결과 < 표 4>, 스포츠와여가활동, 학교체육 ( 수업 ) 관련연구, 태권도및무용관련연구, 여성을대상으로한연구가많이회자되고있는것으로나타났다. 2002~2005년 표 5. 한국체육학회지인문사회과학분야에출현빈도가높은상위 100 개추출결과 1 만족 393 26 이미지 134 51 팀 93 76 장애 67 2 여가 344 27 태권도 133 52 고찰 91 77 척도 66 3 참여 320 28 교사 133 53 검증 90 78 관리 65 4 활동 317 29 개발 130 54 축구 90 79 의미 64 5 선수 259 30 고객 130 55 비교 89 80 수행 63 6 수업 243 31 브랜드 130 56 학습 88 81 시설 62 7 무용 237 32 과정 130 57 사회적 84 82 과제 62 8 행동 223 33 참가 130 58 대학생 84 83 개념 62 9 생활 209 34 인식 127 59 선수들 83 84 지각 61 10 의도 199 35 골프 124 60 청소년 81 85 정책 61 11 학교 197 36 유형 123 61 야구 80 86 소비자 60 12 요인 195 37 경험 119 62 충성 79 87 기업 59 13 효과 185 38 가치 116 63 직무 79 88 스포츠센터 59 14 프로 184 39 모형 114 64 심리적 79 89 경기 59 15 교육 183 40 문화 111 65 건강 78 90 만족도 59 16 동기 166 41 학생 109 66 전략 78 91 수준 57 17 한국 165 42 신체 103 67 지속 77 92 스키 57 18 태도 165 43 탐색 103 68 관람 77 93 댄스스포츠 57 19 몰입 158 44 대학 100 69 스트레스 73 94 평가 57 20 중심 156 45 구매 99 70 고등 72 95 구조 56 21 지도자 152 46 품질 99 71 초등 71 96 리더십 56 22 사회 149 47 여자 98 72 변화 69 97 참가자 56 23 조직 148 48 프로그램 95 73 노인 69 98 지역 55 24 서비스 147 49 여성 94 74 성향 68 99 마케팅 55 25 방안 140 50 특성 94 75 구조적 68 100 목표 54
602 한국체육학회지제 56 권제 6 호 에는엘리트선수경기력향상과관련된연구, 2006~2009년에는스포츠산업관련고객행동및서비스와관련된연구, 2010~2013년에는각종통계모형과관련된연구가연구자들에게높은관심을받은것으로나타났다. 특히, 2010~2013년에무용과태권도를제외하고, 골프와축구가상대적으로많이회자된것은주목할만하다. 이시기한국여자골프가국제적으로좋은성적을거둔것이그원인으로추정되며, 2010년신지애 ( 세계랭킹 1위 ), 2011 년유소연 (LPGA 통산 5승 ), 2013년박인비 ( 세계랭킹 1위 ) 의사례는이러한주장을지지한다 ( 김영은, 2017). 또한, 골 프에대한연구자들의관심은주로엘리트스포츠보다는여가활동및스포츠산업과관련된연구가상대적으로높았으며, 축구가많이회자된것은 2010년남아공월드컵원정첫 16강진출, 2012년런던올림픽동메달획득으로인해연구자들의관심도함께높아진것이그원인으로추정된다. 2. 인문사회과학과자연과학분야별연구동향및차이분석 < 표 5> 는분석기간동안한국체육학회지인문사 표 6. 한국체육학회지자연과학분야에출현빈도가높은상위 100 개추출결과 1 신체 169 26 보행 69 51 증후군 41 76 재활 29 2 여성 156 27 노인 67 52 관절 41 77 수중 28 3 기능 141 28 대사 62 53 지표 40 78 활성 28 4 체력 137 29 관계 61 54 변인 40 79 규칙적 28 5 선수 135 30 발현 61 55 반응 40 80 조절 28 6 변화 134 31 관련 60 56 위험 40 81 장애 27 7 비교 124 32 선수들 58 57 차이 39 82 시간 27 8 동작 122 33 골밀도 58 58 수행 39 83 산소 27 9 혈중 106 34 구성 57 59 골격근 39 84 유전자 27 10 효과 104 35 남자 56 60 지구성 39 85 심혈 ( 관 ) 27 11 비만 98 36 호르몬 50 61 참여 38 86 성분 26 12 능력 88 37 최대 50 62 투여 36 87 근 ( 육 ) 26 13 훈련 84 38 농도 48 63 기술 35 88 요법 26 14 트레이닝 83 39 수준 48 64 심폐 35 89 골프 25 15 환자 80 40 흰쥐 48 65 추정 35 90 검사 25 16 중년 80 41 평가 48 66 태권도 34 91 피로 24 17 근력 79 42 밀도 46 67 근육 34 92 고등 24 18 운동학적 76 43 지질 46 68 아동 32 93 체중 24 19 프로그램 76 44 건강 45 69 자세 32 94 에너지 24 20 주간 75 45 경기 45 70 여자 31 95 심박수 24 21 활동 73 46 조성 45 71 트레드밀 30 96 질환 23 22 섭취 72 47 쥐 43 72 개발 30 97 뇌 23 23 복합 72 48 형태 43 73 부하 30 98 청소년 23 24 요인 71 49 강도 41 74 인슐린 29 99 경기력 23 25 유산소 70 50 특성 41 75 축구 29 100 유형 23
Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석 603 회과학분야에서출현빈도가높은상위 100개 ( 명사, 형용사 ) 를추출한결과이다. 한국체육학회지인문사회과학분야연구자들의주요관심사는 1) 여가및생활체육관련연구, 2) 스포츠산업및서비스관련연구, 3) 학교체육관련연구, 4) 특정스포츠종목 ( 무용, 태권도, 축구, 야구, 스키, 댄스스포츠 ) 등으로나타났다. < 표 6> 은분석기간동안한국체육학회지자연과학분야에서출현빈도가높은상위 100개 ( 명사, 형용사 ) 를추출한결과이다. 한국체육학회지자연과학분야연구자들의주요관심사는 1) 남성보다는여성의신체활동및체력과관련된연구, 2) 엘리트선수대상연구에서는운동학적기능및생리학적효과검증관련연구, 3) 단일운동 ( 유산소또는근력 ) 보다는복합운동프로그램적용연구, 4) 동물 ( 특히, 쥐 ) 을이용한생리학및생화학적기전관련연구, 5) 축구와골프, 그리고수중과관련된연구등으로나타났다. 이러한결과를토대로한국체육학회자연과학분야연구자들은운동학적기능연구에서비만, 당뇨를포함한일반인들의대사성질환및건강상태의평가, 개선과관련된연구로그관심사가변화되고있음을파악할수있다. 또한, 자연과학분야연구자들은특정집단 ( 노인, 아동, 여성등 ) 대상연구에서이벤트단위 ( 건강, 노화등 ) 연구로분석대상이일부변화되고있음을간접적으로파악할수있다. 논의 본연구에서는 Mecab-ko 형태소분석을이용하여텍스트분석을수행함으로써한국체육학회연구동향을살펴보았으며, 연구결과를토대로다음과같이논의하고자한다. 첫째, 한국체육학회지에논문을게재한스포츠과학자들의주요관심사는일반인들의여가, 생활체육활동및건강관련연구 ( 생활 이포함된논문명 : 222 편 ) 는엘리트경기력향상 ( 경기력 이포함된논문명 : 49편 ) 관련연구보다상대적으로높게나타났다. 이 러한결과는엘리트스포츠중심이던체육정책이일반국민을대상으로한생활체육으로변화되고있는사회적현상을반영하고있다 ( 문화체육관광부, 2013). 특히, 여성, 중년, 노인 의출현빈도가 청소년, 남성 보다상대적으로높게나타난것은주목할만하다. 여성및노인에대한연구증가는스포츠클럽참여율및건강에대한관심증가 ( 문화체육관광부, 2016) 와관련이있을것으로추정되기때문이다. 둘째, 인문사회과학과자연과학분야연구자들의관심사를분석한결과, 인문사회과학자들은사회적현상 ( 올림픽, 월드컵등 ) 과연구트렌드 ( 스크린골프와야구등 ) 에민감한반응을보이는경향이있는것으로나타났다. 이러한결과는인문사회과학분야 (1~4년 ) 의데이터유용성이자연과학분야 (5~9년 ) 에비해상대적으로짧은것이연구트렌드에민감하게반응하는원인으로설명가능하다 ( 김지현, 2012). 반면에, 자연과학분야연구자들은신체활동및건강수준의계량화, 엘리트선수들의경기력향상 ( 프로그램개발포함 ) 및측정, 연구윤리 (IRB) 강화로인한동물대상의생리학및생화학기전연구에관심이높은것으로나타났다. 다시말해서, 한국체육학회지에논문을게재한인문사회과학자와자연과학자는관심있는연구주제에차이가있음을파악할수있다. 마지막으로, 빈도색인어를이용하여특정학술지논문의연구동향을분석하는것은그방법론에서기존연구와동일하지만 ( 인상우, 조선미, 나영일, 이요한, 2014; 김흥렬등, 2015; 이한주등, 2015; 박성제등, 2016; 서건우, 구강본, 2016; 윤지운, 2017; 박성건등, 2017b), 1) 최근 16년간 (2002~2017년) 한국체육학회지에게재된논문을이용하여한국체육학회의연구동향을분석한것, 2) 인문사회과학과자연과학분과연구자들의관심사에차이가있는지데이터를통해확인하고, 그원인에대해설명한것, 3) 텍스트데이터전처리시 Mecab-ko 형태소분석기를이용했다는점은기존연구와다른연구의차별성과독창성이있다. 특히, 기존전산언어학, 자연어처리분야에서사용되는형태소분석기는한글자어휘를불용어 (Stop word) 로인식하여이를제거하지만 ( 김남규, 이동훈,
604 한국체육학회지제 56 권제 6 호 최호창, William Xiu Shun Wong, 2017), 스포츠과학분야에서한글자어휘 ( 뇌, 승, 패 등 ) 는유의미한결과이기때문에스포츠에특화된자연어처리연구가필요함을제안한다. 하지만, 어휘공기행렬 (Word co-occurrence), 유클리드거리 (Euclidean distance), 코사인유사도 (Cosine similarity) 와같은문서군집화방법을적용하여연구주제를분류하지못한것은연구의한계점이될수있다. 이러한방법론을적용하지못한것은인문사회과학과자연과학분야에서공통적으로사용되는 ( 신체, 변화, 선수, 여성 등 ) 가많아기존방식적용시높은성능을보장받을수없기때문이다. 결론 본연구에서는 Mecab-ko 형태소분석을기반으로텍스트빈도분석을수행함으로써한국체육학회연구동향분석, 그리고인문사회과학과자연과학분야의차이점과그원인을살펴보았다. 연구결과및논의를종합한결과, 1) 한국체육학회지에논문을게재한스포츠과학자들의연구주제는과거 (2002년 3월 ) 부터현재 (2017년 3월 ) 까지시기별로일부변동이있는것으로나타났다. 2) 인문사회과학분야연구자들은사회적으로이슈가되고있는기술및현상을연구에적용 ( 연구의폭 ) 하고있는반면에, 자연과학분야연구자들은전문성강화 ( 연구의깊이 ) 에중점을두고있는것으로나타났다. 향후연구에서는본연구에서해결하지못한인문사회과학과자연과학의공통를자동으로분류할수있는알고리즘의개선이필요하며, 이를통해스포츠와 IT의융합연구사례 ( 상세하게는스포츠텍스트마이닝 ) 를구체적으로제시할수있을거라기대한다. 참고문헌 김남규, 이동훈, 최호창, William Xiu Shun Wong (2017). 텍스트분석기술및활용동향. 한국통신학회논문지, 42(2), 471-492. 김영은 (2017). 유소연, 여자골프세계 1위 우뚝... 한국인세번째쾌거. June 26, 2017, from http://v.sports.media.daum.net/v/20170 626092649246?d=y 김지현 (2012). 대학내연구자들의연구데이터관리에관한연구. 한국도서관 정보학회지, 43(3), 433-455. 김흥렬, 박상현, 원도연 (2015). 스포츠경영학의연구동향분석 : 저자연결망과핵심어연결망을중심으로. 한국스포츠산업경영학회지, 20(3), 63-84. 문화체육관광부 (2013). 2013 체육백서. 문화체육관광부체육정책과 December 16, 2014, from https://www.mcst.go.kr/web/s_data/ research/researchview.jsp?pseq=1560 문화체육관광부 (2016). 2015 스포츠산업백서. 국민체육진흥공단한국스포츠개발원스포츠산업과 June 26, 2017, from https://www.mcst.go. kr/web/s_data/research/researchview.js p?pseq=1677 박성건 (2017). 소셜빅데이터기반 VOC, TV시청률, 스포츠경기력의상호연관성에관한연구. 숭실대학교일반대학원박사학위논문. 박성건, 이수원, 황영찬 (2017a). 소셜빅데이터기반 2016리우올림픽축구관련이슈및인물에대한연관분석. 한국체육학회지, 56(2), 303-320. 박성건, 박광원, 강현욱 (2017b). 텍스트마이닝과네트워크분석기반여가및레크레이션연구논문연관분석 : 한국체육학회지를중심으로. 한국체육학회지, 56(3), 389-402. 박성제, 이제욱, 이현우 (2016). 스포츠심리학주제영역키워드의소셜네트워크분석기반학술지식지도 (Knowledge map) 구축. 한국체육학회지, 55(3), 187-198. 서건우, 구강본 (2016). 텍스트네트워크분석을통해살
Mecab-ko 형태소분석기를이용한한국체육학회지연구동향분석 605 퍼본최근무도연구동향. 한국웰니스학회지, 11(2), 407-417. 윤지운 (2017). 지식네트워크분석을활용한특수체육의연구동향분석. 한국특수체육학회지, 25(1), 121-133. 이한주, 손나래, 이태구 (2015). 스포츠교육학분야의연구동향과지적구조분석. 체육과학연구, 26(3), 445-460. 인상우, 조선미, 나영일, 이요한 (2014). 빈도색인어에따른체육사연구의동향분석. 한국체육사학회지, 19(2), 115-129. 조완섭, 이정은, 최치환 (2013). 웹크롤러의수집주기최적화. 한국콘텐츠학회논문지, 13(6), 30-39. 홍진표, 차정원 (2008). 어절패턴사전을이용한새로운한국어형태소분석기. 2008 한국컴퓨터종합학술대회논문집, 35(1), 279-284. Blogger. (2017). 은전한닢프로젝트 : 검색에서쓸만한오픈소스한국어형태소분석기를만들자! from http://eunjeon.blogspot.kr/ Hongchun Wu, Tao Zhang, Zhiyong Hao., & Chaoling Qin. (2016). Dynamic and Quantitative CiteSpace Analysis of Chinese Sports Discipline in the Past Decade. Advances in Physical Education, 6, 135-143. Jon Dart. (2014). Sports review: A content analysis of the International Review for the Sociology of Sport, the Journal of Sport and Social Issues and the Sociology of Sport Journal across 25 years. International Review for the Sociology of Sport, 49(6), 645-668. Lei Wang, Bart Thijs & Wolfgang Glänzel. (2015). Characteristics of international collaboration in sport sciences publications and its influence on citation impact. Sciencemetrics, 105(2), 843-862. 논문투고일 : 2017. 09. 25 논문심사일 : 2017. 10. 03 심사완료일 : 2017. 11. 09