<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>



Similar documents
<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

30이지은.hwp

<3130BAB9BDC428BCF6C1A4292E687770>

대한한의학원전학회지24권6호-전체최종.hwp

DBPIA-NURIMEDIA

<C5D8BDBAC6AEBEF0BEEEC7D C1FD2E687770>

<C1DF3320BCF6BEF7B0E8C8B9BCAD2E687770>

한울타리36호_완성본

레이아웃 1

Research subject change trend analysis of Journal of Educational Information and Media Studies : Network text analysis of the last 20 years * The obje

#Ȳ¿ë¼®

<B1A4B0EDC8ABBAB8C7D0BAB8392D345F33C2F75F E687770>

2 국어 영역(A 형). 다음 대화에서 석기 에게 해 줄 말로 적절한 것은? 세워 역도 꿈나무들을 체계적으로 키우는 일을 할 예정 입니다. 주석 : 석기야, 너 오늘따라 기분이 좋아 보인다. 무슨 좋은 일 있니? 석기 : 응, 드디어 내일 어머니께서 스마트폰 사라고 돈

<30352DC0CCC7F6C8F B1B3292DBFACB1B8BCD2B1B3C1A42E687770>

내지4월최종


212 52,.,. 1),. (2007), (2009), (2010 ), Buzássyová, K.(1999), Bauer, L.(2001:36), Štekauer, P.(2001, 2002), Fernández-Domínguez(2009:88-91) (parole),

<332EC0E5B3B2B0E62E687770>

27송현진,최보아,이재익.hwp

232 도시행정학보 제25집 제4호 I. 서 론 1. 연구의 배경 및 목적 사회가 다원화될수록 다양성과 복합성의 요소는 증가하게 된다. 도시의 발달은 사회의 다원 화와 밀접하게 관련되어 있기 때문에 현대화된 도시는 경제, 사회, 정치 등이 복합적으로 연 계되어 있어 특


<B5B6BCADC7C1B7CEB1D7B7A52DC0DBBEF7C1DF E687770>

입장

과 위 가 오는 경우에는 앞말 받침을 대표음으로 바꾼 [다가페]와 [흐귀 에]가 올바른 발음이 [안자서], [할튼], [업쓰므로], [절믐] 풀이 자음으로 끝나는 말인 앉- 과 핥-, 없-, 젊- 에 각각 모음으로 시작하는 형식형태소인 -아서, -은, -으므로, -음

<C0CEBCE2BABB2D33C2F7BCF6C1A420B1B9BFAAC3D1BCAD203130B1C72E687770>

E1-정답및풀이(1~24)ok

<C1B6BCB1B4EBBCBCBDC3B1E2342DC3D6C1BE2E687770>

伐)이라고 하였는데, 라자(羅字)는 나자(那字)로 쓰기도 하고 야자(耶字)로 쓰기도 한다. 또 서벌(徐伐)이라고도 한다. 세속에서 경자(京字)를 새겨 서벌(徐伐)이라고 한다. 이 때문에 또 사라(斯羅)라고 하기도 하고, 또 사로(斯盧)라고 하기도 한다. 재위 기간은 6


최우석.hwp

6±Ç¸ñÂ÷

교사용지도서_쓰기.hwp

時 習 說 ) 5), 원호설( 元 昊 說 ) 6) 등이 있다. 7) 이 가운데 임제설에 동의하는바, 상세한 논의는 황패강의 논의로 미루나 그의 논의에 논거로서 빠져 있는 부분을 보강하여 임제설에 대한 변증( 辨 證 )을 덧붙이고자 한다. 우선, 다음의 인용문을 보도록

< BDC3BAB8C1A4B1D4C6C75BC8A3BFDC D2E687770>

cls46-06(심우영).hwp

untitled

민주장정-노동운동(분권).indd

0429bodo.hwp

<C3D6C1BE5FBBF5B1B9BEEEBBFDC8B0B0DCBFEFC8A C3D6C1BEBABB292E687770>

초등국어에서 관용표현 지도 방안 연구

¸é¸ñ¼Ò½ÄÁö 63È£_³»Áö ÃÖÁ¾

177

제주어 교육자료(중등)-작업.hwp

01Report_210-4.hwp

<C3D1BCB15FC0CCC8C45FBFECB8AE5FB1B3C0B0C0C75FB9E6C7E D352D32315FC5E4292E687770>



교육 과 학기 술부 고 시 제 호 초 중등교육법 제23조 제2항에 의거하여 초 중등학교 교육과정을 다음과 같이 고시합니다. 2011년 8월 9일 교육과학기술부장관 1. 초 중등학교 교육과정 총론은 별책 1 과 같습니다. 2. 초등학교 교육과정은 별책

시험지 출제 양식

우리나라의 전통문화에는 무엇이 있는지 알아봅시다. 우리나라의 전통문화를 체험합시다. 우리나라의 전통문화를 소중히 여기는 마음을 가집시다. 5. 우리 옷 한복의 특징 자료 3 참고 남자와 여자가 입는 한복의 종류 가 달랐다는 것을 알려 준다. 85쪽 문제 8, 9 자료

상품 전단지

::: 해당사항이 없을 경우 무 표시하시기 바랍니다. 검토항목 검 토 여 부 ( 표시) 시 민 : 유 ( ) 무 시 민 참 여 고 려 사 항 이 해 당 사 자 : 유 ( ) 무 전 문 가 : 유 ( ) 무 옴 브 즈 만 : 유 ( ) 무 법 령 규 정 : 교통 환경 재

2

DBPIA-NURIMEDIA

화이련(華以戀) hwp

ÆòÈ�´©¸® 94È£ ³»Áö_ÃÖÁ¾

歯1##01.PDF

<5BC1F8C7E0C1DF2D31B1C75D2DBCF6C1A4BABB2E687770>

120229(00)(1~3).indd

Analyses the Contents of Points per a Game and the Difference among Weight Categories after the Revision of Greco-Roman Style Wrestling Rules Han-bong

Software Requirrment Analysis를 위한 정보 검색 기술의 응용

DBPIA-NURIMEDIA

2힉년미술

본문01

step 1-1

<B9CCB5F0BEEEB0E6C1A6BFCDB9AEC8AD5F31322D32C8A35FBABBB9AE5FC3CAC6C731BCE25F6F6B5F E687770>

<303120B1E8C1D8BCF62E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A S

DBPIA-NURIMEDIA

<313020C1A4BFECBAC034332E687770>

정보기술응용학회 발표

Data Industry White Paper

<C5F0B0E82D313132C8A328C0DBBEF7BFEB292E687770>

국립중앙도서관 출판시도서목록(CIP) 일본만화의 폭력성과 우리 청소년 / 청소년위원회 청소년 보호단 매체환경팀 편집. -- 서울:청소년위원회, 2005 p. ; cm. -- (청소년 ; ) ISNB :기타 KDC

<5B335DC0B0BBF3C8BF2835B1B35FC0FAC0DAC3D6C1BEBCF6C1A4292E687770>

<31325FB1E8B0E6BCBA2E687770>

02. 특2 원혜욱 지니 3.hwp

DBPIA-NURIMEDIA

03±èÀçÈÖ¾ÈÁ¤ÅÂ

아태연구(송석원) hwp

중국 상장회사의 경영지배구조에 관한 연구

시민사회가 방심위 명예훼손 심의규정 개정을 반대하는 이유


<C7D1B9CEC1B7BEEEB9AEC7D03631C1FD28C3D6C1BE292E687770>

38이성식,안상락.hwp

강의지침서 작성 양식

DBPIA-NURIMEDIA

<5B D B3E220C1A634B1C720C1A632C8A320B3EDB9AEC1F628C3D6C1BE292E687770>

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: * A Analysis of

<28C3D6C1BE3129C0DAC1D6C7D020C1F6B5B5BCAD28C3CAB5EEC7D0BBFDBFEB292E687770>

<3034B9DABAB4C8A32E687770>

Journal of Educational Innovation Research 2017, Vol. 27, No. 2, pp DOI: : Researc

학습영역의 Taxonomy에 기초한 CD-ROM Title의 효과분석

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: A Study on Organizi


<B0F8BFACC4DCC5D9C3F7B1E2C8B92E687770>

<5BBEF0BEEE33332D335D20312EB1E8B4EBC0CD2E687770>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

Transcription:

텍스트언어학 36, 2014, pp. 149~177 빅데이터 적정 텍스트 추출을 위한 언어학적 접근 - 학교폭력 관련 텍스트를 중심으로- 남길임(경북대) 송현주(계명대) 이수진(경북대) Nam, Kilim, Song, Hyunju, Lee, Soojin 2014. Linguistic approach for Document Classification on Big Data - focused on School Violence texts-, Textlinguistcs 36. Discussions of the text types or the issues about Korean language processes in the field of big Data studies have been unnoticed. This study aims to introduce the methodology of the exclusively collecting the school violence experience texts in order to prevent school violence and to catch some of the signs by analyzing the unstructured data created in real time on a web. A certain text type has explicit markers revealing some aspects of the topics or some informative functions of texts. These markers are able to be applied to extraction of appropriate texts. Moreover, individual words and morphemes can be classified into some semantic categories and a frequency of those categories becomes a factor which contributes to distinguish a particular text from the other. This study assumes that there are keywords which occur with significantly high frequency at the level of word or morpheme, and semantic categories which appear significance in the level of meaning in our school violence experience texts, so that these keywords and semantic categories can be used for the classification of appropriate texts according to topics. Conclusively, the goal of this study is to examine the way of the classification of appropriate texts by those linguistic features.

150 텍스트언어학 36 <Key words> big data, school violence experience texts, keywords, semantic categories, appropriate text 1. 서론 실시간으로 생성, 축적되는 대량의 데이터에 대한 분석은 정보통신과 사회 과학 분야의 핵심 연구 주제인 동시에 언어학 분야에서도 새로운 도전 과제로 떠오르고 있다. 크기(Volume), 속도(Velocity), 다양성(Variety) 의 3V (Gartner, 2011)를 주요 특성으로 하는 1) 빅데이터 는 분석이 용이한 정형 데이터뿐만 아니라 문서, 이미지, 동영상 등의 비정형데이터를 포함하는데, 웹과 모바일 의 상당 부분을 차지하는 대량의 텍스트 자료를 다루기 위해서는 언어의 처 리가 핵심적이기 때문이다. 특정 언어의 유형론적 특성과 텍스트 속성을 고려한 분석은 특정 현상과 관련한 데이터에 대해 더욱 정밀한 분석 결과와 해석을 제공한다. 그럼에도 불구하고 빅데이터 관련 연구들에서 한국어 처리의 쟁점이나 텍스트 유형에 대한 논의는 별로 주목 받지 못하는 듯하다. 그 이유는 빅데이터 관련 주제가 대부분 공학이나 사회과학 분야에서 주로 연구되고 있고, 그런 이유로 대량 의 데이터 분석에서 언어 자체에 대한 정밀한 분석보다는 통계적 방법론이 나 시스템에 대한 논의가 주를 이루어 왔기 때문이다. 본 연구는 빅데이터 기반 안전 안심 도시 구현을 위한 소셜 플랫폼 구축 사업 2) 의 일환으로 추진되어 온 학교폭력 예방을 위한 빅데이터 분석 을 소 1) 최근에는 이러한 3V와 더불어 네 번째 특징으로 가치(Value) 를 더해야 한다는 의견도 있 다. 또 송길영(2012: 69-70)에서는 빅데이터를 크기, 속도, 다양성 등의 외적인 특성으로만 바라보는 것보다 3P(Problem, People, Platform)+1P(Productivity)로 설명하는 것이 더 적절 하다고 지적한 바 있다. 이러한 논의는 빅데이터 자체가 아닌 데이터에 대한 인간의 해석 과 통찰이 문제를 해결하고 가치와 생산성을 향상시킬 수 있다는 점을 강조한 것이다. 2) 산업통상자원부(연구지원), 한국산업기술진흥원(전담) 빅데이터 기반 안전 안심 도시 구 현을 위한 소셜 플랫폼 구축 사업 (2013. 6. 01. ~ 2014. 5. 31.)

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 151 개하고, 웹상에서 적정 텍스트 를 추출하기 위한 과정과 의의를 논의하는 것 을 목적으로 한다. 이 사업의 목적은 최근 심각한 사회 문제로 대두되고 있는 학교폭력 을 예방하고 그 징후를 포착하기 위해, 웹과 모바일상에서 실시간 으로 생성되는 데이터를 추출, 분석하는 것이다. 궁극적으로 이러한 분석 결 과는 웹상에서 실시간으로 제공되며, 유관 기관과의 협력을 통해 지역별, 학 교별 안전 안심 지수 3) 를 구현하고 학교폭력의 징후를 발견, 예방하는 데 활용될 계획이다. 4) 본 연구팀에서는 이러한 일련의 연구 수행 절차 중에서 한국어 텍스트 데이터의 수집, 정제 및 처리, 분석과 관련된 하위 연구를 수 행해 왔고, 여기서는 이 중에서 학교폭력 경험자 텍스트를 배타적으로 수집 하는 방법론을 소개하기로 한다. 일정한 부류의 텍스트 유형은 반드시 해당 텍스트의 통보 기능적인 특성 이나 주제적 측면을 드러내는 명시적인 표지들이 있기 마련이며, 이러한 표 지를 분석함으로써 적정 텍스트를 추출하는 단서로 활용할 수 있다. 또 어휘 또는 형태 단위로 추출되는 개별 형태는 일정한 의미별로 묶을 수 있는데, 특정한 의미 부류는 특정 텍스트를 변별하는 데 기여하는 요인이 된다. 본 연구에서는 학교폭력 경험자 텍스트 역시 어휘나 형태 차원에서 유의미한 빈도로 출현하는 핵심어(keyword)가 있고, 의미적 차원에서 유의미한 빈도 를 보이는 의미 부류가 있다고 전제하고, 이를 실제 적정 텍스트 추출 작업에 3) 본 연구의 결과물은 웹상에서 학교 폭력 경험자가 생산한 텍스트를 추출하는 데 활용될 예정인데, 여기서 안전 안심 지수 는 유관 기관에서 제시하는 정형 데이터와 본 연구의 비정형 데이터의 학교 폭력 사고 발생 건수 및 징후의 횟수 등을 고려하여 수치로 제공될 계획이다. 안전 안심 지수와 관련된 논의는 본 연구의 주요 대상이 아니므로 여기서는 더 이상 논의하지 않는다. 4) 이성훈 이동우(2013: 230-213)는 Gartner(2011)를 인용하여 빅데이터의 활용이 기업을 중심 으로 한 빅데이터 경영 을 넘어 대국민 공공 서비스의 영역으로까지 확대되고 있음을 지적하 면서, 이미 해외에서는 빅데이터와 시스템 통합이 결합된 새로운 공공 서비스 모델이 제시되 어 시민들에게 양질의 정보를 제공하고 있다고 하였다. 최근 빅데이터에 대한 연구는 데이터 보안 과 활용 의 상충되는 가치를 어떻게 해결해야 할 것인가에 대해서도 활발히 논의되고 있다. 상세한 논의는 최성 우성구(2012), 배동민 박현수 오기환(2013) 참조.

152 텍스트언어학 36 적용하고자 한다. 본 연구의 주제는 스팸문서 분류나 신문기사의 주제 영역 분류를 목적으로 사회과학이나 공학 분야에서 논의되어 온 자동 문서 분류 시스템(text classification system) 과 유사하다. 5) 특히 본 연구의 수행 과정에서 활용한 일 부 분석 방법론은 사회통계학적 방법론을 도입한 것이기도 하다. 그럼에도 불구하고 본 연구가 가지는 변별성은 조사나 어미를 불용어(stop word)로 제 외한 기존 연구와 달리 내용어뿐만 아니라 기능어도 고려한다는 점, 한국어의 유형론적 특성을 고려하여 형태 단위 분석을 시도하고 용언까지 분석 대상에 포함하였다는 점이다. 또 학교 폭력, 쉬는 시간, 아이-들 과 같은 구 단위나 복합어, 은따, 찐따 와 같은 사전 미등재어에 대해서도 텍스트 전처리와 후처 리를 통해 정밀한 분석을 시도하고자 한 점도 이전 연구와 차이가 있다. 본 연구는 다음과 같이 구성된다. 2장에서는 본 연구의 쟁점과 연구 대상, 연구 방법을 간략히 제시할 것이고, 3장에서는 학교폭력 텍스트를 대상으로 고빈도 어휘와 고핵심도 어휘를 비교한 후 내용 핵심어와 기능 핵심어의 역 할에 대해 논의한다. 4장에서는 3장에서 추출된 핵심어를 의미 부류별로 나 누어, 랜덤포레스트 분석을 활용하여 각 의미 부류 변수들이 텍스트를 얼마 나 잘 분류해 주는지에 대한 결과를 제시할 것이다. 5장에서는 이상의 내용 을 요약하고 남은 문제를 제시하기로 한다. 2. 연구의 쟁점과 연구 대상 2.1. 연구의 쟁점 연구의 주요 대상인 학교폭력 경험자 텍스트는 브링커의 텍스트 주제 전 5) 대표적으로 스팸문서의 분류는 송철환 유성준(2006), 경제, 사회, 스포츠 등 신문의 주제 분야 분류는 김민희 권영식(2011), 박단호 외(2011) 등을 참고할 수 있다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 153 개 모형을 따를 때 기술적 텍스트의 전형적인 사례이며, 통보기능적인 분류 체계에서 제보 또는 호소 기능을 주요 기능으로 하는 텍스트로 분류될 수 있다. 6) 특히 개인의 경험을 기술하는 경험자 텍스트의 성격상, 일회적인 사 건 과정이나 역사상의 사건을 기술하는 과거시제, 시간 규정어, 처소 규정어 (브링커, 1994: 71-72) 등이 전형적으로 나타날 것으로 추정된다. 본 연구의 관심사는 언어 수집 프로그램 7) 이 웹이나 모바일상에 나타난 데이터 중에서 학교폭력 텍스트를 변별되게 구분하여 인식할 수 있는 언어학적 단서를 찾는 것이다. 즉, 본 연구의 일차적 목적은 아래 <표 1>에서의 유관 주제 를 무관 주제 로부터 분리하여 학교폭력 경험자 텍스트 를 추출하는 데 있다. 주제성 경험성 텍스트 출처 예 유관 주제 텍스트 (1) 경험자 텍스트 직접 경험 간접 경험 피해자 텍스트 가해자 텍스트 제3자 텍스트 (2) 비경험자 텍스트 (3) 무관 주제 텍스트 네이트판 톡톡 십대 이야기 다음지식 고민Q&A 청소년고민상담 청소년 사이버 상담센터 청소년 세계 뉴스 신문 기사 캠페인 및 홍보성 글 <표 1> 학교폭력 텍스트의 분류 네이트판 톡톡 30대 이야기 네이트판 톡톡 사랑과 이별 다음지식 고민Q&A 취업, 진로 6) 한국텍스트언어학회(2004: 150)에서는 제보기능을 갖는 텍스트는 단정적 표현이 흔하고, 객관적 사실이 텍스트의 중심 내용을 구성하는 경우가 많기 때문에 3인칭 주어의 사용이 빈번하게 나타나는 특징이 있다고 하였다. 본 연구의 대상인 학교폭력 텍스트는 제보기 능을 갖고 있긴 하지만, 사적인 성격이 강하므로 단정적 표현이나 3인칭 주어의 사용이 드물다는 점에서 전형적인 제보텍스트와는 성격이 다르다. 7) 본 연구의 결과물을 적용할 자동 웹 스크롤러 프로그램은 주식회사 더아이엠씨(THEIMC) 에서 개발 중에 있는 The SCRM(Data Search, Curation, Refine, Matrix) 이다. 이 프로그램 은 웹이나 모바일상의 빅데이터를 자동으로 수집, 정제, 분석함으로써 기반 데이터를 형 성해 주는 프로그램으로 한국어 형태소 분석기를 비롯한 자연어처리프로그램을 탑재하고 있다. 프로그램에 대한 상세한 내용은 http://scrm.theimc.co.kr 참조.

154 텍스트언어학 36 아래는 각각 (1) 학교폭력 경험자 텍스트, (2) 비경험자 텍스트, 그리고 (3) 비( 非 )학교폭력 텍스트의 일부를 원문의 수정 없이 보인 것이다. (1) ㄱ. 안녕하세여.. 저는.. 19살 여자에여..지금까지 학교폭력 당한 일 땜에 너무 힘들어서 글을 쓰게 되었습니다..(중략)그렇게 쉬는시간 시간을 화장실에서 더 힘들게 보내고 수업시간에 교실로 가면은 울 반 애들이 나보고 화장실에서 머리 감았냐고 놀리고 머리 안 감고 다니냐고도 놀리고 냄새 난다고 피하고 썪으니까 (피해자 텍스트) ㄴ. 음..일을 설명하자면 쫌 긴데요...끝까지 읽어주세요 어느날 학 교를 딱 등교를하고있는데 학생부장 선생님께서 저랑 제 친구 이씨 랑 박씨를 부르는거에요.(가해자 텍스트) ㄷ. 제 동생은 갓 중딩이거든요 초등학교 졸업하기 5일 전에 화장 실에서 친구 2명에게 1시간이라는 시간 동안 많이 맞았어요 그래서 화장실 가면 정신적 불안감을 느껴서 혼자도 못 가요(제3자 텍스트) (2) 서울특별시교육청(교육감 문용린) 산하 남부교육지원청(교육장 안 재협)은 학교폭력 예방을 위해 2014. 3월부터 학생 및 학부모를 대 상으로 PC 스마트폰으로 이용할 수 있는 학교폭력 익명 상담 신 고 서비스 를 실시하고 있다. (3) ㄱ. 20대 중반 흔한 여자입니다. 진짜 진짜 사랑하는 남자친구가 있는데 사귄 지는 4년 다 돼갑니다 너무 사랑해서 군대도 다 기다렸 고 만나면 너무 좋고 헤어지는 건 상상도 하기 싫어요. 근데 요즘 들어 같이 일하는 남직원이 신경쓰이기 시작했어요. ㄴ. 안녕하세요? 29살 취업준비생입니다~ (중략)엄마한테 막 대하 는 동생보니 속상해서 눈물도 흘린 적도 있어요...엄마도 일하고 와서 힘들텐데 아들한테 잔소리 들으니 얼마나 속상하시겠어요..제 동생 확실히 교육시킬 수 있을까요. (1)은 학교폭력 경험자 텍스트로 학교폭력의 직접적인 경험자인 가해자 나 피해자, 간접 경험자인 친구, 가족, 교사 등의 제3자가 작성한 텍스트에 해당한다. 그런데 온라인상에서 학교폭력 과 왕따 를 검색어로 하여 추출한

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 155 텍스트는 대부분 학교폭력 예방 캠페인이나 뉴스 자료 등 공적 데이터, 즉 (2)와 같은 비경험적 텍스트가 훨씬 많다. (3)은 (1)의 학교폭력 경험자 텍스 트와 동일한 채널에서 수집한 다른 주제의 텍스트, 즉, 비( 非 )학교폭력 텍스 트이다. 이러한 종류의 텍스트는 주제성이라는 측면을 제외하고, 고민 상담 이라는 텍스트 생산의 목적과 문체 그리고 텍스트의 공식성 등의 측면에서 학교폭력 텍스트와 동질적인 특성을 보인다. 8) 웹스크롤을 통해 데이터를 수집하던 기존의 빅데이터 수집과 분석 방식을 따라 (1)의 텍스트를 (2), (3)과 구분하여 추출하는 것은 쉽지 않다. 무엇보다 개인적인 정보를 담고 있는 (1)의 텍스트를 웹이나 모바일상에서 대량으로 수집하는 것 역시 쉬운 일은 아니다. 이와 관련하여 빅데이터 분석과 관련하 여 본 연구가 해결해야 하는 문제는 다음 세 가지로 요약할 수 있다. 첫째, 양적으로 큰 데이터가 항상 좋은 데이터인가 하는 문제이다. 본 연 구에서 추출하고자 하는 적정 텍스트 는 학교폭력 경험자 텍스트에 한정되 며 자동 스크롤을 통해 쌓이는 위 (2)와 같은 텍스트나 같은 채널에 섞여 있는 (3)의 부류들은 쓰레기 텍스트일 뿐이다. 9) (2)의 공적 데이터를 제거하 는 방법은 의외로 단순하다. 데이터가 생성되는 채널의 성격상 (1)과 (3)은 8) 브링커(1994: 164-165)는 텍스트 분류의 맥락적 기준의 한 유형인 행위 영역 을 기준으로, 텍스트를 공적, 사적, 공공적 텍스트로 분류하고 이러한 구분이 다소 조잡할 수 있음을 언급한 바 있다. 실제로 본 연구의 주요 대상인 학교폭력 경험자 텍스트는 사적인 텍스트 이기는 하지만 온라인, SNS의 매체적 특성을 고려할 때 불특정 다수를 수용자로 한다는 특성이 있고, 이는 전형적인 사적 텍스트의 특성은 아닌 것이다. 현대로 올수록 인터넷과 모바일의 발달로 행위 영역에 따른 텍스트의 유형 구분은 훨씬 더 복잡한 양상을 띠고 있고, 본 연구의 대상 또한 이러한 분류 기준에 부합하지 않는 전형적인 예이다. 사적 경험을 전달하지만 텍스트 생산자와 수용자는 사적 관계가 아니기 때문이다. 이러한 문제 점에도 불구하고 본 연구에서는 (1)의 학교폭력 경험자 텍스트를 사적 텍스트로 잠정적으 로 분류하기로 하는데, 이는 문체적 차원에서 (1)이 (2)의 공공적 텍스트와 확연한 차이를 가지기 때문이다. 9) 실제로 연구 과정에서 포털에서 학교폭력 이나 왕따 등을 검색어로 하여 자동 추출한 2,000여 건의 텍스트 중 90%가 비경험자 텍스트로 추출되었다. 이러한 결과는 데이터 수집에서 적절한 채널을 선정하는 것, 적절한 검색어를 추출하는 것 등의 절차가 경험적 연구를 통해 정밀하게 고안되어야 함을 의미한다.

156 텍스트언어학 36 블로그, 상담게시판 등의 동일 채널에서 형성되지만, (2)의 텍스트는 뉴스, 기사 등 대중매체를 특성으로 하는 채널에서 주로 형성되기 때문이다. 양적으로 큰 데이터가 항상 좋은 데이터일 수는 없다. 적은 양의 텍스트일 지라도 양질의 텍스트만이 현상의 징후를 포착하고 예방하는 데 쓰일 수 있 기 때문이다. 따라서 본 연구에서는 웹스크롤을 통한 대량의 자료 추출보다 는, 전형적인 학교폭력 경험자 텍스트, 즉 적정 텍스트를 추출하기 위한 방법 론을 마련하고자 한다. 이를 위해 전형적인 학교 폭력 텍스트와 학교 폭력과 무관한 동일 채널의 데이터를 실험 데이터로 삼고 연구자가 직접 수집함으로 써, 적정 텍스트 추출의 단서를 찾고자 한다. 둘째, 모든 데이터 유형에 똑같은 분석 방법론이 적용될 수 있는가의 문제 이다. 이는 첫 번째 문제와도 관련되는데, 분석 대상이 공적 데이터인지 사적 데이터인지에 따라 데이터의 수집, 분석의 방법론이 충분히 다를 수 있다는 것이다. 학교폭력 경험자 텍스트는 지극히 사적인 데이터로 자료의 양이 많지 않 고, 텍스트 생산자의 역할과, 연령층 등에 따라 텍스트의 구조적 특성도 제각 기 다른 경향이 있다. 따라서 어휘의 빈도에만 의존하는 기존의 분석 방법으 로 소량의 데이터에 나타난 특징적인 현상을 포착하기는 쉽지 않을 수 있다. 본 연구에서는 어휘의 계량적 분석과 더불어 시간, 장소, 증상 등과 같은 의미 부류에 대한 분석을 통해 소량의 데이터에서 나타나는 공통적인 특성을 찾고 이를 타 텍스트와의 변별 기준으로 활용할 것이다. 이를 통해 데이터의 유형을 고려한 분석 방법론을 개발하는 것이 필요함을 보일 것이다. 셋째, 자연언어처리에 있어서 한국어 처리의 쟁점과 관련된 문제이다. 지 금까지 빅데이터 분석에서는 명사를 중심으로 한 어휘 형태소에만 주목하였 는데, 한국어는 교착어로서 조사와 어미와 같은 기능어가 텍스트의 의미를 구성하는 데 적지 않은 기여를 한다. 따라서 본 연구에서는 한국어의 교착어 적 특성을 고려할 때 어휘 형태소(내용어)뿐만 아니라 형식 형태소(기능어) 역시 적정 텍스트를 분별하는 단서로 활용될 수 있음을 보이고자 한다. 이에

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 157 본 연구에서는 자연언어처리에 있어서 한국어 처리 시 데이터를 형태 단위로 분석하고, 내용어와 기능어를 함께 분석하기로 한다. 2.2. 연구 대상 및 방법 본 연구는 온라인상에 공개된 학교폭력 경험자 텍스트 약 6만 어절을 주요 연구 대상, 즉 대상 말뭉치(target corpus)로 한다. 대상 말뭉치를 구성 하기 위해, 일차적으로 포털의 상담 게시판이나 청소년 문제 전문 상담 게시 판에서 학교폭력, 학폭, 왕따, 일진 등의 단어를 검색어로 입력하여 나타 나는 학교폭력 경험자(피해자, 가해자, 제3자)의 텍스트를 수집하고, 연구 자가 학교폭력과 관련성 여부를 판별하여 최종 선별하였다. 10) 연구 대상을 지식Q&A, 고민Q&A, 청소년 세계 등과 같은 사이트를 위주로 수집한 것은 학교 폭력 경험자 텍스트의 특성을 고려한 것이다. 지극히 사적인 텍스트의 특성상 이러한 자료는 블로그 및 상담 사이트에서 가장 잘 추출될 수 있다. 포털이나 신문 등 대중매체에서는 학교 폭력 예방이나 캠페인과 관련된 내 용이 주를 이루고 학교 폭력 경험자 텍스트를 추출하기 어려운 반면, 이들 웹페이지에서는 학교 폭력 경험자들의 직간접적인 경험을 기술한 글이 다수 를 차지한다. 또한 연구 대상과의 비교를 위한 참조 말뭉치(reference corpus)로는 동일 한 채널에서 생산된 텍스트로, 학교폭력 을 주제로 삼지 않는 텍스트를 동일 한 양으로 수집하였다. 학교폭력의 징후를 포착하기 위해 동일한 채널 내의 문서를 변별하는 것이 우선적이기 때문이다. 11) 연구 대상 말뭉치와 참조 말 10) 연구 대상 말뭉치와 참조 말뭉치를 구성한 텍스트의 출처는 다음과 같다. 1 네이트판 톡톡: http://pann.nate.com/talk/ 2 네이트 지식 Q&A: http://ask.nate.com/qna/index.html 3 다음지식 고민 Q&A: http://k.daum.net/qna/list.html?category_id=qp 4 청소년 사이버 상담센터: https://www.cyber1388.kr:447/new/counsel2/bbs/default.asp 5 청소년 세계: http://www.youth.co.kr/sangservice_all.htm

158 텍스트언어학 36 뭉치의 구성 및 규모 12) 는 다음과 같다. 어절 수 텍스트 수 대상 말뭉치 학교폭력 경험자 텍스트 60,000 234 참조 말뭉치 비( 非 )학교폭력 텍스트 60,000 223 <표 2> 말뭉치 구성 본 연구에서는 위의 말뭉치를 띄어쓰기 교정 등 자동 형태 분석을 위한 최소한의 전처리 작업을 한 뒤, UTagger 13) 를 이용하여 형태 분석을 하였으 며, 수작업으로 오류를 수정하여 형태 분석 말뭉치를 구축하였다. 유의미한 형태 단위를 추출하기 위해, 형태 분석 말뭉치에서 조사와 어미, 기타 기호를 제외한 내용어의 경우 다음과 같이 하나의 형태로 통합하는 등 후처리 과정 을 거쳤다. 11) 무엇보다 참조 말뭉치를 동일한 채널의 텍스트로 한정한 것은 학교폭력 텍스트가 갖는 특징을 효과적으로 포착하기 위해서이다. 뉴스 기사나 캠페인 홍보 텍스트가 주를 이루 는 학교폭력 비경험자 텍스트를 참조 말뭉치로 삼을 경우, 텍스트 수집 채널이 달라지 므로 텍스트 유형이 전혀 다른 말뭉치로 비교하게 된다. 이 경우에는, 주제성 변인 외에 도 구어/문어, 사적/공적 등 비교가 될 수 있는 변인 수가 늘어나서 학교폭력 경험자 텍스트의 언어적 특징을 효과적으로 포착하기 어렵고 오히려 문체적 변인이 지나치게 큰 비중을 차지하게 되는 문제가 있었다. 이러한 이유로 본 연구에서는 대상 말뭉치와 참조 말뭉치의 수집 채널을 동일하게 고정하고 텍스트 주제를 달리하여 텍스트를 수집 하기로 하였는데, 실제 본 연구의 결과만으로도 어느 정도는 학교폭력 비경험자 텍스트 를 배제할 수 있는 것으로 분석되었다. 12) 말뭉치의 규모는 해당 텍스트가 학교폭력과 유관한지 여부를 연구원이 직접 판별하여 수집하고, 형태 분석 결과의 오류를 수작업으로 수정할 수 있는 정도로 하였다. 이는 적정 텍스트 추출의 단서를 찾고, 소량의 데이터에서 나타나는 공통적인 특성을 찾고 이를 타 텍스트와의 변별 기준으로 활용하고자 하는 본 연구의 목적에 적합한 규모라고 할 수 있다. 13) 울산대학교에서 개발한 형태소 분석기인 UTagger는 21세기 세종 계획의 태그 세트를 기반으로 형태 분석 정보를 제공하는 형태 분석 프로그램인데, 사용자가 학습 사전을 구축하여 기존 형태 분석 결과를 수정하거나 보완하여 활용할 수 있다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 159 (4) ㄱ. 왕따/NNG+시키/XSV+는/ETM 왕따시키/VV+는/ETM ㄴ. 억울/XR+하/XSA+었/EP+던/ETM 억울하/VA+었/EP+던/ETM ㄷ. 학생/NNG+들/XSN+이/JKS 학생들/NNG+이/JKS ㄹ. 학교/NNG+폭력/NNG+의/JKG 학교폭력/NNG+의/JKG (5) ㄱ. 학폭/NNG, 중딩/NNG ㄴ. 뒷담/NNG, 은따/NNG, 찐따/NNG, 몰카/NNG 즉, (4ㄱ)~(4ㄷ)에서와 같이 동사파생접사, 형용사파생접사, 명사파생접 사 등은 앞의 말에 붙여 한 단위로 통합하였으며, (4ㄹ)과 같이 유의미한 구 단위는 하나의 단위로 통합하여 분석하였다. 텍스트 변별을 위해 학생 과 -들 각각의 빈도보다 학생들 의 빈도가 중요하며, 개별 어휘 단위의 빈도보 다 학교 폭력, 쉬는 시간 등의 구 단위의 빈도가 훨씬 중요한 자료가 되기 때문이다. 또한 (5)에서와 같이 줄임말이나 은어, 미등재어와 같은 분석 불능 범주에 있는 어휘 중에서 유의미한 단위들은 수작업을 통해 분석하였다. 대상 말뭉치와 참조 말뭉치의 비교를 통해 학교폭력 의 경험자 텍스트에서 특별하게 나타나는 언어적인 특징들을 추출하기 위해 본 연구에서 수행한 절 차는 개별 어휘 차원의 핵심어(keyword) 분석과 의미 부류별 빈도 분석이다. 연구 대상 텍스트와 참조 말뭉치와의 비교를 통해 대상 텍스트에서 유의 미한 빈도로 나타나는 어휘를 핵심어 라 할 때, 본 연구에서 주목하는 것은 학교폭력 텍스트에서 특별히 높은 빈도, 즉 고핵심도(high keyness)를 보이는 어휘와 형태이다. 14) 이들 중 내용 핵심어는 텍스트의 주제성(aboutness)을, 형식 핵심어는 텍스트의 문체적 장르적 특성을 주로 보여주는 단서로 활용 14) 핵심어를 언급했던 Firth(1957)과 Williams(1993)와 같은 초기의 학자들이 사람들이 사회 적으로나 물리적으로 중요한 현상들을 반영하고 있다고 막연하게 생각하는 단어들에 직감적으로 주목했던 반면에, Scott(1997)에서는 중요한 단어 들의 목록을 얻기 위해 말 뭉치 언어학적 접근법을 적용하여 log-likelihood score나 chi-squared test와 같이 특별한 통계적 절차를 거쳐 핵심어를 추출한다. 계량적 핵심어 분석 방법론을 한국어 텍스트 분석에 적용할 때 제기될 수 있는 쟁점들과 한국어의 특성을 반영한 핵심어 유형의 분류 에 대해서는 남길임 이수진(2012), 이수진(2012) 참조.

160 텍스트언어학 36 된다. 본 연구에서는 학교폭력 의 경험자 텍스트로 구성된 대상 말뭉치의 형태 빈도 목록을 비( 非 )학교폭력 텍스트로 구성된 참조 말뭉치와 비교하여 핵심어를 추출하였다. 본 연구에서는 핵심어 목록을 추출하기 위해 말뭉치 처리 프로그램인 WordSmith Tools 6.0을 사용하였다. 핵심어 추출은 각 말뭉치의 형태 빈도 목록 구성, 통계식과 유의도의 선택, 핵심어의 추출의 3단계를 거쳐 이루어 지며 본 연구에서는 핵심도를 산출하기 위한 통계식은 카이제곱검증(chisquare)을, 유의도(p-value)는 통계학에서 일반적으로 많이 활용되는 0.05를 선택하였다. 대상 말뭉치에 포함되어 있는 단어들의 관찰 빈도와 기대 빈도 를 통계식에 대입하여, 관찰 빈도가 기대 빈도에 비해 통계적으로 유의미하 게 높은 단어들이 핵심어로 추출되며 이때, 관찰 빈도와 기대 빈도를 통계식 에 대입해 산출한 값이 핵심도(keyness) 가 된다. 따라서 핵심도 가 높은 단 어들은 대상 텍스트가 가지는 주제성(aboutness) 과 문체적 특성을 잘 드러 내는 단어라고 할 수 있다. 이와 더불어 본 연구에서는 개별 어휘 형태 분석의 한계를 극복하고, 소 량의 텍스트에 대한 질적 분석을 위해 핵심어에 의미 태그를 부착함으로써 어떤 의미 부류가 학교 폭력 경험자 텍스트를 판별하는 데 기여할 수 있는지 를 분석하였다. 고핵심도 어휘를 의미별로 분류한 결과는 고핵심도 어휘가 특정한 몇 가지 의미 부류에 집중되어 나타남을 보여주는데, 이를 통해 개별 어휘만으로 포착하기 어려운 의미 범주 차원의 경향성을 파악할 수 있다. 15) 학교폭력 텍스트에 나타난 고핵심도 어휘 중에는 화장실, 교실 과 같은 [장 소], 쉬는 시간, 점심시간 과 같은 [시간], 왕따, 은따, 찐따 나 괴롭히다, 신고 하다, 까다 등과 같은 [행위] 표현들이 변별적으로 나타나는데, 이들을 6개의 15) 이와 같이 의미 주석을 통한 텍스트(담화) 분석 방법은 Baker(2006), Baker(2014: 5-6)에 서 시도된 바 있다. Baker(2006)에서는 여우사냥 과 관련한 찬반 토론 텍스트를 분석하 는 데 USAS(UCREL Semantic Analysis System)를 사용하여 모든 단어를 의미적으로 주석 하였으며, 이를 통해 여우사냥 반대측이 갖는 핵심어 범주로서의 의미 부류 Toughness; strong/weak 와 여우사냥 찬성측의 sensible 을 분석하여 양측의 입장을 해석한 바 있다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 161 의미 부류로 의미 주석하고 주석된 의미 부류 중에서 어떤 것이 학교폭력 경험자 텍스트를 변별하는 데 유용한지를 랜덤 포레스트(random forest) 분 석을 통해 확인하였다. 3. 학교폭력 텍스트의 핵심어 3.1. 고빈도 어휘와 고핵심도 어휘 위의 과정을 통해 추출된 학교폭력 경험자 텍스트의 핵심어 분석 결과를 표로 보이면 다음과 같다. <표 3>은 동일 텍스트를 대상으로 고빈도 어휘 와 고핵심도 어휘 를 추출한 결과를 상위 30위까지만 비교하여 제시한 것이다. <고빈도 어휘> <고핵심도 어휘> 어휘 품사 빈도 비율 순위 어휘 품사 빈도 비율. SF 10312 6.72 1 애들 NNG 628 0.41 고 EC 4005 2.61 2 학교 NNG 677 0.44 이 VCP 3122 2.03 3 왕따 NNG 279 0.18 가 JKS 2641 1.72 4 저 NP 1881 1.23 었 EP 2533 1.65 5 반 NNG 356 0.23 하 VV 2324 1.51 6 애 NNG 411 0.27 이 JKS 2257 1.47 7 친구 NNG 748 0.49 도 JX 2062 1.34 8 아이 NNG 269 0.18 에 JKB 2032 1.32 9 당하 VV 197 0.13 는 ETM 2030 1.32 10 저희 NP 264 0.17 어 EC 1947 1.27 11 걔 NP 197 0.13 저 NP 1881 1.23 12 그 MM 866 0.56 ㄴ ETM 1814 1.18 13 놀 VV 269 0.18 을 JKO 1799 1.17 14 었 EP 2533 1.65

162 텍스트언어학 36 것 NNB 1797 1.17 15 한테 JKB 644 0.42 는 JX 1683 1.10 16 전학 NNG 95 0.06 # 1468 0.96 17 폭력 NNG 94 0.06 를 JKO 1395 0.91 18 다니 VV 328 0.21 SP 1254 0.82 19 일진 NNG 89 0.06 SS 1220 0.79 20 때리 VV 155 0.10 게 EC 1204 0.78 21 울 VV 148 0.10 ㄹ ETM 1080 0.70 22 괴롭히 VV 85 0.06 어서 EC 1059 0.69 23 같이 MAG 248 0.16 의 JKG 1039 0.68 24 학교폭력 NNG 68 0.04 어요 EF 963 0.63 25 아이들 NNG 120 0.08 은 JX 875 0.57 26 친하 VA 267 0.17 그 MM 866 0.56 27 신고하 VV 92 0.06 습니다 EF 845 0.55 28 친구들 NNG 291 0.19 ㅂ니다 EF 804 0.52 29 죽 VV 170 0.11 있 VA 783 0.51 30 가 VV 643 0.42 <표 3> 고빈도 어휘 와 고핵심도 어휘 목록 비교 <표 3>의 왼쪽에 있는 고빈도 어휘 목록을 보면, 고빈도로 나타나는 어휘 항목은 주로 조사와 어미로 고(연결어미), -이-(긍정지정사), 가(주격조사), -었-(선어말어미), 하-(동사), 이(주격조사), 도(보조사), 에(부사격조사), -는 (전성어미) 등이다. 이들은 문법 형태소에 해당하며, 상위 30위 안에는 어휘 형태소가 전혀 나타나지 않으며, 상위 50위까지 넓혀 살펴보아도 친구, 학교, 애들 의 명사 세 개가 발견될 뿐이다. 따라서 이러한 고빈도 어휘 목록에서 높은 빈도로 출현하는 항목은 학교폭력 텍스트뿐만 아니라 일반적인 텍스 트에서도 높은 빈도로 나타나는 문법 형태소가 대부분이므로, 고빈도 어휘 목록만으로는 텍스트의 주제성을 파악하기가 쉽지 않다. 반면, <표 3>의 오른쪽에 있는 고핵심도 어휘 목록을 보면, 고빈도로 나타 나는 어휘 항목은 애들, 학교, 왕따, 저, 반, 애, 친구 등과 같은 명사와 당하 다, 때리다, 울다 등과 같은 동사, 친하다, 힘들다 와 같은 형용사까지 다양

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 163 한 어휘 형태소가 포함되어 있다. 즉, <표 3>의 고핵심도 어휘 목록은 고빈 도 어휘 와는 달리 학교폭력 과 직접적으로 연관된 항목을 풍부하게 담고 있 으므로 학교폭력 텍스트의 특성을 잘 드러내 준다. 따라서 학교폭력 을 나타내는 주제어 는 <표 3>에서 나타난 고빈도 어휘 가 아니라, 고핵심도 어휘라고 볼 수 있으며, 이러한 어휘들을 일정 수 이상 포함하고 있는 텍스트를 학교폭력 을 나타내는 적정 텍스트라고 할 수 있다. 이를 통해 단순히 출현 빈도만을 고려한 데이터 수집과 분석은 실제 해당 텍스트가 포함하고 있는 의미를 드러내는 데 충분하지 않으며, 해당 텍스트 를 변별할 수 있는 계량적인 방법론을 적용할 필요가 있음을 알 수 있다. 16) 3.2. 내용 핵심어와 기능 핵심어의 역할 앞의 <표 3>에서 제시한 고핵심도 어휘 목록은 학교폭력 에 대한 텍스트 의 주제성을 명백하게 드러내는 항목들이다. 상위 100위 안에 드는 핵심어 중에서 학교폭력 과 관련한 어휘 형태소는 83항목, 문법 형태소는 14항목이 었다. 17) 이 중 어휘 형태소는 실질적인 의미를 갖고 있으므로 내용 핵심어 라고 할 수 있으며, 문법 형태소는 구체적인 의미를 갖고 있지는 않지만 해당 텍스트의 성격을 드러내는 데 특별한 기여를 하므로 기능 핵심어 라고 할 수 있다. 본 연구에서 수집한 학교폭력 텍스트에서의 상위 100위에 속하는 내용 핵 심어와 기능 핵심어의 품사별 어휘 목록은 다음과 같은데, 고핵심도 어휘들은 16) SCRM을 통해 웹상에서 학교폭력 관련 문서(150만 어절 규모)를 수집하여 고핵심도 어 휘를 분석해 본 결과 학교폭력, 학교, 폭력 과 같은 어휘도 등장하였지만, 예방, 청소년, 학교폭력예방, 근절, 캠페인, 교육 과 같은 실제 학교폭력의 실상을 알려주기보다는 학교 폭력에 대한 정부나 기관의 입장을 드러내는 어휘가 상당수 포착되었다. 이는 빅데이터 분석 시 충분한 양의 데이터를 수집하는 것보다는 쓰레기 데이터가 과잉 누적되지 않아 야 학교폭력 에 관한 징후를 정확하게 포착할 수 있음을 보여주는 것이다. 17) 그 외 기타로 말다(보조용언),.(마침표), A(영문자) 가 있었다.

164 텍스트언어학 36 학교폭력과 상당히 긴밀한 의미적 연관성을 갖고 있음을 확인할 수 있다. (6) 고핵심도 내용어 ㄱ. 명사: 명, 학교, 왕따, 반, 애, 친구, 아이, 전학, 폭력, 일진, 학교폭 력, 욕, 장난, 찐따, 중학교, 은따, 가해자, 선생님, 체육, 혼자, 화 장실, 학폭, 뒷담, 피해자, 말, 점심시간, 교실, 선배, 신고, 보복, 기억, 학교생활, ㅋㅋ, 눈물, 초등학교, 시비, 우울증, 일진, 애들, 아이들, 친구들, 선배들 ㄴ. 동사: 당하다, 놀다, 다니다, 때리다, 울다, 괴롭히다, 신고하다, 죽다, 가다, 욕하다, 걸다, 시키다, 맞다, 사과하다, 참다, 무시하 다, 쉬다, 치다, 까다, 놀리다, 전학가다, 버티다, 다가가다, 왕따시 키다 ㄷ. 형용사: 친하다, 힘들다, 심하다, 착하다, 억울하다, 괴롭다 ㄹ. 대명사: 저, 저희, 걔, 제, 너 ㅁ. 관형사: 그, 다른, 저 ㅂ. 부사: 같이, 안, 그런데 (6)에서 볼 수 있듯이 학교폭력 텍스트에서 추출한 고핵심도 내용어들은 명사뿐만 아니라 동사와 형용사도 상당수 발견되며, 이들은 학교폭력 이 어 떤 행위를 통해 나타나는지, 이러한 폭력의 경험자들은 어떤 증상을 보이며 어떤 감정 상태에 있는지 보여주는 데 중요한 기능을 한다. 또한 일 이인칭 대명사는 해당 텍스트가 학교폭력 의 직간접 경험자가 진술하는 내용임을 드러낸다. (6)에서 제시한 내용 핵심어들이 실제 학교폭력 텍스트에서 어떻게 사용되 는지 그 실례를 일부 보이면 다음과 같다. (7) ㄱ. 제 동생은 갓 중딩이거든요 초등학교 졸업하기 5일 전에 화장 실에서 친구 2명에게 1시간이라는 시간 동안 많이 맞았어요 ㄴ. 눈길 피해서 집으로 갈려고 했는데 뛰어와서 내 목을 졸르고

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 165 죽고 싶냐고 하고 내일 점심시간에 보자고 하는데 이거 학교폭 력 맞죠? ㄷ. 제가.. 장애인이라는 그런 이유로 학교 폭력을 9년 동안 당했었 어여..초등학교 1학년 때부터 중학교 졸업할 때까지 왕따로 지 내왔었는데.. ㄹ. 그때.. 괴롭히다 못해.. 날 아주 죽여놓지..ㅋㅋㅋ그냥 왜 괴롭 히기만 하니 ㅋㅋㅋㅋ진짜 죽고 싶었는데..니들 땜에.. 난 지금 너무 죽고 싶고 억울한데.. 하..미친..내가 3년 전에.. 니들 다.. 보복이 두려워도 경찰에 신고를 햇으면.. 학교폭력 경험자 텍스트에서 화장실 과 점심시간 은 대부분 학교폭력이 발생하는 부정적인 상황에서 사용되었다. 18) (7)에서 볼 수 있듯이 화장실 은 학교폭력이 행해지는 장소이며, 점심시간, 초등학교, 중학교 는 시간적 배경 이 된다. 또한 (7)에서의 맞다, 당하다, 괴롭히다, 죽이다, 죽다 와 같은 학교폭력과 관련된 행위를 보여준다. 학교폭력 행위와 관련된 핵심어를 살펴보면, 시비, 폭력, 때리다, 괴롭히다, 욕하다, 무시하다, 까다, 놀리다, 왕따시키다 와 같은 가해 행위와 관련된 단어와 당하다, 울다, 신고하다, 죽다, 참다, 전학가다, 버티다 와 같은 피해자의 행위를 나타내는 단어가 주가 된다. 이는 가해와 피해의 행동 양상을 보여준다는 면에서 학교폭력 적정 텍스트에 대한 언어 학적 분석이 기여할 수 있는 바를 분명히 보여준다. 대명사 중에서 학교폭력 텍스트에서는 저, 저희, 걔, 제, 너 와 같이 일인칭 과 이인칭 대명사가 고핵심어로 등장하는데 이는 학교폭력을 직간접적으로 18) 본 연구에서 분석 대상으로 삼은 학교폭력 경험자 텍스트에서 화장실 과 점심시간 은 비교적 저빈도로 출현하였는데도 불구하고 핵심어 상위 100위 안에 드는 항목이다. 화 장실 은 61번 출현한 가운데 중립적인 맥락에서 사용된 경우는 9번뿐이었으며, 점심시 간 은 총 44번 출현한 가운데 중립적인 맥락에서 사용된 경우는 3번뿐이었다. 따라서 학교폭력 경험자 텍스트에서 화장실 과 점심시간 은 학교폭력과 특별한 연관성을 갖는 어휘라고 할 수 있다.

166 텍스트언어학 36 경험한 사람들이 쓴 사적 텍스트이기 때문이다. 학교폭력에 대한 증상 또는 감정을 나타내는 핵심어에는 우울증, 눈물, 힘들다, 심하다, 억울하다, 괴롭다 가 있었는데, 이는 학교폭력이 피해자와 가해자에게 미치는 영향이 무엇인지 알 수 있게 해 준다. (8) 고핵심도 기능어 ㄱ. 어미: -고, -ㄹ려고, -습니다, -고, -아라, -어여, -었-, -었었- ㄴ. 조사: 한테, 랑, 이랑, 하고, 가 마지막으로 고핵심도 기능어를 보인 (8)의 -었-, -었었- 은 통해 학교폭력 텍스트가 주로 과거의 일을 진술하는 기능을 갖고 있음을, -어여, 한테, 랑 등은 이 텍스트가 구어성이 높은 비공식적이고 사적인 텍스트임을 알 수 있게 한다. 따라서 학교폭력 적정 텍스트를 수집 분석하기 위해서는 고핵심도 어휘 추출을 통해 명사, 동사, 형용사, 대명사, 어미, 조사 까지 다양한 내용 핵심 어와 기능 핵심어를 고려할 필요가 있다. 언어학적으로 엄밀한 분석 방법을 통해 도출된 핵심어 분석은 학교폭력 주제성과 경험자의 문체적 공통점을 포착하는 데 활용될 수 있다. 이렇게 추출된 핵심어 집합은 향후 빅데이터 분석 프로그램(The SCRM) 19) 에 탑재되어 적정 텍스트를 추출하는 데 활용될 예정이며, 핵심어의 유형과 수를 조작함으로써 징후 예측과 예방이라는 사업 의 목적에 근접할 수 있다. 4. 학교폭력 텍스트의 의미 부류별 분석 앞의 3장이 개별 어휘를 통해 학교폭력에 대한 단서를 제시한 데 비해, 19) 프로그램에 대한 소개는 각주 7) 참조.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 167 이 장에서는 의미 범주 차원의 단서를 포착하고자 한다. 이를 위해 여기에서 는 위에서 추출된 고핵심도 어휘 100개를 의미에 따라 분류하고 20) 의미 부류 를 변수로 한 적정 텍스트 추출 방안을 모색함으로써, 개별 어휘가 아닌 특정 의미 부류가 텍스트 변별에 있어서 유용한 기준이 됨을 논의할 것이다. 개별 어휘 항목을 중심으로 한 텍스트 분류는 해당 텍스트에서 유의미한 빈도로 출현하는 개별 어휘, 형태를 제시한다는 점에서는 유용한 방법이지 만, 개별 어휘로 포착할 수 없는 전반적인 의미 범주와 텍스트의 관련성을 포착할 수 없다는 단점이 있다. 무엇보다 소량의 텍스트를 분석 대상으로 할 경우 전반적으로 개별 어휘의 빈도가 매우 낮은 경우가 있어서, 유의미한 현상을 놓치는 경우도 있을 수 있다. 이러한 어휘 단위 분석의 한계를 극복하 기 위해 본 연구에서는 유사한 의미 범주별로 어휘를 한데 묶어 분류하여, 특정 의미 부류가 학교폭력 텍스트를 분류하는 데 어느 정도 적절한지 보이 고자 한다. 먼저, 학교폭력 가해자 텍스트에 나타난 고핵심도 어휘 100개를 대상으 로 21) 세종전자사전의 의미부류와 코어넷의 분류 체계를 참고하여 귀납적으 로 분류한 결과는 다음과 같다. 22) 기존의 의미 부류 체계에서 논의 대상이 20) 고핵심도 어휘의 의미 부류를 적정 텍스트 판별의 변수로 활용하는 것은 텍스트의 적절 성을 판별하기 위한 대상 어휘나 의미 부류를 무엇으로 할 것인지에 대한 타당성을 제공 한다는 면에서 의의가 있다. 21) 고핵심도를 갖는 상위 100개의 형태 중에서, 전형적인 의미 부류를 형성하지 못하고 대 용어 등 구체적인 의미를 가지지 않는 것인 그/MM, 다른/MM, -고/EC, -아라/EF, 안 /MAG, ㅋㅋ/NF, 가/JKS, 습니다/EF 등은 의미 부류에서 배제하였다. 22) 세종전자사전(체언)은 구체물(구체 자연물, 구체 인공물, 속성 구체물, 관계 구체물), 집 단(인간 집단, 비인간 집단), 장소, 추상적 대상, 사태정적 사태, 행위, 사건, 현상, 상태 변화)로 분류하며, 코어넷은 구체(주체, 장소, 물건), 추상(추상물, 일, 추상적 관계)로 분 류하고 있다. 또 윤성희(2012: 780)에서는 사용자 정보 기반 키워드 검색을 위해 TREC(Text Retrieval Conference)의 의미범주(semantic category) 체계를 기반으로 하여 키 워드 의미 분류 체계를 다음의 6가지로 설정한 바 있다. 1Location(Place, City, Continent, State, Capital ), 2Time(Year, Month, Day, Season, Hour ), 3Human(Artist, Politician, Economics, sports ), 4Number(Count, Price, Weight, Height ), 5Organization(School, Company, Government, Team ), 6Object(Plant, War, Religion, Organ )

168 텍스트언어학 36 되지 않았던 -었-, -었었- 이나 -ㄹ려고, 한테 등의 형식 형태는 기능적인 관 점에서 [시간]에 포함시키거나 문체적 변수인 [구어성] 23) 을 설정함으로써 핵 심어 전반을 포괄적으로 분석하고자 하였다. (9) 고핵심도 어휘의 의미 부류 24) ㄱ. [시간]: 초등학교, 중학교, 점심시간, -었-, -었었- ㄴ. [장소]: 화장실, 교실, 학교, 반 ㄷ. [관계]: 가해자, 피해자, 선생님, 애들, 아이들, 친구, 친구들, 선배, 선배들, 일진, 왕따, 찐따, 은따, 저, 저희, 걔, 제 ㄹ. [행위]: 왕따, 찐따, 은따, 욕, 장난, 학교폭력, 학폭, 뒷담, 시비, 폭력, 전학, 신고, 보복, 기억, 학교생활, 당하다, 때리다, 울다, 괴 롭히다, 신고하다, 죽다, 욕하다, 맞다, 사과하다, 참다, 무시하다, 까다, 놀리다, 전학가다, 버티다, 왕따시키다, 놀다, 다니다, 가다, 걸다, 시키다, 쉬다, 치다, 착하다, 다가가다 ㅁ. [증상/감정]: 우울증, 눈물, 힘들다, 심하다, 억울하다, 괴롭다 ㅂ. [구어성]: -ㄹ려고, 한테, 랑, 이랑, 같이, 하고 25) 23) 문체적 변수인 [구어성]은 시간, 장소 등과 같은 의미 부류와는 이질적인 성격을 갖는 요소이지만, 본 연구는 내용어와 기능어를 두루 분석하여 학교폭력 핵심어가 갖는 의미 부류별 분석을 시도한 것이므로 기능어를 포함한 의미 분류가 필요하였다. 이에 추출된 핵심어의 의미를 귀납적으로 분석해 본 결과 시간 과 구어성 의 두 가지 의미로 나눌 수 있었다. 24) 이과 같이 고핵심도 단어들을 의미 부류별로 분류하였을 때, 다른 부류들에 비해 [장소] 로 분류된 단어는 유형의 수가 적다. 분류된 의미 부류에 속한 단어의 유형수가 적더라 도, 해당 단어들이 대상 텍스트 전반에 걸쳐서 골고루 높은 빈도로 나타나는 어휘들이라 면 참조 말뭉치와의 변별에 유의미한 변수가 될 수 있을 것이다. 그러나 유형수가 적은 어휘들의 절대빈도조차 낮은 경우에는 대상 말뭉치에서 고른 텍스트 분포를 보이기 충 분하지 않으므로, 해당 의미 부류는 적정 텍스트 판별에 적절하게 활용되기 어려울 것임 을 예상할 수 있다. 25) 실제 분석에서 의미 부류의 분석은 문맥을 참고해야 하는 경우가 있었다. 대표적으로 초등학교, 중학교, 왕따, 찐따, 은따 의 경우를 들 수 있다. 초등학교 의 경우 약 50%가 초등학교 때, 초등학교 n학년 때 와 같이 사용되므로 시간 의 의미를 갖는 경우가 많았 지만, 중학교 의 경우 시간 의 의미를 갖는 경우는 약 33%였으며, 중학교에 올라가다, 중학교 생활, 중학교를 다니다 와 같은 다양한 형태가 나타났다. 찐따 는 찐따가 되다,

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 169 (9)의 결과에서 알 수 있듯이 고핵심도를 보이는 어휘들의 의미 부류는 몇 가지 의미 부류에 국한되어 집중적으로 분포하며, 이들 중에서도 [관계]와 [행위]는 다양한 어휘 구성원을 가지는 것으로 분석되었다. 다음으로 이러한 의미 부류 각각이 텍스트별로 어떤 분포를 보이는지 통 계적으로 살펴보기 위해 26) 대상 말뭉치(234텍스트)와 참조 말뭉치(223텍스 트) 각각을 말뭉치 1 과 말뭉치 2 로 나누었다. 그 중 말뭉치 1 을 대상으로 대상 말뭉치와 참조 말뭉치의 의미 부류별 빈도를 비교 분석하였는데, 이는 텍스트 변별에 기여할 수 있는 변수가 무엇인지 확인하는 데 활용된다. 말뭉 치 2 는 말뭉치 1 의 분석 결과를 활용하여 적정 텍스트 판별의 정확도를 산 출하는 검증 단계에서 활용된다. 6가지로 분류한 의미부류들 가운데 어떤 것이 학교폭력 텍스트를 판별하 는 데 가장 효과적인 변수로 작용할 수 있을지를 알아보기 위한 방법은 Breiman(2001)의 랜덤 포레스트 알고리즘(random forest algorithm) 에 기반 한 랜덤 포레스트(random forest) 분석 방법이다. 27) 랜덤 포레스트 분석을 통해 측정된 6가지 의미 부류 변수들의 중요도를 점도표로 보이면 다음의 <그림 1>과 같다. 찐따인, 찐짜로, 찐따에서 처럼 사용되는 경우가 약 61%, 은따 는 은따를 당하다, 은따가 되다, 은따인, 은따에서 와 같이 사용되는 것이 70%정도였다. 그러나 왕따 의 경우 왕따 를 당하다, 왕따를 시키다, 왕따가 되다, 왕따인, 왕따라고 가 약 33%로 나타났다. 따라서 이들은 문맥에 따라 시간, 관계, 행위 로 나누어 분석하였다. 26) 시간류, 장소류, 관계류, 행위류, 증상/감정류, 구어성 의 5가지 어휘 의미 부류들이 각 텍스트별로 나타난 빈도는 1000형태당 빈도로 표준화하였다. 27) 최근 빅데이터와 데이터 마이닝 연구 분야에서 활발하게 논의되어 온 변수 선택 문제를 해결하기 위한 방법으로 회귀 분석 기법, 의사결정나무, 랜덤 포레스트 분석 등이 있 다. 랜덤 포레스트 분석 방법의 경우, 변수 선택 문제 해결을 위한 여러 방법론들 가운 데, 변수의 중요도를 제시하여 분석에 필요하지 않은 변수를 제거하고 분석에 필요한 주요 변수를 선택하는 데 효과적이다(권안나 2013: 27).

170 텍스트언어학 36 <그림 1> 학교폭력 텍스트 판별의 변수 중요도 <그림 1>의 왼쪽 그림에서 Mean Decrease Accuracy는 정확성을 예측하는 데 기여할 수 있는 변수들의 중요성을 나타낸 것이며, 오른쪽 그림에서 Mean Decrease Gini는 지니 불순도(Gini impurity)가 28) 감소하는 데 기여하는 각 변수의 중요성을 나타낸 것이다. <그림 1>에서 [관계]와 [행위]는 값이 큰 데 반해, [구어성], [시간], [장소], [증상/감정] 은 값이 작음을 알 수 있다. 이는 랜덤 포레스트 분석 결과 [행위]와 [관계]의 어휘들이 학교폭력 텍스트를 판별 함에 있어 중요한 변수가 될 수 있음을 의미한다. 어떤 의미 부류가 텍스트 판별에 적절한지 여부를 확인하기 위해서는 해 당 의미 부류에 속한 형태들이 얼마나 많은 텍스트에 고루 분포하고 있는지 확인할 필요가 있다. 이는 특정 텍스트에서만 자주 나타나는 의미 부류가 있다면 학교폭력 텍스트 전반이 갖는 특성이라고 보기 어렵기 때문이다. 이 에 대상 말뭉치와 참조 말뭉치에서 6가지 의미 부류별 텍스트 분포를 살펴보 면, 다음과 같다. 28) 지니 불순도(Gini impurity)는 나무모형의 노드에 이질적인 것이 얼마나 포함되어 있는가 를 나타내는 척도로, 쉽게 말해 집합에서 하나의 항목을 임의로 선택했을 때의 기대 오 류율이다. Mean Decrease Gini는 나무 모형에서 각 변수의 분할에 대한 질(quality)을 측정하는 데 사용되는데, 한 노드의 하위 노드에서의 지니 불순도의 획득이 그 노드에서 의 지니 불순도의 획득보다 작으면 나무 모형의 분할은 계속된다. 이러한 방식으로 최종 적으로 만들어진 나무 모형의 모든 노드에서의 지니 불순도의 획득이 계산되는데, 이를 바탕으로 지니 불순도의 획득을 적게 하는 데 필요한 변수가 무엇인가를 나타낸 것이 Mean Decrease Gini이다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 171 관 계 행 위 대상 말뭉치 참조 말뭉치 대상 말뭉치 참조 말뭉치 구 어 성 장 소 대상 말뭉치 참조 말뭉치 대상 말뭉치 참조 말뭉치 증 상 감 정 시 간 대상 말뭉치 참조 말뭉치 대상 말뭉치 참조 말뭉치 <그림 2> 의미 부류별 텍스트 분포도 위의 <그림 2>에서 각각의 왼쪽에 있는 상자는 해당 의미 부류가 대상 말뭉치에서 어떻게 분포하는지 나타내며, 오른쪽에 있는 상자는 참조 말뭉치 에서의 텍스트 분포를 나타낸다. 이들 그림에서는 상자의 위치와 상자 안에 있는 가로선인 중앙값을 살펴보아야 한다. <그림 2>의 상단에 있는 [관계]와 [행위]에 대한 분포도를 보면 대상 말뭉치 에서의 분포를 나타낸 왼쪽 상자와 참조 말뭉치에서의 분포를 나타낸 오른쪽

172 텍스트언어학 36 상자가 수평으로 비교해 보았을 때 서로 다른 위치에 있다. 반면 [구어성]과 [시간]의 경우 왼쪽 상자와 오른쪽 상자를 수평으로 비교하면 상당 부분 서로 겹치고 있음을 확인할 수 있다. 이는 [관계]와 [행위]가 대상 말뭉치와 참조 말뭉치와 비교하는 데 변별적인 역할을 할 수 있음을 의미한다. 다음으로, 중앙값을 비교해 보면 대상 말뭉치에서의 중앙값과 참조 말뭉 치에서의 중앙값의 높이 차이가 크면 클수록 두 말뭉치를 변별하는 데 유의 미한 변수가 됨을 뜻하는데, [관계]와 [행위]는 두 말뭉치 간의 중앙값 높이 차가 큰 데 반해, [구어성], [증상/감정], [시간]은 그렇지 않음을 알 수 있다. 따라서 의미 부류 [관계]와 [행위]가 학교폭력 텍스트를 변별하는 데 중요 한 변수가 될 것임을 예상할 수 있다. 이러한 가정이 사실인지 확인하기 위 해, [관계]와 [행위]만을 변수로 선택하여 학교폭력 텍스트를 분류해 해 본 결과는 다음의 <표 4>와 같았다. 29) 학교폭력 텍스트 비학교폭력 텍스트 합계 학교폭력 텍스트 98(83.8%) 19(16.2%) 117개 비학교폭력 텍스트 21(18.9%) 90(81.1%) 111개 <표 4> [관계]와 [행위]를 변수로 한 텍스트 분류의 정확도 <표 4>에서 볼 수 있듯이, 의미 부류 [관계]와 [행위]는 학교폭력 텍스트는 117건 중에서 98건을, 비학교폭력 텍스트는 111건 중에서 90건을 정확히 판 29) 6가지 의미 부류를 모두 활용하여, 의미 부류에 따른 적정 텍스트 판별의 정확성을 살펴 본 결과는 학교폭력 텍스트의 경우 117개 텍스트 중에서 100개를, 비학교폭력 텍스트의 경우 111개 텍스트 중에서 89개를 정확히 분류할 수 있었다. 6가지 의미 부류에 의한 학교폭력 텍스트 분류의 정확성과 [관계]와 [행위]만으로 변수로 제한했을 때의 텍스트 분류 정확성을 비교하기 위해 p-test를 시행하였다. 그 결과 학교폭력 텍스트는 p-value = 0.8562, 비학교폭력 텍스트는 p-value = 1으로, 값이 모두 0.05보다 크게 나타났으므로 이 둘 사이에는 유의미한 차이가 없었다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 173 별할 수 있었다. 따라서 학교폭력 적정 텍스트를 판별함에 있어, [관계]와 [행 위]는 학교폭력 텍스트와 비학교폭력 텍스트의 80% 이상을 변별하는 유의미 한 변수로 작용한다고 할 수 있다. 5. 결론 본 연구에서는 실시간으로 생성되는 대량의 데이터에서 적정 텍스트를 추 출하기 위한 언어학적 분석의 중요성을 논의하고, 실제 예로서 핵심어 분석 과 의미 부류를 변수로 한 학교폭력 경험자 텍스트를 추출하는 과정을 소개 하였다. 본 연구는 빅데이터 분석에 있어서도 양적인 분석에 치중하기보다 는 텍스트의 특성과 한국어의 언어 유형론적 특성을 고려한 분석이 더욱 유 의미한 결과를 도출할 수 있다는 것을 증명하고자 하였다. 아래에서는 연구 를 요약함으로써 결론을 대신하고자 한다. 2장에서는 텍스트의 특성을 고려한 분석의 중요성과 연구 방법론으로서 핵심어 분석, 의미 부류 분석 등의 과정을 간략히 소개하였다. 본 연구의 대상인 온라인의 학교폭력 데이터는 공적이거나 공공적 데이터라기보다는 사적 데이터이며, 학생들이 생산한 데이터로 은어나 구어적인 요소를 다수 포함한다는 특수성을 가진다. 따라서 학교폭력의 징후를 포착하고 예방하기 위해서는, 기존의 대량의 데이터 분석 방법론을 따르기 보다는 소량의 텍스 트라도 해당 텍스트의 전형적인 특성을 가진 데이터를 수집하고 이를 정밀하 게 분석함으로써 언어학적 단서를 찾는 것이 중요하다는 것을 논의하였다. 3장에서는 수집된 학교폭력 텍스트와 동일한 채널에서 생성되는 타 주제 의 텍스트를 비교함으로써 학교폭력 텍스트에서만 유의미한 빈도로 출현하 는 핵심어를 추출하였다. 이를 통해 이들이 텍스트의 주제적 특성과 문체적 특성을 드러내는 단서로 활용될 수 있음을 논의하였다. 실제로 상위 100개의 핵심어만 보더라도, 학교폭력이 발생하는 장소나 시간, 행위의 특성 등을 나

174 텍스트언어학 36 타내는 중요 어휘나 구들이 다수 등장함을 알 수 있었다. 4장에서는 3장의 핵심어를 귀납적 분석을 통해 6가지의 의미 부류로 분류 하고 이들 의미 부류의 빈도가 적정 텍스트 추출의 단서로 활용될 수 있음을 논의하였다. 3장이 개별 어휘에 대한 단서를 제시한 데 비해, 4장은 의미 범주 차원의 단서를 제공한 것이다. 4장의 분석 결과 핵심어 100개는 6가지 의미 부류에 집중적으로 분포하며, 이 중에서도 [행위]와 [관계]가 학교폭력 텍스트를 변별하는 데 주요한 변수가 됨을 확인할 수 있었다. 본 연구를 통해 추출된 핵심어와 [행위], [관계]의 의미부류 관련 어휘는 개발 중에 있는 The SCRM(Data Search, Curation, Refine, Matrix)에 탑재되어 학교폭력 관련 적정 텍스트를 추출하고 위험 징후를 포착하는 데 활용될 계 획이다. 또한 학교폭력과 유관한 주제의 텍스트와 학교폭력과 무관한 주제 의 텍스트를 비교 분석한 언어학적 연구와 학교폭력 경험자 텍스트 중에서도 피해자, 가해자, 제3자 와 같이 경험자의 역할에 따른 텍스트 구분을 위한 연구도 계획 중이다. 물론 이러한 과정에서 청소년들의 개인정보 공개의 문 제, 데이터 공개 및 활용에 대한 법적 문제 등은 향후 극복되어야 할 난제이 다. 정보의 개방과 공개, 법적 문제는 최근 빅데이터 시대의 쟁점으로 논의되 고 있는데 사업의 진행과 더불어 어느 정도 해결점을 모색하기를 기대한다.

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 175 참고문헌 권안나(2013), 랜덤포레스트를 이용한 변수 선택, 인하대학교 석사학위논문. 김민희 권영식(2011), 문서분류 성능 향상을 위한단어 가중치 기법에 대한 연구, 대 한산업공학회 추계학술대회논문집, 453-464, 대한산업공학회. 김성수 외(2014), R을 이용한 다변량 분석, 서울: 한국방송통신대학교출판문화원. 남길임 이수진(2012), 핵심어 분석의 절차와 쟁점 국어국문학 분야 학술 핵심어를 중심으로, 텍스트언어학 27, 163-187, 텍스트언어학회. 박단호 외(2011), 텍스트 분석 및 의사결정 트리 모델을 이용한 웹 문서 분류 시스템, 한국정보과학회 학술발표논문집 38(2), 248-251, 한국정보과학회. 배동민 박현수 오기환(2013), 빅데이터 동향 및 정책 시사점, 정보통신정책연구 25(10), 37-74, 정보통신정책학회. 송길영(2012), 여기에 당신의 욕망이 보인다, 파주: 쌤앤파커스. 송철환 유성준(2006), 문서 분류 알고리즘을 이용한 한국어 스팸 문서 분류 성능 비교, 한국정보과학회 학술논문발표집 33(2), 222-225, 한국정보과학회. 윤성희(2012), 웹 사용자 누적 사용정보 기반의 키워드 검색 모델, 한국전자통신학회 논문지 7(4), 777-782, 한국전자통신학회. 이성만(역)(1994), 텍스트언어학의 이해(K. Brinker, Linguistische Textanalyse, 1988), 서울: 한국문화사. 이성훈 이동우(2013), 빅데이터의 국내 외 활용 고찰 및 시사점, 디지털정책연구 11(2), 229-223, 디지털정책학회. 이수진(2012), 핵심어 분석을 통한 학술 핵심어의 어휘 특성 연구, 경북대학교 석사학 위논문. 이정진(2011), R, SAS, MS-SQL을 활용한 데이터마이닝, 파주: 자유아카데미. 최성 우성구(2012), 빅데이터 정의, 활용 및 동향, 정보처리학회지 19(2), 10-19, 한국 정보처리학회. 한국텍스트언어학회(2004), 텍스트언어학의 이해, 서울: 박이정. Baker, P.(2006), The question is how cruel is it? In Keywords, foxhunting and the House of Commons, AHRC ICT Methods Network Expert Seminar on Linguistics (Vol. 8), AHRC ICT Methods Network. Baker, P.(2014), Corpus linguistics and discourse analysis, handout in City University of Hong Kong/Lancaster University Corpus Linguistics Workshop.

176 텍스트언어학 36 Bao, L., & Cui, Y.(2005), Prediction of the phenotypic effects of non-synonymous single nucleotide polymorphisms using structural and evolutionary information, Bioinformatics 21(10), 2185-2190. Breiman, L.(2001), Random Forests, Machine Learning 45(1), 5-32. Brinker, K.(1988), Linguistische Textanalyse, Berlin: Erich Schmitt. Firth, J. R.(1935), Technique of Semantics, Transaction of the Philological Society, 36-72. Gartner(2011), Big Data Analytics, Gartner Group. Scott, M.(1997) PC analysis of key words and key key words, System 25(2), Oxford: Elsevier, 233-245. Williams, R.(1983), Keywords: A Vocabulary of Culture and Society, London: Fontana Press. http://scrm.theimc.co.kr <핵심어> 빅데이터, 학교폭력 경험자 텍스트, 핵심어, 의미 부류, 적정 문서 남길임 (702-701) 대구 북구 대학로 80 경북대학교 인문대학 국어국문학과 전화번호: 053-950-5111 전자우편: nki@knu.ac.kr 송현주 (704-701) 대구 달서구 달구벌대로 1095 계명대학교 교양교육대학 전화번호 : 010-3827-3767 전자우편 : camus0101@naver.com 이수진 (702-701) 대구 북구 대학로 80 경북대학교 국어국문학과 영남지역 문화어문학 연구인력 양성 사업단 전화 번호: 010-2507-5539 전자 우편: sjmano27@naver.com

빅데이터 적정 텍스트 추출을 위한 언어학적 접근 177 투 고 논 문 접 수 일 논 문 심 사 일 게 재 확 정 일 2014년 4월 30일 2014년 5월 5일 2014년 6월 14일