특집 4 21 세기세종말뭉치제대로살펴보기 언어정보나눔터활용하기 황용주 최정도 국립국어원 1. 서론 잘알려져있다시피 21세기세종계획 은 1997년에그계획이수립되었고이듬해인 1998년부터 2007년까지 10년동안시행된한국의국어정보화중장기발전계획이다 ( 홍윤표, 2009). 이사업을통해한국어연구를목적으로하는기초자료에대한갈증을상당히풀게된것이사실이다. 최초이글은 21세기세종계획 이끝난지약 10년이되는지금시점에다시금 21세기세종계획 과그성과를소개하고세종말뭉치에대해전망하는것이목적이었다. 그러나 2009년 새국어생활 봄호에이와관련된특집이실려상세히전달되고있는바 21세기세종계획 의성과와전망은모두홍윤표 (2009), 서상규 (2009), 홍종선 남경완 (2009) 에기대기로하고, 여기서는 21세기세종계획 의결과물을간단히알아보고실용적인차원에서세종말뭉치의활용과관련된몇가지를소개하고자한다. 그리고 21세기세종계획 의결과물과관련된사항중그간알려지지않았던몇가지도움말을전하고자한다. 73
2. 21 세기세종계획 결과물의구성 21 세기세종계획 의성과물은최초공개성과물을조금씩수정해가면서 총네가지판으로배포되었다. 이들을간단히소개하자면아래와같다. - 21세기세종계획 의성과물 첫번째배포판 : 2007년, DVD 4장 -DVD 1: 세종말뭉치 -DVD 2: 전자사전 -DVD 3: 한민족언어정보화 -DVD 4: 전문용어 / 문자코드표준화 / 글꼴개발 / 정보화인력양성 두번째배포판 : 2009년, DVD 2장 (2007년의수정판 ) -DVD 1: 세종말뭉치 -DVD 2: 전자사전 / 한민족언어정보화 / 전문용어 / 문자코드표준화 / 글꼴개발 / 정보화인력양성 세번째배포판 : 2010년, DVD 2장 (2009년의수정판 ) -DVD 1: 세종말뭉치 -DVD 2: 전자사전 / 한민족언어정보화 / 전문용어 / 문자코드표준화 / 글꼴개발 / 정보화인력양성 네번째배포판 1) : 2011년, DVD 2장 (2009 년의수정판, 한마루2.0 포함 ) -DVD 1: 세종말뭉치 -DVD 2: 전자사전 / 한민족언어정보화 / 전문용어 / 문자코드표준화 / 글꼴개발 / 정보화인력양성 1) 네번째배포판이처음공개되었을때에는 DVD 케이스가노란색이었으나, 수량부족으로좀더제작하면서다시공개된것은연두색으로배포되었다. 그내용은서로같다. 74
다양한판이존재하기에사용자가혼란을겪을수있겠으나, 처음배포된것보다는최신배포판을사용하는것이무난할것으로보인다. 현재는 DVD 형태로는더이상배포하지않고, 2013년개통한 언어정보나눔터 (http:// ithub.korean.go.kr/) 를통해가장마지막에배포된 DVD의내용을모두공개하고있다. 2) 2) 언어정보나눔터 는사용자가직접가입을해야이용할수있다. 기존 DVD 에들어있는내용물은모두 말뭉치 또는 통합자료실 탭의 기타참고자료 에유형별로압축되어등록되어있다. 따라서필요한것을직접내려받아사용할수있다. 75
2.1. 세종말뭉치 3) 세종말뭉치 는크게 문어, 구어, 병렬 ( 한영, 한일 ), 역사 말뭉치로구성되어있다. 4) 사용자의목적에맞는말뭉치를선택하여연구할수있다. - 세종말뭉치의구성 문어말뭉치 구어말뭉치 병렬말뭉치 ( 한영, 한일 ) 5) 역사말뭉치 2.2. 전자사전세종전자사전은해당어휘가가질수있는언어적정보를모두 코드화 하여기술하고있는사전이다. 여기에는기본적으로해당어휘의의미와의미분류, 예문이포함됨과동시에종이사전에서는제시하기힘들었던결합정보, 격틀등등을갈래뜻 (sense) 단위로부가한것이기에사용자에게큰도움이될것이다. - 전자사전 ( 전체약 5만항목 ) 체언 25,458항목 동사 15,180항목 형용사 4,398항목 부사 4,320항목 3) 각말뭉치에대한자세한설명은 3장에서기술한다. 4) 북한및해외말뭉치 는저작권등의문제로배포되지못하고있다. 5) 21세기세종계획 에서는 한영병렬말뭉치 와 한일병렬말뭉치 가주로구축되었다. 이외에 한러, 한불, 한중 말뭉치가시범적으로구축되었으나양이적은편이기에연구결과의신뢰성을담보하기는어려울듯하다. DVD를통하여배포되지는않았으나적은양이나마사용하고자하는연구자는 언어정보나눔터 를통하여담당자에게연락하면자료를접할수있을것이다. 76
사용자는낱낱의파일을각종텍스트에디터에서열어확인할수있으며, 함께제공되는검색도구인 ~단순검색기 / 상세검색기 를통하여연구자가원하는어휘정보를추출할수있다. 참고로 단순검색기 보다 상세검색기 로검색하면검색하는자료자체가상세사전이기때문에더욱풍부한내용을확인할수있다. 2.3. 한민족언어정보화 한민족언어정보화 의결과물은다음과같이구성되어있다. - 한민족언어정보화 6) 국어어문규정 ( 검색프로그램 ) 국어어휘의역사 ( 검색프로그램 ) 한국방언 ( 검색프로그램 ) - 남한방언 ( 검색프로그램 ) - 북한방언 ( 검색프로그램 ) - 중국및기타지역 ( 검색프로그램 ) 문학작품에사용된방언 ( 검색프로그램 ) 남북한언어비교사전 ( 검색프로그램 ) 위자료들은각각이 언어정보나눔터 에파일의형태로등록되어있는데, 사용자는 통합자료실 > 프로그램 에서 한민족언어정보화통합검색프로그램 을내려받아서설치한다음, 단어단위의검색어를입력함으로써자신이원하는정보를얻을수있다. 예를들어검색창에 부추 를입력하면 6) 여기서 국어어휘의역사 는국립국어원누리집의 자료찾기 > 국어어휘역사 에서도확인할수있고, 한국방언 과 문학작품에사용된방언 은국립국어원누리집의 자료찾기 > 지역어자료 > 지역어찾기 에서도확인할수있다. 77
부추 와관련된어문규정사항을알수있고, 국어어휘의역사에서는 부추 가어느시기부터사용되었는지, 한국방언에서는 부추 가어느지역에서 사용되고있는지등을확인할수있어사용자에게유용한정보를제공한다. 2.4. 정보화인력양성 7) 국어정보화인력양성의일환으로해마다 국어정보화아카데미 가개최되었는데, 국어정보화에몸담고있는연구자들의강의를통해서국어정보화의실태를직접체득할수있는기회가되었다. 여기 정보화인력양성 에는그때사용되었던강의자료가담겨있어참고할만하다. 현재는 언어정보나눔터 의 통합자료실 > 기타참고자료 에서당시 국어정보화아카데미 에서열었던강의의자료를내려받아, 사용자의연구에참고할수있다. 3. 세종말뭉치 아무래도일반인 ( 연구자 ) 가가장많이사용하는 21세기세종계획 의결과물은 말뭉치 가아닌가싶다. 말뭉치는머릿속으로쉽게만들어질것이라예측되지만실제로는구축에시간과노력이많이투여되기에만들기가쉽지않다. 그리고저작권등의문제로말미암아쉽게구해서쓰기도힘들다. 이러한현실에서 21세기세종계획 의결과로배포되고있는 세종말뭉치 는한국어연구에지대한역할을하고있는것으로보인다. 하지만아직까지도말뭉치가무엇인지모른다거나어디서어떻게구할수있는지를몰라활용하지못하는사람들이존재하는바, 이자리를통해몇가지유용한사항을전달하고자한다. 7) 전문용어 / 문자코드표준화 / 글꼴개발 / 정보화인력양성 중일반인이사용할수있는것은 정보화인력양성 이기때문에이에대해서만언급한다. 78
3.1. 세종말뭉치의내용 우선세종말뭉치는 2015년까지배포되었던 DVD에포함되어있기때문에, DVD를가지고있는사용자는네가지판중어떠한 DVD를사용하여도같은내용의말뭉치를이용할수있다. 하지만그이후로는 DVD가배포되지않고그내용이모두 언어정보나눔터 를통하여배포되고있기때문에, 간단한절차로 언어정보나눔터 에가입하고로그인을하면, DVD를받았을때와같이 21세기세종계획 의결과물을모두만나볼수있다. 8) 앞서세종말뭉치에는 문어, 구어, 병렬, 역사 말뭉치가있다고했는데이들은말뭉치의종류 ( 유형 ) 에따라다시여러가지로구분된다. 말뭉치의종류를부가되는정보의수준에따라구분하면아래와같은말뭉치들이존재한다고할수있다. (1) 말뭉치의종류 원시말뭉치 : 원문을입력해놓은말뭉치 형태분석말뭉치 : 원시말뭉치 에형태 ( 어휘 ) 단위의정보를부가한말뭉치 의미분석말뭉치 9) : 1 형태분석말뭉치 에동형어구분표지를부가한말뭉치 2 형태분석말뭉치 에갈래뜻 (sense) 구분표지를부가한말뭉치 8) 꼭로그인을해야하는이유는자료를이용하는데필요한 사용각서 의작성을대신하기위한것이다. DVD를신청하여받을때에도이와같은절차를거쳤는데, 사용자가서면으로작성하고다시우편으로제출해야하는불편함을줄일수있는것으로결국사용자의편의를위한것이다. 9) 세종말뭉치의 의미분석말뭉치 는 1에해당한다. 만약사용자가 2와같은효과를얻고싶다면 1의검색결과에서자신이원하는방식으로갈래뜻 (sense) 을구분해주는작업이병행되어야한다. 79
구문분석말뭉치 : 의미분석말뭉치 에통사구조 / 기능표지를부가한 말뭉치 (2) 말뭉치의층위 원시말뭉치 형태분석말뭉치 의미분석말뭉치 구문분석 말뭉치 원시말뭉치에서구문분석말뭉치로갈수록언어학적정보가더부가되기때문에, 사용자는자신이원하는언어정보가무엇인지를고민한다음대상말뭉치를선택하면된다. 사용자가검색어로입력하는것 ( 검색어 ) 이보통음절이길다거나동형어가없는어휘 ( 나형태 ) 의경우는 원시말뭉치 나 형태분석말뭉치 를사용할것을권하고, 음절이짧다거나동형어가존재하는어휘 ( 나형태 ) 의경우는 의미분석말뭉치 를사용할것을권한다. 다음으로현재배포되고있는세종말뭉치의양에대해서알아보자. (3) 세종말뭉치의양 10) - 문어말뭉치 원시말뭉치 : 약 3,700만 (36,879,143어절) 형태분석말뭉치 : 약 1,000만 (10,066,722어절) 의미분석말뭉치 : 약 1,000만 (9,071,054어절) 구문분석말뭉치 : 약 45만 (433,839어절, 43,828문장 ) 10) 여기서는 21 세기세종계획 의전체보고서에나와있는구축량이아니라, 실제 DVD 혹은언어정보나눔터를통하여배포되고있는말뭉치의양을제시한다. 연구자들이사용할수있는자료는현재배포되고있는자료가전부이기때문에혼동을주지않고자함이다. 세종보고서와결과물의양이다른이유는저작권과같은문제때문인것으로볼수있다. 80
- 구어말뭉치 원시말뭉치 : 약 80 만 (805,646 어절 ) 형태분석말뭉치 : 약 80 만 (805,646 어절 ) (2) 에서확인한바와같이언어정보가많이부가될수록, 말뭉치의구축이어렵다. 따라서 원시말뭉치 에서 구문분석말뭉치 로갈수록양이적어지는것을확인할수있다. 일반적으로문어보다는구어말뭉치의구축이상당히힘들기때문에 (3) 에서보듯그양에서도차이가있으며, 문어에서구축된의미분석말뭉치가구어에서는구축되지못하여아쉬운점이있다. 한편 2000년대초반에세종말뭉치가한번배포된적이있다는것을소개한다. 이는 21세기세종계획균형말뭉치 라는이름으로배포된것인데그내용은아래와같다. - 21 세기세종계획균형말뭉치 1,000 만말뭉치 문어대구어비율 : 90%:10%(BNC 참조 ) 21세기세종계획 이진행되고있을때배포된말뭉치로영국의국가말뭉치인 BNC(1억어절 ) 의구성을참조하여전체 1,000만어절로만들어진말뭉치이다. 이말뭉치는장르구성이이미짜여져있어사용자가고민하지않아도되는균형말뭉치이며, 자료가모두글잡이Ⅱ( 색인 ) 용으로인덱싱이되어있어바로형태중심의검색과빈도산출이가능하다. 11) 이자료는언어정보나눔터 ( 말뭉치 > 기타참고자료 ) 에서내려받을수있다. 11) 원시말뭉치를사용하는글잡이 Ⅱ( 직접 ) 에서는 인덱싱 과정이필요없지만, 형태분석말뭉치를사용하는글잡이 Ⅱ( 색인 ) 에서는 인덱싱 이라는과정이꼭필요하다. 81
3.2. 세종말뭉치의활용여기서는세종말뭉치를어떻게활용할수있는지를살펴보자. 즉어떠한연구에활용할수있느냐를소개하는것이아니라, 어떠한말뭉치를사용할경우어떠한도구를사용해야한다는것등과같은실용적인방법을소개한다. 아래는배포되고있는각종도구이다. - 말뭉치구축및검색도구 지능형형태소분석기 글잡이Ⅱ( 직접, 색인 ) 한마루, 한마루2.0 한영병렬말뭉치용례검색기 (hepman) 지능형형태소분석기 는사용자가자신의자료를만들고자할때이용할수있는형태분석기이다. 원본이입력된자료 ( 원시말뭉치 ) 만있으면언제든지쉽게분석이가능하다. 이도구를이용한분석결과는바로 글잡이Ⅱ ( 직접, 색인 ) 에서검색과빈도산출이가능하다 12). 글잡이Ⅱ( 직접, 색인 ) 는검색기이자빈도산출도구인데, 사용자가직접구축한말뭉치를이용하고자할때사용하기에적합한도구이다. 다만아쉬운점으로는 2000년대에개발되었기때문에유니코드 (UTF) 를지원하지못하는것과닫힌프로그램이기에앞으로수정이될가능성이낮은것을꼽을수있다. 따라서사용자는 글잡이 Ⅱ 가지원하는형식의자료로변환해서사용하여야한다. 즉이말은현재배포되고있는세종말뭉치는전체가다인코딩이유니코드 (UTF-16) 로구축되어배포되고있기때문에 글잡이 12) 지능형형태소분석기 는기본적으로유니코드를분석하지못한다 (UTF-8 의자료를분석해주기는하지만, 결과물에서코드가깨어질수있다.). 그래서세종말뭉치를모두일반텍스트코드로변환하여분석해야한다. 82
Ⅱ 에서는사용할수없다는말이다. 하지만앞서언급했듯이유니코드 (UTF-16) 로저장되어있는말뭉치를 글잡이Ⅱ 의입력형식인 일반텍스트코드 (CP949, ANSI, ASCII, KS-5601, Euc-kr 등 ) 로변환하면세종말뭉치를 글잡이Ⅱ 에서사용할수있다 13). 그렇다면유니코드 (UTF-16) 로되어있다는세종말뭉치는어떤도구에서사용할수있을까? 정답은바로 한마루 라는프로그램이다. 한마루 는세종말뭉치에최적화된검색도구이다. 다만 2011년배포판이전까지공개되었던 한마루 는일정수의용례추출과구어검색이문제가있었는데, 2011년판부터공개된 한마루2.0 은그러한문제를모두해소한훌륭한검색도구이다. 따라서앞으로세종말뭉치를활용하고자할때에는무조건이말뭉치에최적화된도구인 한마루2.0 을사용하자. 이도구는기본검색은빈도산출 ( 장르별빈도산출도가능 ), 연어검색등등의고급기능을제공하기때문에사용자에게아주유용한프로그램이라할수있다. 다만, 이도구를사용할때에는오직세종말뭉치만을사용하거나, 사용자가직접자신의말뭉치를세종말뭉치의형식으로구축해서사용해야한다는것만언급해두기로한다. 그리고한영병렬말뭉치를다룰수있는도구로는 한영병렬말뭉치용례검색기 (hepman) 라는프로그램이있다. 14) 일반사용자들은프로그래밍을하지않는이상병렬말뭉치를그대로이용하여검색할수없다. 따라서말뭉치를이용한한국어와영어의대조연구를진행하기위해서는이도구를이용해야하고또한이도구에적합한검색용한영병렬말뭉치를입력말뭉치로사용해야한다. 한영병렬말뭉치용례검색기용한영병렬말뭉치 13) 코드문제는도구마다성격이조금씩달라발생하는것이지그자체가문제점은아니다. 한편검색대상이되는자료를불러올때 (loading) 파일단위가아닌폴더단위로불러와야하는점을언급할수있겠다 ( 즉, 한개의파일을불러올때에도그파일을폴더에넣어서폴더단위로불러와야한다 ). 14) 아쉽게도다른병렬말뭉치를검색할수있는프로그램을개발되지않았다. 83
는언어정보나눔터에서배포하고있다. 마지막으로세종말뭉치에는 ( 한국어 ) 역사말뭉치가있는데이말뭉치를사용하고자할때에는역사말뭉치전용검색기를사용해야한다. 그러한도구로는 깜짝새 나 유니콩크 라는프로그램이있는데홍윤표 (2012) 의부록 CD에첨부되어있어활용할수있다. 이때주의할것은 깜짝새 라는프로그램은말뭉치의입력형식이.2b 라는형식이어야하고, 유니콩크 라는프로그램은말뭉치의입력형식이유니코드 (UTF-16) 형식이어야한다는것이다 15). 간혹사용하고자하는말뭉치가낱낱의파일로되어있어한데묶어사용할필요성이있다거나 한글 워드프로세서로입력되어있는여러파일을일괄적으로텍스트파일로바꾸어사용하고자할때에는 디지털한글박물관 에서배포하고있는 한글자료처리프로그램 을사용해보자. 16) 4. 결론 여기서는 21세기세종계획 의성과와전망에대한것은특집으로마련되었던 2009년 새국어생활 봄호에기대고, 구체적인 21세기세종계획 의결과물을간단히소개함으로써, 세종말뭉치의활용방법에대한도움말을제시하였다. 아직도세종말뭉치의존재를모른다거나혹은세종말뭉치를손에쥐고있어도제대로활용하지못하는이들에게작은도움이나마되고자한것이이글의목적이다. 각각의결과물들에대한사용법은 21세기세종계획 의보고서나각도구의사용설명서로밀어두고, 주로실제말뭉치 15) 이두프로그램의차이에대해서는이주현 (2013) 에상세히설명되어있다. 16) 한글자료처리프로그램 은디지털한글박물관 (http://archives.hangeul.go.kr/) 에서내려받을수있다. 84
나도구를사용하면서경험적으로터득할수밖에없는도움말을전달하고자하였다. 그외자세한모든사항은국립국어원누리집의 자료찾기 > 연구결과 에탑재되어있는 21세기세종계획 관련보고서를통해확인할수있다. 각보고서에는사업이어떻게시작되고진행되었는지, 그결과물은무엇인지에대한내용이담겨있고, 자료의구축방법과도구사용법등이소개되어있어유용하게활용할수있다. 한편현재세종말뭉치는조금씩나이를먹어가고있다. 21세기세종계획 이후로한국어의전반적인언어사실을담고있는자료가구축되지않아, 현재배포되고있는세종말뭉치가조금씩오래된말뭉치가되어가고있는것이다. 일부민간단체에서말뭉치가구축되고있기는하지만특정영역의말뭉치이기나검색결과만확인할수있는말뭉치가대부분이다. 한시라도바삐한국사람들이시대별로, 영역별로한국어를어떻게사용하고있는지를확인할수있는자료가구축되고, 그자료에서분석된언어정보가말의저장고인사전에오롯이담겼으면하는바람이다. 85
참고문헌 서상규 한영균 (1998), 국어정보학입문, 태학사. 서상규 (2009), 국어특수자료구축의성과와전망, 새국어생활, 19-1 ( 봄 ), 국립국어원. 이주현 (2013), 17세기국어의명사형어미연구, 연세대학교석사학위논문. 최정도 (2011), 말뭉치를이용한사전편찬에서의몇문제에대하여, 언어사실과관점, 27, 언어정보연구원. 홍윤표 (2002), 한국어와정보화, 태학사. (2009), 21세기세종계획사업성과및과제, 새국어생활, 19-1 ( 봄 ), 국립국어원. (2012), 국어정보학, 태학사. 홍종선 남경완 (2009), 국어정보화사업의미래와전망, 새국어생활, 19-1( 봄 ), 국립국어원. 86