Ⅳ. 한국어학습자말뭉치활용방안 1. 공개 / 상용소프트웨어를이용한활용방안 1.1. 학습자말뭉치의구조현재학습자말뭉치는다음과같은모습으로되어있다. 그림 1 : 학습자말뭉치구조 필드1, 필드2 일련번호 필드3 원어절 필드4 형태주석 필드5 형태주석수정 필드6 교정어절 필드7

Similar documents
Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

JDK이클립스

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

Studuino소프트웨어 설치

PowerPoint Template

Microsoft PowerPoint SDK설치.HelloAndroid(1.5h).pptx

tiawPlot ac 사용방법

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

1

Microsoft Word - src.doc

18강.hwp

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

View Licenses and Services (customer)

테이블 데이터 처리용 command line tool들

4S 1차년도 평가 발표자료

Microsoft PowerPoint UNIX Shell.ppt

Office 365 사용자 가이드

Microsoft PowerPoint UNIX Shell.pptx

Ver 1.0 마감하루전 Category Partitioning Testing Tool Project Team T1 Date Team Information 김강욱 김진욱 김동권

경우 1) 80GB( 원본 ) => 2TB( 복사본 ), 원본 80GB 는 MBR 로디스크초기화하고 NTFS 로포맷한경우 복사본 HDD 도 MBR 로디스크초기화되고 80GB 만큼포맷되고나머지영역 (80GB~ 나머지부분 ) 은할당되지않음 으로나온다. A. Window P

Microsoft Word - PLC제어응용-2차시.doc

<4D F736F F F696E74202D C20C4C4C7BBC5CD20C8B0BFEB20B9D720C6C4C0CF20B0FCB8AE20BBF9C7C >

MF3010 MF Driver Installation Guide

ISP and CodeVisionAVR C Compiler.hwp

PowerPoint 프레젠테이션

01장

슬라이드 1

PowerPoint 프레젠테이션

게임 기획서 표준양식 연구보고서

윈도 모바일 6.1을 OS로 사용하는 스마트폰(옴니아2 등)에서의 Tcl/Tk의 사용

NTD36HD Manual

Windows 8에서 BioStar 1 설치하기

OCW_C언어 기초

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

5장. JSP와 Servlet 프로그래밍을 위한 기본 문법(완성-0421).hwp

EndNote X2 초급 분당차병원도서실사서최근영 ( )

기존에 Windchill Program 이 설치된 Home Directory 를 선택해준다. 프로그램설치후설치내역을확인해보면 Adobe Acrobat 6.0 Support 내역을확인할수 있다.

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집

JAVA 플랫폼 개발 환경 구축 및 활용

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

MySQL-.. 1

Contents Activity Define Real s Activity Define Reports UI, and Storyboards Activity Refine System Architecture Activity Defin

Microsoft Word - ijungbo1_13_02

[ 컴퓨터시스템 ] 3 주차 1 차시. 디렉토리사이의이동 3 주차 1 차시디렉토리사이의이동 학습목표 1. pwd 명령을사용하여현재디렉토리를확인할수있다. 2. cd 명령을사용하여다른디렉토리로이동할수있다. 3. ls 명령을사용하여디렉토리내의파일목록을옵션에따라다양하게확인할수

(Microsoft PowerPoint - \270\266\300\314\305\251\267\316\304\250USB_Host_Device_\272\316\306\256\267\316\264\365\275\307\275\300_Philip.ppt)

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

untitled

Microsoft Word - windows server 2003 수동설치_non pro support_.doc

Microsoft PowerPoint - chap06-1Array.ppt

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap06-2pointer.ppt

PowerPoint 프레젠테이션

MF5900 Series MF Driver Installation Guide

6. 설치가시작되는동안 USB 드라이버가자동으로로드됩니다. USB 드라이버가성공적으로로드되면 Setup is starting( 설치가시작되는중 )... 화면이표시됩니다. 7. 화면지침에따라 Windows 7 설치를완료합니다. 방법 2: 수정된 Windows 7 ISO

Microsoft PowerPoint 웹 연동 기술.pptx

문서의 제목 나눔고딕B, 54pt

<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

자연언어처리

Data Sync Manager(DSM) Example Guide Data Sync Manager (DSM) Example Guide DSM Copyright 2003 Ari System, Inc. All Rights reserved. Data Sync Manager

슬라이드 1

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

Install stm32cubemx and st-link utility

SIGIL 완벽입문

SBR-100S User Manual

슬라이드 1

목차 1. 시스템요구사항 암호및힌트설정 ( 윈도우 ) JetFlash Vault 시작하기 ( 윈도우 ) JetFlash Vault 옵션 ( 윈도우 )... 9 JetFlash Vault 설정... 9 JetFlash Vault

볼륨 조절 아이콘 표시하기 만일 알림 영역에 볼륨 조절 아이콘이 표시되지 않았다면 아래의 방법을 따라합니다. 1> [시작] - [제어판] - [사운드 및 오디오 장치] 아이콘을 더블 클릭합니다. 2) [사운드 및 오디오 장치 등록 정보] 대화상자에서 [볼륨] 탭을 클릭

메일서버등록제(SPF) 인증기능적용안내서 (HP-UX - qmail) OS Mail Server SPF 적용모듈 (Perl 기반) 작성기준 HP-UX 11.11i qmail 1.03 spf-filter 년 6 월

C# Programming Guide - Types

슬라이드 1

사용설명서를 읽기 전에 ios용 아이디스 모바일은 네트워크 연결을 통해 ios 플랫폼 기반의 모바일 기기(iOS 버전 6.0 이상의 ipod Touch, iphone 또는 ipad)에서 장치(DVR, 네트워크 비디오 서버 및 네트워크 카메라)에 접속하여 원격으로 영상을

IRISCard Anywhere 5

1. 외국어 메뉴판 만들기 (상세 메뉴판) 외국어 메뉴판 만들기 서비스 중 상세 메뉴판 만들기 코너를 이용하기 위해서는, 먼저 한국관광공사 홈페이지 ( 회원가입을 해야 합니다. 상세 메뉴판 만들기 코너를 이용하면, 메뉴

Microsoft PowerPoint - e pptx

Microsoft PowerPoint - 안드로이드 개발 환경 구축(170411)

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

작성자 : 기술지원부 김 삼 수

<4D F736F F F696E74202D20B8AEB4AABDBA20BFC0B7F920C3B3B8AEC7CFB1E22E BC8A3C8AF20B8F0B5E55D>

MVVM 패턴의 이해

Command line tools

사용설명서를 읽기 전에 안드로이드(Android)용 아이디스 모바일은 네트워크 연결을 통해 안드로이드 플랫폼 기반의 모바일 기기에서 장치 (DVR, NVR, 네트워크 비디오 서버, 네트워크 카메라) 에 접속하여 원격으로 영상을 감시할 수 있는 프로그램입니다. 장치의 사

chap 5: Trees

캘크 시작하기

1

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CC0E7B0EDB0FCB8AE5C53746F636B5F4D616E D656E74732E637070>

3. 네이버검색 제 3장에서는네이버검색서비스에대한내용을살펴본다. 네이버검색은네이버에서가장대표적인서비스이다. 네이버검색서비스는계속진화하여다양하고정교한검색방법을제공하고, 다양한영역에서추출된검색결과를제공하고있다. 특히다양한영역의검색결과를한꺼번에보여주는 통합검색 방식은네이버검

제 2 장 기본 사용법

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

Mango-IMX6Q mfgtool을 이용한 이미지 Write하기

<4F B8A620C0CCBFEBC7D120C8B8B7CE20C0DBBCBAC0C720B1E2C3CA2E687770>

Convenience Timetable Design

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.

Microsoft PowerPoint - chap04-연산자.pptx

RVC Robot Vaccum Cleaner

OCW_C언어 기초

<4D F736F F D20BEC8C0FCC7D120B8DEC0CF20B9D720C6C4C0CF20C0FCBCDB2E646F6378>

vRealize Automation용 VMware Remote Console - VMware

Transcription:

Ⅳ. 한국어학습자말뭉치활용방안 1. 공개 / 상용소프트웨어를이용한활용방안 1.1. 학습자말뭉치의구조현재학습자말뭉치는다음과같은모습으로되어있다. 그림 1 : 학습자말뭉치구조 필드1, 필드2 일련번호 필드3 원어절 필드4 형태주석 필드5 형태주석수정 필드6 교정어절 필드7 교정어절의형태주석 필드8 분석여부 필드9 오류층위 필드10 오류현상 필드11 문장 필드12 파일명 이렇게필드 (field; column이라고도함 ) 와레코드 (record; row라고도함 ) 로이루어져있는 2차원구조를테이블 (table) 구조라고한다. 테이블구조의문서를처리하는데에는엑셀 (Excel) 같은 spreadsheet 소프트웨어가적격이다. 여기서는엑셀활용법을우선살펴본뒤, 엑셀과비슷한기능을제공하면서공개 / 무료소프트웨어인 Cygwin을활용한학습자말뭉치활용법을알아보고자한다. 1.2. 엑셀 1.2.1. 정렬 학습자말뭉치를엑셀에서열면다음과같이나타난다.

그림 2 : 학습자말뭉치를엑셀에서열었을때의모습 가장먼저손쉽게할수있는것은데이터를정렬 (sort) 하는것이다. 우선정렬기준으로삼 고자하는필드를클릭하여선택한다. 9 번째필드인 오류층위 를정렬기준으로삼고자한다 면, 오류층위필드의맨위에있는 I 자 (< 그림 3> 의붉은색원부분 ) 를클릭하면된다. 그림 3 : 정렬기준필드선택 그다음에메뉴바의 데이터 를선택한뒤 정렬 메뉴에서 오름차순정렬 아이콘 (< 그림 4> 의 붉은색원부분 ) 을클릭한다. 그림 4 : 데이터 - 정렬

그러면다음과같은팝업창이뜬다. 그림 5 : 정렬시팝업메뉴 선택영역확장 을선택하면, 선택한필드뿐아니라레코드전체가정렬대상이되고, 현재선택영역으로정렬 을선택하면레코드의나머지부분은그자리에그대로있고선택한필드만정렬되어위치가바뀐다. 대개의경우는전자를선택해야한다. 각레코드가지닌자료적통합성 (integrity) 을보존하기위해서이다. < 그림 5> 에서 정렬 버튼을클릭하면정렬이이루어져다음과같이된다. 그림 6 : 오류층위 를기준으로정렬한결과 오류층위 DC 4개, DS 5개, GC 1개, GE 135개 하는식으로오류층위가동일한레코드들이한데모여나타난다. 이렇게정렬기능을이용하여, 같은성격의레코드들을한데모아서살펴볼수있다. 정렬기능을이용하면같은성격의레코드들을한데모을수있기는하나, 원본데이터의배열순서는깨어진다. 대개의경우원본데이터의배열순서도중요한정보를담고있으므로, 정렬을한결과는다른이름으로저장하는것이좋다. 즉원본파일과정렬된파일을각각따로저장해두는것이좋다.

1.2.2. 필터대개원본데이터의양이너무많아서한눈에보기가힘들므로, 일정한기준을충족하는레코드만뽑아서보고싶을때가종종있다. 이럴때는필터기능이제격이다. 필터를설정하려면, 각필드의명칭 (title) 이적혀있는첫째레코드의어느하나의셀을선택한상태에서메뉴바의 데이터 를선택한뒤 필터 아이콘 (< 그림 7> 의붉은색원부분 ) 을클릭하면된다. ( 학습자말뭉치에는각필드에이미필터가설정되어있다.) 그림 7 : 필터만들기 필터가설정되어있는경우, 해당셀의우하단에역삼각형모양의아이콘이있다 (< 그림 8> 의붉은색원부분 ). 이것을클릭하면필터를설정하는팝업메뉴가뜬다. 숫자로되어있는필드는 숫자필터 가나오며, 문자열로되어있는필드는 텍스트필터 가나온다 (< 그림 8> 의연두색부분 ). (< 그림 8> 에서알수있듯이, 이팝업메뉴에서 정렬 을선택하여수행할수도있다.) 그림 8 : 필터설정 1

해당필드에들어있는문자열에대해 같음, 같지않음, 시작문자, 끝문자, 포함, 포함하지않음 등의여러조건을지정할수있다. 가장기본적인 같음 을선택하면, 다시 < 그림 9> 와같은팝업창이뜬다. = 는 같음 이라는뜻이고, 그오른쪽의드롭다운메뉴를클릭하여원하는문자열을선택할수있다. 드롭다운메뉴에원하는문자열이없으면직접타이핑해서입력할수도있다. 그림 9 : 필터설정 2 GF 를선택하여 확인 버튼을클릭하면다음과같이된다. 그림 10 : 필터적용결과 즉, 오류층위 필드가 GF 인 16 개의레코드만이나타나는것이다. 우하단의역삼각형아이콘을다시클릭하여 필터해제 를선택하면 (< 그림 11> 에서연두색 부분 ), 원본데이터전체가다시나타난다.

그림 11 : 필터해제 1.2.3. 수식 수치데이터를포함하고있는테이블구조의문서에서수치계산을할때엑셀을이용하면 편리하다. 이해를돕기위해매우단순한사례를들어살펴보자. 그림 12 : 자동차판매실적 < 그림 12> 는자동차세일즈맨들의판매실적을기록한표이다. 판매액 필드를채워넣으려 면 판매수량 필드의값과 단가 필드의값을곱해야할것이다. 이를위해서는우선결과값 이들어갈 E2~E11 부분을블록지정하고, 수식입력란에 =C2:C11*D2:D11 이라고입력한뒤

Ctrl+Shift+Enter 를친다. 그림 13 : 수식입력 그러면다음과같이수식계산결과가나온다. 그림 14 : 수식계산결과 모든세일즈맨의판매액을합산하려면, E2~E11 을블록지정한상태에서메뉴바의 수식 - 자 동합계 - 합계 를클릭한다 (< 그림 15>).

그림 15 : 합계함수적용방법 그러면다음 < 그림 16> 처럼 E12 셀에합계가나온다. 그림 16 : 합계함수적용결과 요컨대, 엑셀의대표적인기능은테이블구조의문서에서일정한필드에기록된수치들을 가지고일관된계산을행하여그결과를다른필드의대응하는셀에기록하는일이다. 1.2.4. 함수엑셀은사용자들이자주사용하는수식들을아예함수로만들어놓았다. < 그림 15> 에서사용한 합계 도그런내장함수중하나이다. 학습자말뭉치에서 오류층위 GPT의출현빈도를알고싶다고하자. 그러면함수를적용할범위는 오류층위 필드처음부터끝까지이므로 I2~I11826이된다. 그리고 count를할조건은 GPT 이다. 결과값을출력할셀을선택한상태에서 (< 그림 17> 에서는 I11827), 수식및함수입력란에 =COUNTIF(I2:I11826, GPT ) 라고입력한다.

그림 17 : COUNTIF 함수로 GPT 의빈도세기 커서를다른셀로이동하면 I11827 셀에 242 라는결과값이표시된다. 그림 18 : COUNTIF 함수적용결과

1.2.5. 필터와정렬의결합활용학습자말뭉치에서 오류층위 의유형들중에서 GPT( 조사오류 ) 가 242개로가장많다. 오류층위중 1등을차지한 GPT( 조사 ) 오류를더자세히분석해보자. 조사오류에는어떤하위유형들이있을까? 즉, 외국인학습자는한국어의조사중어떤조사를가장자주틀릴까? 이과제를수행하기위해서는우선 오류층위 필드에필터를적용해서 GPT 인것들만걸러낼필요가있다. 이것은앞서 1.2.2. 에서설명한대로쉽게할수있다. < 그림 9> 의단계에서 GPT 를선택하면된다. 그림 19 : 오류층위 필드에필터를적용하여 GPT 만걸러낸결과 그다음에는정렬대상이되는 242 개의레코드전체를선택한다. 맨좌측의레코드번호를 클릭하여죽아래로스크롤하면된다. 242 개의레코드전체가선택된상태에서메뉴바의 데 이터 - 정렬및필터 - 정렬 (< 그림 20> 의붉은색원부분 ) 을선택한다. 그림 20 : 정렬

그러면정렬기준을설정하기위한팝업창이뜬다 (< 그림 21>). 여기서첫째정렬기준으로필 드 G( 교정어절의형태주석 : 문맥상올바른조사 ) 를선택하고, 기준추가 버튼을클릭하여 둘째정렬기준으로필드 D( 형태주석 : 사용자가잘못사용한조사 ) 를선택한다. 그림 21 : 정렬기준설정 정렬을한결과는다음과같다. 그림 22 : 필드 G, 필드 D 를기준으로정렬한결과

맨위의 17개는주격조사 -가 를써야옳은경우이다. 여기서잘못하여 -는 을쓴것이 2 회, -도 를쓴것이 1회, -를 을쓴것이 3회, -보다 를쓴것이 1회, -을 을쓴것이 1회, -이 를쓴것이 1회로나타난다. 이렇게정렬기준의우선순위를적절히설정함으로써, 원하는기준에있어서동일한레코드들이한데모여서나타난다. 1.2.6. 복합기준에의한빈도추출위에서보았듯이필터를사용하여탐색범위를줄이고그다음에정렬기준을설정하여정렬함으로써비슷한성격의레코드들을한데모아서살펴보는식의작업방식도물론가능하고유용하지만, 빈도를측정하고자하는대상의조건이처음부터명확하면함수를사용하여한번에빈도를추출할수도있다. 예컨대주격조사 -이 를써야하는데다른조사를쓰거나조사를아예안써서조사오류가발생한경우를세고싶다고치자. 그렇다면 오류층위 필드가 GPT 이고 교정어절의형태주석 필드가 이 /JKS 인레코드를세면될것이다. 이렇게조건이둘이상일때는 COUNTIF 함수대신 COUNTIFS 함수를쓰면된다. 결과값이나올셀 (< 그림 23> 에서는 I11828) 을선택한상태에서, 수식및함수입력란에 =COUNTIFS(I2:I11826,"GPT",G2:G11826," 이 /JKS") 라고입력한다. 커서를다른셀로옮기면결과값 30이나타난다. 그림 23 : COUNTIFS 함수사용방법 기준을 3 개이상지정할수도있다. 예컨대주격조사 - 이 를써야하는데대격조사 - 을 을 잘못쓴레코드를세려면 =COUNTIFS(I2:I11826,"GPT",G2:G11826," 이 /JKS", D2:D11826," 을 /JKO") 라고하면될것이다. 결과값은 13 이다.

그림 24 : 3 가지기준을사용한 COUNTIFS 함수적용결과 1.3. Cygwin 1.3.1. Cygwin 설치 Cygwin은사실은하나의소프트웨어라기보다많은소프트웨어들을묶어놓은패키지이다. 콘솔 ( 윈도운영체제에서는명령프롬프트라고도함 ) 에서키보드를통해명령어를입력하는방식으로여러가지텍스트처리를할수있다. Cygwin 패키지는인터넷에서무료로다운로드할수있다. 자기컴퓨터가 32비트인지 64비트인지에따라적절한것을선택하여설치하면된다. 그림 25 : Cygwin 홈페이지 (http://cygwin.com) 초기화면 1.3.2. Cygwin 사용을위한설정

Cygwin에서문자인코딩의 default는 UTF-8이다. input 텍스트파일이 UTF-8으로되어있을것을전제로하고, output 텍스트파일도 UTF-8으로만들어진다. Cygwin을설치할때설치디렉토리를특별히다르게지정하지않았다면아마 C:\cygwin(64비트컴퓨터의경우는 C:\cygwin64) 폴더에설치되었을것이다. 모든실행파일들은그아래의 bin 폴더에들어있다. 명령프롬프트의어느디렉토리에서든 Cygwin 실행파일들을사용하고자한다면 path를설정해야한다. 설정 ( 또는제어판 ) - 시스템정보 - 고급시스템설정 을선택하면다음과같은팝업창이뜬다. 그림 26 : 고급시스템설정 윈도 10 의경우바탕화면의좌측하단에있는 웹및 Windows 검색 에 advanced 라고입 력하여뜨는팝업메뉴 (< 그림 27>) 에서둘째 고급시스템설정보기 를클릭하면 < 그림 26> 의 팝업창이곧바로뜬다. 그림 27 : 윈도 10 에서 고급시스템설정 들어가기

< 그림 26> 의 시스템속성 팝업창에서 환경변수 버튼을클릭하면 환경변수 팝업창이뜨고여기서 시스템변수 - Path 를선택하여 편집 버튼을클릭하면 시스템변수편집 팝업창이뜬다. 여기서 변수값 입력란의맨앞에 Cygwin 실행파일들이들어있는디렉토리 (C:\cygwin\bin; 또는 C:\cygwin64\bin;) 를써주고계속 확인 버튼을누르면된다 (< 그림 28>). 그림 28 : 환경변수, 시스템변수편집 팝업창 1.3.3. gawk로특정필드추출하기인코딩이 UTF-8으로되어있는 < 그림 1> 과같은텍스트파일에서, 오류층위의유형별빈도를추출하고싶다고하자. 우선, 콘솔에서해당파일이들어있는디렉토리 (D:\learner) 로이동하여 (cd D:\learner) 아래와같이타이핑하고엔터를친다. 그림 29 : 콘솔에서 gawk 실행방법 gawk 에서는따옴표 ( ) 안에코드를써주고그뒤에입력파일명을써준다. 코드부분은 BEGIN, MAIN, END 의세부분으로이루어지는데, BEGIN 과 END 는수의적이다. < 그림 29> 에서는 BEGIN 과 MAIN 으로만이루어져있다. (END 부분이나오는예는뒤에서살펴본다.)

BEGIN 부분에서는입력파일을본격적으로처리하기전에, 입력파일의포맷에대해프로그램에게알려주고필요한세팅을한다. 입력파일의필드구분자 (field separator, FS), 레코드구분자 (record separator, RS) 가무엇인지알려주는경우가많다. FS와 RS를지정하지않으면 default로이해되는데, RS의 default는줄바꿈문자 ( \n ) 이고, FS의 default는줄바꿈문자이외의 white space( 공백 또는탭 \t ) 이다. 우리의입력파일의경우, RS는 default대로줄바꿈문자이므로지정해줄필요가없으나, FS는공백이아니라탭이기때문에지정해주어야한다.(FS= \t ) < 그림 29> 의 MAIN 부분은 print $9 라는하나의문장으로이루어져있다. gawk에서각필드는다음과같은약호로지칭한다. $1 첫째필드 $2 둘째필드 $n n번째필드 $0 해당레코드전체 따라서 print $9 는아홉째필드를출력하라는뜻이다. 1.3.4. redirection으로출력을파일로저장하기 < 그림 29> 의명령을실행하면, 입력파일의아홉째필드가콘솔화면으로출력된다. 이출력을파일로저장하려면 redirection을이용한다. > 뒤에출력파일명을정해서적어주면된다. 그림 30 : gawk 실행결과를파일로저장 1.3.5. sort f09.txt 를소트하면같은유형의오류층위들이한곳에모일것이다. sort 명령어를이용하 면되며, 역시그결과를파일로저장하려면 redirection 을이용한다. 그림 31 : sort 실행방법 1.3.6. uniq

이제동일한라인들이연달아나오게되는데, 이것을하나로합치면서 (uniq 명령어 ), 합친 것이몇개인지를 count(-c 스위치 ) 해준다. 그림 32 : uniq 실행방법 그결과는다음과같다. 그림 33 : uniq c 결과 아무런오류층위표시가없는라인이 10999 개이고, 오류층위들이알파벳순서대로배열되 어있고각오류층위들의빈도가나와있다. 1.3.7. sort 의옵션들 이것을빈도순대로소트하려면 sort 명령어의 g 스위치 ( 문자열이아니라숫자의크기를기 준으로소트 ) 와 r 스위치 ( 오름차순이아니라내림차순으로배열 ) 를이용하면된다.

그림 34 : 숫자내림차순 sort 그결과는다음과같다. GPT( 조사 ) 가 242 개로가장많고, VNN 166 개, GE( 어미 ) 135 개, GS ( 문장 ) 105, VV 57 개등이뒤를잇고있다. 그림 35 : 숫자내림차순 sort 결과 1.3.8. 파이프로여러명령어를연결하기지금까지는각단계별로출력파일을저장하여그다음단계작업의입력으로삼았는데, 파이프 ( ) 를이용하면중간단계결과파일을저장할필요없이작업을한번에수행할수있다. 파이프는명령어들을연결하는데, 앞명령어의출력을뒤명령어의입력으로삼으라는의미이다.

그림 36 : gawk, sort, uniq, sort 를파이프로연결하여실행하는방법 10 째필드에있는오류현상에대해서도같은작업을같은방법으로할수있다. 그림 37 : 오류현상 (10 째필드 ) 에대한빈도통계를내는방법 그결과는다음과같다. 오류현상에대한표시가없는라인이 10971 개이고, REP( 대치 ) 330 개, MISF( 오형태 ) 310 개, OM( 누락 ) 127 개등으로뒤를잇고있다. 그림 38 : 오류현상통계 1.3.9. 특정필드에조건을지정하여조건을충족하는레코드추출하기앞에서엑셀을가지고해보았던, 오류층위 GPT( 조사오류 ) 의하위유형빈도조사를 Cygwin으로해보자. 올바른조사는 7째필드에나와있고학습자가잘못쓴조사는 4째필드에나와있다. 9째필드가 GPT인레코드만뽑아내서 4, 7째필드만출력하는것은다음과같이 gawk로할수있다. 그림 39 : gawk 로조건에맞는레코드만추출하기

그결과는다음과같다. 둘째필드가올바른조사이고, 첫째필드는학습자가잘못사용한조 사이다. 그림 40 : GPT 인레코드만추출한결과 앞에서엑셀로해보았던, 오류층위 가 GPT 이고 교정어절의형태주석 이 이 /JKS 인 레코드를세는작업을 gawk 로해보자 (< 그림 41>).

그림 41 : gawk 로특정기준을충족하는레코드추출. 기준이 2 개인경우 우선 BEGIN 부분에서필드구분자를탭으로지정해주고, 빈도를센결과를저장할변수 n 을 0으로초기화한다. MAIN 부분에서는 9째필드 ($9) 가 GPT 이고 7째필드 ($7) 가 이 /JKS 인경우변수 n을 1씩증가시킨다. 모든레코드에대해이런일이반복실행된뒤, END 부분에서는변수 n을출력한다. 주격조사 이 /JKS 를써야하는데대격조사 을 /JKO 를잘못쓴조사오류를세려면 < 그림 42> 와같이하면된다. 조건이 2개에서 3개로늘었을뿐프로그램의구조는 < 그림 41> 과동일하다. 그림 42 : gawk 로특정기준을충족하는레코드추출. 기준이 3 개인경우 1.3.10. sort에서기준필드지정하기우선올바른조사를기준으로한데모으고그다음에학습자가잘못사용한조사를기준으로소트하면, 한국어의각조사를학습자들이어떻게잘못사용하고있는지를일목요연하게알수있을것이다. 이것은 sort 명령어에서소팅기준이되는필드를지정하는스위치 (-k) 를이용하여수행할수있다. 그림 43 : sort 명령어에서기준필드지정 1.3.11. uniq c 를이용한통계추출 이렇게소팅된결과로부터 uniq c 를이용하여빈도통계를낼수있다. 그림 44 : uniq c 와 sort gr 을이용한빈도통계추출

그결과는다음과같다. 그림 45 : 조사오류 유형통계 즉, 을 을 이 로잘못쓴것이 17개, 이 를 을 로잘못쓴것이 13개, 을 을누락한것이 12개, 를 을누락한것이 10개로서, 주격조사와대격조사의오용이 1~4위를차지하고있다. 그다음에 에 와 에서 의혼동이 5, 6위이고, 와, 에, 가 의누락이 7~9위이다. 이러한통계를보면, 학습자가흔히저지르는조사오류의유형을알수있다. 테이블구조로된학습자말뭉치에서다른필드에대해서도비슷한방식으로얼마든지필요한정보를추출하고통계를낼수있을것이다. 1.4. 한마루 2.0 말뭉치에서원하는문자열을검색하여그앞뒤문맥을보여주는소프트웨어를콘코던스 (concordance) 프로그램이라고한다. 여기서는국내에서만들어진한마루와외국에서만들어진 AntConc를중심으로설명하겠다. 한마루 2.0( 이하 한마루 라부른다 ) 은국립국어원언어정보나눔터홈페이지에서회원가입후무료로내려받을수있다.

그림 46 : 언어정보나눔터초기화면 1.4.1. 한마루사용을위한말뭉치파일코드변환 : UniConv 한마루는 input 파일의인코딩이 UTF-16LE(LE는 little endian) 으로되어있을것을전제로한다. 학습자원시말뭉치는 UTF-8로되어있고, 학습자형태분석말뭉치는 CP949로되어있는데, 둘다 UTF-16LE으로변환해야한마루를이용할수있다. 텍스트파일의문자인코딩의변환을위해서는 UniConv라는프로그램이유용하다. 아래의주소에서다운로드할수있다. http://ringtail.its.monash.edu.au/pub/nihongo/uniconv.zip http://hosting03.snu.ac.kr/~korean/old/data/han/uniconv.zip UniConv를명령프롬프트상의모든디렉토리에서사용할수있게하려면, uniconv.exe와 btuc21d3.dll( 또는 btuc220.dll) 이두파일을위의 1.3.2. 에서 path 설정한디렉토리에넣어두어야한다. UniConv는기본적으로명령프롬프트에서다음과같은문법으로사용한다. uniconv input-encoding input-file output-encoding output-file 그런데변환해야할파일의수가많을때에는배치 (batch) 파일을만들어서한꺼번에처리하 는것이편리하다. 배치파일은 Cygwin 명령어들을이용하여쉽게만들수있다.

( 배치파일을만드는것보다 Bash shell 스크립트를작성하는것이더좋음. 수업때설명 ) 그림 47 : ls 와 gawk 를이용하여배치파일만들기 : 원시말뭉치 < 그림 47> 에서명령어 ls와 gawk가파이프로연결되어있다. ls는해당디렉토리에들어있는파일들의목록을출력하는프로그램이다. ls가출력한파일들의이름이하나하나 gawk 에입력으로들어간다. gawk의 MAIN 부분은 printf라는하나의함수로이루어져있는데, uniconv UTF8 %s UCS2../raw/%s\n 라는문자열을출력하되 %s로표시된두곳에는입력레코드전체 ( 즉각파일이름 ) 를집어넣으라는뜻이다. 출력결과는다음과같다. 그림 48 : ls gawk 의출력결과배치파일 < 그림 48> 에서첫째라인은배치파일자신에대한것이므로삭제하고, 슬래시 (/) 를역슬래 시 (\ 또는 \) 로바꾸고, 이배치파일의인코딩을 UTF-8 에서 system default( 한글윈도의

경우 CP949) 로바꾸어저장한다. EmEditor처럼파일을저장할때줄바꿈문자를지정할수있는경우에는줄바꿈문자를 Dos식 (CR-LF) 으로지정한다. 또는 sed 등의 Cygwin 명령어를이용하여줄바꿈문자를 Unix식 (LF) 에서 Dos식 (CR-LF) 으로변환할수도있다.(< 그림 49>) (32비트용 EmEditor의플러그인중에도같은기능을제공하는것이있다.) 그림 49 : 줄바꿈문자를 Unix 식 (LF) 에서 Dos 식 (CR-LF) 으로변환하기 그다음에명령프롬프트에서 convert라고타이핑하고엔터를쳐서배치파일을실행하면, 학습자원시말뭉치들이 UTF-16LE으로변환되어 d:/learner/raw 디렉토리에저장된다. CP949로되어있는학습자형태분석말뭉치를 UTF-16LE으로변환하는방법도마찬가지이다 (< 그림 50>). 그림 50 : ls 와 gawk 를이용하여배치파일만들기 : 형태분석말뭉치 또는한마루메뉴바의 파일 - 변환 메뉴를이용할수도있다. 원본파일의인코딩을 EUC-KR(CP949) 와 UTF-8 중선택하고 목록추가 버튼을눌러변환할원본파일을선택한다.( 복수의파일도선택가능 ) 그다음에변환버튼을누르면원본파일이있는폴더에변환된 output 파일이새로운이름으로저장된다. 그림 51 : 한마루 2.0 파일인코딩변환

1.4.2. 말뭉치열기다운로드한압축파일을풀어 Hanmaru.exe를실행한뒤, 메뉴바의 파일 - 열기 - 말뭉치열기 를선택하면다음과같은대화상자가뜨는데 일반텍스트파일 을선택하고 열기 버튼을누른다. 그림 52 : 한마루 2.0 의말뭉치열기대화상자 우선학습자원시말뭉치를 UTF-16LE 으로변환하여저장한파일들을선택한다. 검색대상 으로하려는파일들만선택하면된다. 모두선택하려면 Ctrl-A 를누르고 열기 버튼을클릭 한다. 그림 53 : 한마루 2.0 파일선택대화상자

1.4.3. 말뭉치통계 메뉴바의 통계 - 말뭉치통계 - 어절 - 전체통계 로들어가 (< 그림 54>) 어절통계, 음절통계, 자소통계 를각각내보면 < 그림 55> 와같이된다. 그림 54 : 한마루 2.0 의통계메뉴 그림 55 : 한마루 2.0 의어절 음절 자소통계 이러한통계결과는메뉴바의 파일 - 저장 - 통계결과저장 메뉴를통해저장할수 있다.

1.4.4. 용례기본검색메뉴바의 검색 - 어절검색 을선택하면대화상자가뜨는데, 여기서 기본검색 을선택하고, 찾을문자열 ( 예를들어 하고 ) 을입력하면다음과같은결과가나온다. 화면하단에말뭉치탑재소요시간, 검색어, 검색대상말뭉치크기 ( 문장수, 어절수 ), 검색된문장 어절수, 검색소요시간이나온다. 그위에는 22개의용례가좌측 ( 이전 ) 문맥, 검색어, 우측 ( 이후 ) 문맥, 파일명, 파일번호의순으로제시된다. 이렇게검색어가좌우문맥사이에나오는형식의콘코던스를 KWIC(keyword in context) 이라고부른다. 앞뒤의문맥을한눈에볼수있어편리하다. 검색문자열의앞뒤에어떤것들이주로나오는지를콘코던스를보고파악할수있다. 그림 56 : 한마루 2.0 기본검색 메뉴바의 파일 - 저장 - 검색결과저장 을선택하여검색결과를파일로저장할수있다. 확장자가 txt인파일과 view인파일로저장되는데, 전자는문장만포함한단순텍스트파일이고, 후자는나중에한마루에서 파일 - 열기 - 검색결과열기 로다시열어볼수있는형태의파일이다. 1.4.5. 아무개문자검색그런데 < 그림 56> 의검색결과에서유의할점은, 하고 가하나의어절전체를이루는경우만추출되었고, 하고 의어절의일부인경우는추출되지않았다는점이다. 즉한마루의 어절검색 의 기본검색 은사용자가입력한문자열이온전한어절을이루는경우만찾아주는것이다. 입력한문자열이어절의일부인경우를찾으려면 어절검색 의 음절검색 을선택하여아무개문자 (wild card) 를사용해야한다. 아무개문자에는다음의 4가지종류가있다. % : 0개또는 1개의문자 ( 음절 )? : 1개의문자 ( 음절 ) * : 0개이상의문자 ( 음절 ) + : 1개이상의문자 ( 음절 ) 예컨대 * 하 * 는어절속에 하 라는음절이들어있는데, 그앞이나뒤에임의의길이의문

자열이있을수도있고없을수도있다는뜻이된다. 검색결과는다음과같다. 267 개문장에 서 371 개의용례가추출되었다. 그림 57 : 한마루 2.0 아무개문자검색결과 1.4.6. 자소검색초성 중성 종성의세부분으로이루어져있는한글의특성을반영하여, 한마루는자소단위검색기능을제공한다. 메뉴바의 검색 - 어절검색 - 자소검색 을선택하여이용할수있다. 예컨대 [?,?, ㅆ ] 다 를검색하면 다 라는음절앞에초성 중성은아무거나괜찮고종성은 ㅆ 인음절이있는경우만을추출해준다. 학습자말뭉치에서는 56개의용례가추출되었다. 그림 58 : 한마루 2.0 의자소검색결과

1.4.7. 범위검색 두어절이일정한범위내에서함께나타난경우를찾아주는기능이다. 검색식은다음과 같은구조로되어있다. 기준어절 + 공백 + 숫자 ( 좌측범윗값 )@ 숫자 ( 우측범윗값 )+ 공백 + 검색어절 기준어절을중심으로하여검색어절이두숫자사이의범위에나타나는경우를찾아준다. 기준어절과검색어절에아무개문자를이용할수도있다. 예컨대 수 1@3 있 * 이라고입력하면 수 라는기준어절을중심으로 있 * ( 있 뒤에임의의문자열이있는어절 ) 이바로오른쪽에있거나오른쪽 2번째어절에있거나오른쪽 3번째어절에있는경우를찾아준다. 그림 59 : 한마루 2.0 범위검색결과 1.4.8. 불리언검색 2개의논리연산자 (or) 및 &(and) 를이용하여검색조건을결합하여찾아주는기능이다. 는 3개이상의항을연결할수있으나, & 는 2개의항을연결하는데만쓸수있다. 그리고 로연결된항들은순서와상관없으나, & 로연결된항들은제시된순서대로나오는것만찾아준다. 각항에아무개문자를쓸수있다. 매우 아주 너무 가장 & 좋 * 이라고하면 4개의정도부사와 좋- 이공기한용례들을찾아준다.

그림 60 : 한마루 2.0 불리언검색결과 1.4.9. 형태분석말뭉치학습자형태분석말뭉치는형태분석말뭉치이기는하지만세종형태분석말뭉치의포맷을그대로따르지는않았다. 한마루는세종형태분석말뭉치의포맷을그대로따른말뭉치에대해서는 검색 메뉴에서 형태소검색 이라는특화된검색기능을제공하나, 학습자형태분석말뭉치는포맷이다르기때문에아쉽게도이기능을이용할수없다. 따라서말뭉치파일을열때, 현대문어 / 구어형태분석말뭉치 가아니라 일반텍스트파일 을선택해야한다. 그렇기는하지만형태소단위로품사가부착되어있다는점을활용하면원시말뭉치에비해훨씬더정교한검색또는훨씬더포괄적인검색이가능하다. 더정교한검색의예로는지정사 -이- 의검색을들수있다. 그냥문자열로서의 이 는주격조사도있고지정사도있고그외에다른형태소의일부인경우도있다. 품사가부착되어있지않다면이들을구별하여검색할수가없는것이다. 형태분석말뭉치에서는 * 이 /VCP* 이라고함으로써지정사 -이- 만을검색할수있다 (< 그림 61>).

그림 61 : 한마루 2.0 로형태분석말뭉치에서지정사를검색한결과 더포괄적인검색의예로는품사태그를이용한검색을들수있다. 예를들어입력식을 */JKO 와같이아무개문자를이용하여입력하면, 대격조사로끝나는모든어절을다추출해준다 (< 그림 62>). 그대격조사가 을 이든 를 이든 ㄹ 이든또다른형태이든상관하지않는것이다.

그림 62 : 한마루 2.0 로형태분석말뭉치에서품사태그및아무개문자를이용하여검색한 결과 1.5. AntConc 말뭉치분석도구, 특히콘코던스소프트웨어로서세계적으로널리알려진것으로 Wordsmith, MonoConc, AntConc 등이있다. 최근에는완전히무료이면서도매우다양한기능을제공하며유니코드를지원하는 AntConc가가장각광을받고있다. 공개 / 무료소프트웨어는상용소프트웨어에비해관리가잘안되는일이많은데, AntConc는공개 / 무료소프트웨어이면서도사용자로부터피드백을받아비교적자주업데이트되는등, 전반적으로잘관리되고있다는점이큰장점이다. 서로비슷비슷한여러소프트웨어들을얕고넓게소개하기보다는, 우수한하나의소프트웨어에초점을맞추어자세히소개하는것이더유용하리라생각되어, 여기서는 AntConc에초점을맞추어살펴보겠다. AntConc는 http://www.laurenceanthony.net/software/antconc/ 에서다운로드할수있으며, 이사이트에서 AntConc에관한자세한설명을볼수있다. 이소프트웨어는 Laurence Anthony가만들었는데, 개발언어는 Perl이며여러컴파일도구를이용하여각운영체제에서

사용할수있는실행파일을만들었다. 윈도, 매킨토시, 리눅스운영체제가모두지원된다. 1.5.1. 말뭉치파일탑재를위한사전작업 : 인코딩과파일이름검색을하기전에우선말뭉치파일들을탑재 (load) 해야하는데, 각파일의인코딩이어떻게되어있는지를점검해야한다. AntConc의디폴트파일인코딩은 UTF-8인데이를변경하려면 Global Settings 메뉴로들어가서 Character Encoding을변경하면된다. 만약한국어, 영어, 중국어, 일본어등의다국어말뭉치를사용한다거나, 여러언어의말뭉치를수시로바꿔가며사용할것같으면, 디폴트인코딩을 UTF-8로놔두는것이나을수있다. 디폴트인코딩을이렇게놔둔상태에서는 load되는모든파일이 UTF-8로되어있어야한다. 한국어인코딩 (EUC-KR, CP949) 으로되어있는파일은 UTF-8로변환해야한다. 이런인코딩변환작업은 1.4.1. 에서소개한 UniConv와배치파일을이용하여할수도있고, Laurence Anthony가만든 EncodeAnt라는소프트웨어를이용하여할수도있다. (http://www.laurenceanthony.net/software/encodeant/) 학습자원시말뭉치는 UTF-8로되어인코딩상으로는 AntConc에서사용하기에문제가없다. 다만파일이름에아스키문자 ( 로마자, 숫자, 키보드상에서입력가능한기본기호들 ) 가아닌것 ( 예를들면한글 ) 이들어있으면문제가생긴다. 따라서파일이름을모두아스키문자로바꾼뒤에이용해야한다. rename이라는명령어를이용하되, 앞서 1.4.1. 에서설명한것과비슷한방식으로배치파일 (< 그림 63>) 을만들어서일괄적으로처리할수있다.

그림 63 : 파일이름바꾸기배치파일 말뭉치파일을탑재하기위해서는메뉴바의 File - Open File(s) 메뉴를선택한뒤말뭉 치파일들을선택하여 열기 버튼을누르면된다 (< 그림 64>).

그림 64 : AntConc 에서말뭉치파일열기 1.5.2. 단순용례검색상단의탭에서 Concordance가선택되어있는상태에서 Search Term에 있다 라는문자열을입력하고 Start 버튼을누르면모두 52개의용례가검색되어나온다 (< 그림 65>). W 그림 65 : AntConc 에서 있다 검색결과 ( 어절단위 ) 1.5.3. 어절의일부검색 한마루와마찬가지로 AntConc 도기본검색은어절을단위로한다. 즉입력한검색어가온 전한어절을이루는경우만을찾아준다. 온전한어절이아니라어절의일부를검색하려면

Search Term 오른쪽의 Words 의선택을해제해야한다. 예컨대어미 - 는데 를검색하고싶 다면, 는데 는그자체로서하나의어절을이루지는못하고어절의일부이므로 Words 의선 택을해제한상태에서검색한다. 그러면 7 개의용례가검색되어나온다 (< 그림 66>). 그림 66 : AntConc 에서 - 는데 검색결과 ( 어절조건해제 ) 1.5.4. 검색결과의소팅위의 -는데 검색결과에서, 어미 -는데 가어떤용언뒤에많이붙었는지알고싶을수있다. 이것은 -는데 를포함한어절자체를기준으로소팅을하면어느정도알수있다. AntConc는검색결과를소팅할때소팅기준을세단계까지명시할수있게해준다. 화면하단의 Kwic Sort 아래에 Level 1, Level 2, Level 3가있는데, 0은 Search Term 바로그어절을의미하고, 1L은왼쪽첫째어절, 2L은왼쪽둘째어절, 을의미하고, 1R은오른쪽첫째어절, 2R은오른쪽둘째어절, 을의미한다. Level 1을 0으로설정하면 -는데 를포함한바로그어절이첫째소팅기준이된다. 그러면소팅결과가다음과같다나온다 (< 그림 67>). 그림 67 : AntConc 에서검색결과를해당어절기준으로소팅한결과 1.5.5. 아무개문자 동사 먹 - 앞에어떤단어 ( 대개목적어 ) 가주로오는지알고싶다고하자. 그럼우선동사 먹 - 을검색해야할것이다. Words 선택을해제하고 먹 을검색할수도있겠지만, 그러면

그냥 먹 하나의음절로이루어진어절도검색결과에포함될텐데, 이것은동사 먹- 의용례가아닐것이다 ( 아마도명사 먹 의예일듯 ). 따라서 Words를선택한상태에서아무개문자 (wild card) 를사용하는게더좋다. 아무개문자에는?(1개의임의의문자 ), *(0개이상의임의의문자 ), +(1개이상의임의의문자 ) 등이있다. 동사 먹- 의활용형들을검색하려면 먹 + 라고하면된다 (< 그림 68>). 즉이어절은 먹 이라는문자로시작되고그뒤에는 1개이상의임의의문자가오면된다. 물론이럴경우명사 먹 에조사가붙은 먹이, 먹을, 먹도, 먹만 등도함께검색되어나오겠지만, 품사구별이되어있는형태분석말뭉치가아닌이상이정도의 noise는감내할수밖에없다. 그림 68 : AntConc에서아무개문자를이용한검색 : 먹 + 이검색결과를바탕으로하여, 먹- 의활용형을분류하고싶으면제1 검색기준을해당어절 (0) 로하면되고, 먹- 앞에오는요소를알아보고싶으면제1 검색기준을왼쪽첫째어절 (1L) 로하면된다 (< 그림 69>). 그림 69 : AntConc 에서 먹 + 검색결과를좌측어절기준으로소팅한결과

1.5.6. 정규표현어미 ~ 고 가반복해서쓰일때의패턴을알아보고싶다고치자. 이경우에 -고 와 -고 사이에는매우다양한말들이올수있기때문에 Search Term을어떻게설정해야할지막막할것이다. 이럴때에는정규표현 (regular expression) 을이용하는것이좋다. 정규표현에서사용되는특수문자들의의미는위키백과등인터넷검색을통해쉽게조사할수있으므로각자알아보기바란다. -고 가반복된경우를찾기위해서는 Search Terms 오른쪽의 Words 는선택을해제하고 Regex는선택한상태에서 고.{0,20}? 고 를검색해보자 (< 그림 70>). 이정규표현의의미는대략 고 와 고 사이에임의의문자가 0개 ~20개온경우를찾으라는것이다. 그림 70 : AntConc 에서정규표현 고.{0,20} 고 를검색한결과 1.5.7. Concordance Plot 어떤언어요소가말뭉치의어느파일에서, 그리고각파일의어느부분에서많이나타나는지를알고싶다고하자. 이럴때는 AntConc의 Concordance Plot이유용하다. 예컨대 53개파일로이루어진학습자원시말뭉치에서 사람 을검색하면 25개파일에서 67개의용례가검색되는데, 각파일에서 사람 이몇번나오고그출현위치가어디쯤인지를바코드형태로일목요연하게보여준다 (< 그림 71>).

그림 71 : 사람 의 Concordance Plot 1.5.8. 단어빈도목록말뭉치에나타나는모든어절의출현빈도를총체적으로알고싶을때에는 Word List를이용하면된다. 이목록을빈도순으로소팅할수도있고 (< 그림 72>) 자모순으로소팅할수도있다 (< 그림 73>).

그림 72 : 학습자원시말뭉치의어절빈도목록 ( 빈도순 )

그림 73 : 학습자원시말뭉치의어절빈도목록 ( 자모순 ) 1.5.9. 연어 / 공기분석우리가어떤단어에관심을갖고있다고할때 ( 타겟 ), 이타겟이어떤표현들과함께나타나는지알고싶을수있다. 이럴때 Collocates 메뉴가유용하다. 이것은연어관계, 공기관계를통계적으로분석해서타겟과유의미한연어 / 공기관계에있는언어표현들을추출해준다.

이때사용되는통계량에는상호정보 (mutual information, MI), T-Score, 로그우도비 (Log-likelihood) 등이있는데, 상호정보는전체적인빈도가낮은표현을선호하는경향이있고 t-score는전체적인빈도가높은표현을선호하는경향이있다. AntConc에서는디폴트로 MI를사용하는데, 이는 Top Preferences 메뉴에들어가서변경할수있다. Top Preferences Collocates Selected Collocate Measure를 T-Score로변경하고, Window Span을 2L부터 2R까지로설정해서 많이 를검색하면, 이에대한연어 / 공기어가다음과같이나온다 (< 그림 74>). 그림 74 : 많이 의연어분석결과

1.5.10. N-Gram 분석우리가하나의어절이아니라두어절 ( 또는그이상 ) 의연쇄에관심을가질수도있다. 예컨대 철수는밥을먹고있고나는빵을먹고있고영희는굶고있다 라는문장에는 철수는밥을, 밥을먹고, 먹고있고, 있고나는 등 10개의 bigram token이존재하며 ( 일반적으로 n개어절 (unigram) 로이루어진텍스트에는 n-1개의 bigram이존재함 ), 먹고있고 라는 bigram token이 2개있으므로 bigram type은 9개가존재한다. 이런식의조사는 bigram뿐아니라 trigram, four-gram 등 n-gram 일반에대해서도얼마든지할수있다. 어떤말뭉치에어떤 n-gram들이존재하는지알고싶을때에는 Clusters/N-Grams 메뉴가유용하다. 이메뉴에들어가서 Search Terms 오른쪽에있는 N-Grams를선택하고 N-Gram Size를 Min, Max 둘다 2로설정한상태에서 Start 버튼을누르면 bigram들의빈도와 Range가결과로나온다 (< 그림 75>). Range는해당 bigram이몇개의파일에출현하는지를나타낸다. Range 값이크면, 해당 bigram이특정파일에만몰려있는것이아니라여러파일에폭넓게분포하고있다는뜻으로이해할수있다. 그림 75 : bigram 분석결과

1.5.11. 키워드분석그다음으로 AntConc에서제공하는유용한기능으로 Keyword List 메뉴가있다. 어떤대규모말뭉치를기준으로해서, 관심의대상이되는특정말뭉치나텍스트에출현하는단어들중기준말뭉치에비해유난히빈도가높거나유난히빈도가낮은단어들이무엇인지알아볼수있다. 이런단어들은 Keyword라고하는데, 해당말뭉치 / 텍스트의특징을알아보는데유용한단서가될수있다. 예컨대물리학텍스트에는 에너지, 운동, 속도, 가속도, 입자 등의단어들이일반말뭉치에비해월등히높은빈도로나타날것이고, 법률텍스트에는 소송, 유죄, 판결 등의단어들이자주나타날것이다. 이러한키워드분석을하기위해서는우선기준이되는대규모말뭉치의단어빈도목록이필요하다. 영어의경우 British National Corpus(BNC) 등의단어빈도목록을위의 AntConc 홈페이지등에서쉽게구할수있다. 한국어도세종문어말뭉치등을기준말뭉치로삼아서, 특정말뭉치 / 텍스트의키워드분석을행할수있을것이다. 학습자말뭉치가어느정도구축되면, 이를대상으로해서키워드분석을할수있다. 이를통해외국인학습자들이한국어네이티브에비해어떤표현을유난히자주사용하는지, 그리고어떤표현을유독사용하지않는지등을알수있을것이다. * * * 여기서는 AntConc를중심으로말뭉치활용방안을살펴보았다. 일반적인말뭉치분석도구는제공하는기능이거의비슷비슷하기때문에, AntConc 외의다른소프트웨어를사용하더라도사용법은크게다르지않을것이다. 그리고이들소프트웨어는학습자말뭉치에특화된것은아니기때문에, 학습자말뭉치만을위한특별한기능을제공하고있지는않다. 그러나학습자말뭉치도 AntConc의여러기능들을유용하게이용할수있다. 1.6. 지능형형태소분석기학습자말뭉치는원시말뭉치와형태분석말뭉치가함께결과물로서제공되기때문에, 형태소분석기를이용할필요는그리많지않다. 그러나어떤이유에서든학습자원시말뭉치에자동형태소분석기를적용하여볼일이있을수있다. 이때세종계획에서개발한 지능형형태소분석기 가유용하다. < 그림 46> 에서보듯이 언어정보나눔터 홈페이지에서회원가입후내려받을수있다. 지능형형태소분석기는 input 파일이 CP949일것을전제로한다. 따라서 UTF-8로되어있는학습자원시말뭉치는 CP949로인코딩을변환해야한다. 한마루의 변환 메뉴는 output이 UTF-16LE인경우만을위한것이므로여기에는쓸수없다. 1.5.1. 에서말한 EncodeAnt은 output이 UTF-8인경우만을위한것이므로역시여기에는쓸수없다. 1.4.1. 에서말한 UniConv와배치파일을이용해야한다. 그림 76 : ls 와 gawk 를이용한코드변환 : UTF-16LE CP949

< 그림 76> 과같이하여배치파일을만든뒤, 첫째행을삭제하고, 슬래시를역슬래시로바꾸고 CP949로저장하면서줄바꿈문자도 CR-LF로지정한다. 그다음에 convert라고타이핑하고엔터를쳐서배치파일을실행하면, raw_cp949 디렉토리에 CP949로변환된파일들이저장된다. 이파일들을지능형형태소분석기의 input으로삼으면된다. 지능형형태소분석기는한번에하나의파일만처리할수있다. 그림 77 : 지능형형태소분석기에서 input 파일열기 input 파일을열면좌측창에파일이열려서보이고, 툴바의 T 아이콘을클릭하면태깅이이루어져우측창에제시된다. 지능형형태소분석기에서사용하는태그셋은기본적으로세종형태분석말뭉치의태그셋과대동소이하다. 태깅된결과는툴바의저장아이콘또는메뉴바의 파일 - 작업저장 메뉴를통해파일로저장할수있다.

그림 78 : 지능형형태소분석기로학습자원시말뭉치의한파일을태깅한결과