Microsoft Word - 3.Final Report_Research_AKS-2008-R15

Similar documents

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

<B9ABC1A62D31>

Microsoft Word - src.docx

<B3EDB9AEC0DBBCBAB9FD2E687770>

유의사항 Information marking example 1 3 4

수식모드수식의표현법 수학식표현 조남운 조남운 수학식표현

08학술프로그램

CR hwp

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

과제번호 RR [ 연구결과보고서 ] 대학교양기초교육에대한 종합적분석연구 연구책임자 : 손동현 ( 한국교양기초교육원 )

세미나자료 전국초 중 고성교육담당교사워크숍 일시 ( 목 ) 10:00~17:00 장소 : 한국교원대학교교원문화관


< C0DAC0B2C5BDB1B820BFEEBFB520B8DEB4BABEF32D33C2F720C6EDC1FD2E687770>

국어 순화의 역사와 전망

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

3. 네이버검색 제 3장에서는네이버검색서비스에대한내용을살펴본다. 네이버검색은네이버에서가장대표적인서비스이다. 네이버검색서비스는계속진화하여다양하고정교한검색방법을제공하고, 다양한영역에서추출된검색결과를제공하고있다. 특히다양한영역의검색결과를한꺼번에보여주는 통합검색 방식은네이버검

- i -

View Licenses and Services (customer)

<5B DB1B3C0B0C0DAB8A65FC0A7C7D15FB5F0C0DAC0CEBBE7B0ED5FC5F8C5B62E706466>

농림축산식품부장관귀하 본보고서를 미생물을활용한친환경작물보호제및비료의제형화와현장적용매뉴 얼개발 ( 개발기간 : ~ ) 과제의최종보고서로제출합니다 주관연구기관명 : 고려바이오주식회사 ( 대표자 ) 김영권 (

Big Data Analysis Using RHINO

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM


제5장 형태소분석

<B3EDB4DC28B1E8BCAEC7F6292E687770>

viii 본 연구는 이러한 사회변동에 따른 고등직업교육기관으로서 전문대 학의 역할 변화와 지원 정책 및 기능 변화를 살펴보고, 새로운 수요와 요구에 대응하기 위한 전략으로 전문대학의 기능 확충 방안을 모색하 였다. 연구의 주요 방법과 절차 첫째, 기존 선행 연구 검토

학점배분구조표(표 1-20)

웹 기반 네트워크 모니터링 및 분석 시스템의 설계와 구현

목차 윈도우드라이버 1. 매뉴얼안내 운영체제 (OS) 환경 윈도우드라이버준비 윈도우드라이버설치 Windows XP/Server 2003 에서설치 Serial 또는 Parallel 포트의경우.

Windows 8에서 BioStar 1 설치하기

정보 사회와 컴퓨터

E (2005).hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PHP & ASP

A hwp

Compass Online School Pack 1

<4D F736F F D20C0CCBEBEC1A6BEEE5FC3A5BCD2B0B35F >

소성해석


2018 년 SW 개발보안교육과정안내 행정안전부와한국인터넷진흥원은행정기관등의정보시스템담당공무원및 개발자를대상으로 SW 개발보안에대한이해증진및전문역량강화를위해아래와 같은교육을실시하오니, 관심있으신분들의많은참여부탁드립니다 년 SW 개발보안일반과정 교육대상 : 전

<3231C3A4C8F1C5C22E687770>


ë–¼ì‹€ìž’ë£„ì§‚ì‹Ÿì€Ł210x297(77p).pdf

1809_2018-BESPINGLOBAL_Design Guidelines_out


<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

슬라이드 1

ITFGc03ÖÁ¾š

강의 개요

발간등록번호

2002report hwp

요람 교육과정편람 사범대학.hwp

5장 SQL 언어 Part II

untitled

OCW_C언어 기초

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

Print

? !


Windows Server 2012

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

59

1

강의계획서 (Sylabus) 2013 학년도 2 학기 * 강의과목 교과목명 (CourseName) 한국문화를찾아서 INSEARCHOFKOREANCULTURE 언어 (Language) 영어 과목번호 - 분반 (CourseNo.-Class) 수강대상

윙윙_포트폴리오_3

USC HIPAA AUTHORIZATION FOR

**09콘텐츠산업백서_1 2



한국어능력시험개편체제 Q & A - 1 -

2018년 10월 12일식품의약품안전처장

Microsoft Word - MFCKCROFDJBM

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

Microsoft PowerPoint - 권장 사양

PowerPoint Template

<28C3D6C1BE29C7D1B1B9BEEEB9AEB9FDB7D028317E D E687770>

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion


6 강남구 청담지구 청담동 46, 삼성동 52 일대 46,592-46,592 7 강남구 대치지구 대치동 922번지 일대 58,440-58,440 8 강남구 개포지구 개포동 157일대 20,070-20,070 9 강남구 개포지구중심 포이동 238 일대 25,070-25,

27집최종10.22

황룡사 복원 기본계획 Ⅵ. 사역 및 주변 정비계획 가. 사역주변 정비구상 문화유적지구 조성 1. 정비방향의 설정 황룡사 복원과 함께 주변 임해전지(안압지) 海殿址(雁鴨池)와 분황사 등의 문화유적과 네트워크로 연계되는 종합적 정비계획안을 수립한다. 주차장과 광장 등 주변

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

2015 년 SW 개발보안교육과정안내

내재화평가 결과서

lkh


G hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2013여름시론(3-5)

LM 가이드

MVVM 패턴의 이해


PowerPoint 프레젠테이션

자연언어처리

1 학년 2 학년 3 학년 합계 문학과예술 핵 역사와철학 심교양 사회와이념 선택 교양학점계

Transcription:

KC Corpus KC Corpus KC Corpu s KC Corpus KC Corpus KC Cor pus KC Corpus KC Corpus KC C orpus KC Corpus KC Corpus KC Corpus KC Korean Corpus Studies Grant KC 2008 Corpus K C Corpus KC Corpus KC Corpus KC Corpus KC Corpus KC Corp us KC Corpus KC Corpus KC Co rpus KC Corpus KC Corpus KC Corpus KC Corpus KC Corpus K 과제번호 (Grant Number) AKS-2008-R15 C Corpus KC Corpus KC Corpus 연구과제명한국어교육자료공유지원화를위한말뭉치구축 : (Title of Project) 해외한국학지원사업 ( 학술연구 ) 최종보고서 일본어모어화자의작문데이터베이스화를중심으로 KC Corpus KC Corpus KC Corp 연구책임자 (Project Director s Name) 임현정 (LIM Hyunjung) us KC 소속 (Affiliation) Corpus 야마구치현립대학 KC Corpus KC Co 지원기간 (Grant Period) 2008 년 6 월 2009 년 5 월 rpus KC Corpus KC Corpus KC 지원금 (Amount of Grant) US$ 8000 ( 853,500) 2008 년 6 월 24 일환율 Corpus KC Corpus KC Corpus K 지출액 (Expenses) US$ 8000 ( 853,500) 잔액 (Balance) US$ 0 - Final Report - C Corpus KC Corpus KC Corpus KC Corpus KC Corpus KC Corp us KC Corpus KC Corpus KC Co rpus KC Corpus KC Corpus KC Corpus KC Corpus KC Corpus

1. 연구과제평가 (Appraisal) : 계획대비결과비교, 연구결과, 향후계획등 (Outline of Activities, Activities completed, Comparison between Plan and Outcome, Results of Project, Future Plans, etc.) 본연구는해외, 특히일본에서한국어를학습하는일본어모어화자의 작문에보여지는오용데이터를토대로한말뭉치를구축하는것에그 목적이있다. 최근, 한류 한국붐 이라는사회현상과함께, 세계적으로한국어 학습자수가급증함에따라, 한국어교육에대한국내외의관심이높아지고 교육수준의질적인향상을위한노력이한층다양화되고있다. 그러나, 이 러한한류붐을탄한국어학습열은이미식어가는추세에있는것도사실이 다. 예를들어, 일본의 4 년제대학에있어서의한국어교육의실시교의비 율을보면, 한국어학습자수는 1995 년도부터 2002-03 년도까지의기간에전 체적으로 25.3% 에서 47.7% 로 22.4 포인트나증가했었다 (2003 년도, 재단법 인국제포럼조사 ). 그러나, 2005 년도이후일본전국의대학에서의한국어 학습자의증가는정체상화에있다. 반면, 학습자의요구는확실히높아져 가고있어, 한국어교원에대해서는보다질높은교육, 학습자의필요와 학습익숙도에맞춘교육컨텐츠의개발, 효과적인교수법의지원등이요구 되고있다. 한국어학습자의수업개선에, 학습자코파스를활용한다, 즉학 습자가낳은대량의데이터를객관적, 동시에수량적으로분석하는것은, 학 습자의입장으로부터틀리기쉬운한국어의특성을파악해, 학습자에게한국 어를보다올바르게이해시켜, 가능한한오용을줄이기위한유효한교수 방법이나교재개발에연결될것이다. 제 2 언어교육, 특히영어교육의세계에서는, 1990 년대이후, 학습자에대 한교육개선의고찰자료로서학습자가산출한데이터그자체를대량으로 모아놓은학습자말뭉치가주목을받아왔다. 학습자말뭉치란, 제 2 언어학 습이산출한문장 발화데이터를대량으로수집해필요한정보를부가함으로 서다양한검색이가능한형태로전자화한 것을말한다. 학습자말뭉치는 학습자가산출한대량의생데이터에대해객관적 수량적인분석을통해 보다신뢰성높은분석을가능하게함과동시에, 주관적경험으로부터얻을 수있는지견과는또다른지견을제공해준다고할수있다. 이러한학습자 2

말뭉치의구축은그활용성이다방면에서기대되고있다. 특히, 학습자말뭉치는발달단계에있는학습자의중간언어를반영하고있어, 학습자의오용분석을통해제 2 언어교육의효과적인교수방안개발등에도이용할수있다는점에서상당한가치를지니고있다. 한편, 한국어에있어서의학습자말뭉치는, 연세대학교어학당의학습자를대상으로데이터를수집한연세한국어학습자말뭉치 (26만어절, 2002년 ) 외, 몇개의학습자말뭉치가존재하고있지만, 일반공개되고있는것은지극히적고, 검색시스템에대해도그사용방법이용이하지않기때문에, 학습자말뭉치를활용한연구는아직불충분하다 ( 서상규외, 2002). 또, 학습자의오용분석에있어서는, 학습자가교실이외의장면에서한국어를접할기회가어느정도있는가등의학습자의학습환경은매우중요한변수요인이될수있다. 그렇지만, 기존의한국어학습자코파스는한국국내에서한국어를학습하는학습자의데이터를수집한것이대부분이기때문에, 해외에서, 특히일본에서한국어를학습하는학습자의특성을반영하고있지않는것은것이많아, 일본에서한국어를학습하는학습자의오용요인을파악하는데한계가있다. 이러한문제점을고려하여, 연구대표자인본인은공동연구자인이재호박사 ( 현재국제교류기금 ) 와조미경교수 ( 규슈대학 ), 연계연구자인아사오요시히코씨 ( 교토대학 ) 와함께 KC(Korean L2 Learners written Composition) Corpus( 이하, KC Corpus) 를구축하였다. 본연구에서는특히 1일본의대학에서의교실학습을주로하는학습자의작문데이터의전산화, 2언어정보 ( 형태소해석정보 오용태그 첨삭정보 ) 를부여한말뭉치의제공, 3언어정보를용이하게검색해, 가공 분석할수있는검색시스템개발을목표로하였다. 연구조직의구성과담당내용은각각다음과같다. 3

이하에서는 KC Corpus 의구체적인구축현황과성과를보이겠다. KC Corpus 의구축현황 1. KC Corpus 규모현재까지, 야마구치현립대학과구슈대학의한국어학습자 152명분의데이터가수록되어있다. 학습자가생산한표본의어절은총 20905이며, 평균어절은 137.532894737이다 ( 자료1 참조 ). 외국인학습자가생산한표본의평균어절이초급인경우 60-70어절을넘기어렵고, 중 / 고급수준의학생의경우도 100-120어절내외의작문을하고있는실정 ( 고석주외, 2004) 을고려하면, 구축초년도의자표수집양으로서는어느정도성과를거두었다고할수있을것이다. 앞으로타기관에협력을요청해, 규모를점차적으로확대시켜갈예정이다. 4

2. KC Corpus 전체상 본말뭉치는세개의데이터베이스, 1 학습자의한국어작문, 2 학습자 자신에의한모어번역 ( 일본어대역 ), 3 학습자개인정보로구성되어있다. 1 한국어작문은본말뭉치의코어데이터로한국어학습자가산출하는한국어작문을말하며, 각각첨삭형태의오류주석의과정을걸친데이터이다. 2 작문자자신에의한모어번역은, 교사가학습자의작문을첨삭할때, 학습자데이터와의비교, 즉학습자의작문의도를추정하기위해서학습자자신이한국어작문을자신의모어인일본어로대역을쓰게한것이다. 사도시마 (2001) 은대역첨삭에미치는영향에대해서, 첨삭자는대역을참조함으로해서집필자가말하고싶었던것에보다가까운표현을선택해, 제시할수있다고하고있다. 3학습자개인정보는, 교사의교육연구이용을목적으로작성한것으로, 이하의항목을설정하였다. 생년월일, 성별, 한국어학습력, 주된학습장소, 한국어검정시험자격의유무, 한국에서 1개월이상생활한경험의유무, 집에서한국어를하는사람의유무, 사전사용의유무, 학습수준, 작성날짜, 작문내용, 제목으로총 12 개이다 ( 자료2 참조 ). 5

3. KC Corpus 구축순서 구축순서는, 아래와같은 6 단계작업을걸쳤다. 3-1. 자료수집 자료수집은 2008 년 7 월 -9 월, 2009 년 2 월 -5 월의한국어수업 (90 분 ) 중에 실시하였다. 자료수집방법과테마를구체적으로보면다음과같다. 3-1-1. 자료수집방법 (1) 설명작문과제의배포 (5분) 1조사취지에관한설명 : 수집한데이터는한국어교육개선을위해서만사용되며그외의목적으로사용되는경우는없음을설명한다. 2 승낙서 : 조사에대해충분한설명을받았으며, 자신이쓰는한국어작문과그모어역를연구 교육목적을위해서공개하는것을승낙한다는취지의 승낙서 ( 자료 3 참조 ) 에서명을받는다. 3작문과제 : 작문과제를배포. 과제는몇종류를준비해, 어느쪽의과제에대해서쓸까는학생자신으로선택하게하지만, 수업운영의형편상, 클래스전원에게같은과제로쓰게하는것이좋으면담당교원이판단했을경우는, 6

교원이과제를선정해도좋다. 용지는, 400자원고용지 (A4, 가로쓰기 ) 를사용. (2) 작문작성 (60 분 ) 1작문작성 : 수업시간내에한국어로작문을작성한다집필. 시간은 60 분. 문자수는 800 자정도를목표로한다. 단, 학생의한국어레벨이나수업시간의길이에의해서, 수업시간내에 800 글자를쓰는것이곤란하다고생각되는경우는이것을밑도는분량이여도가능하다. 2사전사용에대해 : 작문을할때는사전을참조해도지장없지만, 반드시학습자한명의힘으로쓰도록지시한다. 또, 가능한한숙제로는하지않게한다. 3학습자개인정보 : 학습자에게개인정보에대한조사표를기입하게한다 ( 자료4 참조 ). (3) 모어대역 (25 분 ) 1한국어작문을보면서일본어역을작성하도록지시한다. (4) 회수 1자료의번호화 : 수집후, 각각의한국어작문, 모어번역, 학습자정보조사표에 ID번호를단다. 3-1-2. 주제별분류 학습자작문을주제별로분류를하면다음과같다. 7

3-1-3. 학습자수준학습자수준의레벨판정은, 학습자의한국어관련의검정시험자격, 작문작성시의학습레벨과학습력 유학의유무와기간등을종합해 6 단계로정했다. 야마구치대학에서수집한자료는본연구대표자가, 구슈대학에서수집한자료는구슈대학의조미경교수가최종적으로판정을하였다. 학습자수준의기준은다음과같다. 학습자수준레벨 1 레벨 2 레벨 3 레벨 4 레벨 5 기준 90분수업을 28-30시간수강하는가운데, 약 450어의기초적인어휘나기본문법에대해학습경험을가진다. 사전을찾으면서간단한문장을만들수있다. 한글능력검정시험 5급이하. 90분수업을 28-30시간수강한정도. 450어정도의기초적인어휘와기본문법에대한이해가정착되어있어, 상투어로서의인사나간단한질의응답을할수있다. 한글능력검정시험 5급정도. 90분수업을 56-60시간수강한정도. 자기소개 쇼핑, 음식점에서의주문등생활에필요한기초적인언어를구사할수있어친밀한화제의내용을이해, 표현할수있다. 950어정도의기초적인어휘와기본문법을이해할수있으며간단한문장을만들수있다. 한글능력검정시험 4급 한국어능력시험초급 (1 2) 정도. 90분수업을 70-120시간수강한정도. 전화나부탁정도의일상생활에필요한언어나, 우체국, 은행등의공공기관으로의회화를할수있다. 1500-2000어정도의어휘를이용한문장을이해하고사용할수있다. 한글검정 3급 한국어능력시험중급 (3급) 정도. 90분수업을 160-200시간수강한정도. 일상생활에지장이없고, 여러가지공공시설의이용이나사회적관계를유지하기위한언어사용이가능. 문장어와구어의기본적인특성을 8

레벨 6 이해할수있어사용이가능하다. 한글능력검정시험준 2급 한국어능력시험중급 (4급) 정도. 사회적상식의범위내에있는화제를대부분이해할수있다. 또, 신문의사설등을읽어이해할수있다. 한국어로논리적인문장이책, 이야기를할수있다. 한글검정 2급 한국어능력시험상급 (5급 6급) 이상. 3-2. 전산화자료수집단계를걸친자료들은각기관과생년월일, 성별, 한국어학습력, 주된학습장소, 한국어검정시험자격의유무, 한국에서 1개월이상생활한경험의유무, 집에서한국어를하는사람의유무, 사전사용의유무, 작문내용, 제목, 학습수준, 작성날짜별로라벨화해전산화하였다. 라벨화가끝난자료는한국어작문과일본어대역을각각마이크로 9

소프트워드에서입력을하였으며, 이때일정한양식을갖춘학습자정보를 표본에입력하였다. 입력시특히주의한점은다음과같다. 1학습자가생산한원문을그대로반영한다. 그러나, 일본인화자들의경우는모국어인일본어의특성상뛰어쓰기를무시하는경우가많은데, 이러한경우, 띄어쓰기오류에대해서는오류에포함시키지않고, 입력자가띄어쓰기원칙에맞게입력을하였다. 그이유는요류태그를어절단위로잘라서부착할필요가있기때문이며, 어절빈도를산출할때도띄어쓰기가기준이되기때문이다. 2한글을제외한그외의언어는원문그대로입력한다 3맞춤법의오류로인해글자가깨져서입력되는경우, 이를표시하기위해서다음과같은방법을취하였다. [ 예 : 아프ㅂ니다 ] 4 입력이완성된한글파일은동일한파일명으로텍스트파일로저장지킨다. 또한원문을스캔한 PDF파일도동일명으로저장을하였다. 3-3. 오류유형주석본연구는앞서언급한바와같이선행학습자말뭉치와의공유가능성을검토하는것을하나의연구목표로하고있다. 따라서본연구에서의오형유형은선행학습자말뭉치중에서도가장규모가큰연세말뭉치를참고로하였다. 그러나, 시간과예산의제약으로, 오류태그세트는구체적으로작성하되, 이번에는크게 3종류의오용타입만을설정하여태그를부착하기로하였다. 아래는연세대학교언어연구교육원의오류태그세트를참고로하여본연구에서작성한오류태그세트 ( 자료 5 참조 ) 와 3종류의오류타입이다. 오용의종류는다음과같다. 10

문법오용 문체오용 표기오용 오용내용활용이나문법적측면의실수 ( 형태 활용, 문법요소의탈락등 ) 표현이나어용론적측면의실수 ( 어순 표현적오용등 ) 문자표기의실수 ( 한국어에는없는문자 어휘 표현등 ) 오용태그 G S C 오용주석의태그화에있어서는전자화한학습자의작문을엑셀화한후, 본연구대표자와구슈대학의조미경교수가첨삭정보를직접추가기입하였다. 상기의오용은각각태그화해, 후술하는검색시스템에서도검색할수있게되어있다. 또, 형태소정보가보관유지되고있어어느특정의품사에관한오용예등도수집할수있게되어있다. 예를들면, 격조사에관한전오용예를수집한다고하는태스크도가능하다. 현재, 오용의인정에관해서는연구대표자와조미경교수의교육자로서의직관에의지해가고있지만, 장래적으로는제삼자에의한판정의체크작업등도생각하고있다. 또, 향후선행학습자말뭉치와의데이터공유를목표로해, 첨삭정보에대해서는여러가지경우에대응할수있도록, 현재검토중의오용타입과같이, 설정가능한오용타입의키워드를수시추가해나갈예정이다. 3-4. 형태소분석과수정작업형태소분석은이재호박사가실시하였다. 형태소해석에대해서는, 세종계획 (http://www.sejong.or.kr) 이공개하고있는 지능형형태소분석기 (http://www.sejong.or.kr/dist_frame.php) 를사용했다. 11

세종계획 지능형형태소분석기 그결과, 다음의문제점이밝혀졌다. 1 형태소해석기그자체의기능이그만큼높지않다 2 학습자작문에는비규범적표현이많이혼재하고있다 현재일본에서넓게이용되고있는 Chasen(http://chasen.naist.jp/hiki/ChaSen/) 이나 MeCab(http://mecab.sourceforge.net/) 라고하는형태소해석기가평균 95% 이상의해석정도를자랑하는데대해, 한국어의형태소해석기는신문데이터도 80% 전후의해석률정도인점을고려하면결코고정밀도라고는할수없다. 12

또한 2의문제로서학습자데이터에는많은오용예가포함되어있는등, 입력데이터로서대량의노이즈를포함하고있다. 그때문에, 해석에러가매우많다. 특히명사에관한오해석이많아, 경계인정에서는 70%, 품사인정에서는 60% 전후의해석률정도였다. 따라서본연구에서는형태소해석기로처리를실시한뒤, 데이터중에에러가있을경우에는다시한번사람손으로수정을하여, 보다신뢰성의높은데이터를작성하였다. 그리고, KC Corpus 검색시스템에데이터를투입해, 정상적으로검색할수있을지를확인했다. 본시스템의품사체계는전술한지능형형태소분석기의품사체계를이용하고있다. 구체적으로는아래와같다. 대분류 소분류 세분류 체언 명사 NN 일반명사 NNG 고유명사 NNP 의존명사 NNB 체언 대명사 NP 체언 수사 NR 용언 동사 VV 용언 형용사 VA 용언 보조용언 VX 용언 지정사 VC 긍정지정사 VCP 부정지정사 VCN 수식언 관형사 MM 수식언 부사 MA 일반부사 MAG 접속부사 MAJ 독립언 감탄사 IC 관계언 격조사 JK 주격조사 JKS 보격조사 JKC 관형격조사 JKG 목적격조사 JKO 부사격조사 JKB 호격조사 JKV 13

인용격조사 JKQ 관계언 보조사 JX 관계언 접속조사 JC 의존형태 어미 E 선어말어미 EP 종결어미 EF 연결어미 EC 명사형전성어미 ETN 관형형전성어미 ETM 의존형태 접두사 XP 체언접두사 XPN 의존형태 접미사 XS 명사파생접미사 XSA 동사파생접미사 XSV 형용사파생접미사 XSA ( 부사파생접미사 XSB) 의존형태 어기 XR 기호 마침표, 물음표, 느낌표 SF 기호 쉼표, 가운뎃점, 콜론, 빗금 SP 기호 따옴표, 괄호표, 줄표 SS 기호 줄임표 SE 기호 붙임표 ( 물결, 숨김, 빠짐 ) SO 기호 외국어 SL 기호 한자 SH 기호 기타기호 ( 논리수학기호, 화펴기호등 ) SW 기호 명사추정범주 NF 기호 용언추정범주 NV 기호 숫자 SN 기호 분석불능범주 NA 14

3-5. 검색시스템개발오류주석의효율적인이용과학습자오류연구를위해서는전용의검색시스템이반드시필요하다. 검색시스템개발에있어서는전문지식이없이도손쉽게사용할수있고자작데이터에도간단하게응용할수있는검색기개발을목표로했다. 검색시스템의제작은이재호박사와아사오요시히코씨가담당했다. 검색시스템환경으로서는 2종류를준비했다. VBA(Visual Basic for Applications) 를베이스로구축한엑셀환경에서의이용과웹베이스의이용환경이다. 엑셀의환경에서는, 일본어코파스의검색시스템인 E-KWIC 차마메용 ( 아사오 이 2008) 을이용하여, 엑셀의매크로를실행하는것만으로, KWIC (Keyword in Context) 검색을할수있는시스템을개발했다. 웹베이스의이용환경에서는, 베이직인증수속을실시하는것만으로, KWIC 검색과데이터의보존을할수있는시스템을구축했다. Microsoft Excel 를이용하는메리트로서인문계의연구자도일상적으로사용하고있는경우가많아, 사용에큰어려움이없다는것을들수있다. 또, 검색결과를그대로 Excel 의워크시트에보존할수있으므로, 검색결과를한층더가공 분석하는일도용이하다. 이검색시스템에서는지정된검색어에대해서, Keyword in Context (KWIC) 형식으로학습자의용례를표시할수있다. 본검색시스템은단순하게검색어를지정한검색외, 품사또는오용의종별에의한추출에대응하고있으며, 검색어를지정하지않고특정의품사의말을모두뽑아내는사용법도가능하다. 또, 학습자레벨에의한추출도가능하다. 오류검색방법은다음과같다. 15

(1) 검색시스템이들어있는서버에악세스 ( ID 와패스워드는사전인증이 필요 ) (2) 검색창학습자오용말뭉치의오류를검색하려고할때는, 검색하고자하는조건에대한체크박스를체크한후에검색버튼을눌러주면검색조건에맞는말뭉치와개수가출력된다, 이때찾아보려고하는오류의조건은사용자가임의로선택할수있다. 아래의그림은검색의조건입력부와그화면이다. 16

단순한문자열로검색한화면 17

[ 가 ] 를포함하는전부의문자열을 Kwic 형식으로검색한화면 ( 레벨 1-4: 총 403 건 ) 18

동사로서의 [ 가 ( 다 )] 를포함하는전부의문자열을 Kwic 형식으로검색한화 면 ( 레벨 1-4: 총 74 건 ) 19

[ 가 ( 다 )] 를포함하는문장중에서정문만을 Kwic 형식으로검색한화면 ( 레벨 1-4: 총 62 건 ) 20

[ 가 ( 다 )] 를포함하는문장중에서학습자오용만을 Kwic 형식으로검색한 화면 ( 레벨 1-4: 총 7 건 ) 21

아직부족한점도많지만오류주석시스템의개발로보다쉬운방법으로 오류에대한주석을할수있게되었으며, 학습자오용의패턴을레벨별로 살펴볼수있게되었다. 3-6. 배포본연구는한국학중앙연구원의연구조성에의해서기획 진행되었으며, 한국어학습자의데이터의공유자원화를목적으로하고있기때문에, 완전프리로공개할예정이다. 이것에대해서는, 데이터의제공자 ( 한국어학습자 ) 에게는데이터수집의단계에서부터, 본연구의취지를설명한후, 공개에관한동의를받고있다. 그때문에, 저작권에관한문제는완전하게클리어되어있다. 데이터의제공에있어서는, 기본데이터와웹상에서 KWIC 검색을할수있는시스템을매개해제공할예정이다. 이상, 한국어학습자말뭉치구축에관한최종보고로서본말뭉치전체설계및자료수집, 그리고검색시스템에대해소개했다. 말뭉치를이용한습득연구의유효성이나교육상의활용의중요성은많은선행연구에의해서지적되어왔다 ( 예를들면, 서 ( 외 ), 2002; 石川 2008 등 ). 그러나, 한국어관계의학습자말뭉치는그수가적고, 한층더이용에제한을마련하고있는것이대부분이다. 또, 일본에서한국어학습자가산출한데이터에형태소정보와같은언어정보가부여된말뭉치나그것을간단하게검색할수있는시스템을제공하고있는학습자말뭉치는전무라고해도과언이아니다. 앞으로, 학습자의오용데이터를이용한말뭉치규모를한층더확충해나가는것을통해서, 교사의수업개선이나교수법의지원은물론, 학습자사전의작성, 커리큘럼의개발, 한국어학습자를위한교과서의개발에이용할수있다. 또한, 학습자의언어능력테스트개발의기초데이터로서도활용할수있어한국어교육의활성화에기여할수있다고생각한다. 22

향후계획 향후, 다른연구자와의연계를보다깊게하면서한국어학습자말뭉치의점진적인확충과실용성을모색해가고자한다. 한국어학습자작문코퍼스 (corpus) 의규모의확충과 KC Corpus 의검색툴의개량과추가기능의검토안은다음과같다. 1학회발표등을통해타기관의한국어교육관계자들에대해 KC Corpus 에대한이해와협력을요청한다. 2기존의데이터의오용태그를더욱세분화하여세밀한검색이가능하도록한다. 3학습자의오용에관한추적분석을가능하게하여, 각레벨의학습자에게적합한학습계획을제시할수있도록한다. 4검색결과를보존할수있는옵션을첨가하여, 데이터의가공 분석을할수있도록한다. 5검색결과를일본어원문작문과대비해서볼수있는기능을검토하여, 대조언어학적인관점에서오용의원인을분석할수있도록한다. [ 참고문헌 ] [1] 고석주 김미옥 김재열 서상규 정희정 한송화 (2004), 한국어학습자말뭉치와오류분석, 한국문화사. [2] 서상규 유현경 남윤진 (2002), 한국어학습자말뭉치와한국어교육, 한국어교육 13-1, 국제한국어교육학회. 127-157. [3] 淺尾仁彦 李在鎬 (2008), 日本語学習者コーパス検索ツールの開発, 言語科学会第 10 回年次大会 ( 静岡県立大学 ) 大会論文集, p.182 [4] 石川慎一郎 (2008) 英語コーパスと言語教育 大修館書店 [5] 林炫情 李在鎬 曺美庚 浅尾仁彦 (2008), 韓国語学習者コーパス構築 : 韓国語学習者作文コーパスにおける検索ツールの開発, 信学技報 (2008-40), 電子情報通信学会, 21-26. [6] 李在鎬 淺尾仁彦 濱野寛子 佐野香織 井佐原均 (2008) タグ付き日本語学習者コーパスの開発, 2008 年度自然言語処理学会全国大会 ( 東京大学 ) 大会論文集, pp.658-661. 23

[7] 佐渡島沙織 (2001), 作文コーパス研究における対訳の有効性 : 対訳が添削に及ぼす影響, 日本語教育のためのアジア諸言語の対訳作文データの収集とコーパスの構築, 国立国語研究所. 4. 서명 (Signature) Project Director 24