년한국어학습자말뭉치 연구및구축사업
- i -
- ii -
- iii -
- iv -
- v -
- vi -
- vii -
- viii -
- 1 -
- 2 -
- 3 -
- 4 -
- 6 -
- 7 -
- 8 -
- 9 -
- 10 -
- 11 -
- 12 -
- 13 -
- 14 -
- 15 -
1) 오류의양상은이론적으로는누락, 첨가, 대치중하나이나, 단순철자오류나활용오류같은것들은이기준으로분류하는것이무의미하므로, 오형태로별도처리하였다. - 16 -
- 17 -
- 18 -
- 19 -
- 20 -
- 21 -
- 22 -
- 23 -
- 24 -
- 25 -
- 26 -
- 27 -
- 28 -
- 29 -
표본번호 교정형태 앞문맥중심어뒷문맥 오류위치 오류양상 오류층위 국적 모국어 급수학습기 관 학습환경 자료유형 1011 이 " 슈포맨이들어왔다 " 에남자연에인 48서간아내없이혼자서아기들하고함께노는것은프로그램이다. FNP OM 카자흐스탄 카자흐어 3 급문어 2779 가이번에는삼성전자 1979 이 { 좌문맥없음 } 여행 7 년후에또다른로봇이을만들었어다. 가고싶으면아무데나갈수있으며직장에서나보다더높은지위의사람도없고부담을갖지않다. FNP OM 미국영어 6 급문어 FNP OM 마카오중국어광둥어 4급문어 2013 이 이제어린인지어른인지상관없이인터넷을 사용가능해서현재문제들생겼다. FNP OM 러시아러시아어 5 급문어 7779 이 그래서경제적인여유가생기고월급인상요인이있을때도아무문제없이 인상가능했다고한다. FNP OM 미얀마버마어 6 급연세대국내문어 - 30 -
245 이우리반선생님가르쳐한국어좋아요. FNP OM 중국 5799 가 4328 가 동네에미국사람, 중국사람, 이테리안사람도있지만재미 엑소는유명한남성 12 명있는아이돌그룹인데 5802 이어머니가어떤장면 6499 가 7890 가 2799 이 2899 이 3624 이 그런데나는일을할수록그런조건보다앞으로발전가능성과창조적으로일할수있는 직장을선택할때복지가어떻게 그래서나는 26 년동안살아온이인생에서 XX 유학은회사에자유로운분위기와 XX 최근사회에서남자전업주부을받을수없는것이대부분 중국어만다린어 ) 교포가장살고있다. FNP OM 미국영어 2 급이화여대 제 가장좋아하는멤버는찬열이라고한다. 가장좋아하는장면이냐고하셨을때잘대답할수없었다. FNP OM 타이타이어 2 급한국외대 러시아 FNP OM 미국 어 것인지가장중요하다고생각한다. FNP OM 베트남베트남어 중국어 되는지 가장중요하다고생각한다. FNP OM 중국 만다린 어 ) 지금 유학만 가장행복하고, 살고있는것을실감하고있다. 가지고있는독특한색깔이있다고생각하고매력적이였습니다. 사람들가지고있는생각이다. FNP OM 중국 1 급문어 3 급이화여대 국내 국내 국내 문어 문어 문어 3 급고려대국내문어 3 급고려대국내문어 FNP OM 일본일본어 6 급문어 FNP OM 일본일본어 4 급서강대국내문어 중국어만다린어 ) 5 급서울대국내문어 7908 가그리고저출산으로인해생산인구 감소하고 2060년에생산인구가현제에비해 52% 수준으로감소할전망이다. FNP OM 중국 중국어만다린어 ) 6 급고려대국내문어 - 31 -
표본번호 원형태 교정형태 8276 개개월제아지난일개일 앞문맥중심어뒷문맥 2579 겨올겨울 { 좌문맥없음 } 겨올은 2593 겨을겨울올해겨을에 개 동안어공후를하하였습니다. 날씨가아주춥지만눈이안옵니다. 한국에있겠습니다. 오류위치 오류양상 CNN B REP 중국 CNN G MIF 국적모국어급수 중국 CNN G MIF 중국 8304 교시교실 { 좌문맥없음 } 교시에가요. 중국 329 내엘내일 { 좌문맥없음 } 내엘에 2302 늘놀 집에서노래하고 2271 드들기숙사의친구드을 8302 친구를들 { 좌문맥없음 } 1593 ㄹ 8304 네년에저는한국어를잘 한국어수업이준비합니다. CNN G MIF 중국 늘어도됩니다. CVV MIF 중국 친구를하고 같이명동에갔어요. CXS N MIF 중국 같이공원에중국 겁니다. 중국 바다으를 { 좌문맥없음 } 바다으중국 8304 신바신발우싼하고신바중국 8275 에버에벌에에버에벌랜드아두중국 8302 우요일월요일매주 8302 줌마정말 320 체일제일 글래서붐을줌어저는이제고향친구들이 우요일부터 토요일까지중국 줌마좋아해요. 중국 체일만나고싶습니다. 1648 주믈주말저는한국에서주믈을집에있습니다. 242 주알주말 { 좌문맥없음 } 주알에 2598 329 치하절지하철밥을먹을후에 참이술 참이슬 { 좌문맥없음 } 치하절으로참이술보다 친구집만납니다. 갔습니다. 맥주더맛있습니다. CMA G MIF 대만 CNN G MIF 중국 CNN G MIF 중국 CNN G MIF 중국 CNN P MIF 중국 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 중국어 ( 만다린어 ) 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 1 급 - 32 -
- 33 -
- 34 -
- 35 -
- 36 -
- 37 -
- 38 -
- 39 -
- 40 -
- 41 -
- 42 -
- 43 -
- 44 -
- 45 -
- 46 -
- 47 -
- 48 -
- 49 -
- 50 -
- 51 -
- 52 -
2) 2015 년기구축학습자말뭉치는 <2015 년한국어학습자말뭉치기초연구및구축 > 최종보고서에제시된규모와약간의오차가있다. 이는 2015 년구축한자료를한국어학습자말뭉치구축도구에업로드하고질적보완을위한검수과정에서발생한것으로목표규모를상회함에는변함이없다. - 53 -
- 54 -
- 55 -
3) 자료분류과정에서수집대상에서제외되는자료가있을수있으므로실제구축규모는달라질수있음 - 56 -
- 57 -
- 58 -
- 59 -
- 60 -
- 61 -
- 62 -
4) MLAT 는 Modern Language Aptitude Test 의약자로 Caroll & Sapon(1959) 에의해개발된언어적성평가지로학습자들의외국어학습을얼마나성공적이고쉽게할수있는지그가능성을평가하기위해개발된것으로적성평가문항에서의구인은다음과같다. 1 음성적부호화 (phonetic coding): 청각적부문으로소리를분절하고구분하는능력 =(LLAMA 의음성분석능력과유사 ) 2 문법적민감성 (grammatical sensitivity): 문장에서어휘나언어구조의문법적기능을인식하는능력 =(LLAMA 의문법적민감도와유사 ) 3 암기식학습능력 (rote learning ability): 일반적기억의일종이나외국어학습상황에서는개인편차를보인다 (Carroll, 1990). =(LLAMA 의단순반복학습과유사 ) 4 연역적언어학습능력 (inductive language learning ability): 언어사용을주관하는규칙의적용능력으로역시일반적상황과외국어학습상황은사뭇다르다. - 63 -
- 64 -
5) 이주민자료의경우발화길이가일반학습자자료에비해매우긴편임. 이에따라파일 1 개의평균어절을 500 어절로추산했을때현재수집한자료는 10 만어절을상회함 - 65 -
- 66 -
- 67 -
- 68 -
- 69 -
- 70 -
- 71 -
- 72 -
- 73 -
- 74 -
- 75 -
6) 기타에는튀니지, 콜롬비아, 스위스, 멕시코, 캄보디아, 브라질, 인도, 벨기에, 노르웨이, 헝가리, 에콰도르, 이집트, 폴란드, 벨라루스, 이란, 세르비아, 마카오, 파키스탄, 우크라이나, 엘살바도르, 불가리아, 아제르바이잔, 코스타리카, 뉴질랜드, 모로코, 아르헨티나, 칠레, 핀란드, 알제리, 파라과이, 르완다, 방글라데시, 네팔, 나이지리아, 루마니아, 볼리비아, 페루, 룩셈부르크, 브루나이, 베네수엘라, 도미니카공화국, 가나, 라오스, 에티오피아, 가봉, 아프가니스탄, 남수단, 포르투갈, 오스트리아, 트리니다드토바고, 잠비아, 체코, 니카라과, 탄자니아, 모잠비크, 우루과이, 슬로바키아, 이라크, 아르메니아, 티모르, 케냐, 마다가스카르, 세네갈, 동티모르, 예멘, 우간다, 파나마, 쿠웨이트, 이스라엘, 온두라스, 과테말라, 타지키스탄, 쿠바, 시리아, 자메이카, 콩고, 아일랜드, 리비아, 콩고민주공화국, 리투아니아, 슬로베니아, 카메룬, 그루지아, 투르크메니스탄이포함된다. - 76 -
- 77 -
- 78 -
- 79 -
- 80 -
- 81 -
- 82 -
- 83 -
7) 기타에는콜롬비아, 스위스, 멕시코, 캄보디아, 벨기에, 헝가리, 이집트, 벨라루스, 세르비아, 불가리아, 아제르바이잔, 코스타리카, 아르헨티나, 알제리, 파라과이, 네팔이포함된다. - 84 -
- 85 -
- 86 -
- 87 -
- 88 -
8) 기타에는벨기에, 멕시코, 폴란드, 세르비아, 이집트, 벨라루스, 우크라이나, 캄보디아, 파키스탄, 인도, 아르헨티나, 마카오, 헝가리, 알제리, 핀란드, 아제르바이잔, 뉴질랜드, 칠레, 네팔, 모로코, 이란, 노르웨이, 브라질, 가봉, 볼리비아, 에티오피아, 루마니아, 포르투갈, 르완다, 오스트리아, 엘살바도르, 나이지리아, 방글라데시, 도미니카공화국, 가나, 잠비아, 콜롬비아, 아프가니스탄, 니카라과, 룩셈부르크, 에콰도르, 라오스, 브루나이, 페루, 슬로바키아, 아르메니아, 체코, 코스타리카, 케냐, 마다가스카르, 베네수엘라, 트리니다드토바고, 튀니지아, 쿠웨이트, 이스라엘, 이라크, 과테말라, 타지키스탄, 불가리아, 세네갈, 콩고, 탄자니아, 스위스, 콩고민주공화국, 남수단, 리투아니아, 슬로베니아, 카메룬, 그루지아, 트르크메니스탄이포함된다. - 89 -
- 90 -
9) 기타에는벨기에, 멕시코, 세르비아, 이집트, 벨라루스, 캄보디아, 아르헨티나, 헝가리, 알제리, 아제르바이잔, 네팔, 파라과이가포함된다. - 91 -
- 92 -
- 93 -
- 94 -
- 95 -
- 96 -
- 97 -
- 98 -
- 99 -
- 100 -
- 101 -
- 102 -
10) 기타에는한국, 헝가리, 필리핀, 네덜란드, 아제르바이잔, 네팔, 캄보디아, 모로코, 키르기스스탄, 우크라이나, 터키, 인도, 마카오, 니카라과, 포르투갈, 폴란드, 이란, 슬로바키아, 가나, 마다가스카르, 볼리비아, 루마니아, 도미니카공화국, 가봉, 콜롬비아, 오스트리아, 과테말라, 노르웨이, 핀란드, 스위스, 불가리아, 나이지리아, 파키스탄, 르완다, 페루, 라오스, 세네갈, 에티오피아가포함된다. 11) 기타에는한국, 알제리, 벨라루스, 헝가리, 필리핀, 파라과이, 아제르바이잔, 네팔, 캄보 - 103 -
디아가포함된다. 12) 오류주석결과분석자료는 2016 년 12 월 16 일시스템통계를기준으로한것으로향후이루어질검수과정에서변경될수있음 - 104 -
- 105 -
- 106 -
- 107 -
- 108 -
- 109 -
- 110 -
- 111 -
- 112 -
- 113 -
- 114 -
- 115 -
- 116 -
- 117 -
- 118 -
- 119 -
- 120 -
- 121 -
- 122 -
- 123 -
- 124 -
- 125 -
- 126 -
- 127 -
- 128 -
- 129 -
- 130 -
적성평가문항에서의유형 1. Part I, Number Learning: 수의조합에대한청각테스트 (3 분 ) 1 유형이제부터여러분은숫자조합에대한문제를풀것입니다. 모두 10 문항입니다. 들은숫자를쓰세요. 단, 들은후 10초안에쓰셔야합니다. 1 문항 보기 * 2 이 * 50 오십 1 10 (script) 십 2 24 (script) 이십사 3 62 (script) 육십이 4 93 (script) 구십삼 5 101 (script) 백일 6 212 (script) 이백십이 7 432 (script) 사백삼백이 8 691 (script) 육백구십일 9 1030 천삼십 10 12140 만이천백사십 2. Part II, Phonetic Script 13) ( 소리나음성기호의대응 ) 2-1 유형 (4 분 ) 먼저 16 개의단어를들으세요. 다음에하나씩불러주는단어를듣고앞에서들은단어면 O 아니면 X 표하세요. 초급단어 (8 개 ): 학교, 나라, 노래, 가족, 취미, 바다, 날씨, 약속, - 131 -
중급단어 (8 개 ): 외모, 후회, 능력, 발전, 여유, 취소, 수술, 절약 2-1 문항 1 바다 ( O X ) 2 노력 ( O X ) 3 날씨 ( O X ) 4 사진 ( O X ) 5 책임 ( O X ) 6 수술 ( O X ) 7 약속 ) ( O X ) 8 얼굴 ( O X ) 2-2 유형 (2 분 ) 다음을듣고맞는단어를고르세요. < 5. 모음변별 6. 받침변별 7. 경, 평, 격음변별 8. 자음변별 > 2-2 문항 5 거수 1 가수 2 고수 3 거수 6 밤 1 밤 2 방 3 밥 7 탁 1 탁 2 닥 3 딱 8 자주 1 사수 2 자주 3 차조 3. Part III, Spelling Clues(3 분 ) : 표준표기규약이아닌발음위주의표기읽고, 의미가가장가까운숨겨진단어찾기 3-1 유형 ( 주제 : 집안일 ) 지금우리는집안일과관련된단어에대해말할것입니다. 이단어들은무작위로섞여있는철자들로되어있습니다. 그단어가어떤것인지를알려주기위해단서가제공됩니다. 제공되는단서를보고철자를바르게재배열하여단어를완성해서쓰세요. - 132 -
3-1 문항 Spelling Clues Answer 1 ㅃㄹ / ㅏㅐ / ㄹ 2 ㅅㅊ / ㅓㅗ / ㅇ 3 ㄱㅅㅈ / ㅓㅓㅣ / ㄹ 4 ㄱㄴㅈ / ㅏㅐㅗ / ㅇ (script) 옷이더러워졌을때이것을합니다. (script) 손님이오기전에집을깨끗하게하는 것을말합니다. (script) 음식을먹고나서그릇이나접시를씻 는것입니다. (script) 음식이상하지않도록차갑게보관하기 위해서여기에넣어둡니다. 빨래청소설겆이냉장고 4. Part IV, Words in Sentences 14) : 문법구조에대한지식 (8 분 ) 4-1 유형 다음문장을읽고알맞은단어와문법을이용해서문장을완성하세요. 4-1 문항 문항평가요소급 저는남자가아닙니다. 여자입니다. 어휘의 1 저는한국사람이아닙니다. 성격, 품사 1 급 입니다. 파악하기 저는한국노래를잘몰라요. ( 모르다 ) 2 저는시간이있을때마다고향노래를. ( 부르다 ) 불규칙 1 급 할머니께서신문을읽으세요. 3 높임표현 1 급 할아버지 ( 산책하다 ) - 133 -
작년에은행에서돈을빌려서차를샀어요. 4 내년에는돈을열심히모아서집을 시제 1 급 < 으 / ㄹ거예요 > 5 어제는날씨가 < 은 / ㄴ / 는 > 데다가눈도많이왔어요. ( 춥다 ) 시제 / 형태교체 2 급 가 : 주말에함께등산할까요? 나 : 아니요. 좀피곤해서등산안하려고요. 6 가 : 다음달에같이김장할래요? 부정 3 급 나 : 아니요. 김치가아직많이남아서. 7 가 : 지금뭐하세요? 나 : ( 읽히고 / 책을 / 저는 / 있어요 / 아이에게 ) 어순 4 급 8 휴대전화가고장나서전화가잘안걸려요. 창문이고장나서잘안. ( 열다 ) 피동 4 급 5. Part V, Paired Associates 15) : 주어진언어의어휘목록을익혀의미 암기 (5 분 ) 5-1 유형 이제부터한국어단어 12 개가제시될것입니다. 이단어들은모국어의미도함께 연결되어제시됩니다. 여러분은 2 분동안다음의단어들을외울수있습니다. 다 음에 2 분동안단어의미를모국어로쓰세요. 합격치료신문명절 행복하다실망스럽다실용적이다긍정적이다 허락하다구경하다처리하다회복하다 - 134 -
5-1 문항 1 합격 2 명절 3 치료 4 신문 5 행복하다 6 긍정적이다 7 실용적이다 8 실망스럽다 9 회복하다 10 허락하다 11 처리하다 12 구경하다 13) LLAMA 의음성분석능력에서는 20 개의구어단어를들은후다시한개씩들고들은단어인지를구별하는문항으로되어있음. 이에들은단어변별하는문항과한국어의자음과모음의음운을변별하는문항으로구성하였음. 14) 한국어문장에서어휘나언어구조의문법적기능을인식하는능력. 어휘 ( 품사혹은어휘의미 ), 문장구조, 조사, 시제, 부정, 높임, 형태교체등각문항별로학습할내용을선정, 규칙을설명하고유사한문제로측정함. 15) 기존의문항들은인공언어를만들어서대상과연결시켜학습시킨후대상과인공언어를연결하는문항으로구성되어있음. (2 분동안, 20 개 ) 초, 중급학습자를대상으로하는문제이니고급의단어를주는것이암기능력을평가하는데유용할것같아서고급단어를제시함. 제시단어와모국어를연결시켜 2 분동안학습시키고해당어휘에모국어의미를쓰도록하는문항. - 135 -