<30362DBDC5C0DABFB52E687770>

Similar documents
자연언어처리

와 아울러 연구 대상을 제시한 후 연구의 필요성과 목적을 밝힌 다. 2장에서는 스페인어 수동문의 이론적 배경을 소개한다. 우선 전통 문법에서 소개하는 스페인어 수동문 및 중간태 구문에 대해 살펴본 후, 생성문법 이론을 이용하여 수동문의 원리 및 생성 과 정에 대해 알아

슬라이드 1

<BBE7C8B8C0FBC0C7BBE7BCD2C5EBBFACB1B820C3D6C1BEBAB8B0EDBCAD2E687770>

1) ( )** I..,.. * 2002 ( BS2562). ** Hye-Sun Ko de Carranza(Dankook University, Corea en los libros de la historia de

강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

08학술프로그램

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

1

<5BC1A634C8B820B1B3C8AFC7D0BBFD20C3BCC7E820BCF6B1E220B0F8B8F0C0FC2DC0B1C5C2C7F65D2E687770>


핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

<B3EDB4DC28B1E8BCAEC7F6292E687770>

PHP & ASP

지역개황-내지-i-4


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1


EndNote X2 초급 분당차병원도서실사서최근영 ( )

G67124 M.D 번역을위한한국어어휘구조연구 Studies on Korean Lexical Structure for Translation G63129 M.D 한국어번역학연구 Studies on Korean Translation G67125 M.D 번역을위한한국어문장구

국어 순화의 역사와 전망

<B1B9BEEEB1B3C0B0BFACB1B83334C1FD2034B1B C5BEC0E7C3D6C3D6C3D6C1BE2D31BFF932C0CFBCBCB9F8C2B0BCF6C1A42E687770>

고3-02_비문학_2_사회-해설.hwp

Department of Linguistics and Cognitive Science 언어인지과학과 Goals and Objectives The Department of Linguistics and Cognitive Science at HUFS Graduate Scho

English Language and Linguistics 20(2) 93 영어우향전위구문에대한소고 말뭉치자료를중심으로 김옥기 김종복 경희대학교 서론 영어에서흔히사용되는이른바전위구문 은아래 에서제시된좌향전위구문 과 와같은우향전위구문 으로구분될수있다 위예문에서알수있듯이두

Coherence Relations in the Book of Jeremiah 30-33

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

corpus, a fin de destacar algunas de las variables que pueden influir en la elección de cada una de las formas pronominales. Con los resultados de la

PowerPoint 프레젠테이션

유의사항 Information marking example 1 3 4

<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

어휘의미추측전략을활용한자기주도적어휘학습방안 16) 유민애 * < 次例 > Ⅰ. Ⅱ. Ⅲ. Ⅳ. Ⅰ. 서론 1).,,,. * 1) (Hymes). (Canale & Swain) (grammatical competence), (sociolinguistic competenc

4

1 한류 목차1

MySQL-.. 1

PowerPoint 프레젠테이션

Microsoft Word - ijungbo1_13_02

학교교과교습학원 ( 예능계열 ) 및평생직업교육학원의시설 설비및교구기준적정성연구 A Study on the Curriculum, Facilities, and Equipment Analysis in Private Academy and It's Developmental Ta

2

viii 본 연구는 이러한 사회변동에 따른 고등직업교육기관으로서 전문대 학의 역할 변화와 지원 정책 및 기능 변화를 살펴보고, 새로운 수요와 요구에 대응하기 위한 전략으로 전문대학의 기능 확충 방안을 모색하 였다. 연구의 주요 방법과 절차 첫째, 기존 선행 연구 검토

5 291

<B9ABC1A62D31>

27 2, * ** 3, 3,. B ,.,,,. 3,.,,,,..,. :,, : 2009/09/03 : 2009/09/21 : 2009/09/30 * ICAD (Institute for Children Ability

특강 2: Aspect Cross-Linguistically (Pf. V. Plungian) 플룬갼교수는 6일과 7일양일에걸쳐여러언어에서동사상 (aspect) 이갖는의미를재분류하였다. 상연구의대표적인대상어가되는슬라브어의경우, 상은전통적으로완료상과분완료상의이분법적분포를보

페루 보건의료산업 동향.hwp

#7단원 1(252~269)교

CC hwp

2002report hwp

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

< 문학전공 >

이베로

조사연구 aim of this study is to find main cause of the forecasting error and bias of telephone survey. We use the telephone survey paradata released by N

ADP-2480

JAVA PROGRAMMING 실습 08.다형성

06마상영( )

요람 교육과정편람 사범대학.hwp

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: : * Research Subject

16-27( 통권 700 호 ) 아시아분업구조의변화와시사점 - 아세안, 생산기지로서의역할확대


이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

GGWF Report는사회복지분야의주요현안에관하여정책의방향설정과실현에도움을주고자, 연구 조사를통한정책제안이나아이디어를제시하고자작성된자료입니다. 본보고서는경기복지재단의공식적인입장과다를수있습니다. 본보고서의내용과관련한의견이나문의사항이있으시면아래로연락주시기바랍니다. Tel

서론 34 2

EA0015: 컴파일러

여수신북항(1227)-출판보고서-100부.hwp

.....hwp

<4D F736F F D20C0CCBEBEC1A6BEEE5FC3A5BCD2B0B35F >

글청봉3기 PDF용

이베로

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

2002report hwp

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: : A Study on the Ac

Journal of Educational Innovation Research 2016, Vol. 26, No. 3, pp DOI: Awareness, Supports

* pb61۲õðÀÚÀ̳ʸ

<30312E2028C3D6C1BEBAB8B0EDBCAD29BDB4C6DBBCB6C0AF5F E786C7378>

ad hwp

학점배분구조표(표 1-20)

본연구는교육부특별교부금사업으로서울산광역시교육청으로부터예산이지원된정책연구과제임

2),, 312, , 59. 3),, 7, 1996, 30.

src.xls

Secure Programming Lecture1 : Introduction


슬라이드 1

SelfKey DeckKR.key

<3635B1E8C1F8C7D02E485750>

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

27 2, 17-31, , * ** ***,. K 1 2 2,.,,,.,.,.,,.,. :,,, : 2009/08/19 : 2009/09/09 : 2009/09/30 * 2007 ** *** ( :

OCW_C언어 기초

Microsoft PowerPoint - chap01-C언어개요.pptx

교육학석사학위논문 윤리적입장에따른학교상담자의 비밀보장예외판단차이분석 년 월 서울대학교대학원 교육학과교육상담전공 구승영

Naver.NLP.Workshop.SRL.Sogang_Alzzam

03이성훈61-79

CC hwp

2. 강의방법 (CourseResources) 세미나 Seminar 발표 Presentation 질의응답 Q&A 초청강의 Special Lecture 현장답사 Field Trip 유인물활용 Handouts Audio/Video/TV Team Teaching 토의 / 토

BN H-00Kor_001,160

서현수

Transcription:

이베로아메리카제 12 권 2 호 [2010. 12] : 155~188 온라인스페인어코퍼스분석및언어학적활용방안연구 1) 신자영 * (Shin, Ja-Young) <Abstract> El análisis del corpus del español y su aplicación en el estudio lingüístico El presente estudio consiste en analizar los varios tipos del corpus del español y sus aplicaciones en el estudio lingüísitco y en la educación del español como segunda lengua. El corpus es definido como el conjunto de ejemplos reales de uso de una lengua. La lingüística del corpus es la subdisciplina de la lingüística que estudia la lengua a través del corpus. Este tipo de aproximación contrasta con el método de investigación de la gramática generativa que tiende a estudiar la lengua a través de la intuición lingüística del hablante. En este estudio estudiamos los varios tipos del corpus del español en línea tales como CREA, el corpus del español diseñado por Mark Davies y el corpus de estructura sintáctica de la Universidad de Santiago de Compostela. Analizamos la estructura, el sistema de anotaciones y el método del uso de cada corpus. También analizamos los corpus fuera de línea tales como CORLEC (Corpus * 연세대학교언어정보연구원 E-mail: jayoungshin@yonsei.ac.kr

156 이베로아메리카제 12 권 2 호 Oral de Referencia de la Lengua Española Contemporánea), Corpus de Referencia de la Lengua Española en la Argentina, Corpus de Referencia de la Lengua Española en Chile y CHIEDE, entre otros. Presentamos cómo descargar y archivar el corpus en la computadora personal y cómo acceder al dato a través del programa de concordancia. Por último, estudiamos el método de aplicación del corpus en varios campos de la lingüística. Especialmente examinaremos cómo los datos de frecuencia y de colocación léxica pueden ser utilizados en la lexicología y en la compilación del diccionario. También examinamos otras posibles utilizaciones del corpus en la sintaxis, así como en la educación del español como segunda lengua. [Key Words: C orpus/ C orpus Monolingüe/ P rogram a de C oncordancia] [ 주제어 : 코퍼스 / 단일어코퍼스 / 용례색인프로그램 ] Ⅰ. 서론 최근언어학의동향을살펴보면객관적인언어수행자료를근거로철저하게귀납적인방법에의하여다양한언어현상을분석하고이를외국어교육, 언어연구, 자연언어처리등에응용하는연구들이상당한진보를거듭하고있음을볼수있다. 특히언어의구체적수행을연구하기위해서는정확한언어자료의확보가필수적인데, 이를위해서는질적, 양적으로객관적언어자료를모으는것이중요하다. 기존언어학에서원어민의직관에의존한언어자료의판별에많은부분의존하였으

온라인스페인어코퍼스분석및언어학적활용방안연구 157 나, 언어수행의연구에서는코퍼스라는거대한언어자료의모음을통하여양적, 질적객관성을확보하는데중점을두고있다. 특히한국에서스페인어를연구하는입장에서다양한스페인어자료의확보는모든연구자들의고민거리일수밖에없다. 이러한시점에서코퍼스는그동안객관적자료의확보를위하여고민하였던많은연구자들의갈증을해소할수있는매우중요한자료의원천이라고할수있다. 또한외국어학습의측면에서볼때, 코퍼스는실제언어자료의충분한입력 (input) 을제공하여스페인어교육의한계를많은부분에서극복할수있도록한다. 본연구에서는코퍼스언어학의개념및연구범위를살펴보고, 일반에게자료가공개되어있는온라인혹은오프라인스페인어코퍼스의특징및장단점을분석하고언어학연구및외국어교육, 사전편찬및번역학등에이를활용할수있는방안을모색하는것을목적으로한다. 특히인터넷상검색프로그램과함께공개되어일반인이쉽게접근이가능한대표적스페인어코퍼스인 Real Academia의 CREA와미국 Brigham Young 대학의 Mark Davies 교수에의하여개발된 corpus del español의구성및활용법을제안할것이며, 그밖에공개된스페인어코퍼스자료목록및그내용분석을하고이를콩코던스프로그램 ( 용례색인프로그램 ) 을통하여사용하는방법을제시하게될것이다. Ⅱ. 코퍼스언어학의목적및방법론 1. 코퍼스언어학의연구목적 코퍼스언어학 (lingüística del corpus) 은대량의 실제언어 혹은실제언

158 이베로아메리카제 12 권 2 호 어의샘플을이용하여귀납적으로언어를연구하는응용언어학의한분야이다. 생성문법의경우보편문법을강조하며, 인간들이경험이전에언어에대하여알고있는초기상태이론을중점적으로다루게되고, 모국어화자가무의식적으로가지고있는내적문법 (gramática innata) 을연역적인방법에기초하여설명적타당성을추구한다. 따라서생성언어학에서는모국어화자의직관에많은부분의존하여이론적가설을검증하는방법론을취하게된다. 생성문법은보편문법및설명적적절성을추구하므로, 이상적화자의직관에의존하므로, 때로는기술적적절성이문제가되는경우가있는데, 이는동일한언어속에존재하는변이현상은생성문법이론정립과는거리가있기때문이다. 반면에, 코퍼스언어학의관심은언어구조의복잡성이며, 철저하게귀납적방법에의존하여언어의기술적타당성에중점을두고이를통하여설명적타당성을달성하는데그목표를둔다. 코퍼스연구는언어의수행, 즉, 언어에대한실제사용에기반을두며, 언어의기능및사용빈도를중요시한다. 이처럼생성문법과코퍼스언어학은언어기술을하는관점및추구하는목표에있어서근본적인차이를보인다. 그러나, 상호보완적인면이없는것이아니다. 우선원어민의직관에의존한생성언어학의연구에다양한원어민직관의집합체라고할수있는코퍼스의자료를활용한다면, 기술적타당성을더할수있다. 코퍼스언어학의목적또한단순히기술적타당성에그치는것이아니라, 다양한통계기술및이론언어학적기초를통하여언어현상에대한설명적타당성을더하는방향으로이루어지고있는것이실정이다. 언어연구에있어서어떤방법론을취하는가의여부는연구의목적과대상이무엇인가에달려있다. 특히, 자연언어처리, 대조언어학, 언어변이연구, 번역학, 사전편찬, 외국어교육과같이언어수행과밀접하게

온라인스페인어코퍼스분석및언어학적활용방안연구 159 관련된연구분야에서는, 실제언어수행에나타나는구체적자료에기초하므로코퍼스를통하여중요한자료적기반을제공받을수있다. 외국어교육의측면에서문법서나제한된교실수업에서다파악하기어려운언어수행과관련된구체적인자료들을코퍼스를통하여확보할수있으며, 소수의모국어화자의직관에의존한연구의한계를코퍼스를활용하여극복할수있다. 특히, 한국에서스페인어교육을하는입장에서학습자에게충분한입력 (imput) 의부족문제로야기되는외국어학습의한계를코퍼스를통하여극복할수있으며, 연구자에게는객관적이고균형적언어자료의확보를가능하게하여언어학연구의실증적기반을제공한다. 2. 코퍼스의종류 코퍼스는구축대상이단일언어를대상으로하는가혹은두개이상의언어를대상으로하는가에따라서단일언어코퍼스 (Corpus monolingüe) 와다중언어코퍼스 (Corpus multilingüe) 로구분된다. 단일언어코퍼스 (Corpus monoligüe) 는한개의언어로이루어진코퍼스를뜻한다. 본논문에서다룰코퍼스도스페인어단일언어코퍼스에해당한다. 다중언어코퍼스의가장대표적유형으로병렬코퍼스 (Corpus paralelo) 를들수있는데, 병렬코퍼스란한언어의텍스트와그것을다른언어로번역한텍스트가정렬된형태로이루어지는다중언어코퍼스이다. 병렬코퍼스는동일내용의복수언어코퍼스로서, 예를들면한국어원문과스페인어번역문 ( 혹은스페인어원문의한국어번역문 ) 을문장단위로대응정렬시켜데이터베이스를만든것을말한다. 병렬코퍼스는데이터자체가복수언어를대상으로만들기때문에언어의대조연구나기계번역, 이중언어사전구축, 언어교육 ( 작문교육, 회화교

160 이베로아메리카제 12 권 2 호 육 ) 등에유용하게사용될수있다. 다중언어코퍼스는번역의방향, 텍스트의성격, 언어의수등에따라다양한유형이있을수있다. < 표 1> 은다중언어코퍼스의유형을나타낸다. < 표 1> 다중언어코퍼스의종류 코퍼스종류 병렬 / 번역코퍼스 (corpus paralelo/ corpus de traducción) 비교코퍼스 (corpus comparativo) 예시 한국어원문 / 스페인어번역문 스페인어원문 / 한국어번역문 한국어원문 / 다국어번역문 한국어원문 / 한국어번역문 같은주제 / 장르에대한한국어원문 vs. 스페인어원문 미주및유럽에서는서구어사이의대응을기반으로한병렬코퍼스구축되어왔다. 주로유럽을중심으로영어- 노르웨이어, 영어- 프랑스어, 영어- 독일어병렬코퍼스구축이주도되었다. 최근유럽연합의참여국가언어를중심으로한다국어병렬코퍼스가여러방면에서구축되고있다. 최근에는구축된병렬코퍼스를활용하기위한사용자인터페이스도구, 텍스트정렬방법등이다양하게연구되고있다. 병렬코퍼스를이용한응용분야가갈수록늘어나는만큼, 구축및응용도구개발도더욱가속화될전망이다. 또한학습자의중간언어를테이터베이스화한것을학습자중간언어코퍼스 (corpus de interlengua) 라고하며, 스페인어를모국어로하는한국어학습자의중간언어코퍼스나한국어를모국어로하는스페인어학습

온라인스페인어코퍼스분석및언어학적활용방안연구 161 자코퍼스를그예로들수있다. 3. 코퍼스사용의도구 코퍼스가사용자들에게유용한것이되기위해서는코퍼스에주석 (anotaciones) 이포함되어있어야한다. 이러한주석의종류로는텍스트에대한기술적정보, 즉, 텍스트의특징, 장르, 참고문헌적정보, 유형, 단어수, 기술자정보등을포함하며, 주로파일헤더정보에포함된다. 1) 코퍼스에있는모든단어에품사및형태소정보등를포함하는품사표기및단어수준을넘어서는주어, 목적어, 절등을나타내는문법구조문법표기등도코퍼스에유용한주석정보가된다. 3장에서살펴볼스페인어코퍼스에서도이러한위에서언급한코퍼스주석이어느정도까지포함되어있는가에따라그코퍼스의유용성이결정된다. 코퍼스를사용하여언어를분석하기위해서는구체적인용례를추출할수있는프로그램인콩코던스프로그램혹은용례색인프로그램이필요하다. Word Smith, Monoconc 등이대표적인프로그램으로특정한조건과함께용례를추출하거나, 일정텍스트내의단어빈도, 혹은특정단어단어를중심으로다른단어와의문장내에서공기빈도를보여주는연어 (colocación) 검색, 키워드검색등을가능하게해준다. 또한간단한통계프로그램이결합되어있어, 도출된결과가유의미한결과인지통계적검증이가능하도록해준다. 코퍼스는전산화된자료이므로, 대개는아스키ASCII 형식으로표준화된저장체계를가진다. 그러나아스키형식의단점은제한된문자집합을가지고있어스페인어와같은특수기호를모두표시하기어렵다는 1) 주석을표기하는방식으로는 TEI(Text Encoding Initiative), XML(Extensible Markup Language), SGML(Starndard Generalized Language) 등이있다.

162 이베로아메리카제 12 권 2 호 점이다. 따라서파일형태로저장된스페인어코퍼스를 Monoconc과같은용례색인프로그램으로읽기위해서는텍스트파일로변환하여, 인코딩을유니코드특히 UTF-8 형식으로변환하여야특수문자등이손상되지않은상태로읽어올수있다. 2) 또한, 코퍼스에서추출한연구결과가유의미한결과인지단순히우연의결과인지를결정하기위해서는특정한통계학적검증이필요한테, SAS, SPSS, SYSTAT, G와같은통계프로그램을사용할수있다. Ⅲ. 스페인어코퍼스 본장에서는인터넷상으로접근이가능한스페인어단일언어코퍼스에대한분석을하고자한다. 코퍼스에기반한분석의결과가연구대상인언어에대한객관적자료가될수있기위해서는코퍼스는대표성 (representativeness) 및균형성 (balancedness) 의요건을갖추어야한다. 즉코퍼스가언어의특성을객관적으로잘반영할수있기위해서는다양한장르의표본들을일정한조합으로포함하여야한다. 또한코퍼스의분석결과가타당성을가질수있도록일정규모이상의크기가확보되어야한다. 코퍼스전체의규모도중요하나, 표본이되는각각의텍스트의길이와성별, 나이를포함한사회언어학적변인을어떻게반영할것인가하는점도중요하다. 이러한대표성과균형성을갖추기위하여적절한장르의비율및규모대하여는코퍼스구축시다양한샘플링을통하여적절한구조를결정하게된다. 본장에서는각각의스페인어코퍼 2) 용례색인프로그램에서아스키파일을바로열기위해서는파일열기창에서모든파일열기를선택하면, 읽어올수있다. 그러나스페인어의특수기호들을읽어오지못하는경우가생길수있다.

온라인스페인어코퍼스분석및언어학적활용방안연구 163 스의규모및구성장르의분포및구조, 품사, 구문주석여부및활용도의측면에서분석하여보기로하겠다. 1. 스페인어온라인코퍼스 본장에서는스페인어의대표적온라인코퍼스를소개하고그장단점을비교분석하도록한다. 온라인코퍼스란구축된코퍼스를인터넷상용례검색프로그램인콩코던스프로그램과함께제공되어사용자들이웹상에서원하는자료를바로찾을수있도록제공되는코퍼스이다. 이러한온라인코퍼스는자료를따로다운받아서각자의컴퓨터에저장하고콩코던스프로그램을적용하여용례를추출하는과정이따로필요없다는점에서편리하다. 그러나사용자자신이자료를가공하기에는어렵고, 인터넷상제공되는기능안에서만코퍼스를사용해야하는단점이있다. 가장대표적인코퍼스로는스페인한림원 (Real Academia) 의현대스페인어데이터베이스인 CREA이다. 1) CREA : Corpus de referencia del español actual. <http://www.rae.es> Real Academia에서구축한대표적스페인어코퍼스로 1억2천500만어절규모의균형코퍼스이다. 스페인의텍스트 50% 와중남미텍스트 50% 의비율로되어있으며, 90% 문어 10% 의구어코퍼스로구성되어있다. 시대적으로는 1975년부터 2000년대까지의자료들이주종을이룬다. 다음과같은장르가반영된균형코퍼스라고할수있다.

164 이베로아메리카제 12 권 2 호 < 표 2> CREA의구성장르및분포 Distribución de los textos del CREA por grandes áreas temáticas 1. Ciencia y Tecnología 10,125% 2. Ciencias sociales, creencias, pensamiento 13,5% 3. Política y Economía 13,5% 4. Artes 10,125% 5. Ocio y vida cotidiana 10,125% 6. Salud 10,125% 7. Ficción 22,5% CREA는온라인상콩코던스프로그램이함께장착되어사용할수있는코퍼스로이를통하여원하는단어혹은구의용례추출이가능하다. 이밖에도특정어휘의지역적사용분포, 매체 ( 책, 신문, 잡지, 구어등 ) 에따른검색및작가별문헌별검색이가능하며, 장르별검색도가능하다. 다음은 CREA의검색창을보인것으로, 위에서언급한여러가지검색조건으로용례및빈도검색이가능하다. < 그림 1> CREA 의검색창

온라인스페인어코퍼스분석및언어학적활용방안연구 165 또한검색창아래쪽으로빈도목록 (Lista de frecuencia) 가제공되어 CREA 전체에나타난어휘의절대빈도 (frecuencia absoluta) 및상대빈도 (frecuencia normalizada) 3) 를 text파일형태로내려받을수있다. 이러한어휘빈도목록은한어휘의모든변이형을하나의단위로하여산출된것이므로형태소분석및품사분석을거친후에만스페인어기초어휘목록및등급별어휘목록구축에활용할수있다. 언어자료를그대로모아놓기만하고형태소및품사주석등을달지않은코퍼스를원시코퍼스 (Corpus primas) 라고한다. CREA는가장기초적헤더정보 ( 지역, 텍스트장르, 출전 ) 정도만기술된가장원시코퍼스라고할수있으며, 실제언어연구에사용되기위해필요한품사및형태소분석, 구문정보에대한주석이전혀설계상고려되지않은미가공상태의코퍼스라는단점이있다. 형태변화가없는부사, 접속사, 전치사등과같은범주나명사나형용사와같이매우규칙적인범주의검색에는어려움이없으나, 동사와같이다양한굴곡형을가진어휘의검색은매우어렵다. 실제로한동사의용례를찾기위해서는그형태적변화형을일일이찾아야하는단점이있다. 형태소분석이되어있다면레마 (lema) 형인 [ir] 형으로모든용법을볼수있는데, CREA에서는이러한검색이불가능하다. 따라서실제연구를위해서는찾은모든예문들을텍스트파일로따로저장하여형태소분석, 품사및구문분석표지등을일일이붙여서, 사용해야하는단점이있다. 또한특정어휘의지역별사용빈도에있어서도코퍼스의지역적자료의균형이다르고절대출현빈도만이제공되므로, 사용빈도의지역적분포를파악하기에쉽지않은단점이있다. 3) 절대빈도는전체코퍼스에서특정어휘의출현횟수를말하며, 상대빈도는 100 만어절당출현하는어휘의횟수를나타낸다.

166 이베로아메리카제 12 권 2 호 2) Corpus del español : http://www.corpusdelespanol.org 미국의 Brigham Young 대학의 Mark Davies 교수가개발한스페인어코퍼스로 13세기부터 20세기에걸친 1억어절규모의스페인어코퍼스이다. 크게학술 (académico), 뉴스 (noticia), 소설 (ficción), 구어 (oral) 의네장르를포함하며, 검색에편리한 tool이장착되어있다. 다음 < 그림 2> 는 corpus del español의검색창을확대한것이다. < 그림 2> corpus del español 의검색창 특정단어, 구, 접사의등의용례검색이가능하며 (lista 보이기기능 ), 검색결과를그래프 (gráfico) 옵션을통하여년도, 장르별분포차트로도볼수있다. 또한연도별, 장르별검색조건을제한할수있으며, 두개의단어를다른단어들과의연어관계분석을하여유사한두단어가사용분포에있어서어떻게다른지구분할수있다. 그밖에도 N-gram, Mutual Information과같은간단한통계프로그램이함께있어, 검색결과나타난수치를해석하는데도움을줄수있다. 이코퍼스는형태소분석이되어있고, 품사태깅이되어있어서, 검

온라인스페인어코퍼스분석및언어학적활용방안연구 167 색이용이하며, 품사별검색및연어, 빈도수검색이가능하다. 또한단어를형태소로분리하여검사가가능하므로, 파생형태론의연구에있어서도유용하게활용될수있다. 그밖에도두개의어휘에대한연어검색을동시에실행하여, 각각의어휘가자주결합하는어휘를비교하여그의미및용법을대조하는기능도있으며, 시소러스를바탕으로한유사어검색이기능도갖추고있다. 코퍼스를사용한언어연구방법의구체적인사례에대하여는 3.3. 장에서언급하도록하겠다. corpus del español은코퍼스언어학에서는가장모범이되는온라인코퍼스로인식될정도로아주잘설계된코퍼스이다. Mark Davies 교수는스페인어이외에도영어의다양한코퍼스를온라인상편리하게자료검색을할수있도록설계하였고, 포루투갈어코퍼스도구축하였다. 4). 3) Base de datos sintácticos del español actual : http://www.bds.usc.es/ 산티아고콤포스텔라대학에서구축한 145만어절규모의코퍼스인 ARTHUS (El Archivo de textos hispánicos de la Universidad de Santiago de Compostela) 를바탕으로 160.000 문장에대한구문분석코퍼스이다. 구문분석코퍼스의특징은스페인어의동사를중심으로가능한모든문형을품사별, 문장성분및기능별로분석하였다는점이다. 가령 ayudar 동사로검색을할경우 ayudar 동사의코퍼스상나타나는모든용례의문장 4) Corpus of Contemporary American English (COCA ; 4 억천만어절규모의 1990-2010 기간의미국영어코퍼스 ), Corpus of Historical American English (COHA ; 4 억어절규모의 1810-2000 기간동안의영어자료 ), British National Corpus (1 억어절규모의 1980-1993 기간의영국영어코퍼스 ), TIME Corpus (1 억어절규모의 1923 년부터현재까지의타임지기사코퍼스 ), Corpus do Português (4 천 5 백만어절의 1300-1900 년대까지의포루투갈어코퍼스 ) 등이며, 간단한로그인절차를걸친모든연구자들에게공개된다.

168 이베로아메리카제 12 권 2 호 성분분석과그분포를보여준다. 다음은검색결과이다. 이결과로보면 ayudar 동사의총 247용례에서나타나는문형의비율을각각의예문과함께볼수있다. < 표 3> ayudar 동사구문분석검색결과 Activa S 14 5.67% Activa S SP 21 8.50% Activa SD 128 51.82% Activa SD AD 1 0.40% Activa SD SP 75 30.36% Pasiva S A 8 3.24% (S: 주어, D: 직접목적어, AD: 부사구, SP: 보어, A: 행위자보어 ) 이코퍼스의특징은기존의코퍼스와는달리통사적정보에대한기술이되어있어, 특정한동사를중심으로이동사가구성할수있는가능한모든문형에대한정보를그분포와함께검색할수있다. 특히, 기본문형정보에서상세문형정보 5) 를문장의구성요소들의통사, 형태적기능뿐아니라, 문장구성요소들에대한좀더세분된의미정보 ( 명사의경우유정, 무정, 부사구의경우위치, 원인등 ) 까지분석되어있으 5) 코퍼스의검색창에는 subesquema ( 하위구조혹은세부구조 ) 로명시되어있다. 위의표 3 에서 ayudar 가직접목적어를취하는능동구문으로쓰이는구조의세부구조를검색하면주어와목적어의유정 / 무정자질에따라다음과같은네가지세부유형의결과를얻을수있다. San Dan (F=110; 85.94% s/esq.) San Dnan (F=3; 2.34% s/esq.) SnanDan (F=11; 8.59% s/esq.) SnanDnan (F=4; 3.13% s/esq.)

온라인스페인어코퍼스분석및언어학적활용방안연구 169 며, 각각그분포와예문을볼수있다. 또한, 특정문형을선택하여그문형으로실현되는동사와그용례를검색할수있으며, 전치사를중심으로결합가능한동사와실현가능한문형을용례및빈도와함께검색이가능하다. 본코퍼스는통사구조연구에매우유용한자료를제공하여준다. 2. 스페인어오프라인코퍼스 3.1. 에서살펴본온라인코퍼스의경우용례색인프로그램이함께장착되어사용자가인터넷에접속하여원하는자료를검색하는것을가능하게한다. 오프라인코퍼스의경우구축된코퍼스를압축된아스키파일형태로연구자들에게제공되어, 연구자가개인컴퓨터에저장한후 Word Smith나 Monoconc과같은콩코던스프로그램을사용하여필요한자료를추출할수있도록한것이다. 파일형태로제공되는스페인어코퍼스의대표적예로는스페인마드리드아우또노마대학의 Marcos Marín 교수를중심으로한언어정보연구소 (laboratorio lingüísitco de informática) 에서구축한코퍼스로이연구소의웹사이트의자료실에서무료혹은제한적으로제공받을수있다. 6). 대부분의자료는아스키파일형태로장르별로폴더로저장되어있으며, 이를텍스트파일로변환하고인코딩을유니코드나 UTF-8로변환하여 ANTCONC이나 Word Smith와같은콩코던드프로그램을이용하면용례추출및빈도, 연어검색등이가능하다. 아스키파일을직접콩코던스프로그램으로열수도있으나, 스페인어특수문자등이인식되지않는경우가있다. 6) 다음인터넷주소를참고할것. http://www.lllf.uam.es/esp/recursos.html

170 이베로아메리카제 12 권 2 호 오프라인코퍼스중웹상에서무료로내려받기가가능한코퍼스들을분석하면다음과같다. < 표 4> 스페인어오프라인코퍼스목록 코퍼스명 CORLEC Corpus Oral de Referencia de la Lengua Española Contemporánea Corpus de Referencia de la Lengua Española en la Argentina 특징 1,100,000 어절의구어전사코퍼스 2,000,000 어절의아르헨티나스페인어문어코퍼스 Corpus de Referencia de la Lengua Española en Chile 2,000,000 어절의칠레스페인어문어코퍼스 Spanish Treebank Corpus 스페인신문에서추출한 1,500 문장에대한통사주석이첨가된코퍼스 CHIEDE Corpus de Habla Infantil Espontánea del Español 60,000 어절규모의유아언어구어코퍼스 코퍼스의요건중가장중요한것은자료의균형성및대표성으로다양한장르의언어가균형적으로반영되어야한다. CORLEC의경우다음과같은장르가포함되었다.

온라인스페인어코퍼스분석및언어학적활용방안연구 171 < 표 5> CORLEC 의장르구성 장르 구성비율 Administrativos y políticos 5.6% Científicos 3.3% Conversacionales o familiares 24.5% Educativos 5.3% Humanísticos 5.6% Instrucciones (megafonía) 0.6% Jurídicos 3.2% Lúdicos (concursos, etc.) 5.6% Debates 8.5% Deportes 5.3% Documentales 2.6% Periodísticos: Entrevistas 15.6% Noticiario 6.6% Publicitarios 2.8% Religiosos 1.1% Técnicos 3.9% 구어코퍼스를중심으로다양한장르에서대화문을코퍼스로구축하였다는점에서의미가있다. 특히구어코퍼스는화용론및담화분석연구의자료로매우요긴하게쓰일수있다. CORLEC는 TEI 표준에따라코퍼스의기술적정보를다음과같이표기하였으며, 음성전사의원칙에의거하여다양한표기기호를사용하였다. 다음 < 표 6> 은 CORLEC의태그정보및텍스트에대한기술적정보를주석으로나타내고있다. 대화의출처및장소, 키워드, 화자의직업, 나이등의기본정보가표시되어있으며, 텍스트는품사나구문분석이

172 이베로아메리카제 12 권 2 호 되지않은미가공상태로제공된다. < 표 6> CORLEC 의헤더정보및텍스트내용예 <ACON021A.WPT> <También en cinta n 8> <22-5-91> <fuente=conversación telefónica> <localización=madrid> <términos=plan, tenis, estudiantes extranjeros, trabajo, exámenes, agobio, fiesta, canciones, idioma alemán, lengua, libros, morfología> <H1=Mujer, profesora de español para extranjeros en la Universidad, (filóloga), 23 años> <H2=Mujer, filóloga, estudiante, 23 años> <texto> <H1> Digo: "Bueno". Ya se me ha estropea<(d)>o el plan. <H2> Jo. <H1> &ieclm;me he podido quedar! Si me pod<palabra cortada>... Me hubiese podido quedar, pero tendría que haber vuelto, no? y ya me ha parecido demasiado. Digo: "Bah, ya... ya jugaré otro día con él". Porque me... al irme, me dice Alberto, dice: " no te quedas a jugar un poco más?" <H2> Pero, ése Alberto es... es un alumno tuyo... extranjero? <H1> Sí. <H2> Y de dónde es, llamándose Alberto? <H1> Italiano. <H3> Ah, italiano. Claro, claro. <H1> Di<palabra cortada>... tiene, fíjate, se llama Alberto y tiene un apellido catalán. <H2> <risas> Y eso? <H1> Eh?...( 중략 ) </texto> CORLEC의경우제공되는압축파일내에는각각의장르를이름으로한폴더내에적게는수십개많게는수백개의코퍼스가아스키파일형태로저장되어있다. 이를용례색인프로그램인 Monoconc을이용하여담화표지사 pues 의용례를추출한화면이 < 그림 3> 이다. 추출한용례의결과는따로 text파일로저장하여사용할수있다.

온라인스페인어코퍼스분석및언어학적활용방안연구 173 < 그림 3> Monoconc 을이용한 CORLEC 의용례추출예. 이처럼, 오프라인에서아스키파일형태로제공되는코퍼스는개인연구자로서는혼자서구축하기힘든방대한자료를손쉽게접근가능하게해준다는점에서시간과노력을최대한절약할수있으며, 이미균형성및대표성이검증된스페인어자료를바탕으로객관적인연구를가능하게한다. < 표 4> 에서제시된다른아르헨티나스페인어참조코퍼스 (Corpus de Referencia de la Lengua Española en la Argentina) 및칠레스페인어참조코퍼스 (Corpus de Referencia de la Lengua Española en Chile) 도같은방법으로다운하여저장한후 ANTCONC이나 Word Smith와같은공개된용례검색소프트웨어를실행하면사용이가능하다. < 표 7> 과 < 표 8> 에서는각코퍼스의구성장르의비율을보여준다.

174 이베로아메리카제 12 권 2 호 < 표 7> Corpus de Referencia de la Lengua Española en la Argentina의구 성비율 장르 어절수 비율 Humanísticos 433,295 21.66 % Escolares 184,019 9.20 % Literarios 181,822 9.09 % Científicos 322,317 16.11 % Jurídicos 126,561 6.30 % Técnicos 135,831 6.79 % Periodísticos 560,000 28.00 % Comerciales 65,124 3.25 % < 표 8> Corpus de Referencia de la Lengua Española en Chile 의구성비율 de textos científicos. 15 % de textos económicos comerciales. 10 % de textos escolares. 15 % de textos humanísticos 5 % de textos histórico-jurídicos. 10 % de textos literarios. 10 % de textos periodísticos. 15 % de textos publicitarios 5 % de textos técnicos. 15 % 이상에서살펴본코퍼스들은품사나구문분석의주석이없으므로, 전장의 corpus del español 과같은품사나구문분석이정보를이용한검색은불가능하다. 그러나파일형태로저장하여스페인어의품사나구문분

온라인스페인어코퍼스분석및언어학적활용방안연구 175 석주석을위한태그셋을정하고주석을달수있는방법을개발하는것이가능하다. 자동으로주석을달수있는프로그램개발하거나텍스트의규모가크기않을경우에는찾아바꾸기기능을이용하여수동으로주석을달수도있다. 품사태깅, 구문분석등이이루어져있으면, 훨씬더유용한코퍼스로서기능을하게되므로, 다양한연구에서코퍼스를재사용할수있다. 스페인어의품사및구문분석태그셋의예를볼수있는것이스페인어 Tree Bank 프로젝트이다. 스페인어 Tree Bank 프로젝트는신문코퍼스에서추출한 1600개문장을대상으로, 품사태깅세트와자동구문분석도구를개발하여스페인어문장에대한품사, 통사, 의미정보및문장성분구조를분석한주석을부착한것으로연구목적의비영리적사용의경우일정한절차를걸쳐자료공개가가능하다. 트리뱅크의구조는표면통사구조를밀접하게반영하여스페인어에적절한태그셋을개발한것이다. 다음 < 그림 4> 는 Eligieron a Tomás presidente. 라는문장에대한 Tree Bank 태그구조를보여준다. < 그림 4> Spanish Tree Bank 의태그예시

176 이베로아메리카제 12 권 2 호 CHIEDE는스페인어유아언어구어전사코퍼스로스페인어의모국어습득단계연구에유용하게사용될수있다. 제1언어습득과정을구축한코퍼스와더불어추후한국인학습자를대상으로한스페인어학습자중간언어코퍼스구축에기초적자료를제공해줄수있을것이다. 특히, 다양한모국어배경을가진개인들이발전시키는중간언어의연구를위하여, 다양한모국어를배경으로하는학습자스페인어중간언어코퍼스의구축이필수적이다. Ⅳ. 스페인어코퍼스의활용방안 본장에서는 2장에서언급한코퍼스를언어학의다양한영역에서활용하는방법에대하여살펴보기로한다. 코퍼스자료의활용범위는너무나방대하여, 이를일일이언급하기는어렵다. 본장에서는분야별로코퍼스를활용할수있는범위를언급하며, 간략한예시를보이기로한다. 코퍼스의사용의가장큰장점은특정한언어표현에대한객관적용례를대량으로추출할수있다는점과, 장르별사용빈도를추출할수있다는점이다. 용례추출의경우그단위가접두사, 접미사와같이형태론적연구의대상뿐아니라, 어휘, 구문, 문형까지다양한단위의예문을원어민의직관을빌리지않고대량으로추출할수있으므로, 어휘론, 형태론, 통사론, 화용론등다양한영역의언어연구에서활용이가능하다. 추출된예문들은그사용역에따라분류를할수있는데, 크게는구어와문어에나타나는특징을구분하거나, 지역적변이, 그밖의사회적변이에따른언어사용의분포를볼수있게한다.

온라인스페인어코퍼스분석및언어학적활용방안연구 177 1. 어휘연구와코퍼스 어휘론은전통적으로경험적, 실증적연구에기초한연구영역이므로, 코퍼스언어학과매우밀접한관계가있다. 특히, 사전편찬분야에서코퍼스의어휘빈도는표제어선정의기준이될수있으며, 사전에서기술되는용례는대부분코퍼스에서추출한전형적예문을직접혹은가공하여사용한다. 일반적으로사전편찬에서어휘의선정은신뢰할만한대용량코퍼스에서의빈도에기초하는데, 이러한어휘빈도추출을위해서는코퍼스에형태소분석주석이첨가되어있어야만그원형별빈도의추출이가능하다. 3장 1절에서언급하였던 CREA의빈도목록은형태소분석이이루어지지않은채로주어지므로, 연구자가이를다시분석하여원형 (lema) 별빈도를구해야한다. 반면에 corpus del español과같이형태소분석이이루어진코퍼스에서는어휘의원형별빈도추출이가능하다. 7) 사전편찬과관련하여코퍼스의중요한역할중에하나는연어 (colocación) 정보의추출이다. 연어 란특정어휘를중심으로관습적으로높은결합관계를보이는어휘를뜻한다. corpus del español 의연어검색기능을이용하여명사 análisis 와높은빈도로결합하는동사를검색하면다음 (1) 과같은결과를얻을수있다. 이와함께 análisis 와자주결합하는형용사를검색한결과는다음 (2) 와같다. (1) análisis 와고빈도결합을보이는동사 : hacer, realizar, haber, requerir, desarrollar, aplicar, dar, completar, detallar 7) corpus del español 의빈도목록은유료로구매가능하다.

178 이베로아메리카제 12 권 2 호 (2) análisis와고빈도결합을보이는형용사 : químico, espacial, político, cuantitativo, crítico, estadístico, cualitativo, profundo, espectral, objetivo, técnico, exhaustivo, completo, general, teórico, sistemático 이러한, 고빈도결합은사전에서구단위예문선정에매우유용하게쓰일수있다. 특히, 이해사전의기능에서더나아가학습자들이능동적으로어휘를쓰도록도와주는표현사전의기능을가진경우에는이러한구단위예문이풍부하게제공되는것이매우중요하다. 이러한연어결합은뜻풀이로는구분할수없는유의어간어휘의사용을이해하는데중요한단서를제공하여준다. 즉, 뜻풀이가유사한두개이상의어휘의유의어구분을위하여공기되는어휘의결합관계를살펴보면두어휘가의미적으로는유사하나실제사용에서어떻게구분되는지를알수있다. 예를들어, 유사어검색을통하여정도를나타내는부사 completamente 에대한다음과같은유사어들을추출하면다음 (3) 과같다. (3) completamente의유사어 : totalmente, absolutamente, enteramente, plenamente, cumplidamente, íntegramente 이중 completamente와 totalmente의사전적정의를 Real Academía 사전을기초로기술하면다음과같다. (4) completamente 1. adv. m. Cumplidamente, sin que nada falte. totalmente 1. adv. m. Enteramente, del todo.

온라인스페인어코퍼스분석및언어학적활용방안연구 179 (4) 에서예시한두어휘의사전적정의는매우유사하여, 사전정의로두어휘의구체적쓰임을구분하기는매우어렵다. 그렇다면, 두어휘를대상으로각각자주결합하여연어를이루는형용사를코퍼스에근거하여선정하여비교할수있다. 이검색결과를정리하면 (5) 와같이 completamente와상대적으로높은결합관계를보이는형용사, 두부사와유사한연어관계를보이는형용사, totalmente와현저하게높은결합을보이는형용사로분류하여볼수있으며, 두단어의차이를사용분포와관련하여정의할수있게된다. (5) a. completamente와상대적으로높은빈도를보이는형용사 : armado, tranquilo, solo, feliz, borracho, olvidado, inútil, abandonado, perdido, igual, oscuro, desnudo, libre, aislado. b. completamente/totalmente 와유사한결합관계를보이는형용사 : desconocido, tranquilo, independiente, distinto, contrario, nuevo, extraño, absurdo, etc. c. totalmente와상대적으로높은빈도를보이는형용사 : inaceptable, imparcial, inesperado, claro, independiente, etc. 이처럼코퍼스를통하여얻어지는언어의실제수행과관련된구체적자료는사전예문기술뿐만아니라, 외국어교육, 특히표현교육을위한중요한자료들을기술할수있도록한다. 2. 코퍼스와통사론 통사론에서코퍼스의활용은크게두가지방향으로볼수있다. 우선코퍼스데이터를기반으로순순하게귀납적이고계량적인통사연구에

180 이베로아메리카제 12 권 2 호 활용될수있으며, 기존의통사이론에서제시된가설에대한검증의도구로서도활용될수있다. 코퍼스의통사적활용에대한예시를위하여스페인어의수동구문과관련한코퍼스추출가능한정보를 corpus del español 및 ARTHUS 코퍼스를기준으로정리하면다음과같다. 1) 수동구문으로쓰일수있는동사의빈도별목록및그용례 2) por 수동구문과 por 생략수동구문의동사분포및빈도, 용례 3) ser 수동구문과 se 수동구문사용동사분포및용례 4) 수동구문사용역비교 5) 수동구문의역사적사용분포비교 사용역분포는코퍼스구축시어떤사용역을구분하여자료를정리하였는가에따라복구할수있는정보의차이가있다. CREA의경우지역적변이가코드화되어있으나, 형태소분석및구문분석태깅이되어있지않은관계로, 수동문과같은특정구문에대한지역적변이검사는어렵고, 특정어휘사용에대한지역적분포만이비교가능하다. 사용역에대한검색의예로스페인어의 [ser] [ 과거분사 ] por 로구성되는수동구문과 [estar] [ 현재분사 ] 의진행형구문의코퍼스상분포를알아보았다. < 표 9> 에서보는바와같이, ser 수동구문은문체적으로학술적인글및뉴스에서상대적으로높은빈도로사용됨을알수있으며, [estar] [ 현재분사 ] 의진행형구문은구어에서의사용이다른장르와확연하게빈도차이를보임을알수있다.

온라인스페인어코퍼스분석및언어학적활용방안연구 181 < 표 9> 수동구문과진행형의사용역비교 [ser] [VPS*] por 수동태 [estar] [VPP*] 진행형 장르 학술 뉴스 소설 구어 학술 뉴스 소설 구어 절대빈도 3349 2603 774 415 888 3984 4755 10175 상대빈도 669.81 524.40 162.27 98.04 177.6 802.62 996.88 2403.7 순위 1 2 3 4 4 3 2 1 통사론및문법연구에서코퍼스의사용으로인하여전통적인문어중심의문법체계에서벗어나구어문법에대하여새로운시각을가지는계기가되었다. 전통적으로문법은대부분문어에기초하여기술되어왔다. 그러나코퍼스의구축과함께전통적문법체계가실제언어의사용과일치하지않는부분들이있다는것이지적되었다. 문어및구어에나타나는상이한문법체계를기술하고, 이러한구어및문어문법을통합하여특정언어의참조문법 (Gramática de Referencia) 을기술하는노력이활발하다. 참조문법은기술에있어서풍부한용법에기초하여특정구문의분포및빈도정보를포함하여, 스페인어의다양한구조들의형식뿐아니라구어, 문어등과같은다양한장르에서그빈도및활용에대한폭넓은정보를제공할수있다. 3. 외국어교육과코퍼스 외국어교육과관련하여코퍼스에서추출한어휘빈도는스페인어의교재편찬에서등급별기본어휘선정에기초자료로쓰일수있다. 다시말하면외국어교육시교육대상의항목의우선순위를정해줄수있다는것이다. 사전표제어선정이나등급별어휘목록선정작업은코퍼

182 이베로아메리카제 12 권 2 호 스빈도및전문가의판정과같은여러단계의판정절차를걸치는것이일반적이다. 이러한정제된전체목록이확보되지않은단계에서도코퍼스의빈도는교재집필시어휘선정의우선순위를정하는데참고가된다. 가령초급학생을대상으로교재편찬에서 -mente 로끝나는스페인어부사를기술하기위해서는가장흔히쓰이는, 즉고빈도부사를선정하여우선적으로교육하는것이더효율적일것이다. 이를위하여 corpus del español에서 wild card 기능을이용하여 -mente 로끝나는부사의용례및빈도를찾은것이 < 표 10> 이다. 8) < 표 10> corpus del español에나타난스페인어부사의사용빈도 빈도순 부사 빈도 1 solamente 4755 2 realmente 4091 3especialmente 3559 4 precisamente 3 43 9 5 completamente 2667 6 inmediatamente 2460 7 finalmente 2357 8 verdaderamente 2150 9 principalmente 2128 10 perfectamente 2016 고빈도부사중에서몇개항목을선정할것인가는전체초급어휘빈 8) corpus del español 의경우고빈도 100 개까지검색이가능하며, 각각의용례를추출할수있고, 사용역 ( 학술, 소설, 언론, 구어 ) 에따른빈도산출도가능하다. 본논문에서는편의상빈도 10 까지만보인것이다.

온라인스페인어코퍼스분석및언어학적활용방안연구 183 도에서부사가차지하는상대적빈도를고려하면, 초급교재에서선정하여야할최종목록이확정될것이다. 선정된어휘의사용과관련하여, 코퍼스를이용하여사용역정보를함께교육할수도있을것이다. < 표 10> 에서가장높은빈도를보이는부사 solamente 에대한사용역정보를차트로보이면다음과같다. < 표 11> solamente 의사용역비교 < 표 11> 에의하면부사 solamente 는전체코퍼스장르중구어및문학작품에서상대적으로많이쓰이며, 학술및뉴스분야에서는매우낮은사용빈도를보임을알수있다. 총 4,233,058어절구어코퍼스에서 100만어절기준으로 355.53의상대빈도를나타내며, 학술분야에서는 23.80의상대빈도를보임을알수있다. 9) 이와는대조적으로 solamente 와의미적으로유사한 exclusivamente의분포를보면 < 표 12> 와같다. 9) 각장르별코퍼스의규모가다르므로장르별절대출현횟수보다는 100 만어절기준으로한출현횟수인상대빈도가더의미있는수치이다.

184 이베로아메리카제 12 권 2 호 < 표 12> exclusivamente 의사용역비교 exclusivamente는학술, 뉴스, 구어에서사용분포의차이가상대적으로적으며, 문학작품과같은허구적글에서는매우낮은사용분포를보임을알수있다. 외국어교육에서이러한사용역에대한정보는실제스페인어의수행과관련된정보중의하나로, 적절한맥락에서적절한어휘를사용하도록교육하는지침이될수있다. 코퍼스는한국에서스페인어를배우는학습자들, 특히살아있는스페인어에접촉할기회가별로없는학습자들에게실제로쓰이는살아있는예문을제공하는중요한역할을할수있다. 이렇듯코퍼스는학습목표어에대한충분한입력을제공하는기능을한다. 특히, 코퍼스를활용한외국어교수법에대한많은연구가운데학습자스스로가코퍼스를검색해서어휘, 의미, 문법을분석할수있는가능성도모색되고있다. 이과정에서학생들은자신들이가지고있었던예상이나직관에문제가있음을알게되며, 스스로가가설을세워검증하는연구자적학습방식을터득하게된다. 이것이이른바 데이터중심학습법 (DDL: data-driven learning)(johns: 1991, 1994) 의요체인데, 학습과정에서학습자스스로의식고양 (consciousness raising) 연습과정을통하여문제와해결책을발견할수있도록유도하는것이다. 학생들은이렇게코퍼스를통해서실제

온라인스페인어코퍼스분석및언어학적활용방안연구 185 로사용되는외국어표현에손쉽게접할수있고또이러한방법을통해서알고자하는어휘항목이나문법구조를찾아내게된다. Ⅴ. 결론 코퍼스사용의기술적인문제에도불구하고언어연구에있어서객관적인연구를위하여양적, 질적으로균형잡힌코퍼스의필요성은점점더강조되고있다. 이미구축된대용량의코퍼스를이용하지않더라도, 연구의객관성을확보할만큼균형잡힌코퍼스를스스로구축하고이를바탕으로연구를실행하는것도가능한일이다. 특히스페인어연구에있어서언어수행의구체적자료에근거하여실증적연구의기초가되는것이코퍼스이며, 소수의원어민의직관만으로는전부파악하기어려운언어정보에대한거시적연구를가능하게한다. 실제로인간의직관이나, 사전적정보로정확하게기술되었다고하는자료도코퍼스의자료와비교하였을때에상이한패턴이나오기도한다. 대부분의대규모의코퍼스는사전편찬과함께발달되었다. 사전편찬과정은점차실제쓰이는언어를반영하는기술적측면이강조되고있으므로코퍼스의활용도는절대적이다. 특히추후한국어-스페인어, 스페인어-한국어병렬코퍼스가구축된다면, 이는한-서, 서-한이중언어사전의기초적자료가될수있다. 본논문에서는코퍼스언어학의목적및연구방법론을살펴보았으며, 스페인어연구에활용할수있는온라인코퍼스및자료가무료로배포되는기구축대용량코퍼스를소개하고이용하는방법에대하여살펴보았다. 본논문은국내의스페인어연구자들에게는아직생소한스페인어코퍼스의소개및사용방법을제시하여, 추후코퍼스를활용한스페인

186 이베로아메리카제 12 권 2 호 어교육및연구에활용할수있는출발점을제시한다는점에서그의의를찾을수있을것이다. 참고문헌 강범모 (2004), 코퍼스와어휘데이터베이스, 서울 ; 월인. 강범모 (2003), 언어 컴퓨터 코퍼스언어학 : 컴퓨터를이용한국어분석의기초와이론, 서울 ; 고려대학교출판부. 박기성역 (2008), 대조언어학과번역학의코퍼스기반방법론연구, S. Granger 외 (eds.) (2003) Corpus based approaces to contrastive linguistics and translation studies, 서울 ; 동인. 신자영 (2010), 병렬코퍼스및학습자코퍼스를이용한중간언어연구방법론, 언어사실과관점 제 25집, 연세대학교언어정보연구원 : 71-88. 안동환역 2008), 코퍼스영어학, Charles F. Meyer, English corpus linguistics : an introduction. 서울 : 한국문화사. Altengerg, B. & Granger, S. (eds.) (2002), Lexis in Contrast : corpus based approach, Amsterdam ; Philadelphia : J. Benjamins. Davies, Mark. (2002-) Corpus del Español (100 million words, 1200s-1900s). http://www.corpusdelespanol.org. G. Guilquin, S. (2008), Combining contrastive and interlanguage analysis to apprehend trasfer: detection, explanation, evaluation, G. Guilquin, S. Papp and M.B. Diez-Bedmar (eds.) Linking up contrastive and learner corpus reasearch.

온라인스페인어코퍼스분석및언어학적활용방안연구 187 Gilquin, G., Papp, S., Díez-Bedmar, M. B. (eds.) (2008), Linking up contrastive and learner corpus research, Amsterdam ; New York, NY : Rodopi. Granger, J. Lerot, S. Petch-Tysonx(eds.) (2003), Corpus-based approaches to contrastive linguistics and translation studies, Amsterdam ; New York : Rodopi. Johns, Tim (1991), Should You be Persuaded - Two Samples of Data-Driven Learning Materials, English Language Journal 4. Birmingham: Birmingham University. Johns, Tim, (1994), From handout to handout: Grammar and Vocabulary Teaching in the Context of Data-Driven Learning, in Odlin, T. (ed.) Perspectives on Pedagogical Grammar, Cambridge: CUP. Ludeling, A. & Kyto, M. (eds.) (2008), Corpus Linguistics : An Introductional Handbook, Berlin ; New York : Walter de Gruyter. McEnery, T., Xiao, R. & Tono, Y.(2006), Corpus-Based Language Studies, an advanced resource book, London and New York: Routeledge. Sara Laviosa (2002), Corpus-based translation studies, Amsterdam ; New York : Rodopi. Sinclair, John McHardy (eds.) (2004), How to use corpora in language teaching, Amsterdam ; Philadelphia : J. Benjamins. Stig Johansson and Signe Oksefjell Rodopi (eds) (1998), Corpora and cross-linguistic research: theory, method and case studies, Amsterdam ; Atlanta, GA: Rodopi. St. John, E. (2001), A case for using a parallel corpus and concordancer for beginners of a foreign language, Language learning and

188 이베로아메리카제 12 권 2 호 Technology 5(3): 185-203. Base de datos sintácticos del español actual http://www.bds.usc.es/ REAL ACADEMIA ESPAÑOLA: Banco de datos (CORDE) [en línea]. Corpus diacrónico del español. <http://www.rae.es> REAL ACADEMIA ESPAÑOLA: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. <http://www.rae.es> http://web.bham.ac.uk/johnstf/paracon.htm http://www.ruf.rice.edu/~barlow/pc.htm Corpus Oral de Referencia del Español Contemporáneo Corpus Lingüístico de Referencia de la Lengua Española en Argentina Corpus lingüístico de referencia de la lengua española en Chile CHIEDE El Corpus de Habla Infantil Espontánea del Español 논문투고일자 : 2010년 10월 31일 심사완료일자 : 2010년 11월 29일 게재확정일자 : 2010년 12월 10일