계량적 문체 분석

Similar documents
1. 최인훈, 광장 창비, 비상교평, 비상교육, 천재교육, 천재교과서, ( 주 ) 지학사, 1천재박, 1천재행, 1디딤돌 2. 최인훈, 동동낙랑둥 미래엔 3. 최인훈, 어디서무엇이되어만나랴 교학코퍼 4. 최인훈, 놀부텬 - 1신사고 / p. 126 인수 B형최인훈, 광


슬라이드 1

(001~006)개념RPM3-2(부속)

statistics

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


자연언어처리

뉴스평가지수의개발과적용

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

( ) ) ( )3) ( ) ( ) ( ) 4) 1915 ( ) ( ) ) 3) 4) 285

exp

(연합뉴스) 마이더스

<28C6EDC1FD FBBF5B1B9BEEEBBFDC8B C3D6C1BE2E687770>

6 강남구 청담지구 청담동 46, 삼성동 52 일대 46,592-46,592 7 강남구 대치지구 대치동 922번지 일대 58,440-58,440 8 강남구 개포지구 개포동 157일대 20,070-20,070 9 강남구 개포지구중심 포이동 238 일대 25,070-25,

27집최종10.22

황룡사 복원 기본계획 Ⅵ. 사역 및 주변 정비계획 가. 사역주변 정비구상 문화유적지구 조성 1. 정비방향의 설정 황룡사 복원과 함께 주변 임해전지(안압지) 海殿址(雁鴨池)와 분황사 등의 문화유적과 네트워크로 연계되는 종합적 정비계획안을 수립한다. 주차장과 광장 등 주변

윙윙_포트폴리오_3

설계란 무엇인가?

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

lkh

G hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

서울도시연구_13권4호.hwp

2학년 1학기 1,2단원 1 차례 세 자리의 수 1-1 왜 몇 백을 배워야 하나요? 1-2 세 자리 수의 자릿값 알아보기와 크기 비교하기 1-3 뛰어 세기와 수 배열표에서 규칙 찾기 1단원 기본 평가 단원 창의 서술 논술형 평가 22 1단원 심화 수

<4D F736F F D20C3A520BCD2B0B32DB4D9B0A1BFC0B4C220B0E6C1A6C1F6C1F8322E646F63>

49-9분동안 표지 3.3

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

Microsoft PowerPoint - chap05-제어문.pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

슬라이드 1

<C7D1B9CEC1B7BEEEB9AEC7D03631C1FD28C3D6C1BE292E687770>


Microsoft PowerPoint - chap03-변수와데이터형.pptx

한국어 정보의 전산 처리 강의 소개

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

* pb61۲õðÀÚÀ̳ʸ

01

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

hwp

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

CC hwp


실험 5

퇴좈저널36호-4차-T.ps, page Preflight (2)

A Time Series and Spatial Analysis of Factors Affecting Housing Prices in Seoul Ha Yeon Hong* Joo Hyung Lee** 요약 주제어 ABSTRACT:This study recognizes th

문학석사학위논문 존밀링턴싱과이효석의 세계주의비교 로컬 을중심으로 년 월 서울대학교대학원 협동과정비교문학 이유경

#유한표지F

RNN & NLP Application

<B9ABC1A62D31>

자료의 이해 및 분석

<C5D8BDBAC6AEBEF0BEEEC7D02D3336C1FD2E687770>

5 291

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - PLC제어응용-2차시.doc

= ``...(2011), , (.)''

도약종합 강의목표 -토익 700점이상의점수를목표로합니다. -토익점수 500점정도의학생들이 6주동안의수업으로 점향상시킵니다. 강의대상다음과같은분들에게가장적합합니다. -현재토익점수 500점에서 600점대이신분들에게가장좋습니다. -정기토익을 2-3번본적이있으신분

표지안 0731

와플-4년-2호-본문-15.ps

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

2-2

CHU 통계교육 Workshop (DAY 7. MDA 군집분석 ) 1. 개념 Individual Directed Technique + 범주 ( 그룹 ) 에대한사전정보가없음 + 다변량측정치를동시에고려하여데이터개체분류 + 개체의유사성 (simila

슬라이드 1

Microsoft PowerPoint - SBE univariate5.pptx

- 2 -

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Drucker Innovation_CEO과정

2 소식나누기 대구시 경북도 영남대의료원 다문화가족 건강 위해 손 맞잡다 다문화가정 행복지킴이 치료비 지원 업무협약 개인당 200만원 한도 지원 대구서구센터-서부소방서 여성의용소방대, 업무협약 대구서구다문화가족지원센터는 지난 4월 2일 다문화가족의 지역사회 적응 지원을

스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

Big Data Analysis Using RHINO


강의계획서 과목 : JUN s TOEIC 700+( 도약 ) 2017년 3차강사 : 황준선 교재 : ETS 토익기본서 (RC&LC)+ 수업부교재 (JUN s TOEIC 700+) + 품사별추가문제 +Mini Test 수업목표 : LC & RC 필수기본전략수립및 GRAM

제5장 형태소분석

< B3EDB9AEB8F1C2F728332D362936BFF92E687770>

1_2•• pdf(••••).pdf

<31302DB1E8BDC2B1C72E687770>

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

KNK_C_05_Pointers_Arrays_structures_summary_v02

6자료집최종(6.8))

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

~

Microsoft Word - src.docx

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

전기차보급활성화포럼 전기차보급정책방향ㅣ 211

[PyConKR2017] 노가다 없는 텍스트 분석을 위한 한국어 NLP

6) 송승종길병옥, ' 군용무인기개발의역사와그전략적함의에대한연구,' 군사 제 97 호, ) 최근공개된자료에따르면주한미군은기간중 268 회의무인기비행을수행한것으로알려졌다.

한국의 양심적 병역거부

<B3EDB9AEC1FD5F3235C1FD2E687770>

PowerPoint 프레젠테이션

Semantic Search and Data Interoperability for GeoWeb

2016년 신호등 3월호 내지A.indd

<5BB0EDB3ADB5B55D B3E2B4EBBAF12DB0ED312D312DC1DFB0A32DC0B6C7D5B0FAC7D02D28312E BAF2B9F0B0FA20BFF8C0DAC0C720C7FCBCBA2D D3135B9AEC7D72E687770>

October 2014 BROWN Education Webzine vol.8 울긋불긋 가을이야기 목차 From Editor 앉아서 떠나는 여행 Guidance 그림책 읽어주는 기술 Homeschool 다양한 세계문화 알아보기 Study Trip 올 가을!풍요로운 낭만축

쏘니표지

국어 순화의 역사와 전망

안 산 시 보 차 례 훈 령 안산시 훈령 제 485 호 [안산시 구 사무 전결처리 규정 일부개정 규정] 안산시 훈령 제 486 호 [안산시 동 주민센터 전결사항 규정 일부개정 규

Transcription:

계량적문체분석한국어정보의전산처리 2017. 5. 31.

목적 계량적지표를통해문체의특징을알아본다. 문체의특징을드러내는계량적지표들을찾아낸다. 계량적지표에따라작품, 작가를분류해본다.

자료 기준말뭉치 : 세종형태분석말뭉치 정제말뭉치 : 홍세화, 진중권, 김규항의글 ( 각각약 3 만어절 ) 지능형형태소분석기 2.0 으로자동태깅한뒤 수작업으로오류수정 UTagger 가성능이향상되기전이었음. 현대소설말뭉치 urimal.net 에올라있는필독현대소설 106 편 나중에이사이트의소설자료가사라짐. UTagger 로자동태깅

정치인의성향좌표 ( 한겨레21 조사 )

정제말뭉치구축과정 홍세화 한겨레신문에정기적으로기고한칼럼 ( 홍세화칼럼, 2007.1.9. ~ 2010.8.22.) 을주대상으로하였고, 그밖에 레디앙 등의인터넷매체에기고한글과 생각의좌표 등의저서에서발췌한글이소량첨가되었다. 진중권 인터넷매체 오마이뉴스 에기고한글만으로도홍세화말뭉치에상당하는양이되므로, 이것으로자료를구성하였다 (2006.4.21.~2010.1.29.). 김규항 한겨레신문에기고한칼럼 ( 야! 대한민국, 2008.12.17.~2010.8.18.) 을우선적으로수집 그분량이홍세화 진중권말뭉치에비해너무적어서 김규항이운영하는블로그 ( 규항넷, http://gyuhang.net) 에서자료를추가로수집하였다 (2010.1.12.~2010.8.20.) 규항넷 에서는가능한한길고, 개인적인신변잡기보다는대중을향한공적인발언의성격이강한글을뽑았다. 세글쓴이의말뭉치분량을가능한한같게하였다

정제말뭉치개요 말뭉치 홍세화 진중권 김규항 바이트수 223,080 222,900 223,393 문자수 129,725 133,521 130,016 어절수 30,683 31,504 31,145 단락수 1,020 1,532 1,004

원시말뭉치대형태분석말뭉치 원시말뭉치를기초자료로하여빈도통계를추출하면 체언 + 조사, 용언의활용형들이각각별도의타입으로간주됨. 각타입의빈도가매우낮아짐. data sparseness problem 형태분석을하면 data sparseness problem 이상당히완화됨. 체언, 조사, 용언, 어미각각에대한좀더정밀한통계를얻을수있음. 품사구분을바탕으로한고급통계정보를추출할수있음.

정확성대효율성 형태분석말뭉치구축시정확성과비용 ( 시간, 노력 ) 은 trade-off 관계 자동태깅에만의존하면정확성이떨어짐 수작업으로오류를수정하면정확도가높아지나, 비용이많이듦. 본고에서전반부는정확도를높이는접근법을, 후반부에서는효율성을높이는접근법을취함.

말뭉치가공과정 21 세기세종계획결과물인 지능형형태소분석기 를이용하여태깅한후, 수작업으로오류를수정. 지능형형태소분석기 의문제점 1 음절로된어절을대부분보통명사 (NNG) 로태깅 연결어미 (EC) 의범위가너무넓음 연결어미로태깅된것뒤에오는용언은거의무조건보조용언 (VX) 으로태깅 기타등등 수작업으로오류를수정하는데에너무나많은시간과노력이소요됨. 태깅지침은세종형태분석말뭉치에따름.

정제말뭉치태깅후통계 말뭉치 세종 홍세화 진중권 김규항 문장수 2,263,642 2,271 2,908 2,467 어절수 12,496,012 30,683 31,504 31,145 형태수 28,408,393 68,380 70,561 69,786

형태 (morph) 의확률분포와기준으로부터의이탈정도 세종형태분석말뭉치에서의각형태의출현빈도를바탕으로하여출현확률계산 홍세화, 진중권, 김규항말뭉치에서각형태의출현빈도, 출현확률계산 이세말뭉치의확률분포가세종말뭉치의확률분포로부터얼마나벗어나있는지계산 확률분포의차이를나타내는지표 교차엔트로피 : 상대적엔트로피 : information radus:

확률분포비교예시 한국어에동사는 가 -, 오 -, 먹 -, 살 -, 죽 - 5 개밖에없다고가정. 보조용언은 - 어있 - 과 - 지않 - 둘밖에없다고가정. 이 5 개동사의말뭉치전체에서의출현빈도, 두보조용언앞에서의출현빈도가다음표와같다고가정. 기준선 ( 흑색 ) 으로부터 - 지않 - ( 황색 ) 보다 - 어있 - ( 분홍 ) 이많이이탈해있음. 가- 오- 먹- 살- 죽- 합 말뭉치전체빈도 100 80 70 60 50 360 P(v i V) 0.28 0.22 0.19 0.17 0.14 1 -어있- 앞빈도 14 12 1 10 3 40 0.4 0.35 0.3 0.25 0.2 0.15 P(vi V) P(vi 어있,V) P(vi 지않,V) P(v i 어있,V) 0.35 0.30 0.025 0.25 0.075 1 0.1 -지않- 앞빈도 20 14 16 14 12 76 0.05 0 가 - 오 - 먹 - 살 - 죽 - P(v i 지않,V) 0.26 0.18 0.21 0.18 0.16 1

세종빈도상위 100 단어의상대빈도비교흑 : 세종, 적 : 홍세화, 청 : 진중권, 녹 : 김규항

상대적엔트로피 말뭉치 상대적엔트로피 홍세화 1.118868 진중권 1.39846 김규항 1.2107089 상대적엔트로피계산시분모 q(x) 가 0 이면문제가발생하므로 실제로는 q(x) 가 0 일경우 Float::EPSILON == 2.220446049250313e-16 으로조정

교차엔트로피와 information radus NaN 나 Infinitiy 등의별로의미없는결과가나왔음. 아마도 buffer underrun 때문인듯 buffer underrun : 소수점이하의너무작은수를계산할때컴퓨터에서實數데이터를표상하기위한메모리가부족할때발생하는현상 buffer underrun 을피하는방법강구필요

각작가가선호하는단어 / 형태 각작가의말뭉치에서의단순출현빈도는그작가의특징을드러내는데부족 기준말뭉치에서도고빈도인단어여서해당말뭉치에서도고빈도인단어보다는 기준말뭉치에서는저빈도인데해당말뭉치에서고빈도인단어가중요 각형태의기준말뭉치에서의출현확률에비해해당말뭉치에서의출현확률이통계적으로유의하게높은지검정할필요가있음. 모비율의검정 검정통계량

홍세화가선호하는형태 순위 형태 세종빈도 홍빈도 Z 값 1 조중동 /NNP 0 20 1289.09 2 신자유주의 /NNG 0 20 1289.09 3 괴담 /NNG 0 14 902.36 4 지 /XSN 0 13 837.90 5 도 /XSN 0 13 837.90 6 자유무역협정 /NNG 0 12 773.45 7 미누 /NNP 0 12 773.45 8 천안함 /NNP 0 11 708.99 9 이든 /JX 0 11 708.99 10 허접 /XR 0 9 580.08

진중권이선호하는형태 순위 형태 세종빈도 진빈도 Z 값 1 한예종 /NNP 0 88 5583.70 2 디워 /NNP 0 80 5076.09 3 문화부 /NNP 0 75 4758.84 4 정지민 /NNP 0 69 4378.13 5 인미협 /NNP 0 30 1903.53 6 빅뉴스 /NNG 0 23 1459.37 7 PD수첩 /NNP 0 21 1332.46 8 피디수첩 /NNP 0 19 1205.56 9 이라 /JKQ 0 19 1205.56 10 variant/sl 0 18 1142.11

김규항이선호하는형태 순위 형태 세종빈도 김빈도 Z 값 1 진보신당 /NNP 0 70 4466.17 2 신자유주의 /NNG 0 40 2552.09 3../SE 0 39 2488.29 4 이라 /JKQ 0 17 1084.63 5 디빠 /NNG 0 15 957.03 6 이든 /JX 0 14 893.22 7 갈릴래이아 /NNP 0 13 829.42 8 이명박 /NNP 52 260 727.11 9 말이다 /IC 0 11 701.81 10 디워 /NNP 0 10 638.01

어휘다양성 : 타입 - 토큰비율 말뭉치 홍세화 진중권 김규항 토큰수 31,418 31,367 32,173 타입수 5,417 5,496 4,518 토큰 / 타입 5.80 5.71 7.12

어휘다양성 : 타입 - 토큰비율 홍세화와진중권은큰차이가없음 김규항은 TTR 이현저히낮음. 즉김규항은동일한표현을반복하는경향이강함. TTR 은텍스트크기에영향을많이받음. 여기서비교대상이된세말뭉치는크기가거의비슷하므로, 별문제없음.

문장길이 홍세화 : 13.1158 진중권 : 10.4023 김규항 : 12.3486 진중권의문장이현저히짧음. 젊은세대의감성에맞게구어체에가까운문체를구사하기때문인듯.

hypotactic 대 paratactic... and the desk and the shelf above it on which rested the ledgers in which McCaslin recorded the slow outward trickle of food and supplies and equipment which returned each fall as cotton made and ginned and sold (two threads frail as truth and impalpable as equators yet cable-strong to bind for life them who made the cotton to the land their sweat fell on), and the older ledgers clumsy and archaic in size and shape, on the yellowed oages of which were recorded... [Faulkner 의단편소설 The Bear ]

hypotactic 대 paratactic The first burst shot off a back wheel and turned the car over. He saw the wheel fly over the bonnet as the car took to the ditch on the left. The ditch might have been ten feet deep but the snow let him down kindly. The car didn't burn so he lay behind it and waited, facing across the track hoping to get a chot at the machine-gunner. The next burst came from behind and threw him up against the car. [John LeCarre 의 Tinker, Tailor, Soldier, Spy ]

hypotactic 대 paratactic 말뭉치에서접속의빈도의근사치로서태그 EC 의빈도를사용하고, 내포의빈도의근사치로서태그 ETN, ETM 을사용하여비율을조사 말뭉치 홍세화 진중권 김규항 세종 접속 3820 3744 4410 2003331 내포 4948 4093 5137 1739602 접속 / 내포 0.77 0.91 0.86 1.15

hypotactic 대 paratactic 세사람모두세종말뭉치에비해내포의비율이높음. 세사람이큰차이는없으나, 진중권 > 김규항 > 홍세화의순으로접속을많이사용함. 구어체보다는문어체에서내포의비율이높음. 진중권이문장이가장구어체에가깝고, 홍세화의문장이가장문어체에가깝다는사실과부합됨.

서사적문체대묘사적문체 서사적인문장에서는동사를자주이용하고 묘사적문체에서는형용사를자주이용 말뭉치 VV VA VV/VA 홍세화 6480 1732 3.74 진중권 6351 1621 3.91 김규항 6461 2223 2.90 세종 2781131 721122 3.85

서사적문체대묘사적문체 홍세화와진중권은세종말뭉치의수치와큰차이가없음. 김규항은형용사의비율이현저히높음. 즉상대적으로묘사적인문체에가까움.

한국현대소설의문체 인터넷 urimal.net 에올라있는한국현대소설 106 편을분석대상으로함. 대다수가단편소설임. ( 예외 : 최인훈의 광장, 회색인 ) UTagger 로자동태깅만하고, 수작업은거치지않았음. 따라서태깅오류가상당수남아있음. 형태단위의빈도조사는하지않고, 나머지통계적문체지표만살펴봄.

hypotactic 대 paratactic 연번 작가 제목 접속 / 내포 1 이문열 필론의 _ 돼지 0.93 2 전광용 사수 0.96 3 이효석 산 0.98 4 김동인 광화사 1.05 5 최서해 고국 1.05 6 김동인 태형 1.07 7 최인훈 광장 1.07 8 최인훈 회색인 1.08 9 이문구 일락서산 1.11 10 전상국 우상의 _ 눈물 1.12

hypotactic 대 paratactic 97 박경리 풍경A 2.09 98 정비석 성황당 2.20 99 이호철 닳아지는 _ 살들 2.36 100 채만식 치숙 2.61 101 김유정 동백꽃 2.63 102 김유정 만무방 2.65 103 김유정 금따는 _ 콩밭 2.72 104 전영택 화수분 2.91 105 주요섭 사랑 _ 손님과 _ 어머니 3.60 106 김유정 봄봄 3.61

hypotactic 대 paratactic 김유정의작품 4 개가모두거의맨끝에위치. 내포를가장적게사용. 주요섭의 사랑손님과어머니 는어린소녀의관점에서서술되어있기때문에, 내포가적게사용된듯. 이문열, 전광용, 이효석, 김동인, 최서해, 최인훈은내포를많이사용.

서사적문체대묘사적문체 연번 작가 제목 동사 / 형용사 1 이호철 큰산 1.77 2 강신재 젊은 _ 느티나무 2.20 3 이문열 필론의 _ 돼지 2.21 4 이효석 산 2.30 5 최인훈 회색인 2.38 6 이호철 닳아지는 _ 살들 2.48 7 박태원 소설가 _ 구보씨의 _ 일일 2.51 8 전광용 사수 2.52 9 이문구 일락서산 2.57 10 이청준 눈길 2.63

서사적문체대묘사적문체 97 황순원 독짓는 _ 늙은이 4.66 98 박영준 모범 _ 경작생 4.70 99 김유정 동백꽃 4.73 100 윤대녕 천지간 4.78 101 이범선 학마을 _ 사람들 5.06 102 김유정 금따는 _ 콩밭 5.22 103 조세희 뫼비우스의 _ 띠 5.49 104 주요섭 사랑 _ 손님과 _ 어머니 5.49 105 황순원 학 5.96 106 김유정 만무방 6.97

서사적문체대묘사적문체 김유정의작품 4 개모두거의맨끝에위치 (91, 99, 102, 106). 동사를훨씬많이사용. 서사적문체 : 황순원, 주요섭, 조세희, 이범선, 윤대녕, 박영준, 염상섭, 이태준 묘사적문체 : 이호철, 강신재, 이문열, 이효석, 최인훈, 이호철, 박태원

보조용언 있 - 과표사적문체 동사 - 형용사비율외에보조용언 있 - 도묘사적문체와관련이있다. 철수는 10 년만에순희와재회했다. 순희는 3 년전에이미남편을여의고혼자되어있었다. 두사람은한동안아무말없이길을걸었다. 거리는성탄을즐기기위해나온젊은연인들로북적거리고있었다. 순희가침묵을깨고입을열었다. 스토리의전경 (foreground) 은 - 었 - 으로표현. 배경 (background) 은 - 어있 - 이나 - 고있 - 으로표현. 보조용언 있 - 의사용비율을알아보면, 그글이얼마나묘사적인지를알수있음.

보조용언 있 - 사용비율 연번 작가 제목 있 /VX 어절수 있 / 어절수 1 김유정 만무방 0 5462 0.000000 2 최서해 탈출기 2 2138 0.000935 3 채만식 치숙 4 3384 0.001182 4 현진건 B사감과 _ 러브레터 2 1314 0.001522 5 이효석 돈 2 1182 0.001692 6 채만식 논 _ 이야기 7 4125 0.001697 7 김유정 봄봄 5 2945 0.001698 8 최서해 고국 2 1165 0.001717 9 염상섭 두 _ 파산 7 3717 0.001883 10 이태준 복덕방 7 3103 0.002256

보조용언 있 - 사용비율 97 황순원 너와나만의시간 71 2989 0.023754 98 김승옥 역사 188 7584 0.024789 99 김승옥 서울,_1964년_ 겨울 108 4318 0.025012 100 이청준 병신과 _ 머저리 200 7772 0.025733 101 이청준 잔인한도시 310 11972 0.025894 102 임철우 사평역 181 6860 0.026385 103 오상원 모반 121 4180 0.028947 104 김승옥 무진기행 202 6636 0.030440 105 이호철 닳아지는 _ 살들 142 4591 0.030930 106 윤대녕 천지간 307 8040 0.038184

동사 / 형용사비율과보조용언 있 - 비율의관계 상관계수 : -0.1949432 별다른상관관계없음.

문장길이 연번 작가 제목 어절수 문장수 평균문장길이 1 오상원 유예 2927 446 6.56 2 김원일 어둠의 _ 혼 5723 812 7.05 3 이호철 닳아지는 _ 살들 4591 624 7.36 4 황순원 소나기 2025 275 7.36 5 조세희 뫼비우스의 _ 띠 2620 352 7.44 6 이범선 오발탄 6541 828 7.90 7 최서해 탈출기 2138 264 8.10 8 박경리 풍경A 1200 148 8.11 9 오상원 모반 4180 502 8.33 10 최인훈 회색인 65341 7727 8.46

문장길이 97 채만식 논 _ 이야기 4125 271 15.22 98 채만식 미스터 _ 방 2740 179 15.31 99 염상섭 만세전 4117 265 15.54 100 최명익 장삼이사 3825 236 16.21 101 이태준 해방전후 7624 468 16.29 102 김동리 화랑의 _ 후예 3012 178 16.92 103 유진오 창랑정기 4125 232 17.78 104 김동리 역마 4515 247 18.28 105 염상섭 두 _ 파산 3717 176 21.12 106 이문구 일락서산 2108 98 21.51

문장길이 간결체 : 오상원, 김원일, 조세희, 이범선, 최서해, 박경리, 최인훈 만연체 : 이문구, 염상섭, 김동리, 유진오, 최명익, 채만식 황순원의작품들은편차가매우큼. 이태준, 이호철도편차가큰편임.

어휘다양성 타입 - 토큰비율 (TTR) 은어휘다양성의가장기초적인지표가되나 텍스트크기의영향을많이받는다는것이문제로알려져있다. 글이짧을때에는같은단어를반복하지않고쓸수있으나 글이길어질수록앞에서사용한단어를반복하지않을수없게된다. 본고에서분석대상이된 106 개의작품의 TTR 이토큰수에따라어떻게영향을받는지그래프로알아보자.

토큰수의증가에따른단순 TTR 의증가경향 novel %>% ggplot(aes(token,ttr))+geom_point()+geom_smooth()

토큰수의증가에따른단순 TTR 의증가경향 토큰수가증가함에따라 TTR 도가파르게증가함. 관측값들이원점가까이에몰려있고, 극소수의관측값은원점에서매우멀리떨어져있음 (outlier). (highly skewed distribution) outlier 가부당하게전체통계에영향을크게미치는것을막고 분포의편향을완화하기위해서 흔히로그변형이사용됨. X 축에로그변형을하고 TTR 을 log(token) 으로나눠주기로함.

log(token) 과 TTR/log(token) 의관계

log(token) 과 TTR/log(token) 의관계 기울기가완화되기는했으나, 증가경향이여전함. 분모를 log(token)^2 또는 log(token)^3 으로해줄필요가있음.

log(token) 과 TTR/log(token)^2 의관계

log(token) 과 TTR/log(token)^3 의관계

TTR 과그변형 TTR 을 log(token)^2 으로나눠주면기울기가상당히완만해짐. 또한관측값들이선 (smoother) 주위에몰려있지않고상당히퍼짐. TTR 을 log(token)^3 으로나누면, 기울기가오히려 minus 가됨. 분모를 log(token)^2 으로하는정도로충분하다고판단하여, 이를어휘다양성의지표로삼음. 단, 분모가커서전체값이너무작아지면 다른변수들과함께비교할때직관적인비교가어려우므로 여기에 1000 을곱해주기로함.

TTR 의변형을지표로측정한어휘다양성 연번 작가 제목 토큰수 타입수 TTR TTR/log( 토큰 ) 2 1 이문구 일락서산 2198 1277 1.72 13.96 2 전광용 꺼삐딴 _ 리 5569 2409 2.31 14.93 3 김유정 만무방 6597 2701 2.44 15.17 4 김유정 금따는 _ 콩밭 2759 1327 2.08 15.91 5 채만식 미스터 _ 방 2911 1381 2.11 15.92 6 김소진 자전거도둑 6120 2410 2.54 16.05 7 이효석 산 1487 834 1.78 16.06 8 이효석 돈 1227 711 1.73 16.39 9 이효석 메밀꽃 _ 필 _ 무렵 2095 1039 2.02 16.57 10 이문열 필론의 _ 돼지 3095 1386 2.23 16.61

TTR 의변형을지표로측정한어휘다양성 97 최시한 허생전을배우는시간 5847 1600 3.65 23.34 98 황순원 독짓는 _ 늙은이 2252 775 2.91 23.43 99 이청준 눈길 5813 1575 3.69 23.60 100 이청준 줄 5484 1505 3.64 23.62 101 황순원 목넘이 _ 마을의 _ 개 6405 1669 3.84 24.00 102 박태원소설가 _ 구보씨의 _ 일일 12278 2768 4.44 24.04 103 최인훈 광장 34122 6074 5.62 24.77 104 최인훈 회색인 66607 9783 6.81 26.52 105 이청준 잔인한도시 11908 2392 4.98 27.16 106 주요섭 사랑 _ 손님과 _ 어머니 4684 1110 4.22 28.38

어휘다양성지표에대한해석 최인훈의두작품이거의최하위에위치하는것은, 이두작품의분량이월등히많아서 TTR 이엄청나게높게나왔고 변형을거친뒤에도그영향이사라지지않았기때문. (outlier) 반복경향이강한작가 : 주요섭, 이청준, 박태원, 황순원, 최시한, 한수산 반복이적은작가 : 이문구, 전광용, 김유정, 채만식, 김소진, 이효석, 이문열, 최일남, 김정한, 박완서

여러변수의종합적고려 : 다변량분석 여러변수들을종합적으로고려한다변량분석 (multivariate analysis) 을통해, 작가 / 작품을분류하고특성을파악하는데도움을받을수있음. 다변량분석의핵심은차원축소 (dimension reduction) 임. 차원이너무많으면, 시각화하기도어렵고인간이총체적으로파악하기어려움. 차원을축소하면원래데이터의정보중일부가소실됨. 정보의손실을최소화하면서파악하기쉽게차원을축소하기위한여러통계기법이개발되어있음.

다변량분석의예시 가상의학생 50 명이국어, 영어, 수학, 물리, 화학 5 과목시험을치렀다고가정. 국어점수와영어점수는밀접한상관관계가있고 수학, 물리, 화학점수는밀접한상관관계가있음. 즉영어, 수학두점만가지고그래프를그린것과 5 개과목점수전부를가지고그래프를그린것이비슷함. 다차원척도법으로차원을축소해도언어능력과수리능력에대한정보가별로손실되지않음.

영어점수와수학점수의분포 score %>% ggplot(aes(eng,math,label=name))+geom_point()+geom_text(aes(label=name),hjust=0, vjust=0)

5 과목점수전체에다차원척도법을적용한결과 score.dist <- dist(score[,2:6]) score.mds <- cmdscale(score.dist, k=2) as_tibble(score.mds) %>% ggplot(aes(v1,v2,label=score$name)) + geom_point() + geom_text(aes(label=score$name),hjust=0,vjust=0)

106 개소설작품에다차원척도법을적용하기위한 R script novel5 <- novel[c(6,9,11,14,18)] 5 개변수 ( 접속 / 내포비율, 동사 / 형용사비율, 있 - 비율, 문장길이, TTR 변형 ) 추출 novel_scaled <- scale(novel5) 5 개변수각각의척도가다른것을통일하기위해정규화 (scaling) 관측값에서평균을빼고표준편차로나눔. 평균 0, 표준편차 1 의표준정규분포를따르게됨. novel.dist = dist(novel_scaled) 5 차원공간에서관측값들사이의거리계산 novel.mds = cmdscale(novel.dist,k=2) 다차원척도법으로차원을 5 에서 2 로축소 as_tibble(novel.mds) %>% ggplot(aes(v1,v2,label=novel$title)) + geom_point() + geom_text(aes(label=novel$title),hjust=0,vjust=0) 축소된두차원을 X 축, Y 축으로하여 scatterplot 을그리되 각관측값의위치에소설제목을써넣음.

106 개소설작품에다차원척도법을적용한결과

군집분석 (cluster analysis) 여러개체에대해여러변수에대해관측값을얻음. 이들개체사이의거리를계산함. 거리계산법에도여러종류가있으나, 대개유클리드거리를이용 거리가가장가까운개체들을묶어서군집을만듦. 군집과개체, 군집과개체사이에서도거리가가까운것부터묶어나감. 모든개체를다포함하는하나의군집이만들어질때까지반복.

5 개과목점수에군집분석을시행하기위한 R script score.cl <- hclust(score.dist) 앞에서이미얻은관측값들사이의거리데이터를가지고 위계적군집분석 (hierarchical cluster analysis) 을시행 plot(score.cl, labels=score$name, cex=1.0) 군집분석결과를그래프로그리되 각관측값의위치에학생이름을써넣음. 글자크기는 1.0

5 개과목점수에군집분석을시행한결과

106 개소설에군집분석을시행하기위한 R script novel.cl = hclust(novel.dist) plot(novel.cl, labels=novel$title, cex=0.6)

106 개소설에군집분석을시행한결과

앞으로의과제 가능한한많은작품을전자화하거나이미전자화된텍스트를입수 문체적특징을잘드러내는다양한계량적지표를가능한한많이찾아냄 계량적지표수치와연구자의직관이부합되는지여부조사 부합되지않는경우, 그이유를찾아냄.