.6 확률분포 9 z =.0 그림.5 z =.0 보다오른쪽인면적 σ =. 3 µ = 6.5 그림.6 평균 6.5 표준편차. 인정규분포 같다. z = X µ σ = 3 6.5..9 (.3) 책뒤에제시되어있는표준정규분포표에서 P (z.9) = 0.008 이다. 이제백분율에해당하는 z 값을찾는방법에대해생각해보자. 만일 백분위수 P 5 에해당하는 z 값을구하려면표준정규분포표에서면적이
제 장확률의기초 같이정리할수있다.. n 30 일때크기 n 의표본이평균 µ, 표준편차 σ 를갖는모집단으로부터추출되었다면표본평균의표본분포는근사적으로정규분포를따른다.. 모집단이정규분포를따르면표본평균의표본분포는임의의표본크기에대하여정규분포를따른다. 즉, 중심극한정리는모집단이무슨분포를하든표본크기 n 이크면표본평균 x 의분포는정규분포를하며, 표본크기가작더라도모집단이정규분포를하면표본평균의분포는정규분포를한다는것을의미한다. 표본통계량이표본평균이라고하면표.9와같은성질이있다. 표.9 표본평균의성질. 표본평균의평균 µ x 는모평균 µ 와같다.. 표본평균의표준편차 σ x 는모표준편차를 n 으로나눈것 이다. σ x = σ n 예제. 어떤집단의평균키가 7cm, 표준편차가 7cm이다. 이모집단에서 4명의확률표본을뽑아평균키를구할때표본분포의평균과 표준오차 (standard error) 를구해보자. 표본분포의평균은모평균과같기때문에 µ x = µ = 7 이다. 표본 분포의표준편차인평균의표준오차는 σ x = σ n = 7 4.08 이다. 중심극한정리로부터표본크기가 30 보다크므로표본분포는 µ = 7, σ =.08 인정규분포로근사화할수있다.
34 제 장통계의기초 여기서 µ 는모수로그값이일정하고, 표본크기 n 은, 표본을취할때 마다일정한크기로취한다면이또한일정한값을갖는다. 따라서 t- 분 포에서는표본마다값이달라지는것은정규분포와달리 x 와 s 가된다. 그림.3 은표준정규분포와자유도에따른 t- 분포를보여준다. 신뢰도 α 인경우 t-값은정규분포에서와마찬가지로임계값 t α 와 t α 사이가된다. t-분포는자유도 n 에따라분포모양이결정되 므로 n 을붙여, t α ;n, t α ;n 로나타낸다. 표본의크기가 5 이고 95% 신뢰도 (c = 0.95) 의임계값 t 0.05;4, t 0.05;4 을알아보자. 이책뒤의부록으로제공되는 t- 분포표에서신뢰 수준 95% 에서자유도 4 인값은 -.45 와.45 이다. 그림.4 는이 분포를나타낸다. c = 0.95 t c =.45 t c =.45 그림.4 자유도 4 인 t- 분포.3 카이제곱분포 카이제곱 (χ ) 분포 (chi-square distribution) 는영국의통계학자 Pearson 이고안했다. 확률변수의값을제곱하기때문에음수의값이나오지 않는다. 우선 Z, Z,...Z φ 가서로독립인표준정규분포를보이는확률
.3 카이제곱분포 35 표. 카이제곱분포의특성. 정규분포처럼연속형확률분포다.. Y χ (φ) 일때, 기댓값은다음과같다. ( ) (n )s E(Y ) = E σ = n σ E(s ) (.4) 여기서표본분산 s = S n 의기댓값은모분산과같다. 따 라서 E(s ) = σ 이고, n = φ 이다. 즉표본크기보다 이적은자유도 n 인카이제곱분포를따른다. 3. 양의왜도 (positive skewness) 를가진다. 변수일때다음과같이 Y 를정의한다. Y = Z + Z + + Z φ (.5) 한다. 확률변수 Y 는자유도 φ 인카이제곱분포라고하고다음과같이표시 Y χ (φ) (.6) 이제확률변수 Y 를계산해보자. Y 는 (.5) 에서처럼표준정규분포의 제곱의합이므로다음과같이표시할수있다. Y = Zi = ( ) X i µ σ = σ (Xi µ) (.7) = S σ 모분산 σ 의추정량으로표본분산 s = S n 을사용하므로 (.7) 은
.4 가설검정 39.4. 신뢰구간을이용한가설검정귀무가설또는대립가설을세운후이가설을받아들일지아니면기각할지를결정해야한다. 일반적으로표본의결과로얻어진 x 의값과모평균가정치 µ 와의차이를가지고가설을기각할지받아들일지를결정하게된다. 이런경우판단의기준이되는평가기준이필요하다. 표본의결과로나온 x 의값이어느정도일때귀무가설을채택할수있는지판가름할수있는평가기준이필요하다. 이평가기준에는크게신뢰구간을사용하는것과검정통계량 (test statistic) 을이용하는방법이있다. 우선신뢰구간을이용하는경우를살펴보자. 예제.5 어느인삼드링크에사포닌함량이 0mg이라고표기되어있 는데, 이함량이드링크마다적절한지, 즉많지도않고적지도않은지를알아보기위하여인삼드링크 00개를표본으로하여표본평균을구해보니 x=9.5mg이나왔다. 일반적으로모표준편차인 σ 는.0mg으로알려져있다. α = 0.05 로하여검정해보자. 이문제에서사포닌함량이 0mg이라면아무문제가되지않기때문에, 연구자가밝히고싶은것은의약품의함량이 0mg이아닐수도있다는것이다. 따라서귀무가설은 H 0 : µ = 0 이고대립가설은 H a : µ 0 이다. 신뢰구간을이용한가설검정은모평균가정치 µ 0 가신뢰구간내에들어오지않으면귀무가설을기각한다. 따라서다음과같은신뢰하한치와신뢰상한치를임계치로사용한다. x z α σ x µ 0 x + z α σ x (.9) 여기서 x = 9.5, n = 00, σ =.0 이고, z 0.05 =.96, σ x = 00 = 0. 이다. 따라서 x ± z α/ σ x = 9.5 ±.96 0. = 9.5 ± 0.39 9.08 µ 9.89
.4 가설검정 45 표.4 대립가설과검정방법. 대립가설 H a 이부등호 < 를포함하면좌측검정 (left-tailed test) 을행한다.. 대립가설 H a 이부등호 > 를포함하면우측검정 (righttailed test) 을행한다. 3. 대립가설 H a 이 를포함하면양측검정 (two-tailed test) 을행한다. 예제.8 어떤공장에서가동하는기계부품의평균수명은 30년보다 길다고주장한다. 임의로추출한부품 36개는표본평균 3.5년이고표준편차 3.5년이다. 유의수준 α = 0.0 에서위의주장을충분히뒷받침하는충분한근거가있는지알아보자. 기계부품의평균수명을 µ 로하면, 다음과같은가설이성립한다. H 0 : µ 30 H a : µ > 30 z 0 검정통계량을구하면다음과같다. 3 z 0 = x µ 0 σ/ n = 3.5 30 3.5/ 36 =.57 대립가설이 > 를포함하기때문에우측검정에해당한다. p- 값은 z 0 =.57 의오른쪽영역이다. 따라서 p- 값은 0.005( 0.9949) 이다. 이값 은 α = 0.0 보다작기때문에귀무가설을기각한다. 따라서유의수준 % 에서부품의평균수명은 30 년보다길다는주장은충분히근거가있 다. 3 n 30 이면 σ s = 3.5 이다.
.4 가설검정 47 0.05 0.05 z 0.05 z 0.05.65.96 그림. 양측검증과단측검증 (α = 0.05) 예제.9 새로운체중조절프로그램에대한광고의참가자는평균 주이내에 0kg을감량할수있다고한다. 참가자중임의로선택한 60 명의한달동안의감량을조사한결과 0kg을감량하는데평균. 주, 표준편차 3.4주로나타났다. 유의수준 α = 0.05 에서이주장을뒷받침하는충분한근거가있는지살펴보자. 참가자의평균감량시간을 µ 로하면, 다음과같은가설이성립한다. H 0 : µ = H a : µ < z 0 검정통계량을구하면다음과같다. z 0 = x µ 0 σ/ n =. 3.4/ 60 =.8 이검정은좌측검정에해당한다. p- 값은 z 0 =.8 의왼쪽영역이고 그값은 0.0344 이다. 이값은 α = 0.05 보다작기때문에귀무가설을 기각한다.
.4 가설검정 5 바탕으로한각단어의확률은다음과같다. P (new) = 588 4307668 P (companies) = 4675 4307668 이제 new 와 companies 가서로관련이없이독립적으로출현한다 고, 즉연어구성이아니라고귀무가설을설정한다. 독립적으로출현하기 때문에다음과같은확률이설정된다. H 0 : P (new companies) = P (new)p (companies) = 588 4307668 4675 4307668 3.65 0 7 귀무가설이참이라면임의적으로구성되는바이그램에서 new companies 가나오면성공, 그렇지않으면실패로하는베르누이시행이라 고생각할수있다. 이시행에서성공할확률은 3.65 0 7 이다. 이는 평균은 µ = 3.65 0 7 이고분산은 σ = p( p) 인이항분포다. 5 실제로이바이그램의확률은아주작기때문에 σ = p( p) p 로 근사화한다. 이제 t- 값을계산해보자. new companies 는 4,307,668 바이그램에 서 8 번나타난다. 따라서평균은 x = 8 4,307,668 5.59 0 7 이다. 이를바탕으로 t- 값을구하면다음과같다. t = x µ s N 5.59 0 7 3.65 0 7 5.59 0 7 4307668 0.999 α = 0.005 이고자유도 인 t- 값은.576 이다. 6 0.999 는기각역 하였다. 5 이항분포의평균과분산은각각 np, np( p) 이다. 여기서는 n 을 로하여계산 6 t- 분포표는대개자유도가 에서 30 까지인경우와그다음은 로값이제시된다.
.5 두모집단에대한통계적추측 59 예제.6 어느제강회사에서동선코일의인장강도를테스트하기위하 여 A코일 4개와 B코일 개를조사하였더니각각평균 0과표준 편차 8, 평균 6 과표준편차 0 이나왔다. 동선코일의인장강도는정규 분포를따른다고할때코일 A 가더인장강도가높다고할수있는지를 99% 신뢰구간에서검정해보자. 우선 A, B 의평균인장강도를각각 µ, µ 라고하면다음과같은 귀무가설을설정할수있다. H 0 : µ µ = 0 H a : µ µ > 0 (.8) 에의해통합표준편차 (s p ) 를다음과같이구할수있다. s p = (n )s + (n )s n + n = (4 )8 + ( )0 4 + 8.97 표준편차는다음과같다. σ x x = s p + = 8.97 n n 4 + 3.5 이를바탕으로 t- 값은다음과같이구해진다. t = ( x x ) (µ µ ) 0 6 =.3 σ x x 3.5 자유도는 4(= 4 + ) 이고, α = 0.05 이다. 이에해당하는 t- 값은.7 이다. 이검정은우측검정이기때문에기각역은 t >.7 이다. 구해진 t- 검정량.3 은기각역에있지않기때문에귀무가설을 받아들여야한다. 따라서코일 A 가인장강도가더높다는주장은충분한 근거가없다.
3. 분산분석 7 이예의전체제곱합은다음과같이계산된다. SST = (9 7.4) + (7 7.4) + (85 7.4) + (8 7.4) + (66 7.4) + (80 7.4) + (7 7.4) + (65 7.4) + (78 7.4) + (69 7.4) + (7 7.4) + (64 7.4) + (58 7.4) + (70 7.4) + (64 7.4) = 3.6 여기서전체제곱합은총 5 개의평균치에대한 5 개의점수들의편차에 기초하기때문에 4(= 5 ) 의자유도를갖는다. 이자유도는다음과 같이정의된다. 전체자유도 : df t = n 전체 (3.6) 자세히살펴보면전체제곱합 (SST) 은집단내제곱합 (SSW) 과집단간제곱합 (SSB) 의합임을알수있다. 따라서앞에서계산된전체제곱합 3.6은 SSW + SSB 의합 668 + 463.6 과같다. 이를정리하면다음과같다. SST = (X X) = (X X + X X) = { (X X) + ( X X) + (X X)( X X) } = (X X) + ( X X) + ( X X) (X X) = (X X) + ( X X), (X X) = 0 = SSW + SSB 이제집단내제곱합 SSW 와집단간제곱합 SSB 를각각의자유도로 나누면각각집단내분산추정치 s W 와집단간분산추정치 s B 를구할
76 제 3 장분산분석과회귀분석 표 3.4 일원분산분석정리 요인제곱합자유도분산추정치 F - 비 집단간 집단내 전체 모든점수들 모든점수들 모든점수들 ( X X) k s b = SSB df b (X X) n 전체 k s W = SSW df w (X X) n 전체 s b s W 이제모집단들차이에대한신뢰구간을어떻게설정할수있는지를살 펴보자. 각모집단사이의차에관한신뢰구간은다음과같이표본평균 차와정직한유의차로구할수있다. X i X j ± HSD (3.9) 여기서의예, µ µ 의신뢰구간을구해보자. X X ± HSD = 79 7.8 ±.57 = 6. ±.57 따라서 학년과 학년의평균차이는 6.37 에서 8.77 사이어디에 있으리라고 95% 확신할수있다. 지금까지살펴본일원분산분석을정리 하면표 3.4 와같다. 3.. 이원분산분석일원분산분석은하나의요인 (factor) 또는독립변수들의서로다른수준 (level) 을다루지만경우에따라두가지이상의요인들을동시에연구할필요가있다. 예를들어어떤의사가우울증을치료할때사용하는두치료법의상대적인효과와, 그것이남녀성별과관련되는지를연구하고자
3. 분산분석 85 상호작용의제곱합 (SS A B ) 은상호작용이없다고기대할때의칸평 균값들로부터실제로얻어진각각의평균값들의제곱으로구할수있다. 이는지금까지구한값들에서쉽게계산할수있다. SS A B = SS T (SS W + SS A + SS B ) (3.) 이에해당하는자유도는 df A 와 df B 를곱한값이다. df A B = (R )(C ) (3.3) 이예의 df A B = = ( )( ) 이다. 이제 F - 검정을위해분산추정, 즉모분산분석을행한다. 이를위 해 (3.) 에서살펴보았듯이네가지제곱합들 SS W, SS A, SS B, SS A B 을각각자신의자유도로나누어각각의분산을추정한다. 이 예의분산추정치는다음과같다. s W = SSW df w = 70 5.83 s A = SS A df A = 36 = 36 s B = SS B df B = 4 = 4 s A B = SS A B df A B = = 이제 s A, s B, s A B 을집단내 s W 으로나누어 F -비를구할수있다. F A = s A s W F B = s B s W = 36 5.83 6.7 = 4 5.83 0.68
88 제 3 장분산분석과회귀분석 표 3.8 이원분산분석정리 분산요인제곱합자유도분산추정치 F - 비 집단간 A A B B SSB = SSA + SSB + SSA B ( ) ( ) X + X + X A 모든점수들 na n 전체 R ( ) ( ) X + X + X B 모든점수들 n 전체 C 집단내 전체 nb A B SSA B = SST (SSW + SSA + SSB) (R )(C ) 모든점수들 X 모든점수들 모든칸들 칸 X n 칸 RC(n 칸 ) X ( X) n n 전체 전체 SSA dfa SSB dfb SSA B dfa B SSW dfw s A s W s B s W s A B s W
3. 분산분석 9 표 3.9 반복측정일원분산분석 자료제곱합자유도분산추정치 F - 비 개체간 (S) 집단간 (B) k( Xsubj X) n 개체 모든점수들 ( X X) k SSS df s SSB df b SSR 잔차 (R) SST SSB SSS df s df b df r 전체 (T) (X X) n 전체 모든점수들 s B s r 다음의실험을하였다. 5 한국인들이부정관사 a 대신에 the 를쓰는경우가많은지를알아보기위해 0명의실험자를대상으로부정관사 a 가나타나야하는곳에정관사 the 가나타나는경우를부분성 (partitive) 6 과관련하여세수준으로구분하여실험을하였다. 즉명시적인부분성 (explicit partitive) 인경우 (a), 내재적인부분성 (implicit partitive) 인경우 (b), 그리고부분성이아닌 (non-partitive) 경우 (c) 에, 부정관사 a 대신정관사 the 를남용하여쓰는횟수를측정하여 the 의출현이부분성과관련이있는지를검정하려고한다. 귀무가설은 the 의출현은부분성과관련이없다는것으로다음과같이설정된다. H 0 : µ a = µ b = µ c H : H 0 가아님 이실험에대한결과는표 3.0과같으며계산결과는표 3.로정리할수있다. 5 이예는 Ko et al.(006) 의원자료를구하여분석하였다. 6 부분성 (partitive) 은언급되는대상이이전대화에서도입된한집합의구성원중의하나로정의된다.
3. 분산분석 93 표 3. 관사사용오류에관한반복측정분산계산결과표 구분 제곱합 자유도 평균합 F -비 개체간 0.6 9.06 집단간.034 6.07 7.488 잔차 6.63 38 0.80 총합 48.93 59 실험결과에의한 F -비는 7.488이다. 그리고 α = 0.05 에서 F (, 38) 는 3.5이다. 실험결과로나온 F -비는기각역에속하기때문에귀무가설은기각된다. 즉부정관사 a 가사용되어야할곳에 the 를쓰는경우부분성에는차이가있다고할수있다. 이제어디서차이가나는지를알기위해서는일원분석에서와마찬가지로 Tukey의정직한유의차검정을할필요가있다. 일원분산분석과달리집단내평균제곱합 s W 대신에 s r 을사용한다. s HSD = q r (3.7) n 여기서 s r 0.80 이고 n = 0 이다. q 값을위한 α = 0.05 에서 df r = 38 이고 k = 3 인스튜던트화값은 3.44이다. 7 따라서정직한유의차는다음과같이계산된다. 0.80 HSD = 3.44 0 0.69 귀무가설을기각하기위해서는조건의평균차가 0.69 이상은되어야한다. a와 c의차이 0.8과 b와 c의차이.05가해당한다. 명시적으로부분성인경우와내재적으로부분성인경우가부분성이아닌경우와차이가난다는것을보여준다. 따라서 the 의남용은부분성과관련이 7 통계책에 df r = 38 에대한정확한값이제시되지않은경우가있다. 이경우 df r = 40 을사용하였다. 그직전의값, df r = 30 은 3.49 이다.
3. 회귀분석 97 대학 학년학점.5 3.0 3.5 4.0 e i (x i, y i ) (x i, y^i) a+ b xi y^= a + bx 30 340 360 380 수능원점수 그림 3.5 수능점수와학점의관계 앞서살펴본대로회귀선이적절하기위해서는실제값과추정값인직 선상의 ŷ 값차이를나타내는잔차 (residual error) e i 가가장작을때의 직선을구해야한다. 잔차는다음과같이구해진다. e i = y i ŷ i = y i (a + bx i ) (3.30) 관측치가 n 개일때이를모두반영하기위해잔차의합을구해서최소가되는값을구해야한다. 그러나잔차가 +, 로나타나서로상쇄되어그합은 0이되어버린다. 이를해소하기위해잔차의제곱합을이용한다. n n S = e i = [y i (a + bx i )] (3.3) i= i=
5. 엔트로피 43 음과같이최소한세비트가필요하다는것을의미한다. 말 말 말 3 말 4 말 5 말 6 말 7 말 8 00 00 0 00 0 0 000 만일이확률변수에대해서우리가좀더많은정보를갖고있다면 그불확실성 ( 엔트로피 ) 은줄어들것이다. 이제표 5. 과같은 8 마리의 말의우승할확률이주어졌다고하자. 표 5. 8 마리말의우승확률 말 말 말 3 말 4 말 5 말 6 말 7 말 8 4 8 6 64 64 64 64 표 5. 의엔트로피는다음과같다. i=8 H(X) = P (i) log P (i) i= = log 4 log 4 8 log 8 6 log 6 4( 64 log 64 ) = bits 개별말의우승확률의경우, 더많은정보가주어지는경우에그불확실성은낮아짐을알수있다. 이제우승확률이높은말은더적은수의비트로낮은말은더많은수의비트로전송하여보낼수있다. 가장확률이높은말은가장짧은비트 0으로, 다음은 0, 그다음은점점더긴비트로하여, 0, 0, 00, 0, 0, 로전송하면, 평균 비트가필요함을알수있다. (5.) 의엔트로피공식에서음수
48 제 5 장정보이론 : 엔트로피 이주변확률은음절단위로되어있다. 따라서자소별확률은이음절 기반의주변확률에 을곱하여구할수있다. 즉자음 p 의주변확률 8, t 의주변확률 3 4, k 의주변확률 8, a 의주변확률, i 의주변 확률 4, u 의주변확률 4 은음절단위의관점에서보면중복되어있기 때문에, 을곱하여표 5.4와같이구할수있다. 표 5.4 음절단위에서의글자확률 글자 p t k a i u 확률 6 3 8 6 4 8 8 이제음절을고려한자음과모음의결합엔트로피 H(C, V ) 를구해 보자. (5.0) 을적용하기위해서는 H(C) 와 H(V C) 도필요하다. H(C) = 8 3 + 3 4 ( log 3) = 9 4 3 log 3bits 4.06bits H(V C) = p(c = c)h(v C = c) c=p,t,k = ( 8 H, ), 0 + 3 ( 4 H, 4, ) + ( 4 8 H, 0, ) = 8 + 3 ( 4 + ) 4 = 4 + 3 4 3 = 8 bits =.375bits
50 제 5 장정보이론 : 엔트로피 H(X, Y ) H(X Y ) I(X; Y ) H(Y X) H(X) H(Y ) 그림 5. 상호정보와엔트로피의관계 일반적으로상호정보 I(X; Y ) 는앞에서살펴본엔트로피도출과정 과관련하여다음과같이규정할수있다. I(X; Y ) = H(X) H(X Y ) = H(X) + H(Y ) H(X, Y ) = P (x) log P (x) + P (y) log P (y) x y P (x, y) log P (x, y) x,y = x,y P (x, y) log P (x, y) P (x)p (y) (5.4) 여기서 H(X X) = 0 이므로 H(X) = H(X) H(X X) = I(X; X) 가된다. 따라서엔트로피가자신의정보 (self-information) 를나타내는기제임을알수있다. 언어처리에서많이쓰이는상호정보는엄밀히말해서점수렴상호정보 (pointwise mutual information) 다. 즉, 원래의상호정보가두확률변수 X 와 Y 사이의정보에관한것이라면점수렴상호정보는두
5.7 최대엔트로피 6 비율은통계학에서승산 (odds) 이라불리는것으로 p p 로구해진다. 이 승산비는 0 보다크고무한대보다작은값으로나타나며, 확률값이 0 에 가까우면작은값으로, 에가까우면큰값으로나타난다. 예를들어어 떤사건이일어날확률이 0.8 이고일어나지않을확률이 0. 라면일어날 사건의승산비 (odds ratio) 는 0.8 0. = 4 이다. 이제이선형모형에서결과 y 가참일승산은다음과같이구해진다. P (y = true x) P (y = true x) = w f (5.38) 승산비는 0 과무한대사이의값으로나타나기때문에이수식의좌변 과우변은같지않다. 즉, 좌변은 0 과무한대우변은 와 사이의 값으로나타나기때문에좌변에자연로그를붙여양쪽이다 와 사이의값을취하도록해야한다. ( ) P (y = true x) ln = w f (5.39) P (y = true x) 승산의로그를취한것을로짓함수 (logit function) 라한다. ( ) P (x) logit(p (x)) = ln P (x) (5.40) P (y = true) 를구하기위해수식 (5.39) 를전개해보자. ( ) P (y = true x) ln = w f P (y = true x) P (y = true x) P (y = true x) = ew f P (y = true x) = ( P (y = true x))e w f P (y = true x) + P (y = true x)e w f = e w f P (y = true x) = e w f P (y = true x)e w f P (y = true x)( + e w f ) = e w f
5.7 최대엔트로피 65 필요가있다. 다음은이를위해설정된몇가지자질이다. 3, 해당형태소가 나 이고, c=vx; f (c, x) = 0, 그렇지않으면., 이전형태소태그가 EC 이고, c=vx; f (c, x) = 0, 그렇지않으면., 다음형태소가 ETM 이고, c=vx; f 3 (c, x) = 0, 그렇지않으면., 해당형태소가 나 이고, c=np; f 4 (c, x) = 0, 그렇지않으면., 이전형태소태그가 ETM 이고, c=np; f 5 (c, x) = 0, 그렇지않으면., 다음형태소태그가 JX 이고, c=np; f 6 (c, x) = 0, 그렇지않으면. 여기서의자질은예문과실제코퍼스에서좌우에나타나는형태소위주로설정되었다. 실제로는자료에따라다른종류의다양한자질이설정될수있다. f 에서 f 3 까지는 VX태그를위한자질이며, f 5 에서 f 6 은 NP태그를위한자질이다. 자질은실제관찰된자료를반영해야하기때문에각각의형태소와해당태그를연결할수있는자질을예로들었다. 또 f 5 에서는이예문의 난 이동사의관형형으로쓰이는것과대조적으로대명사 나 를자질로하기위해앞에또다른관형형 던 구성이오는것을가정하였다. 즉, 관형형이연달아나오는것은불가능하다고보고그럴경우는대명사 나 로쓰인다는것을자질화하였다. 3 태그는세종코퍼스에서사용되는태그다. VX는동사를, EC는연결어미를, ETM 은관형형어미를, NP는대명사를, JX는보조조사를나타낸다.
6.3 은닉 마르코프 모델 87 start 0.7 0.3 0.4 0.3 C 0.6 H 0.7 0.5 0.5 0. 0.8 그림 6.5 날씨 상태와 아이스크림 수의 연쇄를 위한 은닉 마르코프 모델 표 6.4 전이 확률과 방출 확률 P (.. C) P (.. H) P (.. start) P (..) 0.5 0. 0.0 P (..) 0.5 0.8 0.0 P (e..) 0.0 0.0.0 P (C..) 0.3 0.4 0.7 P (H..) 0.7 0.6 0.3 작상태에서 빈글자 (empty output) 를 출력할 확률을 나타낸다. 이렇게 은닉 마르코프 모델을 설정해 놓고 나면 다음의 세 가지에 대한 문제를 제기할 수 있다. 문제 (확률의 계산) : 설정된 은닉 마르코프 모델 λ = (A, B) 과 관 찰된 연쇄 O 가 있을 때 이 모델에서 이 연쇄의 확률 P (O λ) 은 어떻게 계산할 수 있는가? 문제 (디코딩) : 주어진 연쇄 O 와 은닉 마르코프 모델 λ = (A, B) 에 여기서 A 는 앞의 은닉 마르코프 정의에 의해 상태들 간의 전이 확률을 나타내며, B 는 관찰되는 대상의 특정 상태에서의 방출 확률이다.
6.3 은닉마르코프모델 9 α (C) α (C) α 3(C) (3) C C C C () s (4) (6) e () H H H H (5) α (H) α (H) α 3(C) e o o o 3 o 4 t α (C) =.7 () P (e s)p (C s) =.7 α (C) =.7.5 +.3.08 =.9 () P (e s)p (H s) =.3 α 3(C) =.09.5 +.8.3 =.097 (3) P ( C)P (C C) =.5.3 α (H) =.3 (4) P ( C)P (H C) =.5.7 α (H) =.3. +.7.35 =.8 (5) P ( H)P (H H) =..6 α 3(C) =.8.48 +.09.35 =.8003 (6) P ( H)P (C H) =..4 그림 6.6 아이스크림수 연쇄의순방향격자 로전이할확률 P ( H)P (C H) 을곱한다. 이제이두확률값을더하여 α (C) 에저장한다. 만일 α 를설정하지않는다면매단계별로앞에서계산했던과정을반복해야한다. 이런식으로각단계별값을저장하는 α t (j) 는다음과같이형식화될수있다. N α t (j) = α t (i)a ij b i (o t ) (6.5) i= 즉, 순방향매개변수 α t (j) 는그전에계산된 α t 값에 i 에서 j 상태로들어오는전이확률 (a ij ) 과 i 상태에서방출되는확률 b i (o t ) 값들을
94 제 6 장은닉마르코프모델 하여더하거나, 역방향으로뒤에서부터첫관찰대상에이르기까지의 β 값을계산하여구할수있다. 역방향계산에서는관찰대상의끝에서부터첫글자, β 에이른후여기에다시시작확률 (π) 을곱하여전체연쇄의확률값을구해야한다. 이제아이스크림수 의역방향으로계산된결과를표 6.6에서살펴보자. 표 6.6 역방향에의한 abab 의확률값 관찰대상 e β(c) 0.5 0.355 0.0085 0.0777355 β(h) 0.8 0.36 0.7888 0.095336 역방향은관찰되는연쇄의역순으로계산이이루어진다. 따라서 가먼저계산된다. 여기서는관찰대상의끝에서는반드시종결 (end) 상태로전이해야하고이때빈글자가방출되는것으로가정한다. 그래서빈글자에대한확률 로시작한다. 여기서주의해야할것은역방향관점에서이해되는전이와방출확률이다. 예로 의 β(c) 의값이계산되는과정을살펴보자. 우선이전에계산되어온 의 β(c) 0.355에 C C 전이확률 0.3과 C 에서 를방출할확률 0.5를곱한것과 의 β(h) 의 0.36에 C H 의전이확률 0.7과 C 에서 를방출할확률 0.5 를곱한것을서로더하게된다. 여기서 의 β(h) 에서순방향이라면 H C 의전이확률을곱해야하지만 (6.7) 에서살펴본대로, 역방향이기때문에순방향으로는 C 에서 H 로전이되는것이므로 C H 의확률을곱하게된다. 최종적으로계산된 β(h) 와 β(c) 를더하면표 6.에서순방향으로계산된확률값과같지않다. 왜냐하면수식 (6.8) 에서보듯이역방향에서는시작확률을최종 β 에곱해주어야하기때문이다. 이제시작상태에서 C 와 H 에이르는확률을 β 에곱하고이두값을더하면
6.3 은닉마르코프모델 97 v (C) v (C) (3) C C C C () s (4) (6) e () H H H H (5) v (H) v (H) e o o o 3 o 4 t v (C) =.7 () P (e s)p (C s) =.7 v (C) = max(.7.5,.3.08) =.05 () P (e s)p (H s) =.3 (3) P ( C)P (C C) =.5.3 v (H) =.3 (4) P ( C)P (H C) =.5.7 v (H) = max(.3.,.7.35) =.45 (5) P ( H)P (H H) =..6 (6) P ( H)P (C H) =..4 그림 6.8 의최적의확률을찾기위한 Viterbi 격자 을곱하여구한 0.05와, H C 전이의경우인 P (C H) 과 P ( H) 을곱한후다시이전 v (H) 값 0.3을곱한 0.04를비교한다. 둘중에서더큰값인 C C 에서전이되는 0.05를취하게된다. 이런방법으로각상태에서최대의값을 v 에저장한후최종적으로가장큰확률값을가지는노드들의연쇄를구하게된다. 이제 의최적의연쇄를구하는전과정을살펴보자. 표 6.8은 Viterbi 알고리즘에의한이연쇄의확률값을단계별로정리한것이다. 표 6.8은상태 C, H의 Viterbi 값을저장하는 v 와각상태로들어오는확률값들을보여주고있다. 첫 v (C) 는 0.7이고 v (H) 는 0.3이다.
98 제 6 장은닉마르코프모델 표 6.8 Viterbi 알고리즘에의한 의확률값 상태연쇄 e v(c) 0.7 0.05 0.0784 0.076 0.0087808 v(h) 0.3 0.45 0.76 0.0744 0.037 C C C C C C C C C 0.7 0.05 0.0575 0.076 0.00764 H H C H C H C H C 0.3 0.04 0.0784 0.009408 0.0087808 H H H H H H H H 0.036 0.76 0.04 0.037 C H C H C H C H 0.45 0.03675 0.0744 0.0046 출력연쇄에따라 C 상태로들어오는전이 C C, H C 와 H 상태로들어오는 C H, H H 를앞에서설명한대로계산한후최대값을 v(c), v(h) 에저장하여최종연쇄에이르게된다. 이경우 의최적확률값은 0.037이다. 전체적으로최적의연쇄만을따라오면표 6.9 와같이전체연쇄를알수있다. 이제아이스크림수연쇄 의숨겨진상태연쇄중에서가장확률이높은 CHCHH로우리는 009년여름의날씨를추정할수있게된다. 여기서는시작에서빈숫자를가정했기때문에실제적으로는 e 연쇄에대한최대의확률연쇄가된다. Viterbi 알고리즘은이렇게각상태마다최대확률값을갖는전이만을저장한후다음단계는이최적의상태를따르게한다. 따라서최대의확률값을갖지않는연쇄는계산을하지않는다. 이예에서총 5 = 3 가지의가능한연쇄중에서처음부터최댓값을갖는연쇄의확률값만을
6.3 은닉마르코프모델 99 표 6.9 아이스크림수연쇄 의전체상태연쇄 상태연속 e v(c) 0.7 0.05 0.0784 0.076 0.0087808 v(h) 0.3 0.45 0.76 0.0744 0.037 C CC CCC CHCC CHCCC 0.7 0.05 0.0575 0.076 0.00764 H HC CHC CHHC CHCHC 0.3 0.04 0.0784 0.009408 0.0087808 HH CHH CHHH CHCHH 0.036 0.76 0.04 0.037 CH CCH CHCH CHCCH 0.45 0.03675 0.0744 0.0046 계산하여진행하기때문에불필요한연산을피할수있다. 6.3.3 문제 3: 은닉마르코프모델의학습은닉마르코프모델과관련한마지막문제는매개변수인전이확률과방출확률을어떻게학습 (training) 할수있는가에대한것이다. 앞에서의예는관찰연쇄 에대한각상태에서의전이확률과방출확률이주어진상태에서그연쇄에대한확률과최적의확률값을구하는과정에대한것이었다. 그럼이전이확률과방출확률은어떻게구할수있는지생각해보자. 우선마르코프연쇄에서이런매개변수를학습하는과정에대해살펴보자. 마르코프연쇄는상태연쇄들이숨겨져있지않고그대로드러나있기때문에특정관찰연쇄에대해어떤상태연쇄를따라야하는지를직접알수있다. 앞 6..의 Mealy 기계와같은경우한상태에서다른
참고문헌 09 3:379-440. Jeffreys, H. (948), Theory of Probability, Clarendon Press, Oxford. Jelinek, F., and R. L. Mercer (980), Interpolated estimation of Markov source parameters from sparse data, In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands. Jurafsky, D., and J. H. Martin (008), Speech and Language Processing: An Introduction to Natural Language Processing and Computational Linguistics, and Speech Recognition, nd Edition, Pearson Education International. Karttunen, L. (983), Kimmo: a general morphological processor, Texas Linguistics Forum, 6:43-43. Katz, S. M. (987), Estimation of probabilities from sparse data for the language model component of speech recognizer, IEEE Transactions on Acoustics, Speech and Signal Processing, 35-3:400-40. Kneser, R., and H. Ney (005), Improved backing-off for N-gram language modeling, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, :8-84. Ko, H., A. Perovic, T. Ionin, and K. Wechsler (006), Adult L- learners lack the Maximality Presuppostion, too. In K. U. Deen et. al (eds), The Proceedings of the Inaugural Conference on Generative Approches to Language Acquitision, North America, Honolulu, HI. Lidstone, G.J. (90), Note on the general case of the Bayes-Laplace Formula for inductive or a posteriori probabilities, Transactions of the Faculty of Actuaries, 8:8-9. Manning, C., and H. Schütze (999), Foundations of Statistical Natural Language Processing, MIT Press.
0 참고문헌 Minium, E. W., B. M. King, and G. Bear (993), Statistical Reasoning in Psychology and Education, Third Edition, John Wiley & Sons. Minium, E. W., R. C. Clarke, and T. Coladarci (998), Elements of Statistical Reasoning, John Wiley & Sons. Ney, H., U. Essen, and R. Kneser (994), On structuring probabilistic dependencies in stochastic language modeling, Computer, Speech, and Language, 8:-38. Nugues, P. M. (006), An Introduction to Language Processing with Perl and Prolog, Springer. Quinlan, J. R. (986), Induction of decision trees, Machine Learning, -:8-06. Rabiner, L. R. (989), A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 77-:57-86.