제 장확률의기초 같이정리할수있다.. n 30 일때크기 n 의표본이평균 µ, 표준편차 σ 를갖는모집단으로부터추출되었다면표본평균의표본분포는근사적으로정규분포를따른다.. 모집단이정규분포를따르면표본평균의표본분포는임의의표본크기에대하여정규분포를따른다. 즉, 중심극한정리는모집단이무슨

Similar documents
슬라이드 1

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - IPYYUIHNPGFU

statistics

G Power

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

R t-..

고객관계를 리드하는 서비스 리더십 전략

Microsoft PowerPoint - SBE univariate5.pptx

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행


(001~006)개념RPM3-2(부속)

10. ..

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

모수검정과비모수검정 제 6 강 지리통계학

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

untitled

자료의 이해 및 분석

Microsoft Word - SAS_Data Manipulate.docx

PowerPoint 프레젠테이션

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

Microsoft Word - EDA_Univariate.docx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은


제 12강 함수수열의 평등수렴

... —... ..—

01

슬라이드 1

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

확률과통계6

= ``...(2011), , (.)''

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

... —....—

슬라이드 1

PPT Template

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

Microsoft PowerPoint - LN05 [호환 모드]

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

OCW_C언어 기초


Microsoft Word - sbe_anova.docx

Microsoft PowerPoint - ANOVA pptx


용역보고서

Microsoft Word - Chapter9.doc

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

제 4 장회귀분석

R

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

표본재추출(resampling) 방법

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

<C5EBB0E8C0FBB0A1BCB3B0CBC1F5C0C7C0FDC2F7BFCDB9AEC1A6C1A1B1D7B8AEB0EDB4EBBEC E687770>


PowerPoint Presentation

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

Microsoft Word - SDSw doc

와플-4년-2호-본문-15.ps

<B0A3C3DFB0E828C0DBBEF7292E687770>

Resampling Methods

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관


수리통계학

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

chap 5: Trees

메타분석: 통계적 방법의 기초

국가기술자격 재위탁 효율성 평가

PowerPoint 프레젠테이션

Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

Microsoft PowerPoint - PDF3 SBE pptx

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]


분산분석.pages


04 Çмú_±â¼ú±â»ç

PowerPoint 프레젠테이션

체의원소를계수로가지는다항식환 Theorem 0.1. ( 나눗셈알고리듬 (Division Algorithm)) F 가체일때 F [x] 의두다항식 f(x) = a 0 + a 1 x + + a n x n, a n 0 F 와 g(x) = b 0 + b 1 x + + b m x


슬라이드 1

- 1 -

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

함수공간 함수공간, 점열린위상 Definition 0.1. X와 Y 는임의의집합이고 F(X, Y ) 를 X에서 Y 로의모든함수족이라하자. 집합 F(X, Y ) 에위상을정의할때이것을함수공간 (function space) 이라한다. F(X, Y ) 는다음과같이적당한적집합과

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Transcription:

.6 확률분포 9 z =.0 그림.5 z =.0 보다오른쪽인면적 σ =. 3 µ = 6.5 그림.6 평균 6.5 표준편차. 인정규분포 같다. z = X µ σ = 3 6.5..9 (.3) 책뒤에제시되어있는표준정규분포표에서 P (z.9) = 0.008 이다. 이제백분율에해당하는 z 값을찾는방법에대해생각해보자. 만일 백분위수 P 5 에해당하는 z 값을구하려면표준정규분포표에서면적이

제 장확률의기초 같이정리할수있다.. n 30 일때크기 n 의표본이평균 µ, 표준편차 σ 를갖는모집단으로부터추출되었다면표본평균의표본분포는근사적으로정규분포를따른다.. 모집단이정규분포를따르면표본평균의표본분포는임의의표본크기에대하여정규분포를따른다. 즉, 중심극한정리는모집단이무슨분포를하든표본크기 n 이크면표본평균 x 의분포는정규분포를하며, 표본크기가작더라도모집단이정규분포를하면표본평균의분포는정규분포를한다는것을의미한다. 표본통계량이표본평균이라고하면표.9와같은성질이있다. 표.9 표본평균의성질. 표본평균의평균 µ x 는모평균 µ 와같다.. 표본평균의표준편차 σ x 는모표준편차를 n 으로나눈것 이다. σ x = σ n 예제. 어떤집단의평균키가 7cm, 표준편차가 7cm이다. 이모집단에서 4명의확률표본을뽑아평균키를구할때표본분포의평균과 표준오차 (standard error) 를구해보자. 표본분포의평균은모평균과같기때문에 µ x = µ = 7 이다. 표본 분포의표준편차인평균의표준오차는 σ x = σ n = 7 4.08 이다. 중심극한정리로부터표본크기가 30 보다크므로표본분포는 µ = 7, σ =.08 인정규분포로근사화할수있다.

34 제 장통계의기초 여기서 µ 는모수로그값이일정하고, 표본크기 n 은, 표본을취할때 마다일정한크기로취한다면이또한일정한값을갖는다. 따라서 t- 분 포에서는표본마다값이달라지는것은정규분포와달리 x 와 s 가된다. 그림.3 은표준정규분포와자유도에따른 t- 분포를보여준다. 신뢰도 α 인경우 t-값은정규분포에서와마찬가지로임계값 t α 와 t α 사이가된다. t-분포는자유도 n 에따라분포모양이결정되 므로 n 을붙여, t α ;n, t α ;n 로나타낸다. 표본의크기가 5 이고 95% 신뢰도 (c = 0.95) 의임계값 t 0.05;4, t 0.05;4 을알아보자. 이책뒤의부록으로제공되는 t- 분포표에서신뢰 수준 95% 에서자유도 4 인값은 -.45 와.45 이다. 그림.4 는이 분포를나타낸다. c = 0.95 t c =.45 t c =.45 그림.4 자유도 4 인 t- 분포.3 카이제곱분포 카이제곱 (χ ) 분포 (chi-square distribution) 는영국의통계학자 Pearson 이고안했다. 확률변수의값을제곱하기때문에음수의값이나오지 않는다. 우선 Z, Z,...Z φ 가서로독립인표준정규분포를보이는확률

.3 카이제곱분포 35 표. 카이제곱분포의특성. 정규분포처럼연속형확률분포다.. Y χ (φ) 일때, 기댓값은다음과같다. ( ) (n )s E(Y ) = E σ = n σ E(s ) (.4) 여기서표본분산 s = S n 의기댓값은모분산과같다. 따 라서 E(s ) = σ 이고, n = φ 이다. 즉표본크기보다 이적은자유도 n 인카이제곱분포를따른다. 3. 양의왜도 (positive skewness) 를가진다. 변수일때다음과같이 Y 를정의한다. Y = Z + Z + + Z φ (.5) 한다. 확률변수 Y 는자유도 φ 인카이제곱분포라고하고다음과같이표시 Y χ (φ) (.6) 이제확률변수 Y 를계산해보자. Y 는 (.5) 에서처럼표준정규분포의 제곱의합이므로다음과같이표시할수있다. Y = Zi = ( ) X i µ σ = σ (Xi µ) (.7) = S σ 모분산 σ 의추정량으로표본분산 s = S n 을사용하므로 (.7) 은

.4 가설검정 39.4. 신뢰구간을이용한가설검정귀무가설또는대립가설을세운후이가설을받아들일지아니면기각할지를결정해야한다. 일반적으로표본의결과로얻어진 x 의값과모평균가정치 µ 와의차이를가지고가설을기각할지받아들일지를결정하게된다. 이런경우판단의기준이되는평가기준이필요하다. 표본의결과로나온 x 의값이어느정도일때귀무가설을채택할수있는지판가름할수있는평가기준이필요하다. 이평가기준에는크게신뢰구간을사용하는것과검정통계량 (test statistic) 을이용하는방법이있다. 우선신뢰구간을이용하는경우를살펴보자. 예제.5 어느인삼드링크에사포닌함량이 0mg이라고표기되어있 는데, 이함량이드링크마다적절한지, 즉많지도않고적지도않은지를알아보기위하여인삼드링크 00개를표본으로하여표본평균을구해보니 x=9.5mg이나왔다. 일반적으로모표준편차인 σ 는.0mg으로알려져있다. α = 0.05 로하여검정해보자. 이문제에서사포닌함량이 0mg이라면아무문제가되지않기때문에, 연구자가밝히고싶은것은의약품의함량이 0mg이아닐수도있다는것이다. 따라서귀무가설은 H 0 : µ = 0 이고대립가설은 H a : µ 0 이다. 신뢰구간을이용한가설검정은모평균가정치 µ 0 가신뢰구간내에들어오지않으면귀무가설을기각한다. 따라서다음과같은신뢰하한치와신뢰상한치를임계치로사용한다. x z α σ x µ 0 x + z α σ x (.9) 여기서 x = 9.5, n = 00, σ =.0 이고, z 0.05 =.96, σ x = 00 = 0. 이다. 따라서 x ± z α/ σ x = 9.5 ±.96 0. = 9.5 ± 0.39 9.08 µ 9.89

.4 가설검정 45 표.4 대립가설과검정방법. 대립가설 H a 이부등호 < 를포함하면좌측검정 (left-tailed test) 을행한다.. 대립가설 H a 이부등호 > 를포함하면우측검정 (righttailed test) 을행한다. 3. 대립가설 H a 이 를포함하면양측검정 (two-tailed test) 을행한다. 예제.8 어떤공장에서가동하는기계부품의평균수명은 30년보다 길다고주장한다. 임의로추출한부품 36개는표본평균 3.5년이고표준편차 3.5년이다. 유의수준 α = 0.0 에서위의주장을충분히뒷받침하는충분한근거가있는지알아보자. 기계부품의평균수명을 µ 로하면, 다음과같은가설이성립한다. H 0 : µ 30 H a : µ > 30 z 0 검정통계량을구하면다음과같다. 3 z 0 = x µ 0 σ/ n = 3.5 30 3.5/ 36 =.57 대립가설이 > 를포함하기때문에우측검정에해당한다. p- 값은 z 0 =.57 의오른쪽영역이다. 따라서 p- 값은 0.005( 0.9949) 이다. 이값 은 α = 0.0 보다작기때문에귀무가설을기각한다. 따라서유의수준 % 에서부품의평균수명은 30 년보다길다는주장은충분히근거가있 다. 3 n 30 이면 σ s = 3.5 이다.

.4 가설검정 47 0.05 0.05 z 0.05 z 0.05.65.96 그림. 양측검증과단측검증 (α = 0.05) 예제.9 새로운체중조절프로그램에대한광고의참가자는평균 주이내에 0kg을감량할수있다고한다. 참가자중임의로선택한 60 명의한달동안의감량을조사한결과 0kg을감량하는데평균. 주, 표준편차 3.4주로나타났다. 유의수준 α = 0.05 에서이주장을뒷받침하는충분한근거가있는지살펴보자. 참가자의평균감량시간을 µ 로하면, 다음과같은가설이성립한다. H 0 : µ = H a : µ < z 0 검정통계량을구하면다음과같다. z 0 = x µ 0 σ/ n =. 3.4/ 60 =.8 이검정은좌측검정에해당한다. p- 값은 z 0 =.8 의왼쪽영역이고 그값은 0.0344 이다. 이값은 α = 0.05 보다작기때문에귀무가설을 기각한다.

.4 가설검정 5 바탕으로한각단어의확률은다음과같다. P (new) = 588 4307668 P (companies) = 4675 4307668 이제 new 와 companies 가서로관련이없이독립적으로출현한다 고, 즉연어구성이아니라고귀무가설을설정한다. 독립적으로출현하기 때문에다음과같은확률이설정된다. H 0 : P (new companies) = P (new)p (companies) = 588 4307668 4675 4307668 3.65 0 7 귀무가설이참이라면임의적으로구성되는바이그램에서 new companies 가나오면성공, 그렇지않으면실패로하는베르누이시행이라 고생각할수있다. 이시행에서성공할확률은 3.65 0 7 이다. 이는 평균은 µ = 3.65 0 7 이고분산은 σ = p( p) 인이항분포다. 5 실제로이바이그램의확률은아주작기때문에 σ = p( p) p 로 근사화한다. 이제 t- 값을계산해보자. new companies 는 4,307,668 바이그램에 서 8 번나타난다. 따라서평균은 x = 8 4,307,668 5.59 0 7 이다. 이를바탕으로 t- 값을구하면다음과같다. t = x µ s N 5.59 0 7 3.65 0 7 5.59 0 7 4307668 0.999 α = 0.005 이고자유도 인 t- 값은.576 이다. 6 0.999 는기각역 하였다. 5 이항분포의평균과분산은각각 np, np( p) 이다. 여기서는 n 을 로하여계산 6 t- 분포표는대개자유도가 에서 30 까지인경우와그다음은 로값이제시된다.

.5 두모집단에대한통계적추측 59 예제.6 어느제강회사에서동선코일의인장강도를테스트하기위하 여 A코일 4개와 B코일 개를조사하였더니각각평균 0과표준 편차 8, 평균 6 과표준편차 0 이나왔다. 동선코일의인장강도는정규 분포를따른다고할때코일 A 가더인장강도가높다고할수있는지를 99% 신뢰구간에서검정해보자. 우선 A, B 의평균인장강도를각각 µ, µ 라고하면다음과같은 귀무가설을설정할수있다. H 0 : µ µ = 0 H a : µ µ > 0 (.8) 에의해통합표준편차 (s p ) 를다음과같이구할수있다. s p = (n )s + (n )s n + n = (4 )8 + ( )0 4 + 8.97 표준편차는다음과같다. σ x x = s p + = 8.97 n n 4 + 3.5 이를바탕으로 t- 값은다음과같이구해진다. t = ( x x ) (µ µ ) 0 6 =.3 σ x x 3.5 자유도는 4(= 4 + ) 이고, α = 0.05 이다. 이에해당하는 t- 값은.7 이다. 이검정은우측검정이기때문에기각역은 t >.7 이다. 구해진 t- 검정량.3 은기각역에있지않기때문에귀무가설을 받아들여야한다. 따라서코일 A 가인장강도가더높다는주장은충분한 근거가없다.

3. 분산분석 7 이예의전체제곱합은다음과같이계산된다. SST = (9 7.4) + (7 7.4) + (85 7.4) + (8 7.4) + (66 7.4) + (80 7.4) + (7 7.4) + (65 7.4) + (78 7.4) + (69 7.4) + (7 7.4) + (64 7.4) + (58 7.4) + (70 7.4) + (64 7.4) = 3.6 여기서전체제곱합은총 5 개의평균치에대한 5 개의점수들의편차에 기초하기때문에 4(= 5 ) 의자유도를갖는다. 이자유도는다음과 같이정의된다. 전체자유도 : df t = n 전체 (3.6) 자세히살펴보면전체제곱합 (SST) 은집단내제곱합 (SSW) 과집단간제곱합 (SSB) 의합임을알수있다. 따라서앞에서계산된전체제곱합 3.6은 SSW + SSB 의합 668 + 463.6 과같다. 이를정리하면다음과같다. SST = (X X) = (X X + X X) = { (X X) + ( X X) + (X X)( X X) } = (X X) + ( X X) + ( X X) (X X) = (X X) + ( X X), (X X) = 0 = SSW + SSB 이제집단내제곱합 SSW 와집단간제곱합 SSB 를각각의자유도로 나누면각각집단내분산추정치 s W 와집단간분산추정치 s B 를구할

76 제 3 장분산분석과회귀분석 표 3.4 일원분산분석정리 요인제곱합자유도분산추정치 F - 비 집단간 집단내 전체 모든점수들 모든점수들 모든점수들 ( X X) k s b = SSB df b (X X) n 전체 k s W = SSW df w (X X) n 전체 s b s W 이제모집단들차이에대한신뢰구간을어떻게설정할수있는지를살 펴보자. 각모집단사이의차에관한신뢰구간은다음과같이표본평균 차와정직한유의차로구할수있다. X i X j ± HSD (3.9) 여기서의예, µ µ 의신뢰구간을구해보자. X X ± HSD = 79 7.8 ±.57 = 6. ±.57 따라서 학년과 학년의평균차이는 6.37 에서 8.77 사이어디에 있으리라고 95% 확신할수있다. 지금까지살펴본일원분산분석을정리 하면표 3.4 와같다. 3.. 이원분산분석일원분산분석은하나의요인 (factor) 또는독립변수들의서로다른수준 (level) 을다루지만경우에따라두가지이상의요인들을동시에연구할필요가있다. 예를들어어떤의사가우울증을치료할때사용하는두치료법의상대적인효과와, 그것이남녀성별과관련되는지를연구하고자

3. 분산분석 85 상호작용의제곱합 (SS A B ) 은상호작용이없다고기대할때의칸평 균값들로부터실제로얻어진각각의평균값들의제곱으로구할수있다. 이는지금까지구한값들에서쉽게계산할수있다. SS A B = SS T (SS W + SS A + SS B ) (3.) 이에해당하는자유도는 df A 와 df B 를곱한값이다. df A B = (R )(C ) (3.3) 이예의 df A B = = ( )( ) 이다. 이제 F - 검정을위해분산추정, 즉모분산분석을행한다. 이를위 해 (3.) 에서살펴보았듯이네가지제곱합들 SS W, SS A, SS B, SS A B 을각각자신의자유도로나누어각각의분산을추정한다. 이 예의분산추정치는다음과같다. s W = SSW df w = 70 5.83 s A = SS A df A = 36 = 36 s B = SS B df B = 4 = 4 s A B = SS A B df A B = = 이제 s A, s B, s A B 을집단내 s W 으로나누어 F -비를구할수있다. F A = s A s W F B = s B s W = 36 5.83 6.7 = 4 5.83 0.68

88 제 3 장분산분석과회귀분석 표 3.8 이원분산분석정리 분산요인제곱합자유도분산추정치 F - 비 집단간 A A B B SSB = SSA + SSB + SSA B ( ) ( ) X + X + X A 모든점수들 na n 전체 R ( ) ( ) X + X + X B 모든점수들 n 전체 C 집단내 전체 nb A B SSA B = SST (SSW + SSA + SSB) (R )(C ) 모든점수들 X 모든점수들 모든칸들 칸 X n 칸 RC(n 칸 ) X ( X) n n 전체 전체 SSA dfa SSB dfb SSA B dfa B SSW dfw s A s W s B s W s A B s W

3. 분산분석 9 표 3.9 반복측정일원분산분석 자료제곱합자유도분산추정치 F - 비 개체간 (S) 집단간 (B) k( Xsubj X) n 개체 모든점수들 ( X X) k SSS df s SSB df b SSR 잔차 (R) SST SSB SSS df s df b df r 전체 (T) (X X) n 전체 모든점수들 s B s r 다음의실험을하였다. 5 한국인들이부정관사 a 대신에 the 를쓰는경우가많은지를알아보기위해 0명의실험자를대상으로부정관사 a 가나타나야하는곳에정관사 the 가나타나는경우를부분성 (partitive) 6 과관련하여세수준으로구분하여실험을하였다. 즉명시적인부분성 (explicit partitive) 인경우 (a), 내재적인부분성 (implicit partitive) 인경우 (b), 그리고부분성이아닌 (non-partitive) 경우 (c) 에, 부정관사 a 대신정관사 the 를남용하여쓰는횟수를측정하여 the 의출현이부분성과관련이있는지를검정하려고한다. 귀무가설은 the 의출현은부분성과관련이없다는것으로다음과같이설정된다. H 0 : µ a = µ b = µ c H : H 0 가아님 이실험에대한결과는표 3.0과같으며계산결과는표 3.로정리할수있다. 5 이예는 Ko et al.(006) 의원자료를구하여분석하였다. 6 부분성 (partitive) 은언급되는대상이이전대화에서도입된한집합의구성원중의하나로정의된다.

3. 분산분석 93 표 3. 관사사용오류에관한반복측정분산계산결과표 구분 제곱합 자유도 평균합 F -비 개체간 0.6 9.06 집단간.034 6.07 7.488 잔차 6.63 38 0.80 총합 48.93 59 실험결과에의한 F -비는 7.488이다. 그리고 α = 0.05 에서 F (, 38) 는 3.5이다. 실험결과로나온 F -비는기각역에속하기때문에귀무가설은기각된다. 즉부정관사 a 가사용되어야할곳에 the 를쓰는경우부분성에는차이가있다고할수있다. 이제어디서차이가나는지를알기위해서는일원분석에서와마찬가지로 Tukey의정직한유의차검정을할필요가있다. 일원분산분석과달리집단내평균제곱합 s W 대신에 s r 을사용한다. s HSD = q r (3.7) n 여기서 s r 0.80 이고 n = 0 이다. q 값을위한 α = 0.05 에서 df r = 38 이고 k = 3 인스튜던트화값은 3.44이다. 7 따라서정직한유의차는다음과같이계산된다. 0.80 HSD = 3.44 0 0.69 귀무가설을기각하기위해서는조건의평균차가 0.69 이상은되어야한다. a와 c의차이 0.8과 b와 c의차이.05가해당한다. 명시적으로부분성인경우와내재적으로부분성인경우가부분성이아닌경우와차이가난다는것을보여준다. 따라서 the 의남용은부분성과관련이 7 통계책에 df r = 38 에대한정확한값이제시되지않은경우가있다. 이경우 df r = 40 을사용하였다. 그직전의값, df r = 30 은 3.49 이다.

3. 회귀분석 97 대학 학년학점.5 3.0 3.5 4.0 e i (x i, y i ) (x i, y^i) a+ b xi y^= a + bx 30 340 360 380 수능원점수 그림 3.5 수능점수와학점의관계 앞서살펴본대로회귀선이적절하기위해서는실제값과추정값인직 선상의 ŷ 값차이를나타내는잔차 (residual error) e i 가가장작을때의 직선을구해야한다. 잔차는다음과같이구해진다. e i = y i ŷ i = y i (a + bx i ) (3.30) 관측치가 n 개일때이를모두반영하기위해잔차의합을구해서최소가되는값을구해야한다. 그러나잔차가 +, 로나타나서로상쇄되어그합은 0이되어버린다. 이를해소하기위해잔차의제곱합을이용한다. n n S = e i = [y i (a + bx i )] (3.3) i= i=

5. 엔트로피 43 음과같이최소한세비트가필요하다는것을의미한다. 말 말 말 3 말 4 말 5 말 6 말 7 말 8 00 00 0 00 0 0 000 만일이확률변수에대해서우리가좀더많은정보를갖고있다면 그불확실성 ( 엔트로피 ) 은줄어들것이다. 이제표 5. 과같은 8 마리의 말의우승할확률이주어졌다고하자. 표 5. 8 마리말의우승확률 말 말 말 3 말 4 말 5 말 6 말 7 말 8 4 8 6 64 64 64 64 표 5. 의엔트로피는다음과같다. i=8 H(X) = P (i) log P (i) i= = log 4 log 4 8 log 8 6 log 6 4( 64 log 64 ) = bits 개별말의우승확률의경우, 더많은정보가주어지는경우에그불확실성은낮아짐을알수있다. 이제우승확률이높은말은더적은수의비트로낮은말은더많은수의비트로전송하여보낼수있다. 가장확률이높은말은가장짧은비트 0으로, 다음은 0, 그다음은점점더긴비트로하여, 0, 0, 00, 0, 0, 로전송하면, 평균 비트가필요함을알수있다. (5.) 의엔트로피공식에서음수

48 제 5 장정보이론 : 엔트로피 이주변확률은음절단위로되어있다. 따라서자소별확률은이음절 기반의주변확률에 을곱하여구할수있다. 즉자음 p 의주변확률 8, t 의주변확률 3 4, k 의주변확률 8, a 의주변확률, i 의주변 확률 4, u 의주변확률 4 은음절단위의관점에서보면중복되어있기 때문에, 을곱하여표 5.4와같이구할수있다. 표 5.4 음절단위에서의글자확률 글자 p t k a i u 확률 6 3 8 6 4 8 8 이제음절을고려한자음과모음의결합엔트로피 H(C, V ) 를구해 보자. (5.0) 을적용하기위해서는 H(C) 와 H(V C) 도필요하다. H(C) = 8 3 + 3 4 ( log 3) = 9 4 3 log 3bits 4.06bits H(V C) = p(c = c)h(v C = c) c=p,t,k = ( 8 H, ), 0 + 3 ( 4 H, 4, ) + ( 4 8 H, 0, ) = 8 + 3 ( 4 + ) 4 = 4 + 3 4 3 = 8 bits =.375bits

50 제 5 장정보이론 : 엔트로피 H(X, Y ) H(X Y ) I(X; Y ) H(Y X) H(X) H(Y ) 그림 5. 상호정보와엔트로피의관계 일반적으로상호정보 I(X; Y ) 는앞에서살펴본엔트로피도출과정 과관련하여다음과같이규정할수있다. I(X; Y ) = H(X) H(X Y ) = H(X) + H(Y ) H(X, Y ) = P (x) log P (x) + P (y) log P (y) x y P (x, y) log P (x, y) x,y = x,y P (x, y) log P (x, y) P (x)p (y) (5.4) 여기서 H(X X) = 0 이므로 H(X) = H(X) H(X X) = I(X; X) 가된다. 따라서엔트로피가자신의정보 (self-information) 를나타내는기제임을알수있다. 언어처리에서많이쓰이는상호정보는엄밀히말해서점수렴상호정보 (pointwise mutual information) 다. 즉, 원래의상호정보가두확률변수 X 와 Y 사이의정보에관한것이라면점수렴상호정보는두

5.7 최대엔트로피 6 비율은통계학에서승산 (odds) 이라불리는것으로 p p 로구해진다. 이 승산비는 0 보다크고무한대보다작은값으로나타나며, 확률값이 0 에 가까우면작은값으로, 에가까우면큰값으로나타난다. 예를들어어 떤사건이일어날확률이 0.8 이고일어나지않을확률이 0. 라면일어날 사건의승산비 (odds ratio) 는 0.8 0. = 4 이다. 이제이선형모형에서결과 y 가참일승산은다음과같이구해진다. P (y = true x) P (y = true x) = w f (5.38) 승산비는 0 과무한대사이의값으로나타나기때문에이수식의좌변 과우변은같지않다. 즉, 좌변은 0 과무한대우변은 와 사이의 값으로나타나기때문에좌변에자연로그를붙여양쪽이다 와 사이의값을취하도록해야한다. ( ) P (y = true x) ln = w f (5.39) P (y = true x) 승산의로그를취한것을로짓함수 (logit function) 라한다. ( ) P (x) logit(p (x)) = ln P (x) (5.40) P (y = true) 를구하기위해수식 (5.39) 를전개해보자. ( ) P (y = true x) ln = w f P (y = true x) P (y = true x) P (y = true x) = ew f P (y = true x) = ( P (y = true x))e w f P (y = true x) + P (y = true x)e w f = e w f P (y = true x) = e w f P (y = true x)e w f P (y = true x)( + e w f ) = e w f

5.7 최대엔트로피 65 필요가있다. 다음은이를위해설정된몇가지자질이다. 3, 해당형태소가 나 이고, c=vx; f (c, x) = 0, 그렇지않으면., 이전형태소태그가 EC 이고, c=vx; f (c, x) = 0, 그렇지않으면., 다음형태소가 ETM 이고, c=vx; f 3 (c, x) = 0, 그렇지않으면., 해당형태소가 나 이고, c=np; f 4 (c, x) = 0, 그렇지않으면., 이전형태소태그가 ETM 이고, c=np; f 5 (c, x) = 0, 그렇지않으면., 다음형태소태그가 JX 이고, c=np; f 6 (c, x) = 0, 그렇지않으면. 여기서의자질은예문과실제코퍼스에서좌우에나타나는형태소위주로설정되었다. 실제로는자료에따라다른종류의다양한자질이설정될수있다. f 에서 f 3 까지는 VX태그를위한자질이며, f 5 에서 f 6 은 NP태그를위한자질이다. 자질은실제관찰된자료를반영해야하기때문에각각의형태소와해당태그를연결할수있는자질을예로들었다. 또 f 5 에서는이예문의 난 이동사의관형형으로쓰이는것과대조적으로대명사 나 를자질로하기위해앞에또다른관형형 던 구성이오는것을가정하였다. 즉, 관형형이연달아나오는것은불가능하다고보고그럴경우는대명사 나 로쓰인다는것을자질화하였다. 3 태그는세종코퍼스에서사용되는태그다. VX는동사를, EC는연결어미를, ETM 은관형형어미를, NP는대명사를, JX는보조조사를나타낸다.

6.3 은닉 마르코프 모델 87 start 0.7 0.3 0.4 0.3 C 0.6 H 0.7 0.5 0.5 0. 0.8 그림 6.5 날씨 상태와 아이스크림 수의 연쇄를 위한 은닉 마르코프 모델 표 6.4 전이 확률과 방출 확률 P (.. C) P (.. H) P (.. start) P (..) 0.5 0. 0.0 P (..) 0.5 0.8 0.0 P (e..) 0.0 0.0.0 P (C..) 0.3 0.4 0.7 P (H..) 0.7 0.6 0.3 작상태에서 빈글자 (empty output) 를 출력할 확률을 나타낸다. 이렇게 은닉 마르코프 모델을 설정해 놓고 나면 다음의 세 가지에 대한 문제를 제기할 수 있다. 문제 (확률의 계산) : 설정된 은닉 마르코프 모델 λ = (A, B) 과 관 찰된 연쇄 O 가 있을 때 이 모델에서 이 연쇄의 확률 P (O λ) 은 어떻게 계산할 수 있는가? 문제 (디코딩) : 주어진 연쇄 O 와 은닉 마르코프 모델 λ = (A, B) 에 여기서 A 는 앞의 은닉 마르코프 정의에 의해 상태들 간의 전이 확률을 나타내며, B 는 관찰되는 대상의 특정 상태에서의 방출 확률이다.

6.3 은닉마르코프모델 9 α (C) α (C) α 3(C) (3) C C C C () s (4) (6) e () H H H H (5) α (H) α (H) α 3(C) e o o o 3 o 4 t α (C) =.7 () P (e s)p (C s) =.7 α (C) =.7.5 +.3.08 =.9 () P (e s)p (H s) =.3 α 3(C) =.09.5 +.8.3 =.097 (3) P ( C)P (C C) =.5.3 α (H) =.3 (4) P ( C)P (H C) =.5.7 α (H) =.3. +.7.35 =.8 (5) P ( H)P (H H) =..6 α 3(C) =.8.48 +.09.35 =.8003 (6) P ( H)P (C H) =..4 그림 6.6 아이스크림수 연쇄의순방향격자 로전이할확률 P ( H)P (C H) 을곱한다. 이제이두확률값을더하여 α (C) 에저장한다. 만일 α 를설정하지않는다면매단계별로앞에서계산했던과정을반복해야한다. 이런식으로각단계별값을저장하는 α t (j) 는다음과같이형식화될수있다. N α t (j) = α t (i)a ij b i (o t ) (6.5) i= 즉, 순방향매개변수 α t (j) 는그전에계산된 α t 값에 i 에서 j 상태로들어오는전이확률 (a ij ) 과 i 상태에서방출되는확률 b i (o t ) 값들을

94 제 6 장은닉마르코프모델 하여더하거나, 역방향으로뒤에서부터첫관찰대상에이르기까지의 β 값을계산하여구할수있다. 역방향계산에서는관찰대상의끝에서부터첫글자, β 에이른후여기에다시시작확률 (π) 을곱하여전체연쇄의확률값을구해야한다. 이제아이스크림수 의역방향으로계산된결과를표 6.6에서살펴보자. 표 6.6 역방향에의한 abab 의확률값 관찰대상 e β(c) 0.5 0.355 0.0085 0.0777355 β(h) 0.8 0.36 0.7888 0.095336 역방향은관찰되는연쇄의역순으로계산이이루어진다. 따라서 가먼저계산된다. 여기서는관찰대상의끝에서는반드시종결 (end) 상태로전이해야하고이때빈글자가방출되는것으로가정한다. 그래서빈글자에대한확률 로시작한다. 여기서주의해야할것은역방향관점에서이해되는전이와방출확률이다. 예로 의 β(c) 의값이계산되는과정을살펴보자. 우선이전에계산되어온 의 β(c) 0.355에 C C 전이확률 0.3과 C 에서 를방출할확률 0.5를곱한것과 의 β(h) 의 0.36에 C H 의전이확률 0.7과 C 에서 를방출할확률 0.5 를곱한것을서로더하게된다. 여기서 의 β(h) 에서순방향이라면 H C 의전이확률을곱해야하지만 (6.7) 에서살펴본대로, 역방향이기때문에순방향으로는 C 에서 H 로전이되는것이므로 C H 의확률을곱하게된다. 최종적으로계산된 β(h) 와 β(c) 를더하면표 6.에서순방향으로계산된확률값과같지않다. 왜냐하면수식 (6.8) 에서보듯이역방향에서는시작확률을최종 β 에곱해주어야하기때문이다. 이제시작상태에서 C 와 H 에이르는확률을 β 에곱하고이두값을더하면

6.3 은닉마르코프모델 97 v (C) v (C) (3) C C C C () s (4) (6) e () H H H H (5) v (H) v (H) e o o o 3 o 4 t v (C) =.7 () P (e s)p (C s) =.7 v (C) = max(.7.5,.3.08) =.05 () P (e s)p (H s) =.3 (3) P ( C)P (C C) =.5.3 v (H) =.3 (4) P ( C)P (H C) =.5.7 v (H) = max(.3.,.7.35) =.45 (5) P ( H)P (H H) =..6 (6) P ( H)P (C H) =..4 그림 6.8 의최적의확률을찾기위한 Viterbi 격자 을곱하여구한 0.05와, H C 전이의경우인 P (C H) 과 P ( H) 을곱한후다시이전 v (H) 값 0.3을곱한 0.04를비교한다. 둘중에서더큰값인 C C 에서전이되는 0.05를취하게된다. 이런방법으로각상태에서최대의값을 v 에저장한후최종적으로가장큰확률값을가지는노드들의연쇄를구하게된다. 이제 의최적의연쇄를구하는전과정을살펴보자. 표 6.8은 Viterbi 알고리즘에의한이연쇄의확률값을단계별로정리한것이다. 표 6.8은상태 C, H의 Viterbi 값을저장하는 v 와각상태로들어오는확률값들을보여주고있다. 첫 v (C) 는 0.7이고 v (H) 는 0.3이다.

98 제 6 장은닉마르코프모델 표 6.8 Viterbi 알고리즘에의한 의확률값 상태연쇄 e v(c) 0.7 0.05 0.0784 0.076 0.0087808 v(h) 0.3 0.45 0.76 0.0744 0.037 C C C C C C C C C 0.7 0.05 0.0575 0.076 0.00764 H H C H C H C H C 0.3 0.04 0.0784 0.009408 0.0087808 H H H H H H H H 0.036 0.76 0.04 0.037 C H C H C H C H 0.45 0.03675 0.0744 0.0046 출력연쇄에따라 C 상태로들어오는전이 C C, H C 와 H 상태로들어오는 C H, H H 를앞에서설명한대로계산한후최대값을 v(c), v(h) 에저장하여최종연쇄에이르게된다. 이경우 의최적확률값은 0.037이다. 전체적으로최적의연쇄만을따라오면표 6.9 와같이전체연쇄를알수있다. 이제아이스크림수연쇄 의숨겨진상태연쇄중에서가장확률이높은 CHCHH로우리는 009년여름의날씨를추정할수있게된다. 여기서는시작에서빈숫자를가정했기때문에실제적으로는 e 연쇄에대한최대의확률연쇄가된다. Viterbi 알고리즘은이렇게각상태마다최대확률값을갖는전이만을저장한후다음단계는이최적의상태를따르게한다. 따라서최대의확률값을갖지않는연쇄는계산을하지않는다. 이예에서총 5 = 3 가지의가능한연쇄중에서처음부터최댓값을갖는연쇄의확률값만을

6.3 은닉마르코프모델 99 표 6.9 아이스크림수연쇄 의전체상태연쇄 상태연속 e v(c) 0.7 0.05 0.0784 0.076 0.0087808 v(h) 0.3 0.45 0.76 0.0744 0.037 C CC CCC CHCC CHCCC 0.7 0.05 0.0575 0.076 0.00764 H HC CHC CHHC CHCHC 0.3 0.04 0.0784 0.009408 0.0087808 HH CHH CHHH CHCHH 0.036 0.76 0.04 0.037 CH CCH CHCH CHCCH 0.45 0.03675 0.0744 0.0046 계산하여진행하기때문에불필요한연산을피할수있다. 6.3.3 문제 3: 은닉마르코프모델의학습은닉마르코프모델과관련한마지막문제는매개변수인전이확률과방출확률을어떻게학습 (training) 할수있는가에대한것이다. 앞에서의예는관찰연쇄 에대한각상태에서의전이확률과방출확률이주어진상태에서그연쇄에대한확률과최적의확률값을구하는과정에대한것이었다. 그럼이전이확률과방출확률은어떻게구할수있는지생각해보자. 우선마르코프연쇄에서이런매개변수를학습하는과정에대해살펴보자. 마르코프연쇄는상태연쇄들이숨겨져있지않고그대로드러나있기때문에특정관찰연쇄에대해어떤상태연쇄를따라야하는지를직접알수있다. 앞 6..의 Mealy 기계와같은경우한상태에서다른

참고문헌 09 3:379-440. Jeffreys, H. (948), Theory of Probability, Clarendon Press, Oxford. Jelinek, F., and R. L. Mercer (980), Interpolated estimation of Markov source parameters from sparse data, In Proceedings of the Workshop on Pattern Recognition in Practice, Amsterdam, The Netherlands. Jurafsky, D., and J. H. Martin (008), Speech and Language Processing: An Introduction to Natural Language Processing and Computational Linguistics, and Speech Recognition, nd Edition, Pearson Education International. Karttunen, L. (983), Kimmo: a general morphological processor, Texas Linguistics Forum, 6:43-43. Katz, S. M. (987), Estimation of probabilities from sparse data for the language model component of speech recognizer, IEEE Transactions on Acoustics, Speech and Signal Processing, 35-3:400-40. Kneser, R., and H. Ney (005), Improved backing-off for N-gram language modeling, Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing, :8-84. Ko, H., A. Perovic, T. Ionin, and K. Wechsler (006), Adult L- learners lack the Maximality Presuppostion, too. In K. U. Deen et. al (eds), The Proceedings of the Inaugural Conference on Generative Approches to Language Acquitision, North America, Honolulu, HI. Lidstone, G.J. (90), Note on the general case of the Bayes-Laplace Formula for inductive or a posteriori probabilities, Transactions of the Faculty of Actuaries, 8:8-9. Manning, C., and H. Schütze (999), Foundations of Statistical Natural Language Processing, MIT Press.

0 참고문헌 Minium, E. W., B. M. King, and G. Bear (993), Statistical Reasoning in Psychology and Education, Third Edition, John Wiley & Sons. Minium, E. W., R. C. Clarke, and T. Coladarci (998), Elements of Statistical Reasoning, John Wiley & Sons. Ney, H., U. Essen, and R. Kneser (994), On structuring probabilistic dependencies in stochastic language modeling, Computer, Speech, and Language, 8:-38. Nugues, P. M. (006), An Introduction to Language Processing with Perl and Prolog, Springer. Quinlan, J. R. (986), Induction of decision trees, Machine Learning, -:8-06. Rabiner, L. R. (989), A tutorial on hidden Markov models and selected applications in speech recognition, Proceedings of the IEEE, 77-:57-86.