22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

Similar documents

슬라이드 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

R t-..

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

(001~006)개념RPM3-2(부속)

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

statistics

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

자료의 이해 및 분석

G Power

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

확률과통계6

Microsoft Word - SAS_Data Manipulate.docx

Microsoft PowerPoint - IPYYUIHNPGFU

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt


제 4 장회귀분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

비선형으로의 확장

슬라이드 1

용역보고서

확률 및 분포

<BCF6BFE4B0ADB4DC322E687770>

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Chapter 8 단순선형회귀분석과 상관분석

untitled

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

PowerPoint 프레젠테이션

금오공대 컴퓨터공학전공 강의자료

<4D F736F F F696E74202D2035BBF3C6F2C7FC5FBCF8BCF6B9B0C1FA2E BC8A3C8AF20B8F0B5E55D>

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

텀블러514

실험 5

모수검정과비모수검정 제 6 강 지리통계학

OCW_C언어 기초

에너지경제연구 제13권 제1호

표본재추출(resampling) 방법

untitled

Microsoft Word - LectureNote.doc

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

도형의닮음 1 강 - 닮은도형과닮음중심 사이버스쿨우프선생 닮음도형 : 일정한비율로확대또는축소하였을때닮음모양의도형 기호 : ABCD A'B'C'D' [ 예제 1 ] 그림에서와같이두닮은도형 ABCD 와 A'B'C'D' 에서대응점, 대


PowerPoint 프레젠테이션

chap 5: Trees

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Resampling Methods

01

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]


31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

PowerPoint 프레젠테이션

기본도형과작도 1 강 - 연습문제 1. 오른쪽그림과같이직선l 위에점,, 가있을때, 옳지않은것은? 1 = 2 = 3 = 직선l 4 = 5 = l 2. 오른쪽그림에서 = = 이다. 다음( ) 안에알맞은수를쓰시오. 1 =( 2 =( 3 =( 4 =( ) ) ) ) 3. 한평

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

Microsoft PowerPoint - chap06-2pointer.ppt

슬라이드 1

R Cookbook

슬라이드 1

8. ARIMA 모형 (ARIMA Procedure) 8.1 ARMA(AutoRegressive Moving-Average) 모형 ARIMA 모형의기본형태 계절형 ARIMA 모형 8.2 ARIMA modeling 과정 데이터 모형의식별 (identification) 모

Microsoft PowerPoint Predicates and Quantifiers.ppt

온습도 판넬미터(JTH-05) 사양서V1.0

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

낙랑군

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

R


Microsoft PowerPoint - LN05 [호환 모드]

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

= ``...(2011), , (.)''

슬라이드 1

Jeeshim & KUCC625 (08/04/2009) Statistical Data Analysis Using R:22 6. 집단간평균비교 집단간평균을비교하는것은기본방법이다. 따라서비교할변수는평균을계산할수있어야하고, 의미있게해석할수있어야한다. 두집단

제 1 부 연구 개요

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

¾DÁ ÖÖ„�Àº¨Ö´ä


<32332D322D303120B9E6BFB5BCAE20C0CCB5BFC1D6312D32302E687770>

실사구시학파의 실증적 학풍이 일어나므로 서구적인 과학사상의 유입을 본 것 등이 인식 의 대상이 될 것이다. 그러나 이조 봉건사회 최종의 절대적 왕권주의자 대원군에 의하여 그 싹은 잘리고 말았다. 따라서 다단한 전기가 될 근대적 개방에 의하여 재건하려던 서구적 교육 즉

* pb61۲õðÀÚÀ̳ʸ

<BCF6B8AEBFB5BFAA28B0A1C7FC295FC2A6BCF62E687770>

집합 집합 오른쪽 l 3. (1) 집합 X 의각원소에대응하는집합 Y 의원소가단하나만인대응을 라할때, 이대응 를 X 에서 Y 로의라고하고이것을기호로 X Y 와같이나타낸다. (2) 정의역과공역정의역 : X Y 에서집합 X, 공역 : X Y 에서집합 Y (3) 의개수 X Y

특집-5

Microsoft PowerPoint - chap04-연산자.pptx

10. ..

PowerPoint 프레젠테이션

MATLAB and Numerical Analysis

슬라이드 1

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

Visual Basic 반복문

스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

Microsoft Word - SPSS_MDA_Ch6.doc

Transcription:

22 장정규성검정과정규화변환 22.1 시각적방법 22.1.1 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를 판단하는시각적분석방법이다. Q-Q 플롯은자료의분위수와특정( 이론적) 분포의분위수를구하여산점도로나타내거나, 두 개의자료셋으로부터각각분위수를구하여산점도로나타낸그림이다. 따라서 Q-Q 플롯에서 점들이 45 도기울기의직선상에놓이면, 자료가해당분포를잘따르거나두모집단분포가 같다고해석할수있다. Q-Q 플롯의특별한경우로정규 Q-Q 플롯(normal Q-Q plot) 또는정규확률그림(normal probability plot) 은데이터가정규분포를따르는지에대한그림으로, R에서는다음의함수를 이용한다. qqnorm(y,...) # 한개의자료셋 qqline(y,...) qqplot(x, y,...) # 두개의자료셋 > ## qqnorm() 함수적용예: 난수이용 > y <- rt(200, df=5) > par(mfrow=c(1,2)) > qqnorm(y); qqline(y, col=2) > qqplot(y, rt(300, df=5))

22.1.2 작성원리 (a) Q-Q 플롯의작성원리 개의자료가균일분포 을따른다면, 크기순으로배열된자료 ( ) 가다음의 개구간 에순서대로한개씩포함되는것이이상적일것이다. 즉, 자료가균일분포를따른다면자료 는 번째구간의중간값(middle points) 인 을가질것으로기대할수있다. Q-Q 플롯은자료의분위수( 자료값에해당) 를 로, 이론적분 포로부터의기댓값을 로하는 을산점도로나타낸것이다. 직선 상에점들이놓이게되면, 균일분포를잘따른다고 할수있다. 자료가균일분포를따르는지에대한 Q-Q 플롯은경험분포함수와매우유사하다. 경험분포함 수는 를계단함수의형태로나타낸것으로, Q-Q 플롯과는두축이바뀐차이가있 다. 아래의그림은균일분포로부터추출된난수 5개의자료에대한이론적분포함수와경험적분포 함수를나타낸다. 또한자료에대한이론적분위수를구하는그림을나타낸다.

(a) (b) (c) [그림 22.1] 균일분포의 난수 5개에 대한 (a)이론적 분포함수, (b)경험적 분포함수, (c) 5개 점 에 대한 기댓값 [그림 22.2] 균일분포로 부터의 난수 5개에 대한 Q-Q 플롯(왼쪽 그림)과 난수 100개에 대한 Q-Q 플롯(오른쪽 그림) (b) 정규확률그림의 작성원리 만약 주어진 자료( )가 모수( )가 미지인 정규분포를 따르는지는 다음의 두 방법 을 사용한다. ⅰ) 의 표준화된 자료 를 이용하여 를 산점도로 나타내고, 직선 를 기준선(reference line)으로 사용하거나 ⅱ) 원자료 를 이용하여 를 산점도로 나타내고, 직선

를 기준선으로 시용한다. 여기서, 과 는 와 에 대한 추정값이다. 아래의 그림은 표준정규분포로부터 추출된 난수 5개의 자료에 대한 이론적 분포함수와 경험적 분위수 산출 과정을 보여준다. (a) (b) (c) [그림 22.3] 표준정규분포의 난수 5개에 대한 (a)이론적 분포함수, (b)경험적 분포함수, (c) 5 개점에 대한 기댓값 [그림 22.4] 표준정규분포로 부터의 난수 5개, 100개, 1000개에 대한 Q-Q 플롯

22.2 사피로-윌크검정 사피로- 윌크(Shapiro-Wilk) 검정은자료가정규분포로부터나왔는지에대한강력한검정이다 ( 특히소표본의경우). 자료로부터구해진사피로- 윌크검정통계량의값은, 그값이작을수록 정규분포로부터벗어난정도가크다고할수있는데, 정규확률그림에서의상관계수에대한근 사적측도값으로생각될수있으며이는매우흥미로운사실로생각된다. shapiro.test() > ## shapiro.test() 함수의적용예: > set.seed(1000) 난수이용 > x.norm <- rnorm(n=100, m=10, sd=2) > shapiro.test(x.norm) Shapiro-Wilk normality test data: x.norm W = 0.99158, p-value = 0.7902 ------------------------------ ( 해석) 유의수준 5% 에서데이터가정규분포를따른다고할수있다.

22.3* 기타정규성검정 데이터셋이정규성(normality) 을만족하는지에대한검정은매우다양하다. 앞서소개한피어 슨카이제곱검정과콜모고로프- 스미르노프검정이외에도많은검정법이있다. 콜모고로프-스미르노프검정 ks.test() 피어슨카이제곱검정 chisq.test{stats} pearson.test{nortest} Jarque-Bera 검정은경제시계열자료의정규성검정에많이사용된다. 이방법은왜도 (skewness) 와첨도(kurtosis) 에기초한검정법으로, R 에서는다음함수를이용한다. jarque.bera.test{tseries} R 패키지 {nortest} 에서는정규성검정을수행하는다양한함수를제공한다. Anderson-Darling 검정은콜모고로프- 스미르노프(K-S) 검정의변형으로, 기각치의계산 에특정분포를이용한다. 정규, 로그- 정규, 지수, 와이블, 극단치 Ⅰ형, 로지스틱분포에대한 검정을제공한다. ad.test{nortest} Cramer-Von Mises 검정은경험분포함수와이론적분포간의면적을검정통계량( ) 으 로사용하는방법이다 cvm.test{nortest} Lillifors 검정은콜모고로프- 스미르노프검정의변형으로, 이검정에서평균과분산을모 르는경우자료로부터추정된값을사용하여검정을수행한다. lillie.test{nortest} 이외에도 Shapiro-Francia 검정과피어슨카이제곱검정을제공한다. sf.test{nortest} pearson.test{nortest}

22.4* 정규화 변환: 박스-콕스 변환 박스-콕스 변환(Box-Cox transformation)은 분산안정화 및 정규화를 위한 변환을 수행한다. 이 변환은 원자료( )에 대해 다음의 변환을 수행한다. log 위 변환에서 값은 원자료( )로부터 추정되며, 변환된 자료( )는 정규분포에 가까운 형태를 취하게 된다. 이 변환은 멱 변환(power transformation)으로도 알려져 있다. R에서 박스-콕스 변환은 다음 함수를 이용한다. boxcox{mass} box.cox{car} box.cox.power{car} [예제 1] 박스-콕스 정규화 변환 > x <- rexp(1000) # 지수분포로부터 난수 발생 > par(mfrow=c(1,2)) > hist(x) > qqnorm(x) # 정규확률그림 > par(mfrow=c(1,1)) > boxcox(x~1) # 로그-가능도 프로파일

> p <- box.cox.powers(x) # 박스-콕스변환의람다추정 > y <- box.cox(x, p$lambda) # 박스-콕스변환 > par(mfrow=c(1,2)) > hist(y) > qqnorm(y) # 변환된자료의정규확률그림 ------------------------------------------------------------- ( 해석) 치우침이강한원자료가박스-콕스변환이후정규분포에가까운형태로바뀌었음을알수있다. [ 예제 2] 선형모형에서의박스-콕스변환 선형모형에서의중요한가정가운데하나는오차항에대한정규성가정이다. 이가정은예측 변수가주어질때, 반응변수에대한정규성가정과같다. 여기서는선형모형의적합결과잔 차의분포가정규성을벗어날경우, 잔차가정규성을만족하도록하는반응변수의변환을찾 는다.

> library(faraway) > data(ozone) # ozone 자료는 LA 지역의오존과기상과의관계자료임 > head(ozone) O3 vh wind humidity temp ibh dpg ibt vis doy 1 3 5710 4 28 40 2693-25 87 250 33 2 5 5700 3 37 45 590-24 128 100 34 3 5 5760 3 51 54 1450 25 139 60 35 4 6 5720 4 69 35 1568 15 121 60 36 5 4 5790 6 19 45 2631-33 123 100 37 6 4 5790 3 25 55 554-28 182 250 38 > md <-lm(o3~temp+humidity+ibh, data=ozone) # 모형적합 > summary(md) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -1.049e+01 1.616e+00-6.492 3.16e-10 *** temp 3.296e-01 2.109e-02 15.626 < 2e-16 *** humidity 7.738e-02 1.339e-02 5.777 1.77e-08 *** ibh -1.004e-03 1.639e-04-6.130 2.54e-09 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 4.524 on 326 degrees of freedom Multiple R-squared: 0.684, Adjusted R-squared: 0.6811 F-statistic: 235.2 on 3 and 326 DF, p-value: < 2.2e-16 > ## 오차에대한가정검토 > plot(md, which=1) # 적합값에대한잔차그림 위그림에서잔차의분산이일정하지않음을알수있다. 따라서반응변수에대해박스-콕스변환을적용한다.

> ## 박스-콕스의 멱 변환 > library(mass) > bc <- boxcox(md, plotit=t) > ## 에 대한 보다 자세한 정보를 얻기 위해 범위를 지정 > bc <- boxcox(md, plotit=t, lambda=seq(0,0.8,by=0.1)) > ## 최적의 값 > which.max(bc$y) [1] 35 > (lambda <- bc$x[which.max(bc$y)]) [1] 0.2747475 > ## 변환된 반응변수((O3^lambda)를 이용하여 새로운 모형을 적합 > md_best <- lm(o3^lambda~temp+humidity+ibh, data=ozone) > summary(md_best) Coefficients: Estimate Std. Error t value Pr(> t )

(Intercept) 8.779e-01 7.176e-02 12.233 < 2e-16 *** temp 1.521e-02 9.365e-04 16.242 < 2e-16 *** humidity 3.479e-03 5.946e-04 5.850 1.19e-08 *** ibh -5.610e-05 7.274e-06-7.711 1.52e-13 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 Residual standard error: 0.2009 on 326 degrees of freedom Multiple R-squared: 0.7161, Adjusted R-squared: 0.7135 F-statistic: 274.1 on 3 and 326 DF, p-value: < 2.2e-16 > plot(md_best, which=1) 변환된반응변수에대한잔차그림은일정한분산을가짐을알수있다. 이에더해, 새로운 모형의성능이더우수함을알수있다( 다중상관계수: 0.7161 vs 0.684).

22 장연습문제 1. morley 자료에서빛의속도(Speed) 가정규분포를따르는지를알아보고자한다. (a) 정규확률그림을그리고, 이를해석하여라. (b) 사피로- 윌크검정을수행하여라. 2. trees 자료에대해물음에답하여라. (a) 체적(Volume) 변수가정규분포를따르는지를검정하여라. (b) 박스- 콕스변환을통해정규화변환을실시하여라. 그결과를정규확률그림으로비교하여 라. (c) 변환된자료에대해정규성검정을실시하여라. 3. mtcars 자료에서연비(mpg) 를마력(hp) 과무게(wt) 변수로모형화하고자한다. (a) 다중선형모형을적합하고잔차분석을실시하여라. (b) 잔차가정규분포를따르는가? (c) 잔차가정규분포를따르도록연비(mpg) 변수에대한적절한변환을실시하여라. (d) 변환된변수에대해다중선형모형을적합하고, 잔차에대한정규성검토를실시하여라.