R 과함께하는통계학의이해
빅북이라명명된이책은지식공유의세계적인흐름에동참하고지적인업적들이세상과인류의지식이되도록하며, 누구나쉽게접근하고활용할수있는환경을만들고자한다. 이책의저작권은빅북 (www.bigbook.or.kr) 에있으며모든용도로활용할수있다. 다만상업용출판을하고자하는경우에는사전에문서로된허락을받아야한다. 공유와협력의교과서만들기운동본부
R 과함께하는 통계학의이해 최용석 부산대학교자연과학대학통계학과
R 과함께하는 통계학의이해
함께만들고함께나누는공유의지식! 인류의지식은개인의것이기에앞서문화의유산입니다. 우리는물려받은지식의토대위에지식 을창조한것이며이는다음세대도그러할것입니다. 우리의삶을풍요롭게하는지식은공기와 같이공유되어야하며이를통해더나은지식창조가가능하다고믿습니다. 이제지식은상아탑을넘어시민사회의참여가필요합니다. 이는많은전문가들이다양한지식을가지고있으며지식의변화속도는상상하기어려울정도로빠르기때문입니다. 고등교육기관과시민들이협력한다면다양한견해를담은새롭고혁신적인지식이창조될수있을것이며, 함께나누고공유한다면지식은인류의삶에더큰기여를할수있을것입니다. 우선적으로는교육을위한지식들이공유되어져야하며이는모두에게평등하게제공되어야합 니다. 그리하여문화적인유산인지식이인종과성별그리고지위와부의차이에의하지아니하고 필요로하는모든사람들에게다가가그들에게보다나은삶이마련되어야합니다. 고등교육기관의지식창조활동결과물들도이를배워야할학생들에게효과적으로공유될필요 가있으며, 우리는이를위한노력을경주할것입니다. 이제새롭고수준높은지식을바라는우리 이웃들의목마름을채우기위하여작지만먼걸음을시작합니다. 뜻있는많은분들의도움으로먼길이외롭지않기를바랍니다. 공유와협력의교과서만들기운동본부
머리말 I N T R O D U C T I O N 통계학 (Statistics) 은불확실하고잘알려져있지않은사실과대상에대한통계정보를얻기위 해이와관련된자료 (data) 를수집하고, 그자료를요약정리하여해석하며, 의사결정을위한결 론이나일반성등을이끌어내는데필요한이론과방법을과학적으로제시하여주는학문이다. 본교재는시중에많은통계학입문수준의내용과유사하지만 [ 보기 ] 를통하여실제문제를이 해하고풀이하는과정을보여주는데충실히하였다. 대부분각장의마지막절의 <R- 프로그램 실습 > 은 [ 보기 ] 에서제시된통계계산의편의성을위해마련되어있다. 특히이책의구성과내용의간략한요약은다음과같다. 1 장통계학의이해우리주변에서먼저통계가어떻게활용되는지를살펴보고여론조사나실험 계획에의한자료의수집과자료의구성요소인개체 (observation) 와변수 (variable) 에대한이 해, 그리고이를통한자료의종류를소개한다. 2 장자료의정리및요약표본으로부터정보를획득하기위해주어진자료에대해효율적인방 법으로정리및요약하는기법들을소개한다. 정리및요약의기법에는표나그림을이용할수도 있고, 수치적정보를이용할수도있다. 3 장이산확률변수및분포확률변수의특징을이해하기위해이산형확률변수를이용하여기 대값과분산을계산하는방법을익히고, 더불어이산확률분포중에가장대표적인이항분포 (binomial distribution) 를활용하는방법을익힌다. 4 장연속확률변수및분포연속확률변수와연속확률변수의확률분포를나타내는확률밀도함 수 (probability density function) 의특징을익히고, 더불어연속확률분포중에가장대표적 인정규분포 (normal distribution) 를활용하는방법을익힌다.
5장표집분포와중심극한정리표본의반복추출을통해나타나는표본평균이가질수있는값들의특징을파악하고, 표본평균의기대값과분산을파악한다. 더불어모집단의확률분포와는무관하게표본의크기가충분히큰경우표본평균의확률분포는정규분포를따르게된다는중심극한정리에대해알아본다. 6 장추정표본으로부터획득한수치적정보즉, 통계량을이용하여실제관심의대상인모수의 참값에대해알아가는추정의방법을익힌다. 7 장가설검정 : 한집단의비교제기된주장의타당성을검정할때통계적가설검정의문제를 다루며한집단의모평균과모비율을표본의크기에따른대표본과소표본에서다루려한다. 특 히, 기각역을활용하거나유의확률값에의한검정방법을소개한다. 8 장독립표본과대응표본 : 두집단의비교독립된두집단에의한독립표본또는동일한한집 단에대해두번반복측정한대응표본을비교하기위해선통계량은각집단또는두번측정한 표본의평균또는비율에의한검정을다루게된다. 9 장분산분석 : 여러집단의비교여러집단또는여러처리를비교할때적용되는분산분석 (analysis of variance, ANOVA) 에대해알아보고가장기초가되는일원분산분석에대해서 논의하고자한다. 10 장상관분석과회귀분석 : 두변수의관계여러분야의통계분석에서두개혹은그이상의측정변수들의관계가중요한경우가많다. 이를측정하기위한상관계수 (correlation coefficient) 와변수들간의관계를나타내는함수식을찾아내고이를이용하여예측및추론을하기위한회귀분석 (regression analysis) 을소개하고있다. 11 장분할표자료분석 : 범주들의관계관찰된자료가범주형변수에따라정리된분할표 (contingency table) 에서범주간의독립성검정 (test of independence) 과동질성검정 (test of homogeneity) 인카이제곱검정을소개하고있다.
이책을완성하는데도움을준신상민박사와이보희선생, 그리고김은성, 박준수, 천선경대학원지도학생들의헌신적인오류지적에고마움을전합니다. 이책은빅북 (Big Book) 운동의일환으로 < 공유와협력의교과서만들기운동 > 취지에동참하여제작되었고특히, 이런기회를제공하신 ( 사 ) 사회적기업연구원 -교과서만들기운동본부조영복대표님의열정에존경을표하며변은비연구원의실무적도움에도감사를드립니다. 2014 년 6 월 이책이모든이에게따뜻한지식공유가되기를바랍니다. 저자드림
목차 C O N T E N T S 1 장 통계학의이해 _13 : : 1.1 통계학의활용 _ 15 : : 1.2 자료의수집 _ 19 : : 1.3 자료의이해 _ 21 : : 1.4 연습문제 _ 24 2 장 자료의정리및요약 _27 : : 2.1 범주형자료의요약 _ 29 : : 2.2 이산형자료의요약 _ 32 : : 2.3 표와그림을이용한연속형자료의요약 _ 33 : : 2.4 수치를이용한연속형자료의요약 _ 38 : : 2.5 상자그림 _ 44 : : 2.6 R- 프로그램실습 _ 47 : : 2.7 연습문제 _ 50 3 장 이산확률변수및분포 _53 : : 3.1 사건의확률 _ 55 : : 3.2 확률변수 _ 56 : : 3.3 이산확률변수의확률분포함수 _ 57 : : 3.4 확률변수의기대값과표준편차 _ 58 : : 3.5 이항분포 _ 66 : : 3.6 R- 프로그램실습 _ 71 : : 3.7 연습문제 _ 72 4 장 연속확률변수및분포 _75 : : 4.1 연속확률변수의확률분포함수 _ 77 : : 4.2 정규분포 _ 80 : : 4.3 정규분포의확률계산 _ 82 : : 4.4 이항분포의정규근사 _ 85 : : 4.5 R- 프로그램실습 _ 88 : : 4.6 연습문제 _ 90
5 장 표집분포와중심극한정리 _93 : : 5.1 표집분포 _ 95 : : 5.2 표본평균의분포와중심극한정리 _ 98 : : 5.3 R- 프로그램실습 _ 102 : : 5.4 연습문제 _ 104 6 장 추정 _107 : : 6.1 통계적추론 _ 109 : : 6.2 모평균에대한점추정 _ 110 : : 6.3 모평균에대한구간추정 _ 113 : : 6.4 모비율에대한추정 _ 120 : : 6.5 R- 프로그램실습 _ 123 : : 6.6 연습문제 _ 125 7 장 가설검정 : 한집단의비교 _127 : : 7.1 귀무가설과대립가설 _ 129 : : 7.2 대표본의모평균검정 _ 130 : : 7.3 단측검정과양측검정 _ 133 : : 7.4 소표본의모평균검정 _ 136 : : 7.5 모비율의검정 _ 138 : : 7.6 오류와유의확률 _ 140 : : 7.7 R- 프로그램실습 _ 145 : : 7.8 연습문제 _ 148 8 장 독립표본과대응표본 : 두집단의비교 _151 : : 8.1 두집단의비교 _ 153 : : 8.2 독립표본의비교 _ 155 : : 8.3 소표본에서모분산이다른경우의비교 _ 165 : : 8.4 대응표본 _ 168 : : 8.5 독립표본의모비율비교 _ 172 : : 8.6 R- 프로그램실습 _ 177 : : 8.7 연습문제 _ 180
9 장 분산분석 : 여러집단의비교 _185 : : 9.1 여러집단의비교 _ 187 : : 9.2 일원분산분석 _ 188 : : 9.3 R- 프로그램실습 _ 194 : : 9.4 연습문제 _ 196 10 장 상관분석과회귀분석 : 두변수의관계 _201 : : 10.1 상관분석 _ 203 : : 10.2 회귀분석 _ 209 : : 10.3 최소제곱법과잔차 _ 213 : : 10.4 적합된회귀식의타당성 _ 218 : : 10.5 R- 프로그램실습 _ 224 : : 10.6 연습문제 _ 230 11 장 분할표자료분석 : 범주들의관계 _235 : : 11.1 분할표 _ 237 : : 11.2 카이제곱통계량 _ 239 : : 11.3 카이제곱검정 _ 243 : : 11.4 R- 프로그램실습 _ 246 : : 11.5 연습문제 _ 248 부록 Ⅰ 확률분포표 _ 253 부록 Ⅱ R 설치및기본사용법 _ 257 부록 Ⅲ 연습문제풀이 _ 265 찾아보기 _ 285
1 장 통계학의이해 1.1 통계학의활용 1.2 자료의수집 1.3 자료의이해 1.4 연습문제
R 과함께하는 통계학의이해
1.1 15
16
17
18
1.2 19
20
1.3 21
22
23
1.4 1.1 1.2 1.3 24
1.4 1.5 1.6 1.7 25
2 장 자료의정리및요약 2.1 범주형자료의요약 2.2 이산형자료의요약 2.3 표와그림을이용한연속형자료의요약 2.4 수치를이용한연속형자료의요약 2.5 상자그림 2.6 R- 프로그램실습 2.7 연습문제
R 과함께하는 통계학의이해
2.1 29
30
O AB B A 0 5 10 15 20 25 A B O AB 31
2.2 32
2.3 33
34
35
0.00 0.02 0.04 0.06 0.08 0.00 0.02 0.04 0.06 0.08 160 165 170 175 180 185 160 165 170 175 180 185 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.00 0.05 0.10 0.15 0.20 155 160 165 170 175 180 185 160 165 170 175 180 185 36
37
2.4 38
39
40
41
42
43
2.5 44
45
50 55 60 65 70 75 80 46
2.6 0 5 10 15 20 AB B A O A AB B O 47
Histogram of height Density 0.00 0.02 0.04 0.06 0.08 165 170 175 180 height 48
55 60 65 70 75 49
2.7 2.1 2.2 2.3 2.4 2.5 50
2.6 2.7 2.8 51
2.9 52
3 장 이산확률변수및분포 3.1 사건의확률 3.2 확률변수 3.3 이산확률변수의확률분포함수 3.4 확률변수의기대값과표준편차 3.5 이항분포 3.6 R- 프로그램실습 3.7 연습문제
R 과함께하는 통계학의이해
3.1 S S HHH THH HTH HHT TTH THT HTT TTT H T A B A A A A A A A HTT THT TTH A 55
3.2 TTT HTT THT TTH HHT HTH THH HHH 56
3.3 57
3.4 58
59
60
61
62
63
64
65
3.5 C 66
H T C C Bin 67
Bin Bin Bin 68
Bin C C C C Bin 69
C 70
3.6 71
3.7 3.1 3.2 3.3 72
3.4 3.5 3.6 3.7 73
3.8 3.9 3.10 74
4 장 연속확률변수및분포 4.1 연속확률변수의확률분포함수 4.2 정규분포 4.3 정규분포의확률계산 4.4 이항분포의정규근사 4.5 R- 프로그램실습 4.6 연습문제
R 과함께하는 통계학의이해
4.1 77
f(x) -1.5-1.0-0.5 0.0 0.5 1.0 1.5 f(x) -1.5-1.0-0.5 0.0 0.5 1.0 1.5-1.5-1.0-0.5 0.0 0.5 1.0 1.5 x -1.5-1.0-0.5 0.0 0.5 1.0 1.5 x 78
79
4.2 80
1 2 81
4.3 z z x x x x x x x x x x x x x x x x 82
83
84
4.4 0.0 0.1 0.2 0.3 0.4 0 1 2 3 4 5 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0 1 2 3 4 5 6 7 8 9 10 0.00 0.05 0.10 0.15 0.20 0 1 2 3 4 5 6 7 8 9 11 13 15 17 19 0.00 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0 2 4 6 8 11 14 17 20 23 26 29 32 35 38 85
Bin Bin 86
C C 87
4.5 88
89
4.6 4.1 f(x) 1/20 0 20 x f(x) 2 0 3 8 x x -3 0-2/3 f(x) 4.2 90
4.3 4.4 4.5 4.6 4.7 4.8 91
5 장 표집분포와중심극한정리 5.1 표집분포 5.2 표본평균의분포와중심극한정리 5.3 R- 프로그램실습 5.4 연습문제
R 과함께하는 통계학의이해
5.1 95
96
0.0 0.1 0.2 0.3 0.4 1 3 5 0.0 0.1 0.2 0.3 0.4 1 2 3 4 5 97
5.2 98
99
100
101
5.3 102
103
5.4 5.1 5.2 5.3 5.4 5.5 5.6 104
5.7 5.8 5.9 105
6 장 추정 6.1 통계적추론 6.2 모평균에대한점추정 6.3 모평균에대한구간추정 6.4 모비율에대한추정 6.5 R- 프로그램실습 6.6 연습문제
R 과함께하는 통계학의이해
6.1 109
6.2 110
111
112
6.3 113
114
115
0.0 0.1 0.2 0.3 0.4 N 01 t2 t10-6 -4-2 0 2 4 6 0.0 0.1 0.2 0.3 0.4 N01 t5-6 -4-2 0 2 4 6 116
117
118
119
6.4 Bin 120
121
122
6.5 123
124
6.6 6.1 6.2 6.3 6.4 6.5 125
6.6 6.7 6.8 6.9 6.10 126
7 장 가설검정 : 한집단의비교 7.1 귀무가설과대립가설 7.2 대표본의모평균검정 7.3 단측검정과양측검정 7.4 소표본의모평균검정 7.5 모비율의검정 7.6 오류와유의확률 7.7 R- 프로그램실습 7.8 연습문제
R 과함께하는 통계학의이해
7.1 129
7.2 130
131
132
7.3 133
134
135
7.4 검정 136
137
7.5 138
139
7.6 140
141
142
143
144
7.7 145
146
147
7.8 7.1 7.2 7.3 7.4 148
7.5 7.6 7.7 7.8 7.9 149
7.10 150
8 장 독립표본과대응표본 : 두집단의비교 8.1 두집단의비교 8.2 독립표본의비교 8.3 소표본에서모분산이다른경우의비교 8.4 대응표본 8.5 독립표본의모비율비교 8.6 R- 프로그램실습 8.7 연습문제
R 과함께하는 통계학의이해
8.1 153
154
8.2 155
- - - + - - + - 156
157
158
159
= + = - = + = = - - - + - 160
= - - - + = - - - + = - + - = + 161
162
= - = + 163
= - + 164
8.3 = - - - + 165
= 166
= - = + 167
8.4 168
169
170
171
8.5 = = - - - 172
= - - - + + = + + 173
= = + = + = 174
= - + =- = = + = + = 175
= - + =- 176
8.6 177
- 178
179
8.7 8.1 8.2 180
8.3 8.4 8.5 181
8.6 8.7 182
8.8 8.9 8.10 183
8.11 184
9 장 분산분석 : 여러집단의비교 9.1 여러집단의비교 9.2 일원분산분석 9.3 R- 프로그램실습 9.4 연습문제
R 과함께하는 통계학의이해
9.1 187
9.2 관찰값의총합 188
189
190
191
192
193
9.3 194
195
9.4 9.1 196
9.2 9.3 197
9.4 9.5 9.6 198
9.7 9.8 199
10 장 상관분석과회귀분석 : 두변수의관계 10.1 상관분석 10.2 회귀분석 10.3 최소제곱법과잔차 10.4 적합된회귀식의타당성 10.5 R- 프로그램실습 10.6 연습문제
R 과함께하는 통계학의이해
10.1 203
50 60 70 80 90 100 100 110 120 130 140 150 IQ 204
205
206
207
0 2 4 6 8 10 A B 0 2 4 6 8 10 208
10.2 209
50 60 70 80 90 100 y = 0 + 1 x + 100 110 120 130 140 150 IQ 210
211
212
10.3 50 60 70 80 90 100 i 0 + 1 x i y i y = 0 + 1 x + 100 110 120 130 140 150 IQ 213
214
0 5 10 15 20 25 0 2 4 6 8 10 12 215
216
217
10.4 218
219
220
221
222
223
10.5 Math 60 65 70 75 80 85 90 95 100 110 120 130 140 150 IQ 224
225
Math 60 65 70 75 80 85 90 95 100 110 120 130 140 150 IQ 226
227
Scatter Diagram and Fitted Regression Line y 5 10 15 20 3 4 5 6 7 8 9 x 228
229
10.6 10.1 10.2 10.3 230
10.4 10.5 10.6 231
10.7 10.8 232
10.9 233
11 장 분할표자료분석 : 범주들의관계 11.1 분할표 11.2 카이제곱통계량 11.3 카이제곱검정 11.4 R- 프로그램실습 11.5 연습문제
R 과함께하는 통계학의이해
11.1 237
238
11.2 번째행합계번째열합계 총합계 239
관찰도수 기대도수 기대도수 240
241
242
11.3 243
244
관찰도수 기대도수 기대도수 245
11.4 246
247
11.5 11.1 248
11.2 11.3 249
11.4 11.5 11.6 250
11.7 11.8 251
부록 Ⅰ 확률분포표
R 과함께하는 통계학의이해
255
부록 Ⅱ R 설치및기본사용법
R 과함께하는 통계학의이해
1. 259
260
2. 261
262
263
264
부록 Ⅲ 연습문제풀이
R 과함께하는 통계학의이해
1. 1.1 1.2 1.4 1.5 1.6 1.3 1.7 267
2. 2.1 2.2 2.3 2.4 2.5 268
2.6 2.7 2.8 269
2.9 270
3. 3.1 3.2 3.3 Bin 3.4 271
3.5 3.6 Bin 3.7 Bin 3.8 3.9 3.10 272
4. 4.1 4.6 4.2 4.3 4.7 4.4 4.8 4.5 5. 5.1 5.2 5.3 5.4 5.5 273
5.6 5.7 5.8 6. 6.1 6.6 6.2 6.3 6.4 6.7 6.8 6.9 6.10 6.5 274
7. 7.1 7.2 7.3 7.4 7.5 7.7 7.8 7.9 7.10 7.6 275
8. 8.1 8.2 8.7 8.8 8.3 8.4 8.5 8.9 8.10 8.6 8.11 276
9. 9.1 9.2 9.3 9.4 9.5 9.6 277
9.7 9.8 278
10. 10.1 10.2 10.3 279
10.4 10.5 10.6 280
10.7 10.8 10.9 281
11. 11.1 11.2 11.3 282
11.4 11.5 11.6 11.7 11.8 283
색인 찾아보기
R 과함께하는 통계학의이해
287
288
289
290
291
[ 빅북 ] R 과함께하는통계학의이해 발행일 2014년 8월 31일저작권자빅북운동본부대표자조영복작성자최용석주소부산광역시금정구구서2동 248-10 현대빌딩 2F 문의처 051-510-2570 홈페이지 http://bigbook.or.kr/ 발행처교보문고퍼플출판등록 2012년 09월 07일제3-2012-167호주소서울시종로구종로1가 1번지대표전화 1544-1900 홈페이지 www.kyobobook.co.kr 편집디자인좋은땅출판사홈페이지 www.g-world.co.kr 대표전화 02-374-8616 ISBN 978-89-24-01457-0 (93310) c 빅북운동본부 2014