통계학입문 ( 기초통계학 )
1. 1 개요 통계학 (statistics) 관심의대상에대해관련된자료를수집하고그 자료를요약, 정리하여이로부터불확실한사실에 대한결론이나일반적인규칙성을추구하는학문 Statistic : 통계치, 통계량 CH 1-2
1. 1 개요 통계학 (statistics) 기술통계학 (descriptive stat) 수집된자료의정리및요약방법을다룸 추측통계학 (inferential stat) 자료를통한모수의추정및모수에대한가설검정 추정 선자료수집후결정 검정 선결정후자료수집및교정 CH 1-3
통계학 (statistics) 1. 1 개요 Infer : 추측하다. 추론하다. 부분 전체 (?) 선자료수집, 후결정선결정, 후자료수집및교정 ( 부분을보고전체에대해결론을내림 ) Ex) 연애투자 신중히맴돌다교제여부결정 ( 신중형 ) 일단교제후계속교제여부결정( 카사노바형 ) 도청, 시청이전계획등을확인하고땅구입 여기저기도청이전가능성높은곳들을구매후도청이전이안된곳은매각 CH 1-4
1. 2 변수의종류 변수 (Variable) 조사대상의관심이되는특성 Ex) 조사대상 변수 조사대상 변수 키 I Q 라면값 몸무게 월 세 사람 수 미 입 모 분식집 성업여부 모수 : 충대남학생전체의키평균, 모수 : 모든궁동분식집라면값의평균 or 최소값 CH 1-5
변수 (Variable) 1. 2 변수의종류 질적변수 (qualitative variable) 명의적 (nominal) 질적변수 : 고향, 색깔등 순서적 (ordinal) 질적변수 : 선호도, 외모등 양적변수 (quantitative) 연속 (continuous): 몸무게, 나이, 시간, 온도등 이산 (discrete): 사람수, 불량품수 크게질적, 양적분류로충분 나이 : 연속이지만이산취급 ( 보통 2 세, 신생아실, 2.1 시간 ) CH 1-6
자료요약법 줄기그림 그림 OR 도표 도수분포표와 histogram 원그래프 자 료 요약법 상자그림 수치요약 숫 자 대표값과산포도 CH 1-7
1.3 줄기그림 (stem plot) Ex) 충남대남학생 15 명의몸무게자료 Data ( 단위 : Kg) 62 65 58 71 48 56 60 71 68 100 69 57 53 67 72 CH 1-8
1. 3 줄기그림 줄기그림 ( 남학생 ) 4 5 6 7 8 9 10 8 3 6 7 8 0 2 5 7 8 9 1 1 2 0 분포의중심파악 분포의전체적인모양 이상치유무판단 CH 1-9
서로맞댄줄기그림 (back to back stem plot) Ex) 충남대여학생 20 명의몸무게자료 Data : 45, 48, 1. 3 줄기그림 남학생 8 8 7 6 3 8 8 7 5 2 0 2 1 1 4 5 6 7 여학생 1 1 3 3 8 9 0 1 1 2 4 8 9 9 0 1 2 3 2 0 8 9 10 장점 두그룹의 자료비교 CH 1-10
줄기의세분 Ex) 충남대남학생 15명의키자료 Data 170 171 175 174 ( 단위 : cm) 173 1. 3 줄기그림 172 174 173 181 178 168 171 173 174 173 16 8 17 0 1 1 2 3 3 3 3 4 4 4 6 8 분포형태 18 1 파악불가 줄기를세분 CH 1-11
줄기의세분 1. 3 줄기그림 16. 17 * 17t 17f 17s 17. 18 * 8 0 1 1 2 3 3 3 3 4 4 4 6 8 1 또는 16. 8 17 * 0 1 1 2 3 3 3 3 4 4 4 17. 6 8 18 * 1 줄기의세분은 5 개혹은 2 개로만가능 10 = 5 2 CH 1-12
1. 4 도수분포표와 Histogram Ex) 200 쌍부부의자녀수조사 Data : 0, 2, 1, 2, 3, ( 이산형양적자료 ) 도수분포표 자녀수 0 1 도수 (frequency) 24 66 상대도수 (relative freq.) 0.12 0.33 0.5 임의로뽑은부부의자녀수에대한확률추정치 히스토그램 2 82 0.41 0.4 3 18 0.09 0.3 4 5 8 2 0.04 0.01 0.2 0.1 0 합계 200 1.00 0 1 2 3 4 5 CH 1-13
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram Ex) 충남대생 1000 명의키측정 Data : 167, 171, Ordered data: 155,, 189 min Stem plot( 줄기그림 ) 15 16 17 15 * 15. 16 * 16. 17 * 17. max Too many leaves CH 1-14
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 도수분포표 히스토그램 키 도수 155 1 156 2 Pancake graph... 189... 1 1 5 5 1 5 6 1 5 7 1 5 8.... 1 8 8 1 8 9 합계 1000 가지수가너무많음 CH 1-15
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 자료의 grouping ( 계급화 ) 필요. 계급의수는관측값의수에따라 6-20 개 만약 7 개로하면 Max - Min 7 = 189-155 7 = 34 7 ~ ~ 5 가계급의폭 CH 1-16
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 계 급 도수 상대도수 도수밀도 155 ~ 160 12 0.012 2.4 160 ~ 165 95 0.095 19.0 165 ~ 170 220 0.220 44.0 170 ~ 175 376 0.376 75.2 175 ~ 180 162 0.162 32.4 180 ~ 185 90 0.090 18.0 185 ~ 190 45 0.045 9.0 합 계 1000 1 155 ~ 160 은 155 이상 160 미만임 CH 1-17
185~190 180~185 175~180 170~175 165~170 160~165 155~160 185~190 180~185 175~180 170~175 165~170 160~165 155~160 Chapter 1. 자료의정리 분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram Histogram 상대도수 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 도수밀도 80 70 60 50 40 30 20 10 0 CH 1-18
분포파악이가장유리한그림? 도수밀도 (freq density) = 도수 / 계급폭 1. 4 도수분포표와 Histogram 계급이등간격이면, 도수, 상대도수, 도수밀도상관없음. Ex) Odered data 2, 6, 7, 7, 7, 7, 8, 8, 8, 9, 11, 11, 11, 11, 11, 11, 11, 11, 12, 12, 12, 12, 12, 13, 13, 13, 14, 14, 14, 15, 16, 16, 17, 17, 17, 17, 18, 18, 19, 20 CH 1-19
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 계 급 도수 상대도수 도수밀도 0 ~ 5 1 0.025 0.2 5 ~ 10 9 0.225 1.8 10 ~ 15 20 0.500 4.0 15 ~ 20 10 0.250 2.0 합 계 40 1 도수 상대도수 30 0.75 20 0.5 10 0.25 0 0~5 5~10 10~15 15~20 0 0~5 5~10 10~15 15~20 CH 1-20
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 계 급 도수 상대도수 도수밀도 0 ~ 10 10 0.250 1.0 10 ~ 15 20 0.500 4.0 15 ~ 20 10 0.250 2.0 합 계 40 1 도수 30 20 10 도수밀도 6 4 2 0 0~5 5~10 10~15 15~20 0 0~5 5~10 10~15 15~20 CH 1-21
분포파악이가장유리한그림? 1. 4 도수분포표와 Histogram 도수 30 상대도수 0.75 20 0.5 10 0.25 0 0~5 5~10 10~15 15~20 0 0~5 5~10 10~15 15~20 도수 30 20 도수밀도 6 4 10 2 0 0 0~5 5~10 10~15 15~20 0~5 5~10 10~15 15~20 CH 1-22
질적변수 도수분포표 1. 4 도수분포표와 Histogram 원그래프 Ex) 200 쌍이혼부부의이혼사유조사 사유성격차이고부갈등배우자부정가정폭력 도수 80 35 25 20 주 기 벽 타 10 30 합계 200 각종그래프들 CH 1-23
잘못그려진그래프 1. 4 도수분포표와 Histogram 출처 : Statistics, Concepts and Controrersies by Pavid S.Moore CH 1-24
잘못 (?) 그려진그래프 1. 4 도수분포표와 Histogram 출처 : Statistics, Concepts and Controrersies by Pavid S.Moore CH 1-25
1. 5 수치요약과상자그림 (number summary and box plot) 다섯수치 최소값 제 1 사분위수 (1st Quartile) 중위수 (Median) 제 3 사분위수 (3rd Quartile) 최대값 Ex) Ordered data 0 5 10 11 12 16 18 21 22 최소값 Q1 중위수 Q3 최대값 Ex) 세수치, 아홉수치요약도가능 Note : 자료가다섯개면각값들이다섯수치가됨 CH 1-26
수치요약 1. 5 수치요약과상자그림 관측값의깊이 순서화된자료에서중앙의왼편에있을때에는왼쪽부터, 오른쪽에있을때에는오른쪽부터의누적도수.( 같은값이없을때는순서 ) Ordered data 3 5 5 7 10 15 30 35 41 깊이 1 3 3 4 5 4 3 2 1 CH 1-27
수치의깊이 1. 5 수치요약과상자그림 중위수의깊이 d(m) = n + 1 2 Q1, Q3 의깊이 [d(m)] + 1, [ ] 는를넘지않는최대정수 2 x x CH 1-28
수치의깊이 1. 5 수치요약과상자그림 Ex) 충남대남학생 12 명의한달평균용돈조사 (n=12)( 단위 : 만원 ) Ordered data 3 10 11 13 15 18 20 21 25 29 36 40 n + 1 2 13 2 18 + 20 2 d(m) = = = 6.5 = 19 [d(m)] + 1 2 [6.5] + 1 2 Q1, Q3 의깊이 = = = 3.5 Q1 = = 12 Q3 = = 27 11 + 13 2 25 + 29 2 CH 1-29
상자그림 1. 5 수치요약과상자그림 용돈조사데이터를다섯수치로요약. ( 3, 12, 19, 27, 40 ) 0 10 20 30 40 < 위의다섯수치로얻은상자그림 > CH 1-30
상자그림 1. 5 수치요약과상자그림 Ex) 만약최대가 100 ( 40 대신 ) 이면, 최소, Q1, M, Q3 는불변 다섯수치요약 : ( 3, 12, 19, 27, 100 ) Min Max -20-10 0 10 20 30 40 90 100 < 위의다섯수치로얻은상자그림 > CH 1-31
상자그림의중요수치 1. 5 수치요약과상자그림 IQR (Interquartile range ; 사분위범위 ) Q₃ Q₁ = 27-12 = 15 IL (Inner Lower fence) Q₁- 1.5 ㆍ IQR = 12 1.5 x 15 = -10.5 IU (Inner Upper fence) Q₃+ 1.5 ㆍ IQR = 27 + 1.5 x 15 = 49.5 OL (Outer Lower fence) Q₁ 3 ㆍ IQR = 12 3 x 15 = -33 OU (Outer Upper fence) Q₃+ 3 ㆍ IQR = 27 + 3 x 15 = 72 AL (Adjacent Lower value) AU (Adjacent Upper value) Inner fence 안에서가장큰값들 CH 1-32
상자그림 1. 5 수치요약과상자그림 다시작성된상자그림 OL IL AL AU IU OU O -30-20 -10 0 10 20 30 40 90 100 < 위의다섯수치로얻은상자그림 > CH 1-33
2 개의상자그림 Data 비교 1. 5 수치요약과상자그림 상자그림의사용예 CH 1-34