통계학입문 Introduction to Statistics
통계학입문 Introduction to Statistics 김동일홍익대학교 Philosophy & Art
통계학입문 저자 김동일 발행인 이미애 발행처 Philosophy & Art 출판등록 2008년 1월 8일제152호주소 대전시유성구도룡동 380-39 전화 070-7893-4471 홈페이지 http://philosophy-art.com 2008, 김동일 값 20,000 원 ISBN 978-89-961425-1-5 93310 2008 년 8 월 20 일 1 판 1 쇄발행
차례 차례...................................... vi 표차례..................................... vii 그림차례................................... viii 1 통계학과통계프로그램.......................... 1 1.1 통계학이란무엇인가?........................ 2 1.2 통계프로그램............................ 2 연습문제............................... 6 2 데이터의요약............................... 7 2.1 그래프와표를이용한데이터의요약................ 8 도수분포와히스토그램................... 8 산점도와두변수의도수분포................. 11 시계열그림.......................... 12 2.2 통계를이용한데이터의요약.................... 13 위치에대한통계...................... 13 스캐일에대한통계..................... 14 선형상관에대한통계.................... 15 상자그림........................... 17 연습문제............................... 17 찾아보기 19 vi
표차례 2.1 Sirius 데이터.............................. 9 2.2 Sirius 데이터의절대등급의도수분포.................. 10 2.3 Pearson 데이터의아버지의키와아들의키의도수분포......... 12 2.4 Pearson 데이터의아버지의키와아들의키의요약통계......... 16 vii
그림차례 1.1 모집단, 표본, 표본추출, 통계, 통계적추론, 통계학............ 3 1.2 Excel과 Minitab............................ 3 1.3 Eviews................................. 4 1.4 SPSS와 SAS.............................. 4 1.5 MATLAB과 R.............................. 5 2.1 시리우스와큰개자리........................... 8 2.2 Sirius 데이터의절대등급의히스토그램................. 10 2.3 Pearson 데이터의아버지의키와아들의키의산점도.......... 12 2.4 2007년한국종합주가지수의시계열그림................ 13 2.5 Pearson 데이터의아버지의키와아들의키의상자그림......... 17 viii
통계학과통계프로그램 1 1 통계학과통계프로그램 사람들은같은사물을제각기다른모습으로인식한다. 통계학은사물의인식에따르는불확실성을평가하고, 그를통해사물의참 모습을과학적으로추론한다.
2 통계학과통계프로그램 1.1 통계학이란무엇인가?. 정의 1.1. ( 모집단, 표본, 표집 ) 관심의대상이되는전체를모집단 (population) 이라고하며, 모집단에서관측된부분을표본 (sample), 모집단으로부터표본을 뽑는것을표집또는표본추출 (sampling) 이라고한다.. 정의 1.2. ( 통계, 통계적추론, 통계학 ) 표본의데이터에산술적연산을적용한결과를통계 (statistic) 라고하며, 표본의데이터에서통계를만들고, 그통계를분석하여표본의모집단에대해통계적추론 (statistical inference) 을하는학문을통계학 (statistics) 이라고한다. 만약모집단전부를관측할수있다면, 즉표본이바로모집단이라면, 표본의데이터를정리하여통계를만드는것으로통계학의임무는끝난다. 그러나일반적으로모집단전체를관측하는것은매우비효율적이거나또는아예불가능하여, 모집단의극히작은일부인표본만을관측하는경우가대부분이다. 관측된표본의데이터로부터관측되지않은전체모집단의특성에대해통계적추론을하는경우언제나불확실성이따르게되는데이불확실성을과학적으로분석하는것이통계학의또다른임무이다. 그림 1.1 은모집단, 표본, 표본집, 통계, 통계적추론의관계와표본의데이터로부터통계를만들고모집단에대해통계적추론을하는통계학의역할을잘요약하고있다. 1.2 통계프로그램 현재우리나라에서가장많이사용되고있는통계프로그램으로는 Excel, Minitab, Eviews, SPSS, SAS, Matlab, R 등을들수있다. 그림 1.2는 Excel과 Minitab의첫실행화면을보여준다. Excel은 1987년 Microsoft가스프레드시트 (spreadsheet) 프로그램으로개발하였지만, 통계프로그램기능을지원하며무엇보다도 MS Office에포함되어누구나쉽게구할수있기때문에통계프로그램으로도널리사용되고있다. Minitab은 1972년펜실베이니어주립대학
통계프로그램 3 그림 1.1: 모집단, 표본, 표본추출, 통계, 통계적추론, 통계학 통계적추론 표본추출 표본 / 데이터 34% 1 125 98.2 1,010,998 통계 모집단 그림 1.2: Excel 과 Minitab (a) Excel (b) Minitab (Pennsylvania State University) 의연구원들이교육용통계프로그램으로개발하였는데, 통계에자주사용되는명령문이아이콘형태로툴바에알기쉽게정리되어있어서교육용으로널리사용되고있다. 그림 1.3은 Eviews의실행화면을보여준다. Eviews는 1994년 Quantitative Micro Software가개발하였는데, 시계열의분석에유용한도구가많이내장되어있어경제시계열분석통계프로그램으로널리사용되고있다. 그림 1.4는 SPSS와 SAS의실행화면을보여준다. 사회과학용통계패키지 (Sta-
4 통계학과통계프로그램 그림 1.3: Eviews 그림 1.4: SPSS 와 SAS (a) SPSS (b) SAS tistical Package for the Social Sciences) 란의미를가진 SPSS는 1968년 SPSS 회사가개발하였으며, 설문조사기관, 정부기관, 교육기관, 금융기관등에서본격적인통계프로그램으로널리사용되고있다. 통계분석시스템 (Statistical Analysis System) 란의미를가진 SAS는 1966년 SAS Institute가개발하였다. SAS는통계프로그램이외에도데이터웨어하우징 (data warehousing) 과데이터마이닝등의기능을가지고있어서큰사이즈의데이터를다루는데적합하여, 설문조사기관, 정부기관, 교육기관, 금융기관등에서널리사용되고있다. 그림 1.5는 MATLAB과 R의실행화면을보여준다. 행렬실험실 (matrix labo-
통계프로그램 5 그림 1.5: MATLAB 과 R (a) MATLAB (b) R ratory) 이란의미를가진 MATLAB은 1970년대말에뉴멕시코대학 (University of New Mexico) 의컴퓨터과학교수인 Cleve Moler가 Fortran을사용하지않고행렬계산을할수있는프로그램으로처음개발하였으며, 교육기관, 이미지프로세싱관련산업에서널리사용되고있다. R은 1997년 Ross Ihaka와 Robert Gentleman가통계계산및그래프프로그램으로개발하였으며, 두개발자의이름첫자를따서이름이지어졌다. R 프로그램은 GNU 일반공중라이선스 (GNU General Public License) 에따라무료로배포되고있으며, 통계프로그램개발과데이터분석에널리사용되고있다. Excel, Minitab, Eviews, SPSS, SAS, Matlab, R의통계프로그램들은서로다른장단점을갖고있기때문에, 작업의성격에따라보다효율적인통계프로그램을선택하여사용하는것이바람직하다. 예를들어, Excel은대부분의컴퓨터에설치되어있어어디서든사용하기쉽다는장점이있고, 교육용으로개발된 Minitab은본격적인통계프로그램중에서는가장쉽게배울수있으며, SPSS는마케팅이나설문조사기관에서사용하기편하게특화되어있고, SAS는큰데이터를다룰수있는뛰어난데이터마이닝 (data mining) 기능이있고, Matlab과 R은수학적연산을자유롭게할수있다. 그러나이책에서다루는통계학의기초적인내용은어떤통계프로그램으로도쉽게다룰수있기때문에굳이특정통계프로그램을선택할이유는없다. 이책은위의
6 통계학과통계프로그램 어떤통계프로그램으로도통계학을학습할수있도록모든통계프로그램을소개할 것이다. 연습문제 문제 1.1 모집단, 표본, 통계의예를들어보라.
데이터의요약 7 2 데이터의요약 우리는데이터를통해서사물을인식한다. 데이터는우리가세상을바라보는창이다.
8 데이터의요약 2.1 그래프와표를이용한데이터의요약 도수분포와히스토그램 천체의외관상밝기는외관등급 (apparent magnitude) 으로측정되는데, 외관등급이낮을수록더밝게보이며, 외관등급이 1단위작으면약 2.512배더밝게보이는것을의미한다. 태양의외관등급은 -26.73, 달의외관등급은 -12.6, 금성의외관등급은 -3.7, 도시에서육안으로볼수있는가장희미한별의외관등급은 3, 가장완벽한조건에서육안으로볼수있는가장희미한별의외관등급은 6.5이다. 그림 2.1은지구의밤하늘에서가장밝은별인큰개자리 (Canis Major) 의시리우스 (Sirius) 인데, 외관등급은 -1.44이다. 1) 별들중에서시리우스가가장밝게보이는것은실제로가장그림 2.1: 시리우스와큰개자리 (a) 시리우스 (b) 큰개자리 밝기때문이아니라지구에서가깝기때문이다. 별의실제밝기는절대등급 (absolute magnitude) 으로측정되는데, 외관등급과삼각시차 (parralax, 단위는 arcsec 또는 이며 1 = 1 3600 ) 의함수로다음과같이주어지며, 절대등급 = 외관등급 + 5(log 10 삼각시차 + 1) (2.1) 1) 그림 (a) 는 NASA, ESA, 그림 (b) 는 Zwergelstern 가만들었으며, 공용도메인이다.
그래프와표를이용한데이터의요약 9 지구에서 10pc(10parsec, 약 32.616 광년 ) 떨어진거리에있을경우별의외관등급을 나타낸다. Hipparcos 폴더의 Sirius.csv 파일은시리우스를중심으로하는밤하늘의일부 에서도시에서육안으로볼수있는 22 개별의히파르코스고유번호 (HIP), 외관등급 (Vmag), 삼각시차 (Plx) 의데이터이다. 2) 표 2.1 은 Sirius 데이터를보여주는데, 절 표 2.1: Sirius 데이터 HIP Vmag Plx Amag 23875 2.78 36.7 0.60 24436 0.18 4.2-6.69 25336 1.64 13.4-2.72 25606 2.81 20.5-0.63 25930 2.25 3.6-4.99 25985 2.58 2.5-5.40 26241 2.75 2.5-5.30 26311 1.69 2.4-6.38 26634 2.65 12.2-1.93 26727 1.74 4.0-5.26 27366 2.07 4.5-4.65 27989 0.45 7.6-5.14 30324 1.98 6.5-3.95 32349-1.44 379.2 1.45 33579 1.50 7.6-4.10 34444 1.83 1.8-6.87 35264 2.71 3.0-4.92 35904 2.45 1.0-7.51 36188 2.89 19.2-0.70 37279 0.40 285.9 2.68 39429 2.21 2.3-5.95 39757 2.83 52.0 1.41 대등급 (Amag) 은식 (2.1) 에따라계산된것이다. 3) 시리우스의 HIP 는 32349 인데, 2) 1997년유럽우주기구 (European Space Agency) 는그리스천문학자히파르코스 (Hipparchus) 의이름을딴인공위성히파르코스 (Hipparcos, High Precision Parallax Collecting Satellite) 를이용하여약 12만개별의외관등급과삼각시차등을측정한히파르코스카탈로그 (Hipparcos Catalogue) 를발표하였다. Hipparcos 폴더의 Hipparcos.csv는히파르코스카탈로그의 118,218개의모든별들에대한데이터이며, Sirius.csv는시리우스를중심으로좌우상하로 30도이내의밤하늘에서도시에서육안으로볼수있는, 외관등급 3이하의별들을고른표본이다. 3) 히파르코스카탈로그의삼각시차의단위는 1 1000 이므로, Amag = Vmag+5(log10 Plx 1000 +
10 데이터의요약 외관상밝기를나타내는외관등급은 -1.44 로표본에서가장밝지만, 실제밝기를 나타내는절대등급은 1.45 로표본에서두번째로어두운별임을알수있다. 표 2.2 는절대등급 (Amag) 의도수 (frequency, 변수값이관측된횟수 ) 와상대 도수 (relative frequency, 도수의비율 ) 를구간별로기록한도수분포 (frequency distribution) 이다. 구간별도수분포는정보의손실이있는대신데이터의특성을 표 2.2: Sirius 데이터의절대등급의도수분포 절대등급 도수 상대도수 [-8, -6) 4 0.18 [-6, -4) 9 0.41 [-4, -2) 2 0.09 [-2, 0) 3 0.14 [0, 2) 3 0.14 [2, 4) 1 0.05 보다알기쉽게요약하는장점이있다. 구간별도수분포를그래프로나타낸것을히스토그램 (histogram) 이라고한다. 그림 2.2는표 2.2의도수분포의히스토그램이다. 히스토그램의가로축에는변수값의그림 2.2: Sirius 데이터의절대등급의히스토그램 0.180 밀도도수 8 0.135 6 0.090 4 0.045 2 0 0-8 -6-4 -2 0 2 4 1) 로계산된다.
그래프와표를이용한데이터의요약 11 구간을표시하고, 세로축에는도수또는밀도를표시하고, 구간별로그에해당하는높이의막대를그린다. 밀도 (density) 는상대도수를구간의폭으로나눈것이다. 히스토그램을그릴때에는막대의면적이상대도수에비례하도록그려야구간의상대적인비중에대해올바른정보를전달할수있다. 밀도의높이로막대를그릴경우, 막대의면적은구간의폭과밀도를곱한것이다. 그런데밀도는상대도수를구간의폭으로나눈것이기때문에, 막대의면적은상대도수와일치하고, 따라서구간의상대적인비중에대해올바른정보를전달할수있다. 표 2.2의구간별도수분포는구간의폭이일정하다. 이런경우에는도수의높이로막대를그려도막대의면적이상대도수에비례하는면적을가지게되어밀도의높이로막대를그린경우와마찬가지로구간의상대적인비중에대해올바른정보를전달할수있다. 산점도와두변수의도수분포 1896년통계학자피어슨 (Pearson, K.) 은키의유전에대한우생학자갈톤 (Galton, F.) 의주장을확인하기위해영국의 1078명의아버지와아들의키를조사하였다. Pearson 폴더의 Pearson.csv 파일은피어슨이조사한아버지의키 (Fheight, 단위는인치 ) 와아들의키 (Sheight) 의데이터이다. 두변수의분포를그래프로나타낸것을산점도 (scatter plot) 라고한다. 그림 2.3 은 Pearson 데이터의두변수의산점도로, 가로축은아버지의키, 세로축은아들의키를나타낸다. 표 2.3은아버지의키와아들의키의도수를구간별로기록한도수분포이다. 가운데셀의숫자는특정조합의아버지의키와아들의키의구간이관측되는도수이다. 맨오른쪽열은세로축변수인아들의키의구간별도수분포이며, 맨아래쪽행은가로축변수인아버지의구간별도수분포이다. 표 2.3과같은두변수의구간별도수분포는 3 차원히스토그램으로나타낼수있지만, 일반적으로널리사용되지않는다.
12 데이터의요약 그림 2.3: Pearson 데이터의아버지의키와아들의키의산점도 아들의키 75 70 65 60 60 65 70 75아버지의키 표 2.3: Pearson 데이터의아버지의키와아들의키의도수분포 아버지의키 아들의키 [55,60) [60,65) [65,70) [70,75) [75,80) [55,60) 0 3 1 0 0 4 [60,65) 2 36 130 13 0 181 [65,70) 2 47 438 177 7 671 [70,75) 0 4 86 122 8 220 [75,80) 0 0 0 2 0 2 4 90 655 314 15 1078 시계열그림 Stock폴더의 Stock.csv 파일은 2007년한국종합주가지수 (Kospi) 와코스닥지수 (Kosdaq) 의일별데이터인데, 이렇게시간에순서에따라관측된데이터를시계열데이터 (time series data) 라고한다. 시계열데이터의경우시간에따른추이를이해하는것이매우중요한데, 시계열데이터의추이를보여주는그래프를시계열그림 (time series plot) 이라고한다. 그림 2.4 은 2007년한국종합주가지수의추이를보여주는시계열그림이다. 시계열그림의가로축은시간, 세로축은변수값을나타내고, 변수값들은시간의순서대로선으로연결하여
통계를이용한데이터의요약 13 그림 2.4: 2007 년한국종합주가지수의시계열그림 2000 1800 1600 1400 1 월 6 월 12 월 그린다. 2.2 통계를이용한데이터의요약 변수의특성을결정하는가장중요한요소는변수값의위치 (location) 와스캐일 (scale) 이다. 위치와스캐일에대한측도는모집단과표본에대해각각따로정의되는데, 표본의데이터로정의되는측도 (measure) 가통계이다. 위치에대한통계 위치에대한측도는평균 (mean), 중위수 (median), 사분위수 (quartile) 등이있고, 변수값의위치를측정한다. 표본의평균은다음과같이정의되고, 정의 2.1. ( 표본의평균 ) 표본 {X i } n i=1 의평균 X 은다음과같이정의된다.. X = 1 n n X i (2.2) i=1
14 데이터의요약 표본의중위수, 제 1 사분위수, 제 2 사분위수, 제 3 사분위수는다음과같이정의된다. 정의 2.2. ( 표본의중위수와사분위수 ) 표본 {X i } n i=1 의관측치가오름순으로 X 1... X n 와같이정렬되어있다면, 표본의중위수 X M ( 또는동등하게제2 사분위수 X Q2 ) 는다음과같이정의된다. X M = X 1 2 (n+1) n 이홀수 1 2( X 1 2 n + X 1 2 (n+1) ) n 이짝수 (2.3) 한편만약 n+1 이 4 의배수이면제 1 사분위수 X Q1 와제 3 사분위수 X Q3 는다음과 같이정의되고, X Q1 = X 1 4 (n+1) (2.4) X Q3 = X 3 4 (n+1) (2.5) 그렇지않은경우에는여러가지종류의선형보간법 (linear interpolation) 으로 정의된다. a). a) Excel에서는표본 {X i } n i=1 의 X i 를 i 0.5 n 분위수 (quantile) 로, Minitab과 SPSS 에서는 i i 1 n+1 분위수로, SAS와 Matlab에서는 n 1 분위수로가정하고, 0.25, 0.5, 0.75 주위의두분위수의변수값을이용하여선형보간법으로사분위수를구한다. R에서는기본적으로 Excel에서의방법으로구하지만옵션을지정하여세방법을선택할수있다. 스캐일에대한통계 스캐일에대한측도로는분산 (variance), 표준편차 (standard deviation), 범위 (range), 사분위범위 (interquartile range) 등이있고, 변수값의퍼진정도 (dispersion) 또는변동성 (variability) 을측정한다. 표본의분산과표준편차는다음과같이정의되고,
통계를이용한데이터의요약 15 정의 2.3. ( 표본의분산과표준편차 ) 표본 {X i } n i=1 의분산 s2 과표준편차 s 는 다음과같이정의된다. s 2 = 1 n 1 n ( Xi X ) 2 i=1 (2.6). s = s 2 (2.7) 표본의범위와사분위범위는다음과같이정의된다. 정의 2.4. ( 표본의범위와사분위범위 ) 표본 {X i } n i=1 의관측치가오름순으로 X 1... X n 와같이정렬된다고하면, 표본의범위 X R 와사분위범위 X IQR 는다음과같이정의된다. X R = X n X 1 (2.8). X IQR = X Q3 X Q1 (2.9) 선형상관에대한통계 선형상관 (linear correlation) 은두변수간의관계의특성을나타내는중요한요소이며, 이에대한측도는공분산 (covariance) 과상관계수 (correlation coefficient) 가있다. 표본의공분산은표본에서두변수의관측치가선형상관의관계를가지는지나타내며, 양의숫자이면양의선형상관을음의숫자이면음의선형상관을가짐을의미한다. 공분산은선형상관의존재여부와방향을나타내지만선형상관의크기를나타내지는않는다. 상관계수는공분산을두변수의표준편차로나눈것으로, -1에서 1 의값을가지고, 선형상관의방향과함께크기도나타낸다. 표본의공분산과상관계수는다음과같이정의된다.
16 데이터의요약 정의 2.5. ( 표본의공분산과상관계수 ) 표본 {X i, Y i } n i=1 의공분산 s XY 과상관계 수 r XY 는다음과같이정의된다.. s XY = 1 n 1 n ( Xi X ) ( Y i Ȳ ) (2.10) i=1 r XY = s XY s X s Y (2.11) 표 2.4 는 Pearson 데이터의아버지의키와아들의키의위치와스캐일, 선형상 관에대한통계이다. 앞에서설명한바와같이제 1 사분위수와제 3 사분위수, 그리고 표 2.4: Pearson 데이터의아버지의키와아들의키의요약통계 통계 아버지의키 아들의키 평균 67.69 68.68 최소값 59.01 58.51 제1사분위수 65.79 65.78 65.79 66.93 66.93 66.93 중위수 67.77 68.62 제3사분위수 69.60 69.60 69.60 70.47 70.47 70.47 최대값 75.43 78.36 분산 7.53 7.92 표준편차 2.74 2.81 범위 16.43 19.86 사분위범위 3.82 3.82 3.82 3.53 3.54 3.54 공분산 3.87 3.87 상관계수 0.50 0.50 (1) (2) (3) (1) (2) (3) 주 : (1) Excel, R, (2) Minitab, SPSS, (3) SAS, Matlab 사분위범위를구하는방법은선형보간법에따라달라지고, 때문에통계프로그램에 따라그결과가달라진다.
통계를이용한데이터의요약 17 상자그림 변수의위치와스캐일에대한측도중에서, 최소값, 제1사분위수, 중위수, 제2사분위수, 최대값, 범위, 사분위범위를그래프로나타낸것을상자그림 (box plot) 이라고한다. 그림 2.5는 Pearson 데이터의아버지의키와아들의키의상자그림이다. 상자그림을그림 2.5: Pearson 데이터의아버지의키와아들의키의상자그림 75 70 65 60 아버지의키 아들의키 그릴때는, 일반적으로제 1 사분위수보다 1.5 배의사분위범위보다작은관측치, 또는 제 3 사분위수보다 1.5 배의사분위범위보다큰관측치는이상점 (outlier) 으로간주하여 따로표시하고, 그외의관측치에서최소값과최대값을선택해범위를표시한다. 연습문제 문제 2.1 IQEnglish 폴더의 C1.csv는 2004년서울의어느남자중학교 3학년 1 반의 IQ 테스트와영어성적 (1학기중간고사성적, English) 의데이터이다. IQ 테스트는어휘력 (Language), 추리력 (Reasoning), 수리력 (Math), 지각력 (Spatial) 등 4 항목의테스트로이루어지며, IQ는이점수의합계를 2 로나눈것이다. 통계프로그램을이용하여다음의질문에답하라. (1) IQ변수를만들고, IQ변수의구간별도수분포를구하고, 히스토그램을그려라.
18 데이터의요약 (2) IQ와영어성적의산점도를그리고, 구간별도수분포를구하라. (3) IQ와영어성적의요약통계 ( 평균, 최소값, 제 1사분위수, 중위수, 제 3 사분위수, 최대값, 분산, 표준편차, 범위, 사분위범위, 공분산, 상관계수 ) 를구하고, 상자그림을그려라. 문제 2.2 Stock 폴더 Stock.csv 파일의코스닥지수 (Kosdaq) 의일별데이터의시계열그림을그려라.
찾아보기 P population, 2 S sample, 2 sampling, 2 sampling, 2 statistic, 2 statistical inference, 2 statistics, 2 ㅁ모집단, 2 ㅌ통계, 2 통계적추론, 2 통계학, 2 ㅍ표본, 2 표본추출, 2 표집, 2 표본추출, 2 표집, 2 19
저자소개 위스콘신 - 매디슨대학 (University of Wisconsin-Madison) 경제학학사 시카고대학 (University of Chicago) 경제학박사 현재, 홍익대학교조교수