통계학 : 자료의분포 (Distribution) 검토 자료폭탄을맞았다고할만큼현재우리주변에는자료가산재해있습니다. 문제는이렇게곳곳에널려있는자료중에서중요하고유용한정보를끄집어내기가참힘들다는점입니다. 통계학은수리과학의한분과학문으로 ( 물론이주장에동의를안하는수학자도있습니다 ), 이러한자료의홍수속에서귀중한정보를추출할수있게끔도와주는방법을연구하는학문입니다. 따라서통계학을잘이해를하고또올바로응용을하면우리가갖고있는자료에서유의미한정보와무의미한정보를분리할수있게되어 안녕들하지못한 현실에서유익한의사결정을내릴수있게되지않을까생각합니다. 또한통계학은곧있으면배우게될계량경제학의논리와이론들을올바로이해하게끔하는데필수적인역할을하기때문에, 계량경제학을배우고자한다면반드시통계학을제대로공부해야합니다. 통계학은크게두가지분야로이루어져있습니다. 1. 기술통계학 (descriptive statistics): 수치로되어있는자료의특성을기술하고요약하는방법들을배우게됩니다. 2. 추론통계학 (inference statistics): 추정및가설검정같은것을하는방법을배우게됩니다. 많은사람들이추론통계학이통계학에서가장중요한분야라고생각을합니다. 그이유는자료를통해 올바른 결론을내리는방법들을추론통계학에서배우기때문입니다. 저는추론통계학이중요하다는점에동의를하지만추론통계학이기술통계학보다더중요하다는점에는결코동의를할수없습니다. 물론학문적인측면에서는추론통계학이더재미있고또연구할가치가있지만통계학을응용하는연구자의입장에서는기술통계학이훨씬더중요하다고생각을합니다. 그이유는기술통계학에서배우는도구들없이는추론통계학에서배우는방법들을갖고올바른결론을내릴수없기때문입니다. 간단하게얘기해서이렇게생각하면됩니다. 아무리화려한통계기법을사용해도그기법을적용할때사용한자료가엉망이면그화려한기법을통해도출한결론또한엉망이다 라는것입니다. 더간단한예를들어보겠습니다. 보사연에서사용하고있는복지패널자료를만약초등학생이만들었다면, 여러분들은복지패널자료를사용해서연구를하시겠습니까? 그래서우리는먼저통계학, 그중에서도기술통계학을먼저배울것입니다. 기술통계학분야에서우리는세가지방법들을배우게됩니다 : i) 자료의특성을검토하는방법 (characteristics of data), ii) 자료내에존재하는관계를조사하는방법 (relationship within data), iii) 자료의질을확보하는방법 (quality of data). 손호성 1 노트 2
2017년 4월 5월 한국보건사회연구원 통계학 및 계량경제학의 기초 및 응용 모집단과 표본 I. 본격적으로 공부를 하기에 앞서 통계학에서 사용하는 두 가지 중요한 용어에 대해서 정확 한 정의를 내리도록 하겠습니다. 통계학을 배울 때는 정의(definition) 를 정확하게 이해를 하셔야 합니다. 정의의 정의는 우리들끼리 하는 약속이라고 생각하시면 될 것 같습니다. 즉 우리끼리 약속한 내용이기 때문에 토를 달지 말라는 것입니다. Definition 1 모집단(Population): 연구자는 어떤 특정한 집단을 대상으로 조사를 하여 그 조사를 통해 끄집어 낸 사실을 전체 집단에 대해서 일반화하고 싶어 합니다. 이 전체 집단을 모집단이 라고 합니다. 예를 들어, 대통령 선거 결과를 예측하고 싶을 때 모집단은 무엇일까요? 모집단은 모든 유권자가 되겠죠. Definition 2 표본(Sample): 연구를 할 때 모집단을 다 조사하는 것은 참 힘듭니다. 물론 모집단이 뭐냐 에 따라 쉽게 조사할 수도 있습니다만, 일반적으로 모집단 전체를 조사하는 것은 참 힘든 일입니다. 그래서 대개 모집단의 일부만 조사를 해서 연구를 하게 됩니다. 이 일부가 바로 표본입니다. 자 이제 위 두 용어에 대해서 정의를 내렸으니 이에 대해서는 토를 달면 안됩니다. 자료의 특성 검토: 분포(Distribution) II. 기술통계학에서 배우는 첫 번째 방법은 자료의 특성을 검토하는 방법입니다. 모든 자료에 는 한 가지 명백한 특성이 있는데 그것은 바로 자료에 있는 관측치의 값들이 대개 다르다는 것입니다. 즉 관측치의 값들에 분포(distribution)가 있다는 점입니다. A. 왜 자료의 분포를 검토해야 하는가? Outliers! 자료의 특성, 즉 자료의 분포를 검토해야 좋은 자료로 통계분석을 할 수 있습니다. 사실 모든 연구자가 연구를 수행하는 과정에서 반드시 그리고 가장 먼저 해야할 일이 자료의 손호성 2 노트 2
분포를검토하는것입니다. 왜냐고요? 글쎄요. 많은이유를댈수있을것같습니다만, 제가생각하는가장큰이유는자료의분포를검토하면서자신이이용하고자하는자료에있는특이값 (outlier) 들을식별할수있기때문입니다. 특이값이란말그대로특이한값입니다. 모든자료에는어떤전반적인패턴이라는것이있는데어떤값이그패턴에서굉장히벗어나있을때그런값을특이값이라고합니다. 이러한특이값이자료에존재하게되는이유는여러가지가있지만대개두가지이유때문에발생합니다. 첫번째는자료를만드는사람이실수할때입니다. 두번째는의도적으로그러한값을만들때입니다. 경험이있으신분은아시겠지만가공되지않은서베이자료를보면 999999 라는값을갖는관측치가있습니다. 이것은대개결측값 (missing value) 을표시할때사용되는특이값입니다. 특이값이생기는이유가무엇이든간에이러한특이값을식별하지않고처리를하지않은상태의자료를갖고통계분석을하게되면아주잘못된결론을내리게됩니다. 이런실수를누가하겠냐 이렇게생각하시는분들이있을것같은데요, 실제로많은분들이이특이값을처리하지않고통계분석을합니다. 저도그런실수한적있습니다. 만약이런실수를하게된사실이밝혀지면그실수를한사람이수행한연구결과에대해서사람들이신뢰를하지않음은물론이고그사람이차후에수행하는연구에대해서사람들이신뢰를안하지않을까요? 아무튼결론은특이값이자료에존재하면이특이값에대해서어떤처리를해야하는데그러기위해서는이특이값이자료에존재하는이유를밝혀내야합니다. 문제는어떤값이특이값이다라고결론을내릴때대개연구자의판단이개입을하게됩니다. 어떤특이값을없앨지안없앨지판단을하기쉬운경우도있지만그렇지않은경우도많습니다. 합리적인이유로존재하는특이값을단지좀특이하다고해서없애버리면그건자료를조작하는것입니다. 즉절대로해서는안되는일이지요. 그렇기때문에연구를수행하는과정에서어떤특이값에대해서처리를했다고한다면왜그렇게처리를했는지에대한근거를반드시제시하셔야합니다. B. 자료의분포를검토할때사용하는방법 1: 표와그래프 ( 그림을이용한표현 ) 자료의분포를살펴볼때사용할수있는방법에는여러가지가있지만이강의에서는그중에서두가지, 즉도수분포표 (frequency distribution) 와도수분포도 ( 히스토그램 ) 에대해서만다루도록하겠습니다. 1 도수분포도는도수분포를그래프로나타낸것입니다. 무슨말장난같은정의죠? 그냥이두가지방법이무엇인지를구체적인예를통해서보여드리도록하겠습니다. 1 pie chart, stemplot, boxplot 같은것도많이활용이됩니다. 손호성 3 노트 2
표 1은우리나라박사급연구원들의연봉자료입니다 ( 물론제가가짜로만든자료입니다 ). 표 1을보시면알겠지만표에있는자료를봐서는자료의분포를살펴보기가참힘듭니다. 자료를좀단순화해서자료의분포를검토할수있게끔만들필요성이커보입니다. 이때사용할수있는것이도수분포와히스토그램입니다. 표 1: 박사급연구원들의연봉자료 ( 단위, 백원 ) 21149 29267 29779 30595 33290 33445 33614 33632 38434 38585 39177 39434 40314 42196 43147 43151 43488 43785 45176 45591 45648 46382 46573 46867 47828 48092 48575 51322 51595 53119 53552 54132 54208 54276 54645 55245 55269 58693 58713 59444 59446 60114 60221 61120 61375 62992 64226 64527 66059 67482 도수분포표를만들기위해첫번째로해야할일이자료를나눌때사용할구간 (bin 혹 은 interval) 의개수를정하는것입니다. 전그냥 10개로하겠습니다. 구간의개수는자기 마음대로하면됩니다. 위자료에서최소값은 21149이고최대값은 67482이므로자료의 범위 (range) 는 67482 21149 = 46333가됩니다. 제가결정한구간의개수는 10이므로한 개구간의범위를 46333/10 5000으로설정하겠습니다. 따라서첫번째구간이커버하는 관측치는 20000에서 24999, 두번째구간이커버하는관측치는 25000에서 29999, 세번 째구간이커버하는관측치는... 아시겠죠? 마지막구간이커버하는관측치는 65000에서 69999입니다. 두번째로해야할일은각각의구간에서커버하는관측치의개수를세는것입니다. 그러면다음과같은표를만들수가있는데이표가도수분포표입니다. 표 2: 표 1에있는자료로만든도수분포표 구간 (bin) 빈도수 상대도수 누적도수 200만원 249.999만 1 0.02 0.02 250만원 299.999만 2 0.04 0.06 300만원 349.999만 5 0.10 0.16 350만원 399.999만 4 0.08 0.24 400만원 449.999만 6 0.12 0.36 450만원 499.999만 9 0.18 0.54 500만원 549.999만 8 0.16 0.70 550만원 599.999만 6 0.12 0.82 600만원 649.999만 7 0.14 0.96 650만원 699.999만 2 0.04 1.00 Total 50 1.00 1.00 손호성 4 노트 2
표 1에서와는달리표 2에서는자료의분포를검토하기가훨씬수월해지지않았나요? 우선표 2를보면연봉이 250만원미만인박사급연구원의비율은 2% 임을알수있습니다. 또약 14% 정도되는연구원이연봉을 600만원에서 649.999만원버는것을알수있습니다. 연구자들은표 2를보고다른건몰라도이런결론을내릴줄알아야합니다. 아, 자료의중심값은 450만원에서 500만원사이이구나. 라고. 히스도그램을그리면좀더자료의분포를파악하기가쉬워집니다. 히스토그램은그냥표 2를도표로나타낸것에불과합니다. 그림 1이그히스토그램입니다. A. 도수히스토그램 B. 상대도수히스토그램 그림 1: 도수히스토그램과상대도수히스토그램 항상그래프를볼때는 x축과 y축이무엇을가리키는지파악을하셔야정확한해석을할수있습니다. 그림 1.A는도수히스토그램이고 x축과 y축은각각연봉과도수 (Count) 를나타냅니다. 그림 1.B는상대도수히스토그램이고 x축과 y축은각각연봉과상대도수 (%) 를나타냅니다. 그림 1을보면확실히표 2에비해서자료의분포가더명확하게파악이됩니다. 세가지정도의사실을끄집어낼수있는데요, 첫째는자료의중심이어디에위치하는지, 둘째는분포의모양이어떻게생겼는지, 그리고샛째는특이값이존재하는지입니다. 이번에는다른자료를이용해서분포를파악하도록해보겠습니다. 표 3에있는자료는보건복지부 A과에서근무를하고있는소속직원의나이입니다. 그리고그림 2는표 3에있는자료를바탕으로해서상대도수히스토그램을작성하였습니다. 자그림 2를보면한가지는확실합니다. 자료에 2개의특이값이존재합니다. 그럼이 2개의특이값을어떻게처리를해야할까요? 삭제를하고통계분석을해야하나요? 삭제를하기위해서는이 2개의특이값이오류등으로인해발생한값이어야하는데이 2개의특이값이오류라고단정할수있을만한타당한이유가있어야합니다. 한번같이판단을 손호성 5 노트 2
표 3: 보건복지부 A과소속직원의연령 26 27 27 29 29 30 31 32 32 33 33 33 33 33 34 34 34 34 34 35 35 36 36 36 36 36 36 37 37 37 38 38 38 38 38 38 38 39 39 39 39 39 39 40 41 41 41 41 64 87 그림 2: 상대도수히스토그램 해보죠. 이자료는뭐에대한자료입니까? 바로보건복지부소속직원의연령입니다. 제가알기로공무원의정년은 60세입니다. 그렇기때문에보건복지부에연령이 64세와 87세인직원이있을확률이거의없다고판단이됩니다. 솔직히 64세는잘모르겠습니다. 하지만 87세는확실합니다. 따라서 87세는삭제해도무방하다고생각합니다. 물론보건복지부 A 과에전화를해서확인하는것이이러한특이값을처리할때가장확실하게처리할수있는방법입니다. 반대로표 3에있는자료가보건복지부직원의연령이아닌어떤아파트에사는입주민들의연령이라고칩시다. 그럼저 2개의특이값이오류이고삭제해야할값들일까요? 그건아닐것같습니다. 충분히 64세및 87세의입주민이있을확률이있습니다. 그렇기때문에이런경우에는비록저 2개의값이특이하긴하지만오류로인해삭제해야하는그런값들은아닙니다. 이두예를통해서우리는자료의분포를보고 어떤특이값이오류이다아니다를판단하기가쉬운일은아니다 라는것을알수있습니다. 전개인적으로특이값의오류여부를판단할때 2가지전략을사용합니다. 하나는아까예에서볼수있듯이자료의배경을 손호성 6 노트 2
생각을해봅니다. 자료가뭐에대한자료인지, 누가자료를만들었는지, 이런질문을하면서특이값의오류여부를판단합니다. 두번째전략은다른자료를보면서판단을하는것입니다. 대개우리가갖고있는자료에는여러변수에대한자료가있습니다. 예를들어사람의생년월에대한정보가대개있는데만약연령에대한판단을할때이생년월과비교를하면어떤특이값이오류인지아닌지를판단할수있습니다. 물론생년월도오류가있으면곤란하긴하지만요. 아무튼결론은통계분석에앞서자료의분포를반드시확인하셔야하며특히특이값이존재한다면반드시특이값에대한처리를하셔야한다는겁니다. 만약특이값을삭제하기로하셨다면반드시삭제할타당한이유가있어야하며그타당한이유를기록해놓으셔야합니다. C. 자료의분포를검토할때사용하는방법 2: 요약통계량 ( 수치를이용한표현 ) B절에서우리는표와그래프로자료의분포를검토하는법을배웠습니다. C절에서는요약통계량 (summary statistics) 을이용해서자료의분포를검토하는법을배울것입니다. 기술통계량을통해우리는자료의변이 (variation) 가어떻게되는지그리고자료의중심 (center) 이어디에위치해있는지를파악할수있습니다. 이절에서는평균, 중간값, 분산, 그리고표준편차를다룰것입니다. 2 C.1. 자료의중심경향치 (central tendency) 를나타내는지표 자료의분포에서중심값을나타내는지표로많이활용되고있는것은평균과중간값입 니다. 가. 평균 (Mean) 아마평균은웬만한사람들이다아는지표일것입니다. 평균이막상간단한개념같지만실제로이평균이라는개념이그렇게쉬운개념은아닙니다. 통계학에서사용하는평균은두가지종류가있습니다. 만약 N개의관측치가존재하는모집단을대상으로평균을계산하면, 그러한평균을모집단평균이라고하고 µ 라고표시할것입니다 (µ 는 뮤 라고발음하는그리스문자입니다 ). 반면 n개의관측치가존재하는표본을대상으로평균을계산을하게되면표본평균이라고하고 x 라고표시할것입니다 ( x 는엑스바라고 2 이외에도다른지표가많이있지만 ( 예, mode, kurtosis) 그렇게자주활용되는지표가아니므로다루지않겠습니다. 손호성 7 노트 2
발음합니다 ). 앞으로모집단의관측치수를표시할때는대문자 N 을사용할것이고표본 의관측치수를표시할때는소문자 n 을사용할것입니다. 통계학에서는이러한구분이 굉장히중요하기때문에이렇게구분짓는것을하찮게생각하시면안됩니다. Definition 3 모집단평균 (Population Mean): N 개의관측치, 즉 x 1, x 2,..., x N 가존재하는모집단이 있을때, 모집단평균 µ 는다음과같이계산합니다. µ = N x i i=1 N = x 1 + x 2 + + x N N. Definition 4 표본평균 (Sample Mean): n 개의관측치, 즉 x 1, x 2,..., x n 가존재하는표본이있을때, 표본평균 x 는다음과같이계산합니다. x = n x i i=1 n = x 1 + x 2 + + x n. n 위식을이용해서평균값을계산하는것은누구나가할수있으므로다루지않겠습니다. 제가이강의에서항상강조를하겠지만평균을계산할줄아는것은그렇게큰능력이아닙니다. 연구자는다음과같은평균의특성들을알고있는게더중요합니다. 평균값은반드시자료에있는어떤특정한값과같은값이어야하는건아닙니다. 예를들어표 1에있는자료를이용해평균을계산하면 48380이나옵니다. 표 1을보시면아시겠지만이 48380은표 1 어디에도존재하지않습니다. 평균값은극단치혹은특이값에큰영향을받습니다. 예를들어표 1에있는자료의평균이 48380인데만약표 1에서마지막관측치값을 3710000128로대체를하고다시평균을계산하면평균이 74247033이됩니다. 예를들어표 1에있는자료가마이크로소프트회사에다니는직원의연봉이라고합시다. 그러면 3710000128이라는값이분명존재할것입니다 ( 빌게이츠회장의연봉은어마어마한거아시죠?). 이처럼평균은특이값에굉장히민감하게영향을받기때문에평균은중심경향치를나타내는지표로써강건 (robust) 하지않다고합니다. 손호성 8 노트 2
2017년 4월 5월 한국보건사회연구원 통계학 및 계량경제학의 기초 및 응용 나. 중간값(Median) 자료의 중심 경향치를 나타내는 지표로 자주 활용되는 또 하나의 지표는 중간값입니다. Definition 5 중간값(Median): 자료의 값들을 순서대로 배열을 한 다음에, i) 만약 자료의 개수가 홀수 이면 중간 순서에 위치해 있는 값을 중간값이라고 하고, ii) 만약 자료의 개수가 짝수이면 중간 순서에 위치해 있는 두 개의 값의 평균을 중간값이라고 합니다. 예를 들어 1, 1, 2, 2, 3, 4, 4, 6, 6이라는 자료가 있을 때 9개의 관측치가 있으므로 이 자료의 중간값은 가운데에 있는 3이 됩니다. 만약 1, 2, 3, 4, 4, 5, 6, 6, 6, 7과 같이 10개의 관측치가 있으면 중간값은 가운데에 있는 두 개의 값의 평균, 즉 (4 + 5/2) = 4.5가 됩니다. 자료의 개수가 짝수인데 그 수가 굉장히 많으면 도대체 몇 번째 값을 택해야 할지 헷갈 립니다. 그래서 공식이 있습니다. (n + 1)/2를 쓰면 됩니다. 예를 들어 n = 10이면 공식에 의해 (10 + 1)/2 = 5.5가 되어 다섯 번째 및 여섯 번째 값을 취해서 그 두 값의 평균을 구하면 그것이 중간값이 됩니다. 평균과 마찬가지로 중간값을 계산하는 것이 중요한 것이 아니라 중간값의 중심 경향 치로서의 어떤 장 단점을 알아야 합니다. 중간값의 가장 큰 장점은 특이값에 강건하다는 것입니다. 다시 표 1에 있는 자료를 이용해 무슨 뜻인지 알아보도록 하겠습니다. 자료 1 의 중간값은 (48380 + 47960)/2 = 48170입니다. 또한 마지막 관측치 값을 3710000128로 대 체를 하고 다시 중간값을 계산해도 중간값은 여전히 48170입니다. 즉 중간값은 평균과는 달리 중심 경향치로서 특이값에 강건하다는 사실을 알 수 잇습니다. 그러면 도대체 사람들은 왜 중간값 보다는 평균을 많이 쓰는 걸까요? 그 이유에는 여러 가지가 있습니다만 제일 중요한 이유는 중간값은 정보를 너무 이용을 안 한다는 것입니다. 중심 경향치를 도출할 때 평균은 모든 관측치의 값을 활용하지만 중간값은 한 개 혹은 두 개의 관측치만을 활용하기 때문에 만약 다른 관측치 값이 중요한 정보를 포함하고 있다면 중간값은 뭔가 결론을 오도할 수도 있는 상황을 발생시킬 수 있습니다. C.2. 자료의 산포도(dispersion)를 나타내는 지표 C.1절에서 다룬 평균과 중간값은 자료의 분포를 검토할 때 상당히 유용한 정보를 제공합니 다만 자료의 분포를 완전하게 알려주지는 않습니다. 그 이유는 평균이나 중간값은 자료의 변이(variability) 혹은 변동폭의 정도를 알려주지 않기 때문입니다. 표 4에는 세 개의 자료 가 있습니다. 세 개의 자료 별로 평균과 중간값을 계산해 보면 모두 50으로 동일합니다. 중심 경향치의 척도를 토대로 이 세 자료의 분포에 대한 판단을 하면 세 자료의 분포가 손호성 9 노트 2
동일하다는결론을내리게됩니다. 하지만실제로그럴까요? 그림 3은표 4의각각의자 료를이용해서히스토그램을그린것입니다. 그림 3을보시면알겠지만세자료의분포는 굉장히다름을알수있습니다. 표 4: 세개의서로다른자료 자료 No. 관측치 중간값 평균 자료 1 50, 50, 50, 50, 50, 50, 50, 50, 50 50 50 자료 2 10, 20, 30, 30, 50, 50, 70, 91, 99 50 50 자료 3 9, 10, 10, 50, 50, 50, 90, 90, 91 50 50 A. 자료 1 B. 자료 2 C. 자료 3 그림 3: 표 4에있는자료별히스토그램위예에서알수있듯이중심경향치의지표만으로는자료의분포를제대로파악할수없습니다. 물론평균과중간값은매우훌륭한지표이지만이러한한계점때문에자료의분포를좀더잘파악을하기위해또다른지표가필요한것입니다. 그지표는자료의산포도, 즉자료의어떤변동폭혹은변이를알려주는지표입니다. 이지표로많이활용이되고있는것이분산과표준편차입니다. 나. 분산 (Variance) 자료의산포도를살펴볼때가장많이사용되는지표가분산입니다. Definition 6 분산 (Variance): 분산은각각의관측치가평균으로부터 평균적으로 얼마나떨어져있는지를나타내는지표입니다. 모집단의분산은 σ 2 ( 시그마제곱이라고발음합니다 ) 로표시하고표본의분산은 s 2 라고표시합니다. 각각의분산의공식은다음과같습니다 : σ 2 = N (x i µ) 2 i=1 N and s 2 = n (x i x) 2 i=1. n 1 손호성 10 노트 2
분산공식의아이디어는이렇습니다. i) 우선자료의평균을구합니다. ii) 그리고나서각각의관측치값이이자료의평균으로부터얼마나떨어져있는지를알아봅니다. 즉평균으로부터의거리를계산합니다. iii) 그다음에계산한각각의거리를제곱합니다. iv) 마지막으로제곱한거리값들의평균을구합니다. 이것이바로분산입니다. 관측치의값들이평균으로부터많이떨어져있으면이분산값은커지게됩니다. 즉분산이크면자료의산포도혹은변이가크다는것을의미합니다. 분산식의분모를보면모집단의경우는 N으로나누지만표본분산의경우는 n 1 로나누는것을알수있습니다. 이분모식에있는것을자유도 (degree of freedom) 라고하는데서로다른자유도를사용해서분산값을구하는이유가있습니다. 이이유를정확히이해하기위해서는나중에배우게될개념인추정량 (estimator) 및비편의 (unbiasedness) 에대해서알아야하기때문에나중에다시이부분을다루도록하겠습니다. 이분산식을이용해서분산값을구하는것은하지않겠습니다. 컴퓨터가알아서구해줍니다. 다시말씀을드리지만분산값을구하는것보다는이식의특성을정확히알고있는것이중요합니다. 분산식을자세히들여다보면이분산또한좀문제점이있다는것을알수있습니다. 분산식에보면 µ 혹은 x, 즉평균이들어가있죠? 앞서말씀드린대로평균은특이값에강건하지않습니다. 따라서분산식또한특이값에강건한지표가아닙니다. 또다른문제점이있습니다. 분산은각각의관측치값의평균과의거리를제곱해서도출이되기때문에원래의관측치값들과는다른단위로표시가됩니다. 예를들어원래의자료가체중을나타내서 kg으로표시가되어있으면분산은 kg 2 으로표시가되어버립니다. 예를들어표 1에있는자료의분산값은약 123억입니다. 이값이표 1 자료의어떤변이로써와닿나요? 아니죠? 그래서대개자료분포의변이의척도로분산보다는표준편차를이용합니다. 나. 표준편차 (Standard Deviation) Definition 7 표준편차 (Standard Deviation): 표준편차는분산의루트 ( ) 값입니다. 따라서모집단표 준편차 (σ) 와표본표준편차 (s) 각각의공식은다음과같습니다 : σ = σ 2 and s = s 2. 표 1 자료의표준편차는 123005858 = 11091 입니다. 분산과는달리표준편차를계산 하면표 1 자료의변동폭이대충그려집니다. 이표준편차가의미하는바는각각의보사연 박사급연구원들의연봉이평균으로부터대충 100 만원정도떨어져있다는것입니다. 손호성 11 노트 2
D. 자료의분포를검토할때사용하는방법 3: 밀도곡선 (Density Curve) 지금까지자료의분포를검토할때사용하는방법으로두가지를배웠습니다 : 중심경향치 ( 평균, 중간값 ) 그리고산포도 ( 분산, 표준편차 ). 전자는그림을이용한방법이고후자는수치를이용한방법입니다. D절에서는또하나의방법, 즉밀도곡선에대해서다루고자합니다. 그리고여러가지밀도곡선중에서연구에가장많이활용이되는정규곡선혹은정규분포에대해서도다루도록하겠습니다. D.1. 밀도곡선 (Density Curve) 간단하게얘기해서밀도곡선은히스토그램에그려져있는막대그래프들의높이를매끄럽게이은것이라고생각하시면될것같습니다. 그림 4.B에그려져있는검정색선이바로밀도곡선입니다. A. Frequency Histogram B. Histogram with Density Curves 그림 4: 히스토그램과밀도곡선 그림 4.B에나와있는밀도곡선은그냥대충제가그린것은아닙니다. 이밀도곡선을그리기위한공식이있습니다. 매우복잡합니다. 대충다음과같은식을이용합니다. e.g.) ˆf h (x ) = 1 n 1 (d(x, x i ) < 1) (1 d(x, x i )) n i=1 즉굳이공부를안하시는게신상에좋을것같습니다. 어차피우리의절친인통계패키지가알아서그려줍니다. 그럼왜이밀도곡선이유용한지말씀을드리도록하겠습니다. 밀도곡선을그려보면자료분포의대략적인패턴이나모양을파악할수있습니다. 손호성 12 노트 2
밀도곡선을그려놓고나면어떤구간에속해있는관측치의비율을계산할수있습니다. 예를들어그림 4.B에서구간 40000에서 50000 사이에있는관측치의비율을계산을할수있습니다. 어떻게구하냐면구간 40000에서 50000 사이에있는밀도곡선면적을구하면됩니다. 밑에그림에서파란색부분의면적을구하면 40000에서 50000 사이에있는관측치의비율이나옵니다. 나중에배우게되겠지만이밀도곡선은통계적추론 (statistical inference) 를할때필수적인역할을하게됩니다. 이밀도곡선은한가지매우중요한특성을갖고있는데바로밀도곡선의넓이는항상 1이라는점입니다. 즉 100% 라는것입니다. 이것은당연한얘기입니다. 밀도곡선의넓이는어떤관측치가속할확률이라고말씀드렸습니다. 그럼전체구간에속해있는관측치의비율은당연히 100% 죠. D.2. 정규곡선 (Normal Curve) 혹은정규분포 (Normal Distribution) 통계학자들은굉장히많은종류의밀도곡선을개발했습니다. 그중에서정말가장많이사용되고있는밀도곡선이있습니다. 아마지금까지밝혀진세상의여러진리가이밀도곡선이없었다면밝혀지지않았을까할정도로학계에매우큰획을그은곡선입니다. 그렇다고뭐어려운것은아닙니다. 아무튼그밀도곡선의이름은정규곡선이라고합니다. 그러한곡선을갖는자료를정규분포를갖는자료라고합니다. 정규곡선의특징은대부분의관측치의값들이중앙에몰려있고중심치에서곡선이대칭인모양을갖고있다는점입니다. 그림 4.B에있는밀도곡선도정확하지는않습니다만정규곡선이라고할수있습니다. 손호성 13 노트 2
정규곡선의정확한모양은평균과표준편차에의해서결정이됩니다. 정규곡선의중심은평균이되고만약모양이중심치에서정확하게대칭이라면중간값도중심이됩니다. 그리고표준편차가이정규곡선의어떤산포도를결정을합니다. 그림 5가정규곡선의한예입니다. 그림 5에두개의서로다른평균값을갖는정규곡선을표시했습니다. 그림 5: 두개의서로다른평균값을갖는정규곡선 평균값만다른경우두개의정규곡선은모양은같습니다. 단지 x축에서위치가달라집니다. 그림 6에는평균은같은데표준편차가다를때정규곡선의모양이어떻게달라지는지를표시했습니다. 그림 6을보시면알겠지만표준편차가클수록정규곡선의모양이좀더넓게퍼지게됩니다. 즉평균값과표준편차가뭐냐에따라다양한정규곡선이존재합니다. 정규곡선을그리기위한식은다음과같습니다. ( 1 x µ 1 σ 2π e 2 σ ) 2 위식안에는평균 µ 가있고표준편차 (σ) 가있는데이식에의해서정규곡선이그려지기때문에당연히이에따라정규곡선의모양이달라지는것입니다. 잠깐, 위식을알아야하는가? 뭐알면좋지만굳이안알아도됩니다. 하지만이건아셔야합니다. 위식에서변수는 µ 랑 σ입니다. 따라서정규곡선은전적으로이두변수에의해결정이된다는사실입니다. 3. 3 참고로정규곡선식에서 e는 2.718 를나타내는무리수입니다. 모르셔도됩니다 손호성 14 노트 2
그림 6: 평균값은같지만표준편차는다른경우의정규곡선 이정규분포가통계학에서굉장히중요한이유는다음과같습니다. 실제우리가접하는자료의분포가정규곡선의모양을갖고있는경우가많습니다 ( 예, 학생성적, 키, 몸무게 ). 여러가지확률변수 ( 예, 동전던지기 ) 의결과가정규곡선의형태를띄는경우가많습니다. 제일중요한점은우리가연구할때하는통계적추론 ( 소위말하는 p값계산하는것 ) 이이정규곡선에기반해서이루어진다는사실입니다. 물론실제자료를보면정규분포의형태를띄지않는자료도많습니다. 그림 7에 2010 년기준미국의가구소득의분포를그려봤습니다. 그림 7을보면자료의분포가정규곡선을띄지는않습니다. 오히려왼쪽으로많이치우쳐져있음을알수있습니다. 소득수준이전형적으로정규분포를띄지않는변수입니다. 이외에도주택가격같은것도정규분포를띄지않는변수라고할수있겠습니다. D.3. 표준화 (Standardization) 두개의정규분포를비교해야할때가있습니다. 예를들어보도록하겠습니다. 수능점수에대한자료가있다고칩시다. 변수 X를수능성적이라고하고이수능성적의평균과표준편차를계산해보니 300과 50으로계산되었습니다. 그리고 X의분포를보니정규분포였습니다. 이럴때우리는 X N(300, 50) 이렇게표시합니다. 즉 X라는변수의평균은 300 손호성 15 노트 2
2017년 4월 5월 한국보건사회연구원 통계학 및 계량경제학의 기초 및 응용 그림 7: 2010년 실제 미국 가구소득 분포 이고 표준편차는 50, 그리고 분포의 모양은 정규분포라는 것입니다(대문자 N 은 Normal 에서 첫글자 N 을 따온 것입니다). 그리고 토익 점수에 대한 자료가 있다고 칩시다. 토익 점수는 Z라고 합시다. 근데 조사를 해보니 Z N (700, 70)입니다. 즉 토익 점수의 평균은 700점이고 표준편차는 70점 그리고 분포의 모양은 정규분포입니다. 자 이런 상태에서 이 두 자료의 표준편차를 토대로 수능성적의 변동폭이 토익점수보다 작다고 얘기할 수 있을 까요? 그렇게 결론을 내릴 수는 없습니다. 왜냐하면 두 변수의 척도가 다르기 때문입니다. 수능성적은 만점이 400점이고 토익은 990점입니다. 그래서 단순히 비교하면 안됩니다. 이 런 경우에 사용할 수 있는 방법이 이 두 변수의 각각의 관측치의 값들을 표준화해서 z점수 (z-score)을 계산하고 비교를 하는 것입니다. Definition 8 z점수(z-score): 만약 xi 가 평균이 µ이고 표준편차가 σ인 분포인 자료 중에 하나의 관측치 값이라고 한다면, 이 xi 를 표준화한 값(z)은 z = (xi µ)/σ를 통해서 계산할 수 있고, 이 표준화된 값을 z점수라고 합니다. z점수는 xi 가 평균으로부터 몇 표준편차만큼 떨어져 있는지를 나타냅니다. 예를 들어보 도록 하겠습니다. 김경래 학생의 수능성적은 350점입니다. 반면 토익성적은 840점입니다. 자 이 상태에서 김경래 학생의 토익점수가 수능점수보다 높으니까 토익을 수능보다 잘 봤다고 할 수 있을까요? 그렇게 결론을 내릴 수는 없습니다. 왜냐하면 두 시험은 척도가 다르고, 다른 학생과의 비교를 하지 않으면 김경래 학생의 토익점수 혹은 수능점수가 높은 건지 낮은 건지 알 수가 없기 때문입니다. 그래서 이럴 때 z점수를 활용해서 결론을 내리게 됩니다. 손호성 16 노트 2
2017년 4월 5월 한국보건사회연구원 통계학 및 계량경제학의 기초 및 응용 김경래 학생의 수능점수와 토익점수 각각을 z점수로 환산해 보도록 하겠습니다. 수능 점수의 z점수는 z = (xi µ)/σ = (350 300)/50 = 1입니다. 반면 토익점수의 z점수는 z = (840 700)/70 = 2입니다. 즉 김경래 학생의 수능점수는 수능점수 분포에서 평균보다 약 1 표준편차만큼 더 위에 위치해 있습니다. 그리고 토익점수는 토익점수 분포에서 평균 보다 약 2 표준편차만큼 더 위에 위치해 있습니다. 즉 김경래 학생은 토익을 훨씬 더 잘 본 것입니다. 이 예에서 알 수 있듯이 서로 다른 자료의 값들을 비교할 때 z점수가 굉장히 유용합 니다. 여기서 한 가지 중요한 사실을 알아야 합니다. 어떤 변수가 정규분포를 따를 때, 각각의 관측치 값들을 표준화하면 그 표준화한 값들의 분포는 평균이 0이고 표준편차는 1인 정규분포가 된다는 사실입니다. Definition 9 표준정규분포(Standard Normal Distribution): 표준정규분포는 평균이 0이고 표준편차가 1인 정규분포를 지칭하는 것입니다. 즉 변수 X가 표준정규분포를 따르면 우리는 X N (0, 1)이라고 씁니다. 만약 변수 X N (µ, σ)이면 변수 X의 각각의 관측치 값들을 표준 화한 변수 Z = (X µ)/σ는 Z N (0, 1)가 됩니다. D.4. 표준정규분포를 이용해서 확률(비율) 계산하는 방법 밀도곡선의 어떤 구간에서의 넓이가 의미하는 것은 어떤 관측치가 그 구간에 속하는 확률 혹은 그 구간에 있는 관측치의 비율이라고 말씀드렸습니다. 정규곡선 혹은 정규분포 또한 밀도곡선이기 때문에 정규분포의 넓이 또한 확률 혹은 비율을 나타냅니다. D.4절에서는 정규분포 하에서의 넓이값을 구하는 방법을 배우도록 하겠습니다. 구체적인 예를 통해서 한 번 그 방법을 배워보겠습니다. 여러분 MENSA라는 단체를 아시나요? 좀 위화감을 조성하는 단체이긴 합니다만 이 MENSA라는 단체는 한 마디로 IQ가 높은 사람들의 모임입니다. 이 MENSA라는 단체에 가입을 하려면 IQ 점수가 130점 이상이 되어야 한답니다. 제 고1 때의 IQ 점수는 104점이였던 걸로 기억합니다. 전 이 단 체에 가입을 못하는 거죠. 어쨌든 이 IQ 점수가 전형적인 정규분포를 따르는 변수입니다. 전수조사를 통해 계산된 것은 아니지만 이 IQ 점수(X)는 X N (100, 15)를 따른다고 합 니다. 그럼 이런 질문을 할 수 있습니다. 도대체 MENSA에 가입하려면 본인의 IQ 점수가 상위 몇 퍼센트에 속해야 하는 걸까요? 정규분포의 면적을 구하면 우리는 이 문제에 답을 할 수가 있습니다. 그림 8에 우리가 구해야 하는 면적이 표시되어 있습니다. 즉 정규분포에서 130 이상인 지점부터 오른쪽 끝까지의 구간의 면적을 구하면 됩니다. 저 면적을 어떻게 구할까요? 손호성 17 노트 2
그림 8: IQ 점수의분포 정확하게구하기위해서는우리는다음과같은적분식을활용해야합니다. 130 f(x)dx = 130 ( 1 x µ 1 σ 2π e 2 σ ) 2 dx. 당연히저적분식을풀수있어야하는건아닙니다. 뭐하러풉니까저식을. 그럼어떻게면적을구할까요? 바로표준정규분포표를활용하는겁니다. 우선 IQ 점수를표준화합니다. 그림 9를통해 IQ 점수를표준화하면표준정규분포가됨을알수있습니다. 130 점을표준화해볼까요? X N(100, 15) 이기때문에 130을표준화하면 (130 100)/15 = 2 가됩니다. 100점을표준화하면 (100 100)/15 = 0이됩니다. 이런식으로모든 IQ 점수를표준화하면결국표준화한 IQ 점수 Z는 Z N(0, 1) 을따르게되는겁니다. 자그럼그림 9를보면결국우리가구해야하는면적은표준정규분포에서 2 이상이되는구간의면적입니다. 이를구하기위해사용하는것이표준정규분포표입니다. 대개통계학교재부록에이표가수록되어있습니다. 여기에는그일부만수록하였습니다 ( 그림 10). 보시면우리가구해야하는면적은 2 이상이되는구간의면적이므로표에서 z가 2일때의노란색부분입니다. 표는이 z가어떤특정한값을가질때초록색면적이얼마나되는지알려주고있습니다. 그럼노란색부분의값을구하기위해서는어떻게해야할까요? 제가앞서모든밀도곡선에공통적으로적용되는특성이있다고말씀드렸습니다. 즉밀도곡선의전체넓이는항상 1이라는점입니다. 그럼노란색부분의넓이를구하기위 손호성 18 노트 2
그림 9: 표준화한 IQ 점수의분포 해서는 1 에서초록색부분의넓이를빼면되는것입니다. IQ 점수 130 점의표준화값은 2 점이므로그림 10 을통해초록색부분의면적이 0.9772 인것을알수있습니다. 4 따라서 노란색부분의넓이는 1 0.9772 = 0.0228 인것을알수있습니다. 따라서 MENSA 에가입하기위해서는본인의 IQ 점수가상위 2.28% 에들어야한다는 것입니다. 참뭐하지않습니까? 위화감을조성하는것도아니고원... 어쨌든이 2.28% 라는 확률은다음의두가지조건하에도출이된것입니다. 1. IQ 점수가정규분포를따름. 4 그림 10 에서첫번째열은 z 값의첫번째소수점까지를나타내고첫번째행은 z 값의두번째소수점을나타냅니다. 즉확률을찾을때는먼저첫번째열을보고그리고나서첫번째행을보면됩니다. 손호성 19 노트 2
그림 10: 표준정규분포표 2. 전세계사람들의 IQ 점수의평균이 100점이고표준편차는 15임. 이두조건을만족하지않으면위에서계산한 2.28% 는맞다고볼수없습니다. 가장중요한사실을말씀을드리면서이를끝맺으려고합니다. 방금계산한 2.28% 를두가지방식으로해석할수있습니다. 반드시알고계셔야합니다. 1. MENSA에가입할자격이되는사람의비율은 2.28% 다. 2. 만약임의 (random) 로어떤사람을택했을때, 그사람의 IQ 점수가 130점이상일확률은 2.28% 다. 손호성 20 노트 2