통계와응용 (15 강 ) 담당교수 : 손창균
v 사례연구 오염노출된아기들 2005년 7월 28일자시드니모닝해럴드에 1998년에서 2000년사이에태어난아기 138,000명모두에대한연구결과를인용하였다. 뉴사우스웨일즈주보건부환경보건과에있는Vicky Sheppeard 박사는출생전에최고수준의오염에노출된아기는가장요염수준낮은지역에있던아기들에비해약 12그램정도가볍다고말했다. 이연구에관해논평한 Bruce Armstrong ( 시드니대학의공공보건학과학과장 ) 교수는 공기오염이낮은출생체중과연관되었다는증거의실체를부인하기어렵다... 이것은아마도원인과효과를고려해야한다... 가능한할수있는만큼낮은공기오염도를유지할필요가있다는점을재차강조한것이다... 라고말했다. 215
v 사례연구 이기사의주요쟁점은다음과같다. 1. 계획된연구이다. 2. 그연구는가설을검증하기위해수행되었다 - 즉오염이아기의출생체중에영향을주었다. 3. 표본추출방법을계획하였다 ( 이경우 1998 년부터 2000 년까지 3 년간의모든아기를포함 ) 4. 주장을만들었다 : 측정된두개의변수간의연계성을추출하였다. - 그표본은오염의증가가출생체중의감소의원인이되었다라고언급하였다. 5. 주장을만들었다 : 연구에서표본은보다많은논거로전체적인증거가되도록시드니에서태어난모든아기모집단으로일반화하였다, 6. 공공보건정책과정부지출 / 자산에관한연구결과로부터함의를만들었다 - 이경우시드니의오염도를낮출필요가있다. 216
3.1 주장을지지하기위한자료이용하기 1. 어떤이론을검증하기위해서나질문에대한답을얻기위해연구가설계되고, 표집이수행되며자료가수집된다 2. 기술통계절차에서는표와그래프로그자료를표현한다. 그자료는표집된자료로모집단에관한분명한결론을나타낼수있다. 의문 그러나그자료가얼마나강력하게결론을지지하는가? 자료와결론간에연계에대해강력한증거가있는가? 관찰된효과가실험적처리에기인한것이며, 우연적결과가아니라고얼마나확신할수있는가? 자료간의연계성을결정하고모집단에관한결론을도출하는것은해석을수반한다. 217
3.1 주장을지지하기위한자료이용하기 해석하는방법의기저는추측통계학이라고하는또다른통계적절차에있다. 추측통계학은표본에기반하여 ( 통계량 ) 모집단에관한측정가능한주장을만들기위해통계적방법과모형을사용한다. 자료에관한유용한해석이되기위해또는다른해석의적절성을평가하기 위해우선제시된자료가어떻게생산되었는지에관해질문할필요가있다. 218
1) 변수를잘정의하고있는가? 세계 2 차대전이후대부분의서구국가들은경찰통계에의해측정함으로서범죄기록의증가를경험했다. 그러나공식적인범죄발생률은실제로구속된가해자의수의증가보다는경찰에의해단지기록된가해자의수가증가한것임을나타낸다. 범죄, 특히폭력범죄는최근호주에서증가하고있다는것이일반적인인식이다. 그러나 1993 년자료는 1983 년에비해폭력범죄수준에서단지일부변동이있는것으로나타났다. - 강도에의한피해율이 0.6% 에서 1.2% 로 2 배증가한반면, 성폭력발생률은 0.6% 로거의변동하지않은상태이며, 다른폭력유형들의발생률은 3.4% 에서 2.5% 로감소하였다. - 이들 1983 년과 1998 년자료는폭력범죄발생률의일단을나타낸것이며, 범죄사건은두년도에서변동하였음을주지해야한다. ( 호주통계청 1995) 219
1) 변수를잘정의하고있는가? 조사간의방법론과정의차이때문에이들의결과를이용하는데조심해야한다. 1983 년과 1993 년조사의중요한차이는다음과같다. 1983 년에자료를면대면면접으로수집하였지만, 1993 년에는자기기입식 조사표를이용하였다. 비록두조사가 12 개월을기준기간으로갖지만, 1993 년조사는 4 월에실시 된반면, 1983 년조사의표본은 1983 년 2 월부터 1984 년 1 월까지 12 개월이상 퍼져있다. 220
1) 변수를잘정의하고있는가? 피해발생률은범죄피해자로보고된특정범주의사람들또는가구수를해당범주에있는모든사람또는가구수의백분율로표현한것이다. 가해유형의발생회수와무관하게피해는각유형의가해자에대해단지한번헤아린다. 가구범죄는주거침입, 주거침입미수그리고자동차절도로구성된다. 후자인자동차절도는자동차절도, 가구원소유이거나중고차인지에배타적으로포함하며, 이는집으로부터멀리떨어져발생할수있다. 경찰청통계와의비교 : 호주통계청의범죄및안전조사에서얻은응답은범죄가해피해를당했던응답자의인지에의존하고있다. 경찰에보고되지않은범죄관련자료가수집된다. 사용된용어는응답자에게묻는질문문항을요약하였고, 적법하거나경찰의정의를따르진않았다. 221
1) 변수를잘정의하고있는가? 동일한개념을사용한 2 개이상의기관이있을때, 변수의정의와활용에수반된복잡성을나타내고있다. 범죄자료에서논의된문제들은다음과같다. 1. 호주통계청내에서도서로다른자료수집방법을이용하고있다 면대면조사와응답자직접기입식방법 2. 호주통계청에서서로다른시점의프레임을사용하고있다. 3. 경찰자료는보고된범죄에만기초한다 ( 호주통계청은그러한조사상의불일치를정의하고있다 ) 4. 경찰의정의가호주통계청의정의와다를수있다. 5. 어떤주거범죄는가구에서발생하지않을수있다 ( 자동차강도 ). 6. 범죄피해율은복합적인발생회수를사용하지않기때문에실제발생률보다낮을수있다. 222
1) 변수를잘정의하고있는가? 다음항목에서조사연구로부터편향을제거하기위해사용할수있는방법을고르시오. a) 통제 b) 다중표본 c) 확률표집 ( 임의표집 ) d) 편의표집 223
1) 변수를잘정의하고있는가? 다음항목에서조사연구로부터편향을제거하기위해사용할수있는방법을고르시오. a) 통제 b) 다중표본 c) 확률표집 ( 임의표집 ) d) 편의표집 224
2) 자료를어떻게생산하였나? < 사례연구 > Coleman, Hoffer and Kilgore (1982) [2] 는고등학교에대한연구로부터자료를분석하였다. 이연구는 10 학년부터 12 학년까지공립, 가톨릭및기타사립고등학교에다니는학생들을대상으로독해력, 어휘력및수학시험성적을분석하였다. 연구문제는 기본적인인지능력에기반한보다높은성취도를평가하여사립학교가경쟁력있는학생을길러내는가 이었다. 연구에참여한학생들은 2 종의시험을치르도록하였다. 225
2) 자료를어떻게생산하였나? < 사례연구 > 226
2) 자료를어떻게생산하였나? 제시된표로부터성적에관한가능한해석을고르시오. a) 각부문은독해력보다수학에보다높은인지결과를나타내기위해학생들을지원하고있다. b) 가톨릭학교는독해력, 수학및어휘력에서유사한점수를얻도록기여하고있다. c) 비공립학교 ( 사립과가톨릭 ) 는학생들의점수에서공립학교만큼기여하지못하고있다. d) 공립학교는학생들의점수에서비공립학교만큼기여하지못하고있다. 227
2) 자료를어떻게생산하였나? 자료가좋은것인지아닌지를어떻게결정할수있는가? < 가이드라인 > 1. 자료에영향을줄수있는고려하지않은다른변수가있는지를자문하라. 2. 자료의상황을제시하고있는가? 즉, 자료의근거를명확히설명하고있는가? 이는변수가잘정의되었는지또는측정은타당하고, 신뢰성있고정확한지를결정하도록한다. 3. 연구에사용될표본을어떻게추출하였나? 표본을추출하는방법에어떤편향은없나? 4. 호주통계청과같이조직화되고인정받는기관에서생산된자료인가?( 비록이러한기관이자료가훌륭하다고보증할수는없지만, 일반적으로이해관계가있는단체로서모르는기관이생산한자료에비해신뢰할만한자료이다 ) 5. 변수들은잘정의되었고, 이들은속성을정확히측정하여초점에맞는가? 228
3) 주장을뒷받침하는자료이용 ; 추론하기 통계량으로부터모수추정하기및표본크기추정하기 여론조사에서투표자표본을선정하고, 만일표본이모집단을대표한다면모평균이표본평균 ± 허용오차내에떨어진다고확신할수있다. 그범위를신뢰구간이라하며, 다음과같이표현할수있다 229
3) 주장을뒷받침하는자료이용 ; 추론하기 통계량으로부터모수추정하기및표본크기추정하기 표본평균을기반으로모평균을추정하는상황을고려하자 여기서특별한숫자 Z 와모집단표준편차 (σ) 과표본크기 (n) 이포함되었다. 230
3) 주장을뒷받침하는자료이용 ; 추론하기 통계량으로부터모수추정하기및표본크기추정하기 [ 예제 ] 과거경험으로부터기계로생산된장대의지름에대한표준편차는약 0.135cm 였다. 30 개장대의단순임의표본에대해평균지름이 3.560cm 였다. 다음을계산하라. (a) 모집단평균지름에대한 95% 신뢰구간. (b) 모집단평균지름에대한 90% 신뢰구간. 231
3) 주장을뒷받침하는자료이용 ; 추론하기 n=30 σ=0.135cm =3.56cm Z=1.960 모평균에대한 95% 신뢰구간 232
3) 주장을뒷받침하는자료이용 ; 추론하기 n=30 σ=0.135cm =3.56cm Z=1.645 모평균에대한 90% 신뢰구간 233
3) 주장을뒷받침하는자료이용 ; 추론하기 표본크기가신뢰구간의폭에영향을준다. - 즉보다큰규모의표본크기는신뢰구간의폭을줄인다. 신뢰계수는신뢰구간에영향을준다. 보다높은신뢰도는신뢰구간의폭을넓힌다. - 그러므로추정하는실제평균으로부터보다멀리떨어지게된다.( 즉, 정확성을상실하지만, 신뢰도를얻는다 ) 234
3) 주장을뒷받침하는자료이용 ; 추론하기 [ 예제 ] 한사회사업가가 95% 의신뢰도로최대허용오차 $60로서방학동안 10대들이벌어들인평균임금을결정하고자하였다. 이전의연구로부터 σ=$430 이라고한다. 이를달성하기위해필요한표본크기는얼마인가? 235
3) 주장을뒷받침하는자료이용 ; 추론하기 표본비율에근거한모비율 π 추정하기 236
3) 주장을뒷받침하는자료이용 ; 추론하기 [ 예제 ] USA Today 지는 최선의대통령후보들을낙선시키는현재의시스템에찬성하십니까? 라는질문에응답하도록하는여론조사를 CNN과실시하였다. 1406명의표본중에서 매우찬성 에 320명이응답하였다. 그선거에서 매우찬성 하는모집단비율에대한 99% 신뢰구간을계산하시오. 237
3) 주장을뒷받침하는자료이용 ; 추론하기 [ 예제 ] 품질관리사무소는생산라인으로부터 400 개의문고리에대한단순임의표본을추출하여이중 44 개의불량품을찾아냈다 모집단의불량문고리에대한 90% 신뢰구간은다음중무엇인가? a) 0.11±0.026 b) 0.11±0.077 c) 0.15±0.084 d) 0.10±0.084 238
3) 주장을뒷받침하는자료이용 ; 추론하기 [ 예제 ] 낚싯대제조업자는낚싯대의강도에대한표준편차가 2.25kg 이라고한다. 필요한표본규모는얼마인가? a) 3,548 b) 865 c) 441 d) 217 e) 30 239
3) 주장을뒷받침하는자료이용 ; 추론하기 모표준편차 σ 를모를때모평균 μ 를추정하기 이는통상적으로발생하는것으로서 - 표본표준편차 s 를안다. 이럴경우 s 를 σ 대신사용한다. 또한 Z 대신 t 라하고하는다른신뢰계수를이용한다. t 는표본크기가작을때유용한값이다. 따라서다음과같은신뢰구간공식을표현할수있다. 240
3) 주장을뒷받침하는자료이용 ; 추론하기 모표준편차 σ 를모를때모평균 μ 를추정하기 [ 예제 ] 학생들이어떤책에서고정된페이지까지읽는데걸리는시간을결정하기위한검사를실시하였다. 모든학생들은그책을이해하면서가장빠른속도로읽도록훈련받았다. 16명의표본학생들이그검사를받았으며, 평균소요시간은 24.19 분이었고, 표본표준편차는 5.29분이었다. 모든학생들이그책을읽는데걸리는평균소요시간을 t=2.131 인 95% 신뢰구간을이용하여추정하시오 모든학생들이그책을읽는데걸리는평균소요시간을 t=2.947 인 99% 신뢰구간을이용하여추정하시오. 241