통계학 자료의생성및질확보 한국보건사회연구원 2017 년 4 월 17 일 ( 월요일 ) 강의슬라이드 3 1/ 82
목차 1 2 3 2/ 82
지난시간복습 자료의분포의산포도를검토할때사용하는방법 : 분산과표준편차 자료의분포의모양을검토할때사용하는방법 : 밀도곡선 (density curve) 3/ 82
지난시간복습 4/ 82
지난시간복습 5/ 82
지난시간복습 정규분포 : 2 개이상의정규분포를비교하는방법 : 표준화해서 z = (x i µ)/σ 점수사용 6/ 82
지난시간복습 IQ 점수 (X) 는정규분포모양을띠고평균은 100 이고표준편차는 15 정도로알려져있음 : 즉, X N(100, 15) 7/ 82
지난시간복습 8/ 82
지난시간복습 즉 MENSA 에가입하기위해서는 IQ 점수가상위 2.28% 정도는되야가능 이 2.28% 라는확률은두가지조건하에도출이된것임 : 1. IQ 점수가정규분포의모양을띠고 2. 분포의평균은 100 이고표준편차는 15 임 위두조건이틀리면 2.28% 도틀리게됨 2.28% 는두가지로해석가능 : 1. MENSA 에가입할자격이되는사람의비율은상위 2.28% 다 2. 만약무작위 (random) 로어떤사람을택했을때, 그사람의 IQ 점수가 130 점이상일확률은 2.28% 다 9/ 82
지난시간복습 두변수간의관계를검토할때사용하는방법 : 1. 상관계수 2. 최소자승회귀계수 상관계수와회귀계수 : 1. 두변수간에선형관계가존재할때만식별가능 2. 두계수모두특이값에강건하지않음 10/ 82
지난시간복습 상관관계 vs. 인과관계 : 1. 두변수간의상관계수혹은회귀계수값이크다고해서두변수간에인과관계가존재한다고말못함 = 중첩변수와잠복변수 2. 두변수간의인과관계증명하는방법굉장히어려움 = 실험적혹은준실험적연구설계, 다섯가지기준 효과의원인 vs. 원인의효과 : 1. 효과의원인 비만의결정요인 2. 원인의효과 흡연이비만에미치는효과 = 통계학의논리활용할거면원인의효과를알아보는연구가바람직! 11/ 82
복습문제 수능시험성적을결과변수로그리고고등학교기간동안결석한횟수를설명변수로해서회귀분석을돌린결과설명변수의회귀계수값이 10 점으로도출이되었음 1. 이규환선생님이내린결론 : 결석을많이하면수능성적에악영향을미침 2. 김경래선생님이내린결론 : 결석을한번하면수능성적이 10 점감소함 누구의결론이맞나요? 12/ 82
복습문제 인과관계가존재하면반드시상관계수의값이크다 = 맞나요? 잠복변수혹은중첩변수는항상관측할수있다 = 맞나요? 패널자료를분석해보니결혼을해본사람이결혼을해보지않은사람에비해소득수준이높게나타났다. = 결혼을하면소득수준이높아진다고결론내릴수있나요? 13/ 82
복습문제 어떤연구주제가바람직할까요? 출산에영향을미치는요인을분석 vs. 정규직 vs. 비정규직여부가출산에영향을미치는효과를분석 14/ 82
서론 일화공용자료표본조사실험 지금까지자료분석을할때사용할수있는방법에대해배움 : 예, 평균, 분산, 밀도곡선, 상관계수, 회귀계수 이러한방법들을이용해 탐색적 으로자료를분석 = 탐색적으로자료를분석한다는것은어떤특정한연구주제를염두에두지않고자료를분석한다는것 탐색적자료분석을통해내린결론이강한설득력을지니고있지않는것을알수있었음 = 자료에존재하는어떤두드러진패턴 ( 예를들어강한상관관계혹은큰회귀계수값 ) 은여러요인들에의해발생할수있기때문 ( 예, 특이값, 잠복변수, 중첩변수등 ) 15/ 82
서론 일화공용자료표본조사실험 지금까지이러한도구들을응용할때두가지조건하에논의를진행 : 1. 자료를갖고있다 2. 갖고있는자료가제대로된자료이다 아무리연구자가사용하는통계기법이고급이고최신기법이어도자료가엉망이면, 그자료를통해도출한결론은결코옳지않음 = 통계적분석을통해도출한결론의타당성은일차적으로이자료의질에달려있다고해도과언이아님 16/ 82
서론 일화공용자료표본조사실험 오늘및다음주까지의주제 : 1. 자료의출처 2. 좋은질의자료를확보하는방법실험설계 (experimental design) 무작위통제실험 (randomized controlled trial) 추출설계 (sampling design) 3. 통계적추론의기초모수 (parameter) 와통계량 (statistic) 추출변이 (sampling variability) 추출분포 (sampling distribution) 17/ 82
자료의출처 일화공용자료표본조사실험 최근에는자료의출처가다양 출처가다양한만큼자기가사용하고있는자료가어디서, 그리고어떻게만들어졌는지검토해야함 자료의주요출처 : 1. 일화 2. 공용자료 3. 표본조사 4. 실험 18/ 82
일화 일화공용자료표본조사실험 일화란말그대로이야기 예 ) Focus group interview 이러한일화를토대로어떤연구주제에대해서논리적으로탄탄한결론을도출하기는어려움 간단한예 : 김경래선생님의절친한친구이자직장동료인이규환선생님이김경래선생님에게다음과같이말함. 저독감주사맞았는데도독감에걸렸어요. = 이규환선생님은이를이유로독감주사를놓아준병원에대해서불평불만을쏟아냄과동시에독감주사는하나도소용이없다고주장 이런이규환선생님의주장이일화 19/ 82
일화 일화공용자료표본조사실험 이규환선생님의이야기를듣고독감주사는독감예방에효과가없다고결론내릴수있을까? = 그럴수는없음 Why? 1. 이규환선생님이독감주사를맞기전에이미독감에걸렸을수도있음 2. 병원이보유하고있던독감주사에뭔가문제가있었을수도있음 3. 이규환선생님에게뭔가독특한체질이있어일반적인사람에게는효능이있는약이이규환선생님에게는효능이없었던것일수도있음 20/ 82
일화 일화공용자료표본조사실험 이유야뭐가됐든이규환선생님은소위말하는 일반화의오류 를범하고있는것임 일화의가장큰한계점 : 사례가너무적어일반화하기에는무리가있음 그럼일화는자료로서가치가없는가? No! 일화를분석해서타당한결론을도출할수는없지만연구주제혹은가설을설정할때큰도움을줄수있음 일화는연구시작의좋은출발점역할을해줄수있음 실제로많은노벨수상자들은자신들의통찰력이이런일화를통해형성이되었다고말을함 21/ 82
자료의 출처(Data Source) 실험설계(Experimental Design) 무작위 통제 실험(Randomized Controlled Trial) 일화 공용 자료 표본 조사 실험 공용 자료 여러분은 컴퓨터 없이 살 수 있는지? 전 살 수 있음! 하지만 밑의 것들에 대한 접근 없이 살 수 있는지? 22/ 82 슬라이드 3: 자료의 생성 및 질 확보
공용자료 일화공용자료표본조사실험 많은사람들이인터넷없이살수없다고할것임. 그만큼수도없이많은정보가인터넷에떠돌고있기때문임 : 현재는인터넷시대! 즉수많은자료가공용자료로서접근이가능함 이런공용자료를분석해때로는타당한결론을도출할수도있음 예 ) 통계청 = 여러형태의자료제공 ( 마이크로데이타 ) 23/ 82
공용자료 일화공용자료표본조사실험 공용자료의한계점 : 1. 대개어떤특정한연구주제를염두에두고만들어진것이아님 2. 연구에활용할수있는변수가많지않음 3. 개별단위의자료가희소함 그래서많은연구자들이표본조사혹은실험을통해연구를수행함 24/ 82
표본조사 (Sample Survey) 일화공용자료표본조사실험 과거에비해낙태에대한가치관이어떻게바꼈는지를알아보는연구한다고가정 이연구를할때모든사람에대해서조사를할것인가? No! 이럴때많이사용되는자료가표본조사 표본조사의아이디어는표본 ( 즉모집단의일부 ) 만조사해서전체집단에대한결론을도출하는것 모집단을센서스라고도함 25/ 82
표본조사 (Sample Survey) 일화공용자료표본조사실험 여론조사가전형적인표본조사의예 : = 여론조사란전체국민의의견에대한결론을내리기위해일부의사람들을대상으로조사를하는것 한국가의실업률도대개일부의사람들을대상으로조사를해서발표 왜모집단전체를조사안하고일부를대상으로만조사? 1. 시간적, 금전적, 인적비용 2. 에러 : 한명의조사자가조사해야하는사람이많으면많을수록그조사자가실수를할확률은커짐 = 문제가많은다수의자료 vs. 문제가적은소수의자료 26/ 82
표본조사 (Sample Survey) 일화공용자료표본조사실험 표본조사를통해수행하는연구를관측연구 (observational study) 라고함 관측연구란어떤개인이나사물을관찰하고관심변수에대해서측정을하는것 그런데관측연구는어떤개인이나사물의행위혹은반응에대해어떤영향을줄목적으로수행하지는않음 관측연구를하는것은굉장히가치가있지만어떤두변수간의인과관계를증명할때는한계가많이있는연구 27/ 82
표본조사 (Sample Survey) 일화공용자료표본조사실험 100 명을대상으로골밀도를조사 이 100 명중에 10 명의운동선수가포함되어있었다고함 이 10 명의골밀도는다른사람에비해 50% 나높음 이런상태에서이표본조사를분석한결과를통해, 운동을하면골밀도가높아진다고결론을내릴수있을까? 글쎄요... 28/ 82
표본조사 (Sample Survey) 일화공용자료표본조사실험 운동선수들의골밀도가높은것은운동을해서일수도있지만운동을시작하기전부터높았을수도있지않을까? 그렇다고한다면운동선수들의골밀도가높은것은운동과전혀상관없을수도있음 제경험 ( 일화 ) 에따르면운동을하면오히려골밀도가약해짐 표본조사혹은관측연구를통해구한자료를갖고변수간의인과관계를증명하는것은어려움 29/ 82
실험조사 일화공용자료표본조사실험 인과관계를증명할때는대개실험을해서자료를생성 실험에서는어떤변수의효과를분석하기위해사람에게어떤처리 (treatment) 를함 처리란변수와관련한개입을하는것 : 위예에서는운동을하게끔하는것이처리. 정책의수혜자격을주는것도처리 실험에도여러형태의한계점이존재하지만인과관계를증명할때활용되는여러가지통계기법중에실험이아직까지는가장설득력이있는기법으로간주되고있음 30/ 82
연습문제 일화공용자료표본조사실험 부연구위원은 A 초등학교에가서점심시간에 200 명의 6 학년아이들을관찰함. 관찰한결과남자아이들이여자아이들에비해음식을더남겼음을발견 이연구는관측연구혹은실험연구? = 관측연구 : 연구자가아이들에게어떤처리를한것이없음 표본조사? = No: 아이들에게얼마나음식을남겼는지조사한것이아님. 그냥행동에대해서관찰만한것임 31/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 실험설계 연구의목적이 X 변수가 Y 변수에미치는인과적효과를도출하는것이면실험을통해구한자료로분석을해야한다고강조 이시점에서할수있는질문 : 1. 두변수간의인과관계증명을함에있어서왜실험이설득력이높은방법인지? 2. 실험을어떻게해야하는지? 3. 인과관계증명과관련해서실험이만병통치약인지? 질문에대한답을간단한예를통해알아봄 32/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 사례 은 1000 명의직원이근무를하고있는회사의사장임. 사장은요즘직원들이지각을많이해서골머리를앓고있음 그래서사장은전직원을대상으로조사를하여수면이충분한데도불구하고피로감이가시지않는다고호소하는직원이많음을알게되었고이피로감이지각의 원인 이라고판단 술을좋아하는사장은김경래선생님과이규환선생님을만나서고충을토로. 그랬더니김경래선생님은자기도잠을아무리많이자도피로가안풀렸는데비타민 C 를섭취하고나서부터는피로감이사라졌다는말을해줌. 옆에있는이규환선생님도자기도그랬다며맞장구를침 이 일화 를토대로사장은모든직원에게매일매일비타민 C 를제공하기로결정을하고지각을하는직원이몇명이되는지기록 한달이지난후, 사장은지난달에비해지각율이 30% 감소했음을알수있었음 이결과를토대로사장은비타민 C 가지각율을줄이는데큰효과가있다고결론을내림 33/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 처리집단과통제집단 지각율이감소해서정말기쁜사장은학계에서유명세를펼치고있는강지원박사를만나자기가발견한 (?) 결과를자랑스럽게떠들면서이건논문감이라고설쳐댐 강지원박사는사장의결론이타당하지않다고주장함 = 강지원박사는통제집단이없는상태에서한연구를토대로결론을내리면그결론의타당성이확보되지않는다고말함 통제집단 이란아무런처리가부과되지않은어떤기준이되는집단을말함 반면 처리집단 이란관심변수와관련해서어떤처리가부과된집단을말합니다. 즉이예에서는비타민 C 를섭취한직원이처리집단 = 강지원박사에따르면비타민 C 를섭취한직원과비교할수있는집단이없다는것을얘기한것임 34/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 처리집단과통제집단 자신의결론에회의감을보이는강지원박사가마음에안드는사장은자기연구에서통제집단이있다고주장을함 = 지난달의지각율과비교를했기때문에이지난달이통제집단이된다고주장 그러나강지원박사는지난달과이번달은여러면에서다르기때문에지난달은타당한통제집단이될수없다고주장 = 이번달과달리지난달에는다른요인들이지각율에영향을미쳤을수도있다는것 ( 예, 장마철, 바쁜시즌등 ) 또박또박반박을하는강지원박사가너무나도마음에안들지만사장은강지원박사의논리가타당하다는것을인정 35/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 처리집단과통제집단 강지원박사를설득하기위해사장은실험을하기로결정을함 이번에는직원들중에실험에참가하고싶어하는직원을대상으로선착순으로 500 명을뽑아서이들에게비타민 C 를제공하고나머지 500 명에게는비타민 C 를제공하지않음 = 즉전자의 500 명을처리집단으로후자의 500 명을통제집단으로한것임 한달후에지각율을조사했더니밑의결과를얻음 결과변수처리집단통제집단 지각비율 50 500 = 0.1 (10%) 100 = 0.2 (20%) 500 36/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 위약효과 (Placebo Effect) 이번에는제대로된통제집단과의비교를했기때문에비타민 C 의효과를증명했다고사장은생각 사장은강지원박사를찾아가이번에는자기결론이맞다고주장 강지원박사는이번에도사장의결론에회의감을표시 이번에는사장이위약효과를통제하지못했다고주장 Definition 위약효과 (Placebo Effect) 위약효과란실험에참가한사람의결과값이처리때문이아닌다른이유때문에영향을받게되는경향을보이는것을말함 37/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 위약효과 (Placebo Effect) 두직원이있음 : 1. 직원 A = 처리집단 ( 즉, 비타민 C 받음 ) 2. 직원 B = 통제집단 ( 즉, 비타민 C 안받음 ) 어느날아침 A 직원 B 직원모두전날에술을너무많이마셔서제대로일어나질못함 그런데 A 직원은 B 직원에비해그래도지각을안하려고할소지가굉장히큼 = 그이유는 A 직원은처리집단에있으므로만약자기가지각을하면사장이화가날것같다고생각을할수도있기때문 = 그렇다고한다면 A 직원이지각을안하는경향을보이는것은비타민 C 섭취와는아무관련이없을수도있음 이외에도다양한요인이작용을할수있음 38/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 위약효과 (Placebo Effect) 만약처리집단결과값과통제집단결과값간에관측된차이가처리변수가아닌이위약효과에의해일부혹은전부설명이된다면관측된효과에편의 (bias) 가있다고함 Definition 편의 (Bias) 연구설계가어떤특정한결과값에유리하게나오게끔설계가되어있으면, 연구설계에편의가있다고함 위편의의정의는통계학적으로엄밀한정의가아님. 나중에편의의정의를통계학적으로엄밀하게정의를내릴것임 편의가있으면두변수간에인과관계가존재한다고말을할수없음 39/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 위약효과 (Placebo Effect) 위약효과에대한얘기를강지원박사로부터들은사장은어쩔수없이자신의결론이타당하지않다는주장에굴복할수밖에없었음 다시실험을하기로결정함. 이번에는처리집단에는진짜비타민 C 를주고통제집단에는가짜비타민 C 를주었음 물론통제집단에속해있는직원들은자신들이받은비타민 C 가가짜인지는모름 40/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 위약효과 (Placebo Effect) 이실험을하기위해사장은직원들보고두종류의비타민 C 중에하나를선택하라고함 : 이런실험설계를통해다음과같은결과를얻음 : 결과변수처리집단통제집단 지각비율 60 500 = 0.12 (12%) 90 = 0.18 (18%) 500 41/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 선택편의 (Selection Bias) 처리집단의지각율이통제집단보다 6%p 낮음을발견 사장은이번에야말로강지원박사를설득할수있을것이라고생각 강지원박사는이번실험결과에도회의적 강지원박사가이번에제기한문제점은사장이직원들한테두종류의비타민 C 중한종류를 선택 할수있게했기때문에, 연구설계에선택편의가존재한다고주장 42/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 선택편의 (Selection Bias) 선택편의 (Selection Bias) Definition 선택편의란어떤실험이나조사에개인이참여할지말지에대한선택을하게해서발생하게되는편의를말함 43/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 선택편의 (Selection Bias) 강지원박사는사장의실험설계에치명적인한계가존재한다고주장. 즉선택편의가존재한다고얘기함. Why? = 사장은직원들이비타민 C 의종류를 선택 할수있게함. 이것이문제라는것 왜이선택이문제인가? 만약 Nature Made R 비타민 C 를선택한직원이 GNC R 비타민 C 를선택한직원과결과값에영향을미치는여러가지면에서 ( 특히관측불가능한특성측면에서 ) 다르다고한다면 = 처리집단과통제집단간에관측된지각율의차이가비타민 C 때문이라고주장할수없음 Nature Made R 비타민 C 를선택한직원과 GNC R 비타민 C 를선택한직원간에특성차이가있을까? = 충분히그럴소지가있음!! 44/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 선택편의 (Selection Bias) 미국에서는다른회사에비해이 Nature Made R 회사가만든비타민이인기가훨씬더많음 이유는여러가지가있지만암튼 Nature Made R 비타민이훨씬인기가많고가격도비쌈 그렇다고한다면 Nature Made R 비타민을선택한사람은기본적으로소득수준도높고건강에좀더관심이많은사람이라고간주할수있음 = 건강에관심이많은사람과건강에관심이많지않은사람간에는또굉장히많은차이점이존재할것임 즉 Nature Made R 비타민 C 를섭취한직원과 GNC R 비타민 C( 이실험에서는위약 ) 를섭취한직원간에관측된결과변수의차이는비타민 C 섭취때문에발생했을수도있지만이렇게건강에더관심이많기때문에차이가발생한것일수도있음 즉결과변수값에차이가관측된이유가비타민 C 인지혹은다른요인때문인지구별을할수없다는것임 = 다시말해두변수간에수많은중첩변수및잠복변수가존재한다는것임 45/ 82
처리집단과통제집단위약효과 (Placebo Effect) 선택편의 (Selection Bias) 선택편의 (Selection Bias) 이쯤되면사장의강지원박사에대한짜증이폭발했을것임 그럼어떡해해야비타민 C 섭취와지각율의감소간의인과관계를증명할수있냐고따져물음 강지원박사의답은 = 무작위통제실험! 46/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 처리변수의무작위배정 선택편의가있게되면처리집단과통제집단간에관측되는결과변수값의차이가처리변수만의효과이지않을수있음 오히려연구자가관측할수없는처리집단과통제집단간에존재하는여러요인들때문에두집단간에결과변수값에차이가발생했을수도있음 다르게얘기를하면, 비타민 C( 처리변수 ) 의효과를증명하기위해서는처리집단과통제집단간에비타민 C 를섭취했다안했다즉 처리 에만차이가있고그외의요인들과관련해서는두집단간에아무런차이가없어야한다는것 47/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 처리변수의무작위배정 어떻게하면두집단을이런상태로만들수있을까? = 통계학자들이내놓은해결책은어떤집단을무작위로두집단으로나누는것 처리집단과통제집단을무작위로나누면 : 1. 두집단간에어떤체계적인차이점이생길확률이굉장히적음 2. 처리변수의인과적효과를도출할수있음 48/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 처리변수의무작위배정 처리변수를배정할때무작위로하면그처리변수의배정은오로지 운 에의해결정됨 : 1. 처리변수의배정이어떤실험대상자의특성과는무관하게이루어짐 2. 그리고실험집행자의특성과도무관하게이루어짐 = 그렇다면두집단간에처리변수를제공받았다그리고안받았다만이다르고어떤다른측면에서두집단이다를확률이굉장히낮음 무작위배정을해야두집단간에관측이되는결과변수 (Y ) 값의차이가잠복변수나중첩변수때문이아닌오로직설명변수 (X) 때문에발생했다고주장할수있게됨 49/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 처리변수의무작위배정 동전던지기를해서뒷면이나오면처리집단에앞면이나오면통제집단에배정을하면두집단을무작위로배정한것임 실제로실험을할때는물론이렇게안하고컴퓨터를이용해서무작위배정을실시 1. 예를들어 1000 명의직원이있을때 1 에서 1000 번숫자중하나를컴퓨터한테임의로뽑게해서각직원에게배정 2. 이상태에서짝수를부여받은직원은처리집단, 홀수를부여받은직원은통제집단으로배정 50/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 무작위통제실험의한계점 사람을처리집단과통제집단에무작위로배정을하면처리집단과통제집단이관측가능한그리고관측불가능한특성면에서모두비슷할것임 = 차이가있는것은처리여부의차이 : 한쪽은처리를받고다른한쪽은처리를받지않음!! 학계에서는무작위통제실험을인과관계증명의 황금 기준 (gold standard) 으로간주 = 즉인과관계를증명할때이무작위통제실험으로도출한결과가가장신뢰성이높다는것 제약사들이개발하는약을정부가허가내줄때이기준사용! 하지만무작위통제실험이만병통치약은아님. 이방법에도여러형태의한계점이존재 : 1. 실험자편의 (experimenter bias) 2. 불응편의 (noncompliance) 3. 표본이탈편의 (attrition) 4. 외적타당성부족 (lack of external validity) 51/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 1: 실험자편의 대개실험을집행하는실험자는실험을하기에앞서특정한결과가나왔으면하는어떤선호가있게마련 실험자는자신이원하는결과가나오게끔하려고실험참가자와의사소통을하거나실험실조건을조작하는등의행위를할수있음 실험자편의는상당히개연성이높은편의 황우석사건 52/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 2: 불응편의 무작위통제실험의두번째한계점은불응편의 비타민 C 예 : 1. 워낙에 Nature Made R 비타민 C 가유명해서 GNC R 비타민 C 를제공받은직원들이이에불만 2. 자비로 Nature Made R 비타민 C 를구매해서 GNC R 비타민 C 가아닌 Nature Made R 비타민 C 를섭취 = 이런게불응편의. 즉통제집단에배정된직원들이실험의프로토콜에불복종 3. 이런상태가발생하면굉장히곤란. Why? 극단적인경우 : 통제집단의모든사람이 Nature Made R 비타민섭취 = 무작위배정을했음에도불구하고두집단간에처리변수의차이가존재하지않게되어처리변수 ( 비타민 C 섭취 ) 의효과를전혀분석을할수없게됨 53/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 2: 불응편의 또다른형태의불응편의가있음 비타민 C 의효과를분석하기위해서는직원이실제로제공받은비타민 C 를섭취해야함 하지만대개실험을할때비타민 C 를 제공 을하지 섭취 를하게하지는않음 비타민 C 를제공받은직원이비타민을먹어야하는데누구는귀찮아서받기만할뿐안먹는직원도분명있을것임 54/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 2: 불응편의 이런불응편의가발생안하게끔하는실험을하는것은상당히어려움 흔히불응편의를방지하기위해사용하는방식이이중맹검법 (double blind) 이라는방식 실험참가자들이어떤비타민 C 를제공받았는지알수없게한다는것 물론이이중맹검법이불응편의를완벽하게없애주기에는많은한계점이존재 = 왜냐하면워낙에다양한형태의불응편의가존재 불응편의를안발생시키려면실험설계를잘해야함. 그런데어떤설계가 잘된 설계인지를실험전에파악하긴힘듬 = 특이값해결에답이없는것처럼불응편의와관련해서도어떤뚜렷한해결책이없음 55/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 3: 표본이탈편의 실험을통해어떤처리변수의효과를분석하기위해서는많은시일이요구됨 오랜기간에걸쳐서실험이집행되다보니실험참가자들이도중에이탈하는경우가생김 이렇게이탈하는참가자들이존재하게되면표본이탈편의가발생 56/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 3: 표본이탈편의 왜이표본이탈이인과관계증명과관련해서문제가되는지비타민 C 예를통해서설명 : 1. 실험을할때처리집단과통제집단을각각 500 명으로구성 2. 30 일이경과한후에두집단간의지각율의차이를보기로결정 3. 그런데당황스럽게도이 30 일이라는기간동안처리집단에서 50 명이그리고통제집단에서 100 명의직원이퇴사를함 4. 여기서강조하고싶은것은이렇게집단간에표본수가달라졌다고해서실험에큰문제가생긴것은아님 5. 그럼언제문제가생기냐? 처리집단에서이탈한 50 명의직원과통제집단에서이탈한 100 명의직원의특성이다를때문제가생김 57/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 3: 표본이탈편의 실험초기에 ( 즉이탈자가없을때 ) 두집단을비교해보면두집단이여러면에서동일하였음. Why? = 집단을무작위로배정했기때문! 예를들어처리집단의평균연령이 40 세, 통제집단의평균연령이 42 세정도로두집단의평균연령이비슷 그런데만약처리집단에서이탈한 50 명의직원이모두고령자인반면통제집단에서이탈한 100 명의직원은모두젊은직원이라고가정 그럼이러한이탈자때문에두집단간의평균연령이차이가나버리게됨 = 이런상태에서두집단간에관측된지각율의차이가비타민 C 때문이라고할수있을까? 58/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 3: 표본이탈편의 두집단간에지각율에차이가난이유가연령때문이아닐까? = 연령을통제하면이문제가해결될까? 전회의적임. 왜냐하면연령이서로다른두사람이있다고했을때이두사람은여러측면에서 ( 특히관측불가능한특성 ) 다를것이기때문 = 연령을통제한다고해서이런보이지않는특성에대한통제가이루어질것같지는않음 즉표본이탈편의란위와같은상황을말하는것임 표본이탈비율이높고또처리집단에서이탈한사람과통제집단에서이탈한사람간에특성차이가존재한다면무작위배정의정신이더이상유지되지않음 = 따라서아무리무작위통제실험을이용했더라도처리변수와결과변수간에인과적관계가존재한다고주장할수없게됨 59/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 3: 표본이탈편의 표본이탈은특히통제집단에서많이발생할소지가큼 만약처리변수가어떤혜택을제공하는것이라고한다면 ( 예를들어육아수당 ), 통제집단에배정된사람은자신이통제집단에배정 ( 육아수당못받음 ) 된사실이달갑지않을것임 = 그래서통제집단에배정된사람은실험에더이상참여하고싶어하지않고실험을이탈할소지가큼 이표본이탈문제를안발생시키기위해서는마찬가지로실험설계를잘해야함 물론어떤실험설계가잘된설계이냐는어떤실험을하느냐에따라달라짐 = 따라서여러분이만약두집단을비교하는그런연구를한다면이부분에대해서많은고민을해야함 60/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 4: 외적타당성 무작위통제실험의가장큰약점은외적타당성의부족 외적타당성이부족하다는것은어떤표본을통해도출한연구결과를일반화하기가어렵다는것임 대개실험은적은수의표본을갖고진행을하고그리고실험참가자들또한일반적이지않음 = 예를들어심리학관련연구를보면대개연구를대학에다니는학생들을대상으로실험을함 학생을대상으로실험을해서도출한결과를전국민에일반화할수있을까? 연구주제에따라다르겠지만일반화하기어려운부분이굉장히많이있을것임 61/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험의한계점 4: 외적타당성 무작위통제실험을통해내린결론은내적타당성이높은반면외적타당성이낮다고함 내적타당성이높고외적타당성이낮은연구와내적타당성이낮고외적타당성이높은연구중에어떤것이더좋을까 = 참어려운질문 좋은연구를한다는것은참멀고도험난한길임!! 62/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 실험과관련한함의 이처럼무작위통제실험에도많은한계점이존재 하지만인과관계증명에있어서이무작위라는논리가워낙에강하기때문에이무작위라는논리가통계학에서가장중요한논리라고간주되고있음 지금까지발견된세상의대부분의진리가이무작위통제실험때문에밝혀졌다고해도과언이아님 무작위통제실험을통해올바른결론을내리기위해서는 : 1. 꼼꼼해야하고 2. 여러방면으로실험설계가제대로되었는지고민을해야함 63/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 복습문제 1 두교수의연봉계약을다시해야해서두교수중학생의강의평가결과가더좋은사람에게연봉을올려주기로결정. 교수 A 는강의평가서를항상중간고사성적이나온이후에학생에게배분하고교수 B 는학기말에수업시간에학생들에게재밌는영화를보여주고강의평가서를배분함 질문 : 교수 A 가받은강의평가결과에편의존재? = 정답 : Yes! 질문 : 교수 B 가받은강의평가결과에편의존재? = 정답 : Yes! 64/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 복습문제 2 사례를보고연구설계에뭐가문제가있는지판단 1. 두가지할인행사를비교해서어느행사가더효과적이었는지분석 : 첫번째할인행사는금요일에시행했고두개의과자를 2 천원에판매. 두번째할인행사는토요일에시행했고세개의과자를 3 천원에판매 = 금요일에쇼핑을하는사람과토요일에쇼핑을하는사람다름 2. 두개의광고캠페인중어느캠페인이효과적인지분석 : 한광고캠페인은강원도에서실시하였고다른하나의광고캠페인은서울에서실시 = 강원도와서울은유사하지않음 3. 새로운투자전략이수익률을높여주는지분석 : 새로운투자전략을어느해에시도해보고얼마나수익이났는지분석 = 비교집단 ( 통제집단 ) 이없음 65/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 복습문제 3 다음과같은배정방식에어떤문제가있는지설명 1. 새로운약이효과가있는지분석 : 10 명의남자에게새로운약제공하고 10 명의여자에게가짜약을제공 = 성구분에의해배정을하는것은무작위가아님 = 10 명의남자중무작위로 5 명을뽑아서처리집단에그리고 10 명의여자중무작위로 5 명을뽑아서처리집단에배정 2. 10 명을처리집단과통제집단으로나누려고함 : 배정방식은동전던지기를함. 즉앞면이나오면처리집단에뒷면이나오면통제집단으로배정 = 이방식을적용했을때모든사람이한쪽집단에만쏠릴수도있음 66/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 복습문제 4 꿀이피로, 우울증, 암등에효과적이라는광고가있음. 부연구위원의통계학강의를들은이규환연구원과김경래연구원은이제이런광고를보면일단의심을함. 이광고를증명하기위해서둘은서로다른전략을제시. 누구의전략이더바람직할까? 1. 이규환연구원 : 우울증을겪고있지않은 400 명의사람을추출해서무작위로그중 200 명에게는꿀을섭취하게하고나머지 200 명은가짜꿀을섭취하게함. 그리고나서 5 년후에두집단간에우울증환자의비율에차이가나는지분석 2. 김경래연구원 : 꿀을꾸준히섭취하고있는 200 명을추출하여이 200 명과나이, 교육수준, 직업, 소득수준, 성등이같고동시에꿀은섭취안하고있는 200 명을추출하여 5 년후에두집단을비교 67/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 무작위통제실험의개요 68/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 정책평가의실례 연구주제 : 공학교육의효과 = 학생이공학고등학교에다니면비공학고등학교에다니는경우에비해학업성취도가떨어지는지를연구하고싶음! 효과의원인? No. 원인의효과! 어떻게공학교육과학업성취도간의인과관계를증명할것인가? 69/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 정책평가의실례 어떻게분석? 공학에다니는학생의성적과비공학에다니는학생의성적을비교하여공학교육과학업성취도간의인과관계증명하기위해서는 : = 공학에다니는학생과비공학에다니는학생이모든면에서비슷하다는조건이필요 70/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 정책평가의실례 71/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 정책평가의실례 대개사람들은학교에이성이있으면연애등을하게되어공부에방해가될것으로생각 그렇다고한다면비공학을선택한학생과그학생의부모는공부에상당히관심이많고동기와의욕이강할소지가큼!! 즉공학에다니는학생의성적과비공학에다니는학생의성적을비교했을때비공학에다니는학생의성적이단순히높다는이유만으로공학이학업성취도에부정적인영향을끼친다고주장할수없음 = Why? 높은성적이비공학때문인지혹은비공학에다니는학생의학업에대한관심도나그학생의부모의관심때문인지알수가없음 만약비공학의효과가학생에대한부모의관심이높아서발생한것이고비공학 / 공학과는아무관련이없었으면부모의관심도가그렇게크지않은학생이공학에서비공학으로학교를옮겨도성적상승에는아무영향이없을것임!! 72/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 1 따라서정책적함의를도출하기위해서는순수하게이공학 / 비공학만의효과를식별해야함 = 어떻게공학 / 비공학의효과만을식별할것인가? 연구방법론 1: Y is = β 0 + β 1 S is + ε is ε is ={ 학생과학부모의공부에대한열정, 관심, 동기,...} = 통제변수! 어떤통제변수? 연구자가 관측이가능한 변수를통제! Y is = β 0 + β 1 S is + β 2 부모교육수준 is + β 3 가구소득수준 is + + ε is 73/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 1 Y is = β 0 + β 1 S is + β 2 부모교육수준 is + β 3 가구소득수준 is + + ε is 위식에서처럼부모교육수준, 가구소득수준등을통제하면 ε is 에들어있던학생과학부모의공부에대한열정, 관심, 동기이런것이통제가될까? 대개관측이불가능한변수가 ε is 에포함되어있으면그러한변수들에대한통제는관측이가능한변수를이용해통제할수없는경우가대부분!! = 따라서연구방법론 1 로공학 / 비공학의인과적효과를식별하기에는큰한계가존재! 어떤변수의인과적효과를추정할때가장강력한방법은? = 무작위로처리변수를배정!! 74/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 2 연구방법론 2: Y is = β 0 + β 1 S is + ε is ε is ={ 학생과학부모의공부에대한열정, 관심, 동기,...} = 이연구주제에서처리변수 ( 설명변수 ) 는 S is, 즉학생이공학혹은비공학에있는지를나타내는이항변수 ( 더미변수 ) 설명변수 S is 가결과변수 Y is 에미치는인과적효과를증명하기위해서는이 S is 의배정을무작위로결정 = 즉학생이공학을다닐지혹은비공학에다닐지를선택못하게하고둘중에어디를갈지를무작위로결정! 75/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 2 이 S is 를무작위로배정을하면 : = 두집단간특성이비슷해짐!! 76/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 2 무작위배정의장점 : 1. 관측가능한특성 ( 예, 소득수준, 부모교육수준, 등 ) 2. 관측불가능한특성 ( 예, 의욕, 동기, 관심, 등 ) = 이두가지특성이모두비슷하게될확률이굉장히높다는것! 즉이상태에서도출한 S is 의효과추정치는위와같은중첩변수, 잠복변수에의해서발생한효과가아닌순수한공학 / 비공학의효과를반영한것일것! 77/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 2 두집단간특성차이통계적검정의아이디어 : 1. 무작위배정이성공적이였다면 집단간특성차이 = 대우 : 집단간특성차이 무작위배정실패 2. 관측불가능한특성에차이 관측가능한특성에도차이 = 대우 : 관측가능한특성에차이 관측불가능한특성에도차이 78/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 연구방법론 2 관측가능한특성에차이 관측불가능한특성에도차이 = 따라서관측가능한특성이집단간에차이가나는지통계적으로검정! 어떻게? X is = α 0 + α 1 S is + ɛ is X is ={ 부모의소득수준, 부모의교육수준,...} = 이회귀분석을한후 α 1 이통계적으로유의미하게안나와야집단간에특성이차이나지않는다는의미!! 79/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 결과해석시주의할점 80/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 결과해석시주의할점 개요의마지막단계와관련해서주의해야할점 : = 만약두집단의결과변수값에차이가난다면그차이가발생한이유는처리변수때문이아닐수도있음!!! 실험후에관측된결과변수값에차이가나게된이유 : 1. 처리변수때문일수도있고 2. 우연히발생했을수도있음 What?????? 81/ 82
처리변수의무작위배정무작위통제실험의한계점정책평가의실례 주의할점 지금까지계속무작위실험을하면인과관계를증명할수있다고했는데아닐수도있다고하니까황당할수도있음. 하지만이게현실임 단지차이가존재한다고해서그차이가처리변수때문이라고 100% 확신을갖고말할수는없음. Why? = 이관측된차이가내가갖고있는표본에서만관측되었을수도있기때문!! 만약다른표본을이용해서실험을하면차이가안나타날수도있지않을까? 그럼어떡해해야하나? 또실험을할것인가? = 실험은무슨동전던지기하듯이쉽게할수있는게아님 그래서이표본에서관측된차이가처리변수때문에기인한다고설득력있게말하기위한방안이필요 = 방안 : 추출설계 (sampling design) 과통계적추론 (statistical inference) 의영역!! 82/ 82