목차 주요내용 통계란? 통계해석숫자로이루어진통계해석그림으로이루어진통계해석엉뚱한연관문항설계 관찰연구와실험연구연관성분석연속형 상관분석이산형 카이제곱검정 통계의사용보기 () 2013 년 3 월 12 일 1 / 34
통계란 이세상의세가지거짓말-Benjamin Disraeli 1 거짓말 (lies) 2 새빨간거짓말 (damned lies), 그리고 3 통계 (statistics) 문화인의기본소양-H. G. Wells 통계적사고가읽고쓰기만큼시민의기본소양이되는날이올것이다. 통계 (Statistics) 의어원라틴어의 statisticum collegium council of state( 국가위원회 ) 이태리어의 statista statesman 또는 politician 독일어인 Statistik science of state, political arithmetic () 2013 년 3 월 12 일 2 / 34
생활속의확률 기대값조폐공사나한국은행을털지않는도둑확률 1 광화문네거리를무단횡단해볼까? 확률 2 눈 / 비올확률 50%? 확률 3 로또 1등확률 45 C 6 = 8, 145, 060 () 2013 년 3 월 12 일 3 / 34
잘못된분포가정 광고 지난 11 년간등록된볼보자동차의 95% 이상이아직도사용되고있습니다. Over 95% of all Volvos registered here in last 11 years are still on the road. (1968 년볼보광고 ) 실제생산대수 () 2013 년 3 월 12 일 4 / 34
수치요약 평균?, 중앙값? 달동네주민의월평균소득 10,000,000 실제 : 10 억 1 명, 0 이 99 명 프로야구선수의평균연봉이 6790 여만원 프로야구선수의 56% 가연봉 3000 만원미만. 1 억원이넘는선수는 10% 남짓 http://news.naver.com/main/read.nhn?mode=lsd&mid= sec&sid1=001&oid=022&aid=0000078894& () 2013 년 3 월 12 일 5 / 34
그림에대한검토 실업율에대한두개의그래프 () 2013 년 3 월 12 일 6 / 34
그림에대한검토 실업율에대한두개의그래프 () 2013 년 3 월 12 일 7 / 34
그림에대한검토 두개의히스토그램 () 2013 년 3 월 12 일 8 / 34
그림에대한검토 원래자료 8 2 10 1 1 6 6 3 4 4 3 4 5 3 14 5 3 4 7 9 5 1 10 6 2 4 6 8 3 4 13 3 5 7 7 6 6 7 3 8 4 4 5 1 1 12 2 9 3 15 기둥수 등 1 + 3.3 log(n), n > 15 () 2013 년 3 월 12 일 9 / 34
정의 실업율 조사기관 실업자수 The National Industrial Conference Board 9,177,000 Government Committee on Economic Security 10,913,000 The American Federation of Labor 10,077,000 National Research League 14,173,000 Labor Research Asscociation 17,029,000 Cohen (1938) The Misuse of Statistics, Journ. Amer. Statist. Assoc. 38 용어정의 독서율 무엇이독서인가? () 2013 년 3 월 12 일 10 / 34
정의 근로자가구소득조사 2010 년 1/4 분기월평균경상소득 4,012,580 근로소득 3,582,857 사업소득 165,323 재산소득 6,335 이전소득 248,065 비경상소득 161,615 소득합계 4,174,197 자료 : 통계청사회통계국사회복지통계과용어정의 () 2013 년 3 월 12 일 11 / 34
정의? 잘못된연관? 한국 1 인당석유소비량 지난 2006 년한국의 1 인당석유소비량은 16.18 배럴로세계 5 위수준이었으며비산유국가운데에서는 2 위, 아시아권에서는가장많았다.( 파이낸셜뉴스, 연합뉴스, YTN 등 ) 2006 년 13 대수출품목 ( 산자부 ) 자료백업 자동차 32,922 자동차부품 10,230 반도체 37,360 무선통신기기 27,018 일반기계 23,920 석유화학 24,099 선박류 22,123 철강제품 19,429 석유제품 20,404 가전 14,553 컴퓨터 12,576 섬유류 13,232 액정디바이스 12,212 단위백만USD () 2013 년 3 월 12 일 12 / 34
정의? 잘못된연관? 한국 1 인당석유소비량 http://news.mk.co.kr/newsread.php?year=2011&no=544607 () 2013 년 3 월 12 일 13 / 34
엉뚱한연관 1 교수들나눠먹기식자리할당 10 명에 3 명이보직교수 대학의보직교수가전임교수 10 명당 3 명꼴이나될정도로많아방만한학교운영과예산낭비를초래하고있다는지적을받고있다. 8 일교육부에따르면전국 26 개국공립대학의보직교수는전임교수 1 만 1 천 1 명가운데 29.5% 인 3 천 2 백 54 명인것으로나타났다. 사립대도지난해 4 월현재전임교수 2 만 7 천 6 백 63 명가운데 29.2% 인 8 천 74 명으로집계됐다. 사립대는학교에따라보직교수비율이 6.6% 에서 100% 까지큰차이가있는것으로나타났다. 서울대의보직교수는전임교수 1 천 4 백 42 명중 3 백 68 명으로 25.5% 였고 부산대 23.2% 서울시립대 34.9% 경북대 37.6% 공주대 39.3% 등이며부경대는무려 43.9% 나됐다. 국공립대의경우보직교수는처장의경우많게는월 2 백만원, 학장보의경우월 50 만원정도의수당을받고있고직책에따라강의시간이줄고연금산정에서유리해지는등의혜택을받고있다. ( 이진녕기자 ) 1998/05/09( 토 ) 06:39 http://jupiter.hallym.ac.kr/ () 2013 년 3 월 12 일 14 / 34
엉뚱한연관 2 자동대 1 만대당사망자수와카파라치 () 2013 년 3 월 12 일 15 / 34
엉뚱한연관 2 차량 1 만대당교통사고사망자수 연도 70 71 72 73 74 75 76 77 78 79 사망자 243 244 211 184 176 195 176 149 133 122 연도 80 81 82 83 84 85 86 87 88 89 사망자 106 102 94 87 79 68 59 45 57 47 연도 90 91 92 93 94 95 96 97 98 99 사망자 36 32 22 17 14 12 13 11 9 8 연도 00 01 02 03 04 05 06 07 08 09 사망자 8 6 4.6 4.4 3.9 3.4 3.2 3.1 2.9 2.8 연도 10 11 사망자 2.6 2.4 카파라치 01.3. 02.12 자료 : 도로교통공단 (http://www.koroad.or.kr/) () 2013 년 3 월 12 일 16 / 34
엉뚱한연관 2 자동대 1 만대당사망자수와카파라치 () 2013 년 3 월 12 일 17 / 34
엉뚱한연관 2 자동대 1 만대당사망자수와카파라치 () 2013 년 3 월 12 일 18 / 34
엉뚱한연관 3 골프인구와실업율 () 2013 년 3 월 12 일 19 / 34
엉뚱한연관 3 두사람의나이 () 2013 년 3 월 12 일 20 / 34
엉뚱한연관 4 담배와건강보험료 ( 단위 : 억원 ) 구분 2006년 2007년 2010년 2011년 수입 계 232,631 260,498 343,822 389,151 보험료등 188,106 217,287 284,577 329,221 국고지원금등 35,994 70,253 48,614 50,362 담배부담금 9,664 9,676 10,631 9,568 지출 계 228,178 258,885 보험급여비 215,880 245,601 337,493 358,302 관리운영비 7,785 7,196 기타지출 4,513 6,080 ( 자료 : 건강보험통계 http://www.nhic.or.kr) () 2013 년 3 월 12 일 21 / 34
연령대별 1 인당월의료비 2010 년연령대별진료비 자료 : 국민건강보험보도자료 연령대 금액 ( 억원 ) 인구비중 진료비비중 월진료비 ( 원 ) 9세이하 33,374 10.1 7.6 60,646 10대 20,180 13.3 4.6 27,805 20대 24,810 13.2 5.7 34,359 30대 40,819 16.4 9.4 45,776 40대 56,628 17.0 13.0 61,162 50대 80,364 14.1 18.4 104,305 60대 80,543 8.6 18.5 171,332 70세 + 99,565 7.2 22.8 252,831 http://www.nhic.or.kr/ () 2013 년 3 월 12 일 22 / 34
65 세이상인구와보험료 2011년 65세이상노인진료비 15조 3,768억원 (33.3%) 구분 2006 2007 2010 2011 적용인구 ( 천명 ) 47,410 47,820 48,160 48,614 노인인구 ( 천명 ) 4,073 4,387 4,979 5,184 점유율 (%) 8.6 9.2 10.2 10.5 총진료비 ( 억원 ) 284,103 323,892 436,283 462,379 노인진료비 ( 억원 ) 73,504 91,189 141,350 153,768 점유율 (%) 25.9 28.2 32.4 33.3 1인당월평균진료비 ( 원 ) 150,400 173,217 236,588 247,166 자료 : 국민건강보험공단 () 2013 년 3 월 12 일 23 / 34
사과와오렌지비교하기 1 (2005 년행자부 ) 개인별로는총인구 ( 주민등록인구 4 천 878 만명 ) 의 27.3% 에해당하는 1 천 334 만명이토지를소유하고있고세대별로는주민등록총세대수 (1 천 785 만세대 ) 의 59.9% 에해당하는 1 천 70 만세대가토지를보유하고있는것으로집계됐다. 2 부동산관련세금과자동차관련세금 미국과우리나라비교. 3 국민부담율 = 조세부담율 + 사회보장기여금한국 25.3%, 미국 25.6%, 일본 25.3% 과유럽국가들 (2003 년기준, 자료 :OECD) () 2013 년 3 월 12 일 24 / 34
각국의 Gini 계수 나라기준년계수나라기준년계수 Australia 1994 35.2 Bangladesh 2000 33.4 Belgium 2000 33.0 Brazil 2004 57.0 Canada 2000 32.6 Belgium 2000 33.0 Chile 2003 54.9 China 2004 46.9 Hong Kong-China 1996 43.4 France 1995 32.7 Germany 2000 28.3 India 2004 36.8 Italy 2000 36.0 Japan 1993 24.9 Korea, Rep. 1998 31.6 Malaysia 1997 49.2 Mexico 2004 46.1 New Zealand 1997 36.2 Norway 2000 25.8 Philippines 2003 44.5 Russian Fed 2002 39.9 Singapore 1998 42.5 Spain 2000 34.7 Sweden 2000 25.0 Thailand 2002 42.0 United States 2000c 40.8 자료 : 세계은행 (World Bank; http://www.worldbank.org/) () 2013 년 3 월 12 일 25 / 34
통계적자료분석 통계적자료분석에대한흐름도 모집단 표본 모집단에대한추론 표본이론 통계학이론 () 2013 년 3 월 12 일 26 / 34
대표성과표본 모집단 (population) 관심의대상전체표본 (sample) 모집단의일부간을맞추기위해국을다마실필요는없다하지만국을잘저은후에모집단 ( 솥전체 ) 에서정확한표본 ( 국자 ) 대표성확보휘젓지않은국 특정지역에서만여론조사 () 2013 년 3 월 12 일 27 / 34
표본의방법 확률표본과비확률표본 확률표본 (probability sampling) 단순임의추출 (simple random sampling) 계통추출 (systemtic sampling) 집락추출 (cluster sampling) 층화추출 (stratified sampling) 비확률표본 (nonprobability sampling) 누적표본추출 (snowball sampling) 피라미드식편의추출 (convenience sampling) 지나가는사람 100 명에게물었습니다. 할당표본추출 (quota sampling) () 2013 년 3 월 12 일 28 / 34
조사와문항설계 문항설계 우리나라의발전을저해하는요소는부패와대충대충하는적당주의이라고생각한다. (Yes, No) 어떤스캔들에휘말린것으로보도된공직자가 1 그스캔들이사실이면물러나야한다. 2 무조건물러나야한다. 3 물러날필요가없다. 우리나라에믿을수있는정치인도있다. (Yes, No) 우리나라에믿을수있는정치인이있다. (Yes, No) 소련의기자가워싱턴에서자유롭게취재활동을할수있도록허락해야하는가? (Yes, No) 미국의기자가모스크바에서자유롭게취재활동을벌일수있어야한다고생각하는가? (Yes, No) () 2013 년 3 월 12 일 29 / 34
조사문항 문항설계 -Conti. 우리나라사람의 95% 잠자기가장좋은시간으로밤 9 시라고답하였다. 다음중잠자기좋은시간은? 1 오전 9 시 2 오후 9 시 문항설계 -Conti. 우리군인 과 미군 ( 미국월남전여론조사 ) OR 의시간예측서비스에만족하십니까? 범행의동기및원인, 피고인의태양 불만족의원인아닌것은? () 2013 년 3 월 12 일 30 / 34
관찰연구 관찰연구와인과관계 초음파검사여부와신생의체중에대한관찰연구저체중여부저체중정상 + 검사유무 유 70 30 무 20 80 ( 가상자료 ) Once started, never stop (smoking)!! Smoking Never Quit Continued Life span 75 68 71 ( 가상자료 ) () 2013 년 3 월 12 일 31 / 34
골프와건강 골프치면 5 년더장수 골퍼들이골프를하지않는사람들보다평균 5 년정도더장수를누린다는연구결과가나왔다고영국데일리메일신문이지난 31 일보도했다. 스웨덴카롤린스카연구소의연구진은 30 만명의골퍼들을대상으로실시한연구결과골프를하는사람이그렇지않은사람보다일정시점에사망할가능성이 40% 더낮은것으로나타났다고발표했다. 이것은평균 5 년더오래사는것과맞먹는다고연구진은말했다. 이연구에서핸디캡으로따져최고의플레이어들이가장건강한사람인것으로나타났다. 최고의골퍼는같은연령의골프를하지않는사람에비해일정시점에서사망할확률이 47% 더낮았다. 연구진은골프가육체적으로격렬한운동은아니지만, 18 홀한라운드가보통 4 마일 ( 약 6.4 km ) 이상걷기를수반하는건강에좋은운동이라고말했다. () 2013 년 3 월 12 일 32 / 34
골프와건강 골프치면 5 년더장수 이연구를이끈카롤린스카연구소의안더스아봄교수는 한라운드의골프는필드에서 6 7 km의거리를빠른속도로걸으며 4 5 시간있다는것을뜻한다 며걷기는이미건강에좋은것으로잘알려져있다고말했다. 아봄교수는 낮은핸디캡을유지한다는것은골프를많이친다는말이되고, 결국골프라는운동자체가건강에좋다는것을말한다 고설명했다. 이와함께다른사람들과어울리는골프의사교적성격도수명을늘리는데긍정적인요인으로작용할수있다고연구진은말했다. ( 런던 = 연합뉴스 ) http://www.donga.com/fbin/output?f=total&n=200806010008&top20= () 2013 년 3 월 12 일 33 / 34
Placebo Effect 와 Controlled Experiments 실험연구 Contolled Experiment 처리수준의결정자 1 맹검 (blind test) 2 이중맹검 (double blind test) 3 ANOVA 실험연구 인과관계 (cause & effect) 관찰연구 연관 (association) () 2013 년 3 월 12 일 34 / 34