통계 (Statistics) 란무엇인가? 데이터 ( 자료 ) 를수집하고, 분석하고, 분석 한결과를통해의사결정을내리는과정을 다루는학문 현대에서통계를쓰지않는곳은없다?
오늘다룰내용 통계맛보기 자료수집 자료분석 통계적의사결정 통계의활용
통계맛보기
자료수집 (Sampling) 집에서학교까지가는데걸리는시간 요일 학생 1 학생 2 월요일 25분 28분 화요일 28분 31분 수요일 31분 30분 목요일 27분 35분 금요일 55분 32분
자료분석 (Analysis) 한숫자로요약하려면?
기술통계 (Descriptive Statistics)-평균, 분산, 표준편차, 중위수등 그래픽요약 (Graphical Summary)-줄기그림, 히스토그램등 통계모델링 (Statistical modeling)-회귀분석, 계층모형등 통계적추론 (Statistical Inference)
의사결정 (Decision making) 학생 1 이학생 2 보다통학시간이길다?
통계적의사결정 (Statistical Decision making) 데이터를바탕으로한의사결정 통계적검정 의사결정시일어날수있는오류는? 오류의계량화, 오류를줄이는방법은?
자료수집에대해더알아보기
편향 (bias), 중첩 (confounding) 이없도록 자료수집을하여야자료분석과의사결정에 오류가줄어든다.
잘못된자료수집의예 1936 년, 미국대통령선거후보의당선예측 루즈벨트 (Roosevelt) v.s. 랜던 (Landon) Literary Digest: 당시로서는가장큰규모 ( 약 240 만명 ) 로조사실시 예측 랜던 : 57%, 루즈벨트 :43% 실제결과 랜던 : 38%, 루즈벨트 : 62%
무엇이문제??
반면 George Gallup 은 50,000 명조사로맞게예측 Literary Digest 의운명은? Gallup 과 Literary Digest 의차이는?
Gallup 은 1936,40,44 년도연속으로당선자예측성공 그런데 1948 년듀이 (Dewey) v.s. 트루먼 (Truman) 예측 듀이 : 50%, 트루먼 :44% 실제결과 듀이 : 45%, 트루먼 : 50%
이번엔무엇이문제?
잘못된자료수집의예 커피를많이마시면췌장암에더잘걸린다? Source: Coffee and Cancer of the Pancreas by MacMahon et al. (1981), New England Journal of Medicine
In MacMahon et al. 환자군 (Case group): 1974-1979 년사이미국보스턴과로드아일랜드에있는 11 개병원에서췌장암진단받은환자들 216 명 대조군 (Control group): 같은시기에같은의사들에게진찰받은사람들 307 명 흡연, 음주관련질병있는사람은제외
환자군 대조군 커피하루 1 잔이상마시는사람 207 275 커피를마시지않는사람 9 32 커피마시는사람비율 커피마시는사람의오즈비 (odds ratio) 207/216=0.95 8 275/307=0.89 5 (207/9)/(275/32)=2.68
무엇이문제일까?
자료분석에대해서더알아보기
평균, 기대값
평형점 나무막대기의어느부분이평형을유지하는위치일까?
복권가격 1 등 2 등 3 등 4 등 당첨금 1,000,000 200,000 10,000 2,000 당첨확률 1/100,000 1/5,000 1/1,000 1/500 당신이복권판매상이라면, 복권가격을얼마로하시겠습니까?
적정한복권가격은? 110 원 230 원 350 원 470 원
큰수의법칙 (Law of Large Number) 주사위를던졌을때 각눈금이나올확률은?
주사위를 100 번던지면? X 100 1/6 = 0.1667 눈금 1 2 3 4 5 6 횟수 16 18 12 25 17 12 확률 0.16 0.18 0.12 0.25 0.17 0.12
주사위를 100 번던졌을때의평균값은? =(1x16+2x18+3x12+4x25+5x17+6x12)/100 =3.45
주사위를 10,000 번던지면? X 10,000 1/6 = 0.1667 눈금 1 2 3 4 5 6 횟수 1662 1651 1701 1667 1648 1671 확률 0.1662 0.1651 0.1701 0.1667 0.1648 0.1671
주사위를 10000 번던졌을때의평균값은? =(1x1662+2x1651+3x1701+4x1667+5x1648+ 6x1671)/10000=3.5001
주사위를계속던졌을때평균은? 주사위를 100 개를던져서평균을구하는일을반복해서분포를보면?
평균의함정 A회사사장부장차장과장대리 B 회사 사장부장차장과장대리 평균월급 640 만원 평균월급 372 만원
A 회사 와 B 회사 중 어느회사에취업하고싶나요?
심슨의역설 (Simpson s Paradox) A 선수 B 선수 안타타수타율 83 345 0.241 안타타수타율 80 337 0.237 야구선수A (0.241) > 야구선수B (0.237)
당신이감독이라면, A 선수 와 B 선수 중 누구를경기에출전시키겠습니까?
2,200 년올림픽육상기록은? 남자 100m 기록 여자 100m 기록 연도 기록 연도 기록 1928 10.8 1932 10.3 1936 10.3 1948 10.3 1952 10.4 2004 9.85 2008 9.69 2012 9.63 1928 12.2 1932 11.9 1936 11.5 1948 11.9 1952 11.5 2004 10.93 2008 10.78 2012 10.75
1928 년 ~ 2012 년사이남자는 1.17 초빨라졌고 여자는 1.45 초빨라졌다.
2,200 년기록을예측해보면?
연관성과인과관계 (Association v.s. Causality)
상관계수 두확률변수의선형관계를나타내는값 선형인연관성의정도를나타냄 (0, 1]: 양의선형관계 [-1, 0): 음의선형관계 연관성 (Association) 이있다고인과관계 (Causality) 가항상있는것은아니다!
아버지와아들의키 아버지와아들의키사이에양의상관관계가나타남. 아버지가크기때문에 ( 원인 ) 아들의키도크다 ( 결과 )
맥주와기저귀 미국의편의점에서각상품의판매량의연관성을조사 오후 5 시 -7 시사이, 기저귀판매량과맥주판매량에상관관계가나타남 기저귀가많이팔리기때문에 ( 원인 ) 맥주도많이팔린다 ( 결과 )??
용어의함정 2015 년영어수능시험홀수형 25 번문항
2015 년영어수능시험홀수형 25 번문항
정답 : 4 번 Regarding posted email addresses, the percentage of 2012 was three times higher than that of 2006.
5 번은? Compared to 2006, 2012 recorded an eighteen percent increase in the category of cell phone numbers
용어의함정 저축연금상품 : 저금리시대, 저희상품에가입하면이자율의 1% 를더드립니다!
통계적검정에대해더알아보기
집에서학교까지걸리는시간 요일 학생 1 학생 2 월요일 25분 28분 화요일 28분 31분 수요일 31분 30분 목요일 27분 35분 금요일 55분 32분 평균 33.2분 31.2분 평균 ( 금요일제외 ) 27.8분 31.0분
누가집에서학교까지가는데더오래걸리는지수집한자료로정하기 가설 1: 학생 1 과학생 2 는집에서학교까지가는데걸리는시간이같다 가설 2: 학생 1 의등교시간이학생 2 보다길다 수집한자료를바탕으로두가지가설중에한가지를선택
귀무가설 (null hypothesis, H0) 대안가설 (alternative hypothesis, Ha) 편의상가설 1 을귀무가설, 가설 2 를대안가설이라고하자. 자료를바탕으로두가지가설중하나를선택하려면기준이필요함 검정방식 (Statistical Rule)
예 ) My Rule: 학생 1 의평균등교시간 학생 2 의평균등교시간 > 1 분이면대안가설채택 예시에서학생 1 의평균시간은 33.2 분, 학생 2 의평균시간은 31.2 분. 차이가 1 분이상이므로대안가설채택! 학생 1 의등교시간이더길다! 만약평균시간을금요일을제외한자료로계산했을경우?
통계적검정에서있을수있는오류들 1 종오류 (Type 1 error) 귀무가설이사실인데귀무가설을선택하지않는경우 예 ) 두학생의등교시간이같은데, 등교시간이다르다고판단
통계적검정에서있을수있는오류들 2 종오류 (Type 2 error) 귀무가설이사실이아닌데귀무가설을선택하는경우 예 ) 두학생의등교시간이다른데, 등교시간이같다고판단
1 종오류가일어날확률을유의수준 (Significance level) 이라고부른다. 예 ) 유의수준 5% - 1 종오류가일어날확률이 5% - 귀무가설이사실인데대안가설을선택할확률이 5% - 두학생의등교시간이같은데학생 1 의등교시간이더길다고할확률이 5%
좋은통계적검정방법은?
두개의가설이있을때어떤가설을귀무가설로?
예 ) 테러리스트가상수원에독을탔다! 상수원에서채취한물을연구소로보내통계적검정방법으로물이먹어도안전한지아닌지결정 가설 1. 먹어도안전하다 가설 2. 안전하지않다
예 ) 나는야구경기에서어느팀이우승할지예측하는능력이있다! 가설 1: 예측능력이있다 가설 2: 예측능력이없다
다중검정이란? - 통계적검정을여러번동시에실시 얼마나많이? - 최근연구들의경우 > 10,000 인경우도있음
fmri 자료를이용한분석 Source: http://www.vox.com/2015/8/12/9117729/neu roscience-stanford "Advanced Brain Neuroimaging Topics in Health and Disease - Methods and Applications", book edited by T. Dorina Papageorgiou, George I. Christopoulos and Stelios M. Smirnakis
연어는사람의감정을얼굴을보고판단할수있다?
왜이런이런경우가생길까?
통계의활용
빅데이터 (Big Data) 시대
빅데이터란? 지구상에현존하는자료의 90% 는지난 2 년사이에생성됨 자료의단위 : gigabytes, terabytes, petabytes, exabytes, zettabytes, yottabytes 매일, 2.5x10^18 (2.5 exabytes) 의자료생성
자료의형태 전통적형태 : 숫자 새로운형태 : 비디오, 오디오, 페이스북, 트위터 자료의속도 주기적 -> 실시간 빅데이터의유형 대용량 고차원
빅데이터분석사례 FiveThirtyEight.com by Nate Silver
Nate Silver Statistician, Journalist Sabermetrician PECOTA (Player Empirical Comparison and Optimization Test Algorithm) 라는야구선수들의경기력및팀성적예측프로그램개발 Political Analyst 미선거예측알고리즘개발 (fivethirtyeight.com)
영화속통계 - 머니볼
영화속통계 캡틴아메리카