연구데이터분석기본과정 015. 04. 16 아이티베인이현우 0
[ 연구데이터분석기본과정 ] 제 1 장 기초통계 1.1 통계의이해 1. 통계학과자료분석 1.3 자료의정리및요약 1.4 확률분포 1.5 표본과표본분포 [ 부록 ] 연습문제
회사직원들의직업관과사내생활에대한만족도를조사하여전략적인커뮤니케이션과효율적인인사관리의자료를얻기위함 회사에대한평가 : Q1 조직에대한신뢰및존중 : Q, Q3, Q4 업무지원 : Q5 업무에대한흥미도 : Q6 기회의제공 : Q7 각각의개념은몇개의소문항으로구성되어있음
엔진제어모듈에서쓰이는미세한디바이스는리드 (lead) 사이의거리가 650micron(100 만분의 1m) 이다. 이리드는디바이스가외부와 연락 할수있게해주는작은선들이다. 로봇기계는이디바이스를집어서회로판에갖다놓는역할을한다. 조사의일환으로특정한형태의미세한디바이스가서로다른네가지속도로회로판에놓여지고이러한시행이각속도별로 16번측정하여한쪽방향으로치우침정도의결과값이다. 기계속도와치우침의정도사이에관계가있는가? 3
다음 Data 는어떤기계의사용빈도와그기계의수리비용이다. 사용빈도가 기계의수리비용에영향을주는가? 4
1.1 통계의이해 통계학 (Statistics) 의정의 State + Arithmetic ( 국가 + 산술 ) 의의미로시작 관심의대상에대한자료를수집, 자료에여러가지통계적기법을적용하여정보를추출, 관심의대상에대한특성을파악, 의사결정을지원해주는학문 자료, 표본 Sample 측정 (MSA) 자료분석 process 표본설계, 실험설계 모집단 추론 모수추정 (, ) 가설검정 ( Z, t, F ) 5
1.1 통계의이해 통계학 (Statistics) 의정의 불확실하에서현명한의사결정을위해필요한자료를수집, 분석하여유일한수자적정보를제시하고통계적법측을발견하는이론과방법을연구하는지식체계 - 통계학의정의 - 통계의어원 Statistic( 단수 ) - 평균치, 지수, 표준편차, 상관계수등과같이통계집단의특성치 Statistics( 복수 ) - 통계자료 Status Statista 라틴어의 상태 이탈리아의 정치학 State arithmetic( 국가산출 ) 역사적으로정치가들이국가의살림을꾸려나가기위하여필요한숫자를체계적으로산출해내는데서유래 6
1.1 통계의이해 7
1.1 통계의이해 얼마나많이숫자와접하고있나? 숫자를써서공격하라. 영국의수상벤저민디즈레일리 (1804~1881) There are three types of lies - lies, damn lies, and statistics. 우리나라사람들이숫자에약한이유 통계 : 관심의대상을정리, 숫자로표현한것 8
1.1 통계의이해 통계를잘못사용하고있는사례 : 여론조사 전수조사, 표본조사 표본조사방법 : 우편, 면접, 전화, 인터넷 장님코끼리만지기 1936년미국대통령선거 공화당의랜던, 민주당의루즈벨트 Literary Digest 1000만명의유권자에게설문지우송, 30만명에게회신 결과 : 랜던의여유있는승리 가장유명한실수 원인 : 잡지의정기구독자, 전화번호부 9
1.1 통계의이해 통계를잘못사용하고있는사례 : 너무정확한통계 오스트리아재무부의공식출판물 1951년도잘츠부르크인구가전체인구의 4.719303% 로치 (Hal Roach) 라는코메디언 - 자연사박물관 벽제의공동묘지를다녀간인원 1시까지 7,865명, 이후,376명 너무정확한표현은? 10
1.1 통계의이해 통계를잘못사용하고있는사례 : 잘못된해석 미국의한조사발표교회에다니는사람들은결혼생활을계속유지한다. 이혼소송중인 95% 가부부중한사람혹은둘다교회에정기적으로가지않는다. 이혼소송중인부부 / 결혼생활을유지하는부부 모집단의크기문제 충청권 비충청권 전체 찬성율 모집단크기 10,000 90,000 100,000 응답자수,000 3,000 5,000 찬성 1,800 900,700 54% 실제 9,000 7,000 36,000 36% 11
1.1 통계의이해 통계를잘못사용하고있는사례 - 매개변수 미국의껌판매량과범죄수의관계 교회의수가늘어나면범죄발생률도증가? 우유를많이마시면암에걸릴확률이증가 우유를많이소비하는미국의북부, 중부남부 많이마시지않는스리랑카 우유를많이마시는영국여자가일본여자들보다 18 배나더많이암에걸린다. 첫번째 : 수명이길다. 노년층이많다. 두번째, 영국여자의평균수명이일본여자보다 1 세길다. 미국메샤추세츄의장로교목사의월급과쿠바하바나의럼주가격간에는높은상관관계 우리나라냉장고의보급률과위암환자의수는큰상관관계 1
1.1 통계의이해 심프슨의파라독스 경증 항암제 생존 사망 합계 생존률 New 18 1 30 60% Old 7 3 10 70% 전체 5 15 40 중증 항암제 생존 사망 합계 생존률 New 8 10 0% Old 9 1 30 30% 전체 11 9 40 실제 항암제 생존 사망 합계 생존률 New 0 0 40 50% Old 16 4 40 40% 전체 36 44 80 13
1.1 통계의이해 확률의의미 확률의의미 P(A) : A라는사상이일어날확률? A : 동전을던졌을때앞면, 비가온다 야구타율 : 3할 어느의사 - 수술성공률 1% 딸만일곱낳은사연 % 와 % 포인트 평균, 중앙값, 최빈수 1994년미프로야구파업 구단주 : 평균연봉 9억원 CBS의여론조사 : 구단주지지 43%, 선수 % 700여명의메이저리그의평균연봉 : 9억원 중앙값 : 3억원, 최빈수 : 억여원 14
1. 통계학과자료분석 통계학의분류 통계학의과거와현재 기술통계 : 자료를표와그림으로표현 통계적의사결정단계 ( 추론통계 ) 자료를통하여모집단에대한어떤특성을 일반화하는방법 15
1. 통계학과자료분석 1) 데이터의중요성 데이터의수집과정리 Garbage in, garbage out! 연구와분석의목적을명확히해야한다. 분석의목적에부합하는데이터를수집해야한다. 데이터는정밀하게검사되고분석에적합하도록정리되어야한다. 16
1. 통계학과자료분석 1) 데이터의중요성 오류값 (Error) : 변수가가질수없는값, 변수값의불가능한조합, 일관성없는코드값, 잘못된코드값. 특이값 (Outlier) : 정상이아닌자료값. 특이값은오류값일수도있고그렇지않을수도있다. 결측값 (Missing) : 원인과기록방법을정밀하게조사하여자료를정정하고기록방법을변경해야하며, 필요시에는자료를보정해야한다. 사례 x1 x x3 x4 x5 1 76.7 Good 9.06 7.7 73.6 Good 7.14 7.4 3 68.7 Bad 3 4.1 6.9 4 9999 Reject NA. 0 5 8.7 Good 9.00 0.8 6 73.4 Bad 10 1.34 7.3 7. Good.0 0 8 69.5 Good 7.37 7.0 9. Good 3 1.8 0 10 69.5 Good 7 3.7 7.0 17
1. 통계학과자료분석 ) 분석방법 기술통계학 (Descriptive Statistics) 방대한자료를그래프나몇개의숫자로요약하여, 그자료의전반적인내용을 쉽고빠르게파악할수있는기법을다루는통계학. 추측통계학 (Inferential Statistics) 관심의대상이되는전체집단 ( 모집단 ) 으로부터모집단의일부를추출하여관측된 ( 표본 ) 내용을근거로하여모집단의전체특성을추측하고검정 ( 추론 ) 하는통계적방법을다루는통계학 18
1. 통계학과자료분석 ) 분석방법 관심의대상이되는모든개체의집합을모집단이라고하며, 모집단에서조사대상으로채택된일부를표본이라고한다. 모집단 샘플링 표본 검정 모집단의특성 : 모수평균 µ 분산 표준편차 추정량 추정 표본의특성 : 통계량평균 X 분산 S 표준편차 S 모집단의모수를정확히계산할수있다면문제가없으나, 이를알기어려운상황에서는표본에서계산된통계량을바탕으로모수를추정한다. 19
1. 통계학과자료분석 Data 의구분 정량적특성 (Quantitative Characteristic) 크기를수치로나타낼수있는특성 1) 이산특성 (Discrete Characteristic): 불연속적인특성예 : 공정상의결점수, 부적합수, 고객불만건수등 ) 연속특성 (Continuous Characteristic): 연속적인특성예 : 제품두께, 반사율, 점도, 밀도, 제품강도 (Strength) 등 정성적특성 (Qualitative Characteristic) 크기를특성 (Attribute) 으로나타낼수있는특성 1) 분류특성 (Classified Attribute): 여러가지로구별되는특성예 : 제품 Type, 제품색상, 제품등급등 ) 양자특성 (Go/No-go Attribute): 두가지로나눠지는특성예 : 합격 / 불합격, 양품 / 불량등 0
1. 통계학과자료분석 자료의종류 자료의데이터종류 정성적데이터데이터 정량적데이터데이터 명목척도 (Nominal Scale) 순서척도 (Ordinal Scale) 구간척도 (Interval Scale) 비율척도 (Ratio Scale) 이산형자료 (Categorical 데이터 Data) 연속형자료 (Continuous 데이터Data) 1
1. 통계학과자료분석 이산형자료 명목척도 (Nominal Scale) 어떤범주에대해단지명목상수치를부여한척도 예 ) 성별 : 남자 =1, 여자 = 이뇨제의종류 : 다이아자이드, 라식스, 알닥튼, 로졸 빈도분석, 교차분석, 원도표, 막대도표범주형데이터분석 순서척도 (Ordinal Scale) 범주에대해속성의순서에따라수치를부여한척도 예 ) 건강상태 : 양호 =3, 보통 =, 나쁨 =1 각종점수학력 : 초등졸이하 =1, 중졸 =, 고졸 =3, 대졸 =4, 대학원이상 =5 빈도분석, 교차분석, 범주형자료분석, 다변량분석
1. 통계학과자료분석 연속형자료 구간척도 (Interval Scale) 절대 영 (Absolute zero) 이없으며, 대상이갖는양적인정도의차이에따라등간격으로수치를부여한척도 예 ) 온도 : 섭씨 0, 50, 100 물가지수, 산업생산지수, 무역수지등 수학적의미 : (A-B)+(B-C)=A-C, 표현 : 온도차, 물가지수상승, 두배로덥다? 기술통계, 집단간평균비교, 회귀분석, 다변량분석 비율척도 (Ratio Scale) 절대 영 이존재하며, 비율계산이가능한수치를부여한척도예 ) 광고비, 판매량, 매출액, 무게, 가격, 소득등 수학적의미 : 사칙연산이가능함 기술통계, 집단간평균비교, 회귀분석, 다변량분석 3
1. 통계학과자료분석 기술통계분석 자료의데이터요약 표데이터, 도표 데이터수치 막대그래프, 히스토그램등 산점도, 상자그림 중심위치 (centroid) 측도 산포에관한측도 시각적효과큼 1개의수치로요약 ( 주관적데이터해석가능 ) ( 객관적데이터결과제시 ) 4
1.3 자료의정리및요약 1) 자료의시각적정리 막대그림 (Bar Chart) 이산형자료일경우각자료값의도수 ( 또는상대도수 ) 를같은폭의막대로표현한그림 수평축은일정한폭을지닌수직막대를통해비교할항목을나열 수직축은막대의높이 ( 자료값의도수 ) 에의해양을표시 [ 막대그림 ] 400 300 00 100 0 A B C 5
1.3 자료의정리및요약 1) 자료의시각적정리 원그림 (Pie Chart ) 원을자료값의상대도수에비례하도록조각으로나누어표현한그림 전체에있어서각항목들의상대적인점유량을표시 신문이나잡지에서많이사용하는그림 도수설정, 구간조정가능, 정리된자료도표현가능 [ 파이차트 ] 6
1.3 자료의정리및요약 1) 자료의시각적정리 산점도 (Scatter Plot) 두연속형자료에대하여 X 축, Y 축으로하여좌표값을점으로표시 두연속형자료의관계를분석하는데매우효율적 [ 산점도 (S) ] 58 RPM 56 Y 54 5 50 1000 100 1400 1600 RP M_X 1800 000 7
1.3 자료의정리및요약 1) 자료의시각적정리 산점도행렬 (Scatter Plot Matrix) 여러개의변수에대하여산점도를동시에그려주는그림 같은변수의해당그림은산점도대신히스토그램으로표현 [ 행렬도 (M) ] RPM# # # # # # # # 1000 1500 000 56 5 # # # # Y 48 000 R PM_X1 1500 1000 0 10 # # # # X 0 48 5 56 8 16 4 8
1.3 자료의정리및요약 1) 자료의시각적정리 줄기잎그림 ( Stem -and -Leaf Plot) Raw Data 의정보를그대로유지하면서관측값의범위, 분포형태, 집중도등의전반적인분포형태를보여준다. Data 수가많으면오히려분포의형태를파악하기가어렵다. [ 줄기 - 잎 - 그림 (F) ] 9
1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 제일사분위수 (Q1) 와제삼사분위수 (Q3) 를네모상자 ( 사분위수 ) 로 연결하고중앙값을상자안에표시하여분포의형태파악 자료분포의대칭성, 자료의중심위치, 산포의정도, 극단점, 이상치등분포파악에효과적으로이용되는통계그림 여러집단의비교에많이이용 [ 상자그림 (B) ] 30
1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 사분위수란? 전체 data 를작은것부터큰것으로순서대로나열을하고이것을 4 등분했을때그해당값 ( 세개 ) 을일컽는다. 8 10 1 14 16 18 0 4 6 8 30 3 34 36 38 40 4 44 46 48 50 5 1 사분위수 사분위수 Q1 Q 3 사분위수 Q3 IQR = Q3 Q1 = Inter-quartile range( 사분위수범위 ) 좌측경계값 우측경계값 * * 아래쪽인접값위쪽인접값이상점 Q1 Q Q3 Q1-1.5 X IQR Q3 +1.5 X IQR 31
1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 3
1.3 자료의정리및요약 1) 자료의시각적정리 Histogram 데이터가산포를가지고있을때어떠한분포를하고있는가를알아보기쉽게발생빈도수를그래프로나타낸그림이다 히스토그램은데이터만으로알아보기어려웠던전체모습을간단하게알수있고데이터의평균이나산포의모습및크기를알수있다. 평가점수 Graph> Histogram 65 73 65 36 81 60 43 1 83 64 1 91 60 4 54 69 89 96 86 85 95 85 51 81 47 6 85 46 49 76 44 7 33 46 49 74 78 48 6 97 31 96 97 88 61 54 89 77 7 35 9 8 7 6 5 4 3 1 0 33 10 0 30 40 50 60 70 80 90 100 score
1.3 자료의정리및요약 1) 자료의시각적정리 정규확률도 (Normal Probability Plot) 자료가정규분포를따르는지판단하는그림 백분위수 - 백분위수그림 (Q-Q plot) 방법을사용 정규분포일경우직선의형태. 그이외의분포는구부러진형태 [ 정규성검정 (N) ] 34
1.3 자료의정리및요약 1) 자료의시각적정리 파레토도표 (Pareto Chart) 불량, 고장등의발생건수를항목별로나눈후크기순서대로막대그림으로표시 계수형자료일때각범주에대한빈도를막대의높이로나타낸그림 불량품을발생시키는원인에대한영향정도를대략적으로파악할수있는도구 [ 파레토도표 ] 180 160 140 10 100 80 60 40 0 0 56 34 9 5 16 35.0 1.3 18.1 15.6 10.0 % 35.0 56.3 74.4 90.0 100.0 100 80 60 40 0 0 35
1.3 자료의정리및요약 ) 중심위치측도 중심위치의측도 평균 (Average, Mean) : 관측값들의합을관측값의총개수로나눈것 중앙값 (Median) : Data 를크기순으로배열했을때한가운데위치하는값 최빈값 (Mode) : Data 중가장빈도가많은값 중심위치측도의특징비교 모집단의추정치로서의표준오차 : 평균이표준오차가가장적은안정성있는대표치 통계처리의다양성 / 계속성 : 대표치기능이상의다른정보를얻고자하는경우평균계산필수 계산의간편성 : 최빈값은분포상에서즉각적으로계산 자료의특성 : 좌우대칭이아닌극단적인산포를이루는자료는중앙값이가장합당 측정수준 : 명목변수는최빈치, 서열변수는중앙치, 등간변수와비율변수는평균사용 분포상의비교 : 자료분포가정규분포인경우평균, 중앙값, 최빈값이일치 36
1.3 자료의정리및요약 ) 중심위치측도 평균 (Mean ; μ,x) 관측값을모두합한후에관측수의총수로나눈것 관측된데이타의중심을측정하는대표적인통계량 극한값 (Outlier) 의영향을많이받음 x n xi i 1 n 중앙치 (Median) 측정된값들을크기순서대로정렬했을때중앙에위치하는값 ( 측정수가짝수이면중앙두개값의평균 ) 장점 : 극단적인값에대해왜곡되지않음단점 : 수학적특성이결여됨 최빈치 (Mode) 측정된값에서가장빈도가큰값 장점 : 가장빈도가큰값을보여줌단점 : 1) 수학적특성이결여됨, ) 경우에따라최빈값이없을수있음 37
1.3 자료의정리및요약 ) 중심위치측도의선택 대칭분포 왜도 n i1 x i s n 1 x 3 대칭 ( 왜도 (Skewness)=0 ) 빈도 연도최빈값 = 평균 = 중앙값 38
1.3 자료의정리및요약 ) 중심위치측도의선택 오른쪽으로긴분포 오른쪽으로긴꼬리 ( 양의왜도 ) 최빈값 중앙값 평균 39
1.3 자료의정리및요약 ) 중심위치측도의선택 왼쪽으로긴분포 왼쪽으로긴꼬리 ( 음의왜도 ) 빈도 평균 중앙값 최빈값 40
1.3 자료의정리및요약 3) 산포의측도 산포 ( 자료들이중심으로부터퍼져있는정도 ) 의측도 사분위범위 (Inter-Quartile Range) : 3 사분위수 (Q3) 1 사분위수 (Q1) 분산 (Variance) : 편차제곱의평균 표준편차 (Standard Deviation) : 분산의제곱근 변이계수 : 표준편차를비교할때절대수치보다상대수치가필요 ( ) X i N ( X i ) [ 표준편차 ] [ 분산 ] N CV [ 변이계수 ] ( ) X i N ( X i ) [ 표본표준편차 ] [ 표본분산 ] N CV [ 표본변이계수 ] 41
1.3 자료의정리및요약 3) 산포의측도 수치적해석 산포도 ( 퍼짐 ) 평균이용 분산 (variance), 표준편차 (standard deviation) 순서대로나열 - 범위 (range), 사분위수범위 (IQR) 자료에대한특성을언급하려면? 대표값과산포도를같이기술해야함 분산은차이큼 평균동일함 4
1.3 자료의정리및요약 3) 산포의측도 도표적해석 막대그래프 중심위치 : 5 분산 : 0.67 4 3 중심위치 : 5 분산 : 5.67 1 0 A 그룹 B 그룹 43
1.3 자료의정리및요약 4) 첨도 첨도 (Kurtosis) : 자료들의분포형태가중심위치에서 어느정도뾰족한가를나타내는척도 정규분포보다뾰족한봉을갖는경우 : 양 ( + ) 의값 정규분포보다납작한봉을갖는경우 : 음 (-) 의값 첨도 n i1 x i x s n 1 4 3 44
1.3 자료의정리및요약 5) 산포를나타내는척도 범위 (Range ;R) 관측된데이터중최대값과최소값과의차이 범위 = 최대값 - 최소값 범위 = 최대값 - 최소값 분산 (Variance; σ, S ) 평균과각개별데이터의차이에대한제곱합의평균 데이타의흩어진정도를표현하는통계량 S = Σ(x-x) n -1 표준편차 (Standard deviation ; σ, S) 분산의제곱근 데이타의흩어진정도를표현하는보편적인통계량 S = Σ(x-x) n -1 S = R/d 45
1.3 자료의정리및요약 품질특성 제품의품질특성과산포 데이터번호 1 3 4 5 6 평균표준편차 GROUP1 1.7 1.5 1.7 1.5 1.7 1.5 1.6 0.11 GROUP 1.65 1.55 1.55 1.65 1.55 1.65 1.6 0.05 품질특성 1.75 1.7 1.65 1.6 1.55 1.5 1.45 1.4 데이터의산포 1 3 4 5 6 측정횟수 GROUP1 GROUP 46
1.3 자료의정리및요약 5) 탐색적자료분석 EDA : Exploratory Data Analysis 각종그림을그려본다. 점그림, 히스토그램, 상자그림, 산점도 자료의대표값을구한다. 중심 : 평균, 중앙값 산포 : 분산, 표준편차, 범위, 사분위수범위 기타 : 자료의개수, 최대값, 최소값, 제 1 사분위수, 제 3 사분위수 47
1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 1 엑셀 007 의옵션설정 007 버젼의형태이며 003 버젼에서는도구 -> 분석도구로 010, 013 버젼에서는홈메뉴에옵션항목선택 추가기능클릭 48
1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 3 분석도구클릭후이동버튼클릭 3 5 분석도구체크후확인 4 49
1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 데이터메뉴의우측상단에데이터분석메뉴가나타나면설정은성공 50
엑셀에서의통계분석 데이터분석기능옵션설정방법 데이터분석메뉴를클릭할경우아래와같이통계데이터분석창이뜬다원하는분석을수행 51
엑셀에서의통계분석 기술통계법의사례 입력범위를클릭후분석하고자하는데이 터를긁어서분석데이터선택 5
엑셀에서의통계분석 입력부분 : 분석하고자하는데이터를지정첫번째행이름표사용 : 분석변수의변수명이데이터의첫번째행에있을경우에사용 출력부분 : 분석결과을어디에제공할것인가를정리하고, 분석통계량에대한내용을지정출력지정 : 선택한셀부터출력결과제공새로운워크쉬트 : 새로운워크쉬트에결과제공새로운통합문서 : 새로운엑셀파일에결과제공요약통계량 : 필수적으로선택 대부분의통계분석에서동일한형태로사용되고있음 53
1.4 확률분포 확률변수 통계적실험 (Statistical Experiment) 비슷한사건의반복으로여러가지가능한결과가있을수있지만, 정확히무슨결과가발생할지는모르는현상은통계학의연구및응용대상이된다. 이런현상에대한통계학적연구를통계학적실험이라고한다. 표본공간 : 불확실성을구체적으로표현하는것으로서관찰가능한모든가능한집합. 이산형 / 연속형표본공간 ( 자료의구분과동일 ) 확률변수 (Random Variable) 표본공간을대상으로직접문제해결이곤란한경우표본공간을수직선위로변환 정의 : 표본공간에서정의된실수치함수 예 : 동전을 3 회던지는실험 이산형확률변수, 연속형확률변수 54
1.4 확률분포 확률변수란? 확률변수 함수 비교 - 분야 : 통계 - 표기 : X, Y, Z - 의미 : 개체속성들을실수값에대응시키는것 - 이산형확률변수, 연속형확률변수 - 분야 : 수학 - 표기 : y, f(x) - 의미 : 집합 A의원소를집합 B의원소에대응시키는것 확률분포 확률변수의값 ( 또는확률함수 ) 과 그에대응하는확률 ( 또는구간확률 ) 을대응시키는것 55
1.4 확률분포 확률변수란? 확률변수 확률분포 < 성별속성 > < 실수값 > <0~1 의확률값 > 남 여 1 0.5 0.5 수학에서의함수관계 56
1.4 확률분포 확률분포의종류 확률밀도함수 ( pdf: probability density function ) 확률변수 X의분포를나타내는함수 이산분포함수로는이항분포, 포아송분포등이있고, 연속분포함수로는정규분포, 카이제곱분포등이있다. 이산분포 pdf는보통 p(x) 로, 연속분포 pdf는보통 f(x) 로나타낸다. 이항분포 (Binomial Distribution) 실험을 n 번실시하여얻은실험결과중에 성공의회수 를 X 라할때 X가취할수있는값은 0,1,, n으로이항분포에따른다. n x nx 1p( x) p 1 p, x 0,1,,..., n x 1 E( x) np, V( x) np(1 p) 57
1.4 확률분포 포아송분포 (Poisson Distribution) 단위시간당발생하는한사건 ( 전화가걸려옴, 교통사고발생, 기계고장 ) 의수를조사 단위시간당 성공의회수 가평균 m 이라할때포아송확률변수 X= 단위시간당성공회수 의분포는 p( x) m x! 이항분포와포아송분포와의밀접한관계 e m x 평균 : E(X) = m, 분산 : V(X) = m n 이무한대에접근하고 p 가 0 에접근하여평균성공수 np=m 는일정한상수인경우에는이항분포는포아송분포로근사하게구할수있음. 포아송분포의사례 어느회사부서사무실에오전 9 시에서 10 시사이에걸려오는전화의수 어느교차로에서발생하는 1 일교통사고의수 옷감의단위길이당발생하는결점수 58
1.4 확률분포 지수분포 (Exponential Distribution) 신뢰성에서가장많이사용되는분포 시간이지남에따라고장률이일정한어떤제품이고장이일어나고다음고장이일어날때까지걸리는시간 확률밀도함수 f (t) e t,t 0 λ: 고장률 분포함수 ( 불신도함수 ) 및신뢰도함수.5 1.5 1 0.5 0 0 4 6 8 10 λ= λ=1 λ=0.5 F(t) t t 평균및분산 1 MTTF R(t)dt 0 1 Var(T) t 0 f (t)dt 1 e R(t) 1 F(t) e 고장률함수 - 지수분포의고장률은시간과는무관하게상수 (λ) - 평균수명 MTTF(θ) 와고장률 λ 는역수관계 백분위수 t p F(t p ) 1 e (t) t p f (t) R(t) p, t p 1 { ln(1 p)} 59
1.4 확률분포 정규분포 99.7% of data are within 3 standard deviations of the mean 95% within standard deviations 68% within 1 standard deviation 0.340 0.340 0.04 0.04 0.001 0.001 0.135 0.135-3 - - + + + 3 60
1.4 확률분포 정규분포 무한대의샘플을측정하여얻을수있는이론적인분포 분포의형태가종을엎어놓은모양이며, 평균값을중심으로좌, 우대칭으로 평균 (μ) 와분산 (σ ) 에의하여위치와산포가결정된다. 히스토그램은표본 (sample) 을사용하여작성된다. 표본통계 (x,s) 는표본에서계산된다. 히스토그램과표본통계를가지고이표본을추출한 모집단을나타내는곡선을만들어낸다. 표본데이터가정규분포를하고있으면정규분포곡선을이용하여정확한통계적인분석을할수있다. ( 추정통계의배경 ) 61
1.4 확률분포 정규분포와 6 시그마공정 공정의평균에서규격의경계치까지의거리가 표준편차 (σ) 의 6 배되는거리에있다는뜻. 규격하한 규격상한 99.9999998% 99.999943% 99.999943% 99.9937% 99.9937% 99.73% 99.73% 95.45% 95.45% 68.7% 68.7% 158,650p pm -1σ +1σ 158,560p pm 1,350ppm -3σ +3σ 1,350ppm 평균 (μ) -6σ -5σ -4σ -3σ -σ -1σ +1σ +σ +3σ +4σ +5σ +6σ 0.001ppm -6σ +6σ 0.001ppm 6
1.4 확률분포 정규분포 표준정규값 Z X 평균이 0 이고표준편차가 1 인정규분포를표준정규분포라한다. X 가평균이 이고표준편차가 인정규분포를따를때, Z 는 평균이 0 이고표준편차가 1 인정규분포를따른다. 63
1.4 확률분포 중심극한정리 평균에대한중심극한정리 X 1, X n 을평균이 이고분산이 인모집단으로부터구하여진 표본이라하면, X 의분포는근사적으로 N( μ, σ / n ) 에따르고 x n 은근사적으로 N ( 0,1 ) 을따른다. 모비율에대한중심극한정리 X가 B (n, p) 이고 n이크면 p p 는근사적으로 N(0,1) 을따른다. p(1 p) n 여기서, p x n 64
1.4 확률분포 정규분포의연습 어느과수원에서수확되는사과의무게는평균 00g, 표준편차는 5g인정규분포를따른다고한다. 사과무게를 X라하면, 이과수원에서수확되는사과중무게가 150g 미만인것은하품으로, 60g 이상은상품으로간주한다고한다. 이과수원에서는일년에 15,000개의사과를수확한다고한다. (1) 이과수원에서예상되는하품사과의수는얼마인가? () 이과수원에서예상되는상품사과의수는얼마인가? (3) 사과의무게가 190g 에서 10g 사이에있는사과의수는얼마인가? 65
1.5 표본과표본분포 모집단 (Population) 조사하고자하는대상집단전체 전체조사는많은시간과비용소요 표본 (Sample) 조사하기위하여뽑은일부집단 조사대상모집단의부분집합 현재까지생산된모든쏘나타 차량의평균중량 000 년 4 월생산된쏘나타 차량중 50 대의평균중량 우리나라총유권자의정당별 선호도 전국의유권자 1,500 명을대상 으로조사한정당별선호도 66
1.5 표본과표본분포 표본추출 (Sampling) 사용이유 모집단전체를조사하는것이불가능하거나어려운경우 표본추출을통해모집단에대한효율적인정보수집 확률추출법 / 비확률추출법 확률추출법 모집단으로부터구성원을추출하는과정이무작위하게 이루어지는방법 비확률추출법 시간? 개월? 1 년? 비용? 1000 만원? 개인적인판단이나편의에따라모집단으로부터구성원을추출하는과정 표본으로부터모집단의결론에대한신뢰도가객관적척도가불가능 전체를다조사해? 67
1.5 표본과표본분포 Sampling 표본추출오차 / 비표본추출오차 표본추출오차 - 우연오차, 편의 표본선택방법과관련된오차 비표본추출법 잠재적인응답자들이동일한확률로뽑혔다고확신할수없음. 측정방법, 과정의부정확으로인한오차 측정계기의부정확, 측정기술의부족등으로인한오차 표본오차를추정할수없기때문에일반화하여사용할수없음. 단순랜덤화추출법 (Simple Random Sampling) 모집단에포함되어있는모든구성원이뽑힐확률을같게하여뽑는방법 주사위같은기구를사용하거나, 모집단이클경우난수표를이용 여러표본추출방법중에서가장기본이되며, 다른추출방법에응용이많이됨. 68
1.5 표본과표본분포 Sampling 층화추출법 (Stratified Sampling) 모집단의성격에따라여러개의층으로분류한다음각층에서단순랜덤화추출법에의해추출 층내에서동질성이높고층간에는이질성이높을때정확도가더높음. 집락추출법 (Cluster Sampling) 모집단이자연적으로나인위적으로집락 (cluster) 을형성하고있을경우 집락중몇개를랜덤하게선택하여전수를조사하는것 모집단이크고넓게퍼져있을때효과적 계통추출법 (Systematic Sampling) 공간적으로혹은시간적으로일정한간격으로추출하는방법 첫번째표본은랜덤하게추출하고두번째부터는일정한시간적 / 공간적간격을두고추출 경향성이나주기성이있는경우편의가클가능성이있음. 단순확률추출보다표본추출작업이용이하여비전문가도쉽게이용 단순확률추출법에비해일반적으로단위비용당얻는정보의양이더많음. 69
1.5 표본과표본분포 표본분포와표본오차 모수와통계량 모수 (parameter): 모집단의특성을나타내는수치로서고정된값이지만대부분은모르기때문에가정을하거나추정을한다. 예 ) 모평균, 모분산, 모비율 통계량 (statistic): 표본으로부터계산되는값으로서어떤개체가표본으로추출되냐에따라값은변한다. 예 ) 표본평균, 표본분산, 표본비율 표본분포란?... 정확한표현은통계량의표본분포는? 표준오차란? 정확한표현은통계량의표준오차는? 70
1.5 표본과표본분포 모수 (Population Parameters) 표본통계 (Sample Statistics) μ = 모집단평균 σ = 모집단표준편차 x = 표본집단평균 S = 표본집단표준편차 모집단 표본 (1) 표본 (3) 표본 () 註 ) 모수 (Parameter) - 표본관측에의하여구하고자하는모집단의특성값 71
1.5 표본과표본분포 여러가지표본분포들 카이제곱분포 정규분포를따르는모집단에서표본을추출했을때, 표본분산의분포가카이제곱분포이다. 모분산에대한추론, 범주형자료의분석등에유용하게활용 비대칭분포이며모수인자유도가변함에따라분포가달라짐 자유도가많아질수록정규분포에근사 0.4 0. df=1 df= df=4 df=6 0 x 5 10 13 7
1.5 표본과표본분포 여러가지표본분포들 t 분포 정규분포를따르는모집단에서표본을추출했을때, 표본표준편차를사용하여표본평균을 표준화한것은 t 분포를따름. 단하나의분포가아니라자유도가변함에따라분포가달라짐 자유도가 30 이상이면표준정규분포 N(0,1) 에근사 표준정규분포 t- 분포 0 73
1.5 표본과표본분포 여러가지표본분포들 F 분포 두정규모집단의분산비교에대한추론에사용하는분포 두모분산의비에대한통계적추론, 분산분석등에서유용하게활용 비대칭분포이며여러가지자유도에대한분포군이존재 자유도가커질수록정규분포의형태와유사 F (x) < 분자, 분모의자유도에따른 F 분포 > 1.0,10 0.8 0.6 0.4 10, 10,10 0. 0 5 10 13 x 74
[ 연구데이터분석 ] 제 장 가설검정과추정.1 추론통계개요. 가설검정.3 점추정과구간추정
.1 추론통계개요 추정이란? 모든자료를조사할수없는경우표본에서얻은결과를이용하여모집단을추측 모수 ( 모집단특성치 ) 추정에확률이핵심적인역할 표본은모집단을대표할수있어야함 표본추출의중요성 모집단에서표본을추출 모집단 표본 표본으로부터모집단을추측 추정 76
.1 추론통계개요 표본분포 모집단 < 표본추출 > 표본통계치 S 1 X 1 표본분포 S X xi 값들로구성 P S 3 S.. X 3 X.. S.. S k-1 S k X.. X K 1 X K 추출된표본으로부터구한평균값들은다를수있다. 어떤표본평균값은다른값들보다자주일어나며모평균에가까울수록자주일어난다. 표본평균값들의분포는모집단의평균을중심으로정규분포에접근한다. 77
.1 추론통계개요 점추정과구간추정 점추정 표본으로부터구한통계치를이용하여모수를특정한값으로추정 ( 측 ) 구체적인값으로추측하지만확률 ( 가능성 ) 에대한개념은전무 모수에대한구체적인가설이있는경우 : 점추정법을사용 10; x 9.9 만약라면? 구간추정 모수를추측하는데통계량의분포를이용, 통계치에오차한계를더하거나빼서모수가들어있을것으로예상되는구간을제시 구체적인가설을가지고있지아니하고표본정보로부터모수를추측하고자할때사용 78
.1 추론통계개요 신뢰구간의추정 중학수학의경우 : 참값의범위 근사값 오차한계 근사값 오차한계 참값 근사값 오차한계 통계학의경우 : 모평균 ( 참값 ) 에대한 95% 신뢰구간추정 모평균을모르는경우표본평균을이용하여신뢰구간추정 X X t t.05.01 s s X X X X t t.05.01 s s X X X X t t.05.01 s s X X 79
.1 추론통계개요 예 ) 신뢰구간추정 ( x d, x d) 모평균에대한 95% 신뢰구간 : 이러한구간들이 5 개정도란의미! 이런구간들이약 95 개정도란의미! 95% 신뢰수준의의미 : 만일크기가 30 인표본을같은방법으로 100 번추출하여 (3,000 개체가추출됨 ) 각표본으로부터 100개의신뢰구간을구하면그중 95개정도의구간이모수 를포함함을의미 n 80
.1 추론통계개요 신뢰구간추정예 예 ) 00 년 1 월대통령선거예측조사결과 (SBS) 1. 점추정 나경원후보예측득표율 : 49.7% 기동민후보예측득표율 : 1.4% 오차의한계 ( 오차범위, 표본오차 ) : 3.1 %p. 구간추정 나경원후보에대한 95% 신뢰수준의구간 : (49.7-3.1, 49.7+3.1) 기동민후보에대한 95% 신뢰수준의구간 : (1.4-3.1, 1.4+3.1) 두후보에대한예측범위가겹치면 보합세로판단 81
.1 가설검정 고민방법 --- 보수적입장에서고민하기로함.. 기존입장과주장하고자하는입장이부딪힌다면아주특별한이유가없는한기존입장을생각하는경향. ( 새주장을받아들이는데는매우인색함 ). 항상그렇지는않음 보일수없거나, 힘든것을기존입장으로한다무죄와유죄 : 같다와다르다 : 독립이다와독립이아니다 : 정규분포를따른다와따르지않는다 :. 가설검정이론때문에 = 는반드시귀무가설에만포함된다. H 0 : μ=450 H A : μ>450 H 0 : 독립이다. H A : 독립이아니다 8
.1 가설검정 가설검정 (Hypothesis Testing) 평균에대한가설 표준편차에대한가설 Ho : μ 13.6 H1: μ < 13.6 H o: σa σ B H 1: σa > σb 83
.1 가설검정 가설검정의기본 귀무가설 (H0): 종래에믿어오던사실이나보편적인주장 대립가설 (H1): 새로운주장 귀무가설이 참 이라고가정하고, 그런다음이가설을채택하거나기각할수있는신빙성있는증거를데이터에서찾는다 귀무가설을기각한다면, 대립가설을채택한다 84
.1 가설검정 예제 : 통계적의사결정 H o 를기각할것인지아닌지를결정할때, 가지의사결정실수를할수있다 진실 H o 참 H o 거짓 당신의결정 H o 채택 H o 기각 맞음 제 1 종과오 (α 위험 ) 제 종과오 (β 위험 ) 맞음 85
.1 가설검정 예제 : 재판 진실 실제로무죄 실제로유죄 무죄이다 맞음 제 종과오 (β 위험 ) 결과 : 범죄자가자유의몸이된다 배심원의결정 유죄이다 제 1 종과오 (α 위험 ) 맞음 결과 : 죄없는사람이감옥에간다 86
.1 가설검정 유의수준 ( α) - 귀무가설 (H 0 ) 참인데도불구하고 H 0 을기각할확률의최대허용한계 기각역 - 귀무가설 (H 0 ) 을기각하는영역 - 검정통계량이기각역에있으면귀무가설 (H 0 ) 을기각하고대립가설을채택함 P 값 ( 유의확률 ) - 정의 : α 유의수준 P 값 채택역기각역검정통계량 ( Z o, T o ) 87
.1 가설검정 검정추정개념 검정 추정 귀무가설 ( H 0 ) 대립가설 ( H 1 ) H 0 채택또는기각판단으로모집단의평균과분산은같다, 또는다르다및커졌다 / 작아졌다등으로의사결정 점추정 : 모평균값은얼마일것이다 구간추정 : 모평균값은최소얼마내지최대얼마일것이다 88
.1 가설검정 가설의설정 (H 0, H 1 ) 유의수준의결정 ( 5%, 1% ) 채택역 / 기각역설정 자료 (DATA) 의수집및계산 검정통계량값의계산 ( 평균 : Z 0, T 0 : 분산 : χ 0, F 0, ) 통계적의사결정 H 0 의기각 H 0 의채택 여기서 o 는 observed 즉 계산된값 ( 관측한값 ) 을말하며이를검정통계량값이라한다 89
. 점추정과구간추정 모수 (Parameter) : 모집단의분포모양을결정하는수치적측도 ( 모평균, 모분산, 모표준편차, 모공분산, 모상관계수등과같이모집단의특징을나타내는대표값 ) 샘플 ( 표본 ) 추출 모집단모수 1, 모수, 샘플 ( 표본 ) 추정 추정의종류 - 점추정 : 모수의추정치가하나의값 ( 점 ) 으로주어지는추정 - 구간추정 : 모수의추정치가구간으로주어지는추정 90
. 점추정과구간추정 관심있는모집단의모수를하나의값으로추정하는방법 일반적으로모집단의모수중에서중요한것들로는평균, 분산, 표준편차등이있음 평균이 10 인모집단 크기 0 개의샘플추출 샘플데이타 모집단평균은 10.5 구분 평균 분산 모집단 (N) 1 1 N x 1 N i 1 N N i 1 ( x i ) s Sample(n) 1 x n 1 n 1 n n i1 i1 x i ( x i x) 91
. 점추정과구간추정 관심있는모집단의모수를구간으로추정하는방법 크기 0 개의샘플추출 평균이 10 인모집단 샘플데이타 구간추정의예 평균 (μ) 구간추정 분산 (σ) 구간추정 x 모집단평균은 95% 의확률로 9.5 와 10.5 사이에있음 z / ( n 1) s / 9 Known( 기지 ) σ x ( n 1) n x t / n 1) x ( Unknown ( 미지 ) σ ( n 1) s 1 / ( n 1) s n
. 점추정과구간추정 σ 기지 모집단 1 개 Z 0 = X μ 0 σ 0 / n X ± Z α/ σ 0 n 평균 Z 모집단 개 모집단 1 개 Z 0 = X A X B σ A σ + B n A n B T 0 = X μ 0 s / n σ A σ B X A X B ±Z α/ + n A s X ± t α/ ( φ) n n B σ 미지 T 모집단 개 (σ A = σ B ) T 0 = X A X B 1 n A + 1 n B s p X A X B ± t α/ (φ) 1 n A + 1 n B S p 모집단 개 (σ A σ B ) T 0 = X A X B s A s B + n A n B X A X B ± t α/ (φ*) s A n A + s B n B 93
[ 연구데이터분석 ] 제 3 장 비교분석 3.1 비교분석개요 3. 단일모집단평균 t-test 3.3 두모집단평균비교 t-test 3.4 분산분석
3.1 비교분석개요 예 ) 흡연집단과비흡연집단의폐암발생률의비교 ( 차이 ) 두치료약 ( 치료방법 ) 에따른치료율비교 ( 차이 ) 두회사의가전제품에대한선호도비교 ( 차이 ) 95
3. 단일모집단평균 t-test H0 : 1 H0 : 1 0 세가지방향 1) 두집단의데이터가서로연관 : paired T-test ) 두집단의데이터가서로독립 : T-test - 두집단의분산이서로같은지여부에따라분석방법이달라짐 3) 두집단의분산을알고있느냐? 모르느냐? 모른다면표본의크기가크냐작으냐? 즉, 중심극한정리를사용할수있느냐? 없느냐? 96
97 3. 단일모집단평균 t-test 두모집단의혹은성질이서로다른두집단의평균비교즉, 두집단의비교분석시주로사용 ), ( ~,,, ), ( ~,,, 1 1 1 1 1 N iid Y Y Y N iid X X X n n Y X 의분포는? (0,1) ~ ) ( ), ( ~ 1 1 1 1 1 1 N n n Y X n n N Y X 그런데, 모른다면? 1, 1) /( ) ( ˆ 1) /( ) ( ˆ 1 1 1 1 1 n Y Y n X X n i i n i i
98 3. 단일모집단평균 t-test (0,1) ~ ) ( ), ( ~ 1 1 1 1 1 1 N n n Y X n n N Y X 1) /( ) ( ˆ 1) /( ) ( ˆ 1 1 1 1 1 n Y Y n X X n i i n i i ) 두모분산이같을경우 1 ) ( ~ 1 ) ( 1 ) ( ) ( ˆ ˆ ) ( 1 1 1 1 1 1 n n t n Y Y n X X Y X n n Y X i i
3. 단일모집단평균 t-test 예 ) 설비 A 의수명 : 0.9,., 1.6,.8, 4., 3.7,.6 설비 B 의수명 : 1.4,.7, 1.8, 3.0, 3. A 수명 : 평균 =.57, 표준편차 =1.144 B 수명 : 평균 =.4, 표준편차 =0.783 t=0.548, p- 값 =0.8040 t 0.05 (10)=.3 실습 99
3. 단일모집단평균 t-test(spss) ( 예제 1) 다음자료는모기업의일간전력최대사용량을정리한자료이다. 공휴일여부에따른최대수요값의차이가있는지분석하여라. 요일 공휴일여부 최대수요 최소기온 최대기온 평균풍속 최대풍속 강수량 토 1 46 1.8 11.1.4 5.1 0 일 1 607 1.5 9.5 3 7. 0 월 3513 -. 4.1.6 6.3 0 화 34079 -.9 7.5 1.5 3.7 0 수 34118 1.4 9.7 6 10.8 목 34413-0.5 8.7 3.3 7.7 5.1 금 34604-7.4-0.4 3.1 8.4 0 토 1 355-5.9 5.3 0 일 1 8659-3. 1.7 4.8 0 월 34590 -.3 5..6 6.6 0 화 34115-4.5 7.1.5 6.1 0 100
3.3 두모집단평균비교 (SPSS) ( 예제) 두종류의사료가젖소의우유생산량에미치는영향의차이를조사하기위해서랜덤하게 8마리씩 A, B 두그룹으로나눈후 A 그룹에는사료 1을 B 그룹에는사료 를주면서 3주일동안의우유생산량을조사하였다. 두종류의사료가우유생산량에미치는영향이다르다고할수있는지를유의수준 5% 에서검정하여라. 101
3.3 두모집단평균비교 쌍체 ( 대응, paired) 표본검정 [ 예제 ]. S 사에서는직업훈련이근로자들의능률향상에효과가있는지를알아보고자한다. 독립표본 근로자 1 3 4 5 6 7 8 9 10 11 1 13 14 실시전 76 76 87 67 65 86 83 실시후 84 88 77 77 75 78 83 쌍체 ( 대응, 짝지어진 ) 표본 근로자 1 3 4 5 6 7 8 9 10 실시전 76 60 85 58 91 75 8 64 79 88 실시후 81 5 87 70 86 77 90 63 85 83 두실험설계의차이점은? 짝지어진표본은언제사용하는가? - 배제할기타변동요인이존재할때즉, 근로자들간의능률산포가클때 절차상다른점 - 근로자들간의능률산포를배제하기위해서, 각근로자의원래데이터가사용되지않고차이가사용, 차이는순수하게직업훈련의효과만을반영 10
3.3 두모집단평균비교 쌍체 (paired) 표본검정 데이터의차이계산 근로자 1 3 4 5 6 7 8 9 10 실시전 76 60 85 58 91 75 8 64 79 88 실시후 81 5 87 70 86 77 90 63 85 83 차이 -5 8 - -1 5 - -8 1-6 5 가설설정 H 0 : µ A = µ B v.s. H 1 : µ A µ B T 0 s D D n ~ t( n 1) 검정통계량의값 (T0 = -0.79) 과 p-value 계산 1.6 T0 p value : 0.448 6.38 10 의사결정 : 직업훈련전후에능률에차이가없다라는 H 0 채택 103
3.3 두모집단평균비교 (SPSS) ( 예제 3) 자동차의휘발유에사용하는첨가제가주행거리에영향을미치는지알아보고자한다. 다섯종류의새차에대하여같은종류의차두대중에서한대를랜덤하게택하여, 첨가제를사용하고다른한대에는첨가제를사용하지않고서같은운전자가같은장소에서운전한결과다음과같은자료를얻었다. 첨가제를사용하는경우주행거리에차이가있다고할수있는지유의수준 5% 에서검정하여보자. 104
3.4 분산분석 일원분류분산분석 (one-way ANOVA) : 독립 ( 설명 ) 변수의개수가한개 다원분류분산분석 (multi-way ANOVA) : 독립 ( 설명 ) 변수의개수가두개이상 일변량분산분석 (univariate ANOVA) : 반응변수의개수가한개 다변량분산분석 (multivariate ANOVA) : 반응변수의개수가두개이상 공분산분석 (Analysis of Covariance) : 설명변수에연속형인공변량 (covariate) 이포함되어있는경우 105
3.4 분산분석 1) 원리 x : 전체평균 x : Group1 평균 x : Group 평균 x x x x x x 106
3.4 분산분석 1) 원리 x : 전체평균 x : Group1 평균 x : Group 평균 ( yg y ) 31 그룹1내변동 g ( y g y ) 78 g x x x x x x ( y y ) 5 ( y g y ) 70 g 1 g 1 i1 1 g 1 ( y ) i y 61 그룹간변동 ( y) 9 g 그룹 내변동 i1 yg i 107
3.4 분산분석 ) 기본모형 자료구조 그룹1 그룹 그룹k... y 11 y 1 y 1 y y k1 y k 평균... y 1n1 y1... y n y...... y knk y k 총평균 y 모형 Yij i ij i ij i=1,, k j=1,, n i 여기서, m: 총평균, : 번째 i 처리효과, : 오차항 ij 108
3.4 분산분석 3) 총변동의이해 총편차의분해 y ij y (y ij y i ) (y i y) 총변동의분해 k n i1 j1 (y i y) k n i1 j1 (y i y) k n i1 j1 (y ij y i ) 전체제곱합 (TSS)= 처리제곱합 (SST)+ 잔차제곱합 (SSE) 109
3.4 분산분석 4) 분산분석표 (ANOVA Table) 분산의요인제곱합자유도평균제곱분산비 처리 (Treatment) SST k-1 MST F=MST/MSE 오차 (Error) SSE N-k MSE 전체 (Total) TSS N-1 F- 검정 : k 개집단간의반응변수의평균차이가있는가를검정 귀무가설 H 0 : 1 k 검정통계량 : F MST MSE SST/(k -1) SSE/(N - k) 110
3.4 분산분석 5) 다중비교 다중비교의필요성 - T- 검정은제 1 종오류 (type I error) 를크게한다. P( 제 1 종오류 ) = 1 (1 ) (1 0.05) 1 0.86 0.14 다중비교방법들 - LSD, TUKEY, DUNCAN, BON, SCHEFFE, WALLER TUKEY : 다중비교에있어서의실제유의수준은 보다 약간작게된다. 어느두수준의평균값의차이가근소할때이를민감하게검출하지못한다는단점이있다. DUNCAN : 두평균값의차이를검출하는데있어서 TUKEY의방법보다약간더민감하다. 111
연습문제 1. ( 예제 1) 보험자료에대하여나이를다음과같이 3 그룹으로나누어각그룹별로 보험가입금액과월수입의평균과표준편차를구하라. 그룹 1: 나이 35세미만그룹 : 35-50세그룹 3: 51세이상 ( 참고 : 분석 - 평균비교 - 집단별평균분석절차를이용하기바람 ). 어떤화학약품의제조에상표가다른 종류의원료가사용되고있다. 각원료에서주성분 A 의함량은다음과같다. 단, 함량들은정규분포를따른다고가정한다. 이두원료의주성 분 A 의함량이다른가를분석하라.( 화학제품함량 ) 11
연습문제 3. 특정피임약이사용자의혈압을저하시키는가조사하고자한다. 이를위해 15 명의부인들을대상으로평상시혈압을측정한뒤이들에게이피임약을일정기간사용하게한후이들의혈압을다시측정한결과를기록했다. 얻어진데이터는다음과같다. 피임약복용이혈압에영향을주는가분석하라. 113
연습문제 4. 어떤화학조미료의개발연구를행한결과방법 1 과 중에하나를선택하기로하였다. 원료 10 로트에대하여 pilot plant 에서실험결과다음수확량의데이터 (kg) 를얻었다. 방법1 7 70 84 78 81 75 8 64 79 88 방법 81 5 80 70 86 77 80 63 75 83 차이 -9 18 4 8-5 - 1 4 5 (1) 수확량이더많은방법은무엇이냐? 어떤검정을실시하여야하는가? () 위의검정을 Paired t-test로하지않고, 독립 t-test를실시한다면어떤결과가얻어지느냐? 검정하여보아라. (3) 방법1, 에의한수확량모평균의 95% 신뢰구간을구하여이들을비교하여보아라. 어떤정보가얻어지느냐? 114
[ 연구데이터분석 ] 1. 상관분석. 회귀분석 3. 단순회귀분석예제 4. 중회귀분석 5. 중회귀분석예제 제 4 장 상관및회귀분석
4.1. 상관분석 상관회귀분석 의의 변수 (x 1 ) 와변수 (x ) 사이또는 X 와 Y 사이에 분석목적 얼마만큼의관련성이있는지알아보고 상관분석 함수관계를도출하고출력변수를예측 회귀분석 이들간에는얼마나강한관계가있을까? 이들간에는어떠한관계식이있을까? 관련성확인 ( 예 ) 지능지수 vs 학업성적 흡연량 vs 폐암발생률 공정온도 vs 제품강도 116
4.1. 상관분석 1) 상관계수 필요성 상관관계는두변수들사이에얼마만큼의관련성이있는지를수치적으로알아볼수있다. 두변수사이의연관성의강도는상관계수 ( r ) 를이용하여계수화 보통 Pearson s product moment 상관계수를사용한다. 음의 상관 무상관 양의 상관 -1.0 0 +1.0 의사결정점 상관계수 ( r ) : 두변수의상호의존관계를양적으로나타내는척도 117
4.1. 상관분석 상관계수의성질 r 값이 (+) 이면양의상관관계 () 이면음의상관관계 0 에가까우면상관관계없음 Y Y r 이 -1 에근접 x r 이 +1 에근접 x 상관관계를조사하기위해서는데이터구조가순서쌍으로이루어진이변량데이터구조가요구된다. 118
4.1. 상관분석 모상관계수 (Correlation Coefficient) 일반적으로 로표시하며그범위는 1 1 이다. 그러나 의정확한값은알수없다. 따라서샘플로부터추정한값 표본상관계수 r 을사용한다. r 은다음식에의해구해지며, 언제나 -1 r 1 이다. 표본상관계수공식 ˆ r ( xi ( x i x) x)( y i y) ( y i y) 119
4.1. 상관분석 상관관계유형 강한양의상관관계 중간정도의양의상관관계 약한양의상관관계 r = 0.936 r = 0.560 r = 0.339 x 강한음의상관관계 중간정도의음의상관관계 약한음의상관관계 10
4.1. 상관분석 ) 상관분석의함정 Y 와 X 간에상관이있다는것을입증했다하더라도, 이것이반드시 Y 의변동이 X 의변동에의해서초래되었다는것을의미하지는않는다. X 와 Y 모두에변동을초래하는제 3 의변수가 숨어 있을수있다. 두변수간에관계가있다는결론이인과관계를의미하는것은아니다. 표본상관계수의값이 0 에가깝다는것은두변수사이의직선관계가약하다는뜻이지, 반드시두변수사이에관계가없음을뜻하는것은아니다. >> 상관관계가있다고해서반드시인과관계가있는것은아니다. 상관은인과관계를파악하는것이아니다! 11
4.1. 상관분석 M 제품의면을다듬기위하여 Lapping을하고자한다. Lapping시 Diamond powder를사용하는데 Powder의사용량에따라 Lapping된높이를알고싶어한다. 이를알아보기위하여여러번의실험을하였는데, 이자료의산점도를구해보고표본상관계수를구하시오. < 래핑데이터.sav> 항상데이터를그래프상에타점하는산점도수행을먼저실시. 그런다음, 선형관계가보이면상관분석을실시. 1
4.. 회귀분석 회귀분석이란? 필요성 회귀분석은입력변수 (X) 들이출력값 (Y) 에미치는영향을예측하고자할경우에그관계를함수관계 ( 회귀식 ) 와결정계수로나타내어분석하는방법론. 이를통해출력값 (Y) 에어떤인자가얼마만큼의영향을미치는지알아내어우리가원하는출력값을얻기위하여는 X 를어떤수준으로얼마만큼관리해야되겠다는정보를알수있도록해줌 회귀방정식 입력변수의값을사용해서이에상응하는출력값에대한예측을할수있게끔해주는예측방정식이다. 결정계수 ( 기여율 ) R, 회귀모형의적합성또는총변동중에서회귀식에의해설명된변동의비율을나타낸다. 13
4.. 회귀분석 특성요인도 원인 ( 설명, 독립 ) 변수 결과 ( 반응, 종속 ) 변수 재료 설비 함량촉진제량 시간속도 온도습도 농도압력 환경 방법 회귀분석 사용자의요구특성 수율 도금두께 F/L ( 휘도 ) 저항등등.. 원인과결과의관계를식으로알아냄 14
4.. 회귀분석 종류특징모형 단순회귀 (Simple Regression) 곡선회귀 (Curvilinear Regression) 중회귀 ( Multiple Regression) 다항회귀 ( Polynomial Regression ) 독립변수가 1 개이며, 종속 변수와의관계가직선이다 독립변수가 1 개이며, 종속 변수와의관계가곡선이다 독립변수가 k 개 (x 1, x,,x k ) 이며, 종속변수와의관계가선형 (1 차함수 ) 이다. 독립변수가 k 개 (x 1, x,,x k ) 이며, 종속변수와의관계가 1 차함수이상이다. ( 단, k=1 이면 차이상 ) Y=α+ βx + ε 차곡선인경우 : Y=α+ β 1 x+ β x + ε 3차곡선인경우 : Y=α+β 1 x+ β x + β 3 x 3 + ε Y=α+ β 1 x 1 + β x +... + β k x k +ε k=이고 차함수인경우 : Y= α+β 1 x 1 + β x + β 11 x 1 + β x + β 1 x 1 x + ε 비선형회귀 ( Nonlinear Regression) 회귀식의모양이미지의모수 β i 의선형관계로이루어져있지않다. 예 : Y= αe - βx + ε 15
4.. 회귀분석 1) 단순회귀분석 - 하나의독립변수 (X) 와하나의종속변수 (Y) 간의관계를직선방정식화하여나타내기위한방법. Model y y i X i i ( x i, yi ) Independent & Identically Distributed ( 독립이고같은분포를따른다.) 여기서, i ~ N(0, ) : Unknown constant ( 미지상수 ) ŷ = a+bx (Sample 을통해추정한직선 ) i ei E (Y i )= α+βχ ( 미지의참직선 ) x 16
4.. 회귀분석 최소제곱법에의한단순회귀 오차제곱합을최소로하는추정방법 40 410 400 390 380 370 360 350 340 330 30 단순회귀직선 회귀직선과의차이 ( 오차 ) 직선은 최소제곱추정법 (least square estimation) 의원칙에따라그려진다. 자료점에서직선 (y 축에평행 ) 까지거리의제곱의합은최소화된다. 350 400 450 독립변수 17
4.. 회귀분석 회귀방정식 Scatter Plot Y vs.x with Fitted Line Y = a + bx 직선의방정식은 Y = a +bx b a 는 Y- 절편 (x=0 에서 ) 이고 b 는 기울기임 e 실제자료점들과직선사이의 다. 차이는잔차 (residuals(e)) 라고불린 18
4.. 회귀분석 ) 변동의분해 단순회귀분석에서각관측값 y i, i =1,,n 가관측값의평균 y y i y 로부터떨어진정도를다음과같이나타낸다. y i y (y i ŷ i ) (ŷ i y) 19
130 - e i ( 잔차,Residual) 의제곱의합을최소로하는직선을찾는다. n i i i n i i i n i i bx a y y y e SSE 1 1 1 ) ( ) ( a 와 b 에대해 SSE 를편미분연립방정식을 a 와 b 에대해정리 n i i bx i a y a SSE 1 0 ) ( ) ( n i i i i x bx a y b SSE 1 0 ) ( ) ( 1 1 1 1 1 n i i n i i n i i n i n i i i i x x n y x y x n b n x b y a n i i n i i 1 1 i bx i a Y x y 측정된값 ), ( i x i y i bx i a Y 추정한값 ), ( i x i y 4.. 회귀분석최소제곱법 (Least Squares Method) 에의한모수추정
4.. 회귀분석 앞의식의양변을제곱하여합한뒤정리하면다음과같다. SS T 회귀에의하여설명되는제곱합 : SS R R 오차에의한제곱합 : SSES E < 특성치 (Y) 의총제곱합분해 > n n n ( y ) ( ˆ i y yi yi ) (ˆ yi y i1 i1 i1 총제곱합 (SS T ) 잔차 ( 오차 ) 제곱합 (SS E ) ) 회귀제곱합 (SS R ) 총제곱합가운데회귀선에의한제곱합 (SSR) 이차지하는비율 R 을회귀직선의기여율또는결정계수또는 R 값이라고부른다. 또한정도를높게판단하기위해서회귀변동에서오차분산을뺀순수한회귀변동 R (adj) 를사용하기도한다. R = SS R / SS T ; R (adj) = (SS R MSE) / SS T 또는 R (adj) = 1 - [(SS E /df E )/(SS T /df T )] 131
4.. 회귀분석 자유도 ( 또는 df ) 는다른것으로설명될수없는독립된데이터제곱 의갯수이고제약조건이있으면제약조건의수만큼자유도는감소한다. 식자유도설명 n i1 y i n 독립된제곱항의수가 n 개 n i1 n i1 ( ) y i ( y i y) n n-1 독립된제곱항의수가 n 개제약조건이존재하지않음 제곱항의수는 n 개 n i1 ( y i y) 0 제약조건존재 13
4.. 회귀분석 H0 : 0 H1 : 0 일반적으로회귀직선에대한유의성검정은분산분석 (ANOVA) 을이용 요인제곱합자유도 평균제곱 F 값 p-value 회귀 SSR 1 MSR=SSR/1 MSR/MSE p{f f} 잔차 SSE n- MSE=SSE/(n-) 계 SST n-1 p-value 가유의수준 α 보다크면 H 0 를기각못함. 기각역을이용시 F 값이 F 1- α ( R, E ) 보다크면 H 0 를기각, 여기서 f 는 F 의관측값 133
4.. 회귀분석 3) 잔차 (Residual) 의검토 가정에서벗어난잔차의형태 (a) 등분산성에의심이가는경우 (b) 독립성및선형성에의심이가는경우 (c) 고려중인변수이외의다른변수가필요한경우 ( a ) ( b ) ( c ) 134
4.. 회귀분석 4) 변수변환에의한회귀모형적합 직선방정식이적합도 (R square 등 ) 가나쁜경우에다음과같은 변수변환을통하여더좋은방정식을만들수있다. log Y a bx Y a bx 1 a bx Y Y Y Y a blog x a b x 1 a b x Y e Y a blog a b x x 3 Y a bx Y a b5 x 135
4.3. 단순회귀분석예제 설명 ( 독립 ) 변수 (X) 가 1 개이며, 반응 ( 종속 ) 변수 (Y) 의관계가직선일때 예 촉진제의양에따른도금두께 ( 반응량 ) 의관계를알고자아래의데이터를 수집하였다. ( 단순회귀예제.sav) 실험번호 1 3 4 5 6 7 8 9 10 촉진제량 (X) 1 1 3 4 4 5 6 6 7 반응량 (Y).1.5 3.1 3.0 3.8 3. 4.3 3.9 4.4 4.8 136
4.3. 단순회귀분석예제 단순회귀는독립변수와종속변수의관계가직선일때, 즉독립변수가 증가함에따라종속변수가일정하게증가하거나감소할때사용한다. (1) 산점도 반응량 (Y) 5 4 3 1 0 1 3 4 5 6 7 독립변수 (X) 와종속변수 (Y) 의관계는직선. 촉진제량 (X) () 직선회귀모형설정 Yi = β0 + β1 X i + εi ( i = 1,,, 10 ) β0 : 절편, β1 : 기울기, X i : i 번째관측된 X 값, εi : 오차 137
4.3. 단순회귀분석예제 (3) 방정식 ( 회귀식 ) 적합 반응량 (Y) 5 4 3 1 0 1 3 4 5 6 7 촉진제량 (X) 참고 최소제곱법 (Least Squares Method) 실제 Yi 값과방정식에서 Yi ^ 의차이의제곱을최소로하도록방정식을추정하는방법 Yi 는실제관측된값, Yi 은추정된관계식에의한 i 번째 Y( 종속변수 ) 값으로 (Yi ^ ^ - Yi ) 의값이최소가되도록관계식을추정하는방법 138
4.3. 단순회귀분석예제 * 최소제곱법에의해추정된방정식 Yi = β 0 + β 1 X I Yi =.00 + 0.387 X i 혹은 Y =.00 + 0.387 X ^ β 0, β 1 : 최소제곱법으로추정된회귀계수값. Y i : 최소제곱법으로추정된방정식에서 i 번째 Y값. ( X i - X ) ( Yi - Y ) β 1 = = 0.387 ( X i - X ) β 0 = Y - β 1 X =.00 추정된방정식이데이터에잘적합되었는지를판정하여, 실무에적용할것인지를결정. 방법은분산분석표에의한 F 검정 139
4.3. 단순회귀분석예제 앞의과정을표로작성하여보자. 단순회귀의분산분석표 ( 유의수준 : α = 0.05) 요인제곱합 (SS) 자유도 ( ) 평균제곱 (MS) F 0 F (1-α) 회귀 오차 SSR (6.11) SSE (0.74) R (1) E (8) MSR (6.11) MSR / MSE MSE (0.095) (66.84) F 0.95 (1,8) = 5.3 P=0.000 계 SST (6.85) T (9) 결정계수 (R SSR 6.11 ) = = = 0.89 SST 6.85 SSR - MSE 6.11 0.095 R-sq( 수정 ) = = = 0.878 6.85 SST 총제곱합 (SS T ) 중에서 87.8% 가직선회귀식으로설명되고있다. 140
4.3. 단순회귀분석예제 회귀방정식 F 0 가 66.05이고 F (1,8 ; 0.05) = 5.3 보다크므로, 신뢰수준 95% ( 유의수준 0.05) 로직선회귀식 Y =.00 + 0.387X 는촉진제량 (X) 과반응량 (Y) 의관계를잘나타내며, 촉진제량은반응량에유의한영향을준다. Y Y =.00 + 0.387X 5 4 3 1 0 1 3 4 5 6 7 X 141
4.3. 단순회귀분석예제 추정된 Y 값. X 1 3 4 5 6 7 y.387.774 3.161 3.548 3.935 4.3 4.709 Y i ( 촉진제량 ( X ) 이 1일때반응량의추정값 ) =.00 + 0.387 X 1 =.387 실제관측된반응량.1과약간의차이가생긴다. 14
4.3. 단순회귀분석예제 수정된결정계수 분석결과해석 촉진제양 (X) 에따른반응량 (Y) 사이의 추정회귀식은 Y =.00 + 0.387 X 이다. 또한두변수사이의상관계수는 0.938 로상관관계가매우강하다. 단순회귀에서는상관계수의제곱이결정계수 R-sq 이다. 즉, 총변동중에서상기회귀직선으로설명될수있는변동량이 R-Sq = 89.% 이고, 오차를뺀순수한회귀변동량은수정된결정계수 R-Sq(adj) = 87.9 % 이다. 분산분석표를이용하여계산해보면, R-sq (adj) = SS R MSE 6.1114-0.09 = 100 = SS 6.8490 T 87.9% 143
단순회귀분석실습 10 명의입시생들의 3 월수리영역수능모의고사점수와 11 월수리영역수학능력시험점수가다음과같다고할때, 3 월모의고사점수로부터 11 월수능점수를예측하고자한다. 어떤분석이적절할것으로보이는가? ( 수능시험.sav) 모의고사점수 75 8 80 88 4 48 40 6 98 44 11 월수능점수 78 91 96 99 65 69 58 68 100 63 144
단순회귀분석실습 진통제의투여량에따라진통지속시간이어떻게변하는지알아보기위해진통제의여러수준에서실험한결과가다음과같다. ( 진통지속시간.sav) 투여량 (DOSE) 진통지속시간 (HR) 4 4 8 8 16 16 3 3 60 58 63 6 67 65 70 70 74 73 145
4.4. 중회귀분석 중회귀분석 (Multiple Regression Analysis) 이란? 설명 ( 독립 ) 변수의수가두개이상인경우에반응 ( 종속 ) 변수와의관계가 선형함수로작성된모델에대한분석. 주로사용되는회귀모형 단순회귀 곡선회귀 중회귀 설명 ( 독립 ) 변수 1 개와반응 ( 종속 ) 변수의관계가직선 설명 ( 독립 ) 변수 1 개와반응 ( 종속 ) 변수의관계가곡선 설명 ( 독립 ) 변수 개이상과반응 ( 종속 ) 변수의관계 변수선택에의한중회귀 설명 ( 독립 ) 변수가많을때, 중요한변수만찾아회귀방정식을적합시킴 146
4.4. 중회귀분석 1) 독립변수가 개인중회귀모형 Y i = β 0 + β 1 X 1i + β X i + ε i β 0, β 1, β : 회귀계수, X 1i : X 1 변수의 i 번째관측된값 ε i : 오차, X i : X 변수의 i 번째관측된값 ) 방정식 ( 회귀식 ) 적합 : 오차제곱합을최소로하는회귀계수를구한다. 오차제곱합 = n ( y x ) 0 1x i 1i i i1 147
4.4. 중회귀분석 독립변수가 개이상 ( X 1, X ) 이고, 종속변수 (Y) 와의관계를알고자할때 예 어떤공장에서하루에사용되는원료투입량 (X1) 과공정온도 (X) 와스팀의양 (Y) 이 어떤관계에있는가를알아보기위하여과거 5 일간의데이터를수집하였다. 다중회귀예제.sav, [ 단위 : X1( 톤 ), X( ),Y( 톤 )] X 1 X Y X 1 X Y X 1 X Y 35.3 9.7 30.8 58.8 61.4 71.3 74.4 76.6 70.6 57.5 0 0 3 0 1 11 3 1 0 10.98 11.13 1.51 8.40 9.7 8.73 6.36 8.50 7.8 9.14 46.4 8.9 8.1 39.1 46.8 48.5 59.3 70.0 70.0 74.5 0 1 1 19 3 0 11 3 8.4 1.19 11.88 9.57 10.94 9.58 10.09 8.11 6.83 8.88 7.1 58.1 44.6 33.4 8.6 0 1 0 0 7.86 8.47 8.86 10.36 11.08 148
4.4. 중회귀분석 변수선택방법 : 독립변수의수가많은경우에사용 입력 : 지정한변수를한꺼번에투입 전진 : 기준에따라변수를하나씩투입 (Forward selection method) 후진 : 모든변수를투입한다음, 기준에따라하나씩탈락 (Backward elimination method) 단계 : 각각의단계마다변수들을유의도에따라투입, 탈락 ( 가장일반적 : Stepwise Regression method) 149
4.4. 중회귀분석 예수율에영향을줄수있는독립변수들가운데, 중요한변수만 골라회귀식을만들고자한다. 데이터의수집독립변수 : 농도 X 1 (%), 온도 X ( ), 습도 X 3 (%), 시간 X 4 ( 분 ) 비중 X 5 (g/ cm3 ), 촉진제량 X 6 (g), 속도 X 7 ( m s ), 압력 X 8 (N/ m ) 종속변수 : 수율 (Y) 측정번호 X 1 X X 3 X 4 X 5 X 6 X 7 X 8 Y 15 17. 98 47.0.93 3 0.7 4 550 05.0 10.40 16 17. 8 460.0 3.00 3 0.7 4 544 15.0 10.40 17 17. 4 440.0 3.3 3 0.6 4 5345 30.0 14.70 18 19. 47 78.7 4.08 4 0.6 1 00 66.0 3.40 19 18.5 75.7 4.93 4 0.8 1615 5.0 30.40 0 19. 90 71.1 4. 4 0.7 1 1835 65.0 33.90 1 0. 01 10.1 3.70 3 0.7 1 465 97.0 1.50 150
4.4. 중회귀분석 선택되는변수의개수 선택되는변수의번호 F 0 C(p) R 1 X.7.7 0.60 X, X 3 6.9 3.6 0.741 3 X, X 3, X 5 3. 3.8 0.854 4 X, X 3, X 5, X 6 1. 5.7 0.864 5 X, X 3, X 5, X 6, X 8 15.1 6.8 0.87 결론 3번째회귀식이가장좋음. : F 0 와 R 값이크고 C(p) 는 (K( 변수 )+1) 에근접하는값은 3번째식으로, 변수의개수가 3개로적절하다. 중회귀방정식 ^ 변수선택에의한중회귀식 Y = 61.41-3.X +.94X 3 +.1X 5 151
4.5. 중회귀분석예제 자동차타이어의실내주행실험에있어서타이어에서발생되는열은다음과같은 5 가지변수에의하여영향을받는것으로알려져있다. X1 : 타이어에걸리는하중 X : 속도 (km/hr) X3 : Shoulder 의두께 (mm) X4 : 실내온도 X5 : 측정시간 (min) Y : 발열량 발열량에영향을미치는변수를찾고회귀모형을구축해보자. < 타이어.sav> OBS X 1 X X 3 X 4 X 5 Y 1 70 70 36.5 36 5 91 70 70 36.0 36 6 89 3 70 90 37.0 37 6 105 4 70 90 36.3 37 6 106 5 70 110 36.5 39 4 113 6 70 110 36.0 39 5 114 7 90 70 36.5 38 5 117 8 90 70 36.3 38 6 115 9 90 90 36.6 39 5 15 10 90 90 36.6 39 6 16 11 90 110 37.0 38 6 140 1 90 110 35.6 38 6 141 13 110 70 35.3 38 7 140 14 110 70 36.8 35 7 14 15 110 90 35.3 38 5 150 16 110 90 35.3 38 6 149 17 110 110 37.1 38 4 168 18 110 110 35.6 37 5 166 15
Q/A 아이티베인이현우 hyunwoo@itvane.co.kr, 010-545-1653 153