데이터마이닝 제 1강
|
|
- 회원 부
- 6 years ago
- Views:
Transcription
1 연구데이터분석기본과정 아이티베인이현우 0
2 [ 연구데이터분석기본과정 ] 제 1 장 기초통계 1.1 통계의이해 1. 통계학과자료분석 1.3 자료의정리및요약 1.4 확률분포 1.5 표본과표본분포 [ 부록 ] 연습문제
3 회사직원들의직업관과사내생활에대한만족도를조사하여전략적인커뮤니케이션과효율적인인사관리의자료를얻기위함 회사에대한평가 : Q1 조직에대한신뢰및존중 : Q, Q3, Q4 업무지원 : Q5 업무에대한흥미도 : Q6 기회의제공 : Q7 각각의개념은몇개의소문항으로구성되어있음
4 엔진제어모듈에서쓰이는미세한디바이스는리드 (lead) 사이의거리가 650micron(100 만분의 1m) 이다. 이리드는디바이스가외부와 연락 할수있게해주는작은선들이다. 로봇기계는이디바이스를집어서회로판에갖다놓는역할을한다. 조사의일환으로특정한형태의미세한디바이스가서로다른네가지속도로회로판에놓여지고이러한시행이각속도별로 16번측정하여한쪽방향으로치우침정도의결과값이다. 기계속도와치우침의정도사이에관계가있는가? 3
5 다음 Data 는어떤기계의사용빈도와그기계의수리비용이다. 사용빈도가 기계의수리비용에영향을주는가? 4
6 1.1 통계의이해 통계학 (Statistics) 의정의 State + Arithmetic ( 국가 + 산술 ) 의의미로시작 관심의대상에대한자료를수집, 자료에여러가지통계적기법을적용하여정보를추출, 관심의대상에대한특성을파악, 의사결정을지원해주는학문 자료, 표본 Sample 측정 (MSA) 자료분석 process 표본설계, 실험설계 모집단 추론 모수추정 (, ) 가설검정 ( Z, t, F ) 5
7 1.1 통계의이해 통계학 (Statistics) 의정의 불확실하에서현명한의사결정을위해필요한자료를수집, 분석하여유일한수자적정보를제시하고통계적법측을발견하는이론과방법을연구하는지식체계 - 통계학의정의 - 통계의어원 Statistic( 단수 ) - 평균치, 지수, 표준편차, 상관계수등과같이통계집단의특성치 Statistics( 복수 ) - 통계자료 Status Statista 라틴어의 상태 이탈리아의 정치학 State arithmetic( 국가산출 ) 역사적으로정치가들이국가의살림을꾸려나가기위하여필요한숫자를체계적으로산출해내는데서유래 6
8 1.1 통계의이해 7
9 1.1 통계의이해 얼마나많이숫자와접하고있나? 숫자를써서공격하라. 영국의수상벤저민디즈레일리 (1804~1881) There are three types of lies - lies, damn lies, and statistics. 우리나라사람들이숫자에약한이유 통계 : 관심의대상을정리, 숫자로표현한것 8
10 1.1 통계의이해 통계를잘못사용하고있는사례 : 여론조사 전수조사, 표본조사 표본조사방법 : 우편, 면접, 전화, 인터넷 장님코끼리만지기 1936년미국대통령선거 공화당의랜던, 민주당의루즈벨트 Literary Digest 1000만명의유권자에게설문지우송, 30만명에게회신 결과 : 랜던의여유있는승리 가장유명한실수 원인 : 잡지의정기구독자, 전화번호부 9
11 1.1 통계의이해 통계를잘못사용하고있는사례 : 너무정확한통계 오스트리아재무부의공식출판물 1951년도잘츠부르크인구가전체인구의 % 로치 (Hal Roach) 라는코메디언 - 자연사박물관 벽제의공동묘지를다녀간인원 1시까지 7,865명, 이후,376명 너무정확한표현은? 10
12 1.1 통계의이해 통계를잘못사용하고있는사례 : 잘못된해석 미국의한조사발표교회에다니는사람들은결혼생활을계속유지한다. 이혼소송중인 95% 가부부중한사람혹은둘다교회에정기적으로가지않는다. 이혼소송중인부부 / 결혼생활을유지하는부부 모집단의크기문제 충청권 비충청권 전체 찬성율 모집단크기 10,000 90, ,000 응답자수,000 3,000 5,000 찬성 1, ,700 54% 실제 9,000 7,000 36,000 36% 11
13 1.1 통계의이해 통계를잘못사용하고있는사례 - 매개변수 미국의껌판매량과범죄수의관계 교회의수가늘어나면범죄발생률도증가? 우유를많이마시면암에걸릴확률이증가 우유를많이소비하는미국의북부, 중부남부 많이마시지않는스리랑카 우유를많이마시는영국여자가일본여자들보다 18 배나더많이암에걸린다. 첫번째 : 수명이길다. 노년층이많다. 두번째, 영국여자의평균수명이일본여자보다 1 세길다. 미국메샤추세츄의장로교목사의월급과쿠바하바나의럼주가격간에는높은상관관계 우리나라냉장고의보급률과위암환자의수는큰상관관계 1
14 1.1 통계의이해 심프슨의파라독스 경증 항암제 생존 사망 합계 생존률 New % Old % 전체 중증 항암제 생존 사망 합계 생존률 New % Old % 전체 실제 항암제 생존 사망 합계 생존률 New % Old % 전체
15 1.1 통계의이해 확률의의미 확률의의미 P(A) : A라는사상이일어날확률? A : 동전을던졌을때앞면, 비가온다 야구타율 : 3할 어느의사 - 수술성공률 1% 딸만일곱낳은사연 % 와 % 포인트 평균, 중앙값, 최빈수 1994년미프로야구파업 구단주 : 평균연봉 9억원 CBS의여론조사 : 구단주지지 43%, 선수 % 700여명의메이저리그의평균연봉 : 9억원 중앙값 : 3억원, 최빈수 : 억여원 14
16 1. 통계학과자료분석 통계학의분류 통계학의과거와현재 기술통계 : 자료를표와그림으로표현 통계적의사결정단계 ( 추론통계 ) 자료를통하여모집단에대한어떤특성을 일반화하는방법 15
17 1. 통계학과자료분석 1) 데이터의중요성 데이터의수집과정리 Garbage in, garbage out! 연구와분석의목적을명확히해야한다. 분석의목적에부합하는데이터를수집해야한다. 데이터는정밀하게검사되고분석에적합하도록정리되어야한다. 16
18 1. 통계학과자료분석 1) 데이터의중요성 오류값 (Error) : 변수가가질수없는값, 변수값의불가능한조합, 일관성없는코드값, 잘못된코드값. 특이값 (Outlier) : 정상이아닌자료값. 특이값은오류값일수도있고그렇지않을수도있다. 결측값 (Missing) : 원인과기록방법을정밀하게조사하여자료를정정하고기록방법을변경해야하며, 필요시에는자료를보정해야한다. 사례 x1 x x3 x4 x Good Good Bad Reject NA Good Bad Good Good Good Good
19 1. 통계학과자료분석 ) 분석방법 기술통계학 (Descriptive Statistics) 방대한자료를그래프나몇개의숫자로요약하여, 그자료의전반적인내용을 쉽고빠르게파악할수있는기법을다루는통계학. 추측통계학 (Inferential Statistics) 관심의대상이되는전체집단 ( 모집단 ) 으로부터모집단의일부를추출하여관측된 ( 표본 ) 내용을근거로하여모집단의전체특성을추측하고검정 ( 추론 ) 하는통계적방법을다루는통계학 18
20 1. 통계학과자료분석 ) 분석방법 관심의대상이되는모든개체의집합을모집단이라고하며, 모집단에서조사대상으로채택된일부를표본이라고한다. 모집단 샘플링 표본 검정 모집단의특성 : 모수평균 µ 분산 표준편차 추정량 추정 표본의특성 : 통계량평균 X 분산 S 표준편차 S 모집단의모수를정확히계산할수있다면문제가없으나, 이를알기어려운상황에서는표본에서계산된통계량을바탕으로모수를추정한다. 19
21 1. 통계학과자료분석 Data 의구분 정량적특성 (Quantitative Characteristic) 크기를수치로나타낼수있는특성 1) 이산특성 (Discrete Characteristic): 불연속적인특성예 : 공정상의결점수, 부적합수, 고객불만건수등 ) 연속특성 (Continuous Characteristic): 연속적인특성예 : 제품두께, 반사율, 점도, 밀도, 제품강도 (Strength) 등 정성적특성 (Qualitative Characteristic) 크기를특성 (Attribute) 으로나타낼수있는특성 1) 분류특성 (Classified Attribute): 여러가지로구별되는특성예 : 제품 Type, 제품색상, 제품등급등 ) 양자특성 (Go/No-go Attribute): 두가지로나눠지는특성예 : 합격 / 불합격, 양품 / 불량등 0
22 1. 통계학과자료분석 자료의종류 자료의데이터종류 정성적데이터데이터 정량적데이터데이터 명목척도 (Nominal Scale) 순서척도 (Ordinal Scale) 구간척도 (Interval Scale) 비율척도 (Ratio Scale) 이산형자료 (Categorical 데이터 Data) 연속형자료 (Continuous 데이터Data) 1
23 1. 통계학과자료분석 이산형자료 명목척도 (Nominal Scale) 어떤범주에대해단지명목상수치를부여한척도 예 ) 성별 : 남자 =1, 여자 = 이뇨제의종류 : 다이아자이드, 라식스, 알닥튼, 로졸 빈도분석, 교차분석, 원도표, 막대도표범주형데이터분석 순서척도 (Ordinal Scale) 범주에대해속성의순서에따라수치를부여한척도 예 ) 건강상태 : 양호 =3, 보통 =, 나쁨 =1 각종점수학력 : 초등졸이하 =1, 중졸 =, 고졸 =3, 대졸 =4, 대학원이상 =5 빈도분석, 교차분석, 범주형자료분석, 다변량분석
24 1. 통계학과자료분석 연속형자료 구간척도 (Interval Scale) 절대 영 (Absolute zero) 이없으며, 대상이갖는양적인정도의차이에따라등간격으로수치를부여한척도 예 ) 온도 : 섭씨 0, 50, 100 물가지수, 산업생산지수, 무역수지등 수학적의미 : (A-B)+(B-C)=A-C, 표현 : 온도차, 물가지수상승, 두배로덥다? 기술통계, 집단간평균비교, 회귀분석, 다변량분석 비율척도 (Ratio Scale) 절대 영 이존재하며, 비율계산이가능한수치를부여한척도예 ) 광고비, 판매량, 매출액, 무게, 가격, 소득등 수학적의미 : 사칙연산이가능함 기술통계, 집단간평균비교, 회귀분석, 다변량분석 3
25 1. 통계학과자료분석 기술통계분석 자료의데이터요약 표데이터, 도표 데이터수치 막대그래프, 히스토그램등 산점도, 상자그림 중심위치 (centroid) 측도 산포에관한측도 시각적효과큼 1개의수치로요약 ( 주관적데이터해석가능 ) ( 객관적데이터결과제시 ) 4
26 1.3 자료의정리및요약 1) 자료의시각적정리 막대그림 (Bar Chart) 이산형자료일경우각자료값의도수 ( 또는상대도수 ) 를같은폭의막대로표현한그림 수평축은일정한폭을지닌수직막대를통해비교할항목을나열 수직축은막대의높이 ( 자료값의도수 ) 에의해양을표시 [ 막대그림 ] A B C 5
27 1.3 자료의정리및요약 1) 자료의시각적정리 원그림 (Pie Chart ) 원을자료값의상대도수에비례하도록조각으로나누어표현한그림 전체에있어서각항목들의상대적인점유량을표시 신문이나잡지에서많이사용하는그림 도수설정, 구간조정가능, 정리된자료도표현가능 [ 파이차트 ] 6
28 1.3 자료의정리및요약 1) 자료의시각적정리 산점도 (Scatter Plot) 두연속형자료에대하여 X 축, Y 축으로하여좌표값을점으로표시 두연속형자료의관계를분석하는데매우효율적 [ 산점도 (S) ] 58 RPM 56 Y RP M_X
29 1.3 자료의정리및요약 1) 자료의시각적정리 산점도행렬 (Scatter Plot Matrix) 여러개의변수에대하여산점도를동시에그려주는그림 같은변수의해당그림은산점도대신히스토그램으로표현 [ 행렬도 (M) ] RPM# # # # # # # # # # # # Y R PM_X # # # # X
30 1.3 자료의정리및요약 1) 자료의시각적정리 줄기잎그림 ( Stem -and -Leaf Plot) Raw Data 의정보를그대로유지하면서관측값의범위, 분포형태, 집중도등의전반적인분포형태를보여준다. Data 수가많으면오히려분포의형태를파악하기가어렵다. [ 줄기 - 잎 - 그림 (F) ] 9
31 1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 제일사분위수 (Q1) 와제삼사분위수 (Q3) 를네모상자 ( 사분위수 ) 로 연결하고중앙값을상자안에표시하여분포의형태파악 자료분포의대칭성, 자료의중심위치, 산포의정도, 극단점, 이상치등분포파악에효과적으로이용되는통계그림 여러집단의비교에많이이용 [ 상자그림 (B) ] 30
32 1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 사분위수란? 전체 data 를작은것부터큰것으로순서대로나열을하고이것을 4 등분했을때그해당값 ( 세개 ) 을일컽는다 사분위수 사분위수 Q1 Q 3 사분위수 Q3 IQR = Q3 Q1 = Inter-quartile range( 사분위수범위 ) 좌측경계값 우측경계값 * * 아래쪽인접값위쪽인접값이상점 Q1 Q Q3 Q1-1.5 X IQR Q X IQR 31
33 1.3 자료의정리및요약 1) 자료의시각적정리 상자그림 (Box Plot) 3
34 1.3 자료의정리및요약 1) 자료의시각적정리 Histogram 데이터가산포를가지고있을때어떠한분포를하고있는가를알아보기쉽게발생빈도수를그래프로나타낸그림이다 히스토그램은데이터만으로알아보기어려웠던전체모습을간단하게알수있고데이터의평균이나산포의모습및크기를알수있다. 평가점수 Graph> Histogram score
35 1.3 자료의정리및요약 1) 자료의시각적정리 정규확률도 (Normal Probability Plot) 자료가정규분포를따르는지판단하는그림 백분위수 - 백분위수그림 (Q-Q plot) 방법을사용 정규분포일경우직선의형태. 그이외의분포는구부러진형태 [ 정규성검정 (N) ] 34
36 1.3 자료의정리및요약 1) 자료의시각적정리 파레토도표 (Pareto Chart) 불량, 고장등의발생건수를항목별로나눈후크기순서대로막대그림으로표시 계수형자료일때각범주에대한빈도를막대의높이로나타낸그림 불량품을발생시키는원인에대한영향정도를대략적으로파악할수있는도구 [ 파레토도표 ] %
37 1.3 자료의정리및요약 ) 중심위치측도 중심위치의측도 평균 (Average, Mean) : 관측값들의합을관측값의총개수로나눈것 중앙값 (Median) : Data 를크기순으로배열했을때한가운데위치하는값 최빈값 (Mode) : Data 중가장빈도가많은값 중심위치측도의특징비교 모집단의추정치로서의표준오차 : 평균이표준오차가가장적은안정성있는대표치 통계처리의다양성 / 계속성 : 대표치기능이상의다른정보를얻고자하는경우평균계산필수 계산의간편성 : 최빈값은분포상에서즉각적으로계산 자료의특성 : 좌우대칭이아닌극단적인산포를이루는자료는중앙값이가장합당 측정수준 : 명목변수는최빈치, 서열변수는중앙치, 등간변수와비율변수는평균사용 분포상의비교 : 자료분포가정규분포인경우평균, 중앙값, 최빈값이일치 36
38 1.3 자료의정리및요약 ) 중심위치측도 평균 (Mean ; μ,x) 관측값을모두합한후에관측수의총수로나눈것 관측된데이타의중심을측정하는대표적인통계량 극한값 (Outlier) 의영향을많이받음 x n xi i 1 n 중앙치 (Median) 측정된값들을크기순서대로정렬했을때중앙에위치하는값 ( 측정수가짝수이면중앙두개값의평균 ) 장점 : 극단적인값에대해왜곡되지않음단점 : 수학적특성이결여됨 최빈치 (Mode) 측정된값에서가장빈도가큰값 장점 : 가장빈도가큰값을보여줌단점 : 1) 수학적특성이결여됨, ) 경우에따라최빈값이없을수있음 37
39 1.3 자료의정리및요약 ) 중심위치측도의선택 대칭분포 왜도 n i1 x i s n 1 x 3 대칭 ( 왜도 (Skewness)=0 ) 빈도 연도최빈값 = 평균 = 중앙값 38
40 1.3 자료의정리및요약 ) 중심위치측도의선택 오른쪽으로긴분포 오른쪽으로긴꼬리 ( 양의왜도 ) 최빈값 중앙값 평균 39
41 1.3 자료의정리및요약 ) 중심위치측도의선택 왼쪽으로긴분포 왼쪽으로긴꼬리 ( 음의왜도 ) 빈도 평균 중앙값 최빈값 40
42 1.3 자료의정리및요약 3) 산포의측도 산포 ( 자료들이중심으로부터퍼져있는정도 ) 의측도 사분위범위 (Inter-Quartile Range) : 3 사분위수 (Q3) 1 사분위수 (Q1) 분산 (Variance) : 편차제곱의평균 표준편차 (Standard Deviation) : 분산의제곱근 변이계수 : 표준편차를비교할때절대수치보다상대수치가필요 ( ) X i N ( X i ) [ 표준편차 ] [ 분산 ] N CV [ 변이계수 ] ( ) X i N ( X i ) [ 표본표준편차 ] [ 표본분산 ] N CV [ 표본변이계수 ] 41
43 1.3 자료의정리및요약 3) 산포의측도 수치적해석 산포도 ( 퍼짐 ) 평균이용 분산 (variance), 표준편차 (standard deviation) 순서대로나열 - 범위 (range), 사분위수범위 (IQR) 자료에대한특성을언급하려면? 대표값과산포도를같이기술해야함 분산은차이큼 평균동일함 4
44 1.3 자료의정리및요약 3) 산포의측도 도표적해석 막대그래프 중심위치 : 5 분산 : 중심위치 : 5 분산 : A 그룹 B 그룹 43
45 1.3 자료의정리및요약 4) 첨도 첨도 (Kurtosis) : 자료들의분포형태가중심위치에서 어느정도뾰족한가를나타내는척도 정규분포보다뾰족한봉을갖는경우 : 양 ( + ) 의값 정규분포보다납작한봉을갖는경우 : 음 (-) 의값 첨도 n i1 x i x s n
46 1.3 자료의정리및요약 5) 산포를나타내는척도 범위 (Range ;R) 관측된데이터중최대값과최소값과의차이 범위 = 최대값 - 최소값 범위 = 최대값 - 최소값 분산 (Variance; σ, S ) 평균과각개별데이터의차이에대한제곱합의평균 데이타의흩어진정도를표현하는통계량 S = Σ(x-x) n -1 표준편차 (Standard deviation ; σ, S) 분산의제곱근 데이타의흩어진정도를표현하는보편적인통계량 S = Σ(x-x) n -1 S = R/d 45
47 1.3 자료의정리및요약 품질특성 제품의품질특성과산포 데이터번호 평균표준편차 GROUP GROUP 품질특성 데이터의산포 측정횟수 GROUP1 GROUP 46
48 1.3 자료의정리및요약 5) 탐색적자료분석 EDA : Exploratory Data Analysis 각종그림을그려본다. 점그림, 히스토그램, 상자그림, 산점도 자료의대표값을구한다. 중심 : 평균, 중앙값 산포 : 분산, 표준편차, 범위, 사분위수범위 기타 : 자료의개수, 최대값, 최소값, 제 1 사분위수, 제 3 사분위수 47
49 1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 1 엑셀 007 의옵션설정 007 버젼의형태이며 003 버젼에서는도구 -> 분석도구로 010, 013 버젼에서는홈메뉴에옵션항목선택 추가기능클릭 48
50 1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 3 분석도구클릭후이동버튼클릭 3 5 분석도구체크후확인 4 49
51 1.3 자료의정리및요약 6) 엑셀에서의통계분석기능 데이터분석기능옵션설정방법 데이터메뉴의우측상단에데이터분석메뉴가나타나면설정은성공 50
52 엑셀에서의통계분석 데이터분석기능옵션설정방법 데이터분석메뉴를클릭할경우아래와같이통계데이터분석창이뜬다원하는분석을수행 51
53 엑셀에서의통계분석 기술통계법의사례 입력범위를클릭후분석하고자하는데이 터를긁어서분석데이터선택 5
54 엑셀에서의통계분석 입력부분 : 분석하고자하는데이터를지정첫번째행이름표사용 : 분석변수의변수명이데이터의첫번째행에있을경우에사용 출력부분 : 분석결과을어디에제공할것인가를정리하고, 분석통계량에대한내용을지정출력지정 : 선택한셀부터출력결과제공새로운워크쉬트 : 새로운워크쉬트에결과제공새로운통합문서 : 새로운엑셀파일에결과제공요약통계량 : 필수적으로선택 대부분의통계분석에서동일한형태로사용되고있음 53
55 1.4 확률분포 확률변수 통계적실험 (Statistical Experiment) 비슷한사건의반복으로여러가지가능한결과가있을수있지만, 정확히무슨결과가발생할지는모르는현상은통계학의연구및응용대상이된다. 이런현상에대한통계학적연구를통계학적실험이라고한다. 표본공간 : 불확실성을구체적으로표현하는것으로서관찰가능한모든가능한집합. 이산형 / 연속형표본공간 ( 자료의구분과동일 ) 확률변수 (Random Variable) 표본공간을대상으로직접문제해결이곤란한경우표본공간을수직선위로변환 정의 : 표본공간에서정의된실수치함수 예 : 동전을 3 회던지는실험 이산형확률변수, 연속형확률변수 54
56 1.4 확률분포 확률변수란? 확률변수 함수 비교 - 분야 : 통계 - 표기 : X, Y, Z - 의미 : 개체속성들을실수값에대응시키는것 - 이산형확률변수, 연속형확률변수 - 분야 : 수학 - 표기 : y, f(x) - 의미 : 집합 A의원소를집합 B의원소에대응시키는것 확률분포 확률변수의값 ( 또는확률함수 ) 과 그에대응하는확률 ( 또는구간확률 ) 을대응시키는것 55
57 1.4 확률분포 확률변수란? 확률변수 확률분포 < 성별속성 > < 실수값 > <0~1 의확률값 > 남 여 수학에서의함수관계 56
58 1.4 확률분포 확률분포의종류 확률밀도함수 ( pdf: probability density function ) 확률변수 X의분포를나타내는함수 이산분포함수로는이항분포, 포아송분포등이있고, 연속분포함수로는정규분포, 카이제곱분포등이있다. 이산분포 pdf는보통 p(x) 로, 연속분포 pdf는보통 f(x) 로나타낸다. 이항분포 (Binomial Distribution) 실험을 n 번실시하여얻은실험결과중에 성공의회수 를 X 라할때 X가취할수있는값은 0,1,, n으로이항분포에따른다. n x nx 1p( x) p 1 p, x 0,1,,..., n x 1 E( x) np, V( x) np(1 p) 57
59 1.4 확률분포 포아송분포 (Poisson Distribution) 단위시간당발생하는한사건 ( 전화가걸려옴, 교통사고발생, 기계고장 ) 의수를조사 단위시간당 성공의회수 가평균 m 이라할때포아송확률변수 X= 단위시간당성공회수 의분포는 p( x) m x! 이항분포와포아송분포와의밀접한관계 e m x 평균 : E(X) = m, 분산 : V(X) = m n 이무한대에접근하고 p 가 0 에접근하여평균성공수 np=m 는일정한상수인경우에는이항분포는포아송분포로근사하게구할수있음. 포아송분포의사례 어느회사부서사무실에오전 9 시에서 10 시사이에걸려오는전화의수 어느교차로에서발생하는 1 일교통사고의수 옷감의단위길이당발생하는결점수 58
60 1.4 확률분포 지수분포 (Exponential Distribution) 신뢰성에서가장많이사용되는분포 시간이지남에따라고장률이일정한어떤제품이고장이일어나고다음고장이일어날때까지걸리는시간 확률밀도함수 f (t) e t,t 0 λ: 고장률 분포함수 ( 불신도함수 ) 및신뢰도함수 λ= λ=1 λ=0.5 F(t) t t 평균및분산 1 MTTF R(t)dt 0 1 Var(T) t 0 f (t)dt 1 e R(t) 1 F(t) e 고장률함수 - 지수분포의고장률은시간과는무관하게상수 (λ) - 평균수명 MTTF(θ) 와고장률 λ 는역수관계 백분위수 t p F(t p ) 1 e (t) t p f (t) R(t) p, t p 1 { ln(1 p)} 59
61 1.4 확률분포 정규분포 99.7% of data are within 3 standard deviations of the mean 95% within standard deviations 68% within 1 standard deviation
62 1.4 확률분포 정규분포 무한대의샘플을측정하여얻을수있는이론적인분포 분포의형태가종을엎어놓은모양이며, 평균값을중심으로좌, 우대칭으로 평균 (μ) 와분산 (σ ) 에의하여위치와산포가결정된다. 히스토그램은표본 (sample) 을사용하여작성된다. 표본통계 (x,s) 는표본에서계산된다. 히스토그램과표본통계를가지고이표본을추출한 모집단을나타내는곡선을만들어낸다. 표본데이터가정규분포를하고있으면정규분포곡선을이용하여정확한통계적인분석을할수있다. ( 추정통계의배경 ) 61
63 1.4 확률분포 정규분포와 6 시그마공정 공정의평균에서규격의경계치까지의거리가 표준편차 (σ) 의 6 배되는거리에있다는뜻. 규격하한 규격상한 % % % % % 99.73% 99.73% 95.45% 95.45% 68.7% 68.7% 158,650p pm -1σ +1σ 158,560p pm 1,350ppm -3σ +3σ 1,350ppm 평균 (μ) -6σ -5σ -4σ -3σ -σ -1σ +1σ +σ +3σ +4σ +5σ +6σ 0.001ppm -6σ +6σ 0.001ppm 6
64 1.4 확률분포 정규분포 표준정규값 Z X 평균이 0 이고표준편차가 1 인정규분포를표준정규분포라한다. X 가평균이 이고표준편차가 인정규분포를따를때, Z 는 평균이 0 이고표준편차가 1 인정규분포를따른다. 63
65 1.4 확률분포 중심극한정리 평균에대한중심극한정리 X 1, X n 을평균이 이고분산이 인모집단으로부터구하여진 표본이라하면, X 의분포는근사적으로 N( μ, σ / n ) 에따르고 x n 은근사적으로 N ( 0,1 ) 을따른다. 모비율에대한중심극한정리 X가 B (n, p) 이고 n이크면 p p 는근사적으로 N(0,1) 을따른다. p(1 p) n 여기서, p x n 64
66 1.4 확률분포 정규분포의연습 어느과수원에서수확되는사과의무게는평균 00g, 표준편차는 5g인정규분포를따른다고한다. 사과무게를 X라하면, 이과수원에서수확되는사과중무게가 150g 미만인것은하품으로, 60g 이상은상품으로간주한다고한다. 이과수원에서는일년에 15,000개의사과를수확한다고한다. (1) 이과수원에서예상되는하품사과의수는얼마인가? () 이과수원에서예상되는상품사과의수는얼마인가? (3) 사과의무게가 190g 에서 10g 사이에있는사과의수는얼마인가? 65
67 1.5 표본과표본분포 모집단 (Population) 조사하고자하는대상집단전체 전체조사는많은시간과비용소요 표본 (Sample) 조사하기위하여뽑은일부집단 조사대상모집단의부분집합 현재까지생산된모든쏘나타 차량의평균중량 000 년 4 월생산된쏘나타 차량중 50 대의평균중량 우리나라총유권자의정당별 선호도 전국의유권자 1,500 명을대상 으로조사한정당별선호도 66
68 1.5 표본과표본분포 표본추출 (Sampling) 사용이유 모집단전체를조사하는것이불가능하거나어려운경우 표본추출을통해모집단에대한효율적인정보수집 확률추출법 / 비확률추출법 확률추출법 모집단으로부터구성원을추출하는과정이무작위하게 이루어지는방법 비확률추출법 시간? 개월? 1 년? 비용? 1000 만원? 개인적인판단이나편의에따라모집단으로부터구성원을추출하는과정 표본으로부터모집단의결론에대한신뢰도가객관적척도가불가능 전체를다조사해? 67
69 1.5 표본과표본분포 Sampling 표본추출오차 / 비표본추출오차 표본추출오차 - 우연오차, 편의 표본선택방법과관련된오차 비표본추출법 잠재적인응답자들이동일한확률로뽑혔다고확신할수없음. 측정방법, 과정의부정확으로인한오차 측정계기의부정확, 측정기술의부족등으로인한오차 표본오차를추정할수없기때문에일반화하여사용할수없음. 단순랜덤화추출법 (Simple Random Sampling) 모집단에포함되어있는모든구성원이뽑힐확률을같게하여뽑는방법 주사위같은기구를사용하거나, 모집단이클경우난수표를이용 여러표본추출방법중에서가장기본이되며, 다른추출방법에응용이많이됨. 68
70 1.5 표본과표본분포 Sampling 층화추출법 (Stratified Sampling) 모집단의성격에따라여러개의층으로분류한다음각층에서단순랜덤화추출법에의해추출 층내에서동질성이높고층간에는이질성이높을때정확도가더높음. 집락추출법 (Cluster Sampling) 모집단이자연적으로나인위적으로집락 (cluster) 을형성하고있을경우 집락중몇개를랜덤하게선택하여전수를조사하는것 모집단이크고넓게퍼져있을때효과적 계통추출법 (Systematic Sampling) 공간적으로혹은시간적으로일정한간격으로추출하는방법 첫번째표본은랜덤하게추출하고두번째부터는일정한시간적 / 공간적간격을두고추출 경향성이나주기성이있는경우편의가클가능성이있음. 단순확률추출보다표본추출작업이용이하여비전문가도쉽게이용 단순확률추출법에비해일반적으로단위비용당얻는정보의양이더많음. 69
71 1.5 표본과표본분포 표본분포와표본오차 모수와통계량 모수 (parameter): 모집단의특성을나타내는수치로서고정된값이지만대부분은모르기때문에가정을하거나추정을한다. 예 ) 모평균, 모분산, 모비율 통계량 (statistic): 표본으로부터계산되는값으로서어떤개체가표본으로추출되냐에따라값은변한다. 예 ) 표본평균, 표본분산, 표본비율 표본분포란?... 정확한표현은통계량의표본분포는? 표준오차란? 정확한표현은통계량의표준오차는? 70
72 1.5 표본과표본분포 모수 (Population Parameters) 표본통계 (Sample Statistics) μ = 모집단평균 σ = 모집단표준편차 x = 표본집단평균 S = 표본집단표준편차 모집단 표본 (1) 표본 (3) 표본 () 註 ) 모수 (Parameter) - 표본관측에의하여구하고자하는모집단의특성값 71
73 1.5 표본과표본분포 여러가지표본분포들 카이제곱분포 정규분포를따르는모집단에서표본을추출했을때, 표본분산의분포가카이제곱분포이다. 모분산에대한추론, 범주형자료의분석등에유용하게활용 비대칭분포이며모수인자유도가변함에따라분포가달라짐 자유도가많아질수록정규분포에근사 df=1 df= df=4 df=6 0 x
74 1.5 표본과표본분포 여러가지표본분포들 t 분포 정규분포를따르는모집단에서표본을추출했을때, 표본표준편차를사용하여표본평균을 표준화한것은 t 분포를따름. 단하나의분포가아니라자유도가변함에따라분포가달라짐 자유도가 30 이상이면표준정규분포 N(0,1) 에근사 표준정규분포 t- 분포 0 73
75 1.5 표본과표본분포 여러가지표본분포들 F 분포 두정규모집단의분산비교에대한추론에사용하는분포 두모분산의비에대한통계적추론, 분산분석등에서유용하게활용 비대칭분포이며여러가지자유도에대한분포군이존재 자유도가커질수록정규분포의형태와유사 F (x) < 분자, 분모의자유도에따른 F 분포 > 1.0, , 10, x 74
76 [ 연구데이터분석 ] 제 장 가설검정과추정.1 추론통계개요. 가설검정.3 점추정과구간추정
77 .1 추론통계개요 추정이란? 모든자료를조사할수없는경우표본에서얻은결과를이용하여모집단을추측 모수 ( 모집단특성치 ) 추정에확률이핵심적인역할 표본은모집단을대표할수있어야함 표본추출의중요성 모집단에서표본을추출 모집단 표본 표본으로부터모집단을추측 추정 76
78 .1 추론통계개요 표본분포 모집단 < 표본추출 > 표본통계치 S 1 X 1 표본분포 S X xi 값들로구성 P S 3 S.. X 3 X.. S.. S k-1 S k X.. X K 1 X K 추출된표본으로부터구한평균값들은다를수있다. 어떤표본평균값은다른값들보다자주일어나며모평균에가까울수록자주일어난다. 표본평균값들의분포는모집단의평균을중심으로정규분포에접근한다. 77
79 .1 추론통계개요 점추정과구간추정 점추정 표본으로부터구한통계치를이용하여모수를특정한값으로추정 ( 측 ) 구체적인값으로추측하지만확률 ( 가능성 ) 에대한개념은전무 모수에대한구체적인가설이있는경우 : 점추정법을사용 10; x 9.9 만약라면? 구간추정 모수를추측하는데통계량의분포를이용, 통계치에오차한계를더하거나빼서모수가들어있을것으로예상되는구간을제시 구체적인가설을가지고있지아니하고표본정보로부터모수를추측하고자할때사용 78
80 .1 추론통계개요 신뢰구간의추정 중학수학의경우 : 참값의범위 근사값 오차한계 근사값 오차한계 참값 근사값 오차한계 통계학의경우 : 모평균 ( 참값 ) 에대한 95% 신뢰구간추정 모평균을모르는경우표본평균을이용하여신뢰구간추정 X X t t s s X X X X t t s s X X X X t t s s X X 79
81 .1 추론통계개요 예 ) 신뢰구간추정 ( x d, x d) 모평균에대한 95% 신뢰구간 : 이러한구간들이 5 개정도란의미! 이런구간들이약 95 개정도란의미! 95% 신뢰수준의의미 : 만일크기가 30 인표본을같은방법으로 100 번추출하여 (3,000 개체가추출됨 ) 각표본으로부터 100개의신뢰구간을구하면그중 95개정도의구간이모수 를포함함을의미 n 80
82 .1 추론통계개요 신뢰구간추정예 예 ) 00 년 1 월대통령선거예측조사결과 (SBS) 1. 점추정 나경원후보예측득표율 : 49.7% 기동민후보예측득표율 : 1.4% 오차의한계 ( 오차범위, 표본오차 ) : 3.1 %p. 구간추정 나경원후보에대한 95% 신뢰수준의구간 : ( , ) 기동민후보에대한 95% 신뢰수준의구간 : ( , ) 두후보에대한예측범위가겹치면 보합세로판단 81
83 .1 가설검정 고민방법 --- 보수적입장에서고민하기로함.. 기존입장과주장하고자하는입장이부딪힌다면아주특별한이유가없는한기존입장을생각하는경향. ( 새주장을받아들이는데는매우인색함 ). 항상그렇지는않음 보일수없거나, 힘든것을기존입장으로한다무죄와유죄 : 같다와다르다 : 독립이다와독립이아니다 : 정규분포를따른다와따르지않는다 :. 가설검정이론때문에 = 는반드시귀무가설에만포함된다. H 0 : μ=450 H A : μ>450 H 0 : 독립이다. H A : 독립이아니다 8
84 .1 가설검정 가설검정 (Hypothesis Testing) 평균에대한가설 표준편차에대한가설 Ho : μ 13.6 H1: μ < 13.6 H o: σa σ B H 1: σa > σb 83
85 .1 가설검정 가설검정의기본 귀무가설 (H0): 종래에믿어오던사실이나보편적인주장 대립가설 (H1): 새로운주장 귀무가설이 참 이라고가정하고, 그런다음이가설을채택하거나기각할수있는신빙성있는증거를데이터에서찾는다 귀무가설을기각한다면, 대립가설을채택한다 84
86 .1 가설검정 예제 : 통계적의사결정 H o 를기각할것인지아닌지를결정할때, 가지의사결정실수를할수있다 진실 H o 참 H o 거짓 당신의결정 H o 채택 H o 기각 맞음 제 1 종과오 (α 위험 ) 제 종과오 (β 위험 ) 맞음 85
87 .1 가설검정 예제 : 재판 진실 실제로무죄 실제로유죄 무죄이다 맞음 제 종과오 (β 위험 ) 결과 : 범죄자가자유의몸이된다 배심원의결정 유죄이다 제 1 종과오 (α 위험 ) 맞음 결과 : 죄없는사람이감옥에간다 86
88 .1 가설검정 유의수준 ( α) - 귀무가설 (H 0 ) 참인데도불구하고 H 0 을기각할확률의최대허용한계 기각역 - 귀무가설 (H 0 ) 을기각하는영역 - 검정통계량이기각역에있으면귀무가설 (H 0 ) 을기각하고대립가설을채택함 P 값 ( 유의확률 ) - 정의 : α 유의수준 P 값 채택역기각역검정통계량 ( Z o, T o ) 87
89 .1 가설검정 검정추정개념 검정 추정 귀무가설 ( H 0 ) 대립가설 ( H 1 ) H 0 채택또는기각판단으로모집단의평균과분산은같다, 또는다르다및커졌다 / 작아졌다등으로의사결정 점추정 : 모평균값은얼마일것이다 구간추정 : 모평균값은최소얼마내지최대얼마일것이다 88
90 .1 가설검정 가설의설정 (H 0, H 1 ) 유의수준의결정 ( 5%, 1% ) 채택역 / 기각역설정 자료 (DATA) 의수집및계산 검정통계량값의계산 ( 평균 : Z 0, T 0 : 분산 : χ 0, F 0, ) 통계적의사결정 H 0 의기각 H 0 의채택 여기서 o 는 observed 즉 계산된값 ( 관측한값 ) 을말하며이를검정통계량값이라한다 89
91 . 점추정과구간추정 모수 (Parameter) : 모집단의분포모양을결정하는수치적측도 ( 모평균, 모분산, 모표준편차, 모공분산, 모상관계수등과같이모집단의특징을나타내는대표값 ) 샘플 ( 표본 ) 추출 모집단모수 1, 모수, 샘플 ( 표본 ) 추정 추정의종류 - 점추정 : 모수의추정치가하나의값 ( 점 ) 으로주어지는추정 - 구간추정 : 모수의추정치가구간으로주어지는추정 90
92 . 점추정과구간추정 관심있는모집단의모수를하나의값으로추정하는방법 일반적으로모집단의모수중에서중요한것들로는평균, 분산, 표준편차등이있음 평균이 10 인모집단 크기 0 개의샘플추출 샘플데이타 모집단평균은 10.5 구분 평균 분산 모집단 (N) 1 1 N x 1 N i 1 N N i 1 ( x i ) s Sample(n) 1 x n 1 n 1 n n i1 i1 x i ( x i x) 91
93 . 점추정과구간추정 관심있는모집단의모수를구간으로추정하는방법 크기 0 개의샘플추출 평균이 10 인모집단 샘플데이타 구간추정의예 평균 (μ) 구간추정 분산 (σ) 구간추정 x 모집단평균은 95% 의확률로 9.5 와 10.5 사이에있음 z / ( n 1) s / 9 Known( 기지 ) σ x ( n 1) n x t / n 1) x ( Unknown ( 미지 ) σ ( n 1) s 1 / ( n 1) s n
94 . 점추정과구간추정 σ 기지 모집단 1 개 Z 0 = X μ 0 σ 0 / n X ± Z α/ σ 0 n 평균 Z 모집단 개 모집단 1 개 Z 0 = X A X B σ A σ + B n A n B T 0 = X μ 0 s / n σ A σ B X A X B ±Z α/ + n A s X ± t α/ ( φ) n n B σ 미지 T 모집단 개 (σ A = σ B ) T 0 = X A X B 1 n A + 1 n B s p X A X B ± t α/ (φ) 1 n A + 1 n B S p 모집단 개 (σ A σ B ) T 0 = X A X B s A s B + n A n B X A X B ± t α/ (φ*) s A n A + s B n B 93
95 [ 연구데이터분석 ] 제 3 장 비교분석 3.1 비교분석개요 3. 단일모집단평균 t-test 3.3 두모집단평균비교 t-test 3.4 분산분석
96 3.1 비교분석개요 예 ) 흡연집단과비흡연집단의폐암발생률의비교 ( 차이 ) 두치료약 ( 치료방법 ) 에따른치료율비교 ( 차이 ) 두회사의가전제품에대한선호도비교 ( 차이 ) 95
97 3. 단일모집단평균 t-test H0 : 1 H0 : 1 0 세가지방향 1) 두집단의데이터가서로연관 : paired T-test ) 두집단의데이터가서로독립 : T-test - 두집단의분산이서로같은지여부에따라분석방법이달라짐 3) 두집단의분산을알고있느냐? 모르느냐? 모른다면표본의크기가크냐작으냐? 즉, 중심극한정리를사용할수있느냐? 없느냐? 96
98 97 3. 단일모집단평균 t-test 두모집단의혹은성질이서로다른두집단의평균비교즉, 두집단의비교분석시주로사용 ), ( ~,,, ), ( ~,,, N iid Y Y Y N iid X X X n n Y X 의분포는? (0,1) ~ ) ( ), ( ~ N n n Y X n n N Y X 그런데, 모른다면? 1, 1) /( ) ( ˆ 1) /( ) ( ˆ n Y Y n X X n i i n i i
99 98 3. 단일모집단평균 t-test (0,1) ~ ) ( ), ( ~ N n n Y X n n N Y X 1) /( ) ( ˆ 1) /( ) ( ˆ n Y Y n X X n i i n i i ) 두모분산이같을경우 1 ) ( ~ 1 ) ( 1 ) ( ) ( ˆ ˆ ) ( n n t n Y Y n X X Y X n n Y X i i
100 3. 단일모집단평균 t-test 예 ) 설비 A 의수명 : 0.9,., 1.6,.8, 4., 3.7,.6 설비 B 의수명 : 1.4,.7, 1.8, 3.0, 3. A 수명 : 평균 =.57, 표준편차 =1.144 B 수명 : 평균 =.4, 표준편차 =0.783 t=0.548, p- 값 = t 0.05 (10)=.3 실습 99
101 3. 단일모집단평균 t-test(spss) ( 예제 1) 다음자료는모기업의일간전력최대사용량을정리한자료이다. 공휴일여부에따른최대수요값의차이가있는지분석하여라. 요일 공휴일여부 최대수요 최소기온 최대기온 평균풍속 최대풍속 강수량 토 일 월 화 수 목 금 토 일 월 화
102 3.3 두모집단평균비교 (SPSS) ( 예제) 두종류의사료가젖소의우유생산량에미치는영향의차이를조사하기위해서랜덤하게 8마리씩 A, B 두그룹으로나눈후 A 그룹에는사료 1을 B 그룹에는사료 를주면서 3주일동안의우유생산량을조사하였다. 두종류의사료가우유생산량에미치는영향이다르다고할수있는지를유의수준 5% 에서검정하여라. 101
103 3.3 두모집단평균비교 쌍체 ( 대응, paired) 표본검정 [ 예제 ]. S 사에서는직업훈련이근로자들의능률향상에효과가있는지를알아보고자한다. 독립표본 근로자 실시전 실시후 쌍체 ( 대응, 짝지어진 ) 표본 근로자 실시전 실시후 두실험설계의차이점은? 짝지어진표본은언제사용하는가? - 배제할기타변동요인이존재할때즉, 근로자들간의능률산포가클때 절차상다른점 - 근로자들간의능률산포를배제하기위해서, 각근로자의원래데이터가사용되지않고차이가사용, 차이는순수하게직업훈련의효과만을반영 10
104 3.3 두모집단평균비교 쌍체 (paired) 표본검정 데이터의차이계산 근로자 실시전 실시후 차이 가설설정 H 0 : µ A = µ B v.s. H 1 : µ A µ B T 0 s D D n ~ t( n 1) 검정통계량의값 (T0 = -0.79) 과 p-value 계산 1.6 T0 p value : 의사결정 : 직업훈련전후에능률에차이가없다라는 H 0 채택 103
105 3.3 두모집단평균비교 (SPSS) ( 예제 3) 자동차의휘발유에사용하는첨가제가주행거리에영향을미치는지알아보고자한다. 다섯종류의새차에대하여같은종류의차두대중에서한대를랜덤하게택하여, 첨가제를사용하고다른한대에는첨가제를사용하지않고서같은운전자가같은장소에서운전한결과다음과같은자료를얻었다. 첨가제를사용하는경우주행거리에차이가있다고할수있는지유의수준 5% 에서검정하여보자. 104
106 3.4 분산분석 일원분류분산분석 (one-way ANOVA) : 독립 ( 설명 ) 변수의개수가한개 다원분류분산분석 (multi-way ANOVA) : 독립 ( 설명 ) 변수의개수가두개이상 일변량분산분석 (univariate ANOVA) : 반응변수의개수가한개 다변량분산분석 (multivariate ANOVA) : 반응변수의개수가두개이상 공분산분석 (Analysis of Covariance) : 설명변수에연속형인공변량 (covariate) 이포함되어있는경우 105
107 3.4 분산분석 1) 원리 x : 전체평균 x : Group1 평균 x : Group 평균 x x x x x x 106
108 3.4 분산분석 1) 원리 x : 전체평균 x : Group1 평균 x : Group 평균 ( yg y ) 31 그룹1내변동 g ( y g y ) 78 g x x x x x x ( y y ) 5 ( y g y ) 70 g 1 g 1 i1 1 g 1 ( y ) i y 61 그룹간변동 ( y) 9 g 그룹 내변동 i1 yg i 107
109 3.4 분산분석 ) 기본모형 자료구조 그룹1 그룹 그룹k... y 11 y 1 y 1 y y k1 y k 평균... y 1n1 y1... y n y y knk y k 총평균 y 모형 Yij i ij i ij i=1,, k j=1,, n i 여기서, m: 총평균, : 번째 i 처리효과, : 오차항 ij 108
110 3.4 분산분석 3) 총변동의이해 총편차의분해 y ij y (y ij y i ) (y i y) 총변동의분해 k n i1 j1 (y i y) k n i1 j1 (y i y) k n i1 j1 (y ij y i ) 전체제곱합 (TSS)= 처리제곱합 (SST)+ 잔차제곱합 (SSE) 109
111 3.4 분산분석 4) 분산분석표 (ANOVA Table) 분산의요인제곱합자유도평균제곱분산비 처리 (Treatment) SST k-1 MST F=MST/MSE 오차 (Error) SSE N-k MSE 전체 (Total) TSS N-1 F- 검정 : k 개집단간의반응변수의평균차이가있는가를검정 귀무가설 H 0 : 1 k 검정통계량 : F MST MSE SST/(k -1) SSE/(N - k) 110
112 3.4 분산분석 5) 다중비교 다중비교의필요성 - T- 검정은제 1 종오류 (type I error) 를크게한다. P( 제 1 종오류 ) = 1 (1 ) (1 0.05) 다중비교방법들 - LSD, TUKEY, DUNCAN, BON, SCHEFFE, WALLER TUKEY : 다중비교에있어서의실제유의수준은 보다 약간작게된다. 어느두수준의평균값의차이가근소할때이를민감하게검출하지못한다는단점이있다. DUNCAN : 두평균값의차이를검출하는데있어서 TUKEY의방법보다약간더민감하다. 111
113 연습문제 1. ( 예제 1) 보험자료에대하여나이를다음과같이 3 그룹으로나누어각그룹별로 보험가입금액과월수입의평균과표준편차를구하라. 그룹 1: 나이 35세미만그룹 : 35-50세그룹 3: 51세이상 ( 참고 : 분석 - 평균비교 - 집단별평균분석절차를이용하기바람 ). 어떤화학약품의제조에상표가다른 종류의원료가사용되고있다. 각원료에서주성분 A 의함량은다음과같다. 단, 함량들은정규분포를따른다고가정한다. 이두원료의주성 분 A 의함량이다른가를분석하라.( 화학제품함량 ) 11
114 연습문제 3. 특정피임약이사용자의혈압을저하시키는가조사하고자한다. 이를위해 15 명의부인들을대상으로평상시혈압을측정한뒤이들에게이피임약을일정기간사용하게한후이들의혈압을다시측정한결과를기록했다. 얻어진데이터는다음과같다. 피임약복용이혈압에영향을주는가분석하라. 113
115 연습문제 4. 어떤화학조미료의개발연구를행한결과방법 1 과 중에하나를선택하기로하였다. 원료 10 로트에대하여 pilot plant 에서실험결과다음수확량의데이터 (kg) 를얻었다. 방법 방법 차이 (1) 수확량이더많은방법은무엇이냐? 어떤검정을실시하여야하는가? () 위의검정을 Paired t-test로하지않고, 독립 t-test를실시한다면어떤결과가얻어지느냐? 검정하여보아라. (3) 방법1, 에의한수확량모평균의 95% 신뢰구간을구하여이들을비교하여보아라. 어떤정보가얻어지느냐? 114
116 [ 연구데이터분석 ] 1. 상관분석. 회귀분석 3. 단순회귀분석예제 4. 중회귀분석 5. 중회귀분석예제 제 4 장 상관및회귀분석
117 4.1. 상관분석 상관회귀분석 의의 변수 (x 1 ) 와변수 (x ) 사이또는 X 와 Y 사이에 분석목적 얼마만큼의관련성이있는지알아보고 상관분석 함수관계를도출하고출력변수를예측 회귀분석 이들간에는얼마나강한관계가있을까? 이들간에는어떠한관계식이있을까? 관련성확인 ( 예 ) 지능지수 vs 학업성적 흡연량 vs 폐암발생률 공정온도 vs 제품강도 116
118 4.1. 상관분석 1) 상관계수 필요성 상관관계는두변수들사이에얼마만큼의관련성이있는지를수치적으로알아볼수있다. 두변수사이의연관성의강도는상관계수 ( r ) 를이용하여계수화 보통 Pearson s product moment 상관계수를사용한다. 음의 상관 무상관 양의 상관 의사결정점 상관계수 ( r ) : 두변수의상호의존관계를양적으로나타내는척도 117
119 4.1. 상관분석 상관계수의성질 r 값이 (+) 이면양의상관관계 () 이면음의상관관계 0 에가까우면상관관계없음 Y Y r 이 -1 에근접 x r 이 +1 에근접 x 상관관계를조사하기위해서는데이터구조가순서쌍으로이루어진이변량데이터구조가요구된다. 118
120 4.1. 상관분석 모상관계수 (Correlation Coefficient) 일반적으로 로표시하며그범위는 1 1 이다. 그러나 의정확한값은알수없다. 따라서샘플로부터추정한값 표본상관계수 r 을사용한다. r 은다음식에의해구해지며, 언제나 -1 r 1 이다. 표본상관계수공식 ˆ r ( xi ( x i x) x)( y i y) ( y i y) 119
121 4.1. 상관분석 상관관계유형 강한양의상관관계 중간정도의양의상관관계 약한양의상관관계 r = r = r = x 강한음의상관관계 중간정도의음의상관관계 약한음의상관관계 10
122 4.1. 상관분석 ) 상관분석의함정 Y 와 X 간에상관이있다는것을입증했다하더라도, 이것이반드시 Y 의변동이 X 의변동에의해서초래되었다는것을의미하지는않는다. X 와 Y 모두에변동을초래하는제 3 의변수가 숨어 있을수있다. 두변수간에관계가있다는결론이인과관계를의미하는것은아니다. 표본상관계수의값이 0 에가깝다는것은두변수사이의직선관계가약하다는뜻이지, 반드시두변수사이에관계가없음을뜻하는것은아니다. >> 상관관계가있다고해서반드시인과관계가있는것은아니다. 상관은인과관계를파악하는것이아니다! 11
123 4.1. 상관분석 M 제품의면을다듬기위하여 Lapping을하고자한다. Lapping시 Diamond powder를사용하는데 Powder의사용량에따라 Lapping된높이를알고싶어한다. 이를알아보기위하여여러번의실험을하였는데, 이자료의산점도를구해보고표본상관계수를구하시오. < 래핑데이터.sav> 항상데이터를그래프상에타점하는산점도수행을먼저실시. 그런다음, 선형관계가보이면상관분석을실시. 1
124 4.. 회귀분석 회귀분석이란? 필요성 회귀분석은입력변수 (X) 들이출력값 (Y) 에미치는영향을예측하고자할경우에그관계를함수관계 ( 회귀식 ) 와결정계수로나타내어분석하는방법론. 이를통해출력값 (Y) 에어떤인자가얼마만큼의영향을미치는지알아내어우리가원하는출력값을얻기위하여는 X 를어떤수준으로얼마만큼관리해야되겠다는정보를알수있도록해줌 회귀방정식 입력변수의값을사용해서이에상응하는출력값에대한예측을할수있게끔해주는예측방정식이다. 결정계수 ( 기여율 ) R, 회귀모형의적합성또는총변동중에서회귀식에의해설명된변동의비율을나타낸다. 13
125 4.. 회귀분석 특성요인도 원인 ( 설명, 독립 ) 변수 결과 ( 반응, 종속 ) 변수 재료 설비 함량촉진제량 시간속도 온도습도 농도압력 환경 방법 회귀분석 사용자의요구특성 수율 도금두께 F/L ( 휘도 ) 저항등등.. 원인과결과의관계를식으로알아냄 14
126 4.. 회귀분석 종류특징모형 단순회귀 (Simple Regression) 곡선회귀 (Curvilinear Regression) 중회귀 ( Multiple Regression) 다항회귀 ( Polynomial Regression ) 독립변수가 1 개이며, 종속 변수와의관계가직선이다 독립변수가 1 개이며, 종속 변수와의관계가곡선이다 독립변수가 k 개 (x 1, x,,x k ) 이며, 종속변수와의관계가선형 (1 차함수 ) 이다. 독립변수가 k 개 (x 1, x,,x k ) 이며, 종속변수와의관계가 1 차함수이상이다. ( 단, k=1 이면 차이상 ) Y=α+ βx + ε 차곡선인경우 : Y=α+ β 1 x+ β x + ε 3차곡선인경우 : Y=α+β 1 x+ β x + β 3 x 3 + ε Y=α+ β 1 x 1 + β x β k x k +ε k=이고 차함수인경우 : Y= α+β 1 x 1 + β x + β 11 x 1 + β x + β 1 x 1 x + ε 비선형회귀 ( Nonlinear Regression) 회귀식의모양이미지의모수 β i 의선형관계로이루어져있지않다. 예 : Y= αe - βx + ε 15
127 4.. 회귀분석 1) 단순회귀분석 - 하나의독립변수 (X) 와하나의종속변수 (Y) 간의관계를직선방정식화하여나타내기위한방법. Model y y i X i i ( x i, yi ) Independent & Identically Distributed ( 독립이고같은분포를따른다.) 여기서, i ~ N(0, ) : Unknown constant ( 미지상수 ) ŷ = a+bx (Sample 을통해추정한직선 ) i ei E (Y i )= α+βχ ( 미지의참직선 ) x 16
128 4.. 회귀분석 최소제곱법에의한단순회귀 오차제곱합을최소로하는추정방법 단순회귀직선 회귀직선과의차이 ( 오차 ) 직선은 최소제곱추정법 (least square estimation) 의원칙에따라그려진다. 자료점에서직선 (y 축에평행 ) 까지거리의제곱의합은최소화된다 독립변수 17
129 4.. 회귀분석 회귀방정식 Scatter Plot Y vs.x with Fitted Line Y = a + bx 직선의방정식은 Y = a +bx b a 는 Y- 절편 (x=0 에서 ) 이고 b 는 기울기임 e 실제자료점들과직선사이의 다. 차이는잔차 (residuals(e)) 라고불린 18
130 4.. 회귀분석 ) 변동의분해 단순회귀분석에서각관측값 y i, i =1,,n 가관측값의평균 y y i y 로부터떨어진정도를다음과같이나타낸다. y i y (y i ŷ i ) (ŷ i y) 19
131 130 - e i ( 잔차,Residual) 의제곱의합을최소로하는직선을찾는다. n i i i n i i i n i i bx a y y y e SSE ) ( ) ( a 와 b 에대해 SSE 를편미분연립방정식을 a 와 b 에대해정리 n i i bx i a y a SSE 1 0 ) ( ) ( n i i i i x bx a y b SSE 1 0 ) ( ) ( n i i n i i n i i n i n i i i i x x n y x y x n b n x b y a n i i n i i 1 1 i bx i a Y x y 측정된값 ), ( i x i y i bx i a Y 추정한값 ), ( i x i y 4.. 회귀분석최소제곱법 (Least Squares Method) 에의한모수추정
132 4.. 회귀분석 앞의식의양변을제곱하여합한뒤정리하면다음과같다. SS T 회귀에의하여설명되는제곱합 : SS R R 오차에의한제곱합 : SSES E < 특성치 (Y) 의총제곱합분해 > n n n ( y ) ( ˆ i y yi yi ) (ˆ yi y i1 i1 i1 총제곱합 (SS T ) 잔차 ( 오차 ) 제곱합 (SS E ) ) 회귀제곱합 (SS R ) 총제곱합가운데회귀선에의한제곱합 (SSR) 이차지하는비율 R 을회귀직선의기여율또는결정계수또는 R 값이라고부른다. 또한정도를높게판단하기위해서회귀변동에서오차분산을뺀순수한회귀변동 R (adj) 를사용하기도한다. R = SS R / SS T ; R (adj) = (SS R MSE) / SS T 또는 R (adj) = 1 - [(SS E /df E )/(SS T /df T )] 131
133 4.. 회귀분석 자유도 ( 또는 df ) 는다른것으로설명될수없는독립된데이터제곱 의갯수이고제약조건이있으면제약조건의수만큼자유도는감소한다. 식자유도설명 n i1 y i n 독립된제곱항의수가 n 개 n i1 n i1 ( ) y i ( y i y) n n-1 독립된제곱항의수가 n 개제약조건이존재하지않음 제곱항의수는 n 개 n i1 ( y i y) 0 제약조건존재 13
134 4.. 회귀분석 H0 : 0 H1 : 0 일반적으로회귀직선에대한유의성검정은분산분석 (ANOVA) 을이용 요인제곱합자유도 평균제곱 F 값 p-value 회귀 SSR 1 MSR=SSR/1 MSR/MSE p{f f} 잔차 SSE n- MSE=SSE/(n-) 계 SST n-1 p-value 가유의수준 α 보다크면 H 0 를기각못함. 기각역을이용시 F 값이 F 1- α ( R, E ) 보다크면 H 0 를기각, 여기서 f 는 F 의관측값 133
135 4.. 회귀분석 3) 잔차 (Residual) 의검토 가정에서벗어난잔차의형태 (a) 등분산성에의심이가는경우 (b) 독립성및선형성에의심이가는경우 (c) 고려중인변수이외의다른변수가필요한경우 ( a ) ( b ) ( c ) 134
136 4.. 회귀분석 4) 변수변환에의한회귀모형적합 직선방정식이적합도 (R square 등 ) 가나쁜경우에다음과같은 변수변환을통하여더좋은방정식을만들수있다. log Y a bx Y a bx 1 a bx Y Y Y Y a blog x a b x 1 a b x Y e Y a blog a b x x 3 Y a bx Y a b5 x 135
137 4.3. 단순회귀분석예제 설명 ( 독립 ) 변수 (X) 가 1 개이며, 반응 ( 종속 ) 변수 (Y) 의관계가직선일때 예 촉진제의양에따른도금두께 ( 반응량 ) 의관계를알고자아래의데이터를 수집하였다. ( 단순회귀예제.sav) 실험번호 촉진제량 (X) 반응량 (Y)
138 4.3. 단순회귀분석예제 단순회귀는독립변수와종속변수의관계가직선일때, 즉독립변수가 증가함에따라종속변수가일정하게증가하거나감소할때사용한다. (1) 산점도 반응량 (Y) 독립변수 (X) 와종속변수 (Y) 의관계는직선. 촉진제량 (X) () 직선회귀모형설정 Yi = β0 + β1 X i + εi ( i = 1,,, 10 ) β0 : 절편, β1 : 기울기, X i : i 번째관측된 X 값, εi : 오차 137
139 4.3. 단순회귀분석예제 (3) 방정식 ( 회귀식 ) 적합 반응량 (Y) 촉진제량 (X) 참고 최소제곱법 (Least Squares Method) 실제 Yi 값과방정식에서 Yi ^ 의차이의제곱을최소로하도록방정식을추정하는방법 Yi 는실제관측된값, Yi 은추정된관계식에의한 i 번째 Y( 종속변수 ) 값으로 (Yi ^ ^ - Yi ) 의값이최소가되도록관계식을추정하는방법 138
140 4.3. 단순회귀분석예제 * 최소제곱법에의해추정된방정식 Yi = β 0 + β 1 X I Yi = X i 혹은 Y = X ^ β 0, β 1 : 최소제곱법으로추정된회귀계수값. Y i : 최소제곱법으로추정된방정식에서 i 번째 Y값. ( X i - X ) ( Yi - Y ) β 1 = = ( X i - X ) β 0 = Y - β 1 X =.00 추정된방정식이데이터에잘적합되었는지를판정하여, 실무에적용할것인지를결정. 방법은분산분석표에의한 F 검정 139
141 4.3. 단순회귀분석예제 앞의과정을표로작성하여보자. 단순회귀의분산분석표 ( 유의수준 : α = 0.05) 요인제곱합 (SS) 자유도 ( ) 평균제곱 (MS) F 0 F (1-α) 회귀 오차 SSR (6.11) SSE (0.74) R (1) E (8) MSR (6.11) MSR / MSE MSE (0.095) (66.84) F 0.95 (1,8) = 5.3 P=0.000 계 SST (6.85) T (9) 결정계수 (R SSR 6.11 ) = = = 0.89 SST 6.85 SSR - MSE R-sq( 수정 ) = = = SST 총제곱합 (SS T ) 중에서 87.8% 가직선회귀식으로설명되고있다. 140
142 4.3. 단순회귀분석예제 회귀방정식 F 0 가 66.05이고 F (1,8 ; 0.05) = 5.3 보다크므로, 신뢰수준 95% ( 유의수준 0.05) 로직선회귀식 Y = X 는촉진제량 (X) 과반응량 (Y) 의관계를잘나타내며, 촉진제량은반응량에유의한영향을준다. Y Y = X X 141
143 4.3. 단순회귀분석예제 추정된 Y 값. X y Y i ( 촉진제량 ( X ) 이 1일때반응량의추정값 ) = X 1 =.387 실제관측된반응량.1과약간의차이가생긴다. 14
144 4.3. 단순회귀분석예제 수정된결정계수 분석결과해석 촉진제양 (X) 에따른반응량 (Y) 사이의 추정회귀식은 Y = X 이다. 또한두변수사이의상관계수는 로상관관계가매우강하다. 단순회귀에서는상관계수의제곱이결정계수 R-sq 이다. 즉, 총변동중에서상기회귀직선으로설명될수있는변동량이 R-Sq = 89.% 이고, 오차를뺀순수한회귀변동량은수정된결정계수 R-Sq(adj) = 87.9 % 이다. 분산분석표를이용하여계산해보면, R-sq (adj) = SS R MSE = 100 = SS T 87.9% 143
145 단순회귀분석실습 10 명의입시생들의 3 월수리영역수능모의고사점수와 11 월수리영역수학능력시험점수가다음과같다고할때, 3 월모의고사점수로부터 11 월수능점수를예측하고자한다. 어떤분석이적절할것으로보이는가? ( 수능시험.sav) 모의고사점수 월수능점수
146 단순회귀분석실습 진통제의투여량에따라진통지속시간이어떻게변하는지알아보기위해진통제의여러수준에서실험한결과가다음과같다. ( 진통지속시간.sav) 투여량 (DOSE) 진통지속시간 (HR)
147 4.4. 중회귀분석 중회귀분석 (Multiple Regression Analysis) 이란? 설명 ( 독립 ) 변수의수가두개이상인경우에반응 ( 종속 ) 변수와의관계가 선형함수로작성된모델에대한분석. 주로사용되는회귀모형 단순회귀 곡선회귀 중회귀 설명 ( 독립 ) 변수 1 개와반응 ( 종속 ) 변수의관계가직선 설명 ( 독립 ) 변수 1 개와반응 ( 종속 ) 변수의관계가곡선 설명 ( 독립 ) 변수 개이상과반응 ( 종속 ) 변수의관계 변수선택에의한중회귀 설명 ( 독립 ) 변수가많을때, 중요한변수만찾아회귀방정식을적합시킴 146
148 4.4. 중회귀분석 1) 독립변수가 개인중회귀모형 Y i = β 0 + β 1 X 1i + β X i + ε i β 0, β 1, β : 회귀계수, X 1i : X 1 변수의 i 번째관측된값 ε i : 오차, X i : X 변수의 i 번째관측된값 ) 방정식 ( 회귀식 ) 적합 : 오차제곱합을최소로하는회귀계수를구한다. 오차제곱합 = n ( y x ) 0 1x i 1i i i1 147
149 4.4. 중회귀분석 독립변수가 개이상 ( X 1, X ) 이고, 종속변수 (Y) 와의관계를알고자할때 예 어떤공장에서하루에사용되는원료투입량 (X1) 과공정온도 (X) 와스팀의양 (Y) 이 어떤관계에있는가를알아보기위하여과거 5 일간의데이터를수집하였다. 다중회귀예제.sav, [ 단위 : X1( 톤 ), X( ),Y( 톤 )] X 1 X Y X 1 X Y X 1 X Y
150 4.4. 중회귀분석 변수선택방법 : 독립변수의수가많은경우에사용 입력 : 지정한변수를한꺼번에투입 전진 : 기준에따라변수를하나씩투입 (Forward selection method) 후진 : 모든변수를투입한다음, 기준에따라하나씩탈락 (Backward elimination method) 단계 : 각각의단계마다변수들을유의도에따라투입, 탈락 ( 가장일반적 : Stepwise Regression method) 149
151 4.4. 중회귀분석 예수율에영향을줄수있는독립변수들가운데, 중요한변수만 골라회귀식을만들고자한다. 데이터의수집독립변수 : 농도 X 1 (%), 온도 X ( ), 습도 X 3 (%), 시간 X 4 ( 분 ) 비중 X 5 (g/ cm3 ), 촉진제량 X 6 (g), 속도 X 7 ( m s ), 압력 X 8 (N/ m ) 종속변수 : 수율 (Y) 측정번호 X 1 X X 3 X 4 X 5 X 6 X 7 X 8 Y
152 4.4. 중회귀분석 선택되는변수의개수 선택되는변수의번호 F 0 C(p) R 1 X X, X X, X 3, X X, X 3, X 5, X X, X 3, X 5, X 6, X 결론 3번째회귀식이가장좋음. : F 0 와 R 값이크고 C(p) 는 (K( 변수 )+1) 에근접하는값은 3번째식으로, 변수의개수가 3개로적절하다. 중회귀방정식 ^ 변수선택에의한중회귀식 Y = X +.94X 3 +.1X 5 151
153 4.5. 중회귀분석예제 자동차타이어의실내주행실험에있어서타이어에서발생되는열은다음과같은 5 가지변수에의하여영향을받는것으로알려져있다. X1 : 타이어에걸리는하중 X : 속도 (km/hr) X3 : Shoulder 의두께 (mm) X4 : 실내온도 X5 : 측정시간 (min) Y : 발열량 발열량에영향을미치는변수를찾고회귀모형을구축해보자. < 타이어.sav> OBS X 1 X X 3 X 4 X 5 Y
154 Q/A 아이티베인이현우
statistics
수치를이용한자료요약 statistics hmkang@hallym.ac.kr 한림대학교 통계학 강희모 ( 한림대학교 ) 수치를이용한자료요약 1 / 26 수치를 통한 자료의 요약 요약 방대한 자료를 몇 개의 의미있는 수치로 요약 자료의 분포상태를 알 수 있는 통계기법 사용 중심위치의 측도(measure of center) : 어떤 값을 중심으로 분포되어 있는지
More informationMicrosoft PowerPoint - IPYYUIHNPGFU
분산분석 분산분석 (ANOVA: ANALYSIS OF VARIANCE) 두개이상의모집단의차이를검정 예 : 회사에서세종류의기계를설치하여동일한제품을생산하는경우, 각기계의생산량을조사하여평균생산량을비교 독립변수 : 다른변수에의해영향을주는변수 종속변수 : 다른변수에의해영향을받는변수 요인 (Factor): 독립변수 예에서의요인 : 기계의종류 (I, II, III) 요인수준
More information(001~006)개념RPM3-2(부속)
www.imth.tv - (~9)개념RPM-(본문).. : PM RPM - 대푯값 페이지 다민 PI LPI 알피엠 대푯값과산포도 유형 ⑴ 대푯값 자료 전체의 중심적인 경향이나 특징을 하나의 수로 나타낸 값 ⑵ 평균 (평균)= Ⅰ 통계 (변량)의 총합 (변량의 개수) 개념플러스 대푯값에는 평균, 중앙값, 최 빈값 등이 있다. ⑶ 중앙값 자료를 작은 값부터 크기순으로
More information<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>
제 3 강계량경제학 Review Par I. 단순회귀모형 I. 계량경제학 A. 계량경제학 (Economerics 이란? i. 경제적이론이설명하는경제변수들간의관계를경제자료를바탕으로통 계적으로추정 (esimaion 고검정 (es 하는학문 거시소비함수 (Keynse. C=f(Y, 0
More informationG Power
G Power 부산대학교통계학과조영석 1. G Power 란? 2. G Power 설치및실행 2.1 G Power 설치 2.2 G Power 실행 3. 검정 (Test) 3.1 가설검정 (Test of hypothesis) 3.2 검정력 (Power) 3.3 효과크기 (Effect size) 3.4 표본수산정 4. 분석 4.1 t- 검정 (t-test) 4.2
More information2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사
회귀분석 올림픽 100m 우승기록 2004년 9월과학저널 Nature에발표된 Oxford 대학교의임상병리학자인 Andrew Tatem과그의연구진의논문 1900~2004년까지의남성과여성의육상 100m 우승기록을분석하고앞으로최고기록이어떻게변할것인지를예측 2008년베이징올림픽에서남자의우승기록은 9.73±0.144(9.586, 9.874), 여자는 10.57±0.232(10.338,
More information3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료
3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료 분포형태, 상대적위치, 극단값 분포형태 z-값 체비셰프의원리 경험법칙 극단값찾기 분포형태 : 왜도 (skewness) 분포형태를측정하는중요한척도중하나를 왜도 라고한다. 자료집합의왜도를구하는계산식은조금복잡하다. 통계프로그램을사용하여왜도를쉽게계산할수있다.
More informationR t-..
R 과데이터분석 집단의차이비교 t- 검정 양창모 청주교육대학교컴퓨터교육과 2015 년겨울 t- 검정 변수의값이연속적이고정규분포를따른다고할때사용 t.test() 는모평균과모평균의 95% 신뢰구간을추청함과동시에가설검증을수행한다. 모평균의구간추정 - 일표본 t- 검정 이가설검정의귀무가설은 모평균이 0 이다 라는귀무가설이다. > x t.test(x)
More information공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은
2013 년도연구용역보고서 공공기관임금프리미엄추계 - 2013. 12.- 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 연구책임자 한국노동연구원선임연구위원정진호 공공기관임금프리미엄추계 2013. 12. 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영
More informationMicrosoft Word - EDA_Univariate.docx
일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키,
More information고객관계를 리드하는 서비스 리더십 전략
제 13 장분산분석 1 13.1 일원분산분석 13. 분산분석 - 무작위블럭디자인 13.3 이원분산분석 - 팩토리얼디자인 분산분석 (ANOVA) - 두개이상의집단들의평균값을비교하는데사용. 일원분산분석 - 처치변수가한개인분산분석. 1. 분산분석의원리 A 3.0 8.0 7.0 5.0 5.0 6.0 4.0 7.0 6.0 4.0 평균 5.0 6.0 B 3.0 9.0
More informationMicrosoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt
수명분포및신뢰도의 통계적추정 포항공과대학교산업공학과전치혁.. 수명및수명분포 수명 - 고장 까지의시간 - 확률변수로간주 - 통상잘알려진분포를따른다고가정 수명분포 - 확률밀도함수또는 누적 분포함수로표현 - 신뢰도, 고장률, MTTF 등신뢰성지표는수명분포로부터도출 - 수명분포추정은분포함수관련모수의추정 누적분포함수및확률밀도함수 누적분포함수 cumulav dsbuo
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More informationMicrosoft PowerPoint - SBE univariate5.pptx
이상치 (outlier) 진단및해결 Homework 데이터 ( Option.XLS) 결과해석 치우침? 평균이중앙값에비해다소크다. 그러나이상치때문이지치우친것같지않음. Toys us 스톡옵션비율이이상치 해결방법 : Log 변환? 아니다치우쳐있지않기때문에제거 제거후 : 평균 :.74, 중위수 :.7 31 치우침과이상치 데이터 : 노트북평가점수 우로치우침과이상치가존재
More information제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라
제 절 two way ANOVA 제절 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라고 한다. 교호작용은 두 변수의 곱에 대한 검정으로 유의확률이 의미있는 결과라면 두 변수는 서로 영향을
More information중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed
중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed mean), 가중평균 (weighted mean), 기하평균 (geometric mean),
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More informationMicrosoft PowerPoint - ANOVA pptx
분산분석개념및기초 인과관계 casual relationship X=>Y Y 종속변수, 반응변수, 내생변수 X 설명변수, 독립변수, 요인 ( 처리효과 ), 내생변수 X 측정형 Y 범주형 로지스틱회귀분석 측정형 회귀분석 범주형교차분석분산분석 DOE Design of Experiment ( 실험설계 ) 관심대상에대한정보를얻기위한계획된테스트나관측 절대실험 absolute
More information자료의 이해 및 분석
어떤실험이나치료의효과를측정할때독립이아닌표본으로부터관찰치를얻었을때처리하는방법 - 동일한개체에어떤처리를하기전과후의자료를얻을때 - 가능한동일한특성을갖는두개의개체에서로다른처리를하여그처리의효과를비교하는방법 (matching) 1 예제 : 혈청 cholesterol 치를줄이기위해서 12 명을대상으로운동과함께식이요법의효과를 측정하기위한실험실시 2 식이요법 - 운동실험전과후의
More informationPowerPoint 프레젠테이션
응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 13 장상관분석 1. 상관계수 2. 상관분석의가정과특성 3. 모상관계수의검정과신뢰한계 4. 순위상관 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 - 실습 - 상관분석 지금까지한가지확률변수에의한현상을검정하였다.
More informationPowerPoint 프레젠테이션
응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구 14 장회귀분석 1. 회귀직선의추정 2. 회귀직선의검정및추론 3. 모집단절편과회귀계수의구간추정 4. 곡선회귀 15 장공분산분석 1. 공분산분석의통계적모형 2. 공분산분석에의한처리효과검정 3. 공분산분석과정 - 실습 - 회귀분석 두확률변수간에관계가있는지검정
More information생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포
생존분석의 추정과 비교 : 보충자료 이용희 December, 8 Cotets 생존함수와 위험함수. 생존함수와 위험함수....................................... 예제: 지수분포.......................................... 예제: 와이블분포.........................................
More information확률과통계 강의자료-1.hwp
1. 통계학이란? 1.1 수학적 모형 실험 또는 증명을 통하여 자연현상을 분석하기 위한 수학적인 모형 1 결정모형 (deterministic model) - 뉴톤의 운동방정식 : - 보일-샤를의 법칙 : 일정량의 기체의 부피( )는 절대 온도()에 정비례하고, 압력( )에 반비례한다. 2 확률모형 (probabilistic model) - 주사위를 던질 때
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More informationuntitled
Math. Statistics: Statistics? 1 What is Statistics? 1. (collection), (summarization), (analyzing), (presentation) (information) (statistics).., Survey, :, : : QC, 6-sigma, Data Mining(CRM) (Econometrics)
More information10. ..
점추정구간추정표본크기 차례 점추정구간추정표본크기 1 점추정 2 구간추정 3 표본크기 추정의종류 점추정구간추정표본크기 점추정 (point estimation): 모수를어떤하나의값으로추측하는것 구간추정 (interval estimation): 모수를어떤구간으로추측하는것 예 ) 피그미족 (Pygmytribe) 의평균키는모수 µ 표본을추출하여평균을구해보니 135cm
More information모수검정과비모수검정 제 6 강 지리통계학
모수검정과비모수검정 제 6 강 지리통계학 통계적추정의목적 연구자가주장하는연구가설을입증하기위한것 1 연구목적에맞는연구가설을설정 2 연구목적과수집된자료에부합되는적절한통계적검정방법을선택 3 귀무가설과연구가설 ( 대립가설 ) 을진술 4 유의수준을결정한후각분포유형에따라분포표를이용하여임계치를구하고기각역을설정 5 통계적검정유형에필요한통계량을각검정유형의공식을이용하여계산 6
More information통계학입문
통계학입문 ( 기초통계학 ) 1. 1 개요 통계학 (statistics) 관심의대상에대해관련된자료를수집하고그 자료를요약, 정리하여이로부터불확실한사실에 대한결론이나일반적인규칙성을추구하는학문 Statistic : 통계치, 통계량 CH 1-2 1. 1 개요 통계학 (statistics) 기술통계학 (descriptive stat) 수집된자료의정리및요약방법을다룸
More information슬라이드 1
회귀분석 (Regression Analysis) 회귀분석은종속변수와독립변수들갂의관련성, 또는독립변수를 이용하여종속변수를예측하는데사용하며, 종속변수와독립변수 들의함수적관련성을이용하여분석한다. 회귀분석의목적 (1) 예측을목적 주어진독립변수를이용하여종속변수의평균값을추정할목적으로 기존의자료를이용하여회귀모형을세움 (2) 각독립변수가종속변수에미치는영향을평가 종속변수에어떤독립변수들이유의한영향을미치는지를알아보고
More informationuntitled
R 과함께하는통계학의이해 빅북이라명명된이책은지식공유의세계적인흐름에동참하고지적인업적들이세상과인류의지식이되도록하며, 누구나쉽게접근하고활용할수있는환경을만들고자한다. 이책의저작권은빅북 (www.bigbook.or.kr) 에있으며모든용도로활용할수있다. 다만상업용출판을하고자하는경우에는사전에문서로된허락을받아야한다. 공유와협력의교과서만들기운동본부 R 과함께하는 통계학의이해
More informationANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행
Ch4 one-way ANOVA ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행 One-way ANOVA 란? Group Sex pvas NSAID
More information슬라이드 1
Principles of Economerics (3e) Ch. 4 예측, 적합도, 모형화 013 년 1 학기 윤성민 4.1 OLS 예측 (1) 점예측 x0 y0 - 설명변수일때, 종속변수의값을예측하고자함 y ˆ = b + 0 1 b x 0 Ch. 4 예측, 적합도, 모형화 /60 4.1 OLS 예측 예측오차 (forecas error), f 예측오차의기대값
More information슬라이드 1
빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 7 주차 회귀분석 Regression Analysis 최종후, 강현철 차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례 -
More informationMATLAB for C/C++ Programmers
오늘강의내용 (2014/01/16) 회귀분석 1 회귀분석 (Regression Analysis) 2 회귀분석 회귀분석이란? 연관된변수들간의관계를찾는통계적방법 즉, 어떠한변수 x가변수 Y에함수관계를통해영향을미친다는것을찾아내는것 예를들어 강우량 ( 변수 x) 이곡물의수확량 ( 변수 Y) 에미치는영향 화학공정의수율 ( 변수 x) 이촉매의사용량 ( 변수 Y) 에따라어떻게변하는지..
More information제 4 장회귀분석
회귀의역사적유래 (historical origin of the regression) 회귀 (regression) 라는용어는유전학자 Francis Galton(1886) 에의해처음사용된데서유래함. 그의논문에서 비정상적으로크거나작은부모의아이들키는전체인구의평균신장을향해움직이거나회귀 (regression) 하는경향이있다. 고주장 회귀의역사적유래 (historical
More informationMicrosoft Word - sbe_anova.docx
ANOVA 기본개요세집단이상인평균비교 => 일원분산분석집단을요인 (factor) 혹은처리효과 (treatment effect) 라하고집단의개별값을수준 (level) 이라한다. 요인이하나인경우 one-way ANOVA 분산분석 (ANOVA Analyss Of VArance) 은실험설계로부터유래, 분산 ( 변동 ) 에의해요인 ( 모형 ) 의유의성를검증한다. 실험관심대상에대한정보를얻기위한계획된테스트나관측절대실험
More informationMicrosoft Word - SPSS_MDA_Ch6.doc
Chapter 6. 정준상관분석 6.1 정준상관분석 정준상관분석 (Canonical Correlation Analysis) 은변수들의군집간선형상관관계를파악하는분석방법이다. 예를들어신체적조건 ( 키, 몸무게, 가슴둘레 ) 과운동력 ( 달리기, 윗몸일으키기, 턱걸이 ) 사이의선형상관관계가있는지알아보고, 관계가있다면어떤관계가있는지분석하는것이다. 정준상관분석은 (
More information한국정책학회학회보
한국정책학회보제 22 권 2 호 (2013.6): 181~206 정부신뢰에대한연구 - 대통령에대한신뢰와정부정책에대한평가비교를중심으로 * - 주제어 : 민주화이후정부신뢰, 대통령신뢰, 정부정책만족도 Ⅰ. 서론 182 한국정책학회보제 22 권 2 호 (2013.6) 정부신뢰에대한연구 183 Ⅱ Ⅲ Ⅳ Ⅴ Ⅱ. 정부신뢰에대한이론적논의 184 한국정책학회보제 22
More information연구보고서 2009-05 일반화선형모형 (GLM) 을이용한 자동차보험요율상대도산출방법연구 Ⅰ. 요율상대도산출시일반화선형모형활용방법 1. 일반화선형모형 2 연구보고서 2009-05 2. 일반화선형모형의자동차보험요율산출에적용방법 요약 3 4 연구보고서 2009-05 Ⅱ. 일반화선형모형을이용한실증분석 1. 모형적용기준 < > = 요약 5 2. 통계자료및통계모형
More information이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는
제 12 강분산분석 분산분석 (ANOVA) (1) 1. 개요 비교하는집단의수가 3개이상일경우에사용되는통계기법이분산분석이다. 두표본 t검증에서는문제의단순성때문에야기되지않는문제들이다수의표본으로확대됨에따라문제들이야기되기도한다. 다음과같은 r개의모집단이있다고가정하자..... ~ N( μ σ ) ~ N( μ σ ).... ~ N ( μ σ )...... 위의그림과같이여러번에걸쳐두표본의
More informationR
R 과데이터분석 상관관계 양창모 청주교육대학교컴퓨터교육과 2015 년여름 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 1 / 20 상관관계 양적변수quantitative variables 사이의관계relationships를나타내기위하여상관계수correlation coefficients를사용한다. ± 기호를사용하여관계의방향을나타낸다.
More informationVector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표
Vector Differential: 벡터 미분 Yonhee Lee October 7, 08 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표기법을 정의하는 방법이다 보통 스칼라(scalar)에 대한 미분은 일분수 함수 f : < < 또는 다변수 함수(function
More information용역보고서
신뢰성샘플링검사의설계방법 ( 정수관측중단시험 ) 9.. ( 주 ) 한국신뢰성기술서비스 목차 신뢰성샘플링검사의설계방법 ( 정수관측중단시험 ).... 개요.... 기호및용어정의.... 샘플링검사의설계방법... 3. 정수중단시샘플링검사설계방법...4 4. 신뢰성샘플링시험계획예제...5 hp://www.kors.co.kr 신뢰성샘플링검사의설계방법 ( 정수관측중단시험
More information분산분석.pages
예제데이터 R. A. Fisher (1919 영국통계학자, 생물학자, 수학자 - 분산분석창시자 iris 분꽃데이터 - 3 개종, 4 개변수관측데이터 - sepal 꽃받침 ( 길이, 넓이 - petal 꽃잎 ( 길이, 넓이 분산개념정의 변수의데이터흩어짐의척도이다. (x s i x = n 1 활용 변동계수 Coefficient of Variation CV - CV
More informationResampling Methods
Resampling Methds 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) Resampling Methds 1 / 18 학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과 )
More information시스템경영과 구조방정식모형분석
2 st SPSS OPEN HOUSE, 2009 년 6 월 24 일 AMOS 를이용한잠재성장모형 (Latent Growth Model ) 세명대학교경영학과김계수교수 (043) 649-242 gskim@semyung.ac.kr 목차. LGM개념소개 2. LGM모형종류 3. LGM 예제 4. 결과치비교 5. 정리및요약 2 적합모형의판단방법 Tips SEM 결과해석방법
More informationPPT Template
External Use SPSS 를이용한분산분석 (ANOVA) 013 년 11 월 13 일 임찬수 0 Table of Contents 1 분산분석과실험계획법 일원배치분산분석 (One-way ANOVA) 3 사후분석 (Post-hoc test) 4 일원배치분산분석의예제 5 HomeWork 1 1 분산분석과실험계획법 분산분석 분산분석 : 평균값을기초로하여여러집단을비교하고,
More information01
2019 학년도대학수학능력시험 9 월모의평가문제및정답 2019 학년도대학수학능력시험 9 월모의평가문제지 1 제 2 교시 5 지선다형 1. 두벡터, 모든성분의합은? [2 점 ] 에대하여벡터 의 3. 좌표공간의두점 A, B 에대하여선분 AB 를 로외분하는점의좌표가 일때, 의값은? [2점] 1 2 3 4 5 1 2 3 4 5 2. lim 의값은? [2점] 4. 두사건,
More information기술통계
기술통계 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 기술통계 1 / 17 친구수에대한히스토그램 I from matplotlib import pyplot as plt from collections import Counter num_friends = [100,49,41,40,25,21,21,19,19,18,18,16, 15,15,15,15,14,14,13,13,13,13,12,
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More information완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에
1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에대하여 AB=BA 1 가성립한다 2 3 (4) 이면 1 곱셈공식및변형공식성립 ± ± ( 복호동순 ), 2 지수법칙성립 (은자연수 ) < 거짓인명제 >
More information확률과통계6
확률과통계 6. 이산형확률분포 건국대학교스마트 ICT 융합공학과윤경로 (yoonk@konkuk.ac.kr) 6. 이산형확률분포 6.1 이산균일분포 6.2 이항분포 6.3 초기하분포 6.4 포아송분포 6.5 기하분포 6.6 음이항분포 * ( 제외 ) 6.7 다항분포 * ( 제외 ) 6.1 이산균일분포 [ 정의 6-1] 이산균일분포 (discrete uniform
More informationPowerPoint Presentation
09 th Week Correlation Analysis 상관관계분석 Jongseok Lee Business Administration Hallym University 변수형태와통계적분석방법 H 0 : X ㅗ Y H 1 : X ~ Y X Categorical Y Categorical Chi-square Test X Categorical Y Numerical
More informationnonpara6.PDF
6 One-way layout 3 (oneway layout) k k y y y y n n y y K yn y y n n y y K yn k y k y k yknk n k yk yk K y nk (grand mean) (SST) (SStr: ) (SSE= SST-SStr), ( 39 ) ( )(rato) F- (normalty assumpton), Medan,
More informationMicrosoft Word - SAS_Data Manipulate.docx
수학계산관련 함수 함수 형태 내용 SIN(argument) TAN(argument) EXP( 변수명 ) SIN 값을계산 -1 argument 1 TAN 값을계산, -1 argument 1 지수함수로지수값을계산한다 SQRT( 변수명 ) 제곱근값을계산한다 제곱은 x**(1/3) = 3 x x 1/ 3 x**2, 세제곱근 LOG( 변수명 ) LOGN( 변수명 )
More information(Hyunoo Shim) 1 / 24 (Discrete-time Markov Chain) * 그림 이산시간이다연쇄 (chain) 이다왜 Markov? (See below) ➀ 이산시간연쇄 (Discrete-time chain): : Y Y 의상태공간 = {0, 1, 2,..., n} Y n Y 의 n 시점상태 {Y n = j} Y 가 n 시점에상태 j 에있는사건
More information조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a
조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a) b) 조사연구 주제어 패널조사 횡단면가중치 종단면가중치 선형혼합모형 일반화선형혼 합모형
More information표본재추출(resampling) 방법
표본재추출 (resampling) 방법 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 표본재추출 (resampling) 방법 1 / 18 학습내용 개요 CV(crss-validatin) 검증오차 LOOCV(leave-ne-ut crss-validatin) k-fld CV 편의-분산의관계분류문제에서의 CV Btstrap 박창이 ( 서울시립대학교통계학과
More informationabstract.dvi
통계자료분석 강희모 2014년 5월 14일 목차 제 1장 여러가지평균비교 1 1.1. 단일표본검정.............................. 2 1.2. 독립인두표본검정........................... 4 1.3. 대응표본검정.............................. 9 제 2 장 분산분석(ANalysis Of VAriance)
More information1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut
경영학을 위한 수학 Fial Eam 5//(토) :-5: 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오.. (각 6점) 다음 적분을 구하시오 4 ( ) (a) ( )4 8 8 (b) d이 성립한다. d C C log log (c) 이다. 양변에 적분을 취하면 log C (d) 라 하자. 그러면 d 4이다. 9 9 4 / si (e) cos si
More informationMicrosoft Word - Chapter9.doc
CHAPTER 9 분산분석 9.1. 분산분석개념 분산분석 (ANOVA: Analysis of Variance) 이란종속변수 (dependent variable: 반응변수 : response variable) 의분산 (variation: 변동 통계에서는이를변수가가진정보라한다 ) 을설명하는독립변수 (independent: 설명변수 : explanatory) 의유의성
More information가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차
가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차이가있을것이다. 가설 3 : 유권자의학력수준에따라지지후보는다를것이다. 지지후보의선택은유권자의학력수준에따라차이가있을것이다.
More information비선형으로의 확장
비선형으로의확장 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 비선형으로의확장 1 / 30 개요 선형모형은해석과추론에장점이있는반면예측력은제한됨능형회귀, lasso, PCR 등의방법은선형모형을이용하는방법으로모형의복잡도를감소시켜추정치의분산을줄이는효과가있음해석력을유지하면서비선형으로확장다항회귀 (polynomial regression): ( 예 )
More informationMicrosoft PowerPoint - LN05 [호환 모드]
계량재무분석 I Chapter 6 & 7 Probability Distribution II 경영대학재무금융학과 윤선중 0 Objectives 확률변수 이산확률분포 (Discrete Random Variables): 셀수있는확률변수 연속확률분포 (Continuous Random Variables): 셀수없는경우의수 이산확률변수 분포의대표값 기대치 (Expected
More information용역보고서
여러고장모드를갖는자료분석방법 2009. 1. ( 주 ) 한국신뢰성기술서비스 목차 여러고장모드를갖는자료분석방법...3 1. 개요...3 2. 분석방법및예제...4 2.1 CFM(Competing Failure Mode) 분석...4 2.2 Mixed Weibull 분석...4 2.3 Mixed Weibull 예제...5 3. 요약정리...9 ii http://www.korts.co.kr
More information제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint
제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Winters의계절지수평활법 이동평균법 (moving average method) 평활에의해계절성분또는불규칙성분을제거하여전반적인추세를뚜렷하게파악
More information(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])
수치해석 6009 Ch9. Numerical Itegratio Formulas Part 5. 소개 / 미적분 미분 : 독립변수에대한종속변수의변화율 d vt yt dt yt 임의의물체의시간에따른위치, vt 속도 함수의구배 적분 : 미분의역, 어떤구간내에서시간 / 공간에따라변화하는정보를합하여전체결과를구함. t yt vt dt 0 에서 t 까지의구간에서곡선 vt
More information(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])
수치해석 161009 Ch21. Numerical Differentiation 21.1 소개및배경 (1/2) 미분 도함수 : 독립변수에대한종속변수의변화율 y = x f ( xi + x) f ( xi ) x dy dx f ( xi + x) f ( xi ) = lim = y = f ( xi ) x 0 x 차분근사 도함수 1 차도함수 : 곡선의한점에서접선의구배 21.1
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More information확률 및 분포
확률및분포 박창이 서울시립대학교통계학과 박창이 ( 서울시립대학교통계학과 ) 확률및분포 1 / 15 학습내용 조건부확률막대그래프히스토그램선그래프산점도참고 박창이 ( 서울시립대학교통계학과 ) 확률및분포 2 / 15 조건부확률 I 첫째가딸일때두아이모두딸일확률 (1/2) 과둘중의하나가딸일때둘다딸일확률 (1/3) 에대한모의실험 >>> from collections import
More information<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>
삼각함수. 삼각함수의덧셈정리 삼각함수의덧셈정리 삼각함수 sin (α + β ), cos (α + β ), tan (α + β ) 등을 α 또는 β 의삼각함수로나 타낼수있다. 각 α 와각 β 에대하여 α >0, β >0이고 0 α - β < β 를만족한다고가정하 자. 다른경우에도같은방법으로증명할수있다. 각 α 와각 β 에대하여 θ = α - β 라고놓자. 위의그림에서원점에서거리가
More information통계학입문
확률및통계특강 세부사항 교수님 성함 : 김홍기 연락처 : 821-5433 E-mail : honggiekim@cnu.ac.kr 교재 : 통계학입문 ( 정익사 / 김주한외 ) 강의자료 ppt 파일은정보통계학과홈페이지 -> 대학원 -> 수업자료 또는사이버캠퍼스자료실 이사이트에서기출문제도얻을수있습니다. 중간고사 (closed book) : 45%, 기말고사 (open
More informationSurvey Analyst 2013 년 1 회사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 질문지문항작성원칙에부합하는질문을모두짝지은것은? 2. 연역법과귀납법에관한설명으로옳은것은? 3. 설문조사에관한옳은설명을모두짝지은것은? 제공카페 : Daum 사회조사분석사 G
Survey Analyst 2013 년 1 회사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 질문지문항작성원칙에부합하는질문을모두짝지은것은? 2. 연역법과귀납법에관한설명으로옳은것은? 3. 설문조사에관한옳은설명을모두짝지은것은? 1 사회조사분석사 2 급조사방법론 1 상반기 4. 비표준화 ( 비구조화 ) 면접의장점을모두짝지은것은? 5. 종단연구와비교한횡단연구의장점과가장거리가먼것은?
More information슬라이드 1
장연립방정식을 풀기위한반복법. 선형시스템 : Guss-Sedel. 비선형시스템 . 선형시스템 : Guss-Sedel (/0) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정식을푸는반복법중에서 가장보편적으로사용되는방법이다. 개의방정식에서 인 ( 대각원소들이모두 0 이아닌 ) 경우를다루자. j j b j b j j j
More information임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,
임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, E-mail: jungyon82@naver.com 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수, E-mail: ymlee@sookmyung.ac.kr 규모 재직근로자대상교육훈련실시 ( 개소,%) 1 인당평균집체훈련시간 1 인당평균집체훈련비용 ( 천원 ) 전체수강료시설비기타비용 전체
More information= ``...(2011), , (.)''
Finance Lecture Note Series 사회과학과 수학 제2강. 미분 조 승 모2 영남대학교 경제금융학부 학습목표. 미분의 개념: 미분과 도함수의 개념에 대해 알아본다. : 실제로 미분을 어떻게 하는지 알아본다. : 극값의 개념을 알아보고 미분을 통해 어떻게 구하는지 알아본다. 4. 미분과 극한: 미분을 이용하여 극한값을 구하는 방법에 대해 알아본다.
More informationMicrosoft Word - Ch1_Introduction_EDA.docx
고전적데이터분석은연구목적이설정되면그에맞는 1) 통계적가설 (statistical hypothesis), 모형 (model) 을설정하고 2) 데이터수집하여 3) 가설혹은모형의유의성 (significance) 을검정하였다. 이를 Confirmatory ( 확증적 ) Data Analysis 라한다. 다음은 (confirmatory) 데이터분석의예로한남대학생들의용돈이대학평균과같은가를알아보는연구과정을요약한것이다.
More informationPPT Template
External Use SPSS 를이용한분산분석 (ANOVA) 009 년 11 월 09 일 임찬수 0 Table of Contents 1 분산분석과실험계획법 일원배치분산분석 (One-way ANOVA) 3 사후분석 (Post-hoc test) 4 일원배치분산분석의예제 5 이원배치분산분석 (Two-way ANOVA) 1 Table of Contents 6 일원배치반복측정분산분석
More information<4D6963726F736F667420576F7264202D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>
6. Relaton and Statstcal Weather Forecastng (관 계와 통계적인 일기예보) 6.1 Background 대기운동은 비선형이므로 결정론적인 의미에서 완벽하게 예측될 수 없다. 보완책으 로 통계적인 방법이 유용하고 예보의 일부로 사용된다. 1 수치예보모델 없이 순수하게 통계 모형만을 이용하는 경우 단시간 예보나 아주 긴 시간(수주이상)
More information슬라이드 1
빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 제 4 장 회귀분석 Chapter 4 Regression Analysis 차례 4.1 선형회귀분석 (Linear Regression Analysis) 4.2 로지스틱회귀분석 (Logistic Regression Analysis) 4.3 회귀분석의특징과제약 4.4 분석사례
More information<B0A3C3DFB0E828C0DBBEF7292E687770>
초청연자특강 대구가톨릭의대의학통계학교실 Meta analysis ( 메타분석 ) 예1) The effect of interferon on development of hepatocellular carcinoma in patients with chronic hepatitis B virus infection?? -:> 1998.1 ~2007.12.31 / RCT(2),
More information장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정
. 선형시스템 : GussSedel. 비선형시스템. 선형시스템 : GussSedel (/0) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. GS 방법은선형대수방정식을푸는반복법중에서 가장보편적으로사용되는방법이다. 개의방정식에서 인 ( 대각원소들이모두 0 이아닌 ) 경우를다루자. j j b j j b j j 여기서 j b j j j 현재반복단계
More information<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>
25 강. 수열의극한참거짓 2 두수열 { }, {b n } 의극한에대한 < 보기 > 의설명중옳은것을모두고르면? Ⅰ. < b n 이고 lim = 이면 lim b n =이다. Ⅱ. 두수열 { }, {b n } 이수렴할때 < b n 이면 lim < lim b n 이다. Ⅲ. lim b n =0이면 lim =0또는 lim b n =0이다. Ⅰ 2Ⅱ 3Ⅲ 4Ⅰ,Ⅱ 5Ⅰ,Ⅲ
More information2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형
M-Plus 의활용 - 기본모형과예제명령어 - 성신여자대학교 심리학과 조영일, Ph.D. 2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형 3 / 27 1. M-plus 란? 기본정보 M-plus 는구조방정식모형과종단자료분석 ( 잠재성장모형 ) 의분석에사용되기위해서고안된프로그램임.
More information제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s
제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 통계적추정 (statistical estimati): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s ), 상관계수 ( r ) 가갖 는값과범위를추정. 가설검정 (hypthesis testig): 모수에대한통계적추정값의옳고그름을판단.
More informationChapter 7 분산분석
Chapter 8 실험계획및분산분석 (Experimental Design & ANalysis Of VAariance, ANOVA) 2017/5/01 8.1 선형모형과분산분석 (Linear Model & Analysis of Variance) 선형모형 (linear model): 설명변수들의선형의선형결합의형태로반응변수를설명하고자함. (to explain the
More information1 1 Department of Statistics University of Seoul August 28, 2017 확률분포 누적분포함수 확률공간이정의되었다고가정하자. 즉, 어떤사건 A 에대해서 P(A) 를항상생각할수있다고가정하자. 어떤확률변수 X 주어졌을때 Pr(X x) = P(X (, x]) 로정의하면 Pr(X x) 의값을모든 x 에대해생각할수있다. F
More information<B1B3C0B0B0FAC1A45FC3E2B7C22E687770>
확률및통계 확률및통계 1 성격 본과정은과학기술특성화대학의 확률및통계 ( 또는 기초통계학 ) 과목에해당하는내용을다룬다. 이과정을통하여학생들은대학과정이수에필요한정성적 / 정량적자료분석을위한통계적사고의기초를습득하게된다. 또한수학, 통계학, 또는계량적분석을많이요구하는학문을전공하고자하는학생들에게는과학적분석방법의수리적토대를갖추도록하여상위교과목을수강할수있는능력을기르도록한다.
More information슬라이드 1
빅데이터분석을위한데이터마이닝방법론 SAS Enterprise Miner 활용사례를중심으로 9 주차 예측모형에대한평가 Assessment of Predictive Model 최종후, 강현철 차례 6. 모형평가의기본개념 6.2 모델비교 (Model Comparison) 노드 6.3 임계치 (Cutoff) 노드 6.4 의사결정 (Decisions) 노드 6.5 기타모형화노드들
More informationMicrosoft Word - LectureNote.doc
5. 보간법과회귀분석 . 보간법 Iterpolto. 서론 응용예 : 원자간 pr-wse tercto Tlor Seres oe-pot ppromto 를사용할수없는이유 Appromte / t 3 usg Tlor epso t.! P! 3 4 5 6 7 P 3-3 -5-43 -85 . Newto Tlor Seres 와의관계 te dvded derece Forwrd
More information위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞
줄기잎그림 stem and leaf + 진단내용 1) 분포의개략적인형태를알수있다. (1) 좌우대칭인가? 아니면 skewed 되었는가? (2) 봉우리 (modal) 는하나인가? 아니면여러개인가? 2) 이상치의존재여부를쉽게파악할수있다. + 데이터 ( 정렬 ) ( 정렬않음 ) + 그리는순서 자료를크기순으로정리한다. 자료의수가많을때는자료정렬을수작업하기어려움으로이단계는무시해도되지만자료를크기순으로정렬해놓으면
More informationMicrosoft PowerPoint - MDA DA pptx
판별분석개념 Indvdual Drected Technque 측정변수 ( 항목 ) 에의한개체분류 분류되어있는집단간의차이를의미있게설명해줄수있는독립변수들을찾아내어 변수의선형결합으로판별식 (Dscrmnant functon) 을만들어낸다. 이판별식을이용하여분류하고자하는개체의집단을판별 데이터유형 집단변수 : 범주형혹은이진형 판별변수 : 측정형 ( 등간척도포함 ) 사례
More information<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>
상관분석 (Correlation) 목차 1. 상관분석은? 2. 분산, 공분산, 상관 3. 상관계수 4. 상관분석해석의유의점 5. 상관분석실제 상관분석은? 상관관계는서열척도, 등간척도, 비율척도로측정된변수들간의관련성정도를알아보기위한것 하나의변수가다른변수와의어느정도밀접한관련성을갖고변화하는가를알아보기위해사용 두변수간의관련성을구할경우단순상관관계를실시하며, 부분또는편상관관계는어떤변수를통제한상태에서두변수의상관관계를구하는것
More information외국인투자유치성과평가기준개발
2010 년도연구용역보고서 외국인투자유치의성과평가기준개발 - 2010. 10. - 이연구는국회예산정책처의연구용역사업으로수행된것으로서, 보고서의내용은연구용역사업을수행한연구자의개인의견이며, 국회예산정책처의공식견해가아님을알려드립니다. 책임연구원 국립부경대학교지역사회연구소권오혁 수신 : 대한민국국회예산정책처장귀하. 2010 10 : : : : 요약문 I. 서론 1.
More information1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속
1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속 2 1.1 함수를표현하는네가지방법 함수 f : D E 는집합 D 의각원소 x 에집합 E 에속하는단하나의원소 f(x) 를 대응시키는규칙이다.
More information저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할
저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할수없습니다. 변경금지. 귀하는이저작물을개작, 변형또는가공할수없습니다. 귀하는, 이저작물의재이용이나배포의경우,
More informationmethods.hwp
1. 교과목 개요 심리학 연구에 기저하는 기본 원리들을 이해하고, 다양한 심리학 연구설계(실험 및 비실험 설계)를 학습하여, 독립된 연구자로서의 기본적인 연구 설계 및 통계 분석능력을 함양한다. 2. 강의 목표 심리학 연구자로서 갖추어야 할 기본적인 지식들을 익힘을 목적으로 한다. 3. 강의 방법 강의, 토론, 조별 발표 4. 평가방법 중간고사 35%, 기말고사
More informationSurvey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여
Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여관찰 (participant observation) 에대한설명으로틀린것은? 제공카페 : Daum
More information