Statistics Basic_ko_chapter_04

Similar documents
제 4 장회귀분석

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

PowerPoint 프레젠테이션

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>

(001~006)개념RPM3-2(부속)

G Power

자료의 이해 및 분석

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint Presentation

Microsoft Word - SPSS_MDA_Ch6.doc

자료의 이해 및 분석

R t-..

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

R

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

Microsoft PowerPoint - IPYYUIHNPGFU

statistics

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

슬라이드 1

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

Microsoft PowerPoint - LM 2014s_Ch4.pptx

한국정책학회학회보

슬라이드 1

모수검정과비모수검정 제 6 강 지리통계학

Chapter 분포와 도수분석

14-X25-JSJ.hwp

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - MDA DA pptx

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공기업정책학석사학위논문 비성과적요인이개인성과평가 결과에미치는영향분석 사사례중심으로 년 월 서울대학교행정대학원 공기업정책학과 고동신

2011년 제 9회 최우수상.hwp

고객관계를 리드하는 서비스 리더십 전략


Microsoft Word - ch8_influence.doc

4 _ 한국지역정보화학회기획세미나발표논문집

untitled

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

시스템경영과 구조방정식모형분석


PowerPoint 프레젠테이션

MATLAB for C/C++ Programmers

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공기업정책학석사학위논문 직무순환제도가 직무만족에미치는영향 조직공정성의조절효과를중심으로 년 월 서울대학교행정대학원 공기업정책학과 오석주

exp

untitled

Microsoft Word - LectureNote.doc

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

행정학석사학위논문 사회에대한공정성인식도가 행복에미치는영향 서울시주민을중심으로 년 월 서울대학교대학원 행정학과행정학전공 정영아

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

<B0E6B7CEBAD0BCAE2E687770>

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft Word - EDA_Univariate.docx

Microsoft Word - Chapter8.doc

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

선형모형_LM.pdf

Microsoft Word - SAS_Data Manipulate.docx

Microsoft Word - ch3_residual.doc

슬라이드 1

목차 제1절서론 1 1. 연구배경및목적 1 2. 이론적고찰 2 3. 연구내용및방법 10 제 2 절인구이동의요인분석 전국총이동규모의변동요인 지역별인구이동요인분석 22 제 3 절결론 요약 연구의한계 42 < 부록 > 45

= ``...(2011), , (.)''

슬라이드 1

< FB1B8C1B6B9E6C1A4BDC4B8F0B5A828C5E4C7C8B8AEBAE4292E687770>

Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Microsoft PowerPoint - ANOVA pptx

PowerPoint 프레젠테이션

Resampling Methods

슬라이드 1

<B0A3C3DFB0E828C0DBBEF7292E687770>

임정연 이영민 1) 주저자, 숙명여자대학교인력개발정책학박사과정, 2) 교신저자, 숙명여자대학교여성 HRD 대학원부교수,

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])


ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

에듀데이터_자료집_완성본.hwp

시계열분석의개요 (the nature of time series analysis) 확률과정 (stochastic processes) 이란시간으로순서가매겨진확률변수들의집합임. 만일확률변수 y 가연속이라면 y(t) 라고표기하지만이산이라면 y t 라고표기함 ( 대부분의경제자

Visual Basic 반복문

Microsoft PowerPoint - SBE univariate5.pptx

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

슬라이드 제목 없음

제 4 장수요와공급의탄력성

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

<4D F736F F D20C0C0BFEBB0E8B7AE20C1A B0AD202D20B0E8B7AEB0E6C1A6C7D E646F63>

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다


스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

슬라이드 1

Transcription:

11. 교차분석 연구자가복잡한자료를상황표로만들어서, 변수사이의상관관계를파악할수있는것이교차분석이다. 교차분석에서두변수가상호독립적인지아니면관련성이있는지를분석하는것이 ( 카이제곱 ) 검정이다. 11.1 가설검정 휴대폰만족도에관한조사에서성별에따라대학서열화구조에대한차이가있는지를알아보기위한카이제곱검정의가설은다음과같다. : 성별에따라대학서열화구조에대한의식에차이가없다. : 성별에따라대학서열화구조에대한의식에차이가있다. 여기서귀무가설은두변수간의관계가독립적이라는의미이고, 대립가설은두변수간의관계가독립적이지않고어떤관계가있음을의미한다. 카이제곱검정은단지두변수간독립적인지아닌지만을알수있을뿐구체적으로어떤관계가있는지는알수없다. - 카이제곱통계량계산 : 카이제곱통계량은실제의자료에서얻은관찰빈도와기대빈도의차이를비교함으로써, 즉주어진관찰빈도가기대빈도에얼마나가까운지를봄으로써귀무가설을검증하게된다. 통계량과자유도와유의수준을이용하여 분포표를찾아 임계값을가지고비교하여 통계량이임계값보다크면, 두변수가독립적이라는귀무가설을기각하고, 통계량이임계값보다작으면귀무가설을채택하는데이는두집단간에차이가없다 ( 독립적 ) 는의미이다. 11.2 분석절차 사교육실태및의식에관한조사자료중대학서열화구조 (j3) 와성별 (gender) 에대한결과를쉽게이해하기위해분석표를작성하고자할때다음과같은과정으로교차분석을실행한다. 분석 (A) 기술통계량 (E) 교차분석 (C)

연구자가대학서열화구조 (j3) 과성별이서로연관되어있는지여부를알아보기위해, 화면우측에서행 (Row) 에성별을지정하고, 열 (Column) 에대학서열화구조 (j3) 를지정한다. 아래에정확한검정 (Exact) 통계량 (Statistics), 셀 (Cell), 형식 (Format) 이있는데, 이는각각다음과같다. 1) 정확한검정 키워드 점근적검정 (Asymptotic Only) 몬테카를로 (Monte Carlo) 정확 (Exact) 내용설명 검정통계량의점근적분포. 데이터가많음을가정한다. 점근적방법가정에관계없이데이터군이큰경우, Monte Carlo 단추를누르면, 원하는신뢰수준의표본의수를지정할수있다. 관측결과의확률또는더많은극단값의출현확률을정확하게계산하는데, 이키워드를누르면검정당제한시간을얻을수있다. 2) 통계량 키워드 카이제곱 (Chi-Square) 상관관계 (Correlations) 명목데이터 (Nominal) 분할계수 (Contingency coefficient) 파이및 Cramer의 V (Phi and Cramer's V) 람다 (Lambda) 불확실성계수 (Uncertainty coefficient) 명목데이터 (Nominal) 에타 (Eta) 순서데이터 (Ordinal) 감마 (Gamma) Sommers의 d (Sommers's d) 내용설명 Pearson 카이제곱, 우도비카이제곱, 선형대결합카이제곱값을제시한다. 두변수간의선형결합을나타내는 Pearson 상관계수및두변수의등간척도의 Spearman 상관계수를제시한다. 명목자료의통계량인경우아래의하나를선택하면된다. 카이제곱을기초로한결합값 (0 과 1 사이에존재 ) 카이제곱의값을표본의수로나눈다음제곱을취한경우의값 독립변수를통해종속변수를예측하는정도로 1은완전한예측을나타내고, 0은독립변수가종속변수를전혀예측못하는것을나타낸다. 첫번째변수를통한두번째변수의정보를얻는정도로상한값 1에가까울수록첫번째변수값에대한정보를더많이예측한것이되고, 0에가까울수록두번째변수에대한정보를얻지못하는경우이다. 명목척도와구간척도일경우 구간척도에대해측정된종속변수와범주데이터를가지는독립변수에대한적합한결합측정값, 두개의 Eta 값이계산된다. 변수가서열척도인경우 카이제곱검정을마친후에쓰이는보충설명자료 독립변수에대한대응변수가비대칭을이루는분포

Kendall의타우-b (Kendall's tau-b) Kendall의타우-c (Kendall's tau-c) 카파 (Kappa) 위험도 (Risk) McNemar Cochran 및 Mantel- Haenzel 통계량 동률을고려한비모수통계의상관계수 동률을고려하지않은비모수통계의상관계수 같은개체에대해평가를내린평가자의동의를나타내는값으로 1 은완전동의, 0 은동의가없음. 요인의존재와사건의발생간결합강도의측정값 명목변수와순위변수로되어있는두변수간의분포차이검정한개이상의통제변수로정의되는공변량방법에따라, 이분형요인변수와이분형응답변수간의독립성을검정. 3) 셀형식표기 키워드 관측빈도 (Observed) 기대빈도 (Expected) 행 (Row) 열 (Column) 전체 (Total) 표준화되지않음 (Unstandardized) 표준화된잔차 (Standardized) 수정된표준화잔차 (Adjusted standardized) 실제관측된사례의빈도수 내용설명 행변수와열변수가통계적으로독립되어있으며, 서로관련되어있지않은경우, 셀에기대되는케이스수. 행의퍼센트를나타냄열의퍼센트를나타냄각셀의총합퍼센트를나타냄 표준화되지않은잔차 표준화된잔차 수정된표준화잔차 [ 결과 ] 각셀의통계수치는빈도수, 행백분율이다. 각행의오른쪽끝에는성별에대한각그룹별합계가제시되며, 각열의최하단에는대학서열화구조에대한그룹별합계가제시된다. 예를들어, 표의첫번째셀을보면, `남자 ' 이면서, 대학서열화구조측면에서 `전혀아니다 ' 라고답한사람은 1명이다. 이는전체남자 56명중에서 1.8% 를차지하고있음을알수있다.

[ 결과 : 카이제곱검정 ] 피어슨 (Pearson) 의카이제곱값은 0.133이고, 자유도가 4일때유의확률 P = 0.998로유의수준 5% 에서유의하지않다. 따라서두변수 ( 성별과대학서열화구조 ) 가서로상호독립적이라는귀무가설을채택하게된다. 즉, `성별 ' 에따른 `대학서열화구조 ' 사이에는관련성이없다고보여진다. 또한우도비도동일한결과를보여주고있다. [ 결과 : 상관계수 ] 피어슨상관계수 (Pearson's R) 는두변수가등간척도로측정되었을경우에나타내는것으로여기서 -0.003이다. 그리고스피어만상관계수 (Spearman Correlation) 은두변수가순위척도로측정되었을경우에나타내는것으로, 여기서 0.001이다.

12. 복수응답처리분석 연구자가응답을얻어내기위해복수로응답하는설문을이용하는경우가있다. 복수로응답되는자료는설문방식에따라복수이분형과다중범주형으로구분되고, 입력하는방식도각각다르다. 여러종류의복수응답설문중어느것을선택할것인가는연구자의연구목적에따라선택하게된다. ( 문1) 다음중당신이좋아하는프로그램을 2개만고르시오. 1 교양 ( ) 2 오락 ( ) 3 뉴스 ( ) 4 연속극 ( ) ( 문2) 다음프로그램에서당신이좋아하는프로그램을모두고르시오. 1 교양 ( ) 2 오락 ( ) 3 뉴스 ( ) 4 연속극 ( ) 12.1 이분형응답처리 이분형응답처리는각응답자에대한복수응답처리의한가지방법으로각응답자가선택한변수에값 `1' 을부여하고선택하지않은변수에는 `0' 을부여하는방법이다. ( 문 1) 다음중당신이좋아하는프로그램을 2 개만고르시오. 성별 교양 오락 뉴스 연속극 남자 여자 남자 여자 남자 여자 위설문의응답자료를입력하기위해서는초기화면에서다음과같은순서에의해서작업을진행하면된다. 여기서, GENDER= 성별 (1= 남자, 2= 여자 ), V1= 교양, V2= 오락, V3= 뉴스, V4= 연속극이다.

복수응답에대한자료를입력하기위해서는다음과같은과정을거친다. 다중응답 (M) 변수군정의 (D) 각각변수에대하여응답자가선호하는프로에선택한경우는 `1', 선택하지않은경우는 `0' 을입력한후, 복수응답처리를위해서는변수를통합하여야만복수응답란에서빈도분석및교차분석을할수있다. 2개이상의복수응답에대한 ( 문3) 도마찬가지 0 과 1로응답한값을입력하면된다. 위와같이복수응답에서임시변수를만들기위한다중응답변수군정의창 (Define Multiple Response Sets) 이나타난다. 왼쪽상자의변수군정의 (Set Define) 에서교양, 오락, 뉴스, 연속극변수를변수군에포함된변수 (Variable in Set) 란에옮긴후, 변수들의코딩형식 (Variable Are Code As) 의 이분형란에서반응값 (Dichotomies Counted value) 에 `1' 을입력한다. 그리고, 새로운변수를만들기위해이름 (Name) 란에 `X1' 이라는새로운변수를입력하고추가 (Add) 를누르면, 오른쪽다중응답변수군 (Mult Response Sets) 에 `$X1' 이생성된다. 이후닫기 (Close) 를클릭하면새로운변수만들기가끝난다. 이제복수응답의빈도분석을실시하기위해서, 다음과같이실행한다. 다중응답 (M) 빈도분석 (F) 왼편의그림에서다중응답변수군 (Mult Response Sets) 에있는복수응답변수 [X1] 을오른편의표작성응답군 (Tables for) 으로옮긴후확인을누르면다음과같은결과를얻을수있다.

[ 결과 : 다중응답빈도분석 ] 전체응답자 6 명에대해 2 개씩응답을받은각각의빈도수와백분율이나타나있다. 12.2 범주형응답처리 이분형응답처리입력시에 0,1 코드를사용하였다. 범주형에서는질문번호를그대로사용한다. 즉, 다음화면에서보는바와같이, 첫번째응답자는 pro1 에 2번 `오락 ', pro2 에 3번 `뉴스 ' 를선택하고있음을나타낸다. 이방법은설문지상에요구한선택개수와동일한수의변수 ( 예를들어, pro1 과 pro2) 를만들어처리하는방법이다. 이에대한범주형응답처리초기화면은다음과같다. 여기서, GENDER= 성별 (1= 남자, 2= 여자 ), V1= 첫번째선호프로 (1= 교양, 2= 오락, 3= 뉴스, 4= 연속극 ) 이고 V2= 두번째선호프로이다.

왼편의변수군정의상자에서 `V1', `V2' 를동시에지정한후오른편의변수군에포함된변수로옮긴다. 변수들의코딩형식상자에서 범주형 (Catefories) 을클릭한후, 범위 (Range) 란에 `1' 에서 `4' 를입력한다. 그리고이름과설명란에변수명을넣어주고추가를누르면오른쪽하단의다중응답변수군란에 `$X2' 가추가된다.

13. 상관분석 통계분석을하다보면모집단사이의독립성은유지할수있으나, 모집단을이루는구성원의변수들은서로독립적인경우가사실매우드물다. 변수는개체를설명해주는특성이라할수있는데이러한여러특성들이개체안에서서로유기적인관계를갖고있기때문이다. 예를들어, 광고비의지출이많으면많을수록매출액은증가할것이고, 판매원의수가많으면많을수록시장점유율은증가할것이다. 또한소비자의가격에대한인지와품질인지사이에는관계가있을것이다. 이와같이두변수사이에는밀접한관계가있다. 상관계수구하는방식을모집단과표본으로나누어설명하면다음과같다. 1 모집단상관계수, 2 표본상관계수, 여기서,,, 3 편 ( 부분 ) 상관계수 ( 표본 ) 여기서, 의의미 : 을통제한상태에서 과 의부분적인상관계수를나타냄 13.1 상관계수의종류 상관관계의종류에는세가지가있다. 1 단순상관계수 (simple correlation coefficient) : 두변수간의상관관계 2 다중상관관계 (multiple correlation) : 하나의변수와두변수이상의변수간의상관관계 3 편상관관계 (partial correlation) : 다른변수들의상관관계를통제하고 ( 다른변수들과같이변화하는부분을제외하고 ) 순수한두변수간의상관관계

13.2 상관계수의해석 상관계수는두변수사이의일차적인관계가얼마나강한가를측정해주는지수이다. 이것은두변수사이의일차관계적인 ( 선형적인 ) 방향과관련정도를나타낸다. 1) 산포도를그려봄으로써두변수사이의개략적인관계를파악한다. 2) 공식을이용하여상관계수를구하고해석을내린다. 1.0 ~ 0.7(-1.0 ~ -0.7) 의경우 : 매우강한관련성 0.7 ~ 0.4(-0.7 ~ -0.4) 의경우 : 상당한관련성 0.4 ~ 0.2(-0.4 ~ -0.2) 의경우 : 약간의관련성 0.2 ~ 0.0(-0.2 ~ -0.0) 의경우 : 관련성이없음 13.3 상관계수의가설검정 두변수사이의선형관계가통계적으로유의한지여부를검정하여야한다. 표본상관계수 에근거하여, 모집단의상관관계 (rho) 에대한가설을검정한다. 이가설을검정하기위해서는두변수모두정규분포를따르는분포로부터확률표본이추출되었다는기본가정이있어야한다. 검정절차는다음과같다. 1 가설설정 :, 두변수간에상관관계가없다. :, 두변수간에상관관계가있다. 13.4 상관분석의실행 상관관계가인과관계와는다르다. 즉, 상관분석은종속과독립이라는인과관계가아니라, 상호동등한위치에서변수들상호간변화의방향과정도를파악하고자하는것이다. 예제 ) 다음과같은자료를살펴보자. 도시행정에대한만족도 ( ), 주거환경에대한만족도 ( ) 등이거주년도 ( ) 와관련이있다는가정에따라, 어느지방도시의주민 12명을대상으로조사하여다음과같은결과를얻었다.

응답자도시행정에대한만족도 ( ) 주거환경에대한만족도 ( ) 거주년도 ( ) 1 2 3 4 5 6 7 8 9 10 11 12 6 9 8 3 10 4 5 2 11 9 10 2 3 11 4 1 11 1 7 4 8 10 8 5 10 12 12 4 12 6 8 2 18 9 17 2 (* 매우불만 = 1, 매우만족 = 11) 이를위해다음과같이실행한다. 분석 (A) 상관분석 (C) 이변량변수 (B) 왼쪽의변수상자에서오른쪽변수상자로해당변수를이동하고, 상관계수에서 Pearson 을선택하고유의성검정은양쪽검정을선택한결과를보여주고있다. 상관계수 Pearson 키워드 Kendall 의타우 -b 3 가지종류 내용설명 피어슨상관계수 ( 두변수간선형결합의측도, 상관계수값의범위는 -1 부터 +1 까지이다. 계수의부호는관계의방향을가리키고절대값은강도를나타내는데절대값이클수록강한관계가있음을나타낸다.) 켄달상관계수 Spearman 스피어만상관계수 (Pearson 상관계수의비모수버전 )

[ 결과 : 변수별평균및표준편차 ] 도시행정만족도, 주거환경만족도, 거주년도에대한평균과표준편차가나타나있다. [ 결과 : 상관분석결과 ] 도시행정만족도 ( ) 와주거환경만족도 ( ) 는매우강한정방향의상관관계 (+0.733) 를가지고있으며, 통계적으로매우유의하다 (**). 또한도시행정만족도와거주년수는서로매우강한정방향의상관관계 (+0.936) 을지니고있으며, 통계적으로매우유의하다 (**). 그러나도시행정만족도가높아서주거환경에만족하는지, 혹은주거환경에대한만족도가높아서도시행정의만족도가높은것인지는알수없다 ( 즉, 인과관계는알수없다 ). 사교육실태및의식조사에서연간사교육비와주당사교육시간, 연간영어사교육비, 연간수학사교육비와의상관분석을해보면결과는다음과같다. 연간사교육비와연간영어사교육비는상관계수가 0.235, 유의확률이 0.062로유의수준 5% 하에서유의하지않다는것을알수있다. 즉, 연간사교육비와연간영어사교육비는상관관계가없다. 연간사교육비와연간수학사교육비, 주당사교육시간의상관계수는각각 0.304, 0.338이고각각유의확률이 0.018, 0.001로유의수준 5% 하에서유의하다는것을알수있다. 즉, 연간사교육비와연간수학사교육비는상관관계가있으며, 그크기는 0.304 이다. 마찬가지로연간사교육비와주당사교육시간은 0.338정도의상관관계가있다.

13.5 편상관분석 편상관분석 (Partial Correlation) 은단순상관분석과같이두변수간의관계를분석한다는점에서유사하지만, 두변수에영향을미치는제 3의변수를통제한다는점에서차이가있다. 주거환경에대한만족도 ( ) 변수를통제한상태에서도시행정만족도 ( ) 와거주년수 ( ) 사이의관계를파악하려한다. 이를위해다음과같이실행한다. 분석 (A) 상관분석 (C) 편상관계수 (R) 특정변수인주거환경만족도 ( ) 를통제하고, 다른두변수인도시행정만족도 ( ) 와거주년수 ( ) 의상관관계를구하는과정을나타내고있다. 통제변수에주거환경만족도를입력하면된다. 마찬가지로연간영어사교육비를통제한상태에서연간사교육비와연간수학사교육비의상관관계의결과는다음과같다.

[ 결과 : 편상관계수 ] 주거환경변수를통제한상태에서도시행정만족도와거주년수사이의편상관계수는 0.939임을알수있다. 연간영어사교육비를통제하기전에연간사교육비와연간수학사교육비의상관계수는 0.304로 5% 유의수준하에서유의하였으나, 영간영어사교육비를통제한상태에서연간사교육비와연간수학사교육비의상관계수는 0.1이고유의확률은 0.498로 5% 유의수준하에서유의하지않다는것을알수있다.

14. 회귀분석 여러변수들사이의관계를분석하기위해사용되는회귀분석은독립변수가종속변수에미치는영향력의크기를파악하기위한것이다. 회귀분석의목적은변수사이의관계를설명하는기술적인목적, 통제의목적, 예측의목적을갖는다. 중요한것은회귀분석은독립변수와종속변수가모두양적인변수일때가능하다는점이다. 14.1 회귀분석의의의 두개혹은그이상의여러변수사이의관계를조직적으로분석하여야할때가있다. 예를들어, 연구결과광고액이매출액에영향을준다면, 여기서영향을주는변수를독립변수 (Independent Variable) 라고하고, 후자를종속변수 (Dependent Variable) 라고한다. 여러변수들사이의관계를분석하기위하여사용되는회귀분석은세가지목적을갖는다. 첫째, 기술적인목적을갖는다. 즉, 광고액과매출액사이의관계를기술하고설명할수있다. 둘째, 통제목적을갖는다. 예를들어, 비용과생산량사이의관계, 혹은결근율과생산량사이의관계를조사하여생산관리의효율적인통제에이용할수있다. 셋째, 예측의목적을갖는다. 회귀분석은단순회귀분석 (Simple Regression Analysis) 과다중회귀분석 (Multiple Regression Analysis) 으로나눈다. 단순회귀분석은독립변수와종속변수의수가각각하나씩인경우에이루어지는분석을뜻한다. 그리고다중회귀분석은종속변수가하나이고독립변수가여러개인경우의분석을의미한다. 14.2 회귀분석의통계적검정 분산분석표를이용하여회귀선이통계적으로유의한지여부를검정한다. : : 검정통계량이임계값보다크면귀무가설을기각하고, 회귀선이유의하다고결론을내린다. 14.3 회귀모형의타당성 본격적인회귀분석을하기전에자료분석을위한회귀모형의타당성을검토하는것이중요하다. 1 결정계수 이지나치게작아서 0에가까우면회귀선은적합하지못한다. 2 분산분석에서회귀식이유의하다는가설이기각된경우에는다른모형을개발하여야한다. 3 적합결여검정을통하여모형의타당성을조사한다. 4 잔차를검토하여회귀모형의타당성을조사한다.

14.4 단순회귀분석 매출액에영향을주는주요변수들을파악하기위해다음과같은자료를얻는다. 매출액 ( ) 은광고액 ( ), 판매원의근무년수 ( ) 와 1일문의전화건수 ( ) 에영향을받을것이라는가정하에회귀분석을실시한다. 광고액 ( ) 근무년수 ( ) 25 30 32 37 35 36 40 48 50 55 8 9 10 8 10 9 9 7 10 8 1일문의전화건수 ( ) 30 20 15 20 16 15 16 10 20 15 매출액 ( ) 89 95 100 105 110 100 112 100 130 135 우선, 광고액과매출액의회귀분석을실시해보자. 14.4.1 산점도그리기 산점도그리기는회귀분석의첫단계이다. 산점도를보고, 회귀모형을직선으로나타낼것인지혹은곡선으로나타낼것인지를결정한다. 여기서는광고액이매출액에미치는영향을분석하기위하여그려보기로한다. 축에광고액을선택하고, 축에매출액을선택하여산점도를그려보니, 광고액이증가함에따라매출액이일차함수적 ( 선형관계적 ) 으로증가하고있는것을파악할수있다. 이를토대로회귀직선모형또는회귀선형모형을설정할수있다.

14.4.2 단순회귀분석의실행 단순회귀분석을실행하려면다음의절차를따르면된다. 분석 (A) 회귀분석 (R) 선형 (L) 종속변수란에매출액 ( ) 을입력하고, 독립변수란에광고액 ( ) 을입력한다. 그외통계량과도표그리기는다음과같다. 1) 통계량구하기 키워드 내용설명 회귀계수 추정값 신뢰구간 공분산행렬 회귀계수의추정값및관련통계량각비표준회귀계수에대한 95% 신뢰구간을표시비표준회귀계수에대한분산-공분산행렬 모형의적합 다중,, 수정된, 표준오차등을제공한다. 제곱변화량 통계량의변화량으로서독립변수를추가하거나삭제함으로써생성된다. 기술통계 평균, 표준편차, 그리고단측검정유의수준을가진상관행렬 부분상관및편상관계수 0차, 부분및편상관을표시한다. 공선성진단잔차 Durbin-Watson 케이스별진단 개별변수에대한공차한계와다중공선성문제진단을위한통계량 연속으로수정된잔차에대한 Durbin-Watson 검정과잔차및예측값에대한요약통계량선택기준을만족하는케이스에대한케이스별진단을생성

2) 도표그리기 키워드 DEPENDENT *ZPRED *ZRESID *DRESID *ADJPRED *SRESID *SDRESID 표준화잔차도표 히스토그램 정규확률도표 편회귀잔차도표 내용설명표준화된예측값표준화된예측값 (Standardized residuals) 삭제된잔차 (Deleted Residuals) 조정예측값 (Adjusted Predicted Values) 표준화된잔차 (Standardized Residuals) 스튜던트화된삭제잔차 (Studentized Residuals) 표준잔차의임시변수에대한히스토그램을출력지정한임시변수의정규확률산포도를출력명시값보다더큰표준잔차절차를가진경우에한정 [ 결과 : 변수별평균과표준편차 ] 매출액과광고액의평균과표준편차및사례수가나열된다. [ 결과 : 두변수의상관계수 ] 매출액과광고액간의상관계수는 0.844 이고, 두변수의상관계수는유의하다 (P = 0.001). [ 결과 : 단순회귀의결정계수 ] [ : 0.712] 결정계수 은총변동중에서회귀선에의하여설명되는비율을의미하는것으로매출액의변동중에서 71.2% 가광고액에의하여설명된다는것을의미한다. 의범위는 의값을

지닌다. 모든관찰값과회귀식이일치한다면 이되어독립변수와종속변수간에 100% 의상관관계가있다고할수있다. 즉, 의값이 1에가까울수록회귀선은표본을설명하는데유용하다 [ 수정된 : 0.676] 회귀분석이단계적으로전개될때자유도를고려하여조정된 으로서, 일반적으로모집단의결정계수를추정할때더사용된다. 표본의수가충분히큰경우에는위의 값과동일하다. [ 결과 : 단순회귀분석의분산분석표 ] 회귀식이통계적으로유의한지를검정하는분산분석표이다. -통계량의유의확률이 0.002로서 0.05보다작다. 즉, 이회귀식은통계적으로매우유의하다고할수있다. [ 결과 : 단순회귀모형의계수설명 ] [ 상수 56.754, 유의확률 0.001] 회귀식의상수값은 56.754이며, 유의확률은 0.001<0.05이므로통계적으로유의하다. [ 광고액 =1.310, 유의확률 0.02] 광고액의회귀계수는 1.310이고, 이회귀계수의통계적유의성을검정하는 -값은 4.447로유의확률이 0.002<0.05이므로, 이회귀계수는통계적으로매우유의하다고볼수있다. 따라서회귀식은다음과같다. 여기서, = ( 매출액 ) 이고, 은광고액이다. 이회귀식의의미는광고액이 1억원이추가될때마가매출액은 1.310억원씩증가한다는것을나타내고있다. 절편은 56.754이므로, 광고액이 0원일때, 매출액은 56.754억원이므로의미가없다. 만약, 광고액이 56억원인경우는예상매출액이 억원이된다. [ 에대한 95% 신뢰구간 ] 광고액 1 억원을늘리면 95% 의신뢰수준에서광고액은 0.631 억원에서 1.990

억원사이로증가한다. 상관계수의통계적유의도를신뢰구간으로검정해보면이신뢰구간이 0을포함하지않으므로귀무가설, 즉회귀계수는 0이라는귀무가설을기각한다.