R

Similar documents
R t-..

PowerPoint Presentation

<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>

Microsoft Word - SPSS_MDA_Ch6.doc

(001~006)개념RPM3-2(부속)

Microsoft PowerPoint Predicates and Quantifiers.ppt

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

G Power

PowerPoint 프레젠테이션

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포


<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - e pptx

DBPIA-NURIMEDIA

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

statistics

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Microsoft PowerPoint - chap06-2pointer.ppt

슬라이드 1

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

exp

제 4 장회귀분석

<B0A3C3DFB0E828C0DBBEF7292E687770>

분석결과 Special Edition 녹색건물의 가치산정 및 탄소배출 평가 이슈 서 민간분야의 적극적인 참여 방안의 마련이 필요하다. 또한 우리나라는 녹색건축의 경제성에 대한 검증에 대 한 연구가 미흡한 실정이다. 반면, 미국, 영국, 호주 등은 민간 주도로 녹색건축물

금오공대 컴퓨터공학전공 강의자료

Jeeshim & KUCC625 (08/04/2009) Statistical Data Analysis Using R:22 6. 집단간평균비교 집단간평균을비교하는것은기본방법이다. 따라서비교할변수는평균을계산할수있어야하고, 의미있게해석할수있어야한다. 두집단

THE JOURNAL OF KOREAN INSTITUTE OF ELECTROMAGNETIC ENGINEERING AND SCIENCE Nov.; 26(11),

= ``...(2011), , (.)''

¿ï¸²58È£

<31372DB9DABAB4C8A32E687770>

슬라이드 1

기술통계

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

윈도우즈프로그래밍(1)

R Cookbook

chap 5: Trees


<C0D3BFEBB0EDBBE7C1D8BAF130382E687770>

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Microsoft PowerPoint - IPYYUIHNPGFU

adfasdfasfdasfasfadf

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

32

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Microsoft PowerPoint - chap03-변수와데이터형.pptx

Microsoft PowerPoint - chap06-1Array.ppt

230 한국교육학연구 제20권 제3호 I. 서 론 청소년의 언어가 거칠어지고 있다. 개ㅅㄲ, ㅆㅂ놈(년), 미친ㅆㄲ, 닥쳐, 엠창, 뒤져 등과 같은 말은 주위에서 쉽게 들을 수 있다. 말과 글이 점차 된소리나 거센소리로 바뀌고, 외 국어 남용과 사이버 문화의 익명성 등

제 출 문 환경부장관 귀하 본 보고서를 폐기물관리 규제개선 방안연구 에 관한 최종보고서로 제출합니다 연구기관 한국산업폐기물처리공제조합 연구책임자 연 구 원 연구보조원 이 남 웅 황 연 석 은 정 환 백 인 근 성 낙 근 오 형 조 부이사장 상근이사 기술팀장 법률팀장 기

실험. Multimeter 의사용법및기초회로이론 Multimeter 의사용법 멀티미터 (Multimeter) 는저항, 전압, 전류등을측정할수있는계측기로서전면은다음그림과같다. 멀티미터를이용해서저항, 전압, 전류등을측정하기위해서는다음그림과같은프로브 (probe) 를멀티미터

에너지경제연구제 16 권제 1 호 Korean Energy Economic Review Volume 16, Number 1, March 2017 : pp. 35~55 학술 전력시장가격에대한역사적요인분해 * 35

저작자표시 - 비영리 - 동일조건변경허락 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비

제 1 부 연구 개요

광덕산 레이더 자료를 이용한 강원중북부 내륙지방의 강수특성 연구

PowerPoint Template

DBPIA-NURIMEDIA

nonpara1.PDF

하루에 2시간 되는 거리를 매일 왔다 갔다 하는 것이 쉽지는 않았으나, 저는 다니는 동안 나름의 체력이 길러졌다고 생각합니다. 지하철로 이동하는 약 40분 정도 시간 동안 강의를 녹음한 것을 들으면서 굳이 책을 보지 않고도 강의를 복 습함으로써 시간을 효율적으로 사용했

확률과통계 강의자료-1.hwp


02¿ÀÇö¹Ì(5~493s

표본재추출(resampling) 방법

슬라이드 1

Observational Determinism for Concurrent Program Security

실험 5

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

DBPIA-NURIMEDIA

Resampling Methods

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

PowerPoint Presentation

<31372DB9CCB7A1C1F6C7E22E687770>

전자회로 실험

PowerPoint 프레젠테이션


λx.x (λz.λx.x z) (λx.x)(λz.(λx.x)z) (λz.(λx.x) z) Call-by Name. Normal Order. (λz.z)

확률 및 분포


abstract.dvi

?

untitled

제 12강 함수수열의 평등수렴

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

자료의 이해 및 분석

14-X25-JSJ.hwp

제 3강 역함수의 미분과 로피탈의 정리

R R ...


Microsoft PowerPoint - PDF3 SBE pptx

Transcription:

R 과데이터분석 상관관계 양창모 청주교육대학교컴퓨터교육과 2015 년여름 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 1 / 20

상관관계 양적변수quantitative variables 사이의관계relationships를나타내기위하여상관계수correlation coefficients를사용한다. ± 기호를사용하여관계의방향을나타낸다. -1에서 1사이의값은관계의강도를나타낸다. 변수간상관계수가크면변수간의연관관계가존재한다는의미이다. 그러나이것이인과관계를나타내는것은아니다. 변수가서로독립이라면변수간상관계수는 0 이다. 그러나상관계수가 0 이라해서변수가서로독립임을의미하지는않는다. 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 2 / 20

상관관계 R에기본적으로설치되어있는 state.x77 데이터를사용한다. 1977년미국 50개주의인구, 수입, 문맹율illiteracy rate, 기대수명life expectancy, 살인사건비율murder rate, 고등학교졸업률high school graduation rate 기본설치이외에 psych 패키지와 ggm 패키지를사용한다. > head(state.x77) Population Income Illiteracy Life Exp Murder HS Grad Frost Area Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708 Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432 Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 California 21198 5114 1.1 71.71 10.3 62.6 20 156361 Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 3 / 20

상관계수의종류 Pearson, Spearman, Ken- dall, partial, polychoric, polyserial 등여러 상관계수가있다. 보통상관계수라하면 Pearson 상관계수를의미한다. 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 4 / 20

공분산共分散, covariance 두변수사이의상관정도, 둘사이의정의되는관계의밀접도를측정하는 측도로써, Cov(X, Y ) 라표기한다. 만약 2 개의변수중하나의값이상승하는경향을보일때, 다른값도 상승하는경향이있다면, 공분산은양수이며 반대로하나가상승하고다른하나가감소한다면, 공분산은음수가된다. 이처럼공분산은상관관계의상승혹은하강이라고이해할수도있으나, 2 개 변수의측정단위의크기에따라값이달라지므로상관분석을통해정도를 파악하기는부적절하다. Cov(X, Y ) = Σ(x x)(y ȳ) n 1 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 5 / 20

Pearson, Spearman, Kendall 상관계수 Pearson 상관계수두양적변수quantitative variables의선형관계의정도를나타낸다. 두변수의공분산를사용하여계산한다. 연속형값에적합하다 ( 예, 국어점수과영어점수 ). Spearman 상관계수rank correlation coefficient 두변수의실제값대신값의순위를사용하여상관계수를계산한다. Pearson 상관계수와달리비선형관계의연관성을파악할수있다. 순서가있는데이터에적용할수있다 ( 예, 국어석차과영어석차 ). Kendall의순위상관계수rank correlation coefficient (X, Y ) 형태의순서쌍으로값이있을때 x i < x j 일때 y i < y j 이면 concordant, x i < x j 일때 y i > y j 이면 discordant라고정의한다. Kendall 상관계수는 concordant의수가 discordant의수에비하여얼마나많은지그비율로계산한다. 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 6 / 20

cor() 함수 세가지상관계수를계산한다. cor(x, method= pearson ) x - 데이터프레임의행렬 method - 계산할상관계수 (pearson, spearman, kendall) 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 7 / 20

Pearson 상관계수해석 r이 -1.0과 -0.7 사이이면, 강한음적선형관계, r이 -0.7과 -0.3 사이이면, 뚜렷한음적선형관계, r이 -0.3과 -0.1 사이이면, 약한음적선형관계, r이 -0.1과 +0.1 사이이면, 거의무시될수있는선형관계, r이 +0.1과 +0.3 사이이면, 약한양적선형관계, r이 +0.3과 +0.7 사이이면, 뚜렷한양적선형관계, r이 +0.7과 +1.0 사이이면, 강한양적선형관계 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 8 / 20

cor() 함수 > states<- state.x77[,1:6] > cor(states) Population Income Illiteracy Life Exp Murder HS Grad Population 1.00000000 0.2082276 0.1076224-0.06805195 0.3436428-0.09848975 Income 0.20822756 1.0000000-0.4370752 0.34025534-0.2300776 0.61993232 Illiteracy 0.10762237-0.4370752 1.0000000-0.58847793 0.7029752-0.65718861 Life Exp -0.06805195 0.3402553-0.5884779 1.00000000-0.7808458 0.58221620 Murder 0.34364275-0.2300776 0.7029752-0.78084575 1.0000000-0.48797102 HS Grad -0.09848975 0.6199323-0.6571886 0.58221620-0.4879710 1.00000000 > cor(states, method="spearman") Population Income Illiteracy Life Exp Murder HS Grad Population 1.0000000 0.1246098 0.3130496-0.1040171 0.3457401-0.3833649 Income 0.1246098 1.0000000-0.3145948 0.3241050-0.2174623 0.5104809 Illiteracy 0.3130496-0.3145948 1.0000000-0.5553735 0.6723592-0.6545396 Life Exp -0.1040171 0.3241050-0.5553735 1.0000000-0.7802406 0.5239410 Murder 0.3457401-0.2174623 0.6723592-0.7802406 1.0000000-0.4367330 HS Grad -0.3833649 0.5104809-0.6545396 0.5239410-0.4367330 1.0000000 수입 income 과고등학교졸업률 HS Grad 은강한양적상관관계가있다. 문맹률 Illiteracy 와기대수명 Life Exp 는강한음적상관관계가있다. 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 9 / 20

cor() 함수 두인수를사용하여원하는변수들의상관계수를구할수있다. > x <- states[,c("population","income","illiteracy","hs Grad")] > y <- states[,c("life Exp", "Murder")] > head(x) Population Income Illiteracy HS Grad Alabama 3615 3624 2.1 41.3 Alaska 365 6315 1.5 66.7 Arizona 2212 4530 1.8 58.1 Arkansas 2110 3378 1.9 39.9 California 21198 5114 1.1 62.6 Colorado 2541 4884 0.7 63.9 > head(y) Life Exp Murder Alabama 69.05 15.1 Alaska 69.31 11.3 Arizona 70.55 7.8 Arkansas 70.66 10.1 California 71.71 10.3 Colorado 양창모 ( 청주교육대학교컴퓨터교육과 72.06) 6.8 Data Analysis using R 2015년여름 10 / 20

cor() 함수 두인수를사용하여원하는변수들의상관계수를구할수있다. > x <- states[,c("population","income","illiteracy","hs Grad")] > y <- states[,c("life Exp", "Murder")] > cor(x,y) Life Exp Murder Population -0.06805195 0.3436428 Income 0.34025534-0.2300776 Illiteracy -0.58847793 0.7029752 HS Grad 0.58221620-0.4879710 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 11 / 20

상관관계의유의성검정 귀무가설은상관이없다. 즉모집단의상관계수는 0이다. cor.test() 함수를사용하여상관관계의유의성검정을한다. cor.test(x, y, alternative = "two.side", method ="pearson" ) x, y - 상관계수를계산할변수 alternative - ("two.side", "less", "greater") method - ("pearson", "kendall", "spearman") 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 12 / 20

상관관계의유의성검정 다음예는기대수명과살인사건율의상관관계를검정한다. 귀무가설은 상관계수가 0 이다 이며 p value = 1.258e 08 < 0.05 이므로 귀무가설을기각한다. 기대수명과살인사건율의상관계수는 0 이아니다 라고결론내릴수있다. > cor.test(states[,3], states[,5]) Pearson s product-moment correlation data: states[, 3] and states[, 5] t = 6.8479, df = 48, p-value = 1.258e-08 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: 0.5279280 0.8207295 sample estimates: cor 0.7029752 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 13 / 20

상관관계의유의성검정 cor.test() 함수는한번에하나의상관관계만을검정할수있다. psych 라이브러리의 corr.test() 함수를사용하여여러변수의상관관계를검정할수있다. cor.test(x, y, method = ) x, y - 상관계수를계산할변수 method - ("pearson", "kendall", "spearman") 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 14 / 20

상관관계의유의성검정 cor.test() 함수는한번에하나의상관관계만을검정할수있다. psych 라이브러리의 corr.test() 함수를사용하여여러상관관계를 검정할수있다. > install.packages("psych") > library(psych) > corr.test(states) Call:corr.test(x = states) Correlation matrix Population Income Illiteracy Life Exp Murder HS Grad Population 1.00 0.21 0.11-0.07 0.34-0.10 Income 0.21 1.00-0.44 0.34-0.23 0.62 Illiteracy 0.11-0.44 1.00-0.59 0.70-0.66 Life Exp -0.07 0.34-0.59 1.00-0.78 0.58 Murder 0.34-0.23 0.70-0.78 1.00-0.49 HS Grad -0.10 0.62-0.66 0.58-0.49 1.00 Sample Size [1] 50 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 15 / 20

상관관계의유의성검정 Probability values (Entries above the diagonal are adjusted for mu Population Income Illiteracy Life Exp Murder HS Grad Population 0.00 0.59 1.00 1.0 0.10 1 Income 0.15 0.00 0.01 0.1 0.54 0 Illiteracy 0.46 0.00 0.00 0.0 0.00 0 Life Exp 0.64 0.02 0.00 0.0 0.00 0 Murder 0.01 0.11 0.00 0.0 0.00 0 HS Grad 0.50 0.00 0.00 0.0 0.00 0 To see confidence intervals of the correlations, print with the s 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 16 / 20

상관관계를알아보기쉽게 산포도 > layout(matrix(c(1,2,3,4), 2, 2, byrow = TRUE)) > plot(states[,"income"],states[,"murder"]) > plot(states[,"income"],states[,"life Exp"]) > plot(states[,"murder"],states[,"life Exp"]) > plot(states[,"hs Grad"],states[,"Income"]) 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 17 / 20

상관관계를알아보기쉽게 산포도 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 18 / 20

상관관계를알아보기쉽게 살펴봐야할열의수가맣으면한눈에숫자가들어오지않을수있다. symnum() 함수는특정범위의값을문자로치환하여보기쉽도록한다. > symnum(cor(states[,2:6])) In Il LE M HG Income 1 Illiteracy. 1 Life Exp.. 1 Murder,, 1 HS Grad,,.. 1 attr(,"legend") [1] 0 0.3. 0.6, 0.8 + 0.9 * 0.95 B 1 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 19 / 20

상관관계를알아보기쉽게 corrgram 패키지는상관계수를시각화하는데유용한패키지이다. 파란색은양의상관계수, 빨간색은음의상관계수를의미한다. 상관계수의절대값이클수록색은진해진다. > library(corrgram) > corrgram(cor(states[,2:6]), type="corr", upper.panel=panel.conf) 양창모 ( 청주교육대학교컴퓨터교육과 ) Data Analysis using R 2015 년여름 20 / 20