PowerPoint 프레젠테이션

Similar documents
PowerPoint 프레젠테이션

PowerPoint 프레젠테이션

G Power

Microsoft PowerPoint - IPYYUIHNPGFU

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

자료의 이해 및 분석

statistics

R t-..

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

제 4 장회귀분석

고객관계를 리드하는 서비스 리더십 전략


제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

비선형으로의 확장

Resampling Methods

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

표본재추출(resampling) 방법

Microsoft PowerPoint Relations.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - LectureNote.doc

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

4 _ 한국지역정보화학회기획세미나발표논문집

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

Microsoft PowerPoint - 26.pptx

슬라이드 1


Microsoft Word - SPSS_MDA_Ch6.doc

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

한국정책학회학회보

<4D F736F F F696E74202D FC0E5B4DCB1E220BCF6BFE4BFB9C3F8205BC8A3C8AF20B8F0B5E55D>

한국색채학회 논문심사 및 편집일정

(001~006)개념RPM3-2(부속)

untitled

PPT Template

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

exp

슬라이드 1

자료의 이해 및 분석

untitled

슬라이드 1

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

MATLAB for C/C++ Programmers

자료분석론 - 국민건강영양조사 분석

MATLAB for C/C++ Programmers

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

빅데이터_DAY key

모수검정과비모수검정 제 6 강 지리통계학

= ``...(2011), , (.)''

슬라이드 제목 없음

에듀데이터_자료집_완성본.hwp

선형모형_LM.pdf

DBMS & SQL Server Installation Database Laboratory


슬라이드 1

에너지경제연구 Korean Energy Economic Review Volume 11, Number 2, September 2012 : pp. 1~26 실물옵션을이용한해상풍력실증단지 사업의경제성평가 1

<4D F736F F D20B1E2BBF3C5EBB0E85F36C0E55FC7D0BBFD2E646F6378>

2013_1_14_GM작물실용화사업단_소식지_내지_인쇄_앙코르130.indd

공기업정책학석사학위논문 비성과적요인이개인성과평가 결과에미치는영향분석 사사례중심으로 년 월 서울대학교행정대학원 공기업정책학과 고동신

Chapter 분포와 도수분석


시스템경영과 구조방정식모형분석

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Chapter ...

출산전후근로및임금동학에관한연구 첫자녀출산과연계된경력단절및복귀를중심으로 I. 서론

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역


Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

Microsoft PowerPoint - e pptx

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

슬라이드 1

Microsoft Word - Chapter9.doc

제 4 장수요와공급의탄력성

Microsoft PowerPoint - LM 2014s_Ch4.pptx

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

Microsoft Word - SAS_Data Manipulate.docx

Observational Determinism for Concurrent Program Security

Chapter 8 단순선형회귀분석과 상관분석

공기업정책학석사학위논문 직무순환제도가 직무만족에미치는영향 조직공정성의조절효과를중심으로 년 월 서울대학교행정대학원 공기업정책학과 오석주

Statistics Basic_ko_chapter_04

Microsoft Word - sbe_anova.docx

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

Chapter 7 분산분석

게시판 스팸 실시간 차단 시스템



통계분석가이드라인 통계 (Statisitcs) 란? Second Language in Science 전남대학교치의학전문대학원임회정 1 2 모집단 (Population) 과표본 (Sample) 통계분석단계 Sampling 추정 1. 귀무가설수립 2.

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

Transcription:

응용식물통계학 Statistics of Applied Plants Science 친환경식물학부유기농생태학전공황선구

- 1. 분산분석 2. 회귀분석

준비 R과 R studio 설치 https://cran.r-project.org/bin/windows/base/ R 다운로드후설치 https://www.rstudio.com/products/rstudio/download/#download RStudio 1.2.1335 - Windows 7+ 다운로드후설치 통계교재 RAW files 다운로드 https://drive.google.com/drive/folders/0b98qpkk5ejemynj1aja1zvjwmzg

준비 프로그램검색에서 Rstudio 검색후실행 (R 아님에주의 )

File 클릭 New Project 클릭 RAW file 다운경로지정 ( 분석대상파일경로지정 ) 후 open

1 psds_data 압축해제한폴더지정

p value 의정의 ( 유의확률 ) 예 ) p value = 0.02, 1 0.02 = 0.98, 즉유의확률 98% 에속함 유의계수 유의확률 (p value) ( 기각역 ). 비교군들이서로유의하게다르다. p value = 0.15, 1 0.15 = 0.85, 즉유의확률 85% 에속함 ( 채택역 ). 비교군들이서로유의하게다르지않다.

분산분석을위한 R 명령어 data<-read.csv("four_sessions.csv") install.packages("ggplot2") library(ggplot2) install.packages("lmperm") library(lmperm) ggplot(data,aes(x=page,y=time))+geom_boxplot() summary(aovp(time~page,data=data)) summary(aov(time~page,data=data)) data1<-matrix(c(14,986,8,992,12,988),nrow=2) data1 dimnames(data1)<-list("l"=c("click","noclick"),"stat"=c("headline_a","headline_b","headline_c")) data1 chisq.test(data1) chisq.test(data1,simulate.p.value=true) fisher.test(data1)

> install.packages( ggplot2 ) > Library(ggplot2) 분산분석을통하여 4 개의다른웹페이지에대한선호도가다른지같은지 검정해보자 분산분석은일반적으로카이제곱검정과 F 검정이용. 카이제곱검정 : 단일표본의모집단이정규분포이며분산을알고있는경우에적용. 하지만, 통계과정에서이를알고있는경우가드물기때문에모집단을알고있지않은경우의 F 검정을중심으로분석.

분산분석 ( 여러그룹간의통계적인유의미한차이를검정하는분석 ; ANOVA) 의토대가되는재표본추출과정 1 데이터를한곳에수집 2 데이터를각그룹에같은수로다시추출 3 각그룹의평균을기록 4 각그룹의평균에대한분산을기록 5 2~4 단계를여러번반복 ( 예 : 1000번 ) 6 이렇게수집된분산을통해 p값을계산 분산분석을위해 aovp 함수를통해순열검정실시 순열검정 : 두개이상의표본을함꼐결합하여관측값들을무작위로 ( 또는전부를 ) 지표본으로추출하는과정 ( 임의화검정, 임의순열검정, 정확검정 ) Iter 은순열검정을위한반복수 Pr(Prob) 값이 p 값 (p value)

두그룹의평균비교를위하여순열검정대신 t 검정을사용할수잇는것처럼 F 통계량을기반으로한 ANOVA 통계검정도있다. Df 는자유도, Sum Sq 는제곱합, Mean Sq 는평균제곱, F value 는 F 통계량. 위의경우는변이요인이하나인일원분산분석 (One-way ANOVA) 이다. 만약변이요인이두개인경우는이원분산분석 (Two-way ANOVA) 를이용

다음의표와같이 A, B, C 의웹페이지에대한방문자의수를비교하자. 위의자료와같이 row column 형태의자료는카이제곱검정에의하여검정가능하다. 카이제곱검정의통계적이론방법, 즉카이제곱분포에대한 p 값

카이제곱검정의재표본추출방법 만약표본수가매우낮을경우에아래와같이 Fisher 의정확검정방법을사용하여더정확한 p 값을얻을수있다.

단순선형회귀분석을위한 R 명령어 lung <- read.csv("lungdisease.csv") library(ggplot2) names(lung) ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_line(color='red',data = lung, aes(x=exposure, y=pefr)) ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_smooth(method="lm",se=false,color='red') ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') model<-lm(pefr~exposure,data=lung) model fitted <- predict(model) resid <- residuals(model) ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red')+geom_line(linetype="dotted") fitted resid

회귀분석 ( 단순선형회귀 ) 노동자들이면진 (Exposure) 에노출된년수와폐활량 (PEFR) 의관계에대하여회귀분석을통하 여예측해보자. 각측정치를선으로이을경우좌측의그림과같이 Exposure 에대한 PEFR 의영향에대한경향성을예측하기어렵다.

회귀분석 > ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_smooth(method="lm",se=false,color='red') 하지만 linear model 을적용하여노출년수에대한폐활량측정치의평균과편차를이용한절편과, 회귀계수를알수있다.

회귀분석 > ggplot(lung,aes(x=exposure,y=pefr)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red')

년수가증가할수록폐활량의변화는 -4.185( 기울기, 계수 ) 의비율을보임 적합값 잔차 ( 측정치와적합값의차이 )

다중선형회귀분석을위한 R 명령어 house <- read.table("house_sales.csv",header=t) head(house) head(house[,c("adjsaleprice","sqfttotliving","sqftlot","bathrooms","bedrooms","bldggrade")]) house_lm <- lm(adjsaleprice~sqfttotliving+sqftlot+bathrooms+bedrooms+bldggrade,data=house,na.action=na.omit) house_lm ggplot(house,aes(x=sqfttotliving,y=adjsaleprice)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') ggplot(house,aes(x=sqftlot,y=adjsaleprice)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') ggplot(house,aes(x=bathrooms,y=adjsaleprice)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') ggplot(house,aes(x=bedrooms,y=adjsaleprice)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') ggplot(house,aes(x=bldggrade,y=adjsaleprice)) + geom_point(color='blue')+geom_smooth(method="lm",se=true,color='red') summary(house_lm)

거주공간, 주차공간, 화장실, 침실, 건물 상태가집의가격에어떻게영향을미 치는지알아보자. 해석은단순선형회귀분석과동일, 다만여러가지독립변수에대한하나의종속변수와의관계를확인가능결과해석 : 거주공간을늘리면가격이약 228달러의비율로증가함.

모두낮은 p-value 로써의미있는결과를예측가능 위의결과에서 adjusted R-squared 의값, 즉수정 R 제곱값은 0.5157 이다. 수정 R 제곱값은결정계수라고도불리우 며값이 1 에가까울수록독립변수에의해종속변수가잘설명되는유용한모델임을제시.

낮은 p-value 로써의미있는 결과를도출 위의결과에서 adjusted R-squared 의값, 즉수정 R 제곱값은 0.5406 이다. 수정 R 제곱값은결정계수라고도불리우며값이 1 에 가까울수록독립변수에의해종속변수가잘설명되는유용한모델임을제시.

지금까지는전형적인통계적회귀측정지표들 (R 2, F 통계량, p 값 ) 은모두 표본내 지표들이다. 만약데이터집합이작다면누구나일반적으로가능한모든데이터를사용해서최상의모델을얻고자할것임. 교차타당성검사 란, 하나의데이터집합을여러개의연속된데이터집합으로나눈후검정하는것. k 다중교차타당성검사방식 1 1/k 의데이터를따로떼어놓는다. 2 남아있는데이터를통해적합한모델을훈련을통해설정 3 모델은 1/k 데이터에적용하고모델측정 ( 평가 ) 지표를기록 4 1/k 를원래집합에복귀한후다시 1/k 그룹을재설정 5 2~3단계반복 6 모든측정값들이검정될때까지반복 7 모델측정지표들을평균과같은방식으로결함 모델을훈련하기위하여데이터를나누는것을폴드 (fold) 라고부름.

어떤회귀분석에서많은변수를예측변수로사용가능. 그러나더많은변수를추가한다고해서꼭더좋은모델을얻는것은아님. 통계학자들은모델선택을위한지침으로 오컴의면도날 " 이라는원리를사용. 오컴의면도날 : 모든것이동일한조건에서는복잡한모델보다는단순한모델을우선사용 일본의 아카이케히로쓰구 는모델에항을추가할수록불이익을주는 AIC라는측정기준을개발. AIC는회귀변수검정에적용가능. AIC를최소화하는모델을어떻게찾을수있을까? 1. 부분집합회귀검정 : 가능한모든모델을검색하여검정, 계산을위한시간과대용량데이터와변수가많은집단에대한검정에적합하지않음. 2. 단계적회귀 : 예측변수를연속적으로추가 / 삭제하여 AIC를낮추는모델을검색가능.

단계적회귀분석을위한 R 명령어 house_full <- lm(adjsaleprice~sqfttotliving+sqftlot+bathrooms+bedrooms+bldggrade+propertytype+nbrlivingunits+sqftfinbasement+yrbuilt+yr Renovated+NewConstruction,data=house,na.action=na.omit) install.packages("mass") library(mass) step <- stepaic(house_full,directoin="both") step

> house_full <- lm(adjsaleprice~sqfttotliving+sqftlot+bathrooms+bedrooms+bldggrade+propertytype+nbrlivingunits+sqftfinbasement+yrbuilt+ YrRenovated+NewConstruction,data=house,na.action=na.omit) > install.packages("mass") > library(mass) > step <- stepaic(house_full,directoin="both")

위의단계적회귀분석결과, 몇개의변수들이삭제된모델을제시. 단계적회귀는모델을만드는데필요한변수들을자동으로결정하는방법.

가중회귀분석을위한 R 명령어 install.packages("lubridate") library(lubridate) house$year=year(house$documentdate) house$weight=house$year-2005 house_wt <- lm(adjsaleprice~sqfttotliving+sqftlot+bathrooms+bedrooms+bldggrade,data=house,weight=weight) round(cbind(house_lm=house_lm$coefficients,house_wt=house_wt$coefficients),digits=3)

정보중에는오래된정보와최근정보가혼재되어있는경우도있다. 통계학자들은오래된정보보다믿을수있는최근정보에가중치를두어분석하는방법을사용 이는주택가격데이터등과같은경우에효과적으로이용가능 > install.packages("lubridate") > library(lubridate) > house$year=year(house$documentdate) > house$weight=house$year-2005 > house_wt <- lm(adjsaleprice~sqfttotliving+sqftlot+bathrooms+bedrooms+bldggrade,data=house,weight=weight) > round(cbind(house_lm=house_lm$coefficients,house_wt=house_wt$coefficients),digits=3) 따라서가중회귀의계수는기존회귀분석결과와조금다름.