Microsoft Word - EDA_Univariate.docx

Similar documents
Microsoft PowerPoint - SBE univariate5.pptx

untitled

슬라이드 1

Microsoft Word - SAS_Data Manipulate.docx

확률과통계6

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft Word - EDA_Univariate.docx

R t-..

statistics

10. ..

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

untitled

확률 및 분포


Microsoft PowerPoint - LN05 [호환 모드]

Microsoft PowerPoint - PDF3 SBE pptx

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

확률과통계4

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

모수검정과비모수검정 제 6 강 지리통계학

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

(001~006)개념RPM3-2(부속)

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

통계학입문

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

01

... —....—

확률과통계 강의자료-1.hwp

자료의 이해 및 분석

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

용역보고서

제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

G Power

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

Microsoft Word - Ch2_Function_math.docx

Microsoft Word - Chapter6.doc

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

untitled

PowerPoint 프레젠테이션

Microsoft PowerPoint Relations.pptx

통계학입문


MS_적분.pages

PowerPoint Presentation

Microsoft PowerPoint - 26.pptx

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

목차 1. 통계학이란무엇인가? 2. 통계학의응용분야 3. 통계학의분야들 4. 강의소개 5. 그리고..



윈도우즈프로그래밍(1)

... —... ..—

<4D F736F F F696E74202D20C5EBB0E8C0FB20B0F8C1A4B0FCB8AEBFE4BEE02E >

Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

<B1B3C0B0B0FAC1A45FC3E2B7C22E687770>

Microsoft Word - Chapter4.doc

YBM시사닷컴, 첨단 개인별 맞춤 학습 시스템 개발

슬라이드 1

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

1 5 0

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

Microsoft PowerPoint - IPYYUIHNPGFU

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

Microsoft PowerPoint Predicates and Quantifiers.ppt

슬라이드 1

PowerPoint 프레젠테이션

= ``...(2011), , (.)''

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

(Microsoft PowerPoint - Ch21_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

cha4_ocw.hwp

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

단순 베이즈 분류기

메타분석: 통계적 방법의 기초

Microsoft Word - Ch1_Introduction.docx

기술통계

Microsoft Word - Chapter9.doc

슬라이드 1

스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

실험 5

adfasdfasfdasfasfadf

수리통계학

Microsoft PowerPoint - chap06-2pointer.ppt


데이터마이닝 제 1강

Microsoft Word - Ch1_Introduction_EDA.docx

국가기술자격 재위탁 효율성 평가

슬라이드 제목 없음

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

<4D F736F F F696E74202D20C1A63036C0E520BCB1C5C3B0FA20B9DDBAB928B0ADC0C729205BC8A3C8AF20B8F0B5E55D>

Survey Analyst 2013 년 1 회사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 질문지문항작성원칙에부합하는질문을모두짝지은것은? 2. 연역법과귀납법에관한설명으로옳은것은? 3. 설문조사에관한옳은설명을모두짝지은것은? 제공카페 : Daum 사회조사분석사 G

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

KDI정책포럼제221호 ( ) ( ) 내용문의 : 이재준 ( ) 구독문의 : 발간자료담당자 ( ) 본정책포럼의내용은 KDI 홈페이지를 통해서도보실수있습니다. 우리나라경

Transcription:

일변량분석개념 일변량분석은개체의특성을 측정한변수가하나인 통계분석 방법 변수의 종류 ( 수리 통계 ) 이산형 (discrete): 측정결과를셀수있는경우이다. 성별, 직업, 교통량, 나이등이여기해당된다. 연속형 (continuous): 측정결과가무한이 (infinite) 많은변수를연속형형변수라한다. 즉변수의범위 (range) 중어떤구간을설정하더라도측정치가발생할할수있는경우로키, 몸무게, IQ, 소득등이여기에해당된다. ( 자료분석 ) 측정형변수 (metric, measurable, quantitative): 실험개체의측정가능한특성을측정한변수, 측정단위가존재 ; 키, 몸무게, 평점, IQ, 교통량, 사망자수가그예이다. 연속형변수는모두측정형변수이고이산형변수중측정형변수가있을수있다. ( 예 ) 교통사고건수, 나이 ( 년 ) ( 1) 구간 interval : 값의크기가등간 ( 온도, 증가율 ) (2) 비율 ratio : 정대 0 이존재하며두값의비교가배수(times) 가능능 : 대부분측정형 평균 & 표준편차, 중앙값 &IQR 분류형 ( 범주형 ) 변수 (non-metric, classified, categorical, qualitative): 개체를분류하기위해측정된변수를의미하며성별, 결혼여부등이그예이다. (1) 명목형 (nominal) : 개체를분류만한다. 성별, 결혼여부, 학력 (2) 순서형 (ordinal) : 순서를가진다. 성적 (A, B,..) 소득수준 ( 상, 중, 하 ), 리커트척도 (5 점, 매우만족, 만족,, 매우불만족 ) 빈도분석, 비율 분석방법비율추론평균추론분산추론모수적방법 vs. 비모수적방법 1

in EDA 데이터를그래프로표현하여개체를구성한모집단의정보를얻는다. 범주형데이터는바차트로표현되어비율 ( 상대빈도 ) 로요약됨 측정형데이터는데이터의중앙위치, 흩어진정도, 봉우리형태등을 표현 그래프 요약필요성 개별변수에대한일변량분석은변수가가진정보를그래프로요약하거나나주요한숫자값으로 ( 통계량 ) 요약하게된다. 앞에서언급하였듯이그래프요약은변수에대한가정이 ( 확률표본, independently and identically y distributed) 성립하는지진단하게된다. 그래프진단은데이터의좌우대칭 ( 종모양 symmetric, bell shaped), 이상치치진단을하게된다. 그이유는평균이주된도구이기때문이다. 평균은치우침과이상치에취약하다. 확률분포함수 probability densityy functionn 일변량데이터가가진정보은확률밀도함수에의해표현된다. 확률변수표본공간 S 의모든원소 ( 결과 w ) 에실수 x 을대응시킨규칙을확률변수 X ( w) x 확률분포함수확률변수 X 의확률밀도함수 (probability density function, f pdf) 는확률변수 X 가가지는값 x 와그에대응하는확률 px ( ) 을그래프, 수식, 표형태로나타낸것이다. 만약좋은표본이 ( 모집단의축소판 ) 추출되었다면표본의분포는모집단의분포와같다. 그러므로만약모집단의분포 ( 실선 ) 함수를안다면다음을구할수있다. 모집단개체중 2

일부구간 ( 빨간점선구간 ) 에속한개체비율 ( 확률 )? 그러나불행히도표본자료의 분포로부터함수 식 (x) f ( 확률분포함수 : 실선그래프 ) 을아는것은불가능하다. 그러므로일반적으로통계학에서는모집단의분포에대한가정을하거나 ( 예 : 모평균검정을위한 t-검정에서소표본일경우모집단정규분포가정 ) 대표적인분포함수 ( 이항분포, 포아송분포, 지수분포, 감마분포, t-분포, F-분포, 정규분포 ) 를규정하고있다. 데이터 분석 : 확률분포를역할 데이터분석에서는모집단의확률분포함수형태를알고자하는것은아니다다. 모집단의특성을나타내는모수 parameter ( 예 : 평균, 비율, 분산 ) 에대한추정및가설검정이중요하다. 그러면데이터분석에서표본데이터확률분포를시각화하는이유는? 모집단으로부터확률표본기법을통하여얻어지는데이터 중심극한정리 에의하면표본의크기가크면표본평균 ( x ) 의분포는모집단의분포와관계없이 ( 모르더라도 ) 정규분포를따른다의미? CLT 는표본분포함수 (sample distribution) 에대한것이아니라표본평균의분포 (sampling dist.) 에관한것이다. 표본분포함수 ( 실선 ) 는여전히모집단의분포함수 f (x) 와동일하다. 그러니가정이나사전정보없이는그래프만가지고는알수없다. 그러나대표본 (n> 20~30) 일경우표본평균의분포는는 CLT에의해정규분포를따른다. 이것이왜그렇게중요하다. 우리가모집단에관심을가질때모집단자료전체에대한정보 ( 분포함수 ) 를구하는것보다는모집단의자료정보를요약한값 ( 이를모수 : parameter 라함 ) 에관심을갖게된다. 예를들면중앙의위치는?( 평균, 중앙값 ) 자료의흩어진정도는? ( 표준편차, 범위 ) 특히모집단의평균 ( ) 에관심을갖게된다. 이경우모집단의분포를모르더라도 CLT 에의해다음사실을알수있다. ( 이전페이지그림점선그래프참고) x Pr( z / 2 1 s / n ) s x z / 2 : 모평균 95% 신뢰뢰구간 n 만약대표본이아닌경우는 t-t 분포를이용해야되는데이런경우모집단은은정규분포를따르고있음을가정하게된다. 3

(1) B ( p 0.1) 베르누이확률분포를그리시오. (2) 베르누이분포 B( p 0.1) 에서크기 2인확률표본을추출하여표본평균을구하시오 (3) 표본평균을이용하여 95% 신뢰구간을구하고, 구해진신뢰구간이모평균을포함하고있는지판단하시오. (4) 위의 (2)-(3) 작업을 100 번반복하여 100개표본평균을구하고, 100 개 95% 신뢰구간중모평균을포함하지않은신뢰구간의수를적으시오. (5) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리시오. (6) 베르누이분포 B( p 0.1) 에서크기 20 인확률표본을추출하여평균을을구하고, 이런작업을 100 번반복하여 100 개표본평균을구하시오. (7) 얻어진표본평균 100 개를이용하여표본데이터확률분포함수를그리시오. 즉히스토그램을그리기 위의동일한작업은 Normal( 10,5) 에서실시하시오. 통계분포함수 (statistical distribution function) 함수 d*(x, 모수 ) p*(x, p, 모수 ) q*(p, 모수 ) r*(n, 모수 ) 기능확률밀도함수확률값, f(x) 분포함수값, F(x) 역분포함수값, F -1 (p) 분포함수따르는데이터 n 개랜덤하게생성 4

http:// /www.statmethods.net/management/index.html ( 데이터관리 ) 제어문 control statement for( 변수 in 연속 ) { 문장 } 연속에지정된값만큼변수값이이변화하면서 문장 을반복실행한다. 5

if ( 조건 ) { 문장 } 조건이만족하면문장이 실행된다. while( 조건 ) { 문장 } 조건이만족하는동안문장반복실행된다. 함수만들기 6

plot(x, y, main=, sub=, xlim=c(a, b), ylab=, type= t ) 그래프함수 자신의 함수활용하기 7