Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

Similar documents
statistics

확률과통계 강의자료-1.hwp

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

untitled

기술통계

(001~006)개념RPM3-2(부속)

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

한국성인에서초기황반변성질환과 연관된위험요인연구

슬라이드 1


methods.hwp

R t-..

PowerPoint Presentation


Microsoft PowerPoint - IPYYUIHNPGFU

sna-node-ties

DBPIA-NURIMEDIA

untitled

Vol.259 C O N T E N T S M O N T H L Y P U B L I C F I N A N C E F O R U M

Microsoft PowerPoint - SBE univariate5.pptx

<31372DB9DABAB4C8A32E687770>


Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

2009년 국제법평론회 동계학술대회 일정

step 1-1


..(..) (..) - statistics

#Ȳ¿ë¼®

Microsoft Word - EDA_Univariate.docx

03이경미(237~248)ok

DBPIA-NURIMEDIA

DBPIA-NURIMEDIA

한국 출산력의 저하 요인에 관한 연구

untitled

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

<3130C0E5>

DBPIA-NURIMEDIA

Microsoft PowerPoint Predicates and Quantifiers.ppt

통계학입문

01_60p_서천민속지_1장_최종_출력ff.indd

6자료집최종(6.8))

DBPIA-NURIMEDIA

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

DBPIA-NURIMEDIA

Microsoft PowerPoint - ch03ysk2012.ppt [호환 모드]

433대지05박창용



Chapter4.hwp

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Microsoft PowerPoint - 7-Work and Energy.ppt

DBPIA-NURIMEDIA

<B1A4B0EDC8ABBAB8C7D0BAB8392D345F33C2F75F E687770>

고차원에서의 유의성 검정

cha4_ocw.hwp

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

DBPIA-NURIMEDIA

Microsoft PowerPoint - 26.pptx

Output file

abstract.dvi

Crt114( ).hwp

목차 ⅰ ⅲ ⅳ Abstract v Ⅰ Ⅱ Ⅲ i

264 축되어 있으나, 과거의 경우 결측치가 있거나 폐기물 발생 량 집계방법이 용적기준에서 중량기준으로 변경되어 자료 를 활용하는데 제한이 있었다. 또한 1995년부터 쓰레기 종 량제가 도입되어 생활폐기물 발생량이 이를 기점으로 크 게 줄어들었다. 그러므로 1996년부

#KM560

서론 34 2

퍼스널 토이의 조형적 특성에 관한 고찰

ASETAOOOCRKG.hwp

Microsoft PowerPoint Relations.pptx

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

현대패션의 로맨틱 이미지에 관한 연구

<C3D6C1BEBFCFBCBA2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D31C8A3292E687770>

제 출 문 국방부 장관 귀하 본 보고서를 국방부 군인연금과에서 당연구원에 의뢰한 군인연금기금 체 계적 관리방안 연구용역의 최종보고서로 제출합니다 (주)한국채권연구원 대표이사 오 규 철

融合先验信息到三维重建 组会报 告[2]

WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성 ( 황수경 ) ꌙ 127 노동정책연구 제 4 권제 2 호 pp.127~148 c 한국노동연구원 WHO 의새로운국제장애분류 (ICF) 에대한이해와기능적장애개념의필요성황수경 *, (disabi

서울도시연구_13권4호.hwp

04-다시_고속철도61~80p

해외투자내지01(중국)

R

- 2 -

<C0C7B7CAC0C720BBE7C8B8C0FB20B1E2B4C9B0FA20BAAFC8AD5FC0CCC7F6BCDB2E687770>

연구보고 젠더에 대한 한국인간개발보고서 연구책임자: 문 유 경 (한국여성개발원 연구위원) 공동연구자: 박 수 미 (한국여성개발원 연구위원) 강 민 정 (한국여성개발원 연구원) 여 성 부

untitled

통계학입문

<31342D3034C0E5C7FDBFB52E687770>

석사논문.PDF

<313020C1A4BFECBAC034332E687770>

<BFA9BAD02DB0A1BBF3B1A4B0ED28C0CCBCF6B9FC2920B3BBC1F62E706466>

Journal of Educational Innovation Research 2018, Vol. 28, No. 4, pp DOI: * A Research Trend

<B3EDB9AEC1FD5F3235C1FD2E687770>

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

기관고유연구사업결과보고

노동경제논집 38권 3호 (전체).hwp

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

012임수진

A Problem for Government STAGE 6: Policy Termination STAGE 1: Agenda Setting STAGE 5: Policy Change STAGE 2: Policy Formulation STAGE 4: Policy Evalua

02¿ÀÇö¹Ì(5~493s

에너지경제연구 Korean Energy Economic Review Volume 9, Number 2, September 2010 : pp. 1~18 가격비대칭성검정모형민감도분석 1

<352E20BAAFBCF6BCB1C5C320B1E2B9FDC0BB20C0CCBFEBC7D120C7D1B1B920C7C1B7CEBEDFB1B8C0C720B5E6C1A1B0FA20BDC7C1A120BCB3B8ED D2DB1E8C7F5C1D62E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Transcription:

Descriptive Statistics Describing data with tables and graphs (quantitative or categorical variables) Descriptive Statistics (Numerical techniques) Numerical descriptions of center, variability, position (quantitative variables) 2014-1 Hyejung Chang (hjchang@khu.ac.kr) Bivariate descriptions (In practice, most studies have several variables) 0 Numerical Descriptive Technique 중심성 (Central tendency) 의척도 - 평균 (Mean), 중앙값 (Median), 최빈값 (Mode) 변동성 (Variability) 의척도 - 범위 (Range), 표준편차 (Standard Deviation), 분산 (Variance), 변동계수 (Coefficient of Variation) 상대위치 (Relative position) 의척도 - 백분위수 (Percentiles), 십분위수 (Deciles), 오분위수 (Quintiles), 사분위수 (Quartiles) 선형관계 (Linear relationship) 의척도 - 공분산 (Covariance), 상관계수 (Correlation Coefficient), 결정계수 (Coefficient of Determination), 최소자승선 (Least Squares Line) Numerical descriptions Let y denote a quantitative variable, with observations y 1, y 2, y 3,, y n 1) Describing the central tendency Median: Middle measurement of ordered sample Mean: 1

평균 (Mean) N = 모집단에속한관측치의수 n = 표본에속한관측치의수 = 모평균 ( 모집단의산술평균 ) mu = 표본평균 ( 표본의산술평균 ) x-bar 중앙값 (Median) 중앙값 (median) 은모든관측치를순서대로정렬할때중심에있는관측치 데이터 : {0, 7, 12, 5, 14, 8, 0, 9, 22} N=9 ( 홀수 ) 데이터를작은값으로부터큰값으로정렬하고중심에있는값을선택 0 0 5 7 8 9 12 14 22 데이터 : {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10( 짝수 ) 데이터를작은값으로부터큰값으로정렬하고중심에있는 8 과 9 의산술평균값을선택 0 0 5 7 8 9 12 14 22 33 중앙값 (median) = (8+9) 2 = 8.5 표본중앙값 (Sample Median) 과모중앙값 (Population Median) 은동일한방법으로계산 최빈값 (Mode) 발생되는도수가가장많은관측치 한세트의데이터에는최빈값이하나또는둘이상이존재할수있음 최빈값은주로명목데이터의경우에사용되지만모든데이터유형에대하여유용한중심위치의척도 대규모데이터세트의경우최빈계급구간 (modal class) 이단일값을가지는최빈값보다더유용 평균 (Mean), 중앙값 (Median), 최빈값 (Mode) 만일변수의분포가대칭이면, 평균, 중앙값, 최빈값은모두동일할수있음 mode median mean 표본최빈값 (Sample Mode) 과모최빈값 (Population Mode) 은동일한방법으로계산 2

평균 (Mean), 중앙값 (Median), 최빈값 (Mode) 만일변수의분포가비대칭이면, 즉왼쪽으로기울져있거나오른쪽으로기울어져있으면, 평균, 중앙값, 최빈값은서로다를수있음 mode median 평균, 중앙값, 최빈값중어느것이가장좋은중심위치의척도인가? 평균 : 일반적으로가장널리사용되는유용한중심경향의척도 그러나중앙값이더좋은중심위치의척도인상황들이존재 mean 중앙값 : 평균과는달리극단값들에대하여민감하지않음 최빈값 : 결코가장좋은중심위치의척도는아님 Example: Annual per capita carbon dioxide emissions (metric tons) for n = 8 largest nations in population size Bangladesh 0.3, Brazil 1.8, China 2.3, India 1.2, Indonesia 1.4, Pakistan 0.7, Russia 9.9, U.S. 20.1 Ordered sample: 0.3, 0.7, 1.2, 1.4, 1.8, 2.3, 9.9, 20.1 Median = (1.4 + 1.8)/2 = 1.6 Mean = (0.3 + 0.7 + 1.2 + + 20.1)/8 = 4.7 Properties of mean and median For symmetric distributions, mean = median For skewed distributions, mean is drawn in direction of longer tail, relative to median Mean valid for interval scales, median for interval or ordinal scales Mean sensitive to outliers (median often preferred for highly skewed distributions) When distribution symmetric or mildly skewed or discrete with few values, mean preferred because uses numerical values of observations 3

기하평균 (Geometric Mean) - 평균 복리수익률이기하평균의값이다. - R i 는기간 i 의수익률 ( 소수점으로표시한수익률 ) 이라고하자 (i = 1, 2,, n). - 수익률의기하평균 (geometric mean ) R g 기하평균 (Geometric Mean): Example < 예시 > $1,000 를 2 년간투자하였다. 첫해에투자가치가 100% 증가하여 $2,000 가되고, 두번째해에투자가치가 50% 감소하여 ( 손실발생 ) 다시 $1,000 가되었다. - 연도 1, 2의수익률 : R 1 = 100%, R 2 = 50% - 두연도수익률의산술평균 ( 과중앙값 ): - R g 에대하여풀면, 투자가이루어지는 2 년동안투자가치는변화가없기때문에, 평균 복리수익률은 0% 이다. 기하평균 (Geometric Mean): Example - 주어진예에서투자수익률의기하평균은 - 따라서투자수익률의기하평균은 0% 0% 의복리이자율공식을사용하면투자기간말의투자가치 = 1,000(1 + R g ) 2 2) Describing variability 관측치들이평균주위에서얼마나흩어져있는가를측정하는척도 Example) 두과목의점수 평균은두과목모두 50 으로같다. 그러나붉은색으로나타낸과목의점수가파란색으로나타낸과목의점수보다변동성이더크다 ( 평균주위에서더많이흩어져있다 ). = 1,000(1 + 0) 2 = 1,000 기하평균 : 일정한기간동안 평균 성장률또는변화율을계산하기위해사용 4

Measurement of variability(dispersion) 범위 (Range) Range: Difference between largest and smallest observations (but highly sensitive to outliers, insensitive to shape) Standard deviation: A typical distance from the mean The deviation of observation i from the mean is - 범위 (range): 가장간단한변동성의척도 : 범위 (Range) = 최대관측치 최소관측치 [ 예제 ] 데이터 : {4, 4, 4, 4, 50} Range = 46 데이터 : {4, 8, 15, 24, 39, 50} Range = 46 -두경우범위는같으나두데이터세트는서로다른분포를가진다. 범위 (Range) 의특징 장점 : 쉽게계산될수있다는점 단점 : 양쪽끝에있는관측치사이에존재하는관측치들이흩어져있는정도에관한정보를제공하지못한다는점 따라서모든관측치들을포함하는변동성의척도가필요 분산 (Variance) 분산 (variance) 과표준편차 (standard deviation): 가장중요한변동성의척도, 거의모든통계적추론에서중요한역할수행 기호 : = 모분산 (population variance) sigma squared = 표본분산 (sample variance) s squared 5

분산 (Variance) Sample Variance 모평균 (population mean) 표본분산을계산하기위해서는먼저표본평균을계산해야함 모분산 : 모집단크기 (population size) 표본평균 (sample mean) 표본평균을계산하는중간단계없이데이터로부터표본분산을계산하는간편공식 : 표본분산 : 표본분산의분모는표본크기 n 1 이다! ( 평균추정으로인한 degree of freedom) Properties of the standard deviation: s 0, and only equals 0 if all observations are equal s increases with the amount of variation around the mean Division by n - 1 (not n) is due to technical reasons s depends on the units of the data (e.g. measure KRW vs USD) Like mean, affected by outliers Empirical rule: If distribution is approx. bell-shaped, about 68% of data within 1 standard dev. of mean about 95% of data within 2 standard dev. of mean all or nearly all data within 3 standard dev. of mean 경험법칙 (Empirical Rule) 데이터의히스토그램 ( 분포 ) 이종모양이면 (1) 모든관측치의약 68% 는평균으로부터 1 표준편차이내에속한다.. (2) 모든관측치의약 95% 는평균으로부터 2 표준편차이내에속한다. (3) 모든관측치의약 99.7% 는평균으로부터 3 표준편차이내에속한다. 6

체비세프의정리 (Chebysheff s Theorem) 표준편차에대한보다일반적인해석 : 종모양을포함하여모든형태의히스토그램 ( 분포 ) 에적용 - 평균으로부터 k 표준편차 (k>1) 이내에속하는관측치들의비율은적어도다음과같음 변동계수 (Coefficient of Variation) - 변동성에대한상대적 ( 비례적 ) 척도 - 표준편차를평균으로나눈척도 모변동계수 (Population coefficient of variation) = CV = k=2 인경우, 체비세프의정리에의하면모든관측치의적어도 ¾ 는평균으로부터 2 표준편차이내에속한다. 경험법칙의근사 (95%) 하한 표본변동계수 (Sample coefficient of variation) = cv = 3) Measures of position p th percentile: p percent of observations below it, (100 - p)% above it. p = 50: median p = 25: lower quartile (LQ) p = 75: upper quartile (UQ) Quartiles portrayed graphically by box plots (John Tukey) Example: weekly TV watching for n=60 from student survey data file, 3 outliers Interquartile range IQR = UQ - LQ 7

Box plots have box from LQ to UQ, with median marked. They portray a five-number summary of the data: Minimum, LQ, Median, UQ, Maximum except for outliers identified separately Outlier = observation falling below LQ 1.5(IQR) or above UQ + 1.5(IQR) Ex. If LQ = 2, UQ = 10, then IQR = 8 and outliers above 10 + 1.5(8) = 22 Bivariate description Associations between two or more variables (e.g., how does number of close friends depend on gender, income, education, age, working status, rural/urban, religiosity ) Response variable: the outcome variable Explanatory variable(s): defines groups to compare Example: number of close friends is a response variable, while gender, income, are explanatory variables Response variable also called dependent variable Explanatory variable also called independent variable Summarizing associations: Example: Income by highest degree Categorical var s: show data using contingency tables Quantitative var s: show data using scatterplots Mixture of categorical var. and quantitative var. (e.g., number of close friends and gender) can give numerical summaries (mean, standard deviation) or side-by-side box plots for the groups 8

Contingency Tables Cross classifications of categorical variables in which rows (typically) represent categories of explanatory variable and columns represent categories of response variable. Scatterplots (for quantitative variables) plot response variable on vertical axis, explanatory variable on horizontal axis Example: UN data - fertility (births per woman) vs. per capita gross domestic product (GDP) Counts in cells of the table give the numbers of individuals at the corresponding combination of levels of the two variables Correlation: strength of association Falls between -1 and +1, with sign indicating direction of association The larger the correlation in absolute value, the stronger the association (in terms of a straight line trend) Examples: (positive or negative, how strong?) Mental impairment and life events, correlation = GDP and fertility, correlation = GDP and percent using Internet, correlation = 9