3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Similar documents
statistics

(001~006)개념RPM3-2(부속)

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

PowerPoint Presentation

슬라이드 1

R t-..

Microsoft PowerPoint - SBE univariate5.pptx

슬라이드 1

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

= ``...(2011), , (.)''

R

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

자료의 이해 및 분석

통계학입문

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

슬라이드 1

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

기술통계

PART

Part Part

£01¦4Àå-2

½ºÅ丮ÅÚ¸µ3_³»Áö

272*406OSAKAÃÖÁ¾-¼öÁ¤b64ٽÚ

Microsoft Word - EDA_Univariate.docx

..(..) (..) - statistics

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt


공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

PowerPoint Presentation

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

고객관계를 리드하는 서비스 리더십 전략

10. ..

통계학입문

... —....—

PowerPoint 프레젠테이션

전자회로 실험

PowerPoint 프레젠테이션

Microsoft Word - SPSS_MDA_Ch6.doc

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

<4D F736F F F696E74202D20BBF3B0FCBAD0BCAE5FC0CCB7D0B0ADC0C72E BC0D0B1E220C0FCBFEB5D>

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

모수검정과비모수검정 제 6 강 지리통계학

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

- 1 -

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

제 4 장회귀분석

실험 5

설계란 무엇인가?

OCW_C언어 기초

Microsoft PowerPoint - IPYYUIHNPGFU

제 2 교시 2019 학년도 3 월고 1 전국연합학력평가문제지수학영역 1 5 지선다형 1. 의값은? [2점] 일차방정식 의해는? [2 점 ] 두수, 의최대공약수는? [2 점 ] 일차함수 의그래프에서

슬라이드 제목 없음

실험. Multimeter 의사용법및기초회로이론 Multimeter 의사용법 멀티미터 (Multimeter) 는저항, 전압, 전류등을측정할수있는계측기로서전면은다음그림과같다. 멀티미터를이용해서저항, 전압, 전류등을측정하기위해서는다음그림과같은프로브 (probe) 를멀티미터

제 4 장수요와공급의탄력성

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

adfasdfasfdasfasfadf

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

PowerPoint 프레젠테이션

i

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


시계열분석의개요 (the nature of time series analysis) 시계열자료 (time series data) 연도별 (annual), 분기별 (quarterly), 월별 (monthly), 일별 (daily) 또는시간별 (hourly) 등시간의경과 (

Microsoft Word - Chapter6.doc

2015 경제ㆍ재정수첩

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

untitled

CONTENTS SUMMARY PART 1 MARKET MARKET STRATEGY MARKET ISSUE MARKET ISSUE PART 2 CREDIT CREDIT ISSUE CREDIT ISSUE CREDIT ISSUE CREDIT ISSUE CREDIT STRA

Microsoft PowerPoint - chap06-2pointer.ppt

exp

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에


제 8 장. 통계적추정 개요 : 통계적추정 ( 추론 ) 은모집단에서추출된표본의정보로모집단에대한값의추측또는그값에대한확신을결정하는과정이며다음의두단계가있다. 2 통계적추정 (statistical estimation): 모수인평균 ( m), 분산 ( s ), 표준편차 ( s

<28C0E5B7C129B9DABCBAB1D92DBBE7B8C1C8AEB7FC20BAB8C1A4B9E6B9FDC0FBBFEBBFA120B5FBB8A520B1E2B4EBBFA9B8ED20BAF1B1B32E687770>

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

연구실안전사례집-내지

Visual Basic 반복문

... —... ..—

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>


Resampling Methods

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

chap 5: Trees

yscec.yonsei.ac.kr Useful information 통계학입문 2013 년겨울학기 v 교수 : 정보통계학과박동권교수 v v 연구실 : 창조관 153호 / 교내 2247 v v Pdf file 은정보통

PowerPoint Presentation

<C5EBB0E8C0FBB0A1BCB3B0CBC1F5C0C7C0FDC2F7BFCDB9AEC1A6C1A1B1D7B8AEB0EDB4EBBEC E687770>

?

01


Microsoft Word - FunctionCall

한국정책학회학회보

¸ðÅä·Î¶ó ÃÖÁ¾ÆÇ.PDF

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

Transcription:

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

분포형태, 상대적위치, 극단값 분포형태 z-값 체비셰프의원리 경험법칙 극단값찾기

분포형태 : 왜도 (skewness) 분포형태를측정하는중요한척도중하나를 왜도 라고한다. 자료집합의왜도를구하는계산식은조금복잡하다. 통계프로그램을사용하여왜도를쉽게계산할수있다.

분포형태 : 왜도 정대칭 ( 한쪽으로치우치지않음 ) 왜도는 0이다. 평균과중앙값은같다..35 비대칭도 = 0.30 상대도수.25.20.15.10.05 0

분포형태 : 왜도 왼쪽으로치우친경우 ( 왼쪽꼬리분포 ) 왜도는음 (-) 이다. 보통평균은중앙값보다작다. 상대도수.35.30.25.20.15.10.05 0 왜도 =.31

분포형대 : 왜도 오른쪽으로치우친경우 ( 오른쪽꼬리분포 ) 왜도는양 (+) 이다. 보통평균은중앙값보다크다. 상대도수.35.30.25.20.15.10.05 0 왜도 =.31

분포형태 : 왜도 오른쪽으로심하게치우친경우 ( 심한오른쪽고리분포 ) 왜도는양 (+) 이다 ( 종종 1.0보다높다 ). 보통평균은중앙값보다크다..35 왜도 = 1.25.30 상대도수.25.20.15.10.05 0

분포형태 : 왜도 예 : 아파트임대 어느대학가에서표본으로간이아파트 (efficiency apartments ) 70 채가무작위선정되었다. 이아파트의월세는오름차순으로다음슬라이더에나타나있다.

분포형태 : 왜도 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

분포형태 : 왜도.35 왜도 =.92.30 상대도수.25.20.15.10.05 0

z- 값 z- 값을종종 표준화 ( 된 ) 값 이라고한다. 이는관찰값 x i 와평균과의거리가표준편차의몇배에해당하는지를나타낸다. z i x i s x

z- 값 관찰값의 z- 값은자료에서해당관찰값의상대위치를측정하는척도이다. 표본평균보다작은자료값은 0 보다작은 z- 값을갖는다. 표본평균보다큰자료값은 0 보다큰 z- 값을갖는다. 표본평균과같은자료값은 0 인 z- 값을갖는다.

z- 값 가장작은값 (425) 의 z- 값 x i x 425 490.80 z s 54.74 1.20 월세값의표준화값 -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

체비셰프의원리 어떤자료에있는항목들의적어도 (1-1/z 2 ) 의값은평균에서 z 표준편차크기의범위안에있어야한다. 그리고이때의 z 는 1 보다더큰값이다.

체비셰프의원리 (Chebyshev s theorem) 적어도자료값들의 75% 는평균에서 z = 2 표준편차범위안에있어야한다. 적어도자료값들의 89% 는평균에서 z = 3 표준편차범위안에있어야한다. 적어도자료값들의 z = 4 표준편차 94% 는평균에서 범위안에있어야한다.

체비셰프의원리 예 : z = 1.5 ( x = 490.80 와 s = 54.74) 적어도월세값들의 (1 1/(1.5) 2 ) = 1 0.44 = 0.56 또는 56% 는아래의값들사이에있어야한다. x - z(s) = 490.80 1.5(54.74) = 409 와 x + z(s) = 490.80 + 1.5(54.74) = 573 ( 실제, 86% 의월세값들이 409 와 573 사이에있다.)

경험법칙 (Empirical rule) 종모양분포를가지는자료에대하여 : 정규확률변수값의 +/- 1 표준편차정규확률변수값의 +/- 2표준편차 정규확률변수값의 +/- 3 표준편차 68.26% 가평균의범위안에있다. 95.44% 가평균의범위안에있다. 99.72% 가평균의범위안에있다.

경험법칙 99.72% 95.44% 68.26% 3 1 2 + 1 + 3 + 2 x

극단값찾기 (Detecting outliers) 극단값은자료에서특출나게큰값이나특출나게작은값들을말한다. -3보다작거나 +3보다큰 z-값에해당하는자료값을극단값으로보면된다. 극단값은다음과같은경우일수있다 : 잘못기록된자료값 자료에부정확하게포함된값 자료에제대로포함된값

극단값찾기 가장극단적 z- 값은 -1.20 과 2.27 극단점기준으로 z > 3 을사용하면, 이자료에는극단값이없다. 월세에대한표준화값 -1.20-1.11-1.11-1.02-1.02-1.02-1.02-1.02-0.93-0.93-0.93-0.93-0.93-0.84-0.84-0.84-0.84-0.84-0.75-0.75-0.75-0.75-0.75-0.75-0.75-0.56-0.56-0.56-0.47-0.47-0.47-0.38-0.38-0.34-0.29-0.29-0.29-0.20-0.20-0.20-0.20-0.11-0.01-0.01-0.01 0.17 0.17 0.17 0.17 0.35 0.35 0.44 0.62 0.62 0.62 0.81 1.06 1.08 1.45 1.45 1.54 1.54 1.63 1.81 1.99 1.99 1.99 1.99 2.27 2.27

탐색적자료분석 (Exploratory data analysis) 다섯수치요약 상자그림

다섯수치요약 (Five-number summary) 1 최소값 2 3 4 5 1사분위수중앙값 3사분위수최대값

다섯수치요약 최소값 = 425 1사분위수 = 445 중앙값 = 475 3사분위수 = 525 최대값 = 615 425 430 430 435 435 435 435 435 440 440 440 440 440 445 445 445 445 445 450 450 450 450 450 450 450 460 460 460 465 465 465 470 470 472 475 475 475 480 480 480 480 485 490 490 490 500 500 500 500 510 510 515 525 525 525 535 549 550 570 570 575 575 580 590 600 600 600 600 615 615

상자그림 (Box Plot) 상자의양끝은 1 사분위수와 3 사분위수에위치하게한다. 상자안에수직선을중앙값위치에그린다 (2 사분위수 ). 375 400 425 450 475 500 525 550 575 600 625 Q1 = 445 Q3 = 525 Q2 = 475

상자그림 사분위수간범위 (IQR=Q3-Q 1) 를사용하여상한선과하한선을그린다. 이범위밖의자료는극단값이라고할수있다. 각극단값의위치는 * 로표시한다. 계속됨

상자그림 하한선은 Q1 보다아래쪽 1.5(IQR) 이다. 하한선 : Q1-1.5(IQR) = 445-1.5(80) = 332.5 상한선은 Q3 보다위쪽 1.5(IQR) 이다. 상한선 : Q3 + 1.5(IQR) = 525 + 1.5(80) = 637.5 아파트월세자료에서극단값 (332.5 보다작거나 637.5 보다큰값 ) 은없다.

상자그림 상자의양끝에서한계선내에최소값과최대값까지점선 (whiskers) 을그린다. 375 400 425 450 475 500 525 550 575 600 625 한계선내최소값 = 425 한계선내최대값 = 615

두변수간의연관성측정 (Measures of association between two variables) 공분산 상관계수

공분산 (covariance) 공분산은두변수의선형관계를측정하는척도이다. 양의값은양의관계를나타낸다. 음의값은음의관계를나타낸다.

공분산 공분산은아래와같이계산된다 : s xy ( x i x )( y i y ) n 1 표본의경우 xy ( x )( y ) i x i y N 모집단의경우

상관계수 (correlation coefficient) 상관계수는 -1 에서 +1 사이의값을갖는다. -1 값에가까울수록강한음의선형관계를나타낸다. +1 값에가까울수록강한양의선형관계를나타낸다.

상관계수 상관계수는아래와같이계산된다 : r xy s xy ss x y xy xy x y 표본의경우 모집단의경우

상관계수 상관관계는변수들간의선형관계를측정하는것이지반드시인과관계를측정하는것은아니다. 두변수가높은상관관계를갖는다고해도, 한변수가다른변수의원인이된다는것을의미하지는않는다. 예, 식당의일반적인식사가격과음식의질

공분산과상관계수 어떤골프선수가드라이빙거리와 18 홀점수간에서로관계가있는지에대하여조사하고자한다. 평균드라이빙거리 (yds.) 277.6 259.5 269.1 267.0 255.6 272.9 평균 18 홀점수 69 71 70 70 71 69

공분산과상관계수 x y ( x x ) ( y y ) ( x x )( y y ) i i i i 평균표준편차 277.6 259.5 269.1 267.0 255.6 272.9 69 71 70 70 71 69 10.65-7.45 2.15 0.05-11.35 5.95-1.0 1.0 0 0 1.0-1.0-10.65-7.45 0 0-11.35-5.95 267.0 70.0 합계 -35.40 8.2192.8944

공분산과상관계수 표본공분산 s xy ( ( x i x )( y i y ) 35.40 7.08 n 1 6 1 표본상관계수 r xy s xy 7.08 ss (8.2192)(.8944) x y -.9631

가중평균과그룹화자료 (The weighted mean and working with grouped data) 가중평균 그룹화자료의평균 그룹화자료의분산 그룹화자료의표준편차

가중평균 (weighted mean) 관찰값의중요도를반영한가중치를각각의자료값에부여하여평균을계산할때, 이러한평균을 가중평균 이라고한다. 학점 (GPA) 을계산할때, 가중치는각등급 (grade) 에해당하는학점수이다. 관찰값이중요도에있어서서로다를때, 분석자는각관찰값이가지는중요도를가장잘반영할수있는가중치를선택하여야한다.

가중평균 x wx i i w i 여기서 : x i = i 번째관찰값 w i = i 번째관찰값의가중치

그룹화된자료 (grouped data) 가중평균계산법이그룹화된자료의평균, 분산, 표준편차의대략적인값을구하는데사용된다. 가중평균을계산하기위해, 각계급의중간점을그계급의평균처럼가정하여사용한다. 계급의도수를가중치로사용하여계급중간점들의가중평균을계산한다. 분산과표준편차를계산할때도유사한방법으로계급의도수를가중치로사용한다.

그룹화자료의평균 표본평균 x fm i n i 모집단평균 f i N M i 여기서 : f i = i 계급의 ( 빈 ) 도수 M i = i 계급의중간점

그룹화자료의표본평균 앞선예에서본 70 채의아파트표본월세자료가아래와같이도수분포형식으로그룹화되어있다. Rent ($) Frequency 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6

그룹화자료의표본평균 Rent ($) f i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70 M i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5 f i M i 3436.0 7641.5 5634.0 3916.0 3566.5 2118.0 1099.0 2278.0 1179.0 3657.0 34525.0 34,525 x 493.21 70 이런근사값은실제평균인 $490.80과는 $2.41 정도차이가있다.

그룹화된자료의분산 표본의경우 s 2 f i ( M i x ) n 1 2 모집단의경우 2 f i ( M i ) N 2

그룹화자료에서표본분산 Rent ($) f i 420-439 8 440-459 17 460-479 12 480-499 8 500-519 7 520-539 4 540-559 2 560-579 4 580-599 2 600-619 6 Total 70 M i 429.5 449.5 469.5 489.5 509.5 529.5 549.5 569.5 589.5 609.5 M i - x -63.7-43.7-23.7-3.7 16.3 36.3 56.3 76.3 96.3 116.3 (M i - x) 2 4058.96 1910.56 562.16 13.76 265.36 1316.96 3168.56 5820.16 9271.76 13523.36 f i (M i - x) 2 32471.71 32479.59 6745.97 110.11 1857.55 5267.86 6337.13 23280.66 18543.53 81140.18 208234.29 계속

그룹화자료에서표본분산 표본분산 표본표준편차 s 2 = 208,234.29/(70 1) = 3,017.89 s 3,017.89 54.94 이러한근사값은실제표준편차인 $54.74와는겨우 $.20 정도차이가난다.

3 장끝, Part B