statistics

Similar documents
..(..) (..) - statistics

(001~006)개념RPM3-2(부속)

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

슬라이드 1

기술통계

와플-4년-2호-본문-15.ps

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft PowerPoint - IPYYUIHNPGFU

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

R t-..

통계학입문


10. ..

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

YBM시사닷컴, 첨단 개인별 맞춤 학습 시스템 개발

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

= ``...(2011), , (.)''

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

슬라이드 1

Microsoft PowerPoint - chap04-연산자.pptx


Resampling Methods

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

모수검정과비모수검정 제 6 강 지리통계학

Presenting Data in Tables and Figures 고 원 중 삼성서울병원 호흡기내과 성균관대학교 의과대학 내과학교실

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

통계학입문

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

Microsoft Word - Chapter6.doc

메타분석: 통계적 방법의 기초


Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

설계란 무엇인가?

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt


표본재추출(resampling) 방법

Microsoft PowerPoint Relations.pptx


<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

untitled

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - 26.pptx

untitled

Microsoft PowerPoint - chap03-변수와데이터형.pptx

05 ƯÁý

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint


... —....—

분산분석.pages



<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

한국정책학회학회보

PowerPoint 프레젠테이션

... —... ..—


Microsoft Word - SAS_Data Manipulate.docx

OCW_C언어 기초

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

PowerPoint 프레젠테이션

* ** *** ****

시계열분석의개요 (the nature of time series analysis) 시계열자료 (time series data) 연도별 (annual), 분기별 (quarterly), 월별 (monthly), 일별 (daily) 또는시간별 (hourly) 등시간의경과 (

실험 5

Microsoft Word - Chapter9.doc

chap 5: Trees

Microsoft Word - EDA_Univariate.docx

확률과통계 강의자료-1.hwp

온습도 판넬미터(JTH-05) 사양서V1.0

adfasdfasfdasfasfadf

PPT Template

목차 1. 통계학이란무엇인가? 2. 통계학의응용분야 3. 통계학의분야들 4. 강의소개 5. 그리고..

제49회 부산과학전람회

= " (2014), `` ,'' .." " (2011), `` ,'' (.)"

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

Microsoft Word - Software_Ch2_FUNCTION.docx

Microsoft Word - EDA_Univariate.docx

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Survey Analyst 2012 년하반기사회조사분석사 2 급필기 제 1 과목조사방법론 1 1. 다음중일반적으로가장높은응답률을확보할수있는조사방법은? 2. 다음중우편조사의특성과가장거리가먼것은? 3. 연구방법으로서의연역적접근법과귀납적접근법에관한설명으로틀린것은? 4. 참여

고객관계를 리드하는 서비스 리더십 전략

용역보고서

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

31. 을전개한식에서 의계수는? 를전개한식이 일 때, 의값은? 을전개했을때, 의계수와상수항의합을구하면? 을전개했을때, 의 계수는? 를전개했을때, 상수항을 구하여라. 37

새로운 지점에서 단이 시작하는 경우 기둥코로 시작하라고 표시합니다. 기둥코(standing stitch)로 시작하는 방법은 YouTube 에서 찾아볼 수 있습니다. 특수 용어 팝콘뜨기: 1 코에 한길긴뜨기 5 코, 바늘을 빼고 첫번째 한길긴뜨기코의 앞에서 바늘을 넣은

0 cm (++x)=0 x= R QR Q =R =Q = cm =Q =-=(cm) =R =x cm (x+) = +(x+) x= x= (cm) =+=0 (cm) =+=8 (cm) + =0+_8= (cm) cm + = + = _= (cm) 7+x= x= +y= y=8,, Q

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

PowerPoint 프레젠테이션

qme1-qm-4.toler&cp(1)-출판★-1?!?]đ??????????

MD-C-035-1(N-71-18)

한국은행부산본부 동남권의세대간경제적이동성분석 정기호 1), 박민수 2) 1) 경북대학교경제통상학부교수 2) 한국은행부산본부경제조사팀과장

2013unihangulchar {45380} 2unihangulchar {54617}unihangulchar {44592} unihangulchar {49328}unihangulchar {50629}unihangulchar {51312}unihangulchar {51

Transcription:

수치를이용한자료요약 statistics hmkang@hallym.ac.kr 한림대학교 통계학 강희모 ( 한림대학교 ) 수치를이용한자료요약 1 / 26

수치를 통한 자료의 요약 요약 방대한 자료를 몇 개의 의미있는 수치로 요약 자료의 분포상태를 알 수 있는 통계기법 사용 중심위치의 측도(measure of center) : 어떤 값을 중심으로 분포되어 있는지 나타내는 측도로 평균(mean), 중앙값(median), 최빈값(mode) 퍼진정도의 측도(measure of dispersion) : 자료가 각 중심위치에서 얼마나 흩어져 있는지 나타내는 측도로 분산(variance), 표준편차(standard deviation), 범위(range), 사분위수 범위(interquartile range) 2 / 26

중심위치의 측도 평균(mean, average) 모든 관측값의 합을 자료의 개수로 나눈 값으로 산술평균(arithmetic average)이라고 부름 모평균은 모집단 자료에 대한 평균이며, 그 값을 µ 로 표기 표본평균은 표본자료에 대한 평균이며, 그 값을 X 로 표기 평균은 모든 관측값이 반영되기 때문에 극단적으로 크거나 작은 값( 이상점)에 영향을 많이 받음 절삭평균(trimmed mean)을 사용하면 극단적인 값의 영향을 줄일 수 있음 자료의 성격에 따라 기하평균(geometric mean), 조화평균(harmonic mean)이 있음 x1 + + xn 모평균(µ) = 모든 자료의 합 = 자료의 갯수 N x 1 + + xn 표본평균(x) = 모든 관측값의 합 = 관측값의 갯수 n 3 / 26

중심위치의 측도 평균 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 표본평균을 구해보자. 89 74 91 88 72 84 x= 89 + 74 + 91 + 88 + 72 + 84 = 83 6 4 / 26

중심위치의 측도 절삭 평균(trimmed mean) 절삭평균 : 너무 큰 값과 작은 값을 제외한 나머지 자료의 평균으로 보통 절삭한 자료의 비율을 표시하기 위해 α% 절삭평균이라고 표현함 α% 절삭평균은 자료를 순서대로 나열했을 때 상위 α%의 자료와 하위 α%의 자료를 제외한 나머지 자료의 평균 절삭평균 : 보기 피겨스케이팅 경기에서 10명의 심사위원이 한 선수에 대한 채점 결과이다. 10 9 10 9 10 9 10 9 10 2 10% 절삭평균은 얼마인가? 최고점 10점과 최저점 2점을 제외한 나머지 자료 8개의 평균인 9.5점임 5 / 26

중심위치의 측도 사분위수 평균(trimean) 자료를 순서대로 나열한 후 25%, 50%, 75%의 위치에 있는 자료의 값을 각각 제 1사분위수, 제 2사분위수 및 제3사분위수라고 함 이들은 각각 Q1, Q2 및 Q3 로 나타낸다 사분위수 평균은 중앙값과 산술평균의 장점을 취하고자 제안된 것으로 Q1 + 2Q2 + Q3 4 임 6 / 26

중심위치의 측도 중앙값(median) 전체 관측값을 크기 순서로 배열하였을 경우 가운데 위치하는 값 관측값의 크기보다 관측값의 위치가 중요 관측값의 변화에 민감하지 않다. 즉 극단적으로 큰 값이나 작은 값( 이상점)에 영향을 받지 않음 중앙값을 구하는 방법 관측값을 크기 순서로 배열 자료의 개수가 홀수이면 n+1 2 번째 자료값이 n n 2 번째 관측값과 2 자료의 개수가 짝수이면 중간값이나 평균이 중앙값 중앙값 + 1 번째 관측값 사이의 7 / 26

중심위치의 측도 중앙값 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 중앙값을 구해보자. 89 74 91 88 72 84 학생들의 성적을 순서대로 배열하면 72 74 84 88 89 91이고 관측값의 갯수가 짝수이기 때문에 62 번째 관측값 84와 26 + 1번째 관측값 88의 평균 86이 중앙값임 다음과 같이 자료가 주어졌다면 중앙값은 얼마인가? 6.4 7.8 8.1 9.2 10.5 중앙값은 5+1 2 = 3번째 값인 8.1임 8 / 26

중심위치의 측도 최빈값(mode) 관측값 중에서 가장 자주 나오는 값 연속형 자료에서 돗수분포표로 자료를 그룹화하여 최대의 돗수를 갖는 계급구간의 중간값을 최빈값으로 함 이산형 자료의 경우 최빈값을 대표값으로 사용하기도 함 최빈값(mode) 보기 다음 자료에서 최빈값은 무엇인가? 2,5,5,3,5,2 위 자료에서 2는 두 번, 3은 한 번, 5는 세 번이므로 5가 최빈값 임 9 / 26

중심위치 척도 표본평균, 중앙값, 최빈값의 비교 표본평균은 중앙값보다 극단적인 값에 민감함 단봉형인 경우, 분포가 대칭이면 표본평균과 중앙값, 최빈값이 같은 값이고 이봉형인 경우, 분포가 대칭이면 표본평균과 중앙값은 같은 값이고 최빈값은 다른 값임 다봉형인 경우는 최빈값이 여러 개이므로 중심위치 척도로 적합치 못함 분포가 대칭이 아니면, 표본평균, 중앙값, 최빈값 모두 다른 값임 자료가 오른쪽에 많은 경우(skewed to the left, 왼쪽으로 뒤틀림)는 중앙값 > 평균 자료가 왼쪽에 많은 경우(skewed to the right, 오른쪽으로 뒤틀림)는 중앙값 < 평균 10 / 26

중심위치 평균, 중앙값, 최빈값 ( 오른쪽으로뒤틀린경우 ) 최빈값 (x 1 ) 중앙값 (x 2 ) 평균 (x 3 ) x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 11 / 26

중심위치 평균, 중앙값, 최빈값 ( 왼쪽으로뒤틀린경우 ) 최빈값 (x 3 ) 중앙값 (x 2 ) 평균 (x 1 ) x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 12 / 26

중심위치 평균, 중앙값, 최빈값 ( 대칭인단봉형인경우 ) 평균, 중앙값, 최빈값 (x) x 강희모 ( 한림대학교 ) 수치를이용한자료요약 13 / 26

중심위치 평균, 중앙값, 최빈값 ( 대칭이고이봉형인경우 ) 최빈값 최빈값 평균, 중앙값 x 1 x 2 x 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 14 / 26

평균비교 평균이다르고분산이같은경우 평균이작은경우 평균이큰경우 강희모 ( 한림대학교 ) 수치를이용한자료요약 15 / 26

퍼진 정도의 측도 분산(variance), 표준편차(standard deviation) 평균의 퍼진 척도로 사용 자료에 합은 항상 0 P 대한 편차(deviation)의 P ( (Xi X) = (Xi µ) = 0) 모분산(population variance)은 P (Xi µ)2 n 모표준편차는 모분산의 양의 제곱근 σ = σ 2 편차의 제곱합 σ = = n 2 표본 분산(sample variance)은 (Xi X)2 n 1 표본표준편차는 표본 분산의 양의 제곱근 S = S 2 편차의 제곱합 S = = n 1 2 P 16 / 26

분산비교 평균이같고분산이다른경우 분산이작은경우 분산이큰경우 강희모 ( 한림대학교 ) 수치를이용한자료요약 17 / 26

퍼진 정도의 측도 분산, 표준편차 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 분산과 표준편차를 구해보자. 89 74 91 88 72 84 {(89 83)2 + + (84 83)2 } = 65.6 6 1 s = 65.6 = 8.099382693 s2 = 18 / 26

퍼진 정도의 측도 범위(range) 범위는 (관측값 중에서 최대값) (관측값 중에서 최소값) 범위는 간편하게 구할 수 있고 해석이 용이 양 끝점에서 값이 결정되기 때문에 중간의 관측값을 알 수 없음 극단 적으로 큰 값이나 작은 값( 이상점)에 많은 영향을 받음 범위 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 자료의 범위를 구해보자. 89 74 91 88 72 84 범위 = 최대값 최소값 = 91 72 = 19 19 / 26

퍼진 정도의 측도 백분위수(percentile) 백분위수는 관측값을 크기 순서로 배열하였을 때 P (x xp ) p and P (x xp ) 1 p 를 만족하는 xp 임 백분위수는 100 p% 백분위수로 표현 백분위수는 관측값의 규모에는 상관없고, 관측값의 순서에만 상관있음 20 / 26

퍼진 정도의 측도 백분위수 구하기 관측값을 작은 순서로 배열함 관측값의 갯수(n)에 백분율(p)를 곱함 n p가 정수이면, n p 번째로 작은 값과 n p + 1 번째로 작은 관측값의 평균이 100 p 백분위수임 n p가 정수가 아니면, n p의 정수부분에 1을 더한 값 m을 구하고 m번째 작은 관측값을 100 p 백분위수임 21 / 26

퍼진 정도의 측도 사분위수(quartile) 관측값을 크기 순서로 배열하였을 때 전체를 사등분한 값 제 1 사분위수 : Q1 = 제 25백분위수 제 2 사분위수 : Q2 = 제 50백분위수 = 중앙값 제 3 사분위수 : Q3 = 제 75백분위수 사분위수 범위(interquartile range, IQR) : 제 3 사분위수 제 1 사분위수 사분위수 범위는 중앙값을 중심척도로 사용하는 경우 퍼진 정도의 척도로 사용 22 / 26

퍼진정도의측도 사분위수 (quartile) IQR Q 1 Q 2 Q 3 강희모 ( 한림대학교 ) 수치를이용한자료요약 23 / 26

퍼진 정도의 측도 사분위수 : 보기 서울의 한 전철역에서 인천의 한 전철역까지 소요되는 시간을 기록한 자료가 다음과 같다(단위 : 분). 이 자료에서 제 50 백분위수인 중앙값과 제 20 백분위수를 구하자. 42 45 40 44 38 40 37 38 43 41 39 35 78 31 38 44 38 44 38 44 39 45 40 78 이 자료를 오름차순으로 재배열하면 31 40 35 41 37 42 38 43 이고 관측값의 개수가 16이므로 제 50 백분위수는 16 0.5 = 8이므로 8 번째 작은값 40과 9 번째 작은 값 40의 평균인 40이고, 제 20 백분위수는 16 0.2 = 3.2이므로 (3+1)번째 작은 값인 38이 된다. 24 / 26

퍼진 정도의 측도 변동계수(coefficient of variation,cv) 중심위치나 단위가 다른 두 개 이상의 분포의 서로 상대적인 퍼진 정도의 측도 표준편차 변동계수 = 100 표본평균 25 / 26

퍼진 정도의 측도 변동계수 : 보기 한 투자자가 A 회사의 주식과 B 회사의 주식 중 하나를 매입하기 위하여 6일 동안 조사한 두 회사의 마감 가격은 다음과 같다. A 회사 주식과 B 회사 주식 가격의 표본평균, 표준편차, 변동계수 등을 구하여 퍼진 정도를 비교하자. 날짜 1 2 3 A회사 76,300 77,400 77,900 B회사 6,400 7,000 7,400 xa = 77, 417 sa = 861 CVA = 1.11 날짜 4 5 6 A회사 77,200 76,900 78,800 B회사 6,900 7,300 7,600 xb = 7100 sb = 429 CVB = 6.04 26 / 26