..(..) (..) - statistics

Similar documents
statistics

(001~006)개념RPM3-2(부속)

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

확률과통계 강의자료-1.hwp

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

슬라이드 1

기술통계

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft PowerPoint - IPYYUIHNPGFU

R t-..

와플-4년-2호-본문-15.ps

통계학입문

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은


10. ..

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

YBM시사닷컴, 첨단 개인별 맞춤 학습 시스템 개발

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

untitled

= ``...(2011), , (.)''


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

통계학입문

슬라이드 1

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

Microsoft PowerPoint - chap04-연산자.pptx

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

Microsoft Word - Chapter6.doc

모수검정과비모수검정 제 6 강 지리통계학

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F62E707074>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Resampling Methods

메타분석: 통계적 방법의 기초


untitled

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

설계란 무엇인가?

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

PowerPoint 프레젠테이션


Microsoft PowerPoint Relations.pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>


(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

untitled

분산분석.pages

Microsoft PowerPoint - 26.pptx

Microsoft Word - SAS_Data Manipulate.docx

Microsoft PowerPoint - chap03-변수와데이터형.pptx

05 ƯÁý

표본재추출(resampling) 방법

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

LIDAR와 영상 Data Fusion에 의한 건물 자동추출

제 3 장평활법 지수평활법 (exponential smoothing) 최근자료에더큰가중값, 과거로갈수록가중값을지수적으로줄여나가는방법 시스템에변화가있을경우변화에쉽게대처가능 계산이쉽고많은자료의저장이필요없다 예측이주목적단순지수평활법, 이중지수평활법, 삼중지수평활법, Wint


... —....—



<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

한국정책학회학회보

G Power

... —... ..—

R


Microsoft Word - EDA_Univariate.docx

고객관계를 리드하는 서비스 리더십 전략

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

OCW_C언어 기초

0 cm (++x)=0 x= R QR Q =R =Q = cm =Q =-=(cm) =R =x cm (x+) = +(x+) x= x= (cm) =+=0 (cm) =+=8 (cm) + =0+_8= (cm) cm + = + = _= (cm) 7+x= x= +y= y=8,, Q

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

PowerPoint 프레젠테이션

제 3강 역함수의 미분과 로피탈의 정리

목차 1. 통계학이란무엇인가? 2. 통계학의응용분야 3. 통계학의분야들 4. 강의소개 5. 그리고..

* ** *** ****

시계열분석의개요 (the nature of time series analysis) 시계열자료 (time series data) 연도별 (annual), 분기별 (quarterly), 월별 (monthly), 일별 (daily) 또는시간별 (hourly) 등시간의경과 (

실험 5

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

슬라이드 1

¸ðÅä·Î¶ó ÃÖÁ¾ÆÇ.PDF

chap 5: Trees

chap 5: Trees

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

Microsoft PowerPoint - LN05 [호환 모드]

Microsoft Word - EDA_Univariate.docx

온습도 판넬미터(JTH-05) 사양서V1.0

adfasdfasfdasfasfadf

PPT Template

확률과통계6

제49회 부산과학전람회

= " (2014), `` ,'' .." " (2011), `` ,'' (.)"

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

REPORT ON PROFICIENCY TESTING Annual Report on the External Quality Assessment Scheme for Special Protein

Microsoft Word - Software_Ch2_FUNCTION.docx

Transcription:

수치 ( 數値 ) 를이용한자료요약 ( 要約 ) statistics hmkang@hallym.ac.kr 한림대학교 한중시장분석 강희모 ( 한림대학교 ) 수치 ( 數値 ) 를이용한자료요약 ( 要約 ) 1 / 26

수치를 통한 자료의 요약 요약(要約,summary) 많은 자료를 몇 개의 의미(意味)있는 수치로 요약 자료의 분포상태(分布狀態)를 알 수 있는 통계기법(統計技法) 사용 중심위치의 측도(中心測度, measure of center) : 어떤 값을 중심 (中心)으로 분포(分布)되어 있는지 나타내는 측도로 평균(平均, mean), 중앙(中央)값(median), 최빈(最頻)값(mode) 퍼진정도의 측도(measure of dispersion) : 자료가 각 중심위치에서 얼마나 흩어져 있는지 나타내는 측도로 분산(分散, variance), 표준편차(標準偏差, standard deviation), 범위(範圍, range), 사분위수 범위(四分位數 範圍,interquartile range) 2 / 26

중심위치(中心位置)의 측도 평균(平均, mean, average) 모든 관측값의 합을 자료의 개수로 나눈 값으로 산술평균(算術平均, arithmetic average)이라고 부름 모평균(母平均, population mean)은 모집단 자료에 대한 평균이며, 그 값을 µ(mu)로 표기 표본평균(標本平均, sample mean)은 표본자료에 대한 평균이며, 그 값을 X(X bar)로 표기 평균은 모든 관측값이 반영되기 때문에 극단적으로 크거나 작은 값(이상점, 異常點, outlier)에 영향을 많이 받음 절사평균(切捨平均, trimmed mean)을 사용하면 극단(極端, extreme)적인 값의 영향을 줄일 수 있음 자료의 성격에 따라 기하평균(幾何平均, geometric mean), 조화평균(調和平均, harmonic mean)이 있음 x1 + + xn 모평균(µ) = 모든 자료의 합 = 자료의 갯수 N x1 + + xn 모든 관측값의 합 표본평균(x) = = 관측값의 갯수 n 3 / 26

중심위치의 측도 평균 : 보기(example) 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 표본평균을 구해보자. 89 74 91 88 72 84 x= 89 + 74 + 91 + 88 + 72 + 84 = 83 6 4 / 26

중심위치의 측도 절사평균(切捨平均, trimmed mean) 절사평균 : 너무 큰 값과 작은 값을 제외한 나머지 자료의 평균으로 보통 절사한 자료의 비율을 표시하기 위해 α% 절사평균이라고 표현함 α% 절사평균은 자료를 순서대로 나열했을 때 상위(上位) α%의 자료와 하위(下位) α%의 자료를 제외한 나머지 자료의 평균 절사평균 : 보기 피겨스케이팅 경기에서 10명의 심사위원(審査委員)이 한 선수에 대한 채점(採點) 결과이다. 10 9 10 9 10 9 10 9 10 2 10% 절사평균은 얼마인가? 최고점 (最高點) 10점과 최저점(最低點) 2점을 제외한 나머지 자료 8개의 평균인 9.5점임 5 / 26

중심위치의 측도 사분위수 평균(四分位數 平均, trimean) 자료를 순서대로 나열한 후 25%, 50%, 75%의 위치에 있는 자료의 값을 각각 제 1사분위수, 제 2사분위수 및 제3사분위수라고 함 이들은 각각 Q1, Q2 및 Q3 로 나타낸다 사분위수 평균은 중앙값과 산술평균의 장점(長點)을 취(取)하고자 제안된 것으로 Q1 + 2Q2 + Q3 4 임 6 / 26

중심위치의 측도 중앙값(中央値, median) 전체 관측값을 크기 순서(順序)로 배열(配列)하였을 경우 가운데 위치하는 값 관측값의 크기보다 관측값의 위치(位置)가 중요 관측값의 변화에 민감하지 않다. 즉 극단(極端, extreme)적으로 큰 값이나 작은 값(이상점, 異常點, outlier)에 영향을 받지 않음 중앙값을 구하는 방법 관측값을 크기 순서로 배열 자료의 개수가 홀수이면 n+1 2 번째 자료값이 n n 2 번째 관측값과 2 자료의 개수가 짝수이면 중간값이나 평균이 중앙값 중앙값 + 1 번째 관측값 사이의 7 / 26

중심위치의 측도 중앙값 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 중앙값을 구해보자. 89 74 91 88 72 84 학생들의 성적을 순서대로 배열하면 72 74 84 88 89 91이고 관측값의 갯수가 짝수이기 때문에 62 번째 관측값 84와 26 + 1번째 관측값 88의 평균 86이 중앙값임 다음과 같이 자료가 주어졌다면 중앙값은 얼마인가? 6.4 7.8 8.1 9.2 10.5 중앙값은 5+1 2 = 3번째 값인 8.1임 8 / 26

중심위치의 측도 최빈값(最頻數, mode) 관측값 중에서 가장 자주 나오는 값 연속형 자료에서 돗수분포표로 자료를 그룹화하여 최대의 돗수를 갖는 계급구간의 중간값을 최빈값으로 함 이산형 자료의 경우 최빈값을 대표값으로 사용하기도 함 최빈값(最頻數, mode) 보기 다음 자료에서 최빈값은 무엇인가? 2,5,5,3,5,2 위 자료에서 2는 두 번, 3은 한 번, 5는 세 번이므로 5가 최빈값 임 9 / 26

중심위치 척도 표본평균, 중앙값, 최빈값의 비교 표본평균은 중앙값보다 극단적인 값에 민감함 단봉형(單棒型)인 경우, 분포가 대칭(對稱)이면 표본평균과 중앙값, 최빈값이 같은 값이고 이봉형(二棒型)인 경우, 분포가 대칭이면 표본평균과 중앙값은 같은 값이고 최빈값은 다른 값임 다봉형(多棒型)인 경우는 최빈값이 여러 개이므로 중심위치 척도로 적합치 못함 분포가 대칭이 아니면, 표본평균, 중앙값, 최빈값 모두 다른 값임 자료가 오른쪽에 많은 경우(skewed to the left, 왼쪽으로 뒤틀림(歪) 는 중앙값 >평균 자료가 왼쪽에 많은 경우(skewed to the right, 오른쪽으로 뒤틀림 (歪)는 중앙값 <평균 10 / 26

중심위치 평균, 중앙값, 최빈값(오른쪽으로 뒤틀린 경우) 최빈값(x1 ) 중앙값(x2 ) x1 평균(x3 ) x2x3 11 / 26

중심위치 평균, 중앙값, 최빈값(왼쪽으로 뒤틀린 경우) 최빈값(x3 ) 중앙값(x2 ) 평균(x1 ) x1x2 x3 12 / 26

중심위치 평균, 중앙값, 최빈값(대칭인 단봉형인 경우) 평균, 중앙값, 최빈값(x) x 13 / 26

중심위치 평균, 중앙값, 최빈값(대칭이고 이봉형인 경우) 최빈값(x1 ) 최빈값(x3 ) 평균, 중앙값(x2 ) x1 x2 x3 14 / 26

평균비교 평균이다르고분산이같은경우 평균이작은경우 평균이큰경우 강희모 ( 한림대학교 ) 수치 ( 數値 ) 를이용한자료요약 ( 要約 ) 15 / 26

퍼진 정도의 측도 분산(分散, variance), 표준편차(標準偏差, standard deviation) 평균의 퍼진 척도로 사용 자료에 합은 항상 0 P 대한 편차(deviation)의 P ( (Xi X) = (Xi µ) = 0) 모분산(母分散, population variance)은 편차(偏差)의 제곱합 σ = = n 2 P (Xi µ)2 n 모표준편차(population standard deviation)는 모분산의 양(陽)의 2 제곱근 σ = σ 표본 분산(標本分散, sample variance)은 편차의 제곱합 S = = n 1 2 P (Xi X)2 n 1 표본표준편차는 표본 분산의 양의 제곱근 S = S2 16 / 26

분산비교 평균이 같고 분산이 다른 경우 분산이 작은 경우 분산이 큰 경우 17 / 26

퍼진 정도의 측도 분산, 표준편차 : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 분산과 표준편차를 구해보자. 89 74 91 88 72 84 {(89 83)2 + + (84 83)2 } = 65.6 6 1 s = 65.6 = 8.099382693 s2 = 18 / 26

퍼진 정도의 측도 범위(range) 범위는 (관측값 중에서 최대값) (관측값 중에서 최소값) 범위는 간편하게 구할 수 있고 해석이 용이 양 끝점에서 값이 결정되기 때문에 중간의 관측값을 알 수 없음 극단 적으로 큰 값이나 작은 값(이상점)에 많은 영향을 받음 범위 (範圍, range) : 보기 어떤 과목에서 6명의 학생의 점수가 다음과 같다. 자료의 범위를 구해보자. 89 74 91 88 72 84 범위 = 최대값 최소값 = 91 72 = 19 19 / 26

퍼진 정도의 측도 백분위수(百分位數, percentile) 백분위수는 관측값을 크기 순서로 배열하였을 때 P (x xp ) p and P (x xp ) 1 p 를 만족하는 xp 임 백분위수는 100 p% 백분위수로 표현 백분위수는 관측값의 규모에는 상관없고, 관측값의 순서에만 상관있음 20 / 26

퍼진 정도의 측도 백분위수(百分位數, percentile) 구하기 관측값을 작은 순서로 배열함 관측값의 갯수(n)에 백분율(p)를 곱함 n p가 정수(整數)이면, n p 번째로 작은 값과 n p + 1 번째로 작은 관측값의 평균이 100 p 백분위수임 n p가 정수가 아니면, n p의 정수부분에 1을 더한 값 m을 구하고 m번째 작은 관측값을 100 p 백분위수임 21 / 26

퍼진 정도의 측도 사분위수(四分位數, quartile) 관측값을 크기 순서로 배열하였을 때 전체를 사등분한 값 제 1 사분위수 : Q1 = 제 25백분위수 제 2 사분위수 : Q2 = 제 50백분위수 = 중앙값 제 3 사분위수 : Q3 = 제 75백분위수 사분위수 범위(interquartile range, IQR) : 제 3 사분위수 제 1 사분위수 사분위수 범위는 중앙값을 중심척도로 사용하는 경우 퍼진 정도의 척도로 사용 22 / 26

퍼진정도의측도 사분위수 (quartile) IQR Q 1 Q 2 Q 3 강희모 ( 한림대학교 ) 수치 ( 數値 ) 를이용한자료요약 ( 要約 ) 23 / 26

퍼진 정도의 측도 사분위수 : 보기 서울의 한 전철역에서 인천의 한 전철역까지 소요되는 시간을 기록한 자료가 다음과 같다(단위 : 분). 이 자료에서 제 50 백분위수인 중앙값과 제 20 백분위수를 구하자. 42 45 40 44 38 40 37 38 43 41 39 35 78 31 38 44 38 44 38 44 39 45 40 78 이 자료를 오름차순으로 재배열하면 31 40 35 41 37 42 38 43 이고 관측값의 개수가 16이므로 제 50 백분위수는 16 0.5 = 8이므로 8 번째 작은값 40과 9 번째 작은 값 40의 평균인 40이고, 제 20 백분위수는 16 0.2 = 3.2이므로 (3+1)번째 작은 값인 38이 된다. 24 / 26

퍼진 정도의 측도 변동계수(變動係數, coefficient of variation,cv) 중심위치나 단위가 다른 두 개 이상의 분포의 서로 상대적인 퍼진 정도의 측도 표준편차 변동계수 = 100 표본평균 25 / 26

퍼진 정도의 측도 변동계수 : 보기 한 투자자가 A 회사의 주식과 B 회사의 주식 중 하나를 매입하기 위하여 6일 동안 조사한 두 회사의 마감 가격은 다음과 같다. A 회사 주식과 B 회사 주식 가격의 표본평균, 표준편차, 변동계수 등을 구하여 퍼진 정도를 비교하자. 날짜 1 2 3 A회사 76,300 77,400 77,900 B회사 6,400 7,000 7,400 xa = 77, 417 sa = 861 CVA = 1.11 날짜 4 5 6 A회사 77,200 76,900 78,800 B회사 6,900 7,300 7,600 xb = 7100 sb = 429 CVB = 6.04 26 / 26