yscec.yonsei.ac.kr Useful information 통계학입문 2013 년겨울학기 v 교수 : 정보통계학과박동권교수 v v 연구실 : 창조관 153호 / 교내 2247 v v Pdf file 은정보통

Similar documents
statistics

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

확률과통계 강의자료-1.hwp

(001~006)개념RPM3-2(부속)

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft Word - EDA_Univariate.docx

통계학입문

Microsoft PowerPoint - LN05 [호환 모드]

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

확률과통계4

확률 및 분포

Microsoft PowerPoint - chap_2_rep.ppt [호환 모드]

확률과통계6

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

PowerPoint Presentation

untitled

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

cha4_ocw.hwp

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

통계학입문

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

슬라이드 1

01


공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

기술통계

PowerPoint 프레젠테이션

R t-..

슬라이드 1

모수검정과비모수검정 제 6 강 지리통계학

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

Microsoft PowerPoint - 26.pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

제 3강 역함수의 미분과 로피탈의 정리

untitled

Microsoft Word - SAS_Data Manipulate.docx

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

Microsoft PowerPoint - Java7.pptx

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi


마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

2018 학년도대학수학능력시험문제지 1 제 2 교시 홀수형 5 지선다형 1. 두벡터, 모든성분의합은? [2 점 ] 에대하여벡터 의 3. 좌표공간의두점 A, B 에대하여선분 AB 를 으로내분하는점의좌표가 이다. 의값은? [2점] ln

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

금오공대 컴퓨터공학전공 강의자료

Precipitation prediction of numerical analysis for Mg-Al alloys

= ``...(2011), , (.)''

untitled

R

Microsoft PowerPoint Relations.pptx

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

용역보고서

2 장수의체계 1. 10진수 2. 2진수 3. 8진수와 16진수 4. 진법변환 5. 2진정수연산과보수 6. 2진부동소수점수의표현 한국기술교육대학교전기전자통신공학부전자전공 1

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - chap-05.pptx


수리영역 5. 서로다른두개의주사위를동시에던져서나온두눈의수의곱 이짝수일때, 나온두눈의수의합이 또는 일확률은? 5) 의전개식에서상수항이존재하도록하는모든자 연수 의값의합은? 7) 다음순서도에서인쇄되는 의값은? 6) 8. 어떤특산

Lecture12_Bayesian_Decision_Thoery

슬라이드 제목 없음

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

제 4 장수요와공급의탄력성

Microsoft PowerPoint 상 교류 회로


OCW_C언어 기초

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

Chapter4.hwp

C# Programming Guide - Types

KNK_C_05_Pointers_Arrays_structures_summary_v02

i

PowerPoint 프레젠테이션

Microsoft PowerPoint - chap04-연산자.pptx

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

10. ..

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

(Exposure) Exposure (Exposure Assesment) EMF Unknown to mechanism Health Effect (Effect) Unknown to mechanism Behavior pattern (Micro- Environment) Re

데이터 시각화

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

행정학석사학위논문 공공기관기관장의전문성이 조직의성과에미치는영향 년 월 서울대학교행정대학원 행정학과행정학전공 유진아


<B1B9BEEE412E687770>

Microsoft PowerPoint - e pptx

집합 집합 오른쪽 l 3. (1) 집합 X 의각원소에대응하는집합 Y 의원소가단하나만인대응을 라할때, 이대응 를 X 에서 Y 로의라고하고이것을기호로 X Y 와같이나타낸다. (2) 정의역과공역정의역 : X Y 에서집합 X, 공역 : X Y 에서집합 Y (3) 의개수 X Y

체의원소를계수로가지는다항식환 Theorem 0.1. ( 나눗셈알고리듬 (Division Algorithm)) F 가체일때 F [x] 의두다항식 f(x) = a 0 + a 1 x + + a n x n, a n 0 F 와 g(x) = b 0 + b 1 x + + b m x

제 5강 리만적분

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

Microsoft PowerPoint - chap06-2pointer.ppt

.4 편파 편파 전파방향에수직인평면의주어진점에서시간의함수로 벡터의모양과궤적을나타냄. 편파상태 polriion s 타원편파 llipill polrid: 가장일반적인경우 의궤적은타원 원형편파 irulr polrid 선형편파 linr polrid k k 복소량 편파는 와 의

..(..) (..) - statistics

Microsoft PowerPoint Predicates and Quantifiers.ppt

adfasdfasfdasfasfadf

Infinity(∞) Strategy

Transcription:

yscec.yonsei.ac.kr Useful information 통계학입문 03 년겨울학기 v 교수 : 정보통계학과박동권교수 v v 연구실 : 창조관 53호 / 교내 47 v E-mail : statpdk@yonsei.ac.kr v Pdf file 은정보통계학과 Homepage infostat.yonsei.ac.kr 에서다운받음 v 교재 : 통계학입문 v -- 김재광외 ( 연세대학교 ) ( 자유아카데미 ) v 시험은중간 / 기말 close book v 늦게제출된숙제는감점처리 v 복사한숙제는 0 점처리 v EXCEL 을사용한통계학강의 v 출석은학점에중요하게반영 v /3 결석은무조건 F 처리 통계학입문 통계학입문 통계학입문 3 통계학이란? 통계의생성과저장 제 장들어가기 v 자료수집, 정리, 요약뿐만아니라 v 수집한자료에서얻은정보로부터자료를뽑았던대상전체에대한정보로바꾸는작업 v 수집된자료의예 대학생한달용돈 00 명조사 ( 우리나라대학생전체는모집단 ) 대졸신입사원의연봉 500 명조사 벤처기업중 년이상유지된기업 50 개조사 v 일부만으로조사를하여전체를알아보려고하니당연히정확하지못함 v 표본에서얻은정보를모집단에서의정보로바꾸는과정에서오차를줄이는방법을연구하고필연적으로수반되는오차의크기를계산하여정보이용자나의사결정자에게제공 v 통계의생성 - 생성의주체 : 정부, 기업, 개인 - 생성방법 : 조사통계, 보고통계, 컴퓨터시스템과인터넷으로자동생성 v 통계의저장수작업또는자동으로저장 통계학입문 통계학입문 5 통계학입문 6

통계의사용 모집단과표본 모집단과표본의예 v 자연과학, 공학, 의학, 사회, 심리, 역사, 인류학, 언어학, 경제, 경영등모든학문분야및실생활에서사용됨 v 예 : 90 년대드라마시청률순위, v 예 : 대통령지지율, v 예 : 퀀트라불리는증권가의사람들, v 예 : 통계, 황금알을낳는숫자 통계청웹사이트 www.nso.go.kr 통계청소개 > 멀티홍보관 > 홍보동영상 v 모집단 (Population) 관심대상전체 v 표본 (Sample) 관심대상중자료수집으로뽑힌일부분 v 추론 (Inference) 표본에서얻은정보를이용하여모집단에대한정보를예측또는추론하면서그에수반되는오차의크기까지계산해내는학문 조사내용 모집단 표본 유권자성향 전국유권자 표본 500명유권자 벤처회사파산율 모든벤처회사 표본 300개벤처회사 비타민의감기예방효과 모든사람들 실험조사된스키어들 대학생한달용돈 전국대학생 표본 00명대학생 관심대상 통계학입문 7 통계학입문 8 통계학입문 9 자료의구분 ( 사친연산가능여부에따른 ) 자료의구분 ( 측정척도에따른 ) 자료의구분 ( 측정척도에따른 ) v 질적자료 (qualitative) = 비계측자료 (nonmetric ) 사칙연산불가능 예 : 직업, 출신, 성별등 범주형자료 (categorical data) 라부르기도함 v 양적자료 (quantitative) = 계측자료 (metric ) 사칙연산가능 예 : 몸무게, 용돈, 가격등 v 명목자료 (nominal) 문자로나타내어지는자료 범주간순서가없음 예 : 혈액형 (A, B, O, AB) 예 : 직업종류 ( 전문직, 회사원, 공무원 ) 예 : 성별 ( 남, 여 ) v 순서자료 (ordinal) 문자로나타내어지는자료이나범주들간에는순서가있는자료 사칙연산을할수없음 예 : 선호도 ( 아주좋아함, 좋아함, 보통, 싫어함, 아주싫어함 ) 예 : 학점 (A, B, C, D, F), 옷사이즈 v 숫자형자료 (numerical data) 숫자로측정되는자료 사칙연산이가능하므로합계, 평균, 최대값, 분산등으로자료를요약정리할수있으며비교도가능 예 : 이동전화걸려오는횟수, 키, 몸무게, 소득 많은경우는정확한수치보다는반올림등을통해나타냄 예 : 키 70 cm 는 69.5 에서 70.5 사이의값을의미함 명목자료, 순서자료 질적자료 숫자형자료 양적자료 통계학입문 0 통계학입문 통계학입문

자료의계층 시계열 & 횡단면자료 시계열 & 횡단면자료 숫자 순서 명목 변형가능 변형불가능 v 시계열자료 (Time series) 시간의변화에따른자료 예 : 지난 0 년간아파트가격, 달주가지수, 3 년간원 - 달러환율, IMF 이후우리나라의신용등급 예 : 700 년에서 988 년까지의태양흑점 (sunspot) 의수 v 횡단면자료 (Cross-sectional) 동일한시간대에얻어진자료 예 : 남녀별선호하는여행지, 나이대별외식에서의한식비율, 지역별아파트가격, 작년우리나라와각나라의무역수지 예 : 근속년수별, 남녀별회사원의한달평균용돈 예 : 검은벚나무 (black cherry tree) 3 그루의높이를피트 (feet) 로잰자료 통계학입문 3 통계학입문 4 통계학입문 5 시계열그래프그리기 시계열그래프그리기 제 장 Graph 에의한기술통계 통계학입문 6 통계학입문 7 통계학입문 3

기술통계 ( Descriptive Statistics ). 도수분포표 ( Frequency Distribution ). 도수분포표 ( Frequency Distribution ) v 자료의대략적인모습을보여주기 v 섬세한분석을위한기초단계 v 수치에의한자료의요약 예 ) 평균, 분산등 v Graph 나표를이용한기술 v 자료의전체적인구성형태를도수 ( Frequency ) 로표현함 v 명목자료나순서자료 값들을그대로사용하거나그종류가너무많으면비슷한값들을묶어사용 예 : 어떤부류의동호인들이동호인마을을이루고있는지 3 개마을을조사하였다. 음악, 미술, 미술, 영화, 역술, 음악, 음악, 영화, 미술, 영화, 미술, 음악, 음악 v 상대도수 ( Relative Frequency ) 도수상대도수 = 전체자료의수 v 상대도수분포표 ( Relative Frequency Distribution ) 통계학입문 9 통계학입문 0 음악인마을이 38% 로제일많고, 역술인마을이 8% 를차지 통계학입문. 도수분포표 ( Frequency Distribution ). 도수분포표 ( Frequency Distribution ). Bar Chart 와 Pie Chart v 구간 ( 또는계측 ) 자료인경우, 전체범위를몇개의계급 ( Class ) 으로나눔 예 : 몸무게 50Kg 미만, 50Kg 이상 60Kg 미만, 60Kg 이상 70Kg 미만, 70Kg 이상 v 각계급에속하는자료의수를도수로표현 v 모든계급구간 ( Class Interval ) 또는계급폭 ( Class Width ) 은동일 처음과끝의계급은제외 v 누적도수 ( Cumulative Frequency ) 아래계급에서부터차례로도수를누적시키며구함 v 누적상대도수 ( Cumulative Relative Frequency ) v 명목자료를 Graph 로표시 v Bar Chart Pie Chart 각항목의각도 = 360 * 상대도수 통계학입문 통계학입문 3 통계학입문 4 4

3. Histogram 3. Histogram 3. Histogram v 순서형자료와숫자형자료를도수분포표를이용하여 Graph 형태로나타낸것 v 자료에대한정보를특징적형태로제공함 v 대칭 ( Symmetry ) v 왜도 ( Skewness ) : 좌우로쏠려있는정도 양의왜도 ( Right skewed ) : 오른쪽으로길게늘어짐 음의왜도 ( Left skewed ) : 왼쪽으로길게늘어짐 v 모양 ( Shape ) : 종모양 ( Bell Shape ), L 자모양, U 자모양 통계학입문 5 통계학입문 6 봉우리개수 : 단봉 ( Unimodal ), 봉 ( Bimodal ) 상이한집단의자료들이섞여있을때 남녀구별하지않은몸무게자료 서울강남과강원도삼척의 Apartment 가격자료 통계학입문 7 4. 줄기잎전시 ( Stem and Leaf Display ) 4. 줄기잎전시 ( Stem and Leaf Display ) 5. 상자그림 ( Box Plot ) v Histogram 을옆으로돌려놓은것과동일 v Histogram 이생략하는정보를추가로표현 각자료의값을알수있음 히스토그램형태 v 누적도수곡선 ( Ogive ) : 도수를누적 ( Cumulative Frequency ) 하여꺾은선 Graph 형태로그린것 0.00% 00.00% 삼성전자증권시세누적도수곡선 v 자료를개괄적으로알아보기위함 v 다섯숫자요약 ( Five - Number Summary ) v 최소값, 4 분위수 ( First Quartile ), 중위수, 3 4 분위수 ( Third Quartile ), 최대값 v 자세한내용은 3 장참조 80.00% 60.00% 40.00% 0.00% 0.00% 0 00000 00000 300000 400000 500000 600000 700000 800000 v 다섯숫자요약을이용하여 Graph 로그린것이상자수염그림 ( Box and - Whisker Plot ) 또는상자그림 ( Box Plot ) v 4 분위수와 3 4 분위수로상자의길이가결정 v 중위수위치에상자의가운데선 통계학입문 8 통계학입문 9 통계학입문 30 5

5. 상자그림 ( Box Plot ) 5. 상자그림 ( Box Plot ) 6. 산점도 ( Scatter Plot, Scatter Diagram ) v 87년에서 970년까지 Aswan에서잰 Nile강유량의 다섯숫자요약 v Min. st Q. Median 3rd Q. Max. 456 798.5 893.5 03 370 v [ 그림.7 ] Nile강유량상자그림 v 그림.8 은태양흑점의상자그림 v 투키 ( John W. Tukey ) 제안한방법에의하여그린상자그림 v 자세한내용은 Exploratory Data Analysis ( John W. Tukey, 970, Addison - Wesley Publishing Co. ) 또는 R 을활용한탐색적자료분석 ( 허명회, 007, 자유 Academy ) 을참조 v [ 그림.8 ] 태양흑점상자그림 v 두변수의연관성을보여줌 v X, Y 축위에점으로각자료를표시 v 선형성 ( Linearity ) 양의선형관계, 음의선형관계 엘지전자 85,000 80,000 75,000 70,000 삼성전자와엘지전자의 005 년 - 월주식시세 65,000 600 800 000 00 400 통계학입문 3 0 50 00 50 통계학입문 3 60,000 40,000 440,000 460,000 480,000 500,000 50,000 540,000 삼성전자통계학입문 33 7. 분할표 ( Contingency table ) 8. 시계열그림 ( Time Series Plot ) v 두개이상의명목형, 순서형변수에대한 차원또는다차원형태의도수분포표 < 이차원분할표 > < 삼차원분할표 > v 시간의변화에따라얻게되는시계열자료를 Graph 로표현 ( 예. 매년태양의복사량, 계절에따른온도의변화, 각분기별소비물가지수, 매일의증권시세등 ) v X축 : 시간, Y축 : 해당자료 < 삼성전자주식의시간에따른가격변화 > 삼성전자 700,000 650,000 600,000 550,000 500,000 450,000 400,000 43 64 85 06 7 48 69 90 3 v 동호인마을 3 군데 ( 어떤동호인들이살고있나 ) v 음악, 미술, 미술, 영화, 역술, 음악, 음악, 영화, 미술, 영화, 미술, 음악, 음악 v 이자료의변수명은 동호인마을 통계학입문 34 통계학입문 35 통계학입문 36 6

v Step. 첫행에변수명을먼저입력한후그밑에차례로자료를 Sheet 에입력 주의 : 변수명을첫행에꼭입력 v Step. [ 삽입 ] Menu 의 [ PivotTable ] 을선택하면 Pivot Table 만들기대화창이나타남 v Step 3. [ 표또는범위선택 ] 을위해표 / 범위의오른쪽네모난 Tap 을 Click 하면 Data 를입력할창이나옴. 이때 Data 전체를 Drag 하여 Data 범위를 $A$:$A$4 이되도록함. 그후오른쪽 Tap 을다시 Click 주의 : $A$ 는 Data 가아님. 그러나 Pivot Table 을만들기위하여는 $A$ 가 Data 의범위에들어가야함 통계학입문 37 통계학입문 38 통계학입문 39 v Step 4. Pivot Table 대화창에서 Pivot Table 보고서작성위치를기존 WorkSheet 로선택하고 C3 Cell 을지정한후확인을선택 v Step 5. WorkSheet 에다음과같이나타남 v Step 6. Pivot Table Field 목록의 보고서에추가할 Field 선택 에동호인마을을선택하면행 Label 에동호인마을이나타남 통계학입문 40 통계학입문 4 통계학입문 4 7

v Step 7. 다시 Pivot Table Field 목록의동호인마을을우 Click 하여값에추가를선택 v Step 8. 그러면도수분포표의역할을하는 Pivot Table 이완성 v Step 9. [ Pivot Table 도구 ] 중 [ Option ] 을선택하여 [ Pivot Chart ] 를선택 통계학입문 43 통계학입문 44 통계학입문 45 v Step 0. 세로막대형중첫번째것을선택한후확인 v Step. 그러면 Chart 에다음과같이 Histogram 이그려짐 v Step. 오른쪽 MouseButton 을이용하여하나더복사 통계학입문 46 통계학입문 47 통계학입문 48 8

v Step 3. 복사한 Chart 를오른쪽 Mouse 로 Click 한후 Chart 종류변경을선택 v Step 4. Chart 종류 : 원형을선택하고확인 v Step 5. 결과로얻어진 Histogram 과 Pie Chart 통계학입문 49 통계학입문 50 통계학입문 5 수치적기술통계 ( Numerical descriptive statistics ) 중심위치척도 3 수치적기술통계학 v 숫자를이용하여분포의정보를요약기술하는것 예 ) 평균, 표준편차, 둘또는그이상의항목에대하여조사한자료에서의공분산이나상관계수등 v 척도의분류 - 중심위치의척도 - 변동성척도 - 연관성척도 v 위치 ( location ) : 자료들을수치로보았을때수직선상에어디에있는지를나타냄 v 자료들이대략어떠한값을갖는지를알아보기위하여, 어느위치를중심으로자료들이모여있는지를나타내는척도 평균 ( mean ) 중앙값 ( median ) 3 최빈값 ( mode ) 통계학입문 통계학입문 53 통계학입문 54 9

중심위치척도 중심위치척도 중심위치척도 평균 ( mean ) : 자료를모두더하여자료의수만큼으로나누어준값 표본평균 ( Sample mean ) n 표본의크기 å X i i= X + X + L+ X n X = = n n 모집단평균 ( Population mean ) N å X i m + + + i = L = = N 모집단의크기 X X X N N : 자료에특이하게작거나큰값이들어있게되면평균값은대표값으로부적절한경우가생김 예 ), 3, 5, 7, 9 평균 = 5 / 5 = 5, 3, 5, 7, 4 평균 = 30 / 5 = 6 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 4 평균 = 5 평균 = 6 중앙값 ( Median ) : 자료를크기순으로늘어놓았을때, 가운데에해당하는값 자료가홀수인경우 : 가운데값 자료가짝수인경우 : 가운데두개의평균 중앙값 = ( n + ) / 번째자료 : 특이하게작거나큰값이자료에있어도영향을받지않게됨 예 ), 3, 5, 7, 9 à 중앙값 = 5, 3, 5, 7, 4 à 중앙값 = 5 0 3 4 5 6 7 8 9 0 0 3 4 5 6 7 8 9 0 4 Median = 5 Median = 5 통계학입문 55 통계학입문 56 통계학입문 57 중심위치척도 중심위치척도 중심위치척도 3 최빈값 ( Mode ) : 자료중그빈도수가최대인값 : 자료가연속형인경우, 도수분포표상에서빈도가최대인계급의중앙값이최빈값이됨. : 명목자료인경우평균과중앙값은의미가없으므로최빈값을사용 : 자료가적은경우최빈값은무의미 : 최빈값은여러개가나올수있음 예 ) 한의류매장에서어느날판매된남성복바지들의허리 Size 는다음과같았다 : 3, 34, 36, 33, 8, 34, 30, 34, 3, 40 v 최빈값은 34 이다 v 이경우최빈값은중앙값보다유용하다. 왜냐하면자료의중심위치가 33.5 Inch 라고하는것보다 34 Inch 라고하는것이더상식적이기때문이다. 음의왜도 Mean < Median < Mode 대칭 Mean = Median =Mode 양의왜도 Mode < Median < Mean 0 3 4 5 6 7 8 9 0 3 4 Mode = 9 0 3 4 5 6 Modes ; all 통계학입문 58 통계학입문 59 통계학입문 60 0

중심위치척도 중심위치척도 변동성척도 4 4 분위수 ( Quartile ) : 자료를크기순으로늘어놓은후똑같은크기의네덩어리로만들때그경계에해당하는값 : 자료의 ¼, ½, ¾, 혹은 5%, 50%, 75% 에해당하는값 : 이 4 분위수는중앙값과동일 최소값 5% 이사분위수 (Q) 75% 4 분위수 ( Q ) 50% 3 4 분위수 ( Q3 ) 최대값 v 예 ) 다음과같은자료를얻었다고하자., 0, 7, 6, 3,, 0,, 8, 4 자료를크기순으로나열 -> 0,0,,,,3,4,6,7,8 Q : ( 0 + ) * 5 / 00 =.75 번째에해당따라서 0 + ( 0 ) * 0.75 = 0.75. Q : ( 0 + ) * 50 / 00 = 5.5 번째에해당따라서 + ( 3 ) * 0.5 =.5. Q3 : ( 0 + ) * 75 / 00 = 8.5 번째에해당따라서 5 + ( 7 5 ) * 0.5 = 5.5. v 변동성 ( Variability ), 퍼짐 ( Spread ) : 자료가변동하거나퍼져있는정도를나타냄 v 통계자료는서로다른값을가짐. 변동성척도 ( measure of variability ), 또는퍼점척도 ( measure of spread ) 는자료들이얼마나변동하거나퍼져있는지를표시 범위 ( Range ) 4 분위범위 ( Interquartile range : I.Q.R. ) 3 분산 ( Variance ), 표준편차 ( Standard deviation ) 4 변동계수 ( Coefficient of variation ) 통계학입문 6 통계학입문 6 통계학입문 63 변동성척도 변동성척도 변동성척도 범위 ( Range ) : 최대값과최소값의거리 범위 = 최대값 - 최소값 : 쉽고빠르게구할수있음 : 특이하게크거나작은값이있을경우자료의범위가왜곡됨 : 자료의개수와상관없이같게나올수있음 자료의변동성을대표하지못하는경우가많음 4분위범위 ( Interquartile Range ; I.Q.R. ) : 4분위수와 3 4분위수의거리 IQR = Q3 - Q : 양쪽극단값에서자료의 5% 씩안쪽으로들어와있는값의거리 특이값의영향을거의받지않음 ( 예 ) 자료 ( 순서대로나열 ) : 3 6 6 7 7 8 사분위간범위 = Q3 - Q = 7.5 -.5 = 5 3 분산 ( Variance ), 표준편차 ( Standard deviation ) : 자료각각이그평균으로부터떨어져있는거리를자승한것의평균값 å ( ) xi - m ( x ) i - x 모집단분산표본분산 å s = s = N n - : 자료하나하나의값이전부고려되어구해진변동성척도 : 값이클수록변동성이큼 : 음수가될수없음 표준편차 : 항목들의자승효과를없애기위해분산에자승근을한것 모집단표준편차 s = s 표본표준편차 s = s 통계학입문 64 통계학입문 65 통계학입문 66

변동성척도 특이값 ( Outlier ) 연관성척도 4 변동계수 ( Coefficient of variation ) : 표준편차를평균으로나누어표시 : 일반적으로 Percent 개념으로사용하므로 00 을곱하여 Percent 단위로표시 æ 표준편차 ö ç 00 % è 평균 ø : 변동성을평균에대한상대적인값으로표시 통계학입문 67 v 다른값들에비하여특이하게아주크거나작은값 => 특이값또는이상치 기입오류인경우도있으므로확인필요 v 특이값의발견 일반적으로 z score 값이 ~ 또는 3 ~ 3 을벗어나는경우를특이값으로생각 하지만, 자료의종류와형태에따라판단이필요 Z - score 는자료에서그평균을빼고표준편차로나눈값으로평균은 0, 표준편차는 인표준화된자료로변환됨 x - x s Z - score i 이때, z z-score zi = i는 xi의 x : 표본평균, s : 표본표준편차 통계학입문 68 v 연관성 ( Association ) : 개또는그이상의항목에대한자료들이상호관련되어있는성질 매출액 35 33 3 9 7 5 3 9 7 5 0 5 0 5 0 광고비 v 선형관계 ( Linear Relationship ) 의연관성척도 공분산 ( Covariance ) 상관계수 ( Correlation coefficient ) 통계학입문 69 연관성척도 연관성척도 연관성척도 공분산 ( Covariance ) : x와 y가각자의평균으로부터떨어진값을서로곱한후, 전부더하여표본에서는 n -, 모집단에서는 N으로나눈값모집단공분산표본공분산 ( xi - x)( yi - y s å ) xy = E( x - mx )( y - m y ) sxy = n - v 공분산의부호 양의관계 ( Positive Relationship ) : x 와 y 가평균에대하여서로같은값을가질때 음의관계 ( Negative Relationship ) : x 와 y 가평균에대하여서로반대값을가질때 : 두변수가어느방향으로얼마나변동하는지또는퍼져있는지를나타냄 [ 부호 ( sign ) 와크기 ( magnitude ) ] 통계학입문 70 통계학입문 7 통계학입문 7

y 연관성척도 연관성척도 연관성척도 v 광고비와매출액의선형적연관성측정 상관계수 ( Correlation Coefficient ) : 공분산을각자의표준편차로나눈값, 공분산을표준화한것 Pearson곱적률상관관계 (Pearson product moment correlation coefficient) s s xy xy 모집단상관계수 r 표본상관계수 rxy = xy = s xs y sxsy v 표본상관계수도모집단상관계수와똑같은성질을지닌다. v X 와 Y 축위에흩어져있는자료들의전체적인기울기와상관계수의값은관계가없다. 특히, 자료들의전체적인기울기가 45 도인것과상관계수값이 인것은전혀무관하다. 자료들의기울기가 5 도또는 60 도라하더라도선형성에의하여상관계수값이 이될수있다. s n å ( x - x)( y - y) 0 n - 0 - i i i= xy = = =.44( 억 ) sxy.44 rxy = 0.98 s s = (3.496)(6.53) = x y 통계학입문 73 통계학입문 74 통계학입문 75 연관성척도 연관성척도 연관성척도 비선형관계인경우 r xy = 0 0 4 6 8 0 0 4 6 8 0 상관계수 r = 0.90 값을갖는여러경우 0 4 6 8 0 x 0 4 6 8 0 x 0 4 6 8 0 0 4 6 8 0 y y y 0 4 6 8 0 x 0 4 6 8 0 x 통계학입문 76 통계학입문 77 통계학입문 78 3

Excel 을이용한기술통계 확률 (Probability) v Step 5. 함수이용 = AVERAGE ( A : A00 ) = MEDIAN ( A : A00 ) = MODE ( A : A00 ) = VAR ( A : A00 ) = STDEV ( A : A00 ) 제 4 장확률 v 우리가얻는임의의표본은모두확률에의한사건임 v 사건 (event) 발생가능한결과들의집합 v 단순사건 (simple event) 발생가능한결과들중하나만발생한사건 v 표본공간 (sample space) : 일어날수있는모든가능한단순사건을모아집합으로표시한것 모든원소를포함 (exhaustive) 상호배반 (mutually exclusive) 통계학입문 79 통계학입문 통계학입문 8 확률 (Probability) 확률의정의 확률의정의 v 표본공간 (sample space) 예 ) 주사위던지는실험에대한표본공간 {,, 3, 4, 5, 6 } v 전통적접근 (classic approach) : 똑같은가능성의사건을똑같은확률값을갖도록정의 : 주사위확률, 동전의확률 v 상대적비율접근 (relative frequency approach) 0.6 동전의앞면이나올확률 = / 예 ) 동전던지는실험에대한표본공간 { 앞면, 뒷면 } T v 상대적비율접근 (relative frequency approach) : 무수히많이시행하였을때그사건이일어난비율 (relative frequency) 이수렴해가는값 : 주사위를무수히던졌을때 5 가나올비율 0.55 0.5 0.45 예 ) 동전과주사위를동시에던지는실험에대한표본공간 { 앞, 앞, 앞 3, 앞 4, 앞 5, 앞 6, 뒤, 뒤, 뒤 3, 뒤 4, 뒤 5, 뒤 6} v 주관적접근 (subjective approach) : 각자생각하고있는어떤사건이일어날가능성에대한믿음의정도 (degree of belief) 0.4 50 00 50 00 50 통계학입문 8 통계학입문 83 통계학입문 84 4

현재이이미지를표시할수없습니다. 확률의규칙 확률의규칙 확률의규칙 v 표본공간의사건을 E, E, L, En 이라할때, 각각의사건의확률은 0과 사이에존재 표본공간의모든사건의확률을전부더하면. 확률할당의기본필요조건 P ( Ei ) i ( ) ( ) L ( ) 0, for all. P E + P E + + P E n = v 여집합규칙 (complement rule) C ( ) = - P ( A ) P A v 합규칙 (addition rule) ( U ) = ( ) + ( ) - ( I ) P A B P A P B P A B v 상호배반 (mutually exclusive) 사건의합규칙 ( U ) = ( ) + ( ) P A B P A P B v 결합확률 (Joint probability) : 교집합 (intersection) 의확률 사건 A A 사건 B B P(A B ) P(A B ) Total P(A B ) P(A ) P(A B ) P(A ) Total P(B ) P(B ) 결합확률 주변확률 통계학입문 85 통계학입문 86 통계학입문 87 확률의규칙 확률의규칙 확률의규칙 v 주변확률 (Marginal probability) : 두개변수를동시에고려하는상황에서어느한쪽만을생각할때의확률 : 주사위와동전을동시에던질때의예 앞면 뒷면 합계 3 4 5 6 합계 6 6 6 6 6 6 v 조건확률 (conditional probability) ( ) ( ) ( ) P A I B or ( ) P A I P A B = P B A = B P ( B) P ( A) : 학점이좋은학생의취업확률 ( 조건 = 학점이좋다 ) : 학점이낮은학생의취업확률 ( 조건 = 학점이낮다 ) : 예 ) 카드놀이에서빨강색카드를뽑았을때그카드가에이스일확률은? 색깔빨강검정 총계 에이스 4 비에이스 4 4 48 총계 6 6 5 조건부표본공간 P(Ace and Red) / 5 P(Ace Red) = = = P(Red) 6 / 5 6 통계학입문 88 통계학입문 89 통계학입문 90 5

확률의규칙 확률의규칙 확률의규칙 v 독립사건 (Independence events) : 어느사건이다른사건과일어날확률이서로무관할때 ( ) = ( ) or ( ) = ( ) P A B P A P B A P B : 동전의앞뒤와주사위의숫자는서로무관함 : 조건이확률에미치는영향이없음 주의 : 독립사건과상호배반사건을혼동하지말것. v 독립사건 (Independence events) : 승진여부는남성과여성이차이를보이고있는가? 승진 미승진 Total 남성 46 84 30 여성 6 64 80 total 6 48 30 사건의정의 A: 남성 B: 승진함 46 30 P ( A B) =, P( A) = 6 30 P ( A B) = P ( A) 이므로두사건은독립사건 : 남성과승진은독립. 성별이승진여부와무관함. v 곱셈규칙 ( I ) = ( ) ( ) or ( I ) = ( ) ( ) P A B P B P A B P A B P A P B A : 독립여부에관계없이항상성립 v 독립사건의곱셈규칙 P ( AI B) = P ( A) P ( B) : 독립일때만성립 통계학입문 9 통계학입문 9 통계학입문 93 베이즈정리 (Bayes theorem) 베이즈정리 (Bayes theorem) 베이즈정리 (Bayes theorem) v 베이즈정리 : 조건확률을구할때, 조건상황이역으로되어있는확률을이용하는것 v 사건이두가지일때의베이즈정리 P ( A ) P ( B A ) P ( A B) = P ( A ) P ( B A ) + P ( A ) P ( B A ) P ( A ) P ( B A ) P ( A B) = P ( A ) P ( B A ) + P ( A ) P ( B A ) v 사전확률 : 사건이일어나기전일어날확률 P( A ), P( A ) v 사후확률 : 사건이일어난후의확률 P( A B), P( A B) 통계학입문 94 v 어느대학을응시한남학생과여학생의비율이각각 0.7 과 0.3 v 여학생의합격률은 0.6 이고남학생의합격율은 0. v 합격한신입생중남학생의비율은? v 사전정보 A = 남학생, A = 여학생 (=A c ) B= 합격, B c = 불합격 P(A )=0.7, P(A )=0.3, P(B A )=0., P(B A )=0.6 v 베이즈정리적용 P ( A ) P ( B A ) P ( A B) = P ( A ) P ( B A ) + P ( A ) P ( B A ) 0.7 0. = = 0.438 0.7 0. + 0.3 0.6 통계학입문 95 v 베이즈정리의확장 A È A ÈLÈ A n = W ( 표본공간) P ( Ai ) P ( B Ai ) P ( Ai B) = P ( A ) P ( B A ) + P ( A ) P ( B A ) + L+ P ( An ) P ( B An ) 통계학입문 96 6

수형도 (tree diagram) 수형도 (tree diagram) v 수형도 (tree diagram) 복잡한문제를도표로그려이해하기쉽게한것 : 예 ) 레지던트들이전체적으로얼마나마약을하고있는지조사하고자한다. 이때응답한사람의프라이버시를보장하기위해아무도모르게동전을던지게하여앞면이나오면마약을하고있는지에대한대답을하게하고뒷면이나오면본인의생일이홀수날인지에대한대답을하게한다. 이를수형도로그리면다음과같다. P 마약한다 예 동전앞 동전뒤 - P 하지않는다 아니오 홀수생일날 예 짝수생일날 아니오 만일 예 의비율이 0.8 이라면레지던트의사중마약을하는비율이얼마인가? 예 의비율은동전앞이나와마약을하는비율과동전뒤가나와홀수생일일때 예 로답한비율의합이다. 0.8 = p + 이므로레지던트의사중마약을하는비율은 p = (0.8-0.5) = 0.06 제 5 장이산형확률변수 통계학입문 97 통계학입문 98 통계학입문 확률변수란? 확률변수 이산형확률분포 v 확률변수 (Random Variable) : 관찰이나실험의결과물에대한숫자적표현 [ 자료처리의편리성 ] 예 ) 동전을던졌을때, 앞면을 뒷면을 0 이라표현하면실험의결과는숫자로표현됨 확률변수 X, Y 등대문자로표현 확률변수가취하는값 x, y 등소문자로표현 이산형확률변수 (discrete random variable) : 유한개이거나셀수있는값을갖는확률변수 예 ) 박지성선수가한경기에서넣는골수 연속형확률변수 (continuous random variable) : 무한개의셀수없는가능한값을갖는확률변수 예 ) 갓태어난신생아의몸무게 통계학입문 00 v 예제 5. 종류실험또는관찰자동차고객이산형주사위던짐 공정소요시간연속형제품의불량률 결과 남자, 여자 ( 눈하나 ), ( 눈둘 ),, ( 눈여섯 ) 분으로계산된시간 0%~00% 사이의불량률 확률변수 (X) ( 남자 ), 0( 여자 ),,., 6 ( 셋이하 ), 0( 넷이상 ) (0, ) 사이의숫자 (0,00) 사이의숫자 통계학입문 0 v 확률분포 (probability distribution) : 확률변수가취할수있는값들에확률이대응되어있는것 v 이산형확률변수 X 가주어졌을때이의확률분포 ( 확률질량함수 ; probability f ( x) mass function) 를 라표기하고, 이는이산형확률변수 X 가값 x 를갖는확률을 의미함 å v 이산형f ( 확률질량함수의 x) > 0, and 조건f ( x) = v 예 ) 주사위 눈 (X) 의확률질량함수 f ( x ) =, x =,,,6 6 통계학입문 0 7

이산형확률분포 이산형확률변수 이산형확률변수 v 이산형확률변수 X의누적확률분포함수F ( x) 는확률변수 X가 x 보다작거나같은확률을의미하며, 다음과같이정의된다. F( x) = P( X x) = å f ( x) X x 예 ) 주사위눈 3 F(3.) = P( X 3.) = f () + f () + f (3) = = 6 F( - 0.6) = P( X - 0.6) = 0 F(7.8) = P( X 7.8) = f () + f () + + f (6) = v 예제 5. ) 어느자동차대리점의과거 300 일영업중 - 한대도팔지못한날 : 54 일 - 대판매 : 7 일 - 대판매 : 7 일 - 3 대판매 : 4 일 - 4 대판매 : 일 - 5 대판매 : 3 일 X : 하루동안판매한자동차대수 ( 이산형확률변수 ) f ( x) : X 의확률질량함수 X f ( x ) F( x) 0 0.8 0.8 0.39 0.57 0.4 0.8 3 0.4 0.95 4 0.04 0.99 5 0.0 v 이산형확률변수의기대값 : 확률변수 X 의기대값은확률변수 X 가취하는값과그확률을곱한뒤그결과값을합한것 v 예제 5.3) 자동차판매수 일일자동차판매기대값은 E( X ) = m = 0 0.8 + 0.39 + 0.4 + 3 0.4 + 4 0.04 + 5 0.0 =.50 으로.5 대가된다. å E( X ) = m = x f ( x) X 0 3 4 5 합계 f(x) 0.8 0.39 0.4 0.4 0.04 0.0.00 x f(x) 0 0.39 0.48 0.4 0.6 0.05 E(X) 통계학입문 03 통계학입문 04 통계학입문 05 이산형확률변수 이산형확률변수 이산형확률변수 v 이산형확률변수의분산과표준편차 å å V ( X ) = = ( x - ) f ( x) = x f ( x) - s m m SD( X ) = s = Var( X ) 분산계산을위한간편식의증명은아래와같다 å å( x mx m ) f ( x) å å å å å V X x f x ( ) = ( - m) ( ) = - + = x f ( x) - m x f ( x) + m f ( x) = x f ( x) - m + m = x f ( x) - m. v 예제 5.5 운전자보험에가입한 400 명의가입자의 5 년동안보험청구건수기록 청구건수 ( x ) 0 3 4 5 6 이상 해당고객수 (n( n ) 80 0 68 3 5 0 확률분포를보험청구건수 X 의 실제확률분포라간주하고 평균과표준편차를구해보자. x 해당고객수 f(x) xf(x) x^f(x) (x-mu)^*f(x) 0 80 0.45 0 0 0.537003 0 0.55 0.55 0.55 0.00884 68 0.7 0.34 0.68 0.4000456 3 3 0.035 0.0975 0.95 0.85308 4 5 0.065 0.5 0.583477 5 0.03 0.5 0.75 0.45805669 6 0 0 0 0 0 400.095.9775.78394375 E(X)=.095 V X E X E X ( ) = ( ) - ( ) =.38-0.874 =.68.9775-.095^=.783944 통계학입문 06 통계학입문 07 통계학입문 08 8

이산형확률변수 베르누이시행 베르누이시행 v 예제 5.7 이산형확률변수 X의확률질량함수가 f ( x) = c x, x =,, K, n. 와같다고하자. c를 n의함수로표현하고 X의평균을구하라. Sol.) f ( x) n 가확률질량함수가되기위해서는 å f ( x) = 이어야 하므로, n c = å x x= = 6 [ n( n + )(n + ) ] 이식으로부터 가유도된다. x= n n 따라서 X의평균은, 3 én( n + ) ù 3 n( n + ) E( X ) = å x f ( x) = c å x = c ê = x= x= ë ú û (n + ) 통계학입문 09 v 베르누이시행 (Bernoulli trials) : 시행의결과는성공 (success) 과실패 (failure) 두가지이고, 각시행에서성공의확률은 p, 실패의확률은 -p 예제 5. 4 문항시험에대한결과 각결과가일어날가능성은 /6 으로모두같으므로 X 의확률분포는 통계학입문 0 v 예제 5.7 차기대선에서의특정후보에대한지지율조사임의로추출된 000 명의유권자개개인의결정은독립이며, 그결과는 지지한다 또는 지지하지않는다 로두가지이므로베르누이확률과정. v 예제 5.9 신약에대한임상실험임의로추출된 0 명의각환자들의치료에대한반응은독립이며, 그결과는 병의호전 또는 효과없음 의두가지이므로베르누이확률과정. v 예제 5.0 생산공정의품질관리생산된각제품들이불량인지의여부는독립이므로, 불량유무는베르누이확률과정을따른다. 통계학입문 이항분포 이항분포 이항분포 v 이항분포 (Binomial Distribution) : n 번독립적으로반복적으로베르누이시행을하였을때의성공횟수 x 개를나타내는확률변수의확률분포 처음부터 x번째까지의실험이모두성공이고나머지 n-x번의시행이모두실패일확률 ( ) x n x P S S LSxF F LFn x p ( p) - - = - 처음부터 n-x번째까지의실험이모두실패이고나머지 x번의시행이모두성공일확률 ( ) x n x P F F LFn xs S Sx p ( p) - - L = - x번의실험에서성공을, n-x번의실험에서실패를얻을확률은성공과실패의순서에상관없이항상일정 x n x p ( - p) - 통계학입문 v x번의성공과 n-x번의실패를한줄로늘어놓는경우의 수는 æ nö ç è xø v 이항분포의 æ nö 확률질량함수 x n-x f ( x) = ç p ( - p), x = 0,, K, n. è xø X ( n, p) 위와 X ~ 같이 B( n, 확률변수 p) 가모수 를따른다고할때, 라표현한다. v 확률변수 X는총 n번의시행중성공한횟수로정의한다. 통계학입문 3 S S 3 P(SSS)=p 3 S F 3 P(SSF)=p (-p) S 3 P(SFS)=p(-p)p F F 3 P(SFF)=p(-p) S S 3 P(FSS)=(-p)p F 3 P(FSF)=(-p)p(-p) F S 3 P(FFS)=(-p) p F F 3 P(FFF)=(-p) 3 통계학입문 4 9

이항분포 이항분포 이항분포 X 는이항분포를따르는확률변수 P(X = 3) = p 3 X = 3 P(X = ) = 3p (-p) X = P(X = ) = 3p(-p) X = P(X = 0) = (- p) 3 X = 0 P(SSS)=p 3 P(SSF)=p (-p) P(SFS)=p(-p)pS S P(SFF)=p(-p) P(FSS)=(-p)p P(FSF)=(-p)p(-p) P(FFS)=(-p) p 그림 5. n=0 일때, P 값에따른이항분포의확률질량함수 ( 각분포를구별하기위하여확률값을선으로연결하였다 ) v 이항분포의확률계산 예제 5.3 새로운치료법으로치료될확률 0% 이다. 5 명의환자에게이치료법을적용하였을때, 4 명이상 7 명이하가치료될확률? Sol.) B(5,0.) P(4 X=5 X 7) = 명중 P( X = 치료된 4) + P( X환자의 = 5) + P( X수 =, 6) + xp 는( X = 7) 를따른다. æ5ö 4 æ5ö 5 0 æ5ö 6 9 æ5ö 7 8 = ç ( 0.) ( 0.8) + ç ( 0.) ( 0.8) + ç ( 0.) ( 0.8) + ç ( 0.) ( 0.8) è 4 ø è5 ø è6 ø è7 ø = 0.3476 P(FFF)=(-p) 3 통계학입문 5 통계학입문 6 통계학입문 7 이항분포 이항분포의평균과분산 이항분포예제 v 이항분포의확률계산 예제 5.3 ( 계속 ) 이항분포표 ( 부록A) 를이용하여확률을계산해보면, P(4 X 7) = P( X 7) - P( X 3) = 0.9958-0.648=0.3476 이항분포표를활용할때아래의계산식을이용. P( X = a) = P( X a) - P( X a -) P( X ³ a) = - P( X a -) P( a X b) = P( X b) - P( X a -) P( a < X < b) = P( X b -) - P( X a) v 이항분포의평균과분산 E( X ) = m = n p Var( X ) = n p ( - p) v 예제 5.4 암초기진단되었을경우, 3 년이상생존할확률이 80% 라고한다. 00 명이암초기진단되었을경우 3 년이상생존한환자의수 (X) 의평균과분산? Sol.) X= 생존환자의수 X는B(00,0.8) 를따른다. 따라서, E( X ) = 00 0.8 = 80 V ( X ) = 00 0.8 0. = 6 통계학입문 8 통계학입문 9 통계학입문 0 0

이항분포의가법성 이항분포 v 이항분포의가법성두확률변수 U 와 V 각각이서로독립이고, B(n,p) 와 B(m,p) 를따른다고할때, U+V 의분포는이항분포 B(n+m, p) 가된다. ( 주의 : 양쪽의 p 가같아야함 ) v 예제 5.6 주말동안화장품을구매한남성고객과여성고객의수 제 6 장연속형확률변수 ( 토요일전체고객수 =00, 일요일전체고객수 =98) 토요일의남성고객수를 U, 일요일의남성고객수를 V라고할때, U는 (00,p) 를따르고 V는 B(98,p) 를따르므로, 통계학입문 통계학입문 통계학입문 연속형확률변수 연속형확률변수 연속형확률변수 v 연속형확률변수 (Continuous Random Variable) : 확률변수가취할수있는값의수가셀수없이많을때 v 연속형확률변수의확률밀도함수 (Probability Density b Function) 모든실수 a, b 에대하여 P( a X b) = ò f ( x) dx 를만족시키는 f ( x) 확률밀도함수가 x 되기위한f ( 성질 x ) ³ 0가지 모든실수값 ò f ( x) dx = 에대하여 이어야한다 - 을만족시킨다 특징임의의상수에대하여 a 통계학입문 4 v ( 예제 6.) 실수구간 [0,] 에서한점을임의로선택하여그 값을 x로둔다. 확률변수 X는 0과 사이의값을동일한확률로 취하게됨 따라서 0 a, 임의의 b P( a 에X 대하여 b) = b - a 가된다. v ( 예제 6.) 확률변수 ì0.5 X의0확률밀도함수가 x f ( x) = 아래와같이 í î 0 otherwise P(0.5 X.5) 주어졌을때, 확률값은?.5 P(0.5 X.5) = ò dx = 0.5 0.5 통계학입문 5 v 연속형확률변수의누적분포함수 x F( x) = P( X x) = ò f ( x) dx - 누적분포함수F ( x ) 와확률밀도함수f ( x) 의관계 Þ F '( x) = f ( x) v 연속형확률변수의평균과분산 E( X ) = x f ( x) dx V ( X ) = E( X - m) ò - = E( X ) - E( X ) ò ( ò ) x f ( x) dx x f ( x) dx - - 통계학입문 6 = -

연속형확률변수 연속형확률변수 균일분포 v ( 예제 6.3) 예제 6. 에서누적분포함수는예제 6. 의결과를이용하여, ì0.5 0 x f ( x) = í î 0 otherwise ì0 if x < 0 x ïx F( x) = ò f ( x) dx = í if 0 x - ï ïî if < x 임을알수있다. v ( 예제 6.4) 확률변수 X의확률밀도함수가로주어졌을때, P( X 0.5), 평균, 그리고분산을구하라. 0.5 0.5 P( X 0.5) = ò f ( x) dx = ò 3 x dx = 8 0 0 3 3 E( X ) = òx f ( x) dx = òx 3 x dx = ò 3 x dx =. 4 0 0 0 4 3 E( X ) = òx f ( x) dx = òx 3 x dx = ò 3 x dx = 5 0 0 0 3 æ 3 ö 3 V ( X ) = E( X ) - E( X ) = - ç = 5 è 4 ø 80 v 균일분포 (Uniform Distribution) : 확률변수 X 가어느구간 ( a, b ) 에서정의되고, 확률밀도함수의크기가동일한확률분포 예 ) 약속시간에늦는시간이특별한경향이없이 0 분과 60 분사이에랜덤하게골고루퍼져있을때의늦는시간 X v 균일분포의확률밀도함수 f ( x) =, a x b. b - a a c d b 를만족하는 c 와 d 에대하여 d d d - c P( c X d) = ò f ( x) dx = dx =. b - a ò b - a c c 통계학입문 7 통계학입문 8 통계학입문 9 균일분포 균일분포 정규분포 v 균일분포의누적확률함수 ì0 x < a x ï x - a F( x) = ò f ( x) dx = í a x b - ïb - a ïî b < x v 균일분포의평균과분산 b b a + b E( X ) = ò x f ( x) dx = x dx a ò = a b - a b b a + ab + b E( X ) = ò x f ( x) dx = a ò x dx = a b - a 3 ( b - a) Þ V ( X ) = E( X ) - E( X ) = 통계학입문 30 v 약속시간에늦는시간이특별한경향이없이 0분과 60분사이에랜덤하게골고루퍼져있을때의늦는시간 X는균일분포를 a = 0 b = 따름 60 v, f ( x), 0 x 60. v 확률밀도함수 = b - a = 60 ì0 x < 0 v 누적확률함수 ï x - a x F( x) == í = 0 x 60 ïb - a 60 ïî 60 < x v 평균과분산a + b 0 + 60 E( X ) = = = 30 ( b - a) (60-0) V ( X ) = = = 300 통계학입문 3 v 정규분포 (Normal Distribution) : 많은자료들이정규분포를하며, 분포식이나의미해석에있어많은좋은특성이있어, 여러분야에서중요히널리쓰임 확률밀도함수 종형곡선 통계학입문 3

정규분포 정규분포 정규분포 v 정규분포의특성 정규분포의확률밀도함수는평균에서가장큰값을가짐 m 는평균이며또한최빈값 분산은같고평균이서로다른정규분포의정규곡선들 v 정규분포의특성 3 정규곡선은평균 m 에대하여대칭 4 평균은같고분산이서로다른정규분포의정규곡선들 v 정규분포의특성 5 일때, 확률변수 X 가구간 ( a, b ) 의값을가질확률은정규곡선의 ( a, b ) 구간의아래부분의영역의넓이에해당 정규곡선아래전체의넓이는 대칭성에의하여 X 가 m 보다크거나작을확률은 ½ 통계학입문 33 통계학입문 34 통계학입문 35 정규분포 표준정규분포 표준정규분포 v 정규분포의특성 6 자주사용되는구간의확률들 X가구간 ( m - s, m + s ) 에포함되는확률은 68.3% ( m - s, m + s ) 에포함되는확률은 95.4% ( m - 3 s, m + 3 s ) 에포함되는확률은 99.7% v 표준정규분포 (Standard Normal Distribution) : 평균이 0 분산이 인정규분포 표기 Z : 표준정규분포따르는변수 f( z) : 확률밀도함수 F( z) : 누적확률밀도함수 v 표준정규분포의확률밀도함수 æ ö f( z) = exp ç - z p è ø v 정규분포의확률계산 일반적인공식이존재하지않아, 정규분포와표준정규분포사이의관계를정의하고, 컴퓨터로계산된표준정규분포의누적확률분포함수값을사용 v 표준정규분포의확률 확률변수 Z 가구간 ( a, b ) 에포함될확률은 ( a, b ) 에해당되는구간의확률밀도함수곡선의아래영역 P( a Z b) = P( Z b) - P( Z a) = F( b) - F( a) 표준정규분포의누적확률함수로계산 통계학입문 36 통계학입문 37 통계학입문 38 3

표준정규분포 표준정규분포 표준정규분포 v 표준정규확률분포표 P(0 Z z) v 표준정규분포의확률계산 예 ) Z 가 0 과. 사이에포함될확률 v 표준정규분포의확률계산 예 ) Z 가.47 이상일확률 P(Z>.47) P(0 Z.) = 0.3869 예 ) Z가구간 -.00과 0.00사이에있을확률 P( -.00 Z 0) = P(0 Z.00) = 0.343 표준정규확률밀도함수는 0 을중심으로대칭 0.47 P(Z>.47) = 0.5-0.49 = 0.0708 통계학입문 39 통계학입문 40 통계학입문 4 표준정규분포 표준정규분포 표준정규분포 v 표준정규분포의확률계산 예 ) Z 가 0.65 와.36 사이에있을확률 P(0<Z<.65) =.4 P(0<Z<.36) =.43 v 표준정규분포의확률계산 예 ) Z 가구간 -.5 과.85 사이에있을확률 P( -.5 Z.85) = P( -.5 Z 0.00) + P(0.00 Z.85) P(-.5<Z<0) =.4878 P(0<Z<.5) =.4878 = 0.4878 + 0.4678 = 0.9556 P(0<Z<.85) =.4678 예 ) Z가구간 -.보다작을확률 표준정규확률밀도함수는 0을중심으로대칭 P( Z ³.) = - P( Z.) [ P Z P Z ] = - ( 0.00) + (0.00.) = - 0.5-0.3869 = - 0.8869 = 0.3. 0.65.36 -.5 0.85.5 P(.65<Z<.36) =.43 -.4 =.709 통계학입문 4 통계학입문 43 통계학입문 44 4

표준정규분포 표준정규분포 정규분포의확률계산 0.65.36 P(.65<Z<.36) =.93 -.74 =.709 v 정규분포의확률계산 정규분포를따르는확률변수 X N~ ( m, s ) 의선형변환인 Y = a + bx 도정규분포를따르고평균은 a + bm 이고, 분산은 b s 가됨 X - m 확률변수 X ~ N( m, s ) 라면 Z, = s 은표준정규분포 따라서 Þ æ a - m X - m b - m ö P( a X b) = Pç è s s s ø æ a - m b - m ö = Pç Z è s s ø æ b - m ö æ a - m ö = F ç - F ç è s ø è s ø 통계학입문 45 통계학입문 46 통계학입문 47 정규분포의확률계산 정규분포의백분율 표준정규분포의백분율 v ( 예제 6.8) kg 인추를반복적으로잴때, 측정된무게는평균이 kg 이고, 표준편차가 0 그램인정규분포를따른다. 측정된값이 kg 으로부터 0 그램이내에있는비율? X : 측정된추의무게 P(990 X 00) 990-000 - 00-000 ö = Pç 0 0 ø = P - 0.5 0.5 = 0.95 = 38.9% æ X m è s ( Z ) v 정규분포의백분율 확률변수 X가평균이 m, 분산이 s 인정규분포를따를때이의 00(- a )% 백분율 h a P( X 는h a ) = -a 의해이다. æ X - m ha - m ö æ ha - m ö P( X ha ) = Pç = Pç Z = -a è s s ø è s ø a Z a ha - m 따라서 = Z, a 표준정규분포의 00(- )% 백분율을로 s 표시하면, h이므로 a = m, + s Za 0.05 0.45 implies h.05 0 z z 0.00 0.0 0.0 0.03 0.04 0.05.6 0.4495 0.4500 0.4505 통계학입문 48 표준정규분포의백분율은표준정규분포표를역으로읽음으로써구할수있다. 통계학입문 49 표준정규분포의 95% 백분율 =.645 통계학입문 50 5

정규분포의백분율 정규분포 표준정규분포의 6.79% 백분율 s = 0 s Z =.679.679 m = 5? X 0.30 Z ( )( ) 표준정규분포 m = 0 h.38 = m + zs = 5 +.30 0 = 8 통계학입문 5 Z.38 표준정규분포의백분율 v 표준정규분포의백분율구하는연습 90% 의백분율을계산하여보면, P( Z.8) = 0.8997 이고P ( Z.9) = 0.905 이므로 90% 의백분율은.8과.9사이의값이다. 0.9는.8의누적확률인 0.8997에보다가까우므로.8을취하든지, 선형근사보간법에의하여.8+0.0* (0.9-0.8997)/(0.905-0.8997)=.87 로계산. 통계학입문 5 정규분포의백분율 v ( 예제 6.9) 우체국에서소포무게의상한선을설정하고자하여기존고객이부치는짐의무거운 5% 정도를제한하고자한다. 만약기존고객의소포무게의분포가평균 5kg, 표준편차 kg 인정규분포를따른다면상한선은얼마로해야할까? 무게의상한선은평균 5kg, 표준편차 kg 인정규분포의 95% 백분율이됨 5+*( 표준정규분포의 95% 백분율 ) = 5+*.645=6.645 통계학입문 53 표준정규분포의백분율 이항분포의정규근사 이항분포의정규근사 통계학입문 54 v 이항분포 X ~ B( n, p) 을따르는확률변수에서 k = b æ n ö k P( a X b) = åç p ( - p) k = a è k ø n-k n 이작은경우 : 이항분포표를이용, 혹은직접계산 을계산하고자할때, n 이매우크거나, 확률의정확한값을알필요가없을때 : 정규분포를이용한근사계산 : np 5와 n(-p) 5 의조건이필요예 ) p=0.5 이면, n 0 p=0.0 또는 p=0.99 이면, n 500 통계학입문 55 P( x) n = 0, p = 0.5 인이항분포와정규근사 0.8 0.6 0.4 0. 0.0 0.08 0.06 0.04 0.0 0.00 0 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 통계학입문 56 x 6

이항분포의정규근사 이항분포의정규근사 이항분포의정규근사 v 이항분포의정규근사 n 이증가함에따라이항분포의확률질량함수는종모양의정규분포에가까워짐 n=0 n=50 n=00 n=500 v 이항분포의정규근사 m = np, s = np( - p) 일때 æ b + 0.5 - m ö æ a - 0.5 - m ö P( a X b)» F ç - F ç è s ø è s ø 0.5 는연속성정정계수 : 이산형분포를연속형분포로이용하면서생기는오차를보정함 æ b - 0.5 - m ö æ a - 0.5 - m ö P( a X < b)» F ç - F ç è s ø è s ø æ b + 0.5 - m ö æ a + 0.5 - m ö P( a < X b)» F ç - F ç è s ø è s ø æ b - 0.5 - m ö æ a + 0.5 - m ö P( a < X < b)» F ç - F ç è s ø è s ø P(X 4) @ P(Y< 4.5) P(X ³4) @ P(Y > 3.5) 4 4.5 3.5 4 통계학입문 57 통계학입문 58 통계학입문 59 이항분포의정규근사 v ( 예제 6.0) 한국성인의 50% 가정기적으로알코올음료를마시는것으로조사되었다. 000 명의임의추출된표본에서알코올성분의음료를정기적으로마시는사람의수가 480 명보다작을확률은얼마인가? ( 풀이 ) X(000명중알코올음료를정기적으로마시는사람의수 ) 라고할때, X는 B(000,0.5) 를따른다. np 5와 n(-p) 5 의 æ X - 500 479.5-500 ö 조건을 P( X 만족하므로 < 480) = P( X 이항분포의 479.5) = Pç 정규근사를 이용하면, è 50 50 ø» P( Z -.30) = 0.0968 통계학입문 60 7