1. 통계학이란? 1.1 수학적 모형 실험 또는 증명을 통하여 자연현상을 분석하기 위한 수학적인 모형 1 결정모형 (deterministic model) - 뉴톤의 운동방정식 : - 보일-샤를의 법칙 : 일정량의 기체의 부피( )는 절대 온도()에 정비례하고, 압력( )에 반비례한다. 2 확률모형 (probabilistic model) - 주사위를 던질 때 1의 눈이 나올 확률 - 학생들의 성적이 평균이 70, 표준편차가 5인 정규분포를 따를 때, 1000명의 학생 중에서 90점 이상인 학생의 수 1.2 통계학이란? - 관심의 대상에 대한 자료를 수집하여 정리, 요약하고 불확실한 사실에 대하여 과학적인 판단을 내릴 수 있는 방법을 제시하는 학문이다. - 전수조사와 표본조사 - 특히 모집단의 일부인 표본에 대한 조사 결과를 전체 모집단에 확대 해석할 수 있는 이론적인 뒷받침이 통계학이다. - 통계학은 기술통계학과 추측통계학으로 구분할 수 있다. 기술통계학 : 모집단으로부터 추출된 자료를 정리 요약하여 표나 그림 또는 대표값등을 통하여 모집단의 특성을 쉽게 알 수 있도록 하는 방법을 연구 추측통계학 : 표본조사를 통하여 모집단의 특성에 대하여 추론 (추정 또는 가설검정)
1.3 표본 추출 방법 (1) 확률표본추출법 (probability sampling method) 표본프레임(즉 명단)을 이용하여 표본을 추출함으로써 표본으로 추출될 확률을 알 수 있는 추출방법 1 단순임의추출법(simple random sampling) 모집단에 속해 있는 모든 사람들을 일련번호를 부여하고 필요한 표본의 크기만큼 임의로 추출. 난수표등을 사용한다. 2 층화표본추출법(stratified sampling) 모집단을 몇 개의 집단이나 범주로 분류하고, 각 집단이나 범주별로 독립적으로 표본을 추출한다. 예를 들면, 남자와 여자로 두 집단으로 나누고 남자들 중에서 몇 명, 여자들 중에서 몇 명을 각각 임의로 추출한다. 3 군집표본추출법(cluster sampling) 모집단을 몇 개의 소집단(군집)으로 나누고, 일정 수의 소집단을 임의로 추출한 다음, 추출된 소집단내에서 임의 추출 (2) 비확률표본추출법 표본 프레임이 없이 모집단내에서 표본 추출 1 편의표본추출법 (convernience sampling) 가장 간단한 형태의 표본추출방법. 임의로 표본 결정 길거리에서 만난 사람 추출 등의 방법 2 판단 표본추출법 (judgement sampling) 모집단의 의견을 반영할 수 있을 것으로 판단되는 특정집단 (전문가 등)을 표본으로 선정 3 할당 표본추출법(quota sampling) 미리 정해진 기준에 따라 모집단을 여러 집단으로 구분하고, 각 집단 별로 표본 추출. 소비자 조사, 상업적 마케팅조사, 여론 조사등에 많이 사용
추측통계학 - 통계학의 흐름도
2. 기술통계학 2.1 모집단과 표본 모집단 (population) : 관심의 대상이 되는 모든 개체의 집합. 표본 (sample) : 모집단 그 자체 또는 모집단으로부터 추출된 일부. 예: 고등학교 1학년 학생들이 대학입시에서 희망하는 학과를 조사하기 위해서 1000 명의 학생들을 대상으로 조사하였다면, 모집단은 전국 고등학교 1학년 학생들의 집합이 되며, 표본은 실제로 조사를 받은 학생들의 집합이 된다. 2.2 자료의 정리 및 요약 (1) 자료의 종류 1 양적자료(quantitative data) : 키, 성적 등과 같이 숫자로 표현되어 어떤 물리적인 양을 나타내는 자료 2 질적자료(qualitative data)) : 성별, 교육수준 등과 같이 어떤 범주를 나타내는 자료 (2) 질적자료의 분석 질적자료는 보통 도수분포표, 막대그래프, 원형그래프 등으로 요약하여 정리한다. 다음은 200명의 사람들에게 4 종류의 음료에 대한 기호를 조사하여 작성한 도수분포표이다. 음료종류 도 수 상대도수 A 36 0.18 B 60 0.30 C 90 0.45 D 14 0.07 합 계 200 1.00
위의 표를 이용하여 막대그래프를 그리면 다음과 같다. 원그래프 또는 파이그래프 14 36 90 60 A B C D
(3) 양적자료의 분석 양적자료의 분석은 보통 도수분포표, 히스토그램, 줄기잎그림 등으로 정리한다. 도수분포표 작성 방법 1 계급의 수를 결정한다. 5개 이상 20개 이하. 2 계급의 간격 결정 최대값 최소값 계급간격 계급의 수 참고 : 계급의 간격은 가급적 반올림 또는 버림을 이용하여 다루기 쉬운 단위로 하는 것이 좋다. 이 경우 계급의 수가 변할 수 있다. 3 첫번째 계급구간이 최소값을 포함하도록 하고 계급구간은 서로 겹치는 부분이 없어야 하며, 어떤 관측값도 구간의 경계점에 놓이지 않도록 한다. [예제] 다음은 어떤 학과의 기말시험 결과이다. 도수분포표를 작성하여라. [풀이] 61, 62, 69, 69, 63, 49, 54, 70, 65, 76 51, 54, 80, 79, 62, 74, 46, 72, 75, 60 47, 58, 45, 56, 47, 50, 54, 60, 79, 55 먼저 계급의 수를 7 정도로 하자. 그러면 계급간격은 다음과 같다. 계급간격 계급의 간격은 2식에 의해 4.85가 나왔으나, 5로 하는 것이 자료의 분포를 이해하기에 도움이 될 것이다. 또한 최소값이 46이고 계급의 간격이 5 이므로 다음과 같이 도수분포표를 작성할 수 있다.
계급구간 도수 상대도수 누적상대도수 42.5 ~ 47.5 4 0.133 0.133 47.5 ~ 52.5 3 0.100 0.230 52.5 ~ 57.5 5 0.167 0.400 57.5 ~ 62.5 6 0.200 0.600 62.5 ~ 67.5 2 0.067 0.667 67.5 ~ 72.5 4 0.133 0.800 72.5 ~ 77.5 3 0.100 0.900 77.5 ~ 82.5 3 0.100 1.000 합 계 30 1.000 또는 계 급 도 수 상대도수 누적상대도수 40 이상 -50 미만 5 0.17 0.17 50-60 8 0.27 0.43 60-70 9 0.30 0.73 70-80 7 0.23 0.97 80-90 1 0.03 1.00 합 계 30 1.00 양적자료의 도수분포표를 이용하여 이를 알기 쉽게 그림으로 표현하는 방법 중의 하나는 히스토그램 (histogram) 이다.
줄기-잎-그림 (stem-and-leaf display) 앞의 예를 줄기-잎-그림으로 나타내면 다음과 같다. 4 5 6 7 7 9 5 0 1 4 4 4 5 6 8 6 0 0 1 2 2 3 5 9 9 7 0 2 4 5 6 9 9 8 0 2.3 자료의 대표값 자료를 가장 잘 설명해 줄 수 있는 값 (1) 평균 1 산술평균 (arithmetic mean) 자료의 합을 자료의 수로 나눈 수. 자료가 일 때, 산술평균은 2 기하평균 (geometric mean) 비율에 대한 평균 자료가 일 때, 기하평균은 3 조화평균 (harmonic mean) 속력 등의 평균 자료가 일 때, 기하평균은 (역수의 평균의 역수) 4 절단평균 (trimmed mean) 체조경기 등에서 최고점과 최저점을 제외한 나머지의 평균
(2) 중앙값 (median) 자료를 크기 순으로 나열했을 때, 가운데 위치한 수. 자료의 수가 홀수인 경우는 유일한 중앙값을 얻으며, 자료의 수가 짝수인 경우는 가운데 두 수의 평균을 취한다. 예: 어느 학급에서 5명의 수학성적이 다음과 같다고 가정하자. 5, 3, 2, 1, 100 이 경우 평균은 22.2 로 1명을 제외한 나머지 4명이 모두 10점 미만의 성적임에도 불구하고 평균은 20점이상이 되어 이 경우 평균값은 적절한 대표값으로 볼 수 없다. 여기서 중앙값은 3점으로 이는 100점을 제외한 나머지 4명의 평균값 2.75와 비슷함을 알 수 있다. (3) 최빈값 (mode) 빈도가 가장 많은 수. 2.4 산포도 자료들이 평균을 중심으로 어느 정도 멀리 분포하고 있는지를 나타내거나, 또는 자료의 퍼짐정도를 측정하기 위해서 사용한다. (1) 범위 (range) 자료의 최대값과 최소값과의 차이, 즉 범위 = 최대값 - 최소값
(2) 분산과 표준편차 (variance and standard deviation) 산포도를 나타내기 위하여 가장 많이 사용된다. 자료가 이고, 평균을 이라 하면 분산은 이며, 표준편차는 가 된다. (3) 사분위수범위 (IQR : Interquartile Range) 사분위수란 전체 자료를 크기 순으로 나열했을 때, 전체 자료를 다음과 같이 4부분으로 나누는 수를 말한다. Q 1 : 제 1 사분위 수, 전체 자료의 25%에 해당되는 값 최소값과 중위수의 중위수 Q 2 : 제 2 사분위 수, 전체 자료의 50%에 해당되는 값, 중위수와 같다. Q 3 : 제 3 사분위 수, 전체 자료의 75%에 해당되는 값 중위수와 최대값의 중위수 이 때, 와 의 차이를 IQR이라고 한다. 즉, 참고 : 상자그림 (box plot) 위와 아래의 실선은 최대값과 최소값을 나타낸다. 상자의 위 경계선은, 아래 경계선은 을 각각 나타내고, 상자안의 굵은 선은 중앙값( )을 나타낸다.
3. 확률 (Probability) 3.1 용어정의 표본공간 (sample space) : 어떤 확률실험에서 나타날 수 있는 모든 가능한 결과들의 집합. 로 나타냄. 사건 (또는 사상 : event) : 표본공간 의 임의의 부분집합. 근원사건 (elementary event) : 하나의 원소로 이루어진 사건 합사건 : 사건 와 에 대하여 를 사건 와 의 합사건이라 한다. 곱사건 : 사건 와 에 대하여 를 사건 와 의 곱사건이라 한다. 공사건 : 공집합의 사건 여사건 : 사건 에 대하여 를 사건 의 여사건이라 한다. 배반사건 : 두 사건 와 에 대하여, 일 때, 와 를 서로 배반인 사건이라 한다. [보기 1] 표본공간 (1) 한 개의 주사위를 던졌을 때 윗면의 눈의 수를 관측하는 경우 (2) 한 개의 동전을 던졌을 때 나타나는 면. 앞면뒷면 숫자그림 HT (3) 전구의 수명시간
(4) 한 개의 동전을 앞면 (H) 이 나올 때 까지 던질 때 [보기 2] (1) [보기 1]의 (1)에서 사건 은 짝수의 눈이 나올 사건. 는 짝수가 나오지 않을 사건 즉 홀수가 나올 사건 (2) [보기 1]의 (3) 에서 전구의 수명이 최소한 10000시간 이상일 사건은 가 된다. 사건 의 한 원소가 관측이 될 때, 사건 가 일어났다 라고 한다. 3.2 확률의 정의 확률은 불확실성을 재는 하나의 자라고 볼 수 있다. 통계적 확률 주사위를 던지는 모의 실험 결과가 다음과 같다. 위의 결과에서 1의 눈이 나오는 비율은 0.1666...에 가까워져감을 알 수 있다. 이와같이 확률은 똑같은 실험을 무수히 반복할 때 그 사건이 일어나는 비율의 극한의 개념으로 생각할 수 있고, 이를 통계적 확률이라 한다.
확률의 고전적 정의 (Laplace) 표본공간의 모든 근원사건의 확률이 같을 때 사건 가 일어날 확률은 다음과 같이 정의된다. 사건 의 원소의 개수 P 표본공간 의 원소의 개수 주의 : 위의 고전적 정의는 표본공간이 유한집합이고, 모든 근원사건의 확률이 같은 경우에만 사용할 수 있다. 확률의 공리적 정의 (Kolmogorov) 표본공간 의 임의의 사건 에 대하여 함수 P 가 다음의 세 조건을 만족할 때 (1) 임의의 사건 에 대하여 P (2) P (3) 서로 배반인 사건 에 대하여 P P P P 를 사건 의 확률이라 한다. [보기] 동전을 던지는 실험에서 동전이 앞면과 뒷면이 나올 기대 정도가 같도록 공정하게 만들어 졌다면, P P 가 성립하고, 두 사건 와 는 서로 배반이며, 이므로 공리 (2) 와 (3)에 의하여 P P P P P 따라서 P P.
3.3 경우의 수 구하기 고전적인 방법으로 확률을 구하기 위해서는 사건의 원소의 개수를 구하여야 한다. 즉, 경우의 수를 구하는 문제가 대두된다. (1) 수형도를 이용하여 경우의 수 구하기 [보기] 집합 에서 집합 로의 함수 중 일대일인 함수의 개수는? [풀이] 정의역 의 각 원소에 공역 의 원소를 대응시키는 것을 수형도로 구해본다. 1 2 3 c 따라서 6개가 있다. (2) 합과 곱의 법칙 or 면 더하고 and 이면 곱한다. [보기] 집합 에서 집합 로의 함수의 개수는? [풀이] 1에 대응시킬 수 있는 원소 3개, 2에 대응시킬 수 있는 원소 3개, 3에 대응시킬 수 있는 원소 3개 있으므로 곱의 법칙에 의해 개가 있다. [보기] 집합 에서 집합 로의 함수 중 일대일인 함수의 개수는? [풀이] 1에 대응시킬 수 있는 원소는 3개, 2에 대응시킬 수 있는 원소는 1에 대응시킨 원소를 제외한 3개,
3에 대응시킬 수 있는 원소는 1과 2에 대응시킨 원소를 제외한 1개, 있으므로 곱의 법칙에 의해 개가 있다. (3) 순열과 조합 순열과 조합은 합과 곱의 원리를 보다 체계적으로 적용하기 위한 공식으로 각 공식을 적용하기 위해서는 원리를 잘 이해해야 한다. 1 순열 (Permutation) 서로 다른 개의 원소 중에서 서로 다른 개를 꺼내어 일렬로 나열하는 방법의 수 순열은 곱의 법칙을 하나의 공식으로 만들어 놓은 것이다. 1 2 3 위의 그림과 같이 개를 일렬로 나열하기 위해 자리가 있다고 하면, 첫 번째 자리에 올 수 있는 것은 가지, 두 번째 자리에 올 수 있는 것은 가지,..., 마지막 번째 자리에 올 수 있는 것은 가지가 된다. 따라서 곱의 법칙에 의해 다 곱하면 순열에 대한 공식을 얻을 수 있다. 2 같은 것이 있는 순열 와 같이 문자 가 개, 문자 가 개, 문자 가 개 모두 합쳐서 개(즉, )라고 하면, 이 개의 문자를 일렬로 나열하는 방법의 수는 이 된다.
[해설] 간단한 예제로 왜 같은 것이 있는 개수의 계승으로 나누어 지는지 살펴보기로 하자. 예를 들어 5개의 문자 를 일렬로 나열하는 방법의 수를 구하기 위하여 3개의 를 모두 다르다고 가정하고 각각 라고 하자. 그러면 이 5개의 문자가 서로 다르므로 일렬로 나열하는 방법의 수는 가지가 된다. 이 중에는 처음에 모두 만 나열되는 것은 다음과 같이 모두 6가지이다. 그런데 여기서 각 의 아래첨자를 없애면 결국 모두 로 같은 배열이 된다. 이는 전체 5! 중에는 같은 것이 중복된다는 것을 알 수 있고 따라서 중복되는 경우의 수만큼 나누어 주어야 하는데 이 숫자가 바로 이다. 그러므로 를 일렬로 나열하는 방법의 수는 가지이다. 3 중복순열 서로 다른 개의 원소 중에서 서로 다른 중복을 허락하여 개를 꺼내어 일렬로 나열하는 방법의 수는 순열은 곱의 법칙을 하나의 공식으로 만들어 놓은 것이다. 1 2 3 위의 그림과 같이 개를 일렬로 나열하기 위해 자리가 있다고 하면, 첫 번째 자리에
올 수 있는 것은 가지, 각 자리에 올 수 있는 것은 모두 가지가 된다. 따라서 곱의 법칙에 의해 다 곱하면 중복순열에 대한 공식을 얻을 수 있다. 4 조합 (Combination) (4) 이항정리 3.4 확률의 기본적인 성질 (1) 덧셈법칙 P P P P (2) 여사건의 법칙 P P, P (3) 이면, P P (4) 사건 이 서로 배반이면 P P P P 예: 1 부터 100 까지의 수가 적힌 공이 들어 있는 주머니에서 하나의 공을 꺼낼 때, 다음의 확률을 구하라. (1) 2의 배수가 나올 확률 (2) 3의 배수가 나올 확률 (3) 2 또는 3의 배수가 나올 확률 (4) 2의 배수도 3의 배수도 아닐 확률
풀이: 공에 적힌 수가 양의 정수 의 배수일 사건을 라 하자. (1) 2의 배수가 되는 사건은 이고, 의 원소의 갯수는 50이므로, P (2) 의 원소의 갯수는 33이므로, P (3) P P P P P P P 그런데 P 이므로 P (4) P P 3.5 조건부확률 (Conditional probability) 사건 가 주어졌을 때, 사건 가 일어날 확률을 사건 가 주어졌을 때 사건 의 조건부확률 이라 하고 기호로는 P 로 나타내며 다음과 같이 정의한다. P P P (단, P ) [보기] 한 개의 주사위를 두 번 던져서 두 눈의 합이 8이 나왔을 때, 첫번째 주사위의 눈이 6일 확률을 구하여라. [풀이] 눈의 합이 8일 사건을, 첫번째 주사위의 눈이 6일 사건을 라 하면,, 이므로 P, P 이 된다. 따라서 P 3.6 곱셈법칙 정리:(곱셈법칙) 두 사건 와 에 대하여 다음이 성립한다.
P [보기] 6개의 흰 공과 9개의 검은 공이 들어 있는 주머니에서 2개의 공을 비복원으로 뽑을 때, 2개의 공이 모두 검은 공일 확률을 구하라. [풀이] 처음 꺼낸 공이 검은 공일 사건을, 두 번째 꺼낸 공이 검은 공일 사건을 라 하면, P, P 따라서 P P P 3.7. 독립사건 (Independent events) 두 사건, 에 대하여 P P 또는 P P 가 성립할 때, 두 사건, 는 서로 독립인 사건이라 한다. 정리: 두 사건, 가 독립이면 P P P 3.8 Bayes 정리 정리: (확률의 분할) 두 사건 와 에 대하여 P P P P P 일반적으로 표본공간 의 사건 이 서로 배반사건이고,
가 성립할 때, P P P P P P P [보기] 6개의 흰 공과 9개의 검은 공이 들어 있는 주머니에서 2개의 공을 비복원으로 뽑았을 때 두번째 뽑은 공이 흰 공일 확률을 구하라. [풀이] 첫번째 뽑은 공이 흰 공일 사건을, 두번째 뽑은 공이 흰 공일 사건을 라 하면, P P 그리고 P P 이므로 P Bayes 정리 : 표본공간 의 사건 이 서로 배반사건이고, 가 성립할 때, P P P P P [증명] 조건부 확률의 정의에 의해 P P P 이다. 또한 곱셈정리에 의해 P P P 이고, 확률의 분할에 따라 P P P P P P P 이므로 Bayes 정리는 성립한다. [보기] 평소에 하는 말 중 70%가 거짓말인 사람을 정확도가 90%인 거짓말 탐지기로 검사하였더니 그 사람의 대답이 거짓으로 판명되었다면 실제로 이 사람이 거짓말을 했을 확률은 얼마인가?
[풀이] 거짓말을 했을 사건을, 탐지기가 거짓이라는 판정을 내릴 사건을 라 하면 문제에서 주어진 조건에 따라 P, P, P P 임을 알 수 있다. 따라서 구하고자 하는 확률은 P 이고, Bayes 정리에 의해 P P P P P P P
연습문제 1. 두 개의 공정한 주사위를 던져서 위에 나타나는 눈의 수를 조사하는 실험에서 사건,, 를 다음과 같다고 하자. : 눈의 합이 홀수이다. : 적어도 하나는 1이다. : 눈의 합이 5이다. 다음 사건들을 집합으로 표시하시오.,,,,, 2. 주머니 I 에는 흰공 3개 검은공 3개, 주머니 II 에는 흰공 4개 검은공 6개가 들어있다. 각 주머니에서 임의로 하나씩의 공을 꺼냈을 때, 두 공의 색깔이 같을 확률을 구하시오. 3. 갑은 다음 학기 수강신청을 앞두고 불어를 선택할 지 화학을 선택할 지 고민하고 있다. 화학을 더 좋아 하기는 하지만, 불어를 선택했을 때 A를 받을 확률은 1/2인 반면에, 화학을 선택했을 때 A를 받을 확률이 1/3 밖에 되지 않아, 만일 공정한 동전을 던져서 앞면이 나오면 화학을 선택하기로 하였다. 갑이 화학에서 A를 받을 확률을 구하시오. 4. 5명의 사람이 각각 자신의 소지품을 하나씩 꺼내어 무작위로 섞은 후에 임의로 하나씩을 선택하였을 때 (1) 아무도 자신의 소지품을 선택하지 못할 확률을 구하시오. (2) 5명 모두 자신의 소지품을 선택할 확률을 구하시오. 5. 상자 I 에는 흰공 1개 검은공 1개, 상자 II 에는 흰공 1개 검은공 2개가 들어있다. 상자 하나를 임의로 선택하여 하나의 공을 꺼냈을 때,
(1) 그 공이 흰색일 확률을 구하시오. (2) 꺼내어진 공이 흰색이라는 조건하에 그 공이 상자 I 에서 꺼내어졌을 확률을 구하시오. 6. 공정한 주사위 하나를 두 번 독립적으로 던지는 실험에서 는 눈의 합이 6인 사건, 는 첫번째 눈이 4인 사건을 나타낼 때, (1) P 와 P 를 구하시오. (2) P 를 구하시오. (3) 두 사건 와 는 독립인지 밝히시오. 7. 어떤 가전제품의 내부는 부품 3개가 병렬로 연결되었기 때문에 적어도 하나가 작동을 한다면 그 제품은 정상적으로 움직인다. 각 부품이 고장나는 사건은 서로 독립적이고 각 부품이 고장날 확률은 0.05라고 할 때 이 제품이 정상적으로 작동할 확률을 구하시오. 8. 어떤 집단의 10%가 간염보균자이다. 혈액검사를 할 때 보균자 중에서는 90%가 양성반응을 보이고, 보균자가 아닌 사람들 중에는 30%가 양성반응을 나타낸다고 하자. 이 집단에서 임의로 한 명을 택하여 검사를 하였더니 양성반응이 나왔다. 이 사람이 보균자일 확률을 구하시오. 9. 주머니 안에 흰 공 5개와 검은 공 10개가 들어있다. 공정하게 만들어진 주사위를 던져서 그 눈의 수만큼 공을 꺼내기로 한다. 꺼내어진 공이 모두 흰 공일 확률을 구하시오. 또 꺼내어진 공이 모두 흰 공일 경우 주사위의 눈이 3일 확률을 구하시오. 10. 주머니 안에 흰 공 3개와 검은 공 7개가 들어있다. 갑과 을 두 사람이 시합을 하는데 주머니로부터 하나의 공을 꺼내어 흰 공을 먼저 꺼내는 사람이 이기는 것으로 한다. 갑이 먼저 공을 꺼내기로 하고 꺼낸 공은 다시 넣지 않기로 할 때 갑이 이길 확률을 구하시오. 11. 상자 I 에는 6개의 흰 공과 4개의 검은 공이 들어있다. 이 상자에서 5개의 공을 임의로 꺼내어 빈 상자 II 에 넣기로 한다. 그리고 이 상자 II 에서
임의로 하나의 공을 꺼냈을 때 이 공이 검은 공이었다는 조건하에 상자 I 로부터 2개의 흰 공과 3개의 검은 공이 꺼내어졌을 확률을 구하시오.