Introduction to Statistics (Fall, 2018) Chapter 2 Introduction to Probability Chapter 2 Introduction to Probability 2.1 Overview 확률 ( 론 ) 은우연에따라좌우되는게임

2.1 Overview 확률 ( 론 ) 은우연에따라좌우되는게임 ( 주사위, 동전, 카드, ) 에서특정사건의 발생가능성을수량화하기위하여탄생 (1) 한개의주사위를 5 번던지는실험에서결과 : 모집단 {1, 2, 3, 4, 5, 6} 에서단순임의복원추출 (simple random sampling with replacement) 을이용해 5 개의표본을추출하는것 > sample(1:6, 5, replace=true) [1] 5 4 3 1 3 (2) 1 개의동전을 2 번던지는실험에서결과 : 모집단 {HH, HT, TH, TT} 에서단순임의복원추출 (simple random sampling with replacement) 을이용해 1 개의표본을추출하는것 > sample(c('hh','ht','th','tt'), 1, replace=true) [1] "HH" [ 실습 2.1] 1 개의동전을 3 번던지는실험에서결과 1

2.2 표본공간과사건 Definition 2.2-1 Sample space of the experiment (S): the set of all possible outcomes of an experiment : 한실험에서가능한모든결과의집합을실험의표본공간 (sample space) 이라하고 S 로표기된다. Example 2.2-1 (a) 2 개의부품을선택하고각각정상 (non-defective, N), 불량 (defective, D) 으로분류하는실험에대한표본공간 : S 1 = {NN, ND, DN, DD} (b) 2 개의부품을선택하고불량품의수를기록하는실험에대한표본공간 : S 2 = {0, 1, 2} (c) 2 번째불량품을발견할때까지검사한부품들의수를기록하는실험에대한 표본공간 : S 3 = {2, 3, } Example 2.2-2 특정대학의학생 1 명을뽑아태양에너지사용확장에대한학생의견을 1~10 점으로기록한다. (a) 이실험은표본공간을구하시오. : S={1, 2,, 10} (b) 표본공간과모집단 (population) 은어떻게다른가? : 모집단은이대학의전체학생들로부터의의견점수의모임이다. ( 동일한점수의반복이가능 ) 표본공간은가능한결과들의모임이다. ( 동일한점수의반복이안됨 ) 2

Example 2.2-3 특정대학의학생 3 1~10 점으로기록한다. 명을뽑아서태양에너지사용확산에대한학생의견을 (a) 이실험의표본공간을구하시오. 표본공간의크기를구하시오. : 3 명의의견이 (xx 1, xx 2, xx 3 ) 로구성된모든가능한결과로기록되었을때, 1 번째 학생의응답을 xx 1 = 1,2,,10, 2 번째학생의응답을 xx 2 = 1,2,,10, 3 번째학생의 응답을 xx 3 = 1,2,,10 으로표기한다. 따라서, 표본공간은다음과같이표현된다. SS 1 = {(xx 1, xx 2, xx 3 ) xx 1 = 1,2,,10, xx 2 = 1,2,,10, xx 3 = 1,2,,10} 가능한표본공간의크기, 10 10 10 = 1000 (b) 3 명의응답에대한합계만이기록된다고할때표본공간을나타내고그크기를구하시오. > S1=expand.grid(x1=1:10, x2=1:10, x3=1:10) # lists all triplets in S1 > length(table(rowsums(s1))) # gives the number of different sums 3

표본공간 (S1) = {3, 4, 5,, 30} 표본공간의크기 = 28 Events ( 사건 ): collections of individual outcomes, 개별결과들의모임 Simple event ( 단순사건 ): an event consisting of only one outcome, 오직 1 개의결과로이루어진사건 A B = : 만약두사건이공통된결과가없어서함께발생될수없을때두사건 A, B 는 배반 (disjoint) 또는상호배타적 (mutually exclusive) 이라고한다. 4

결합법칙, 분배법칙, 드모드강의법칙 Exercises 1. 다음각실험에대한표본공간을구하시오. (a) 1 개의주사위를 2 번던지고결과들을기록한다 : {(1,1), (1,2),, (6,6)} (b) 1 개의주사위를 2 번던지고그결과들의합을기록한다. : {2, 3, 4,, 12} (c) 불량품 6 개를포함하고있는 500 개의제품들에서, 30 개의제품을단순임의추출할때이표본에포함된불량품의수를기록한다. : {0, 1, 2,, 6} (d) 1 번째불량품이발견될때까지제품들을검사할때관찰된제품들의수를기록한다. : {1, 2, } 5

2.3 Experiments with Equally Likely Outcomes 2.3.1 확률의정의와표현 P(E): probability of an event E, to quantify the likelihood of occurrence of E by assigning a number from the interval [0, 1] : 구간 [0, 1] 로부터하나의숫자를할당하여사건 E 의발생가능성을수치화 Limiting relative frequency (n ) NN nn (EE) nn Probability of Each of N Equally Likely Outcomes 어떠한실험의표본공간이발생확률이같은 N 개의결과들로구성된다면각 결과의확률은 1/N 이다. Assignment of Probabilities in the Case of N Equally Likely Outcomes P(E) = NN(EE) NN Example 2.3-1 레이저다이오드 (laser diodes) 의효율은 2 에서 4 까지다양하다. 100 개중에서, 2, 2.5, 3, 3.5, 4 의효율성을가지는다이오드들의수가각각 10, 15, 50, 15, 10 개가있다. 한개의레이저다이오드를임의로선택할때, 사건 E 1 ={ 선택된레이저다이오드의효율성이 3 인경우 }, E 2 ={ 선택된레이저다이오드의효율성이적어도 3 인경우 } 의확률을구하시오. Solution N = 100, N(EE 1 ) = 50, N(EE 2 ) = 75 PP(EE 1 ) = 0.5, PP(EE 2 ) = 0.75 6

Example 2.3-2 2 개의주사위를던질때합이 7 인사건의확률을구하시오. Solution N=36, A={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} N(A)=6 P(A)=6/36=1/6 2.3.2 Counting Techniques Definition 2.3-1 (1) Permutation ( 순열 ) : ordered outcomes (2) Combination ( 조합 ) : unordered outcomes Number of Permutations of k Units Selected from n nnpp kk = PP kk,nn Number of Combinations of k Units Selected from n nncc kk = nn kk : 이항계수 (binomial coefficients) (1) a, b, c 를배열하는서로다른순서의경우수 = 6 가지 abc, acb, bac, bca, cab, cba 3 2 1=6(=3!) > factorial(3) [1] 6 (2) 8 명의사람으로이루어진집단에서 2 명을선택하는경우의수는다음과같다. 8 8 7 = 2 = 28 2 1 7

> choose(8,2) [1] 28 (3) PP kk,nn = nn PP kk = nn CC kk kk! = nn kk kk! > choose(n,r)*factorial(r) 8

2.4 Conditional Probability : 조건부확률 2.4.1 The multiplication rule and tree diagrams : 두사건에대한곱셈규칙 : 세사건에대한곱셈규칙 2.4.2 Law of total probability and Bayes theorem : 표본공간의 Partition ( 분할 ) : 전확률법칙 9

Example 2.5-13 모든남자들의 5% 와여자들의 0.25% 는색맹이다. 55% 여자들과 45% 남자들로이루어진한지역사회에서임의로한사람을선택한다. (a) 임의로선택한사람이색맹일확률을구하시오. (b) 만약선택된사람이색맹이라면, 그사람이남자일확률을구하시오. Solution B : 선택된사람이색맹인사건 A 1 : 남자인사건 A 2 : 여자인사건 10

2.5 Independent events : 독립사건 P(B A)=P(B) Example 2.5-1 2 개의주사위를동시에던질때 3 개의사건 A, B, C 는다음과같이정의된다. A: 첫번째주사위의눈이 3 인사건 B: 두주사위의눈의합이 8 인사건 C: 두주사위의눈의합이 7 인사건이때다음의각문항에답하시오. (1) A 와 B 는독립인가? (2) A 와 C 는독립인가? Solution A={(3,1), (3,2), (3,3), (3,4), (3,5), (3,6)} B={(2,6), (3,5), (4,4), (5,3), (6,2)} C={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} A B={(3,5)} A C={(3,4)} (1) P(A B)=1/36, P(A)=6/36, P(B)=5/36 P(A)P(B) = (6/36)(5/36) 1/36 A 와 B 는독립이아니다. (2) P(A C)=1/36, P(A)=6/36, P(C)=6/36 P(A)P(C) = (6/36)(6/36) =1/36 A 와 C 는독립이다. 11

2.6 Association Rule Mining 2.6.1 연관규칙마이닝, Association Rule Mining ARM (1) 아이템 (items) 과거래 (transactions) 데이터를이용하여아이템간의연관성을분석 ( 아이템 = 사건, 거래 = 실험결과 ) (2) 아이템과트랜잭션데이터집합 I={i 1, i 2,, i n } : n 개의아이템집합 T={t 1, t 2,, t m } : m 개의트랜잭션집합 (ex) Wal mart data I={Beer, Nuts, Diaper, Coffee, Eggs, Milk} T={10,20,30,40,50} (3) 개별트랜잭션은번호 (unique identical number) 와이에포함된아이템들로구성 tt jj = ii jj1, ii jj2,, ii jjjj (ex) Wal mart data t 10 =(Beer, Nuts, Diaper) (4) 연관규칙의표현 - X 아이템이거래되고나서 Y 아이템이거래된것을의미 X Y X 와 Y 는아이템집합에포함된아이템 X: 선행사건 (antecedent), lhs(left hand side) Y: 후행사건 (consequent), rhs(right hand side) 12

(6) Market basket analysis ( 장바구니분석 ), Frequent patterns analysis ( 빈발패턴분석 ) 이러라고도함. 2.6.2 ARM 의 3 가지평가측도 (evaluation measures) : 지지도 (support), 신뢰도 (confidence), 향상도 (lift) (1) 지지도 - 두사건 (event) A 와 B 에대하여 A 와 B 가동시에발생할확률 PP(AA BB) (2) 신뢰도 - A 가발생했다는조건하에서 B 가발생할확률 PP(BB AA) (3) 향상도 PP(BB AA) PP(BB) (4) 지지도와신뢰도최소확률값을정하여이값보다큰규칙들에대하여 의미를부여 : ARM 에서는최소임계값 (minimum threshold) 2.6.3 Support ( 지지도 ) X 와 Y 를함께포함하고있는트랜잭션수 support(x Y) = P(X Y) = 전체트랜잭션수 0 support(x Y) 1 (1) 규칙 (X Y) 의지지도는 X 와 Y 를동시한포함한트랜잭션수를전체 트랜잭션수로나눈값 (2) 1 에가까울수록같은트랜잭션에속한 X 와 Y 는전체트랜잭션에서차지하는 중요도가커짐. (3) 지지도가 0 에가깝다는것은전체트랜잭션에서차지하는비중이크지 않다는것을의미 13

(4) 일반적으로지지도는자주발생하지않은규칙을우선적으로제거하는데사용 (5) (XX YY) 와 (YY XX) 의지지도값은같기때문에두규칙간의차이를알수없음. support(x Y) = P(X Y) = PP(YY XX) = support(y X) (6) (5) 의문제점을보완하기위하여신뢰도이용. 2.6.4 Confidence ( 신뢰도 ) P(X Y) confidence(x Y) = P(Y X) = P(X) X 와 Y 를함께포함하고있는트랜잭션수 = X 를포함한트랜잭션수 0 confidence(x Y) 1 (1) X 가발생하였다는조건하에서 Y 가발생할확률로정의되는신뢰도는다음과 같이 X 와 Y 의지지도 (P(X Y)) 를 X 의지지도 (P(X)) 로나눈값이다. confidence(x Y) = P(Y X) = P(X Y) P(X) = support(x Y) support(x) : 지지도값이 1 에가까울수록 X 는 Y 에많은영향을줌. (2) 보통최소지지도값이상의연관규칙들중에서큰신뢰도값을갖는규칙들이의미있는것으로최종판단 (3) 규칙 (X Y) 와 (Y X) 의지지도값은같지만신뢰도값은같지않다. 따라서신뢰도는두아이템 X 와 Y 사이의연관성을확인할수있음. 14

2.6.5 Lift ( 향상도 ) lift( X confidence( X Y ) Y ) = = support( Y ) P( Y X ) = P( Y ) P( X Y ) support( X Y ) = P( X ) P( Y ) support( X )support( Y ) 0 lift(x Y) < (1) X 와 Y 의향상도는 X 와 Y 의신뢰도를 Y 의지지도로나눈값 (2) 최종적으로 X 와 Y 의지지도를 X 와 Y, 각각의지지도로나눈값 (3) 향상도값은확률이아니고이론적으로 0 에서무한대 ( ) 사이의값을갖는다. (4) 향상도값이 1 이되면 X 와 Y 는서로독립 (independent) 이된다. lift(x Y) = PP(XX YY) PP(XX)PP(YY) = 1, PP(XX YY) = PP(XX)PP(YY) : X 와 Y 는서로영향을미치지않는다. (5) 만약향상도값이 1 보다크면 X 와 Y 는서로보완 (complementary) 관계가 된다. 즉, X 가증가 ( 감소 ) 함에따라 Y 도함께증가 ( 감소 ) 한다. (6) 반면에 X 와 Y 의향상도값이 1 보다작게되면상호대체 (substitutive) 관계가 된다. 즉 X 가증가 ( 감소 ) 함에따라 Y 는감소 ( 증가 ) 한다. (7) 향상도값에따른 X 와 Y 의관계 > 1 XX aaaaaa YY aaaaaa cccccccccccccccccccccccccc ( 상호보완 ) lift(x Y) = 1 XX aaaaaa YY aaaaaa iiiiiiiiiiiiiiiiiiiiii ( 독립 ) < 1 XX aaaaaa YY aaaaaa ssssssssssssssssssssssss ( 상호대체 ) 15

2.6.6 Example [Wal Mart Case] P(beer) =, P(diaper) =, P(beer diaper) = P(beer diaper) =, P(diaper beer) = P(diaper beer) P(diaper) =, P(beer diaper) P(beer) = 16

> library(arules) > library(arulesviz) > tr = read.transactions("c:/data/walmart.txt", format = "basket", sep = ",") > tr transactions in sparse format with 5 transactions (rows) and 6 items (columns) > rules = apriori(tr, parameter = list(support = 0.1, confidence = 0.8)) > rules set of 46 rules > inspect(rules) 17

> inspect(head(sort(rules, by = "support"), 10)) > inspect(head(sort(rules, by = "confidence"),10)) 18

> inspect(head(sort(rules, by = "lift"), 10)) 19