Introduction to Statistics (Fall, 2018) Chapter 2 Introduction to Probability Chapter 2 Introduction to Probability 2.1 Overview 확률 ( 론 ) 은우연에따라좌우되는게임

Similar documents
cha4_ocw.hwp

확률과통계 강의자료-1.hwp

PowerPoint 프레젠테이션

PowerPoint Presentation

슬라이드 1


chap6_basic_association_analysis PART1 ver2

HWP Document

Probability Overview Naive Bayes Classifier Director of TEAMLAB Sungchul Choi

확률과통계4

chap6_basic_association_analysis PART2 ver2

제 2 장육상관측소지상종관기상전문의해독과기입,.,. (FM 12) (FM 13). (WMO) FM 12-Ⅸ Ext. SYNOP, FM 13-Ⅸ Ext. SHIP. ZCZC 612 SMKO01 RKSL AAXX

확률과통계.indd

dbinom(2, 3, 0.5) # x, n, p [1] 포아송확률분포 (Poisson distribution) X: 사건의빈도수 X~Poisson(mm), m > 0 mmxx mm P(X = x) = ee xx!, xx = 0,1,2, (Example:

Lecture12_Bayesian_Decision_Thoery

Multi-pass Sieve를 이용한 한국어 상호참조해결 반-자동 태깅 도구

기본서(상)해답Ⅰ(001~016)-OK

Unknown

R t-..

슬라이드 제목 없음

#수Ⅱ지도서-4단( )

23


KAA2005.9/10 Ãâ·Â

B-05 Hierarchical Bayesian Model을 이용한 GCMs 의 최적 Multi-Model Ensemble 모형 구축

untitled

<4D F736F F D B5B6C0DABDC5BFEBB5EEB1DE20B5B5C0D4B0FA20B1E2BEF720BDC5BFEBC0A7C7E820BBF3BDC320C6F2B0A120B5EEC0C720BFB5C7E2C0BA2E646F63>

°ø±â¾Ð±â±â

<3130C0E5>

#DPK5(PB)(9.8.19)

FGB-P 학번수학과권혁준 2008 년 5 월 19 일 Lemma 1 p 를 C([0, 1]) 에속하는음수가되지않는함수라하자. 이때 y C 2 (0, 1) C([0, 1]) 가미분방정식 y (t) + p(t)y(t) = 0, t (0, 1), y(0)

PowerPoint Presentation

<BACFC7D1B3F3BEF7B5BFC7E22D3133B1C733C8A BFEB2E687770>



제 9 도는 6제어항목의 세팅목표의 보기가 표시된 레이더 챠트(radar chart). 제 10 도는 제 6 도의 함수블럭(1C)에서 사용되는 각종 개성화 함수의 보기를 표시하는 테이블. 제 11a 도 제 11c 도까지는 각종 조건에 따라 제공되는 개성화함수의 변화의

슬라이드 1

= ``...(2011), , (.)''

Steven F. Ashby Center for Applied Scientific Computing Month DD, 1997

untitled

지능정보연구제 16 권제 1 호 2010 년 3 월 (pp.71~92),.,.,., Support Vector Machines,,., KOSPI200.,. * 지능정보연구제 16 권제 1 호 2010 년 3 월

PowerPoint 프레젠테이션

확률 및 분포

174..1,2,7,8..*****

<31372DB9DABAB4C8A32E687770>

Microsoft PowerPoint Relations.pptx

<C7D1B1B9BAB8B0C7BBE7C8B8BFACB1B8BFF82DC1A639C2F720BAA3C0CCBAF1BAD520BCBCB4EB20B9CCB7A1B1B8BBF3C6F7B7B35FB3BBC1F62E687770>

*LAC-1211

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선


methods.hwp

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

두산동아-확통 완성본.hwp

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

Probabilistic graphical models: Assignment 3 Seung-Hoon Na June 7, Gibbs sampler for Beta-Binomial Binomial및 beta분포는 다음과 같이 정의된다. k Bin(n, θ):

PowerPoint Presentation

Microsoft PowerPoint - 26.pptx

전자회로 실험

abstract.dvi

6자료집최종(6.8))

Microsoft PowerPoint - 27.pptx

특목고 8-나 해설Ⅰ(001~024)OK

<303020BDC7BCD5C0C7B7E1BAF1BAB8C0E5BAB8C7E85FB8F1C2F72E687770>

4. 1 포인터와 1 차원배열 4. 2 포인터와 2 차원배열 4. 3 포인터배열 4. 4 포인터와문자그리고포인터와문자열

480제 생물Ⅰ 해설

Contents 확률분포 (probability distribution) 이항분포 (binomial distribution) 초기하분포 (hypergeometric distribution) 포아송분포 (poisson distribution) 2

1 1,.,

i n i n i n 1

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로

정보기술응용학회 발표

0 000., , , , 0 0.H H H 0.H , , , , , 0.H6 000,.HH 0 00

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

A y y y y y # 2#

0 cm (++x)=0 x= R QR Q =R =Q = cm =Q =-=(cm) =R =x cm (x+) = +(x+) x= x= (cm) =+=0 (cm) =+=8 (cm) + =0+_8= (cm) cm + = + = _= (cm) 7+x= x= +y= y=8,, Q

파이널생명과학1해설OK

Check 0-9, 9,, - 6, 6, 6, =0.04, (-0.) = , =64 8 8, -8 (-6) =6 (-6) 6, -6 7, , -0. 8, -8 6, '7 ' '

04월 행사_부산_DM-제오젠

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

< 목 차 > < 가입자 유의사항 >... 5 < 주요내용 요약서 >... 6 < 보험용어 해설 >... 8 < 주요 민원사례 > < 약관조항 안내 > 무배당수호천사플러스상해보험 약관 제 1 관 목적 및 용어의 정의 제 1 조

수리 영역 가 형 5. 다음 그림과 같이 크기가 같은 정육면체 개가 한 모서리씩을 공유하 면서 각 면이 평행 또는 수직 관계를 유지한 채로 한 평면 위에 놓여있 다. 그림의 세 꼭짓점 A, B, C에 대한 두 벡터 BA 와 BC 가 이루는 각 의 크기를 h라 할 때,

Microsoft PowerPoint Predicates and Quantifiers.ppt

<C3D6C1BE2DBDC4C7B0C0AFC5EBC7D0C8B8C1F D32C8A3292E687770>

< FC1F8B9E6B1B3C0B02E687770>

Microsoft PowerPoint - AC3.pptx

01

SS수학고등지도서(3-3)-13-OK

歯

금안13(10)01-도비라및목차1~13

< C0FCC0CEC3CA2E687770>

확률과통계6

1 1 x + # 0 x - 6 x 0 # x # 2r sin2x- sin x = 4cos x r 3 r 2r 5 r 3r

step 1-1

16중등빨이수학3-2교부(01~23)

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

untitled

#KLZ-371(PB)

G Power

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

#SPS/C-5050.B.


Transcription:

2.1 Overview 확률 ( 론 ) 은우연에따라좌우되는게임 ( 주사위, 동전, 카드, ) 에서특정사건의 발생가능성을수량화하기위하여탄생 (1) 한개의주사위를 5 번던지는실험에서결과 : 모집단 {1, 2, 3, 4, 5, 6} 에서단순임의복원추출 (simple random sampling with replacement) 을이용해 5 개의표본을추출하는것 > sample(1:6, 5, replace=true) [1] 5 4 3 1 3 (2) 1 개의동전을 2 번던지는실험에서결과 : 모집단 {HH, HT, TH, TT} 에서단순임의복원추출 (simple random sampling with replacement) 을이용해 1 개의표본을추출하는것 > sample(c('hh','ht','th','tt'), 1, replace=true) [1] "HH" [ 실습 2.1] 1 개의동전을 3 번던지는실험에서결과 1

2.2 표본공간과사건 Definition 2.2-1 Sample space of the experiment (S): the set of all possible outcomes of an experiment : 한실험에서가능한모든결과의집합을실험의표본공간 (sample space) 이라하고 S 로표기된다. Example 2.2-1 (a) 2 개의부품을선택하고각각정상 (non-defective, N), 불량 (defective, D) 으로분류하는실험에대한표본공간 : S 1 = {NN, ND, DN, DD} (b) 2 개의부품을선택하고불량품의수를기록하는실험에대한표본공간 : S 2 = {0, 1, 2} (c) 2 번째불량품을발견할때까지검사한부품들의수를기록하는실험에대한 표본공간 : S 3 = {2, 3, } Example 2.2-2 특정대학의학생 1 명을뽑아태양에너지사용확장에대한학생의견을 1~10 점으로기록한다. (a) 이실험은표본공간을구하시오. : S={1, 2,, 10} (b) 표본공간과모집단 (population) 은어떻게다른가? : 모집단은이대학의전체학생들로부터의의견점수의모임이다. ( 동일한점수의반복이가능 ) 표본공간은가능한결과들의모임이다. ( 동일한점수의반복이안됨 ) 2

Example 2.2-3 특정대학의학생 3 1~10 점으로기록한다. 명을뽑아서태양에너지사용확산에대한학생의견을 (a) 이실험의표본공간을구하시오. 표본공간의크기를구하시오. : 3 명의의견이 (xx 1, xx 2, xx 3 ) 로구성된모든가능한결과로기록되었을때, 1 번째 학생의응답을 xx 1 = 1,2,,10, 2 번째학생의응답을 xx 2 = 1,2,,10, 3 번째학생의 응답을 xx 3 = 1,2,,10 으로표기한다. 따라서, 표본공간은다음과같이표현된다. SS 1 = {(xx 1, xx 2, xx 3 ) xx 1 = 1,2,,10, xx 2 = 1,2,,10, xx 3 = 1,2,,10} 가능한표본공간의크기, 10 10 10 = 1000 (b) 3 명의응답에대한합계만이기록된다고할때표본공간을나타내고그크기를구하시오. > S1=expand.grid(x1=1:10, x2=1:10, x3=1:10) # lists all triplets in S1 > length(table(rowsums(s1))) # gives the number of different sums 3

표본공간 (S1) = {3, 4, 5,, 30} 표본공간의크기 = 28 Events ( 사건 ): collections of individual outcomes, 개별결과들의모임 Simple event ( 단순사건 ): an event consisting of only one outcome, 오직 1 개의결과로이루어진사건 A B = : 만약두사건이공통된결과가없어서함께발생될수없을때두사건 A, B 는 배반 (disjoint) 또는상호배타적 (mutually exclusive) 이라고한다. 4

결합법칙, 분배법칙, 드모드강의법칙 Exercises 1. 다음각실험에대한표본공간을구하시오. (a) 1 개의주사위를 2 번던지고결과들을기록한다 : {(1,1), (1,2),, (6,6)} (b) 1 개의주사위를 2 번던지고그결과들의합을기록한다. : {2, 3, 4,, 12} (c) 불량품 6 개를포함하고있는 500 개의제품들에서, 30 개의제품을단순임의추출할때이표본에포함된불량품의수를기록한다. : {0, 1, 2,, 6} (d) 1 번째불량품이발견될때까지제품들을검사할때관찰된제품들의수를기록한다. : {1, 2, } 5

2.3 Experiments with Equally Likely Outcomes 2.3.1 확률의정의와표현 P(E): probability of an event E, to quantify the likelihood of occurrence of E by assigning a number from the interval [0, 1] : 구간 [0, 1] 로부터하나의숫자를할당하여사건 E 의발생가능성을수치화 Limiting relative frequency (n ) NN nn (EE) nn Probability of Each of N Equally Likely Outcomes 어떠한실험의표본공간이발생확률이같은 N 개의결과들로구성된다면각 결과의확률은 1/N 이다. Assignment of Probabilities in the Case of N Equally Likely Outcomes P(E) = NN(EE) NN Example 2.3-1 레이저다이오드 (laser diodes) 의효율은 2 에서 4 까지다양하다. 100 개중에서, 2, 2.5, 3, 3.5, 4 의효율성을가지는다이오드들의수가각각 10, 15, 50, 15, 10 개가있다. 한개의레이저다이오드를임의로선택할때, 사건 E 1 ={ 선택된레이저다이오드의효율성이 3 인경우 }, E 2 ={ 선택된레이저다이오드의효율성이적어도 3 인경우 } 의확률을구하시오. Solution N = 100, N(EE 1 ) = 50, N(EE 2 ) = 75 PP(EE 1 ) = 0.5, PP(EE 2 ) = 0.75 6

Example 2.3-2 2 개의주사위를던질때합이 7 인사건의확률을구하시오. Solution N=36, A={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} N(A)=6 P(A)=6/36=1/6 2.3.2 Counting Techniques Definition 2.3-1 (1) Permutation ( 순열 ) : ordered outcomes (2) Combination ( 조합 ) : unordered outcomes Number of Permutations of k Units Selected from n nnpp kk = PP kk,nn Number of Combinations of k Units Selected from n nncc kk = nn kk : 이항계수 (binomial coefficients) (1) a, b, c 를배열하는서로다른순서의경우수 = 6 가지 abc, acb, bac, bca, cab, cba 3 2 1=6(=3!) > factorial(3) [1] 6 (2) 8 명의사람으로이루어진집단에서 2 명을선택하는경우의수는다음과같다. 8 8 7 = 2 = 28 2 1 7

> choose(8,2) [1] 28 (3) PP kk,nn = nn PP kk = nn CC kk kk! = nn kk kk! > choose(n,r)*factorial(r) 8

2.4 Conditional Probability : 조건부확률 2.4.1 The multiplication rule and tree diagrams : 두사건에대한곱셈규칙 : 세사건에대한곱셈규칙 2.4.2 Law of total probability and Bayes theorem : 표본공간의 Partition ( 분할 ) : 전확률법칙 9

Example 2.5-13 모든남자들의 5% 와여자들의 0.25% 는색맹이다. 55% 여자들과 45% 남자들로이루어진한지역사회에서임의로한사람을선택한다. (a) 임의로선택한사람이색맹일확률을구하시오. (b) 만약선택된사람이색맹이라면, 그사람이남자일확률을구하시오. Solution B : 선택된사람이색맹인사건 A 1 : 남자인사건 A 2 : 여자인사건 10

2.5 Independent events : 독립사건 P(B A)=P(B) Example 2.5-1 2 개의주사위를동시에던질때 3 개의사건 A, B, C 는다음과같이정의된다. A: 첫번째주사위의눈이 3 인사건 B: 두주사위의눈의합이 8 인사건 C: 두주사위의눈의합이 7 인사건이때다음의각문항에답하시오. (1) A 와 B 는독립인가? (2) A 와 C 는독립인가? Solution A={(3,1), (3,2), (3,3), (3,4), (3,5), (3,6)} B={(2,6), (3,5), (4,4), (5,3), (6,2)} C={(1,6), (2,5), (3,4), (4,3), (5,2), (6,1)} A B={(3,5)} A C={(3,4)} (1) P(A B)=1/36, P(A)=6/36, P(B)=5/36 P(A)P(B) = (6/36)(5/36) 1/36 A 와 B 는독립이아니다. (2) P(A C)=1/36, P(A)=6/36, P(C)=6/36 P(A)P(C) = (6/36)(6/36) =1/36 A 와 C 는독립이다. 11

2.6 Association Rule Mining 2.6.1 연관규칙마이닝, Association Rule Mining ARM (1) 아이템 (items) 과거래 (transactions) 데이터를이용하여아이템간의연관성을분석 ( 아이템 = 사건, 거래 = 실험결과 ) (2) 아이템과트랜잭션데이터집합 I={i 1, i 2,, i n } : n 개의아이템집합 T={t 1, t 2,, t m } : m 개의트랜잭션집합 (ex) Wal mart data I={Beer, Nuts, Diaper, Coffee, Eggs, Milk} T={10,20,30,40,50} (3) 개별트랜잭션은번호 (unique identical number) 와이에포함된아이템들로구성 tt jj = ii jj1, ii jj2,, ii jjjj (ex) Wal mart data t 10 =(Beer, Nuts, Diaper) (4) 연관규칙의표현 - X 아이템이거래되고나서 Y 아이템이거래된것을의미 X Y X 와 Y 는아이템집합에포함된아이템 X: 선행사건 (antecedent), lhs(left hand side) Y: 후행사건 (consequent), rhs(right hand side) 12

(6) Market basket analysis ( 장바구니분석 ), Frequent patterns analysis ( 빈발패턴분석 ) 이러라고도함. 2.6.2 ARM 의 3 가지평가측도 (evaluation measures) : 지지도 (support), 신뢰도 (confidence), 향상도 (lift) (1) 지지도 - 두사건 (event) A 와 B 에대하여 A 와 B 가동시에발생할확률 PP(AA BB) (2) 신뢰도 - A 가발생했다는조건하에서 B 가발생할확률 PP(BB AA) (3) 향상도 PP(BB AA) PP(BB) (4) 지지도와신뢰도최소확률값을정하여이값보다큰규칙들에대하여 의미를부여 : ARM 에서는최소임계값 (minimum threshold) 2.6.3 Support ( 지지도 ) X 와 Y 를함께포함하고있는트랜잭션수 support(x Y) = P(X Y) = 전체트랜잭션수 0 support(x Y) 1 (1) 규칙 (X Y) 의지지도는 X 와 Y 를동시한포함한트랜잭션수를전체 트랜잭션수로나눈값 (2) 1 에가까울수록같은트랜잭션에속한 X 와 Y 는전체트랜잭션에서차지하는 중요도가커짐. (3) 지지도가 0 에가깝다는것은전체트랜잭션에서차지하는비중이크지 않다는것을의미 13

(4) 일반적으로지지도는자주발생하지않은규칙을우선적으로제거하는데사용 (5) (XX YY) 와 (YY XX) 의지지도값은같기때문에두규칙간의차이를알수없음. support(x Y) = P(X Y) = PP(YY XX) = support(y X) (6) (5) 의문제점을보완하기위하여신뢰도이용. 2.6.4 Confidence ( 신뢰도 ) P(X Y) confidence(x Y) = P(Y X) = P(X) X 와 Y 를함께포함하고있는트랜잭션수 = X 를포함한트랜잭션수 0 confidence(x Y) 1 (1) X 가발생하였다는조건하에서 Y 가발생할확률로정의되는신뢰도는다음과 같이 X 와 Y 의지지도 (P(X Y)) 를 X 의지지도 (P(X)) 로나눈값이다. confidence(x Y) = P(Y X) = P(X Y) P(X) = support(x Y) support(x) : 지지도값이 1 에가까울수록 X 는 Y 에많은영향을줌. (2) 보통최소지지도값이상의연관규칙들중에서큰신뢰도값을갖는규칙들이의미있는것으로최종판단 (3) 규칙 (X Y) 와 (Y X) 의지지도값은같지만신뢰도값은같지않다. 따라서신뢰도는두아이템 X 와 Y 사이의연관성을확인할수있음. 14

2.6.5 Lift ( 향상도 ) lift( X confidence( X Y ) Y ) = = support( Y ) P( Y X ) = P( Y ) P( X Y ) support( X Y ) = P( X ) P( Y ) support( X )support( Y ) 0 lift(x Y) < (1) X 와 Y 의향상도는 X 와 Y 의신뢰도를 Y 의지지도로나눈값 (2) 최종적으로 X 와 Y 의지지도를 X 와 Y, 각각의지지도로나눈값 (3) 향상도값은확률이아니고이론적으로 0 에서무한대 ( ) 사이의값을갖는다. (4) 향상도값이 1 이되면 X 와 Y 는서로독립 (independent) 이된다. lift(x Y) = PP(XX YY) PP(XX)PP(YY) = 1, PP(XX YY) = PP(XX)PP(YY) : X 와 Y 는서로영향을미치지않는다. (5) 만약향상도값이 1 보다크면 X 와 Y 는서로보완 (complementary) 관계가 된다. 즉, X 가증가 ( 감소 ) 함에따라 Y 도함께증가 ( 감소 ) 한다. (6) 반면에 X 와 Y 의향상도값이 1 보다작게되면상호대체 (substitutive) 관계가 된다. 즉 X 가증가 ( 감소 ) 함에따라 Y 는감소 ( 증가 ) 한다. (7) 향상도값에따른 X 와 Y 의관계 > 1 XX aaaaaa YY aaaaaa cccccccccccccccccccccccccc ( 상호보완 ) lift(x Y) = 1 XX aaaaaa YY aaaaaa iiiiiiiiiiiiiiiiiiiiii ( 독립 ) < 1 XX aaaaaa YY aaaaaa ssssssssssssssssssssssss ( 상호대체 ) 15

2.6.6 Example [Wal Mart Case] P(beer) =, P(diaper) =, P(beer diaper) = P(beer diaper) =, P(diaper beer) = P(diaper beer) P(diaper) =, P(beer diaper) P(beer) = 16

> library(arules) > library(arulesviz) > tr = read.transactions("c:/data/walmart.txt", format = "basket", sep = ",") > tr transactions in sparse format with 5 transactions (rows) and 6 items (columns) > rules = apriori(tr, parameter = list(support = 0.1, confidence = 0.8)) > rules set of 46 rules > inspect(rules) 17

> inspect(head(sort(rules, by = "support"), 10)) > inspect(head(sort(rules, by = "confidence"),10)) 18

> inspect(head(sort(rules, by = "lift"), 10)) 19