PowerPoint 프레젠테이션

Similar documents
PowerPoint Presentation

chap6_basic_association_analysis PART1 ver2

Steven F. Ashby Center for Applied Scientific Computing Month DD, 1997

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CBED0C3E0C7C1B7CEB1D7B7A55C D616E2E637070>

NSI포럼 정책토론보고서

PowerPoint Presentation

자연언어처리

2002년 2학기 자료구조

Introduction to Statistics (Fall, 2018) Chapter 2 Introduction to Probability Chapter 2 Introduction to Probability 2.1 Overview 확률 ( 론 ) 은우연에따라좌우되는게임

chap6_basic_association_analysis PART2 ver2

호-11

chap 5: Trees

강의 개요

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

PowerPoint Presentation

PowerPoint 프레젠테이션

<BFACBDC0B9AEC1A6C7AEC0CC5F F E687770>

PowerPoint Presentation

歯

PowerPoint 프레젠테이션

슬라이드 1

<443A5C4C C4B48555C B3E25C32C7D0B1E25CBCB3B0E8C7C1B7CEC1A7C6AE425CC0E7B0EDB0FCB8AE5C53746F636B5F4D616E D656E74732E637070>

게시판 스팸 실시간 차단 시스템

adfasdfasfdasfasfadf

설계란 무엇인가?

2) 활동하기 활동개요 활동과정 [ 예제 10-1]main.xml 1 <LinearLayout xmlns:android=" 2 xmlns:tools="

[Brochure] KOR_TunA

슬라이드 1

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

PowerPoint 프레젠테이션

PowerPoint 프레젠테이션


04 Çмú_±â¼ú±â»ç

PowerPoint 프레젠테이션

윈도우즈프로그래밍(1)

현재도 피운다. (a) Half pack a day (b) half to one pack a day 반 갑 미만 반 갑 ~ 한 갑 (c) one to two packs a day (d) more than 2 packs a day 한 갑 ~ 두 갑 두 갑 이상 5. Ho

Microsoft PowerPoint - 알고리즘_5주차_1차시.pptx

Microsoft PowerPoint - additional01.ppt [호환 모드]

Lab 3. 실습문제 (Single linked list)_해답.hwp

Microsoft PowerPoint 웹 연동 기술.pptx

PowerPoint Presentation

포커스01이용준

빅데이터 분산 컴퓨팅 -6

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

歯 PDF

G Power

3.2 함수의정의 Theorem 6 함수 f : X Y 와 Y W 인집합 W 에대하여 f : X W 는함수이다. Proof. f : X Y 가함수이므로 f X Y 이고, Y W 이므로 f X W 이므로 F0이만족된다. 함수의정의 F1, F2은 f : X Y 가함수이므로


0. 표지에이름과학번을적으시오. (6) 1. 변수 x, y 가 integer type 이라가정하고다음빈칸에 x 와 y 의계산결과값을적으시오. (5) x = (3 + 7) * 6; x = 60 x = (12 + 6) / 2 * 3; x = 27 x = 3 * (8 / 4

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

3. 다음은카르노맵의표이다. 논리식을간략화한것은? < 나 > 4. 다음카르노맵을간략화시킨결과는? < >

Microsoft PowerPoint - 27.pptx

18강.hwp

Microsoft PowerPoint - C++ 5 .pptx

JDBC 소개및설치 Database Laboratory

슬라이드 제목 없음

Windows 8에서 BioStar 1 설치하기

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

TViX_Kor.doc

강의 개요

i

쉽게 배우는 알고리즘 강의노트

9장. 연관규칙분석과 협업필터링

9장. 연관규칙분석과 협업필터링

Artificial Intelligence: Assignment 6 Seung-Hoon Na December 15, Sarsa와 Q-learning Windy Gridworld Windy Gridworld의 원문은 다음 Sutton 교재의 연습문제

BY-FDP-4-70.hwp


GB A(1~3).indd


목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2007_2_project4

Lab 4. 실습문제 (Circular singly linked list)_해답.hwp

임베디드시스템설계강의자료 6 system call 2/2 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

< 고급 C 프로그래밍및실습 > 11 장구조체실습문제 문제에대한안내 - 특별한언급이없으면문제의조건에맞지않는입력은입력되지않는다고가정하라. - 특별한언급이없으면, 각줄의맨앞과맨뒤에는공백을출력하지않는다. - 출력예시에서 는각줄의맨앞과맨뒤에출력되는공백을의미한다. - 입출력예시


중간고사

EEAP - Proposal Template

이동원 근소비자들은다양한정보를습득하고이로부터자신의취향에맞는상품을찾기위해노력하고있다. 아마존을비롯한많은온라인쇼핑몰에서는이런소비자의요구에부응하고매출을증대하기위한목적으로추천상품을제시하려는노력을기울이고있다. 연관상품추천은이러한필요를충족시킬수있는방법으로서많은기업들이추천시스템구축

제 12강 함수수열의 평등수렴


09 ½ÅÇù3¿ùb63»ÁöÃÖÁ¾FFš

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

424

420

392

PowerPoint Presentation

09 ½ÅÇù2¿ùÈ£b63»ÁöÁ¤¸»ÃÖÁ¾š

<283229B1E8BFB5BFEB2E687770>

Microsoft PowerPoint - ch07_데이터베이스 언어 SQL.pptx

Lecture12_Bayesian_Decision_Thoery

5장 SQL 언어 Part II

신림프로그래머_클린코드.key

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

<4D F736F F F696E74202D C20C4C4C7BBC5CD20C8B0BFEB20B9D720C6C4C0CF20B0FCB8AE20BBF9C7C >

실험 5

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Frama-C/JESSIS 사용법 소개

C++ Programming


Transcription:

2017 년가을학기 손시운 (ssw5176@kangwon.ac.kr) 지도교수 : 문양세교수님

Basic of Association Rules Association Rule 다른데이터로부터어떤데이터의발생을예측하는규칙 데이터간의연관성및상관관계를표현하는규칙 A B (A와 B는각각데이터의부분집합 ) A 를 lhs (left-hand side), B 를 rhs (right-hand side) 라지칭 응용사례 Market Basket Analysis Medical Diagnosis Protein Sequences Census Data 2

Basic of Association Rules 가장빈번히사용되는 measures: support, confidence, and lift Support: A와 B를모두포함하는경우의확률 support A B = P(A B) 클수록관련도가높음 e.g. 전체쇼핑상품중, Diaper와 Beer를함께선택한비율 Confidence: A 를포함하는경우중, B 또한포함할경우의확률 confidence A B = P B A = P(A B) P(A) 클수록관련도가높음 결과값이 A 의규모에의존하므로전체적인분석은어려움 e.g. Diaper 를선택한경우중, Beer 를함께선택한비율 3

Basic of Association Rules Lift: B 에대한확률과 confidence 의비율 lift A B = confidence(a B) P(B) = P(A B) P(B) lift A B > 1: 클수록관련도가높음 lift A B = 1: 관련이없음 = P(A B) P A P(B) 0 < lift A B < 1: A 를선택하면, 보통 B 를선택하지않음 e.g. Diaper 와 Beer 의 confidence 값과 Beer 를선택한확률의비율 support Diaper Beer = 3 5 confidence Diaper Beer = 3 4 lift Diaper Beer = 5 4 4

연관규칙마이닝패키지설치 주어진트랜잭션집합으로부터, 연관규칙을찾는작업 실습은 APRIORI 알고리즘을사용 APRIORI 알고리즘 빈번한데이터를찾아연관규칙을얻는가장기본적인 ARM 기법 http://cran.r-project.org/web/packages/arules/index.html 에서다운로드 압축해제후, arules 폴더를 R 설치경로의 library 폴더로이동 설치시에경로변경이없었다면 C:\Program Files\R\R-3.1.1\library 5

Association Rule Mining arules 패키지를 R 에서로딩 6

Example 1: Grocery Data 에대한연관규칙 Datasets: 10 종류의식료품데이터 shopping bags, milk, vegetables, bread, soda, yogurt, water, tropical fruit, sausage, pastry 100개의구매결과트랜잭션으로구성 # Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8 Item 9 Item 10 1 yogurt water pastry shopping bags tropical fruit soda sausage 2 bread tropical fruit pastry vegetables soda sausage milk shopping bags 3 bread pastry tropical fruit water yogurt vegetables sausage shopping bags 4 shopping bags water pastry bread sausage vegetables 5 vegetables yogurt soda sausage water shopping bags 6 soda pastry tropical fruit bread shopping bags sausage 7 sausage tropical fruit bread 8 vegetables bread tropical fruit milk yogurt water sausage pastry shopping bags 9 water pastry bread vegetables shopping bags 10 vegetables sausage pastry bread yogurt shopping bags 11 tropical fruit bread sausage water yogurt soda shopping bags 12 vegetables sausage tropical fruit pastry bread shopping bags 13 vegetables yogurt sausage 14 tropical fruit soda vegetables pastry shopping bags water bread 15 tropical fruit soda bread shopping bags sausage water vegetables pastry 16 tropical fruit soda water sausage shopping bags 17 soda bread milk vegetables shopping bags 18 tropical fruit pastry water shopping bags bread 19 tropical fruit shopping bags soda water vegetables pastry yogurt milk 20 soda pastry shopping bags vegetables sausage bread tropical fruit water 7

Ex 1. 데이터로딩 read.transactions() 함수 arules 패키지내에서데이터는트랜잭션으로처리 파일로부터트랜잭션형태로로딩하는함수 inspect() 함수 : 트랜잭션데이터의내용을출력하는함수 8

Ex 1. 연관규칙마이닝적용 apriori() 함수 : apriori 알고리즘이구현되어있는함수 함수처리과정 발견된규칙의개수 9

Ex 1. apriori() 함수결과 10

Ex 1. Parameter 설정 발견된규칙중, 불필요한결과가포함됨 lhs 값이비어있는규칙이존재 minlen = 2로설정 너무많은규칙이발견 supp = 0.3, conf = 0.9로설정 함수처리과정제거 verbose=f로설정 11

Ex 1. 마이닝결과정렬 함수의결과가정렬되지않아가치있는데이터의식별이어려움 quality() 함수 : apriori() 함수의결과에서 measure 를추출한함수 round() 함수 : 실수데이터를 digits 인자크기의자리에서반올림하는함수 sort() 함수 : 데이터를 by 인자기준으로정렬하는함수 12

Ex 1. 정렬된결과 13

Ex 1. 결과에대한분석 supp = 0.3, conf = 0.9일때, 47개의규칙이발견 하지만모든규칙의 rhs는 shopping bags로나타남 이는 shopping bags가모든 ( 대부분 ) 트랜잭션에서나타나기때문 confidence의단점 이론강의자료 p.38 참고 따라서 lift를중심으로마이닝 parameter를 supp = 0.2, conf = 0.8로설정 14

Ex 1. 피드백결과 15

Ex 1. 특정데이터를제외한연관규칙마이닝 Shopping bags 는다른데이터와독립적이므로연관규칙에서제외 none= shopping bags 로설정 shopping bags 16

Ex 1. 특정데이터를제외한연관규칙마이닝 17

Ex 2. Titanic Data 연관규칙 The Titanic Dataset Titanic 호의승객들에대한생사여부의정보가요약된데이터 4차원테이블로구성 : social class, sex, age, and survival 각 row는한사람을의미 연관규칙마이닝을위해, Raw 데이터를재구조화 http://www.rdatamining.com/data 에서데이터셋다운로드 18

Ex 2. Dataset 데이터셋파일경로확인 파일 > 속성 다음파일의경로는 C:\Users\Son\Desktop\titanic.raw.rdata R 에서데이터셋불러오기 경로를문자열로취급하므로 Backslash(\) 기호를두개씩사용 19

Ex 2. Dataset Titanic 데이터셋구조 4 차원테이블 각속성값 Titanic은 4차원테이블로구성 테이블은다음속성들을포함 Class: 1st, 2nd, 3rd, Crew로구성 Sex: Male, Female로구성 Age: Child, Adult로구성 Survived: No, Yes로구성 20

Ex 2. Dataset raw data 를데이터프레임으로변환 데이터프레임으로변환한결과, 각속성 (class, sex, age, survived) 이나타낼수 있는경우의수를빈도수로표현하는구조임을확인 알고리즘에적용할수없으므로데이터를변경해야함 21

Ex 2. Dataset 데이터변경 cbind() 함수를통해, 열단위로결합 rep() 함수는각열의값을 Freq 속성값만큼반복 titanic.raw 는행렬이므로데이터프레임으로변경 22

Ex 2. Dataset 각속성에이름을부여 데이터확인 23

Ex 2. Association Rule Mining Titanic 데이터를 apriori() 함수에적용 기본적으로 minsup=0.1, minconf=0.8 로설정 24

Ex 2. Association Rule Mining Titanic 데이터에서발견된 rules 25

Ex 2. Association Rule Mining 마이닝결과중, 불필요한 rule이표현됨 Titanic 데이터에서는단지생사여부에대한 rule이필요 rhs=c( Survived=No, Survived=Yes ) 옵션을추가 lhs에는다른모든속성이포함될수있음 default= lhs 옵션을추가 lhs값이비어있는 rule이나타남 minlen=2 옵션을추가 apriori() 함수의처리과정은불필요 verbose=f 옵션을추가 26

Ex 2. Association Rule Mining Interesting rules 를위해옵션설정 round() 함수를통해, support, confidence, lift 값을반올림 sort() 함수를통해, lift 를기준으로내림차순정렬 27

Ex 2. Association Rule Mining Interesting rules 28

Ex 2. Removing Redundancy 앞서나타난 rules 중, 일부는다른 rule을포함 이는불필요한중복이며, 제거 (pruning) 하여야함 e.g. rule 1에서 2nd-class의어린이들이모두구조되었다는것을확인할수있으나 rule 2에서 2nd-class의어린이에대한 rule을한번더표현함 rule 4, 7, 8 또한 rule 3, 6, 5의중복 29

Ex 2. Removing Redundancy 중복을제거한결과 30

Ex 2. Interpreting Rules 데이터로부터높은 lift의 rule을찾기는쉽지만, rule을이해하기는어려움 실제로연관규칙을잘못이해하는경우가많음 rules.pruned에는어린이들에대해 2nd-class의정보만표현 2nd-class의어린이가다른 class에비해생존률이높다 는판단은틀림 위결과를위해각 class의생사여부에대한마이닝을진행 31

Ex 2. Interpreting Rules 각 class 별연관규칙마이닝결과 rule1, 2 를통해 1st-class 와 2nd-class 의어린이가생존률이같음 rule3, 4, 5 에서 3rd-class 의어린이는다른 class 의어른보다생존률이낮음 32

과제 #3 성별에따른생존률분석 Titanic 데이터에는성별과생사여부에대한데이터가포함됨 apriori() 함수를통해각성별의생존률을분석 제출방법 과제는 ssw5176@kangwon.ac.kr로제출 제목양식 : [ 학번 ][ 이름 ]HW#3 함수실행과정 (parameter 포함 ) 과 ARM 결과를캡쳐 제출기한은다음실습수업시간전까지이며, 그후에제출할경우 20% 감점 33