PowerPoint Presentation

Similar documents
8.2. 측정시스템 측정시스템의기본개념 통계적품질관리는모든것을품질데이터에근거하고있으므로정확한데이터의수집이중요 측정시스템이제품이나공정을정확히측정하여올바른데이터를산출할수있는것인지반드시평가 측정오차의성질 정확성, 정밀도, 안정성, 재현성

Microsoft PowerPoint - 26.pptx

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

실험 5

Microsoft PowerPoint Relations.pptx

슬라이드 제목 없음

Poison null byte Excuse the ads! We need some help to keep our site up. List 1 Conditions 2 Exploit plan 2.1 chunksize(p)!= prev_size (next_chunk(p) 3

PowerPoint Presentation

WINDOW FUNCTION 의이해와활용방법 엑셈컨설팅본부 / DB 컨설팅팀정동기 개요 Window Function 이란행과행간의관계를쉽게정의할수있도록만든함수이다. 윈도우함수를활용하면복잡한 SQL 들을하나의 SQL 문장으로변경할수있으며반복적으로 ACCESS 하는비효율역

ETL_project_best_practice1.ppt

DBMS & SQL Server Installation Database Laboratory

Microsoft PowerPoint - chap01-C언어개요.pptx

PowerPoint 프레젠테이션

전자회로 실험

intro

Microsoft PowerPoint - chap06-2pointer.ppt

Microsoft PowerPoint Predicates and Quantifiers.ppt

Chapter 5 비즈니스인텔리젼스의기초 : 데이터베이스와정보관리

금오공대 컴퓨터공학전공 강의자료

statistics

(b) 연산증폭기슬루율측정회로 (c) 연산증폭기공통모드제거비측정회로 그림 1.1. 연산증폭기성능파라미터측정회로

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

DOE_3

Microsoft Word - Lab.4

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

Microsoft Word - Lab.7

실험 5

강의 개요

Microsoft PowerPoint - C++ 5 .pptx

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft PowerPoint - 27.pptx

OCW_C언어 기초

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2

(Microsoft PowerPoint - Ch19_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])

제49회 부산과학전람회

목차 포인터의개요 배열과포인터 포인터의구조 실무응용예제 C 2

유해중금속안정동위원소의 분석정밀 / 정확도향상연구 (I) 환경기반연구부환경측정분석센터,,,,,,,, 2012

PowerPoint 프레젠테이션

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

H3250_Wi-Fi_E.book

Chapter ...

쉽게 풀어쓴 C 프로그래밊

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..


PowerPoint 프레젠테이션

chap 5: Trees

KMC.xlsm

adfasdfasfdasfasfadf

DW 개요.PDF

Windows 8에서 BioStar 1 설치하기

<B3EDB4DC28B1E8BCAEC7F6292E687770>

<4F E20C7C1B7CEB1D7B7A5C0BB20C0CCBFEBC7D120B5A5C0CCC5CD20BAD0BCAE20B9D720B1D7B7A1C7C120B1D7B8AEB1E F416E616C F616E645F47726

장연립방정식을풀기위한반복법 12.1 선형시스템 : Gauss-Seidel 12.2 비선형시스템 12.1 선형시스템 : Gauss-Seidel (1/10) 반복법은초기근을가정한후에더좋은근의값을추정하는체계적인절차를이용한다. G-S 방법은선형대수방정

exp

A Hierarchical Approach to Interactive Motion Editing for Human-like Figures

슬라이드 1

arcplan Enterprise 6 Charting Facelifts

Microsoft PowerPoint 웹 연동 기술.pptx

Turbine Digital Flowmeter SEMI U+ 특징 PVC, PTFE, P.P, PVDF 등 다양한 재질 Size, 유량, Connection별 주문제작 정밀성, 내화학성이 우수 4~20mA, Alarm, 통신(RS485) 등 출력 제품과 Controll

금오공대 컴퓨터공학전공 강의자료

XSS Attack - Real-World XSS Attacks, Chaining XSS and Other Attacks, Payloads for XSS Attacks

Resampling Methods

(001~006)개념RPM3-2(부속)

2 장수의체계 1. 10진수 2. 2진수 3. 8진수와 16진수 4. 진법변환 5. 2진정수연산과보수 6. 2진부동소수점수의표현 한국기술교육대학교전기전자통신공학부전자전공 1

조사연구 권 호 연구논문 한국노동패널조사자료의분석을위한패널가중치산출및사용방안사례연구 A Case Study on Construction and Use of Longitudinal Weights for Korea Labor Income Panel Survey 2)3) a

(Microsoft PowerPoint - Ch17_NumAnalysis.ppt [\310\243\310\257 \270\360\265\345])


분산처리 프레임워크를 활용한대용량 영상 고속분석 시스템

Motor Control Solution

JVM 메모리구조

소성해석

슬라이드 제목 없음

<3235B0AD20BCF6BFADC0C720B1D8C7D120C2FC20B0C5C1FE20322E687770>

- 1 -

Print

PowerPoint 프레젠테이션

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

- 2 -

김기남_ATDC2016_160620_[키노트].key

JUNIT 실습및발표

PowerPoint Presentation

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

PowerPoint Presentation

해외과학기술동향

PowerPoint 프레젠테이션

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

R t-..

Microsoft PowerPoint - 3장-MS SQL Server.ppt [호환 모드]

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

다른 JSP 페이지호출 forward() 메서드 - 하나의 JSP 페이지실행이끝나고다른 JSP 페이지를호출할때사용한다. 예 ) <% RequestDispatcher dispatcher = request.getrequestdispatcher(" 실행할페이지.jsp");

문서의 제목 나눔고딕B, 54pt



Microsoft PowerPoint - ch10_회복과 병행 제어.pptx

InsertColumnNonNullableError(#colName) 에해당하는메시지출력 존재하지않는컬럼에값을삽입하려고할경우, InsertColumnExistenceError(#colName) 에해당하는메시지출력 실행결과가 primary key 제약에위배된다면, Ins

PowerPoint Presentation

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

금오공대 컴퓨터공학전공 강의자료

제 4 장수요와공급의탄력성

Transcription:

데이터전처리 Data Preprocessing

02 데이터전처리개요

목차 1. 데이터전처리 2. 데이터품질 3. 데이터전처리단계 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 3

1. 데이터전처리

데이터분석단계 해석과평가 데이터마이닝 변환 지식 전처리 패턴 선택 목표데이터 전처리된데이터 변환된데이터 데이터 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 5

데이터과학자들이가장많은시간을소요하는일 CrowdFlower 2016 Data Science Report 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 6

데이터과학에서가장즐겁지않은부분 CrowdFlower 2016 Data Science Report 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 7

데이터전처리 데이터를분석및처리에적합한형태로만드는과정을총칭하는개념 데이터전처리는데이터분석및처리과정에서중요한단계 데이터분석, 데이터마이닝, 머신러닝프로젝트에적용 일반적으로데이터는비어있는부분이많거나정합성이맞지않는경우가많음 아무리좋은도구나분석기법도품질이낮은데이터로는좋은결과를얻을수없음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 8

2. 데이터품질

데이터품질Data Quality Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 완벽한데이터를얻는다는것은실제에서는불가능한일 데이터품질을저해하는주요요인으로는크게측정오류와수집과정에서발생하는오류로나눌수있음 측정오류 : 사람의실수로잘못된단위로기록을하거나측정장비자체의한계등측정과정에서발생하는오류 수집과정오류 : 데이터의손실, 중복등의문제로발생하는오류 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 10

데이터품질Data Quality GIGO Garbage In Garbage Out 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 11

잡음 Noise Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 측정과정에서무작위로발생하여측정값의에러를발생시키는것 실제데이터는매끈한곡선형태의시계열데이터였지만측정과정에서잡음이포함됨으로인해실제값과다른데이터를얻게되어실제데이터의형태를읽어버릴수도있음 Two Sine Waves Two Sine Waves + Noise 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 12

아티펙트 Artifact Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 어떠한요인으로인해반복적으로발생하는왜곡이나에러를의미 일례로카메라를이용한영상데이터획득에있어카메라렌즈에얼룩이묻어있다면이에해당하는부분에서는이얼룩으로인한왜곡이지속적으로발생 https://www.cis.rit.edu/htbooks/mri/chap-11/chap-11.htm 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 13

정밀도 Precision Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 동일한대상을반복적으로측정하였을때의각결과의친밀성을나타내는것 측정결과의표준편차 standard deviation 로나타낼수도있음 예를들어동일한 1g 을측정하는데있어각각의측정결과가 {1.015, 0.990, 1.013, 1.001, 0.986} 인경우이들의표준편차는 0.013 이므로이때의정밀도는 0.013 이라말할수있음 https://pmanning.smugmug.com/electronics/data-precision-3500-dmm/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 14

바이어스 Bias Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 측정장비에포함된시스템적인변동으로앞서영점조절되지않은체중계가좋은예 정밀도에서언급된예제의경우 1g 에대한측정평균은 1.001 이며이측정장비에는 0.001 만큼의바이어스가포함되어있음을알수있음 https://base.xsens.com/hc/en-us/articles/209611089-understanding-sensor-bias-offset- 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 15

정확도 Accuracy Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 정확도는정확도와바이어스에기인하는것이지만이를이용하여명시적으로나타낼수있는수식은없음 다만정확도는유효숫자 Significant digit 의사용에있어중요한측면을가지고있음 이는공학이나과학에서기본적으로다루는개념으로수의정확도에영향을주는숫자를의미 예를들어, 측정에있어이는측정장비의한계로인해정확하지않은자리의수를측정함에따라발생할수있는문제로자를이용한길이측정을가정 자의최소눈금이 1 mm라면, 1 mm단위로길이를측정하게될것이며이경우항상 ±0.5 mm만큼의오차를가지게됨 이자를이용하여측정한길이가 10.3 mm였다면 1 mm미만의값인 0.3 mm라는수치는의미가없음을알수있음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 16

이상치 Outlier Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 대부분의데이터와다른특성을보이거나특정속성의값이다른개체들과달리유별난값을가지는데이터를의미 이상치의중요한점은잡음과는다르다는것 잡음이임의로발생하는예측하기어려운요인임에반해이상치는적법한하나의데이터로서그자체가중요한분석의목적이될수도있음 예를들어네트워크의침입자감시와같은응용에있어서는대다수의일반접속중예외적으로발생하는불법적인접속시도와같은이상치를찾는것이주된목표 https://madhureshkumar.wordpress.com/2015/06/18/trend-and-outlier/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 17

결측치Missing values Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터의결측은일반적인경우는아니지만드물게발생하는문제 설문조사의경우몇몇사람들은자신의나이나몸무게와같은사적인정보를공개하는것을꺼리는경우가발생하며이러한값들은조사에있어결측값으로남게됨 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 18

모순, 불일치Inconsistent values Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 때에따라서는동일한개체에대한측정데이터가다르게나타나는경우가발생할수있는데이러한경우를모순또는불일치값이라표현 예를들어, 고객의주소와우편번호를저장해놓은데이터를생각해보면, 주소가동일한지역임에도불구하고어떠한이유로우편번호가상이한경우가발생할수있음 이런경우에는주소를확인해서우편번호를정정하는작업이필요 https://edu.gcfglobal.org/en/excel-tips/atrick-for-finding-inconsistent-data/1/ https://stackoverflow.com/questions/20861697/inco nsistent-values-for-getnumberfound-in-search-api 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 19

중복Duplicate data 데이터의중복은언제든지발생가능 문제는중복된데이터사이에속성의차이나값의불일치가발생할수있다는것 기본적으로모든속성및값이동일하다면하나의데이터는삭제할수있지만, 그렇지않은경우에는두개체를합쳐서하나의개체를만들거나, 응용에적합한속성을가진데이터를선택하는등의추가적인작업을필요로하게됨 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 https://www.opentechguides.com/howto/article/excel-2016/127/remove-duplicate-data.html 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 20

3. 데이터전처리기법

데이터전처리단계 데이터수집Data Collection 분석이나학습에필요한데이터를부분혹은전체를수집하는작업 데이터변환 Data Transformation 데이터수집 Data Collection 데이터정제Data Cleansing 비어있는데이터나잡음, 모순된데이터등을정합성이맞도록교정하는작업 데이터축소 데이터정제 데이터통합Data Integration 여러개의데이터베이스, 데이터집합또는파일을통합하는작업 Data Reduction 데이터통합 Data Cleaning 데이터축소Data Reduction 샘플링, 차원축소, 특징선택및추출을통해데이터크기를줄이는작업 Data Integration 데이터변환 Data Transformation 데이터를정규화, 이산화또는집계를통해변환하는작업 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 22

데이터수집Data Collection 데이터수집이데이터처리분석및모델생성의첫과정 목적과목표가되는정보를수집하고측정하기위해정의가필요 문제의정의와문제해결을위한데이터분석기획과시나리오가중요 문제를식별하고탐색함으로써정보수집시기및방법을결정 데이터종류에따라서내부또는외부, 질적또는양적데이터수집 http://xcademy.in/data-management-platform/data-collection/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 23

데이터정제Data Cleansing 데이터를활용할수있도록만드는과정 데이터의누락값, 불일치, 오류의수정 컴퓨터가읽을수없는요소의제거 숫자나날짜등의형식에대해일관성유지 적합한파일포맷으로변환 https://www.dataentryoutsourced.com/blog/cxos-guideto-marketing-and-sales-data-cleansing-and-enrichment/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 24

데이터통합Data Integration 서로다른출처의여러데이터를결합 서로다른데이터세트가호환이가능하도록통합 같은객체, 같은단위나좌표로데이터를통합 링크드데이터의핵심목표중하나는데이터통합을완전히또는거의완전히자동화하는것 http://www.matricis.com/en/integration-solutions/data-integration/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 25

데이터축소Data Reduction 일반적으로데이터는매우크기때문에대용량데이터에대한복잡한데이터분석은실행하기어렵거나불가능한경우가많음 데이터축소는원래용량기준보다작은양의데이터표현결과를얻게되더라도원데이터의완결성을유지하기위해사용 데이터를축소하면데이터분석시좀더효과적이고원래데이터와거의동일한분석결과를얻어낼수있는장점 https://www.cohesity.com/blog/cohesity-data-reduction-lock-stock-barrel/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 26

데이터변환Data Transformation https://en.wikipedia.org/wiki/data_transformation 데이터를한형식이나구조에서다른형식이나구조로변환 원본데이터와대상데이터간에필요한데이터변경내용을기반으로데이터변환이간단하거나복잡할수있음 데이터변환은일반적으로수동및자동단계가혼합되어수행 데이터변환에사용되는도구및기술은변환되는데이터의형식, 구조, 복잡성및볼륨에따라크게다를수있음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 27

그림으로보는데이터전처리기법 https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 28

데이터전처리기법 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 집계 Aggregation 샘플링 Sampling 차원축소Dimensionality Reduction 특징선택Feature subset selection 특징생성Feature creation 이산화와이진화Discretization and Binarization 속성변환Attribute Transformation https://medium.com/datadriveninvestor/data-cleaning-for-datascientist-363fbbf87e5f 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 29

데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 30