데이터전처리 Data Preprocessing
02 데이터전처리개요
목차 1. 데이터전처리 2. 데이터품질 3. 데이터전처리단계 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 3
1. 데이터전처리
데이터분석단계 해석과평가 데이터마이닝 변환 지식 전처리 패턴 선택 목표데이터 전처리된데이터 변환된데이터 데이터 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 5
데이터과학자들이가장많은시간을소요하는일 CrowdFlower 2016 Data Science Report 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 6
데이터과학에서가장즐겁지않은부분 CrowdFlower 2016 Data Science Report 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 7
데이터전처리 데이터를분석및처리에적합한형태로만드는과정을총칭하는개념 데이터전처리는데이터분석및처리과정에서중요한단계 데이터분석, 데이터마이닝, 머신러닝프로젝트에적용 일반적으로데이터는비어있는부분이많거나정합성이맞지않는경우가많음 아무리좋은도구나분석기법도품질이낮은데이터로는좋은결과를얻을수없음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 8
2. 데이터품질
데이터품질Data Quality Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 완벽한데이터를얻는다는것은실제에서는불가능한일 데이터품질을저해하는주요요인으로는크게측정오류와수집과정에서발생하는오류로나눌수있음 측정오류 : 사람의실수로잘못된단위로기록을하거나측정장비자체의한계등측정과정에서발생하는오류 수집과정오류 : 데이터의손실, 중복등의문제로발생하는오류 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 10
데이터품질Data Quality GIGO Garbage In Garbage Out 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 11
잡음 Noise Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 측정과정에서무작위로발생하여측정값의에러를발생시키는것 실제데이터는매끈한곡선형태의시계열데이터였지만측정과정에서잡음이포함됨으로인해실제값과다른데이터를얻게되어실제데이터의형태를읽어버릴수도있음 Two Sine Waves Two Sine Waves + Noise 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 12
아티펙트 Artifact Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 어떠한요인으로인해반복적으로발생하는왜곡이나에러를의미 일례로카메라를이용한영상데이터획득에있어카메라렌즈에얼룩이묻어있다면이에해당하는부분에서는이얼룩으로인한왜곡이지속적으로발생 https://www.cis.rit.edu/htbooks/mri/chap-11/chap-11.htm 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 13
정밀도 Precision Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 동일한대상을반복적으로측정하였을때의각결과의친밀성을나타내는것 측정결과의표준편차 standard deviation 로나타낼수도있음 예를들어동일한 1g 을측정하는데있어각각의측정결과가 {1.015, 0.990, 1.013, 1.001, 0.986} 인경우이들의표준편차는 0.013 이므로이때의정밀도는 0.013 이라말할수있음 https://pmanning.smugmug.com/electronics/data-precision-3500-dmm/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 14
바이어스 Bias Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 측정장비에포함된시스템적인변동으로앞서영점조절되지않은체중계가좋은예 정밀도에서언급된예제의경우 1g 에대한측정평균은 1.001 이며이측정장비에는 0.001 만큼의바이어스가포함되어있음을알수있음 https://base.xsens.com/hc/en-us/articles/209611089-understanding-sensor-bias-offset- 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 15
정확도 Accuracy Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 정확도는정확도와바이어스에기인하는것이지만이를이용하여명시적으로나타낼수있는수식은없음 다만정확도는유효숫자 Significant digit 의사용에있어중요한측면을가지고있음 이는공학이나과학에서기본적으로다루는개념으로수의정확도에영향을주는숫자를의미 예를들어, 측정에있어이는측정장비의한계로인해정확하지않은자리의수를측정함에따라발생할수있는문제로자를이용한길이측정을가정 자의최소눈금이 1 mm라면, 1 mm단위로길이를측정하게될것이며이경우항상 ±0.5 mm만큼의오차를가지게됨 이자를이용하여측정한길이가 10.3 mm였다면 1 mm미만의값인 0.3 mm라는수치는의미가없음을알수있음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 16
이상치 Outlier Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 대부분의데이터와다른특성을보이거나특정속성의값이다른개체들과달리유별난값을가지는데이터를의미 이상치의중요한점은잡음과는다르다는것 잡음이임의로발생하는예측하기어려운요인임에반해이상치는적법한하나의데이터로서그자체가중요한분석의목적이될수도있음 예를들어네트워크의침입자감시와같은응용에있어서는대다수의일반접속중예외적으로발생하는불법적인접속시도와같은이상치를찾는것이주된목표 https://madhureshkumar.wordpress.com/2015/06/18/trend-and-outlier/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 17
결측치Missing values Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터의결측은일반적인경우는아니지만드물게발생하는문제 설문조사의경우몇몇사람들은자신의나이나몸무게와같은사적인정보를공개하는것을꺼리는경우가발생하며이러한값들은조사에있어결측값으로남게됨 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 18
모순, 불일치Inconsistent values Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 때에따라서는동일한개체에대한측정데이터가다르게나타나는경우가발생할수있는데이러한경우를모순또는불일치값이라표현 예를들어, 고객의주소와우편번호를저장해놓은데이터를생각해보면, 주소가동일한지역임에도불구하고어떠한이유로우편번호가상이한경우가발생할수있음 이런경우에는주소를확인해서우편번호를정정하는작업이필요 https://edu.gcfglobal.org/en/excel-tips/atrick-for-finding-inconsistent-data/1/ https://stackoverflow.com/questions/20861697/inco nsistent-values-for-getnumberfound-in-search-api 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 19
중복Duplicate data 데이터의중복은언제든지발생가능 문제는중복된데이터사이에속성의차이나값의불일치가발생할수있다는것 기본적으로모든속성및값이동일하다면하나의데이터는삭제할수있지만, 그렇지않은경우에는두개체를합쳐서하나의개체를만들거나, 응용에적합한속성을가진데이터를선택하는등의추가적인작업을필요로하게됨 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 https://www.opentechguides.com/howto/article/excel-2016/127/remove-duplicate-data.html 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 20
3. 데이터전처리기법
데이터전처리단계 데이터수집Data Collection 분석이나학습에필요한데이터를부분혹은전체를수집하는작업 데이터변환 Data Transformation 데이터수집 Data Collection 데이터정제Data Cleansing 비어있는데이터나잡음, 모순된데이터등을정합성이맞도록교정하는작업 데이터축소 데이터정제 데이터통합Data Integration 여러개의데이터베이스, 데이터집합또는파일을통합하는작업 Data Reduction 데이터통합 Data Cleaning 데이터축소Data Reduction 샘플링, 차원축소, 특징선택및추출을통해데이터크기를줄이는작업 Data Integration 데이터변환 Data Transformation 데이터를정규화, 이산화또는집계를통해변환하는작업 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 22
데이터수집Data Collection 데이터수집이데이터처리분석및모델생성의첫과정 목적과목표가되는정보를수집하고측정하기위해정의가필요 문제의정의와문제해결을위한데이터분석기획과시나리오가중요 문제를식별하고탐색함으로써정보수집시기및방법을결정 데이터종류에따라서내부또는외부, 질적또는양적데이터수집 http://xcademy.in/data-management-platform/data-collection/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 23
데이터정제Data Cleansing 데이터를활용할수있도록만드는과정 데이터의누락값, 불일치, 오류의수정 컴퓨터가읽을수없는요소의제거 숫자나날짜등의형식에대해일관성유지 적합한파일포맷으로변환 https://www.dataentryoutsourced.com/blog/cxos-guideto-marketing-and-sales-data-cleansing-and-enrichment/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 24
데이터통합Data Integration 서로다른출처의여러데이터를결합 서로다른데이터세트가호환이가능하도록통합 같은객체, 같은단위나좌표로데이터를통합 링크드데이터의핵심목표중하나는데이터통합을완전히또는거의완전히자동화하는것 http://www.matricis.com/en/integration-solutions/data-integration/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 25
데이터축소Data Reduction 일반적으로데이터는매우크기때문에대용량데이터에대한복잡한데이터분석은실행하기어렵거나불가능한경우가많음 데이터축소는원래용량기준보다작은양의데이터표현결과를얻게되더라도원데이터의완결성을유지하기위해사용 데이터를축소하면데이터분석시좀더효과적이고원래데이터와거의동일한분석결과를얻어낼수있는장점 https://www.cohesity.com/blog/cohesity-data-reduction-lock-stock-barrel/ 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 26
데이터변환Data Transformation https://en.wikipedia.org/wiki/data_transformation 데이터를한형식이나구조에서다른형식이나구조로변환 원본데이터와대상데이터간에필요한데이터변경내용을기반으로데이터변환이간단하거나복잡할수있음 데이터변환은일반적으로수동및자동단계가혼합되어수행 데이터변환에사용되는도구및기술은변환되는데이터의형식, 구조, 복잡성및볼륨에따라크게다를수있음 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 27
그림으로보는데이터전처리기법 https://bdataanalytics.biomedcentral.com/articles/10.1186/s41044-016-0014-0 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 28
데이터전처리기법 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 집계 Aggregation 샘플링 Sampling 차원축소Dimensionality Reduction 특징선택Feature subset selection 특징생성Feature creation 이산화와이진화Discretization and Binarization 속성변환Attribute Transformation https://medium.com/datadriveninvestor/data-cleaning-for-datascientist-363fbbf87e5f 데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 29
데이터전처리 (Data Preprocessing) - 02 데이터전처리개요 30