데이터전처리 Data Preprocessing
01 데이터구조와종류
목차 1. 데이터개념 2. 데이터구조 3. 데이터종류 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 3
1. 데이터개념
데이터단어유래 https://en.wikipedia.org/wiki/data https://namu.wiki/w/ 데이터 데이터 data 는라틴어단어 Datum 의복수형인 Data 에서유래 라틴어에서 Datum 의뜻은 "present/gift, that which is given, debit 현재에서도기본적으로는복수형취급을하나가끔하나의고유명사화가되어서단수로취급하는경우도있음 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 6
데이터용어정의 https://en.wikipedia.org/wiki/data https://namu.wiki/w/ 데이터 이론을세우는데기초가되는사실. 또는바탕이되는자료 관찰이나실험, 조사로얻은사실이나자료 컴퓨터가처리할수있는문자, 숫자, 소리, 그림따위의형태로된자료 데이터는정보 information 가아니고, 데이터를가공해얻는것이정보 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 7
DIKW Pyramid Data, Information, Knowledge, Wisdom (DIKW) Pyramid https://www.ontotext.com/knowledgehub/fundamentals/dikw-pyramid/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 8
데이터용어 ( 연구방법론 ) 연구에직간접적으로이용되는일체의자료 어떤연구의결과가얼마나유용할지는그자료의질적적절성이중요 자료수집 : 연구에필요한정보들을수집하는과정 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 9
데이터종류 LOTS ( 연구방법론 ) L 자료 : 생애데이터 한대상의통사적정보를알수있는자료 특히특정개인을대상으로한임상장면에서많이사용 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회등이이에해당 객관화된자료이지만, 이용에한계가존재 T 자료 : 검사데이터 실험적절차를거치거나표준화된검사를통해얻어진데이터 대중매체에서과학자인물들이손에들고있는도표들도대부분 T- 자료 가장객관적이고질좋은자료이지만, 현실적으로접해보기는그다지쉽지않음 자료를확보하는과정에서의연구윤리문제도개입 O 자료 : 관찰데이터 숙련된관찰자혹은대상을잘아는관계자, 친지등이제공하는자료 면접법, 참여관찰법등을통해확보가능 주변사람들의증언이나 CCTV 영상자료역시 O- 자료에속함 S 자료 : 자기보고데이터 어떤대상에대한정보를얻을때그대상에게직접물어보아얻은자료 당연히사람을대상으로하므로, 그분야는심리학이나사회학등에한정될수밖에없음 매우흔하게접할수있는자료로, 흔한설문조사나여론조사등을통해얻어짐 " 사람은자신이자신을제일잘안다 " 는전제에기초해있으며, 사회적선망에의해답변이왜곡될수있음 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 10
데이터용어 ( 컴퓨터 ) 프로그램에부속된파일, 특히사용자가해독할수없는형태의이진파일 컴퓨터에의해특정한방법으로처리되거나해석될목적으로순서를가지고나열된기호 Symbol 가모여있는것 수치화된크기 / 규모 Magnitude, 개수 Quantity, 문자, 또는컴퓨터에의해해석되어처리되거나다른기계, 다른컴퓨터를제어할수있는명령어를나타내는심볼등 보통자기저장매체 ( 플로피디스크, 하드디스크, 카세트테이프, 오픈릴테이프, DAT, OMR 카드등 ), 메모리저장매체 (RAM, ROM, 플래시메모리, SSD 등 ), 광학저장매체 (CD, DVD, 블루레이, OCR 카드, 펀치카드등 ), 기계적저장매체등에저장되며전기신호의형태로전송가능 프로그램은컴퓨터가해석하여실행할수있는명령을나타내는심볼데이터의모임근본적으로컴퓨터라는기계는데이터의형태로표현된일련의명령어에따라동작하도록설계 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 11
데이터용어 ( 경영학 ) 2010 년이후데이터의시대라고부르기도하며, 일부는심지어산업혁명 4.0 이라고부르기함 데이터유통분야 데이터팩토리 data factory 라는새로운개념의회사들이생겨났는데, 다른말로는데이터뷰로 data bureau 라고불리기도함 가치있는데이터들을수집, 저장, 가공, 통합하여재판매하는일을주로하고있음 엡실론 Epsilon, 액시엄 Acxiom, 이퀴팩스 Equifax 같은회사들이유명 국내에도 KCB, NICE, SK 지오비전, 네이버등이데이터팩토리로불릴수있음 Azure Data Factory (ADF) 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 12
데이터용어 ( 경영학 ) 금융분야 데이터생태계라하여콜렉터, 브로커, 유저로나누어지는순환구조를가정 데이터는판매자가과거판매했던데이터가이후다시특정 " 사인 sign " 을달고판매자에게되돌아오는식으로구성 데이터소비자는구입한데이터에자신의내부데이터를융합시켜서활용하고, 그러한경제활동을통해서데이터판매자에게가치있는데이터가다시전달되는형태 Open data ecosystem from Deloitte 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 13
데이터유형과형식 https://guides.library.oregonstate.edu/research-data-services/ data-management-types-formats 관측및관찰데이터 실험데이터 파생또는컴파일데이터 시뮬레이션 참조또는표준 현장에서캡쳐 현장또는실험실 재현가능하지만 모델을사용하여 정적또는유기적 다시캡쳐하거나재생산및교체불가 예 ) 센서, 인간관찰, 설문조사등 기반의통제된조건속에서수집된데이터 재현이가능하지만비쌈 예 ) 유전자서열, 크로마토그램, 분광데이터, 현미경데이터등 비쌈 예 ) 텍스트및데이터마이닝, 파생변수, 컴파일된데이터베이스, 3D 모델등 실제또는이론적시스템의동작및성능을연구한결과 모델및메타데이터는입력데이터가출력데이터보다더중요 컬렉션데이터세트 예 ) 유전자서열데이터뱅크, 화학구조, 공간데이터포털등 예 ) 기후모델, 경제모델, 생지 화학모델등 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 14
데이터집합특성 Dimensionality 데이터집합의차원은각데이터 개체가가지는속성의개수를의미 데이터에따라서는속성의수가너무 많아분석의어려움이발생할수 있는데이를 차원의저주Curse of Dimensionality 라표현 국내연구진, 통계학난제 차원의저주 해결 http://www.hankookilbo.com/new s/read/201808081515040760 Sparsity 어떤데이터집합은대부분의데이터개체에서속성들이 0의값을가지며, 1% 미만의데이터개체에서만 0이아닌값을가지는경우가있음 일반적으로이러한데이터의경우저장에있어 0이아닌값만을사용함으로써데이터의저장과분석을용이하게할수있음 예를들어 4 x 4 행렬에서 (2, 3) 원소의값만이 0이아닌값이라면이행렬의저장은 16개의모든원소를저장하는것이아니라 (2, 3, 값 ) 이라는정보만으로도행렬을표현할수있음 Resolution Resolution에따라서획득되는데이터의특성이달라질수있음 Resolution이너무높은경우에는잡음과같은간섭요인에영향을많이받을수있으며, 반대로너무낮은경우에는정보가사라질수도있음 예를들어해수온도측정에있어 1년마다측정을한다면계절별온도변화패턴을찾기는어려울것 그러므로적절한수준의 Resolution을사용하는것이필요하며, 이는실험계획법과도연관 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 15
2. 데이터구조
데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 17
데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 18
데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 20
데이터세트Data set 데이터모음 하나의데이터베이스테이블의내용이나하나의통계적자료행렬과일치 컬럼 column : 특정한변수를대표 로우 row : 주어진멤버와일치 변수개개의값들을나열하고, 각각의값은데이터라고부름 하나이상의멤버에대한데이터를이루며, 로우의수와일치 웹에서접근하고다운로드할수있는다양한형태의데이터세트가존재 https://en.wikipedia.org/wiki/data_set Google Dataset: https://toolbox.google.com/datasetsearch Google AI Dataset: https://ai.google/tools/datasets/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 22
데이터세트Data set 데이터세트 data set : 데이터개체 data object 들의집합 데이터개체 data object : 레코드 record, 점 point, 벡터 vector, 패턴 pattern, 사례 case, 사건 event, 샘플 sample, 관찰 observation, 개체 entity 등으로불림 데이터개체는여러개의속성 attribute 으로기술 속성 attribute : 데이터개체들사이의차이를규정할수있는특성이나특징을의미 예 ) 사람을기술할때눈동자의색, 피부색, 키, 몸무게와같은속성을사용 속성은변수 variable, 특성 characteristic, 필드 field, 특징 feature, 차원 dimension 등으로불림 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 23
데이터형태 질적자료 ( 정성적자료, Qualitative or Categorical): 범주또는순서형태의속성을가지는자료 범주형 ( 명목형, nominal) 자료 : 사람의피부색, 성별 순서형 ( 서수형, ordinal) 자료 : 제품의품질, 등급, 순위 양적자료 ( 정량적자료, Quantitative or Numeric): 관측된값이수치형태의속성을가지는자료 범위형 interval 자료 : 화씨, 섭씨와같이수치간에차이가의미를가지는자료. 비율 ratio 자료 : 무게와같이수치의차이뿐만아니라비율또한의미를가지는자료 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 24
데이터분류Data Classification http://survivestatistics.com/variables/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 25
데이터분류Data Classification https://i.stack.imgur.com/j8ged.jpg 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 26
3. 데이터종류
데이터종류 Record data Graph-based data Ordered data Transaction or Market Basket Data Data matrix (Pattern matrix) Sparse Data Matrix Sequential data Sequence data Time series data Spatial data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 28
레코드데이터Record data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터마이닝에서가장많이사용되는데이터형태로대개 flat 파일형태로저장된데이터세트 레코드 Record 의모음으로구성 각레코드는고정된수의속성으로구성 TID Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 29
트랜잭션데이터Transaction Data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 구매자와구매물품목록형태로이루어진데이터세트 장바구니데이터 Market Basket Data 라고도불림 TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 30
데이터행렬Data matrix 모든속성이수치형태의값을가지는행렬형태의데이터세트 일반적으로데이터의행은개체, 열은속성을나타냄 패턴행렬 Pattern matrix 이라고도불림 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 Projection of x Load Projection of y Load Distance Load Thickness 10.23 5.27 15.22 27 1.2 12.65 6.25 16.22 22 1.1 13.54 7.23 17.34 23 1.2 14.27 8.43 18.45 25 0.9 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 31
희박한데이터행렬 Sparse Data Matrix Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 Data matrix 의특별한경우 예 : 각문서에서용어가출현하는빈도수 문서의경우에는용어벡터 term vector 형태로표현가능 season timeout lost win game score ball play coach team Document 1 3 0 5 0 2 6 0 2 0 2 Document 2 0 7 0 2 1 0 0 3 0 0 Document 3 0 1 0 0 1 2 2 0 3 0 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 32
그래프데이터Graph-based data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체간의관계나데이터자체를그래프로표현하는경우에사용하는데이터세트 ( 예 : 웹문서의연결관계나화학혼합물의구조를나타내는경우에사용 ) http://btechsmartclass.com/data_structures/introduction-to-graphs.html 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 33
그래프데이터Graph-based data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 34
그래프데이터Graph-based data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 35
그래프데이터Graph-based data http://www.openmolecules.org 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 36
순서데이터Ordered data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체의속성이시간또는공간적인순서와연관되는데이터세트 순서데이터의종류 연속데이터Sequential data 서열데이터Sequence data 시계열데이터Time series data 공간데이터Spatial data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 37
연속데이터Sequential data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 트랜잭션데이터에서시간성분을추가적으로고려한것 고객의시간에따른구매경향예측과같은응용에서사용될수있음 예 : CDP 구매고객은 CD 를구매할계획이있음 Time Customer Items Purchased t1 C1 A, B t2 C3 A, C t2 C1 C, D t3 C2 A, D t4 C2 E t5 C1 A, E Customer Time and Items Purchased C1 (t1: A, B) (t2: C, D) (t5: A, E) C2 (t3: A, D) (t4: E) C3 (t2: A, C) 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 38
서열데이터Sequence data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체들사이에순서가존재하는데이터 예 : DNA 서열 A( 아데닌 ), T( 티아민 ), G( 구아닌 ), C( 사이토신 ) 의염기로이루어져있는이중나선형의물질 https://florence20.typepad.com/renaissance/2013/02/the-big-data-ofplant-genomics.html 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 39
시계열데이터Time series data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 sequential data 의특수한경우 시간에따른속성의변화를관찰한데이터집합 예 : 주가지수, 시간별기온변화 https://www.usgs.gov/media/images/time-series-data-usgs-stationcolorado-river-austin https://blog.exploratory.io/introduction-to-tidyquant-quantitativefinancial-analysis-for-tidyverse-habitats-e5f72a023ce2 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 40
공간데이터Spatial data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 위성사진분석데이터와같이각데이터개체가공간상의위치정보와연관이되는데이터집합 예 : 지구상의지점에따른온도 http://spatial.ly/2013/08/big-open-data-mining-synthesis/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 41
데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 42