PowerPoint Presentation

Similar documents

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

PowerPoint Presentation

adfasdfasfdasfasfadf

PowerPoint 프레젠테이션

< B0B3C0CEC1A4BAB8BAD0C0EFC1B6C1A4BBE7B7CAC1FD2E687770>

PowerPoint 프레젠테이션

DBMS & SQL Server Installation Database Laboratory

Chap 6: Graphs

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

소성해석


이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

완벽한개념정립 _ 행렬의참, 거짓 수학전문가 NAMU 선생 1. 행렬의참, 거짓개념정리 1. 교환법칙과관련한내용, 는항상성립하지만 는항상성립하지는않는다. < 참인명제 > (1),, (2) ( ) 인경우에는 가성립한다.,,, (3) 다음과같은관계식을만족하는두행렬 A,B에

금오공대 컴퓨터공학전공 강의자료

c

Microsoft PowerPoint - 30.ppt [호환 모드]

KCC2011 우수발표논문 휴먼오피니언자동분류시스템구현을위한비결정오피니언형용사구문에대한연구 1) Study on Domain-dependent Keywords Co-occurring with the Adjectives of Non-deterministic Opinion

Microsoft PowerPoint - e pptx

PowerPoint Presentation


강의 개요

PowerPoint Presentation

Microsoft PowerPoint - chap04-연산자.pptx


untitled

<30352D30312D3120BFB5B9AEB0E8BEE0C0C720C0CCC7D82E687770>

歯mp3사용설명서

OCW_C언어 기초

Data Industry White Paper

Ç¥Áö

Database Search 편 * Database Explorer 8개의카테고리로구성되어있으며, 데이터베이스의폴더역할을하는 subset ( 혹은 subbase) 을생성하여데이터를조직및관리하게된다. 클릭! DNA/RNA Molecules : feature map의데이터

(, sta*s*cal disclosure control) - (Risk) and (U*lity) (Synthe*c Data) 4. 5.

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

Vector Space Vector space : 모든 n 차원컬럼벡터의집합 : {, :, } (, 2), (2, 5), (-2.4, 3), (2.7, -3.77), (,), 이차원공간을모두채움 : {,, :,, } (2,3,4), (3,2,-5), Vector spa

[Brochure] KOR_TunA

C# Programming Guide - Types

Microsoft Word - EDA_Univariate.docx

OR MS와 응용-03장

통계학입문

PowerPoint 프레젠테이션

6자료집최종(6.8))

EA0015: 컴파일러

Microsoft PowerPoint - chap06-2pointer.ppt

[ 마이크로프로세서 1] 2 주차 3 차시. 포인터와구조체 2 주차 3 차시포인터와구조체 학습목표 1. C 언어에서가장어려운포인터와구조체를설명할수있다. 2. Call By Value 와 Call By Reference 를구분할수있다. 학습내용 1 : 함수 (Functi

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

USER GUIDE

R R ...

Microsoft PowerPoint Python-DB

Steven F. Ashby Center for Applied Scientific Computing Month DD, 1997

동아시아국가들의실질환율, 순수출및 경제성장간의상호관계비교연구 : 시계열및패널자료인과관계분석

½½¶óÀ̵å Á¦¸ñ ¾øÀ½

<4D F736F F F696E74202D C61645FB3EDB8AEC7D5BCBA20B9D720C5F8BBE7BFEBB9FD2E BC8A3C8AF20B8F0B5E55D>

프로덕트 아이덴티티의 유형별 특성에 관한 연구

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

JVM 메모리구조

참고 1 실시간관측부이설치위치및관측항목 참고 2 해운대이안류발생감시및상황전파

Microsoft Word - PLC제어응용-2차시.doc

untitled

딥러닝 첫걸음

MVVM 패턴의 이해

MD-C-035-1(N-71-18)

DocsPin_Korean.pages

Chap 6: Graphs

전자회로 실험

예제 1.1 ( 관계연산자 ) >> A=1:9, B=9-A A = B = >> tf = A>4 % 4 보다큰 A 의원소들을찾을경우 tf = >> tf = (A==B) % A

DBPIA-NURIMEDIA

À̵¿·Îº¿ÀÇ ÀÎÅͳݱâ¹Ý ¿ø°ÝÁ¦¾î½Ã ½Ã°£Áö¿¬¿¡_.hwp

Microsoft PowerPoint - chap03-변수와데이터형.pptx

PathEye 공식 블로그 다운로드 받으세요!! 지속적으로 업그래이드 됩니다. 여러분의 의견을 주시면 개발에 반영하겠 습니다.

UML

UI TASK & KEY EVENT

Chap 6: Graphs

슬라이드 1

Yggdrash White Paper Kr_ver 0.18

PowerPoint 프레젠테이션

Microsoft PowerPoint - 26.pptx

Monthly User Guide from JMP Korea 제 13 호 (2018 년 8 월 ) Excel 과 JMP, Excel 보다 JMP * 본 Guide 는매월세번째수요일에발행됩니다 (2018 년 7 월호부터는 JMP 14 Version 기준입니다 ) ** M

untitled

Microsoft PowerPoint - 27.pptx

Chapter ...

PowerPoint 프레젠테이션

intro

U.Tu System Application DW Service AGENDA 1. 개요 4. 솔루션 모음 1.1. 제안의 배경 및 목적 4.1. 고객정의 DW구축에 필요한 메타정보 생성 1.2. 제품 개요 4.2. 사전 변경 관리 1.3. 제품 특장점 4.3. 부품화형

Sequences with Low Correlation

ºÎ·ÏB


임베디드시스템설계강의자료 6 system call 2/2 (2014 년도 1 학기 ) 김영진 아주대학교전자공학과

통계학, 빅데이터를잡다 2018 년 2 학기 : Ch. 1 통계학, 빅데이터시대를이끌다 Chapter 1 통계학, 빅데이터시대를이끌다 Statistics is the art of learning from data 차산업혁명, 일자리가사라져서혁명적일까? 4

Getting Started

Microsoft PowerPoint - MDA 2008Fall Ch2 Matrix.pptx

슬라이드 제목 없음

- 1 -

untitled

Gray level 변환 및 Arithmetic 연산을 사용한 영상 개선

세미나 진행 순서 서울중앙지검 검사장 축사(14:00) 제1주제(14:10~15:10):성폭력 피해 유형별 예방책 및 피해자 보호 방안 주제발표 :김진숙(여조부장),최순호(여조부 검사) 지정토론 :이화영(한국여성의전화 성폭력상담소장),백미순(한국성폭력 상담소장) 별첨

Microsoft PowerPoint - ch09 - 연결형리스트, Stack, Queue와 응용 pm0100

Microsoft PowerPoint - VHDL12_full.ppt [호환 모드]

(001~006)개념RPM3-2(부속)

2002년 2학기 자료구조

Transcription:

데이터전처리 Data Preprocessing

01 데이터구조와종류

목차 1. 데이터개념 2. 데이터구조 3. 데이터종류 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 3

1. 데이터개념

데이터단어유래 https://en.wikipedia.org/wiki/data https://namu.wiki/w/ 데이터 데이터 data 는라틴어단어 Datum 의복수형인 Data 에서유래 라틴어에서 Datum 의뜻은 "present/gift, that which is given, debit 현재에서도기본적으로는복수형취급을하나가끔하나의고유명사화가되어서단수로취급하는경우도있음 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 6

데이터용어정의 https://en.wikipedia.org/wiki/data https://namu.wiki/w/ 데이터 이론을세우는데기초가되는사실. 또는바탕이되는자료 관찰이나실험, 조사로얻은사실이나자료 컴퓨터가처리할수있는문자, 숫자, 소리, 그림따위의형태로된자료 데이터는정보 information 가아니고, 데이터를가공해얻는것이정보 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 7

DIKW Pyramid Data, Information, Knowledge, Wisdom (DIKW) Pyramid https://www.ontotext.com/knowledgehub/fundamentals/dikw-pyramid/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 8

데이터용어 ( 연구방법론 ) 연구에직간접적으로이용되는일체의자료 어떤연구의결과가얼마나유용할지는그자료의질적적절성이중요 자료수집 : 연구에필요한정보들을수집하는과정 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 9

데이터종류 LOTS ( 연구방법론 ) L 자료 : 생애데이터 한대상의통사적정보를알수있는자료 특히특정개인을대상으로한임상장면에서많이사용 생활기록부, 범죄이력, 신용정보, 졸업증명, 병력조회등이이에해당 객관화된자료이지만, 이용에한계가존재 T 자료 : 검사데이터 실험적절차를거치거나표준화된검사를통해얻어진데이터 대중매체에서과학자인물들이손에들고있는도표들도대부분 T- 자료 가장객관적이고질좋은자료이지만, 현실적으로접해보기는그다지쉽지않음 자료를확보하는과정에서의연구윤리문제도개입 O 자료 : 관찰데이터 숙련된관찰자혹은대상을잘아는관계자, 친지등이제공하는자료 면접법, 참여관찰법등을통해확보가능 주변사람들의증언이나 CCTV 영상자료역시 O- 자료에속함 S 자료 : 자기보고데이터 어떤대상에대한정보를얻을때그대상에게직접물어보아얻은자료 당연히사람을대상으로하므로, 그분야는심리학이나사회학등에한정될수밖에없음 매우흔하게접할수있는자료로, 흔한설문조사나여론조사등을통해얻어짐 " 사람은자신이자신을제일잘안다 " 는전제에기초해있으며, 사회적선망에의해답변이왜곡될수있음 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 10

데이터용어 ( 컴퓨터 ) 프로그램에부속된파일, 특히사용자가해독할수없는형태의이진파일 컴퓨터에의해특정한방법으로처리되거나해석될목적으로순서를가지고나열된기호 Symbol 가모여있는것 수치화된크기 / 규모 Magnitude, 개수 Quantity, 문자, 또는컴퓨터에의해해석되어처리되거나다른기계, 다른컴퓨터를제어할수있는명령어를나타내는심볼등 보통자기저장매체 ( 플로피디스크, 하드디스크, 카세트테이프, 오픈릴테이프, DAT, OMR 카드등 ), 메모리저장매체 (RAM, ROM, 플래시메모리, SSD 등 ), 광학저장매체 (CD, DVD, 블루레이, OCR 카드, 펀치카드등 ), 기계적저장매체등에저장되며전기신호의형태로전송가능 프로그램은컴퓨터가해석하여실행할수있는명령을나타내는심볼데이터의모임근본적으로컴퓨터라는기계는데이터의형태로표현된일련의명령어에따라동작하도록설계 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 11

데이터용어 ( 경영학 ) 2010 년이후데이터의시대라고부르기도하며, 일부는심지어산업혁명 4.0 이라고부르기함 데이터유통분야 데이터팩토리 data factory 라는새로운개념의회사들이생겨났는데, 다른말로는데이터뷰로 data bureau 라고불리기도함 가치있는데이터들을수집, 저장, 가공, 통합하여재판매하는일을주로하고있음 엡실론 Epsilon, 액시엄 Acxiom, 이퀴팩스 Equifax 같은회사들이유명 국내에도 KCB, NICE, SK 지오비전, 네이버등이데이터팩토리로불릴수있음 Azure Data Factory (ADF) 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 12

데이터용어 ( 경영학 ) 금융분야 데이터생태계라하여콜렉터, 브로커, 유저로나누어지는순환구조를가정 데이터는판매자가과거판매했던데이터가이후다시특정 " 사인 sign " 을달고판매자에게되돌아오는식으로구성 데이터소비자는구입한데이터에자신의내부데이터를융합시켜서활용하고, 그러한경제활동을통해서데이터판매자에게가치있는데이터가다시전달되는형태 Open data ecosystem from Deloitte 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 13

데이터유형과형식 https://guides.library.oregonstate.edu/research-data-services/ data-management-types-formats 관측및관찰데이터 실험데이터 파생또는컴파일데이터 시뮬레이션 참조또는표준 현장에서캡쳐 현장또는실험실 재현가능하지만 모델을사용하여 정적또는유기적 다시캡쳐하거나재생산및교체불가 예 ) 센서, 인간관찰, 설문조사등 기반의통제된조건속에서수집된데이터 재현이가능하지만비쌈 예 ) 유전자서열, 크로마토그램, 분광데이터, 현미경데이터등 비쌈 예 ) 텍스트및데이터마이닝, 파생변수, 컴파일된데이터베이스, 3D 모델등 실제또는이론적시스템의동작및성능을연구한결과 모델및메타데이터는입력데이터가출력데이터보다더중요 컬렉션데이터세트 예 ) 유전자서열데이터뱅크, 화학구조, 공간데이터포털등 예 ) 기후모델, 경제모델, 생지 화학모델등 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 14

데이터집합특성 Dimensionality 데이터집합의차원은각데이터 개체가가지는속성의개수를의미 데이터에따라서는속성의수가너무 많아분석의어려움이발생할수 있는데이를 차원의저주Curse of Dimensionality 라표현 국내연구진, 통계학난제 차원의저주 해결 http://www.hankookilbo.com/new s/read/201808081515040760 Sparsity 어떤데이터집합은대부분의데이터개체에서속성들이 0의값을가지며, 1% 미만의데이터개체에서만 0이아닌값을가지는경우가있음 일반적으로이러한데이터의경우저장에있어 0이아닌값만을사용함으로써데이터의저장과분석을용이하게할수있음 예를들어 4 x 4 행렬에서 (2, 3) 원소의값만이 0이아닌값이라면이행렬의저장은 16개의모든원소를저장하는것이아니라 (2, 3, 값 ) 이라는정보만으로도행렬을표현할수있음 Resolution Resolution에따라서획득되는데이터의특성이달라질수있음 Resolution이너무높은경우에는잡음과같은간섭요인에영향을많이받을수있으며, 반대로너무낮은경우에는정보가사라질수도있음 예를들어해수온도측정에있어 1년마다측정을한다면계절별온도변화패턴을찾기는어려울것 그러므로적절한수준의 Resolution을사용하는것이필요하며, 이는실험계획법과도연관 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 15

2. 데이터구조

데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 17

데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 18

데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 20

데이터세트Data set 데이터모음 하나의데이터베이스테이블의내용이나하나의통계적자료행렬과일치 컬럼 column : 특정한변수를대표 로우 row : 주어진멤버와일치 변수개개의값들을나열하고, 각각의값은데이터라고부름 하나이상의멤버에대한데이터를이루며, 로우의수와일치 웹에서접근하고다운로드할수있는다양한형태의데이터세트가존재 https://en.wikipedia.org/wiki/data_set Google Dataset: https://toolbox.google.com/datasetsearch Google AI Dataset: https://ai.google/tools/datasets/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 22

데이터세트Data set 데이터세트 data set : 데이터개체 data object 들의집합 데이터개체 data object : 레코드 record, 점 point, 벡터 vector, 패턴 pattern, 사례 case, 사건 event, 샘플 sample, 관찰 observation, 개체 entity 등으로불림 데이터개체는여러개의속성 attribute 으로기술 속성 attribute : 데이터개체들사이의차이를규정할수있는특성이나특징을의미 예 ) 사람을기술할때눈동자의색, 피부색, 키, 몸무게와같은속성을사용 속성은변수 variable, 특성 characteristic, 필드 field, 특징 feature, 차원 dimension 등으로불림 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 23

데이터형태 질적자료 ( 정성적자료, Qualitative or Categorical): 범주또는순서형태의속성을가지는자료 범주형 ( 명목형, nominal) 자료 : 사람의피부색, 성별 순서형 ( 서수형, ordinal) 자료 : 제품의품질, 등급, 순위 양적자료 ( 정량적자료, Quantitative or Numeric): 관측된값이수치형태의속성을가지는자료 범위형 interval 자료 : 화씨, 섭씨와같이수치간에차이가의미를가지는자료. 비율 ratio 자료 : 무게와같이수치의차이뿐만아니라비율또한의미를가지는자료 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 24

데이터분류Data Classification http://survivestatistics.com/variables/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 25

데이터분류Data Classification https://i.stack.imgur.com/j8ged.jpg 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 26

3. 데이터종류

데이터종류 Record data Graph-based data Ordered data Transaction or Market Basket Data Data matrix (Pattern matrix) Sparse Data Matrix Sequential data Sequence data Time series data Spatial data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 28

레코드데이터Record data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터마이닝에서가장많이사용되는데이터형태로대개 flat 파일형태로저장된데이터세트 레코드 Record 의모음으로구성 각레코드는고정된수의속성으로구성 TID Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 29

트랜잭션데이터Transaction Data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 구매자와구매물품목록형태로이루어진데이터세트 장바구니데이터 Market Basket Data 라고도불림 TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 30

데이터행렬Data matrix 모든속성이수치형태의값을가지는행렬형태의데이터세트 일반적으로데이터의행은개체, 열은속성을나타냄 패턴행렬 Pattern matrix 이라고도불림 Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 Projection of x Load Projection of y Load Distance Load Thickness 10.23 5.27 15.22 27 1.2 12.65 6.25 16.22 22 1.1 13.54 7.23 17.34 23 1.2 14.27 8.43 18.45 25 0.9 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 31

희박한데이터행렬 Sparse Data Matrix Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 Data matrix 의특별한경우 예 : 각문서에서용어가출현하는빈도수 문서의경우에는용어벡터 term vector 형태로표현가능 season timeout lost win game score ball play coach team Document 1 3 0 5 0 2 6 0 2 0 2 Document 2 0 7 0 2 1 0 0 3 0 0 Document 3 0 1 0 0 1 2 2 0 3 0 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 32

그래프데이터Graph-based data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체간의관계나데이터자체를그래프로표현하는경우에사용하는데이터세트 ( 예 : 웹문서의연결관계나화학혼합물의구조를나타내는경우에사용 ) http://btechsmartclass.com/data_structures/introduction-to-graphs.html 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 33

그래프데이터Graph-based data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 34

그래프데이터Graph-based data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 35

그래프데이터Graph-based data http://www.openmolecules.org 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 36

순서데이터Ordered data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체의속성이시간또는공간적인순서와연관되는데이터세트 순서데이터의종류 연속데이터Sequential data 서열데이터Sequence data 시계열데이터Time series data 공간데이터Spatial data 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 37

연속데이터Sequential data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 트랜잭션데이터에서시간성분을추가적으로고려한것 고객의시간에따른구매경향예측과같은응용에서사용될수있음 예 : CDP 구매고객은 CD 를구매할계획이있음 Time Customer Items Purchased t1 C1 A, B t2 C3 A, C t2 C1 C, D t3 C2 A, D t4 C2 E t5 C1 A, E Customer Time and Items Purchased C1 (t1: A, B) (t2: C, D) (t5: A, E) C2 (t3: A, D) (t4: E) C3 (t2: A, C) 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 38

서열데이터Sequence data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 데이터개체들사이에순서가존재하는데이터 예 : DNA 서열 A( 아데닌 ), T( 티아민 ), G( 구아닌 ), C( 사이토신 ) 의염기로이루어져있는이중나선형의물질 https://florence20.typepad.com/renaissance/2013/02/the-big-data-ofplant-genomics.html 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 39

시계열데이터Time series data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 sequential data 의특수한경우 시간에따른속성의변화를관찰한데이터집합 예 : 주가지수, 시간별기온변화 https://www.usgs.gov/media/images/time-series-data-usgs-stationcolorado-river-austin https://blog.exploratory.io/introduction-to-tidyquant-quantitativefinancial-analysis-for-tidyverse-habitats-e5f72a023ce2 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 40

공간데이터Spatial data Pang-Ning Tan et al, Introduction to Data Mining, Addison-Wesley, 2005 위성사진분석데이터와같이각데이터개체가공간상의위치정보와연관이되는데이터집합 예 : 지구상의지점에따른온도 http://spatial.ly/2013/08/big-open-data-mining-synthesis/ 데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 41

데이터전처리 (Data Preprocessing) - 01 데이터구조와종류 42