Microsoft Word - Ch1_Introduction_EDA.docx

Similar documents
untitled

슬라이드 1

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

statistics

PowerPoint 프레젠테이션

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

Page 2 of 6 Here are the rules for conjugating Whether (or not) and If when using a Descriptive Verb. The only difference here from Action Verbs is wh

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

Stage 2 First Phonics

G Power

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

Page 2 of 5 아니다 means to not be, and is therefore the opposite of 이다. While English simply turns words like to be or to exist negative by adding not,

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft Word - EDA_Univariate.docx

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

(001~006)개념RPM3-2(부속)


통계학입문

PowerPoint 프레젠테이션

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

Microsoft Word - SAS_Data Manipulate.docx

확률 및 분포

Journal of Educational Innovation Research 2019, Vol. 29, No. 1, pp DOI: (LiD) - - * Way to

untitled

하나님의 선한 손의 도우심 이세상에서 가장 큰 축복은 하나님이 나와 함께 하시는 것입니다. 그 이 유는 하나님이 모든 축복의 근원이시기 때문입니다. 에스라서에 보면 하나님의 선한 손의 도우심이 함께 했던 사람의 이야기 가 나와 있는데 에스라 7장은 거듭해서 그 비결을

Microsoft Word - skku_TS2.docx

<B0A3C3DFB0E828C0DBBEF7292E687770>

본문01

p. 10 Before You Read p. 26 Understanding the Story ( ).,.,..,,...,...

Microsoft PowerPoint - 26.pptx

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

R t-..

untitled

Microsoft PowerPoint Relations.pptx

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


Microsoft Word - ch3_residual.doc

*º¹ÁöÁöµµµµÅ¥-¸Ô2Ä)

<B1E2C8B9BEC828BFCFBCBAC1F7C0FC29322E687770>

에너지경제연구 Korean Energy Economic Review Volume 17, Number 2, September 2018 : pp. 1~29 정책 용도별특성을고려한도시가스수요함수의 추정 :, ARDL,,, C4, Q4-1 -

슬라이드 1

Microsoft PowerPoint - SBE univariate5.pptx

2 / 27 목차 1. M-plus 소개 2. 중다회귀 3. 경로모형 4. 확인적요인분석 5. 구조방정식모형 6. 잠재성장모형 7. 교차지연자기회귀모형


통계학입문

4. 수업의 흐름 차시 창의 인성 수업모형에 따른 단계 수업단계 활동내용 창의 요소 인성 요소 관찰 사전학습: 날짜와 힌트를 보고 기념일 맞춰보기 호기심 논리/ 분석적 사고 유추 5 차시 분석 핵심학습 그림속의 인물이나 사물의 감정을 생각해보고 써보기 타인의 입장 감정

Microsoft PowerPoint - IPYYUIHNPGFU

<33C2F DC5D8BDBAC6AEBEF0BEEEC7D02D3339C1FD2E687770>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft Word - ch8_influence.doc

제 4 장회귀분석

ecorp-프로젝트제안서작성실무(양식3)

Microsoft PowerPoint - 7-Work and Energy.ppt

Output file

untitled

Microsoft Word - SPSS_MDA_Ch6.doc

시스템경영과 구조방정식모형분석

Microsoft PowerPoint - chap_11_rep.ppt [호환 모드]

는 우연히 안나를 알게 되고, 이후 두 사람은 서로 격렬한 사랑에 빠진다. 결국 안나가 브 론스키의 아이를 임신하게 되자, 브론스키는 안나가 카레닌과 이혼하고 자기와 함께 새로 운 생활을 하길 바라지만, 안나는 아들 때문에 망설인다. 한편, 카레닌은 브론스키를 사랑 한

nonpara6.PDF

Microsoft PowerPoint - Info R(3) pptx

농심-내지

치밀한 시간 계산으로 한 치의 오차 없이 여행일정을 계획하지만, 상황이 항상 뜻대로 돌 아가지는 않는다. 인도에서는 철로가 끊겨 있기도 하고, 미국에서는 인디언의 공격을 받 기도 한다. 하지만 그는 항상 침착하고 냉정한 태도를 유지하며, 때로는 일정에 차질이 생 겨도

슬라이드 1

Communications of the Korean Statistical Society Vol. 15, No. 4, 2008, pp 국소적 강력 단위근 검정 최보승1), 우진욱2), 박유성3) 요약 시계열 자료를 분석할 때, 시계열 자료가 가지고 있는

기술통계

IKC43_06.hwp

Hi-MO 애프터케어 시스템 편 5. 오비맥주 카스 카스 후레쉬 테이블 맥주는 천연식품이다 편 처음 스타일 그대로, 부탁 케어~ Hi-MO 애프터케어 시스템 지속적인 모발 관리로 끝까지 스타일이 유지되도록 독보적이다! 근데 그거 아세요? 맥주도 인공첨가물이

자료의 이해 및 분석


Microsoft Word - ch2_smoothing.doc

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

슬라이드 1

에듀데이터_자료집_완성본.hwp

eda_ch7.doc

MATLAB for C/C++ Programmers

Microsoft PowerPoint - LM 2014s_Ch4.pptx

step 1-1

04-다시_고속철도61~80p


저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Crt114( ).hwp

about_by5

_KF_Bulletin webcopy

PowerPoint 프레젠테이션

영어-중2-천재김-07과-어순-B.hwp

농심-내지

Microsoft Word - sbe13_reg.docx

278 경찰학연구제 12 권제 3 호 ( 통권제 31 호 )

Microsoft Word - ch2_simple.doc

6자료집최종(6.8))

chap 5: Trees

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

철학탐구 1. 들어가는말,. (pathos),,..,.,.,,. (ethos), (logos) (enthymema). 1).... 1,,... (pistis). 2) 1) G. A. Kennedy, Aristotle on Rhetoric, 1356a(New York :

03.Agile.key


22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

Journal of Educational Innovation Research 2018, Vol. 28, No. 1, pp DOI: A study on Characte

Microsoft Word - EDA_Univariate.docx

Transcription:

고전적데이터분석은연구목적이설정되면그에맞는 1) 통계적가설 (statistical hypothesis), 모형 (model) 을설정하고 2) 데이터수집하여 3) 가설혹은모형의유의성 (significance) 을검정하였다. 이를 Confirmatory ( 확증적 ) Data Analysis 라한다. 다음은 (confirmatory) 데이터분석의예로한남대학생들의용돈이대학평균과같은가를알아보는연구과정을요약한것이다. 연구목적설정 OO 대학생월용돈은한국대학평균 250,000 원과같은가? 추정하려는모수설 통계적가설설정 월평균용돈 귀무가설 :μ=250,000 데이터수집 전체학생중 25 명표본을층화추출하여월용돈조사 일변량분석 : 모평균에대한 적절한통계분석적용 결론 : 모수추정및가설검 통계량계산 x = 193,000, s = 37,000 검정통계량 : X u 193000 175000 t = = = 2.43 ~ t( n 1 = 24) s / n 37000/5 표본의크기 25 가대표본에해당하므로검정통계량은정규분포에따른다. (CLT) 그러므로유의 수준이 0.05 인경우는 1.96 과비교하면된다. 1

1.1 EDA 정의 It is important to understand what you CAN DO before you learn to measure how WELL you seem to have DONE it. This book is about exploratory data analysis, about looking at data to see what it seems to say. It concentrates on simple arithmetic and easy-to-draw pictures. It regards whatever appearances we have recognized as partial descriptions, and tries to look beneath them for new insights. Its concern is with appearance, nor with confirmation. - Exploratory Data Analysis, John W. Tukey, 1977 - CDA ( 확중적데이터분석 ) 와는달리 1977 년 John W. Tukey 가 (Princeton University Bell Lab) 제안한탐색적데이터분석 (EDA: Exploratory Data Analysis) 방법은이미수집된데이터로부터정보를얻어내는일련의방법이다. 1) 이미수집된데이터가가진정보를간편한계산식에의해구해진숫자요약 ( 중앙값, 사분위 ) 과그래프 ( 예 : stem-leaf plot, box plot, scatter plot) 를이용하여찾아내거나 2) 데이터를보다유용하게 ( 정규분포혹은대칭인분포 ) 만들기위하여데이터를재표현 (re-expression = data transformation 예 : log 변환 ) 하거나 3) 데이터가어떤분포에적합한지알아보는방법에관련된데이터분석방법이다. ( 적합성검정 ) 1) EDA is about looking at data to see what it seems to say 데이터가가진정보를데이터의탐색만으로얻는방법이다. 이전통계학이추론통계에의존했다면 EDA 는통계학이기술통계학 (descriptive statistics) 임을강조하고있고통계적가설설정과정이없다. 2) EDA is a detective work. 여러도구 (tools: 기술통계량, 관련그림 ) 와직감 (intuition: 데이터분석경험에서얻는분석 know-how) 이용하여정보 ( 결론 ) 를유추하는분석방법이다. CDA 는판사의 (judge) 작업이라면 EDA 는여러정황을고려하여사건을분석하는탐정과같은역할이다. 3) To learn about data analysis, it is right that each of us try many things that do not work. 데이터로부터정보를얻기위한다양한시도를해야한다. 데이터를다루는풍부한경험 ( 비록성공하지못하더라도 ) 으로부터올바른데이터분석이가능하기때문이다. 2

4) EDA can never be the whole story, but nothing else can be served as the first step. 탐색적데이터분석은분석의모든것은아니지만첫단계가된다. 탐색적데이터분석을통해얻은정보를이용하여통계적가설이나모형을설정하여연구하기도하고의사결정에이용하여정보의정확정도를측정하기도한다. 5) EDA is a paper-pencil method. 컴퓨터 ( 소프트웨어 ) 가보편화되지못하고데이터의수가적을때그래프나통계량들을직접그리거나계산하기에편리하게제안된방법이기때문에이런별명을가지고있다. 요즈음은통계소프트웨어의발달로쉽게그리거나구할수있으므로정보얻는방법, 해석방법을이해하는것이중요하다. 6) Data Mining is a modern EDA. 신용카드, 멤버쉽카드, 교통카드등카드사용에의해데이터가자동수집되고 OLTP(On-Line Transaction Process: 데이터자동수집 ) 수집된데이터를잘저장하는방법 Data Warehousing 기술의발달로 Data Mining ( 대용량의데이터에내재되어있는 patterns 이나 rules 을발견하는방법 ) 이가능해졌다. Data Mining 도일종의 EDA 이다. Data Mining 으로부터얻은정보를이용하여고객관리하는방법을 CRM 이라 (customer relationship management) 한다. 1.2 EDA 4 가지주제 1) Resistance to outliers, missing data, or miscoded data 이상치, 결측치, 입력오류에영향을받지않는 (resistant) 도구를사용한다. EDA 에서수집데이터의숫자요약통계량으로중앙값, 사분위수등을이용하는이유이다. ( 예 ) 1 2 3 4 10 평균 =5 그러나중앙값은 3이된다. 2) Residual is a off-value from the main stream 잔차는각값들이주경향으로부터얼마나벗어나있는지나타내는값이다. 앞의예에서중앙값을중앙 (main stream) 으로사용하는경우잔차는 2 1 0 1 7 이다. 그러므로마지막값에대해왜이런일이발생했는지탐색작업이필요하다. 다른예를살펴보면회귀분석에서직선의경향이벗어난관측치가이상치 (outlier) 인지영향치 (influential) 인지를산점도를이용해판단할수있다. 이상치나영향치나모두잔차 ( 추정회귀직선에서벗어난정도 ) 가크다는공통점은있으나영향치는이상치와는달리다른관측치에비해이상할정도로벗어나있다는근거를제시할수없는관측치를일컫는다. 3

3) Data Re-expression 원래데이터를 Log( 로그 ), Square root( 제곱근 ), Inverse( 역 ) 변환등으로데이터값을변화시키는것을데이터재표현이라한다. 이는데이터의분포의정규성 ( 아니엄밀히말하면대칭성 ), 균일성 (uniformity), 가법성 (additivity) 을얻기위하여시행한다. 통계데이터분석기법의대부분은변수의정규성 ( 적어도대칭성 ) 을가정하고있다. 예를들어페이지 1 에서표본을 25 명이아니라 15 명만뽑았다면검정통계량은더이상정규분포를따르지않는다. ( 즉 CLT: 중심극한정리 ) 이런경우모집단은정규분포를따른다는가정이있어야 t- 분포를이용할수있다. 만약모집단이정규분포를따르지않는다면데이터재표현 ( 변수변환 ) 을통해데이터가정규성을만족하게하여야한다. 다음은두변수간의관계를나타낸그래프, 즉산점도 (scatter plot) 이다. 왼쪽산점도에의하면 Y 와 X 의관계는직선관계가아니다. 대신 Y 를재표현 ( 변수변환 ) 하여 LogY 와 X 에대한산점도 ( 오른쪽 ) 를그리면직선관계가존재한다. ( 직선관계를분석하는것이결과해석이편리 ) Y log Y LOG 변환 X X 4) Graphic presentation EDA 에서는데이터에숨겨진정보를알아보기위하여다양한그래프가이용된다. 다음은키데이터에 ( 변수 ) 대한줄기-잎그림, 상자그림과키와몸무게의관계를나타내는산점도를그린예이다. (SAS Example Data) 4

그래픽표현 SAS CLASS 데이터중키의 ( 단위 : inch) 마지막데이터를 80 으로수정하였음. 몸무게 ( 단위 : pound) 데이터는동일. ( 상자수염그림 ) 키의경우이상치하나존재, 몸무게의흩어짐정도가큼, 좌우대칭분포형태를갖는다. 이상치제외하면모수적데이터분석에문제없음 ( 산점도 ) 키와몸무게간에는직선적관계가존재, 이상치하나있음 1.3 데이터분석의기본철학 탐색적데이터분석 허명회 & 문숭호, 자유아카데미, 2000 과학은이론적통찰 ( 예 : 상대성이론 ), 새로운현상의관찰 (Kepler 행성궤도관련법칙 ) 이나경험을 (Student T-분포 ) 통한새롭고혁신적인이론이만들어지는경우는극히드물고대부분관찰, 실험, 분석등의반복을통해이론이정립된다. 벼품종개량, 새의약품개발, 화학공정개선등이실험계획에의한연구결과가이에해당된다. 5

통계전문가는제시된이론을통계적가설이나통계모형으로설정하고관련데이터를수집하여가설 ( 모형 ) 의유의성을검정하거나 (confirmatory data analysis) 수집된데이터를탐색하여가능한모형이나이론을제시하는역할을 (exploratory data analysis) 담당하고있다. 이처럼 ( 탐색적 ) 데이터분석이타분야의새로운이론발견에기여할수있으려면 1) 그분야에대한지식 2) 모형과데이터 3) 그리고모형과데이터의사이클개념을올바로이해해야한다. 1.3.1 모형과데이터사이클 Confirmatory 모형 (model) Exploratory 데이터 f ( x : θ ) 모수 ( x 1, x 2,..., x n) y = f ( x1, x2,..., xp) 함수 ( y i, x1i, x2i,..., xni), i = 1,2,..., p 과학에서이론이제안되고데이터분석이이루어지는경우보다는데이터로부터새로운이론이나모형을도출하는경우가많고탐색적자료분석에의해제안된이론이나모형은다시 confirmatory 방법에의해유의성이 (significance) 검증되므로모형과데이터는순환사이클을갖는다. 통계적모형은과학적진실이기보다는사실의대표적모형이다. 예를들어, 회귀모형에서는 ( y = a + bx + e ) 설명되어지지않는오차항이존재하고이오차항은 iid ~ N(0, σ 2 ) 을가정한다. 1.3.2 탐색적데이터분석의성공사례 1973 년미국뉴저지주지사는오존수준을안전수준으로낮추기위하여자동차배기가스를현재수준의 2/3 으로줄이는법안입안을요청받았다. 이법안의타당성조사를벨연구소 (Bell Lab) 에의뢰하였다. 7 년간 60 개측정소에서 300 만개측정자료를수집하여 plot 한결과 1) 최고오존수준은요일별차이가없고 => 원인규명이어려움 2) 농촌지역인 Ancora 지역에서높은오존수준보인다는특이한사실을발견하였다. 2) 의원인으로이지역에서 37km 떨어진 Philadelphia 지역의공해물질이바람에날려와서오존수준을높였을가능성이주장되었다. 이주장은오존수준과풍향과의 plot 을통해사실임이밝혀졌다. 6