Similar documents
확률과통계 강의자료-1.hwp

statistics

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

(001~006)개념RPM3-2(부속)

INDUS-8.HWP

CONTENTS.HWP


untitled

통계학입문

R t-..

표1

기술통계

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

데이터 시각화

우루과이 내지-1

경제통상 내지.PS

°æÁ¦Åë»ó³»Áö.PDF

확률 및 분포

세계 비지니스 정보


R

PowerPoint Presentation

09 강제근로의 금지 폭행의 금지 공민권 행사의 보장 중간착취의 금지 41 - 대판 , 2006도7660 [근로기준법위반] (쌍용자동차 취업알선 사례) 11 균등대우의 원칙 43 - 대판 , 2002도3883 [남녀고용평등법위

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

통계학입문

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

설계란 무엇인가?


1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

제 3강 역함수의 미분과 로피탈의 정리

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

= ``...(2011), , (.)''

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할


i


핵 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (14) 27 (29) 2

[96_RE11]LMOs(......).HWP

<C1A4C3A5BFACB1B D3420C1A4BDC5C1FAC8AFC0DAC0C720C6EDB0DFC7D8BCD220B9D720C0CEBDC4B0B3BCB1C0BB20C0A7C7D120B4EBBBF3BAB020C0CEB1C720B1B3C0B020C7C1B7CEB1D7B7A520B0B3B9DF20BAB8B0EDBCAD28C7A5C1F6C0AF292E687770>

(b) 미분기 (c) 적분기 그림 6.1. 연산증폭기연산응용회로

°æÁ¦Àü¸Á-µ¼º¸.PDF

00-1표지

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

핵 심 교 양 1 학년 2 학년 3 학년합계 문학과예술 역사와철학 사회와이념 선택 교양학점계 학년 2 학년 3 학년합계비고 14 (15) 13 (

실험 5

..(..) (..) - statistics

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

문제지 제시문 2 보이지 않는 영역에 대한 정보를 얻기 위하여 관측된 다른 정보를 분석하여 역으로 미 관측 영역 에 대한 정보를 얻을 수 있다. 가령 주어진 영역에 장애물이 있는 경우 한 끝 점에서 출발하여 다른 끝 점에 도달하는 최단 경로의 개수를 분석하여 장애물의

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

israel-내지-1-4

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

- 1 -

영암군 관광종합개발계획 제6장 관광(단)지 개발계획 제7장 관광브랜드 강화사업 1. 월출산 기( 氣 )체험촌 조성사업 167 (바둑테마파크 기본 계획 변경) 2. 성기동 관광지 명소화 사업 마한문화공원 명소화 사업 기찬랜드 명소화 사업 240

<322EBCF8C8AF28BFACBDC0B9AEC1A6292E687770>

제49회 부산과학전람회

PowerPoint 프레젠테이션

LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

< BB0E6C1A65DB0F8B0B32DC1F6BDC4C0E7BBEAC0CEB7C220BCF6B1DEC0FCB8C120BFACB1B85FC0CCC1D6BFAC28C3D6C1BE292E687770>

슬라이드 1

Resampling Methods

국어부록표지

歯k"

_....

methods.hwp

법학박사학위논문 실손의료보험연구 2018 년 8 월 서울대학교대학원 법과대학보험법전공 박성민

학점배분구조표(표 1-20)

*통신1802_01-도비라및목차1~11

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft PowerPoint - SBE univariate5.pptx

PowerPoint 프레젠테이션

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

사회통계포럼

Microsoft Word - Lab.4


*통신1604_01-도비라및목차1~12

DBPIA-NURIMEDIA

PowerPoint 프레젠테이션

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

국 립 중앙 도서 관 출 판시 도서 목록 ( C I P ) 청소년 인터넷 이용실태조사 보고서 / 청소년보호위원회 보호기준과 편. -- 서울 : 국무총리 청소년보호위원회, p. ; cm. -- (청소년보호 ; ) 권말부록으로 '설문지' 수록 ISB

À̶õ°³È²³»Áö.PDF

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

목 차 Ⅰ. 조사개요 1 Ⅱ. 용어해설 13 Ⅲ. 조사결과 과학기술인력 양성 및 활용에 관한 거시통계 분석 결과 9 1 가. 과학기술인의 양성 현황 19 나. 과학기술인의 취업 현황 24 다. 과학기술인의 경제활동 현황 27 라. 과학기술인의 고용 현황 28

윈도우즈프로그래밍(1)

<4D F736F F D20B4EBBFF BFB5BEF7BAB8B0EDBCAD2E646F63>

Ç¥Áö-¸ñÂ÷

PowerPoint 프레젠테이션

교육정책연구 2005-지정-52 공무원 채용시험이 대학교육, 노동시장에 미치는 영향분석 및 공무원 채용제도 개선방안 연구책임자 : 오 호 영 (한국직업능력개발원 부연구위원) 이 정책연구는 2005년도 교육인적자원부 인적자원개발 정책연구비 지원에 의 한

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

행정학박사학위논문 목표모호성과조직행태 - 조직몰입, 직무만족, 공직봉사동기에미치는 영향을중심으로 - 년 월 서울대학교대학원 행정학과행정학전공 송성화

일반각과호도법 l 삼각함수와미분 1. 일반각 시초선 OX 로부터원점 O 를중심으로 만큼회전이동한위치에동경 OP 가있을때, XOP 의크기를나타내는각들을 ( 은정수 ) 로나타내고 OP 의일반각이라한다. 2. 라디안 rad 반지름과같은길이의호에대한중심각의 크기를 라디안이라한

( )실험계획법-머리말 ok

CONTENTS 숭실사이버대학교 소개 총장 인사말 교육이념 및 비전 콘텐츠의 특징 숭실사이버대학교 역사 숭실사이버대학교를 선택해야 하는 이유 숭실사이버대학교 학과 소개 1 1 학과 소개 30 연계전공 & 신 편입생 모집안내 숭실사이버대학교 C

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

시스템경영과 구조방정식모형분석

A Study on Forest Policy in Korea by Imperial Japan - With an Emphasis on the National Forest Policy


Transcription:

통계학입문 Introduction to Statistics

통계학입문 Introduction to Statistics 김동일홍익대학교 Philosophy & Art

통계학입문 저자 김동일 발행인 이미애 발행처 Philosophy & Art 출판등록 2008년 1월 8일제152호주소 대전시유성구도룡동 380-39 전화 070-7893-4471 홈페이지 http://philosophy-art.com 2008, 김동일 값 20,000 원 ISBN 978-89-961425-1-5 93310 2008 년 8 월 20 일 1 판 1 쇄발행

차례 차례...................................... vi 표차례..................................... vii 그림차례................................... viii 1 통계학과통계프로그램.......................... 1 1.1 통계학이란무엇인가?........................ 2 1.2 통계프로그램............................ 2 연습문제............................... 6 2 데이터의요약............................... 7 2.1 그래프와표를이용한데이터의요약................ 8 도수분포와히스토그램................... 8 산점도와두변수의도수분포................. 11 시계열그림.......................... 12 2.2 통계를이용한데이터의요약.................... 13 위치에대한통계...................... 13 스캐일에대한통계..................... 14 선형상관에대한통계.................... 15 상자그림........................... 17 연습문제............................... 17 찾아보기 19 vi

표차례 2.1 Sirius 데이터.............................. 9 2.2 Sirius 데이터의절대등급의도수분포.................. 10 2.3 Pearson 데이터의아버지의키와아들의키의도수분포......... 12 2.4 Pearson 데이터의아버지의키와아들의키의요약통계......... 16 vii

그림차례 1.1 모집단, 표본, 표본추출, 통계, 통계적추론, 통계학............ 3 1.2 Excel과 Minitab............................ 3 1.3 Eviews................................. 4 1.4 SPSS와 SAS.............................. 4 1.5 MATLAB과 R.............................. 5 2.1 시리우스와큰개자리........................... 8 2.2 Sirius 데이터의절대등급의히스토그램................. 10 2.3 Pearson 데이터의아버지의키와아들의키의산점도.......... 12 2.4 2007년한국종합주가지수의시계열그림................ 13 2.5 Pearson 데이터의아버지의키와아들의키의상자그림......... 17 viii

통계학과통계프로그램 1 1 통계학과통계프로그램 사람들은같은사물을제각기다른모습으로인식한다. 통계학은사물의인식에따르는불확실성을평가하고, 그를통해사물의참 모습을과학적으로추론한다.

2 통계학과통계프로그램 1.1 통계학이란무엇인가?. 정의 1.1. ( 모집단, 표본, 표집 ) 관심의대상이되는전체를모집단 (population) 이라고하며, 모집단에서관측된부분을표본 (sample), 모집단으로부터표본을 뽑는것을표집또는표본추출 (sampling) 이라고한다.. 정의 1.2. ( 통계, 통계적추론, 통계학 ) 표본의데이터에산술적연산을적용한결과를통계 (statistic) 라고하며, 표본의데이터에서통계를만들고, 그통계를분석하여표본의모집단에대해통계적추론 (statistical inference) 을하는학문을통계학 (statistics) 이라고한다. 만약모집단전부를관측할수있다면, 즉표본이바로모집단이라면, 표본의데이터를정리하여통계를만드는것으로통계학의임무는끝난다. 그러나일반적으로모집단전체를관측하는것은매우비효율적이거나또는아예불가능하여, 모집단의극히작은일부인표본만을관측하는경우가대부분이다. 관측된표본의데이터로부터관측되지않은전체모집단의특성에대해통계적추론을하는경우언제나불확실성이따르게되는데이불확실성을과학적으로분석하는것이통계학의또다른임무이다. 그림 1.1 은모집단, 표본, 표본집, 통계, 통계적추론의관계와표본의데이터로부터통계를만들고모집단에대해통계적추론을하는통계학의역할을잘요약하고있다. 1.2 통계프로그램 현재우리나라에서가장많이사용되고있는통계프로그램으로는 Excel, Minitab, Eviews, SPSS, SAS, Matlab, R 등을들수있다. 그림 1.2는 Excel과 Minitab의첫실행화면을보여준다. Excel은 1987년 Microsoft가스프레드시트 (spreadsheet) 프로그램으로개발하였지만, 통계프로그램기능을지원하며무엇보다도 MS Office에포함되어누구나쉽게구할수있기때문에통계프로그램으로도널리사용되고있다. Minitab은 1972년펜실베이니어주립대학

통계프로그램 3 그림 1.1: 모집단, 표본, 표본추출, 통계, 통계적추론, 통계학 통계적추론 표본추출 표본 / 데이터 34% 1 125 98.2 1,010,998 통계 모집단 그림 1.2: Excel 과 Minitab (a) Excel (b) Minitab (Pennsylvania State University) 의연구원들이교육용통계프로그램으로개발하였는데, 통계에자주사용되는명령문이아이콘형태로툴바에알기쉽게정리되어있어서교육용으로널리사용되고있다. 그림 1.3은 Eviews의실행화면을보여준다. Eviews는 1994년 Quantitative Micro Software가개발하였는데, 시계열의분석에유용한도구가많이내장되어있어경제시계열분석통계프로그램으로널리사용되고있다. 그림 1.4는 SPSS와 SAS의실행화면을보여준다. 사회과학용통계패키지 (Sta-

4 통계학과통계프로그램 그림 1.3: Eviews 그림 1.4: SPSS 와 SAS (a) SPSS (b) SAS tistical Package for the Social Sciences) 란의미를가진 SPSS는 1968년 SPSS 회사가개발하였으며, 설문조사기관, 정부기관, 교육기관, 금융기관등에서본격적인통계프로그램으로널리사용되고있다. 통계분석시스템 (Statistical Analysis System) 란의미를가진 SAS는 1966년 SAS Institute가개발하였다. SAS는통계프로그램이외에도데이터웨어하우징 (data warehousing) 과데이터마이닝등의기능을가지고있어서큰사이즈의데이터를다루는데적합하여, 설문조사기관, 정부기관, 교육기관, 금융기관등에서널리사용되고있다. 그림 1.5는 MATLAB과 R의실행화면을보여준다. 행렬실험실 (matrix labo-

통계프로그램 5 그림 1.5: MATLAB 과 R (a) MATLAB (b) R ratory) 이란의미를가진 MATLAB은 1970년대말에뉴멕시코대학 (University of New Mexico) 의컴퓨터과학교수인 Cleve Moler가 Fortran을사용하지않고행렬계산을할수있는프로그램으로처음개발하였으며, 교육기관, 이미지프로세싱관련산업에서널리사용되고있다. R은 1997년 Ross Ihaka와 Robert Gentleman가통계계산및그래프프로그램으로개발하였으며, 두개발자의이름첫자를따서이름이지어졌다. R 프로그램은 GNU 일반공중라이선스 (GNU General Public License) 에따라무료로배포되고있으며, 통계프로그램개발과데이터분석에널리사용되고있다. Excel, Minitab, Eviews, SPSS, SAS, Matlab, R의통계프로그램들은서로다른장단점을갖고있기때문에, 작업의성격에따라보다효율적인통계프로그램을선택하여사용하는것이바람직하다. 예를들어, Excel은대부분의컴퓨터에설치되어있어어디서든사용하기쉽다는장점이있고, 교육용으로개발된 Minitab은본격적인통계프로그램중에서는가장쉽게배울수있으며, SPSS는마케팅이나설문조사기관에서사용하기편하게특화되어있고, SAS는큰데이터를다룰수있는뛰어난데이터마이닝 (data mining) 기능이있고, Matlab과 R은수학적연산을자유롭게할수있다. 그러나이책에서다루는통계학의기초적인내용은어떤통계프로그램으로도쉽게다룰수있기때문에굳이특정통계프로그램을선택할이유는없다. 이책은위의

6 통계학과통계프로그램 어떤통계프로그램으로도통계학을학습할수있도록모든통계프로그램을소개할 것이다. 연습문제 문제 1.1 모집단, 표본, 통계의예를들어보라.

데이터의요약 7 2 데이터의요약 우리는데이터를통해서사물을인식한다. 데이터는우리가세상을바라보는창이다.

8 데이터의요약 2.1 그래프와표를이용한데이터의요약 도수분포와히스토그램 천체의외관상밝기는외관등급 (apparent magnitude) 으로측정되는데, 외관등급이낮을수록더밝게보이며, 외관등급이 1단위작으면약 2.512배더밝게보이는것을의미한다. 태양의외관등급은 -26.73, 달의외관등급은 -12.6, 금성의외관등급은 -3.7, 도시에서육안으로볼수있는가장희미한별의외관등급은 3, 가장완벽한조건에서육안으로볼수있는가장희미한별의외관등급은 6.5이다. 그림 2.1은지구의밤하늘에서가장밝은별인큰개자리 (Canis Major) 의시리우스 (Sirius) 인데, 외관등급은 -1.44이다. 1) 별들중에서시리우스가가장밝게보이는것은실제로가장그림 2.1: 시리우스와큰개자리 (a) 시리우스 (b) 큰개자리 밝기때문이아니라지구에서가깝기때문이다. 별의실제밝기는절대등급 (absolute magnitude) 으로측정되는데, 외관등급과삼각시차 (parralax, 단위는 arcsec 또는 이며 1 = 1 3600 ) 의함수로다음과같이주어지며, 절대등급 = 외관등급 + 5(log 10 삼각시차 + 1) (2.1) 1) 그림 (a) 는 NASA, ESA, 그림 (b) 는 Zwergelstern 가만들었으며, 공용도메인이다.

그래프와표를이용한데이터의요약 9 지구에서 10pc(10parsec, 약 32.616 광년 ) 떨어진거리에있을경우별의외관등급을 나타낸다. Hipparcos 폴더의 Sirius.csv 파일은시리우스를중심으로하는밤하늘의일부 에서도시에서육안으로볼수있는 22 개별의히파르코스고유번호 (HIP), 외관등급 (Vmag), 삼각시차 (Plx) 의데이터이다. 2) 표 2.1 은 Sirius 데이터를보여주는데, 절 표 2.1: Sirius 데이터 HIP Vmag Plx Amag 23875 2.78 36.7 0.60 24436 0.18 4.2-6.69 25336 1.64 13.4-2.72 25606 2.81 20.5-0.63 25930 2.25 3.6-4.99 25985 2.58 2.5-5.40 26241 2.75 2.5-5.30 26311 1.69 2.4-6.38 26634 2.65 12.2-1.93 26727 1.74 4.0-5.26 27366 2.07 4.5-4.65 27989 0.45 7.6-5.14 30324 1.98 6.5-3.95 32349-1.44 379.2 1.45 33579 1.50 7.6-4.10 34444 1.83 1.8-6.87 35264 2.71 3.0-4.92 35904 2.45 1.0-7.51 36188 2.89 19.2-0.70 37279 0.40 285.9 2.68 39429 2.21 2.3-5.95 39757 2.83 52.0 1.41 대등급 (Amag) 은식 (2.1) 에따라계산된것이다. 3) 시리우스의 HIP 는 32349 인데, 2) 1997년유럽우주기구 (European Space Agency) 는그리스천문학자히파르코스 (Hipparchus) 의이름을딴인공위성히파르코스 (Hipparcos, High Precision Parallax Collecting Satellite) 를이용하여약 12만개별의외관등급과삼각시차등을측정한히파르코스카탈로그 (Hipparcos Catalogue) 를발표하였다. Hipparcos 폴더의 Hipparcos.csv는히파르코스카탈로그의 118,218개의모든별들에대한데이터이며, Sirius.csv는시리우스를중심으로좌우상하로 30도이내의밤하늘에서도시에서육안으로볼수있는, 외관등급 3이하의별들을고른표본이다. 3) 히파르코스카탈로그의삼각시차의단위는 1 1000 이므로, Amag = Vmag+5(log10 Plx 1000 +

10 데이터의요약 외관상밝기를나타내는외관등급은 -1.44 로표본에서가장밝지만, 실제밝기를 나타내는절대등급은 1.45 로표본에서두번째로어두운별임을알수있다. 표 2.2 는절대등급 (Amag) 의도수 (frequency, 변수값이관측된횟수 ) 와상대 도수 (relative frequency, 도수의비율 ) 를구간별로기록한도수분포 (frequency distribution) 이다. 구간별도수분포는정보의손실이있는대신데이터의특성을 표 2.2: Sirius 데이터의절대등급의도수분포 절대등급 도수 상대도수 [-8, -6) 4 0.18 [-6, -4) 9 0.41 [-4, -2) 2 0.09 [-2, 0) 3 0.14 [0, 2) 3 0.14 [2, 4) 1 0.05 보다알기쉽게요약하는장점이있다. 구간별도수분포를그래프로나타낸것을히스토그램 (histogram) 이라고한다. 그림 2.2는표 2.2의도수분포의히스토그램이다. 히스토그램의가로축에는변수값의그림 2.2: Sirius 데이터의절대등급의히스토그램 0.180 밀도도수 8 0.135 6 0.090 4 0.045 2 0 0-8 -6-4 -2 0 2 4 1) 로계산된다.

그래프와표를이용한데이터의요약 11 구간을표시하고, 세로축에는도수또는밀도를표시하고, 구간별로그에해당하는높이의막대를그린다. 밀도 (density) 는상대도수를구간의폭으로나눈것이다. 히스토그램을그릴때에는막대의면적이상대도수에비례하도록그려야구간의상대적인비중에대해올바른정보를전달할수있다. 밀도의높이로막대를그릴경우, 막대의면적은구간의폭과밀도를곱한것이다. 그런데밀도는상대도수를구간의폭으로나눈것이기때문에, 막대의면적은상대도수와일치하고, 따라서구간의상대적인비중에대해올바른정보를전달할수있다. 표 2.2의구간별도수분포는구간의폭이일정하다. 이런경우에는도수의높이로막대를그려도막대의면적이상대도수에비례하는면적을가지게되어밀도의높이로막대를그린경우와마찬가지로구간의상대적인비중에대해올바른정보를전달할수있다. 산점도와두변수의도수분포 1896년통계학자피어슨 (Pearson, K.) 은키의유전에대한우생학자갈톤 (Galton, F.) 의주장을확인하기위해영국의 1078명의아버지와아들의키를조사하였다. Pearson 폴더의 Pearson.csv 파일은피어슨이조사한아버지의키 (Fheight, 단위는인치 ) 와아들의키 (Sheight) 의데이터이다. 두변수의분포를그래프로나타낸것을산점도 (scatter plot) 라고한다. 그림 2.3 은 Pearson 데이터의두변수의산점도로, 가로축은아버지의키, 세로축은아들의키를나타낸다. 표 2.3은아버지의키와아들의키의도수를구간별로기록한도수분포이다. 가운데셀의숫자는특정조합의아버지의키와아들의키의구간이관측되는도수이다. 맨오른쪽열은세로축변수인아들의키의구간별도수분포이며, 맨아래쪽행은가로축변수인아버지의구간별도수분포이다. 표 2.3과같은두변수의구간별도수분포는 3 차원히스토그램으로나타낼수있지만, 일반적으로널리사용되지않는다.

12 데이터의요약 그림 2.3: Pearson 데이터의아버지의키와아들의키의산점도 아들의키 75 70 65 60 60 65 70 75아버지의키 표 2.3: Pearson 데이터의아버지의키와아들의키의도수분포 아버지의키 아들의키 [55,60) [60,65) [65,70) [70,75) [75,80) [55,60) 0 3 1 0 0 4 [60,65) 2 36 130 13 0 181 [65,70) 2 47 438 177 7 671 [70,75) 0 4 86 122 8 220 [75,80) 0 0 0 2 0 2 4 90 655 314 15 1078 시계열그림 Stock폴더의 Stock.csv 파일은 2007년한국종합주가지수 (Kospi) 와코스닥지수 (Kosdaq) 의일별데이터인데, 이렇게시간에순서에따라관측된데이터를시계열데이터 (time series data) 라고한다. 시계열데이터의경우시간에따른추이를이해하는것이매우중요한데, 시계열데이터의추이를보여주는그래프를시계열그림 (time series plot) 이라고한다. 그림 2.4 은 2007년한국종합주가지수의추이를보여주는시계열그림이다. 시계열그림의가로축은시간, 세로축은변수값을나타내고, 변수값들은시간의순서대로선으로연결하여

통계를이용한데이터의요약 13 그림 2.4: 2007 년한국종합주가지수의시계열그림 2000 1800 1600 1400 1 월 6 월 12 월 그린다. 2.2 통계를이용한데이터의요약 변수의특성을결정하는가장중요한요소는변수값의위치 (location) 와스캐일 (scale) 이다. 위치와스캐일에대한측도는모집단과표본에대해각각따로정의되는데, 표본의데이터로정의되는측도 (measure) 가통계이다. 위치에대한통계 위치에대한측도는평균 (mean), 중위수 (median), 사분위수 (quartile) 등이있고, 변수값의위치를측정한다. 표본의평균은다음과같이정의되고, 정의 2.1. ( 표본의평균 ) 표본 {X i } n i=1 의평균 X 은다음과같이정의된다.. X = 1 n n X i (2.2) i=1

14 데이터의요약 표본의중위수, 제 1 사분위수, 제 2 사분위수, 제 3 사분위수는다음과같이정의된다. 정의 2.2. ( 표본의중위수와사분위수 ) 표본 {X i } n i=1 의관측치가오름순으로 X 1... X n 와같이정렬되어있다면, 표본의중위수 X M ( 또는동등하게제2 사분위수 X Q2 ) 는다음과같이정의된다. X M = X 1 2 (n+1) n 이홀수 1 2( X 1 2 n + X 1 2 (n+1) ) n 이짝수 (2.3) 한편만약 n+1 이 4 의배수이면제 1 사분위수 X Q1 와제 3 사분위수 X Q3 는다음과 같이정의되고, X Q1 = X 1 4 (n+1) (2.4) X Q3 = X 3 4 (n+1) (2.5) 그렇지않은경우에는여러가지종류의선형보간법 (linear interpolation) 으로 정의된다. a). a) Excel에서는표본 {X i } n i=1 의 X i 를 i 0.5 n 분위수 (quantile) 로, Minitab과 SPSS 에서는 i i 1 n+1 분위수로, SAS와 Matlab에서는 n 1 분위수로가정하고, 0.25, 0.5, 0.75 주위의두분위수의변수값을이용하여선형보간법으로사분위수를구한다. R에서는기본적으로 Excel에서의방법으로구하지만옵션을지정하여세방법을선택할수있다. 스캐일에대한통계 스캐일에대한측도로는분산 (variance), 표준편차 (standard deviation), 범위 (range), 사분위범위 (interquartile range) 등이있고, 변수값의퍼진정도 (dispersion) 또는변동성 (variability) 을측정한다. 표본의분산과표준편차는다음과같이정의되고,

통계를이용한데이터의요약 15 정의 2.3. ( 표본의분산과표준편차 ) 표본 {X i } n i=1 의분산 s2 과표준편차 s 는 다음과같이정의된다. s 2 = 1 n 1 n ( Xi X ) 2 i=1 (2.6). s = s 2 (2.7) 표본의범위와사분위범위는다음과같이정의된다. 정의 2.4. ( 표본의범위와사분위범위 ) 표본 {X i } n i=1 의관측치가오름순으로 X 1... X n 와같이정렬된다고하면, 표본의범위 X R 와사분위범위 X IQR 는다음과같이정의된다. X R = X n X 1 (2.8). X IQR = X Q3 X Q1 (2.9) 선형상관에대한통계 선형상관 (linear correlation) 은두변수간의관계의특성을나타내는중요한요소이며, 이에대한측도는공분산 (covariance) 과상관계수 (correlation coefficient) 가있다. 표본의공분산은표본에서두변수의관측치가선형상관의관계를가지는지나타내며, 양의숫자이면양의선형상관을음의숫자이면음의선형상관을가짐을의미한다. 공분산은선형상관의존재여부와방향을나타내지만선형상관의크기를나타내지는않는다. 상관계수는공분산을두변수의표준편차로나눈것으로, -1에서 1 의값을가지고, 선형상관의방향과함께크기도나타낸다. 표본의공분산과상관계수는다음과같이정의된다.

16 데이터의요약 정의 2.5. ( 표본의공분산과상관계수 ) 표본 {X i, Y i } n i=1 의공분산 s XY 과상관계 수 r XY 는다음과같이정의된다.. s XY = 1 n 1 n ( Xi X ) ( Y i Ȳ ) (2.10) i=1 r XY = s XY s X s Y (2.11) 표 2.4 는 Pearson 데이터의아버지의키와아들의키의위치와스캐일, 선형상 관에대한통계이다. 앞에서설명한바와같이제 1 사분위수와제 3 사분위수, 그리고 표 2.4: Pearson 데이터의아버지의키와아들의키의요약통계 통계 아버지의키 아들의키 평균 67.69 68.68 최소값 59.01 58.51 제1사분위수 65.79 65.78 65.79 66.93 66.93 66.93 중위수 67.77 68.62 제3사분위수 69.60 69.60 69.60 70.47 70.47 70.47 최대값 75.43 78.36 분산 7.53 7.92 표준편차 2.74 2.81 범위 16.43 19.86 사분위범위 3.82 3.82 3.82 3.53 3.54 3.54 공분산 3.87 3.87 상관계수 0.50 0.50 (1) (2) (3) (1) (2) (3) 주 : (1) Excel, R, (2) Minitab, SPSS, (3) SAS, Matlab 사분위범위를구하는방법은선형보간법에따라달라지고, 때문에통계프로그램에 따라그결과가달라진다.

통계를이용한데이터의요약 17 상자그림 변수의위치와스캐일에대한측도중에서, 최소값, 제1사분위수, 중위수, 제2사분위수, 최대값, 범위, 사분위범위를그래프로나타낸것을상자그림 (box plot) 이라고한다. 그림 2.5는 Pearson 데이터의아버지의키와아들의키의상자그림이다. 상자그림을그림 2.5: Pearson 데이터의아버지의키와아들의키의상자그림 75 70 65 60 아버지의키 아들의키 그릴때는, 일반적으로제 1 사분위수보다 1.5 배의사분위범위보다작은관측치, 또는 제 3 사분위수보다 1.5 배의사분위범위보다큰관측치는이상점 (outlier) 으로간주하여 따로표시하고, 그외의관측치에서최소값과최대값을선택해범위를표시한다. 연습문제 문제 2.1 IQEnglish 폴더의 C1.csv는 2004년서울의어느남자중학교 3학년 1 반의 IQ 테스트와영어성적 (1학기중간고사성적, English) 의데이터이다. IQ 테스트는어휘력 (Language), 추리력 (Reasoning), 수리력 (Math), 지각력 (Spatial) 등 4 항목의테스트로이루어지며, IQ는이점수의합계를 2 로나눈것이다. 통계프로그램을이용하여다음의질문에답하라. (1) IQ변수를만들고, IQ변수의구간별도수분포를구하고, 히스토그램을그려라.

18 데이터의요약 (2) IQ와영어성적의산점도를그리고, 구간별도수분포를구하라. (3) IQ와영어성적의요약통계 ( 평균, 최소값, 제 1사분위수, 중위수, 제 3 사분위수, 최대값, 분산, 표준편차, 범위, 사분위범위, 공분산, 상관계수 ) 를구하고, 상자그림을그려라. 문제 2.2 Stock 폴더 Stock.csv 파일의코스닥지수 (Kosdaq) 의일별데이터의시계열그림을그려라.

찾아보기 P population, 2 S sample, 2 sampling, 2 sampling, 2 statistic, 2 statistical inference, 2 statistics, 2 ㅁ모집단, 2 ㅌ통계, 2 통계적추론, 2 통계학, 2 ㅍ표본, 2 표본추출, 2 표집, 2 표본추출, 2 표집, 2 19

저자소개 위스콘신 - 매디슨대학 (University of Wisconsin-Madison) 경제학학사 시카고대학 (University of Chicago) 경제학박사 현재, 홍익대학교조교수