데이터정보처리입문 전주대학교교수 박지수

Similar documents
statistics

(001~006)개념RPM3-2(부속)

통계학입문

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

한국정책학회학회보

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

통계학입문

2011년_1분기_지역경제동향_보도자료.hwp

Microsoft Word - EDA_Univariate.docx

13Åë°è¹é¼Ł

SQL Developer Connect to TimesTen 유니원아이앤씨 DB 기술지원팀 2010 년 07 월 28 일 문서정보 프로젝트명 SQL Developer Connect to TimesTen 서브시스템명 버전 1.0 문서명 작성일 작성자

OCW_C언어 기초

기술통계

슬라이드 1


Microsoft Word - ntasFrameBuilderInstallGuide2.5.doc

슬라이드 1

R t-..

슬라이드 1

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

Windows 8에서 BioStar 1 설치하기

2006

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<4F E20C7C1B7CEB1D7B7A5C0BB20C0CCBFEBC7D120B5A5C0CCC5CD20BAD0BCAE20B9D720B1D7B7A1C7C120B1D7B8AEB1E F416E616C F616E645F47726

MATLAB and Numerical Analysis

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

..(..) (..) - statistics

슬라이드 제목 없음

Microsoft PowerPoint - e pptx

MVVM 패턴의 이해

= ``...(2011), , (.)''

<4D F736F F F696E74202D EBCADBAF1BDBABDC3BCB3C0C720C0D4C1F6BCB1C1A4205BC8A3C8AF20B8F0B5E55D>

Microsoft PowerPoint - chap04-연산자.pptx

[INPUT] 뒤에는변수와관련된정보를표기한다. [CARDS;] 뒤에는각각의변수가가지는관측값들을표기한다. >> 위의프로그램에서데이터셋명은 wghtclub 이고, 변수는 idno, name, team, strtwght, endwght 이다. 이중 name 과 team 은

EndNote X2 초급 분당차병원도서실사서최근영 ( )

<B3EDB4DC28B1E8BCAEC7F6292E687770>

Monthly User Guide from JMP Korea 제 13 호 (2018 년 8 월 ) Excel 과 JMP, Excel 보다 JMP * 본 Guide 는매월세번째수요일에발행됩니다 (2018 년 7 월호부터는 JMP 14 Version 기준입니다 ) ** M

PowerPoint 프레젠테이션

MRIO (25..,..).hwp

Microsoft PowerPoint - chap06-2pointer.ppt

아이콘의 정의 본 사용자 설명서에서는 다음 아이콘을 사용합니다. 참고 참고는 발생할 수 있는 상황에 대처하는 방법을 알려 주거나 다른 기능과 함께 작동하는 방법에 대한 요령을 제공합니다. 상표 Brother 로고는 Brother Industries, Ltd.의 등록 상

Slide 1

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

확률과통계 강의자료-1.hwp

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

모수검정과비모수검정 제 6 강 지리통계학

실험 5

Microsoft Word - SPSS_MDA_Ch6.doc

PowerPoint 프레젠테이션

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

성인지통계

exp

일러두기 월별출생, 사망, 혼인, 이혼통계 우리나라국민이 통계법 및 가족관계의등록등에관한법률 에따라신고한출생, 사망, 혼인, 이혼자료를기초로집계하며, - 출생ㆍ사망 : 발생월기준으로지연신고등을추정하여합산함 ( 국내거주만집계 ). - 혼인ㆍ이혼 : 신고월기준으로집계함 (

직업기초능력모듈프로그램

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

소프트웨어공학 Tutorial #2: StarUML Eun Man Choi

Microsoft PowerPoint - ch07 - 포인터 pm0415

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

2_안드로이드UI

PowerPoint 프레젠테이션

기존에 Windchill Program 이 설치된 Home Directory 를 선택해준다. 프로그램설치후설치내역을확인해보면 Adobe Acrobat 6.0 Support 내역을확인할수 있다.

PowerPoint Presentation

G Power

<B0A3C3DFB0E828C0DBBEF7292E687770>

1 제 26 장 사회간접자본의확충

Microsoft 을 열면 깔끔한 사용자 중심의 메뉴 및 레이아웃이 제일 먼저 눈에 띕니다. 또한 은 스마트폰, 테블릿 및 클라우드는 물론 가 설치되어 있지 않은 PC 에서도 사용할 수 있습니다. 따라서 장소와 디바이스에 관계 없이 언제, 어디서나 문서를 확인하고 편집

데이터 시각화

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Observational Determinism for Concurrent Program Security


Microsoft PowerPoint - 3ÀÏ°_º¯¼ö¿Í »ó¼ö.ppt

17장 클래스와 메소드

PowerPoint Template

13. 다차원척도법 (MultiDimensional Scaling) 13.1 개념및목적 다차원척도법 (mds) 는다차원관측값또는개체들간의거리 (distance) 또는비유사성 (dissimilarity) 을이용하여개체들을원래의차원보다낮은차원 ( 보통 2차원 ) 의공간상에

2013_1_14_GM작물실용화사업단_소식지_내지_인쇄_앙코르130.indd

PowerPoint Presentation

C# Programming Guide - Types

Microsoft PowerPoint Android-SDK설치.HelloAndroid(1.0h).pptx

242..

시스템경영과 구조방정식모형분석

학습목차 2.1 다차원배열이란 차원배열의주소와값의참조

Microsoft Word - [2017SMA][T8]OOPT_Stage_2040 ver2.docx

내지무인화_

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

<4D F736F F F696E74202D203137C0E55FBFACBDC0B9AEC1A6BCD6B7E7BCC72E707074>

<4D F736F F F696E74202D203236C2F7BDC3C7D0BDC0B3BBBFEB28B1E2C3E2B9AEC1A632C8B82D32B0FAB8F1292E BC8A3C8AF20B8F0B5E55D>

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

확률 및 분포


PowerPoint Template

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx


<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

Microsoft PowerPoint Predicates and Quantifiers.ppt


Transcription:

데이터정보처리입문 전주대학교교수 박지수 (blue_jisu@knou.ac.kr)

제 1 장데이터분석과컴퓨터

1.1 데이터정보와컴퓨터 지식정보화사회 : 정보의수집과분석및정확한판단없이는살아갈수없는사회, 정보가급격하게증대, 성장, 보급되는사회를정보화사회라고함 정보화사회에서는효율적인정보의수집, 수집된정보의가치판단, 정보활용능력등이필수적으로요구됨이러한의미에서지금은지식정보화사회라고함 지식정보화사회에서데이터를효율적으로처리하고분석하기위해서는컴퓨터의활용및데이터분석능력이필수적임

1.1 데이터정보와컴퓨터 지식정보화사회에서의필수적인요구사항 컴퓨터의활용방법을알고있어야함 인터넷을효율적으로활용할수있도록함 정보를제대로이해하고, 문제를파악하고판단하기위한논리적인 ( 통계적인 ) 사고가요구됨 데이터분석에대한기본개념과방법론들을숙지하여야함 데이터로부터유용한정보를추출하고, 합리적인의사결정을 하기위해서는데이터분석소프트웨어를잘활용할수있도록함

1.2 데이터분석개요 데이터분석절차 문제의정의 조사, 실험의계획 데이터의수집 데이터의정리, 분석 분석결과의평가 < 데이터분석절차 >

1.2 데이터분석개요 문제의정의 일반적으로연구의시작은대개간단하고모호한질문으로부터시작됨 이것을자세하고정확한질문으로구체화시켜연구의목적으로하는것이문제의정의임. 연구대상이되는모집단이어떠한것이며, 무엇이불확실한상황이고, 어떠한의사결정들이내려질수있는지에대한자세한검토가이루어져야함

1.2 데이터분석개요 조사실험의계획 연구의목적이명확하게정의가되면달성할수있는조사또는실험을계획하여야함. 구체적으로연구대상이되는모집단을모두조사할것인지아니면표본만을조사할것인지결정 표본을조사하려고한다면어떻게표본을선택할것이며, 표본의크기는어느정도로하며, 각표본에서는무슨자료를얻을것인지를결정해야함.

1.2 데이터분석개요 데이터의수집 구체적인조사, 실험이계획되면이에따라데이터를수집 어느경우에는자료가이미수집되어있거나, 인터넷또는문헌에서쉽게구할수도있는데, 이때는이자료들이과연연구목적에적절하고정확한것인지검토. 직접자료를수집하는일은대개시간과경비가많이들고또오류도많이발생할수있는매우복잡하고힘든일임. 어느경우에는계획한대로자료를수집하기가불가능한경우도있고, 수집된자료가연구목적에적절하지않은경우도있음. 이러한문제점들을줄이기위해예비자료를먼저수집하여자료수집계획을수정또는보완하기도함.

1.2 데이터분석개요 데이터의정리분석 적절한데이터를수집한후에는도표나그림을이용하여자료를정리 또한주어진문제의해결에적합한분석방법을이용하여자료를분석 데이터분석시스템의활용 : 엑셀, R, SAS, SPSS, Minitab 등 통계적방법 : 기술통계, 탐색적자료분석, 범주형자료분석, 두모집단비교, 회귀분석, 실험계획, 다변량분석등

1.2 데이터분석개요 분석결과의평가 분석된결과를이용하여연구목적에서제기된질문에대한결론을내림. 어느경우에는부분적인답만결론내릴수도있고, 다른경우에는제기되지않았던질문에관한결론도얻을수있음 결론에따른여러가지새로운연구에대한제안도할수있음.

1.3 데이터분석소프트웨어소개 통계패키지 : 데이터는모든의사결정의가장기본이되는도구로서, 데이터처리및통계분석을쉽게할수있도록개발된소프트웨어를통계패키지라함 SPSS SPSS 1) 는광범위한분야에대한데이터입력, 데이터관리및통계분석을목적으로전문프로그래머가아닌일반사용자들도쉽게사용할수있도록개발된통계소프트웨어임 1) SPSS 는 PASW(Predictive Analytics Software) 로이름이바뀌어보급되고있음. http://www.spss.co.kr 참조

1.3 데이터분석소프트웨어소개 SPSS SPSS 의특징 GUI(Graphic User Interface) 환경하에서통계분석및 자료처리가이루어짐 분석절차순서에맞게다양한대화상자가제공되므로쉽게분석처리가가능 스프레드시트형태의데이터입력이가능하므로일반사용자에게친숙 메뉴방식및프로그램방식으로통계분석절차를제공 메뉴방식을이용한통계그래픽스기능이뛰어남

1.3 데이터분석소프트웨어소개 SPSS SPSS 사용예 : 기술통계량을구하는예 데이터입력 : SPSS 를실행하고데이터를입력한초기화면 2) 2) 초기화면에서변수이름을지정하기위해서는하단의변수보기를선택

1.3 데이터분석소프트웨어소개 SPSS 분석기술통계량기술통계절차선택 < 분석 - 기술통계량 - 기술통계절차선택 >

1.3 데이터분석소프트웨어소개 SPSS 대화상자에서변수지정 < 기술통계대화상자화면 >

1.3 데이터분석소프트웨어소개 SPSS 기술통계결과 < 기술통계출력결과 >

1.3 데이터분석소프트웨어소개 SAS SAS : 자료의처리기능이뛰어나며, 데이터베이스 (database), 데이터웨어하우징 (data warehousing), 각종응용프로그램과의호환등을포함한통합패키지로서자료의처리기능이뛰어남 SAS의특징 GUI(Graphic User Interface) 다른응용프로그램과호환가능 30여개의모듈 ( 소프트웨어 ) 로이루어져있음 SAS 웹주소 http://www.sas.com (Worldwide Site 에서 korea 선택하면 SASKOREA 접속 )

1.3 데이터분석소프트웨어소개 SAS SAS 모듈 BASE SAS : SAS 의가장기본적인소프트웨어 SAS/STAT : 자료의분석및통계기법을이용한분석법등을지원하는소프트웨어 SAS/AF : 응용프로그램개발지원소프트웨어 SAS/ASSIST : 메뉴형식의 SAS 시스템사용지원소프트웨어 SAS/ETS : 시계열기법을이용한분석용소프트웨어 SAS/GRAPH : 각종 2 차원및 3 차원그래프지원 SAS/IML : 행렬연산소프트웨어 SAS/INSIGHT : 통계분석및그래픽구현소프트웨어 SAS/OR : 프로젝트관리및운용연구 (Operation Research) SAS/QC : 통계적품질관리소프트웨어 SAS/MACRO : 동일한작업의반복을단순화하기위한소프트웨어

1.3 데이터분석소프트웨어소개 SAS SAS 프로그램예 : 두연속인변수의산점도와상관계수를구하기 SAS 프로그램입력 : 편집기에 SAS 프로그램입력 SAS 실행하기 : 도구모음에서아이콘 (: run) 을눌러프로그램을실행

1.3 데이터분석소프트웨어소개 SAS < SAS 프로그램입력 >

1.3 데이터분석소프트웨어소개 SAS SAS 실행결과 : 산점도 < SAS 실행결과 : 산점도 >

1.3 데이터분석소프트웨어소개 SAS SAS 실행결과 : 상관계수 < SAS 출력결과 : 상관계수 >

1.3 데이터분석소프트웨어소개 S-LINK S-LINK 3) : 순수한국내기술로개발된윈도용통계패키지로서스프레드시트형태의데이터입력을취하고있으며, 처리방식은메뉴형태를취하고있으므로사용이매우간편 3) S-LINK 사이트 : http://www.s-link.com

1.3 데이터분석소프트웨어소개 S-LINK S-LINK 초기화면 < S-LINK 초기화면 >

1.3 데이터분석소프트웨어소개 R R 4) : 인터넷에서자유롭게다운받아사용할수있는통계소프트웨어이면서도기능이매우뛰어남 R은프로그램의기능을가지고있어자체로서도유용한기능들을구현할수있을뿐만아니라자료처리및그래픽스분야에탁월한기능을가지고있음 4) R 사이트 : http://www.r-project.org 프로그램및매뉴얼등을무료로다운

1.3 데이터분석소프트웨어소개 R R 의기능 자료처리기능 : 자료의구성, 소팅, 결합등이프로그램처리로쉽게이루어짐 자료분석기능 : 자료를분석하기위해필요한수치적계산및분석결과제공등이다양 언어기능 : 대화형프로그래밍언어로서함수문을쉽게작성할수있으며, C 언어및 FORTRAN 언어와인터페이스 (interface) 가가능 그래픽스기능 : 대화형그래픽스에의한자료분석의기능및분석결과의그래픽스처리기능등이뛰어남

1.3 데이터분석소프트웨어소개 R R 다운받기 R 사이트초기화면에서왼편창의 CRAN 을선택

1.3 데이터분석소프트웨어소개 R R 을다운받기위한미러사이트선택 < R 다운로드 : Mirror 사이트선택 >

1.3 데이터분석소프트웨어소개 R base 선택 < R 다운로드 : base 선택 >

1.3 데이터분석소프트웨어소개 R Download R 선택 < R 다운로드 : Download R 선택 >

1.3 데이터분석소프트웨어소개 R R 실행후, 산점도및상관계수구하는예 < 산점도및상관계수구하기 >

1.3 데이터분석소프트웨어소개 R 산점도결과 < R 산점도결과 >

1.4 데이터분석예 엑셀을이용한데이터분석예예제 2000년부터 2009년도까지의연도별총출생성비 5) 가다음과같다. 연도별총출생성비를시계열도표로그려보자 < 연도별출생성비 > 년도 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 출생성비 110.2 109.1 110.0 108.7 108.2 107.8 107.5 106.2 106.4 106.4 참고 : 출생성비자료를웹에서다운받기위해서는통계청 Kosis 정보시스템에다음과같이접속하면된다. http://kosis.kr 국내 국제통계 주제별통계 인구 가구 인구동향조사 출생 시도 / 출산순위별출생성비 총출생성비 선택후통계표보기 5) 출생성비 : 여자 100 명당남아의수

1.4 데이터분석예 엑셀을이용한데이터분석예 데이터입력하기 : 엑셀을실행한후연도별출생성비데이터를입력 < 엑셀데이터입력 >

1.4 데이터분석예 엑셀을이용한데이터분석예 데이터영역을선택한후, 메뉴 ' 삽입 의 분산형 에서원하는차트를선택 < 삽입 - 분산형 선택 >

1.4 데이터분석예 엑셀을이용한데이터분석예 출생성비그래프 < 출생성비그래프 >

1.4 데이터분석예 엑셀을이용한데이터분석예 축서식수정하기 : 마우스로왼쪽축을선택한후, 마우스오른쪽 단추를눌러나온돌출메뉴 (pop-menu) 에서축서식을선택 < 축서식선택 >

1.4 데이터분석예 엑셀을이용한데이터분석예 축의최소, 최대값을변경한내용 < 축서식옵션 >

1.4 데이터분석예 엑셀을이용한데이터분석예 그래프수정결과. 범례는마우스로선택한후지우면됨. < 축서식수정결과 >

제 2 장데이터의입력과점검

학습목표 1 데이터의정의와분석목적 2 측정의수준과데이터의종류 3 데이터의입력과정 4 입력된데이터에대한점검과정

2.1 데이터란무엇인가? 데이터 (data) 어떤관심있는주제에대해서수집된구조화된정보 (organized information) 일반적인의미의데이터 : 수치, 문자, 그림등의표현양식과 관계없이어떤주제에대한구조화된정보를뜻함. 데이터의특징 분석에알맞은일정한규칙과형태로수집되고정리됨 분석과정을통해서유용한정보 (information) 로변환가능해야함 조사나실험등을통해서수집되어알맞은형태로변환됨 어떤주제또는관심있는주제에대하여얻어진것

2.1 데이터란무엇인가? 통계적데이터 (statistical data) 수치적계산에알맞은또는수치적계산을할수있는데이터를 의미함 데이터분석의목적 자연또는사회현상에대한정확한현상파악 ( 집단의특징파악 ) 왜그런현상이나타나게되었는지를규명하는것 ( 인과관계의규명 ) 경제, 사회현상속에숨어있는법칙성의발견미래상황예측으로합리적인의사결정에도움 ( 의사결정의수단 )

2.2 측정의수준과데이터의종류 데이터수집방법 데이터는통계조사, 실험, 관찰등을통해서조사단위나실험단위로부터정해진측정방법 ( 측정도구, 질문지 ) 으로측정하여얻음 측정 : 각각의조사단위의어떤특성을일정한기준에따라관측하여각조사단위에수치를부여하는작업 예 : 표본으로뽑힌사람들의몸무게, 지능혹은취업상태등을관측하여수치로나타내는경우측정된전체자료를데이터 (data) 라고함

2.2 측정의수준과데이터의종류 데이터관련기본용어 케이스 (case, 레코드 ) : 데이터세트에서한조사단위에대한정보의집합체 변수 (variable, 필드 ) : 각조사단위로부터측정된개별적인속성들

2.2 측정의수준과데이터의종류 예 ) 어느단체에서 10 명을표본으로추출하여각사람으로부터이름, 성별, 나이, 교육정도, 월수입 ( 단위 : 만원 ) 을조사하는경우얻게되는데이터 이름 : 홍길동 성별 : 남자 나이 : 29 교육정도 : 고졸 월수입 : 140 이름 : 성춘향 성별 : 여자 나이 : 27 교육정도 : 대졸 월수입 : 150

2.2 측정의수준과데이터의종류 데이터의행렬형태표현 이름성별나이 교육정도 월수입 홍길동남자 29 고졸 140 성춘향여자 27 대졸 150 임꺽정남자 30. 170 데이터는행렬형태로표시하면훨씬이해하기쉬움 각행이케이스또는레코드가되고, 각열은변수가됨 임꺽정케이스에서교육정도의. 표시는결측값을나타냄

2.2 측정의수준과데이터의종류 측정의수준 측정수준에따라명목척도 (nominal scale), 순서척도 (ordinal scale), 구간척도 (interval scale), 비율척도 (ratio scale) 로구분함 측정의척도에따라서제공되는정보의수준과데이터분석에이용할수있는분석방법이달라짐

2.2 측정의수준과데이터의종류 1 명목척도 (Nominal scale : 명명척도 ) 측정대상의속성을단순히분류하거나확인할목적으로수치를부여하는것 단순히범주구분이목적임 수치의대소비교, 연산은의미없음 예 : 남자는 1, 여자는 2 라는수치부여, 운동선수의등번호, 종교, 지지정당, 거주지 ( 대도시, 중소도시, 농어촌 ) 등에대한조사

2.2 측정의수준과데이터의종류 2 순서척도 (Ordinal scale : 서열척도 ) 어떤특성을많고적음에따라수치를부여함 수치자체가어떤절대적인수나양, 크기등을나타내지않고, 서열, 대소관계의구분만의미있음 예 : 제품이나서비스의질을묻는질문 아주좋음 (5), 약간좋음 (4), 보통 (3), 약간나쁨 (2), 아주나쁨 (1)

2.2 측정의수준과데이터의종류 3 구간척도 (Interval scale: 등간척도 ) 측정대상을속성에따라서열화함은물론서열간의간격이같도록수치부여 연속형값으로측정값의차이는의미있지만, 비 ( 比 ) 는의미없음 절대값 0을정의할수없고, 임의로지정된 0만있음 예 : 섭씨온도, IQ, 주가지수, 적성검사점수등 - 60도가 30도보다 2배만큼뜨거운것이아니나 30도의차이가있음

2.2 측정의수준과데이터의종류 4 비율척도 (Ratio scale) 구간척도와유사하지만측정값의차이뿐만아니라비 ( 比 ) 도의미있는경우 절대값 0 을정의할수있음 예 : 소득, 체중, 신장, 시간, 방문객수등 - 한사람 (A) 이 200 만원벌고, 다른한사람 (B) 이 400 만원벌면 B 인사람이 A 인사람보다두배더번다.

2.2 측정의수준과데이터의종류 설문지예 ) 수치형태 설문 설문예 응답 연속형 ( 비율형 ) 당신의나이는몇살입니까? 세 명목형당신의성별은? 1. 남자 2. 여자 순서형당신은현재의전공에만족합니까? 1. 매우만족 2. 약간만족 3. 약간불만족 4. 매우불만족

2.2 측정의수준과데이터의종류 데이터의구분 1 측정수준에따른구분 - 질적데이터 (qualitative data) : 이산형데이터명목척도, 순서척도에의해서측정된데이터 - 양적데이터 (quantitative data) : 연속형데이터구간척도, 비율척도로측정된데이터 2 측정되는변수의수에따른구분 - 일변량데이터한변수만측정하여얻은데이터 - 다변량데이터두개이상의변수를측정하여얻은데이터

2.3 데이터의입력 부호화 (coding, 코딩 ) 수집된설문지의응답결과나관측결과등을통계적으로분석할수있도록일정한원칙에따라각응답에숫자를부여하는과정 연속형변수인경우에는관측된값이숫자이기때문에그대로입력하면됨 여러사람이부호화작업에참여하는경우에는부호화의일관성이유지될수있도록부호화지침서 (code book) 를만들어사용함

2.3 데이터의입력 데이터코딩설계 조사나실험을통해서얻은데이터를입력하기전에어떻게입력 해야더간편하고, 효과적으로분석할수있는지를구상하는것 데이터에대한코딩설계의예 지방자치제도가지역발전에미친영향을살펴보기위해서 표본조사를실시하는경우

2.3 데이터의입력 < 설문지예 > 1. 지방자치제도가지역발전에도움을준다고생각하십니까? ( ) 1 많은도움을준다. 2 조금도움을준다. 3 별도움을주지못한다. 4 전혀도움을주지못한다. 2. 지방자치제가실시된이후지역간의경제불균형에대해어떻게생각하십니까? ( ) 1 지역간경제불균형이해소되고있다. 2 과거와별차이없다. 3 지역간의불균형이심화되고있다. 4 잘모르겠다. 3. 당신의성별은? 남 ( ), 여 ( )

2.3 데이터의입력 < 설문지예 > 4. 당신의나이는몇세이십니까? ( ) 1 20세미만 2 20-29세 3 30-39세 4 40-49세 5 50-59세 6 60세이상 5. 당신의현재거주지는어디입니까? ( ) 1 서울시 2 광역시 3 경기 강원도 4 충북 충남지역 5 경북 경남지역 6 전북 전남지역 7 제주지역

2.3 데이터의입력 설문지의내용구성 * 설문 1, 2 : 지방자치제도의역할을묻는문항 * 설문 3, 4, 5 : 응답자의속성을묻는문항 설문번호변수이름변수이름 ( 영문약어 ) 입력열 코드및설명 일련번호 ID 1~2 1 지역발전 C1 4 1, 2, 3, 4, 9( 무응답 ) 2 지역경제 C2 6 1, 2, 3, 4, 9( 무응답 ) 3 성별 P1 8 1( 남 ), 2( 여 ), 9( 무응답 ) 4 나이 P2 10 나이, 99( 무응답 ) 5 출신지 P3 12 1, 2, 3, 4, 5, 6, 7, 9( 무응답 ) < 질문지에대한부호화지침 >

2.3 데이터의입력 부호화 (coding, 코딩 ) 1 텍스트파일 ASCII 라는코드형식으로저장된파일로아스키파일이라고도함 한글 2007 에서는일정한양식으로데이터를입력하고난후, < 파일 (F)>-< 다른이름으로저장 (A)...> 을선택하고, 파일형식을 텍스트파일 로선택하여저장함 자유형식 (free format) 과고정형식 (fixed format) 으로구분 (p45) * 자유형식 : 변수와변수사이의구분을하나이상의공란 (blank) 으로구분함 * 고정형식 : 각변수가위치할열 ( 칼럼 ) 을정한후데이터입력함

2.3 데이터의입력

2.3 데이터의입력 2 스프레드시트나데이터베이스파일 - 엑셀등에서간편한데이터입력이가능함 - 열은변수를나타내고, 행은케이스를나타냄

2.3 데이터의입력 3 SPSS 에서데이터입력 - 직접데이터를입력하거나외부에만들어놓은텍스트파일이나엑셀파일을읽을수있음

2.3 데이터의입력 4 SAS 에서데이터입력 - SAS 편집기에데이터를직접입력하거나외부입력파일을읽어옴

2.3 데이터의입력 5 S-link 에서데이터입력 - 직접 S-Link 워크시트에데이터를입력하거나외부의텍스트파일이나엑셀파일을읽을수있음

2.3 데이터의입력 : R commander 사례 (1)

2.3 데이터의입력 : R commander 사례 (2) 1 데이터 - 데이터불러오기 - 텍스트 2 데이터셋의이름 3 데이터파일선택 4 데이터셋보기

2.4 데이터의점검 디버깅 (debugging) : 잘못입력하였거나또는조사상의실수로인한오류 (bug) 를찾아 수정할목적으로데이터세트를검토하고분석하는것을말함 데이터의수가많은경우에데이터입력과정상의오류를점검하기위한방법 각변수의입력범위를확인하는방법 변수들간의논리적일관성여부를확인하는방법

2.4 데이터의점검 각변수의입력범위를확인하는방법 각변수가취하고있는값의최대값과최소값확인 변수의범위가벗어나면오류 / 실수가발생했음 예 : 응답자의성별을나타내는변수에대해서남자는 1 의값을, 여자는 2 의값을준경우 변수값이 1 보다작은값이나 2 보다큰값이있다면입력과정상의오류이거나응답자의잘못된응답또는조사원의실수로발생하였다고볼수있음

2.4 데이터의점검 변수들간의논리적일관성여부를확인하는방법 예 : 환자의성별과암의종류간에교차표작성 구분위암간암폐암유방암자궁암기타계 남자 (1) 8 12 13 1 2 4 40 여자 (2) 5 3 4 9 7 2 30 남자의경우에유방암이나자궁암이발생할수없음에도불구하고, 3 명의환자가유방암이나자궁암으로입원한것으로나타나있음. 해당케이스의관측값을확인해보면환자성별을잘못입력하였거나암종류를잘못입력하였을것임.

제 3 장통계정보의인터넷 활용및기술통계

3.1 통계정보의검색및활용 인터넷을이용한통계정보 인터넷 : 전세계수많은컴퓨터가연결되어있는네트워크 - 각종정보를취득하는중요한도구 - 지식정보화시대에유용한통계정보의좋은검색도구및활용도구로이용 - 통계정보와지리정보시스템 (GIS; Geographic Information System) 을결합하여그래프와결합된유용한통계정보도제공되고있음

3.1 통계정보의검색및활용 3.1.1 통계정보의검색및활용 국가통계정보 정부 3.0 시대 정부기관등이보유하고있는공공정보를누구나손쉽게활용할수있도록적극개방, 공유하는시대 - 양방향맞춤형서비스 - 빅데이터활용 통계청 KOSIS 통계정보시스템, 통계지리정보시스템, e- 나라지표, 마이크로데이터서비스 ( 이용자가직접자료를가공하여이용할수있도록원시자료를제공하는서비스 ) 등이연결되어있음

3.1 통계정보의검색및활용 국가통계정보 통계청초기화면 KOSIS 통계정보시스템, 통계지리정보시스템, e- 나라지표, 마이크로데이터서비스 ( 이용자가직접자료를가공하여이용할수있도록원시자료를제공하는서비스 ) 등이연결되어있음 < 통계청홈페이지 (http://kostat.go.kr) >

3.1 통계정보의검색및활용 KOSIS 통계정보시스템 KOSIS(Korea Statistical Information System) 통계정보시스템 통계청을비롯하여여러통계작성기관에서제공되고있는통계정보를제공. 통계청에서는주요국내통계와국제통계를월별, 분기별, 연도별로분류하여 20 개분야이상의자료를 KOSIS 에수록. < KOSIS 통계정보시스템 (http://kosis.kr) >

3.1 통계정보의검색및활용 KOSIS 를통하여이용할수있는주요기능 통계자료의목록, 작성기관, 수록기관, 소재정보의파악 원하는항목의통계자료검색 여러항목간의통계자료비교검색 원하는항목의장기시계열자료검색 항목의통계자료를크기순으로배열 통계자료를시각적인그래프로표현 개인용컴퓨터로자료받기기능등

3.1 통계정보의검색및활용 검색예 )

3.1 통계정보의검색및활용 검색예 )

3.1 통계정보의검색및활용 검색예 )

3.1 통계정보의검색및활용 검색예 )

3.1 통계정보의검색및활용 통계시각화예 )

3.1 통계정보의검색및활용 통계시각화예 )

3.1 통계정보의검색및활용 통계시각화예 ) 추계인구

3.1 통계정보의검색및활용 통계시각화예 ) 경제활동참가율

3.1 통계정보의검색및활용 통계시각화예 ) 지역경제상황판

3.1 통계정보의검색및활용 e- 나라지표 e- 나라지표는국정전문분야에대한각종국정통계에대해정확한통계와추이, 통계분석등을제공 < e- 나라지표 (http://www.index.go.kr) >

3.1 통계정보의검색및활용 e- 나라지표 예 ) 소비자물가지수

3.1 통계정보의검색및활용 마이크로데이터서비스 마이크로데이터서비스는사용자가직접자료를가공하여처리할수있도록조사자료들을제공하는서비스임. 교육용데이터도제공하고있음. < 마이크로데이터서비스 (http://mdss.kostat.go.kr)>

3.1 통계정보의검색및활용 통계지리정보 국가통계자료를지도위에서쉽게이용할수있도록제공되고있는서비스. 통계내비게이터, 지도로보는행정구역통계, 통계지도시계열서비스등다양한내용을제공. < 통계지리정보 (http://sgis.kostat.go.kr))>

3.1 통계정보의검색및활용 통계지리정보 예 ) 주민등록인구현황지도

3.1 통계정보의검색및활용 한국은행경제통계시스템 한국은행은국가경제에관한중요한통계들을생산하고있는기관임. 한국은행경제통계시스템은국민소득등과같은경제통계에관한각종자료들을시계열로제공하고있음. < 한국은행경제통계시스템 (http://ecos.bok.or.kr)>

3.1 통계정보의검색및활용 데이터제공 일반인들이나연구자들이이용할수있는각종조사자료나실험자료들을제공하고있는사이트들 StRD (http://www.itl.nist.gov/div898/strd/) NIST(National Institute of Standards and Technology) 에서제공하는 StRD(Statistical Reference Datasets) 는여러통계분석등과관련하여유용한데이터를제공하고있음. 특히분산분석, 회귀, 기술통계관련자료들이다양하게제공됨

3.1 통계정보의검색및활용 카네기멜론통계학과 카네기멜론통계학과에서제공하고있는다양한데이터및통계적방법들을소개 < DASL : http://lib.stat.cmu.edu/dasl >

3.1 통계정보의검색및활용 한국사회과학데이터센터 (www.ksdc.re.kr) KSDC(Korean Social science Data Center) DB 는정부, 공공기관, 연구소, 민간단체등여러기관에서제공하고있는방대한분량의통계및여론조사자료들을제공하고있는전문데이터베이스. 특히미국의최대사회과학데이터보관소인 ICPSR(The Inter-University Consortium for Political and Social Research) 등을비롯한외국의조사기관자료사이트와도연계되어있어유용한자료들을많이활용할수있음.

3.1 통계정보의검색및활용 한국사회과학데이터센터 < 한국사회과학데이터센터 (www.ksdc.re.kr) >

3.2 연속형자료의정리 연속형자료를정리하는방법으로는그래프를이용하거나, 기술통계량을구하여특성들을파악하게됨 연속인자료를나타낼때이용되는그래프 : 히스토그램, 점도표, 상자그림, 줄기 - 잎그림등

3.2 연속형자료의정리 3.2.1 기술통계량 중심위치의측도 중심위치의측도 : 평균, 중앙값, 최빈값등이있는데이중가장많이사용되는것이평균 (mean) 임 평균 : 관측한자료의값들을 X1, X 2,, X n (n: 자료의수 ) 이라표기할때평균은다음과같이정의됨. 표본평균 여기서 X 는 ' 엑스바아 ' 라고읽음 X1 + X 2 + + X n å X i X = = n n 평균은어느한자료값이다른자료값들보다아주크거나작을때이특이값 (outlier) 의영향을많이받음

3.2 연속형자료의정리 3.2.1 기술통계량 평균예 )

3.2 연속형자료의정리 3.2.1 기술통계량 절사평균예 )

3.2 연속형자료의정리 3.2.1 기술통계량 절사평균예 )

3.2 연속형자료의정리 중심위치의중앙값

3.2 연속형자료의정리 중심위치의중앙값

3.2 연속형자료의정리 중심위치의최빈값

3.2 연속형자료의정리 산포도의측도

3.2 연속형자료의정리 산포도의측도 분산 (variance) : 각자료값과평균과의거리를제곱하여합을구한후이를자료의수로나눈측도. 자료가평균을중심으로많이흩어져있으면분산이커지고, 자료가평균주위에몰려있으면분산이작게됨 표본분산 표준편차 (standard deviation) : 분산의제곱근으로정의되며, 표본의표준편차를표본표준편차라고부르며 s로표시 2 2 å( xi - x) s = n -1 표본표준편차 s = s 2

3.2 연속형자료의정리 변동계수및범위

3.2 연속형자료의정리 사분위수범위

3.2 연속형자료의정리 산포도측도

3.2 연속형자료의정리 3.2.2 연속형자료의그래프 히스토그램 히스토그램 (histogram) : 연속인자료를일정한계급으로나누어각계급에속한도수들을정리한도수분포표를이용하는작성한그래프 히스토그램은연속인자료의분포를살펴볼때이용되는그래프로서많은양의자료에적합

3.2 연속형자료의정리 줄기 - 잎그림 줄기 - 잎그림 (stem-and-leaf plot) : 분포의대략적인형태를살펴보기위하여작성되는그래프로군집의존재여부, 집중도가높은구간, 대칭성의여부, 자료의범위및산포, 특이값의존재여부등을파악하는데이용됨 줄기 - 잎그림예 < 점수자료 > 54 57 55 23 51 64 90 51 52 43 15 10 82 74 54 78 37 73 52 48 41 33 52 30 41 51 18 39 46 28 53 44 46 56 28 58 29 58 67 35 25 38 61 53 23 73 69 47 41 45 77 56 89 28 54 99 10 43 35 24 21 23 67 14 53

3.2 연속형자료의정리 줄기 - 잎그림예

3.2 연속형자료의정리 상자그림 상자그림 : 다섯숫자요약을특이값과함께그래프로표현한것으로서분포의상태, 특이값의유무, 여러집단의수치자료를비교하고자할때유용하게이용됨. 다섯숫자요약 : 탐색적자료분석의관점에서한묶음의자료를정리하는숫자 ( 최소값, 최대값, 중앙값, 제 1 사분위수, 제 3 사분위수 )

3.2 연속형자료의정리 상자그림을그리는방법 1 다섯숫자요약을구한다. 2 제 1 사분위수, 제 3 사분위수에해당하는수직선상의위치에네모상자의양끝이오게하고상자내의중앙값에해당되는위치에가로지르는막대표시를한다. 3 안울타리 (inner fence) 값을구한다. IFL = 제1사분위수 (Q₁) - 1.5 * IQR IFU = 제3사분위수 (Q₃) + 1.5 * IQR 단, IQR = Q₃ - Q₁ 4 안울타리의안쪽에있으면서경계에가장가까운인접값 (adjacent value, AV) 를찾아상자의양끝을연결한다. 5 안울타리바깥에있는자료점을특이값으로간주하고 o 또는 * 표시를한다.

3.2 연속형자료의정리 상자그림결과

3.3 웹을활용한데이터분석 웹데이터분석 웹의활성화 인터넷의비약적인발전 웹을이용한데이터분석방법의발전 - 통계교육효과증대 - 그래프를이용한데이터의이해효과 - free

3.3 웹을활용한데이터분석 3.3.1 StatPages.net 을이용한데이터분석 StatPages.org : 웹사이트주소변경 데이터분석, 통계적방법소개등과관련하여다양한사이트들을연결한사이트.

3.3 웹을활용한데이터분석 기술통계량을구하는예 StatPages.net 초기화면의 Table of Contents for this page... 에서 Descriptive statistics, Histograms, charts... 항목을선택 < StatPages.org : Descriptive statistics >

3.3 웹을활용한데이터분석 기술통계량을구하는예 첫번째항목에있는 Statiscope 를선택하여실행한결과 < Statiscope 기술통계량결과 >

3.3 웹을활용한데이터분석 3.3.2 StatPages.net 을이용한데이터분석 상자그림을그리는템플릿을제공하는인터넷사이트중에서 http://www.shodor.org/interactivate/activities/boxplot/ 을이용 상자그림을그리기위해서는하단의 "Enter Data..." 에서데이터를입력하고 Updata Box Plot" 을클릭. 상자그림과사분위수값이나타남을알수있음. < 상자그림그리기 > (http://www.shodor.org/interactivate/activities/boxplot/ )

3.3 웹을활용한데이터분석 참고 : http://www.shodor.org/interactivate/activities 웹사이트를방문하면 히스토그램, 파이챠트, 산점도, 줄기 - 잎그림등의 다양한통계그래프도그릴수있음. < shodor 통계그래프사이트 > (http://www.shodor.org/interactivate/activities/ )

** R 을활용한자료분석

R 설치하기 R R 다운받기 R 사이트초기화면에서왼편창의 CRAN 을선택

R 설치하기 R R 을다운받기위한미러사이트선택 < R 다운로드 : Mirror 사이트선택 >

R 설치하기 R base 선택 < R 다운로드 : base 선택 >

R 설치하기 R Download R 선택 < R 다운로드 : Download R 선택 >

R 실행하기 R R 실행후, 산점도및상관계수구하는예 < 산점도및상관계수구하기 >

R 실행하기 R 산점도결과 < R 산점도결과 >

R 을활용한그래프그리기 줄기 - 잎그림그리기

R 을활용한그래프그리기 상자그림그리기

R 을활용한텍스트자료읽기 read.table, read.csv

R 을활용한엑셀자료읽기 read.xlsx(package:xlsx)

R 을활용한엑셀자료읽기 read.xlsx(package:xlsx)

R 을활용한기술통계량구하기 변수월급여 (salary) 의평균및표준편차구하기

R 을활용한기술통계량구하기 성별과교육정도별로월급여의평균 / 표준편차구하기

R 을활용한기술통계량구하기 성별과교육정도의빈도표및분할표

R 을활용한그래프그리기 교육 (edu) 변수의막대그림및원그림

R 을활용한그래프그리기 성별구분교육 (edu) 변수의막대그림