슬라이드 1

Similar documents
statistics

경영평가결과평가등급내역 구분가나다라마 총계 (343 개 ) 34 개 (9.9%) 103 개 (30.0%) 153 개 (44.6%) 41 개 (12.0%) 12 개 (3.5%) 행자부 (154 개 ) 18 개 (11.7%) 45 개 (29.2%) 75 개 (48.7%)

남 김 * 현 일반자금대출 전남 목포시 여 김 * 희 일반자금대출 서울 마포구 여 김 * 은 일반자금대출 서울 노원구 남 김 * 헌 일반자금대출 서울 강남구 남 김 * 문 일반자금

OD..Network....( ).hwp

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

GGWF Report는사회복지분야의주요현안에관하여정책의방향설정과실현에도움을주고자, 연구 조사를통한정책제안이나아이디어를제시하고자작성된자료입니다. 본보고서는경기복지재단의공식적인입장과다를수있습니다. 본보고서의내용과관련한의견이나문의사항이있으시면아래로연락주시기바랍니다. Tel

통계학입문

2019 년도제 2 회경상남도지방공무원임용필기시험합격인원및합격선 합격선 : 조정점수가있는직류는총점으로표시됩니다. 직렬명 임용선발예정출원응시필기합격자기관인원인원경쟁률인원응시율인원 합격선 비고 합계 1,944 18, , % 1,765 - 간호8


200706ºÎµ¿»êÆ®·£µåc02ªš

(001~006)개념RPM3-2(부속)

남 강 * 구 읷반자금대출 경기 앆성시 남 강 * 구 읷반자금대출 부산 금정구 남 강 * 읷 읷반자금대출 경기 의왕시 남 강 * 태 읷반자금대출 경기 광주시 여 강 * 미 읷반자금

통계학입문

등급시군구 SA 등급 ( 경기 ) 성남시, 안산시, 오산시시흥시, 파주시, 이천시 ( 충북 ) 청주시 ( 충남 ) 아산시 ( 경북 ) 안동시 ( 경기 ) 양평군 ( 충북 ) 옥천군 ( 전북 ) 완주군, 순창군 ( 경남 ) 합천군 ( 서울 ) 노원구, 은평구, 서대문구,

학부모신문225호최종

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

<BCF6B5B5B1C720B1B3C5EBC3BCB0E8B0B3C6ED28B4EBC7A5292DB1E8BCF6C3B628C0CEBCE2292E687770>


더바이어102호 01~09

슬라이드 1

«⁄µÂ∫œ≥ª¡ˆπ–±‚¿¸

1 안전검사 업무처리절차 업무처리기한 신청서접수일로부터 30 일이내 안전검사주기 구분 주기 안전검사 크레인리프트곤돌라 그밖의유해 위험기계 설치가끝난날부터 3년이내최초안전검사실시 - 최초안전검사실시이후매 2년마다정기적으로실시 건설현장에사용되는것은최초설치한날부터 6개월마다

이용자를위하여 1. 본보고서에수록된내국인통계는 2017 년 12 월 31 일현재 주민등록법 에의하여주민등록표에등재된세대와인구를집계한것입니다. 그리고외국인통계는 출입국관리법 에의하여외국인정보공동이용시스템에등재된인구를집계하여수록한것입니다. 2. 본통계자료는다음과같은사유로작

pol hwp

= ``...(2011), , (.)''

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

과천시 면접기간 목 면접장소 과천시청 층아카데미아실 ( 목 ) 오후 20 과천시 일반행정 9 급, 지방세 9 급, 사서 ( 시 )9 급일반토목 9 급, 건축 9 급 광명시 면접기간 목 면접장소 광명시청중회의실 계 ( 목 ) 오전 22 오후 4

Ⅳ. 가구구조 1. 가구구조의변화 1. 가구구조의변화 1.3 자치구가구수분포 1.1 가구수의변화 평균가구원수가가장큰구는양천구로 2.93 명, 가장작은구는관악구로 2.34 명 2010 년의가구수는 350 만가구로 1980 년보다 그림 4-1 과의가구규모의증가율 (1980

Microsoft Word - SAS_Data Manipulate.docx

Ⅰ 년상반기경기도화재발생개요 화재발생현황요약 Ⅱ. 화재현황개요 1. 총괄 2017 년상반기경기도화재발생총괄현황은 화재 5,846 건, 인명피해 294 명 ( 사망 42, 부상 252), 재산피해 128,901 백만원 전년대비화재건수 199 건 (-3.3%),

Microsoft PowerPoint - SBE univariate5.pptx

3-4. 경기권고등부일반계고학교별학력수준이높은학교순 순위구학교명 3 개과목합계 응시인원보통이상기초학력기초학력미만 1 광명시 진성고등학교 % 0.4% 0.0% 2 화성시 병점고등학교 % 0.3% 0.2% 3 용인시 수지고등학교


< FC0FCB8C15FC3D6C1BEBABB2E687770>

기술통계

목 차 1. 사업배경및목적 1 2. 시험대상, 방법및기간 3 1) 시험대상 3 2) 시험방법및항목 5 3) 시험기간 5 3. 시험결과 6 1) 종합시험결과 6 2) 온라인쇼핑몰판매제품시험결과 7 3) 성인용품점판매제품시험결과 8 4) 약품판매정품제품시험결과 11 5)

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

R t-..

확률 및 분포

실험 5

< B3E2B8BB20B1E2C1D820BAB8C0B0C5EBB0E D C3D6C1BE292E687770>

1362È£ 1¸é

315 경기도정책선거를위한어젠다발굴 : 행 재정분야을중심으로 박완기 ( 경기도매니페스토추진협의회 ) Agenda 1. 지속가능한재정을위한자주재원확충 1. 필요성및배경

2015_학술 프로그램_2_4.21.indd

제 1 장. 조사개요 1. 조사설계 4 2. 응답자특성 5 제 2 장. 조사결과 1. 문재인대통령국정수행평가 7 2. 서울시장가상대결 A : 박영선 김문수 안철수 인지연 신지예 9 3. 서울시장가상대결 B : 박원순 김문수 안철수 인지연 신지예 서울시장가상대


- 2 -

Ⅱ. 의주택현황 1. 주택재고 1. 주택재고 1.1. 주택유형별재고 주택유형의구분주택유형은단독주택과공동주택으로구분된다. 단독주택은독립된주거의형태를갖춘일반단독주택과, 여러가구가살수있도록구성된다가구주택으로나눌수있다. 다가구주택은 3개층이하, 연면적 6m2이하, 19세대이하


- 1 -

2014 의료자원 통계 핸드북

..(..) (..) - statistics

<2836C2F7BCF6C1A429C1A631C0E57EC1A632C0E52832B5B5292E687770>

< F B3E25FBAB8C0B0C5EBB0E85F2832BCF6C1A4292E687770>

<33312DBCADBFEFBFACB1B820C6F7C4BFBDBA203331C8A32834BFF93235C0CFC0DA2DBAAFB9CCB8AE2DB1E8B0A9BCF6292E687770>

2013 국토조사연감 075 전국 대기오염도(SO2) 년 대기오염도(SO2) (ppm) 년 2012년

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

2014 년서울지역아르바이트노동실태 - 서울시및 25 개자치구일자리와시급 - 김종진 ( 한국노동사회연구소연구위원 ) * 1) 1. 분석자료개요 가. 분석자료 분석자료는 2014년상반기서울지역사업주가 알바천국 ( 주 ) 에아르바이트채용구인광고입력원자료를재분석한것임. 분석

( , , ,690 4, , , , , ,

블루핸즈 일요정비서비스 시범운영실시현황 ( 서울 / 분당 ) 시범운영기간 : ~ 7.31 일자관할센터위치지역본부지점명블루핸즈명구분전화번호주소비고 마포구중부지역본부마포지점웅지자동차공업사종합 서울특별시마포구모래내로 3 길 19 ( 성산

<BEC8BAB4B5B F5B315D2DC8ADC8ABBCF6C1A42E687770>

스무살, 마음껏날아오르기위해, 일년만꾹참자! 2014학년도대학수학능력시험 9월모의평가 18번두이차정사각행렬 가 를만족시킬때, 옳은것만을 < 보기 > 에서있는대로고른것은? ( 단, 는단위행렬이다.) [4점] < 보기 > ㄱ. ㄴ. ㄷ. 2013학년도대학수학능력시험 16번

i

- 1 -

01

마지막 변경일 2018년 5월 7일 ** 이항분포와 정규분포의 관계 ** Geogebra와 수학의 시각화 책의 3.2소절 내용임. 가장 최근 파일은 링크를 누르면 받아 보실 수 있습니다.

JAVA 프로그래밍실습 실습 1) 실습목표 - 메소드개념이해하기 - 매개변수이해하기 - 새메소드만들기 - Math 클래스의기존메소드이용하기 ( ) 문제 - 직사각형모양의땅이있다. 이땅의둘레, 면적과대각

2011 대한민국 교육불평등지도 양극화 사회 교실로 스며든 빈부격차 2011 대한민국 교육불평등지도 는 2009 년과 2010 년에 이어 세 번째로 발간하는 대한민국 교육 불평등에 관한 세 번째 보고입니다 양극화 사회에 따른 경제적 불평등이 교육 불평등을 낳고 교육 불

단위 : 세대, 명 연별시군별 3 ) 2. 시ㆍ군별세대및인구 ( 주민등록 ) 1) 세대 2) 인 구 Population 합계 Total 한국인 Korean Number of 남 여 남 여 households Male Female Male Female ,359

°¡°Ç6¿ù³»ÁöÃÖÁ¾

Microsoft PowerPoint - chap04-연산자.pptx

1 1 장. 함수와극한 1.1 함수를표현하는네가지방법 1.2 수학적모형 : 필수함수의목록 1.3 기존함수로부터새로운함수구하기 1.4 접선문제와속도문제 1.5 함수의극한 1.6 극한법칙을이용한극한계산 1.7 극한의엄밀한정의 1.8 연속

온습도 판넬미터(JTH-05) 사양서V1.0

수리영역 5. 서로다른두개의주사위를동시에던져서나온두눈의수의곱 이짝수일때, 나온두눈의수의합이 또는 일확률은? 5) 의전개식에서상수항이존재하도록하는모든자 연수 의값의합은? 7) 다음순서도에서인쇄되는 의값은? 6) 8. 어떤특산

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

<C1DF29BCF6C7D020315FB1B3BBE7BFEB20C1F6B5B5BCAD2E706466>

src.hwp

AREA AND NUMBER OF ADMINISTRATIVE UNITS 통ㆍ리 Tong and Ri 반출장소 Branch office Unit : km2, %, number 통리 Ri Ban 도시ㆍ군읍ㆍ면 Year & 행정법정동읍ㆍ면 Eup and Si, Gun Ton

CONTENTS 01 교통여건의변화 1. 남녀별인구와세대수 3 2. 중요교통지표의추이 4 3. 운전면허소지현황 6 가. 면허종별 6 나. 남녀별 7 4. 자동차등록현황 8 5. 도로 교통안전시설 철길건널목 교통사고의추세 1. 인구 10만

일반각과호도법 l 삼각함수와미분 1. 일반각 시초선 OX 로부터원점 O 를중심으로 만큼회전이동한위치에동경 OP 가있을때, XOP 의크기를나타내는각들을 ( 은정수 ) 로나타내고 OP 의일반각이라한다. 2. 라디안 rad 반지름과같은길이의호에대한중심각의 크기를 라디안이라한

<5BB1E2BABB D20C0E5B9CCC7FD2E687770>

프로그래밍개론및실습 2015 년 2 학기프로그래밍개론및실습과목으로본내용은강의교재인생능출판사, 두근두근 C 언어수업, 천인국지음을발췌수정하였음

Microsoft PowerPoint - IPYYUIHNPGFU

7.7) 정의역이 8.8) 연속확률변수 10.10) 원점을 좌표평면에서 인함수 의그래프가그림 과같다. 9.9 ) 함수 의그래프와함수 의 그래프가만나는점을 라할때, 옳은것만을 < 보기 > 에서있는대로고른것은? lim lim 의값은? < 보기 > ㄱ. ㄴ

37 동대문구 청량리8 추진위 청량리동 ,314 재개발 38 성북구 돈암6 추진위 돈암동 ,050 재개발 39 성북구 동소문2 조합 동소문2가 33 20,657 재개발 40 성북구 동선1 추진위 돈암동 ,235 재개발 41 성북구

슬라이드 제목 없음

<2836C2F729C1A631C0E57EC1A632C0E52832B5B5292E687770>

1. 화재발생분석 가. 총괄 ( ) ( ) , , , , , % 21.6% 42.6% 19.2% -18.5% 2014 년경기도에서발생한화

서울도시연구_13권4호.hwp

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

ch3.hwp


모수검정과비모수검정 제 6 강 지리통계학

년통계교통사고통계 Contents 01 교통여건의변화 1. 남녀별인구와세대수 3 2. 중요교통지표의추이 4 3. 운전면허소지현황 6 가. 면허종별 6 나. 남녀별 7 4. 자동차등록현황 8 5. 도로 교통안전시설 철길건널목 13 0

chap 5: Trees

2019 학년도대학수학능력시험문제및정답

Ⅰ 총 괄

Transcription:

27 제 3 장수치요약 상자그림 1. 다섯수치요약평균 (Mean) 어떤경우에는상당히불확실하다. 예를들면점수분포가작은값에편중되고큰값쪽으로길게꼬리를뻗고있는경우점수분포가큰값쪽에편중되고작은값쪽으로길게꼬리를뻗고있는경우분포의대칭성여부를알지못하는경우평균은대표값의역할을할수없다. 작은값에편중, 큰값쪽으로꼬리가긴모형 큰값에편중, 작은값쪽으로꼬리가긴모형

28 중위수 (Median) 자료의크기를 ( 자료의수 ) N 이라고할때 (1) N 이홀수중위수 = (N+1)/2 번째자료점 (2) N 이짝수중위수 = N/2 번째와 (N+1)/2 번째자료값의평균 중위수의깊이 (depth) d(m) = (N+1)/2 짝수, 홀수에관계없음 산포의측도 표준편차 전통적인통계방법론 두사분위수의차이 탐색적자료분석에서의산포의측도로사용 ( 강한저항성 ) 두사분위수 (H) 의깊이정의 d(h) = ([d(m)]+1)/2, [x] 는가우스수

29 사분위수 Q1( 제 1 사분위수 ) HL Q2( 중위수 ) M Q3( 제 3 사분위수 ) HU 왜도 (Sewness) 분포의기울어진정도 -1< SKEW <1 SKEW = ( H ( H U U M ) ( M M ) ( M H H L L ) ) +1 에가까울수록오른쪽으로꼬리가긴모형 -1 에가까울수록왼쪽으로꼬리가긴모형 EDA 에서의다섯수치요약 ( 최소값, 제 1 사분위수, 중위수, 제 3 사분위수, 최대값 ) (min, HL, M, HU, max)

30 2 2 0 00 N=65 5 3 1 058 15 10 2 1333458889 d(m)=(65+1)/2=33 22 7 3 0355789 (11) 11 4 11133456678 d(h)=(33+1)/2=17 32 17 5 11122233344456688 15 6 6 147779 M=48, HL=33, HU=58 9 5 7 33478 4 2 8 29 min=0, max=99 2 2 9 09 65 (0, 33, 48, 58, 99) SKEW = [(58-48)-(48-33)]/[(58-48)+(48-33)] = (10-15)/(10+15)=-5/25=-0.2 부호가음수임으로이분포는왼쪽으로약간긴꼬리를뻗은분포

31 2. 문자값중위수 M, 4 분위수 H, 8 분위수 E, 16 분위수 D, 32 분위수 C, 64 분위수 B, 128 분위수 - A 자료의크기가 400-500 이상이아닌경우무의미 예 : N=65 인경우 중위수의깊이 : d(m)=(n+1)/2 d(m)=33 4분위수의깊이 : d(h)=([d(m)]+1)/2 d(h)=17 8 분위수의깊이 : d(e)=([d(h)]+1)/2 d(e)=9 16 분위수의깊이 : d(d)=([d(e)]+1)/2 d(d)=5 32 분위수의깊이 : d(c)=([d(d)]+1)/2 * 64 분위수의깊이 : d(b)=([d(c)]+1)/2 * 128 분위수의깊이 : d(a)=([d(b)]+1)/2 * < 수리통계학시험점수자료의문자값전시 > 깊이 문자값 중앙 mid 산포 spr 중위수 M 33 48 48 * 4 분위수 H 17 33 58 45.5 25 8 분위수 E 9 23 73 48 50 16 분위수 D 5 18 78 48 60 끝값 1 1 0 99 49.5 99

32 3. mid와 spr의추이 문자값들사이의관계 (mid 값사이의관계 ) (1) 분포가대칭인경우 M = mid H = mid E = mid D = mid C = mid B = mid A D E H M H E D

33 (2) 분포가왼쪽으로긴꼬리를뻗은경우 M > mid H > mid E > mid D > mid C > mid B > mid A D E H M H E D (3) 분포가오른쪽으로긴꼬리를뻗은경우 M < mid H <mid E < mid D < mid C < mid B <mid A D E H M H E D

34 Spr 값의추이 분포가대략대칭인경우 spr 의추이는첨도를알려준다. 분포가정규분포인경우 문자값 mid spr M * H E D 모표준편차의 1.35 배가 spr(h) 와같으므로의추정치로 pseudo-sigma 는표본표준편차 EDA 의첨도의정의 또는 0. 675 1. 15 1. 535 ~ 2 N(, ) = spr(h)/1.35 pseudo-sigma 에비하여저항력이강하기때문에 EDA 에사용 KURTOE/H = (EU-EL)/(HU-HL)-1.704 = spr(e)/spr(h)-1.704 KURTOD/H = (DU-DL)/(HU-HL)-2.274 =spr(d)/spr(h)-2.274 ( 정규분포의 KURTO 는 0 이다 ) 0. 675 1.35 1. 15 2.30 1. 535 3.07 s

35 ## 구간 (, ) 에서동일한확률밀도를갖는균등분포를고려 문자값 mid spr M * H E D 0. 5 0. 75 0. 875 0. 5 0. 75 0. 875 1.5 1.75 KURTOE/H = 1.5 / -1.704 = -0.204, KURTOD/H = 1.75 / -2.274 = -0.524 KURTO 의값이음수 KURTO 의값이양수 정규분포에비하여중앙에상대적으로많은자료점이집중되고꼬리부분에서는상대적으로자료점이희박정규분포에비하여중앙에상대적으로자료점이희박꼬리부분에서는상대적으로자료가많음

36 ## 중심, 감소율를갖는이중지수분포 (double exponential distribution) 고려 문자값을구해보자.( 위꼬리확률 ) 이므로중위수 M 은 HU = 이고위사분위 HU 는 문자값 mid spr M * H E D f ( x;, ) / 2exp[ x ] P{ X u;, } 1/ 2exp[ u] log e (2) / log e (4) / log e (8) / log e (2) / log e (2) / log e (4) / log e (8) / 0 u x 2log e(2) / 2log e(4) / 2log e(8) / KURTOE/H = loge(4) / loge(2) 1.704 = 0.296 KURTOD/H = loge(8) / loge(2) 2.274 = 0.726 KURTO 의값이양수는정규분포에비하여꼬리가두껍다

4. 전통적인수치요약과의비교 1) 평균의특성 - 편차제곱합을최소화 ( ) 증명 ) 2) 중위수 (M) 의특성 편차절대값을최소화자료값이으로표현하면이홀수이짝수증명 ) 교재참고증가함수와감소함수를구분짖는위치를선택 m N i i x x a 1 2 ) ( min ) / ( 1 N a m x N i i 2 2 1 2 1 ) ( ) ( ) ( m x N m a x a N i i N i i a a N 1 min 1 x a N i i x N N a a a M x N N N 2, ( 1 ) / 2 / 2 / 2, 1)/ ( 37

38 전통적인왜도 (sewness) 와첨도 (urtosis) 의정의 2 m m /( m ) 3 3/ 2 3 /(m2 ) 왜도 = 첨도 = X 4 2 평균이인확률변수의중심차적률의정의는 m m E[( X ) ], 2,3,4! /[( / 2)!2 중심차적률왜도첨도 정규분포, 가짝수 0 0 0, 가홀수 /( 1) 균일분포, 가짝수 0-1.2 0, 가홀수!/ 이중지수분포, 가짝수 0 3 / 2 m 0, 가홀수 ]

39 5. 미니탭을이용한수치요약의계산 데이터불러오기 File > Open Worsheet 데이터

40 문자값작성 Stat > EDA > Letter Values

41 <OUTPUT> Results for: Scores.TXT Letter Value Display: score 분위수범위 Depth Lower Upper Mid Spread N= 65 M 33.0 48.000 48.000 H 17.0 33.000 58.000 45.500 25.000 E 9.0 23.000 73.000 48.000 50.000 D 5.0 18.000 78.000 48.000 60.000 C 3.0 10.000 89.000 49.500 79.000 B 2.0 0.000 90.000 45.000 90.000 1 0.000 99.000 49.500 99.000 6. 상자그림 (BOX PLOT) 다섯수치요약을이용하여시각화하는방법상자그림 ( 상자 - 수염그림 ) < 단순한상자그림의작성방법 > 1) 다섯수치요약 (min, HL, M, HU, max) 를구한다. 2) 위 아래사분위수 (H) 위치에네모형상자를그린다. 상자내에중위수 (M) 에 해당되는위치에 + 표시또는칸막이막대표시를한다. 3) 최소값과최대값의위치에점을찍고이점을상자의양끝과선분으로연결

42 < 대표적인상자그림작성방법 > 1) 다섯수치요약 (min, HL, M, HU, max) 를구한다. 2) 위 아래사분위수 (H) 위치에네모형상자를그린다. 상자내에중위수 (M) 에 해당되는위치에 + 표시또는칸막이막대표시를한다. 3) 다음과같이양쪽안울타리 (inner fence) 값 IF 를계산한다. 그리고, 양쪽바깥울타리 (outer fence) 값 OF 를계산한다. IF IF L U H H L U 1.5spr( H ) 1.5spr( H ) 4) 양쪽안울타리의안쪽에있으면서경계에가장가까운값을찾아낸다. 이자료점을 인접값 (adjacent value) AV 라고한다. 인접값과상자의양끝과연결 AVL HL M HU AVU 5) 안울타리와바깥울타리사이에있는자료점을특이점 (outlier) 으로간주하고그 위치에 * 표시. 바깥울타리의바깥에있는자료점은특별한특이점 (special outlier) 으로간주그위치에 o 표시. + OF OF L U H H L L 3.0spr( H ) 3.0spr( H ) AVL HL M HU AVU + * * o

43 1995 년인구및주택센서스보고에따른경기도 경상남도의시, 군과서울시 부산시구의인구자료 경기도수원 756 성남 869 의정부 276 안양 591 부천 779 광명 351 평택 313 동두천 72 안산 510 고양 518 과천 68 구리 142 남양주 229 오산 70 시흥 133 군포 235 의왕 109 하남 116 양주 95 여주 92 화성 159 파주 163 광주 86 연천 52 포천 119 가평 50 양평 71 이천 155 용인 243 안성 120 김포 108 경상남도창원 482 울산 967 마산 441 진주 330 진해 126 통영 132 사천 113 김해 256 밀양 122 거제 148 의령 38 함안 60 창녕 71 양산 163 고성 60 남해 60 하동 55 산청 43 함양 45 거창 70 합천 62 서울시종로 190 중구 136 용산 254 성동 334 광진 382 동대문 416 중랑 440 성북 490 강북 390 동봉 356 노원 569 은평 485 서대문 360 마포 386 양천 461 강서 503 구로 365 금천 285 영등포 414 동작 422 관악 548 서초 385 강남 535 송파 637 강동 487 부산시중구 64 서구 175 동구 152 영도 506 부산진 453 동래 312 남구 312 북구 278 해운대 302 사하 381 금정 308 강서 67 연제 246 수영 196 사상 296 기장 69 1) < 줄기와잎그림 > < 다섯수치요약 > 9 0 767998557 단위 10(x 첨영 ) 10 1 4301561520 4 2 7234 2 3 51 0 4 3 5 911 0 6 2 7 57 1 8 6 31V M 142 H 93.5 294.5 spr(h) = 201 1 70.5 554.5

44 2) 아래사분위수 93.5와위사분위수 294.5를이용하여상자를그리고, 중위수 142의 위치에 + 표시 I + I 150 300 450 3) 안울타리 (inner fence) 값 IF를계산 IFL = HL - 1.5 spr(h) = 93.5-1.5 201 = -208, IFU = HU + 1.5 spr(h) = 294.5 + 1.5 201 = 596. 바깥울타리 (outer fence) 값 OF를계산 OFL = HL 3.0 spr(h) = 93.5-3.0 201 = -509.5, OFU HU + 3.0 spr(h) = 294.5 + 3.0 201 = 897.5. 4) 아래인접값 AVL은최소값과같은 50, 위인접값 AVU는 591. I + I 150 300 450 600 5) 위안울타리 IFU와바깥울타리 OFU의사이에있는자료점을찾아 * 표시 o 자료는없음. I + I * * * 150 300 450 600 750

45 7. 특이점 정규분포 평균이 이고분산이인정규분포의경우 사분위수 H H = 0.675 이므로 spr(h) = 1.35 안울타리 (inner fence) 값 IF IF = 정규분포에서 2 2. 7 바깥의확률이 0.007, 즉 0.7% 임을알수있다 ( 즉, N=100 인경우특이값으로판정될자료점의수는평균 1 개미만 ) ( 0.675 ) 1.51.35 2. 7 균일분포균일분포 (, ) 에서동일한확률밀도사분위수 H H = 0. 5 이므로 spr(h) = 안울타리 (inner fence) 값 IF IF = ( 0.5 ) 1.5 2 이들값들은양의확률밀도갖는구간 (, ) 를벗어나므로, 균일분포에서는특이점이검출되지않는다.

46 이중지수분포중심 이고감소율 의이중지수분포고려 사분위수 H H = 이므로 spr(h) = 안울타리 (inner fence) 값 IF IF = 이중지수분포에서는 즉, 6.25% 이다. N=100 인수치자료에서특이값으로간주되는자료점의수는 평균 6.25 개씩이나된다. log e (2) / ( log e(2) / ) 1.5 2log e(2) / 4log e (2) / 2log e (2) / P( X 4log (2) / ) exp[ (4log (2) / ] e exp[ 4log e (2)] 2 4 e 1/16 0.0625 종합 ( 결론 ) 균일분포에서는특이값이절대로검출될수없으며, 정규분포에서는간혹검출될수있으나, 이중지수분포에서는꽤빈번히특이점판정이내려진다.

47 8. 여러묶음수치자료의비교 경기도, 경상남도, 서울 부산세그룹별로비교 1) 세그룹의문자값전시 (1) 경기도시군인구 Depth Lower Upper Mid Spread N= 31 M 16.0 142.000 142.000 H 8.5 93.500 294.500 194.000 201.000 E 4.5 70.500 554.500 312.500 484.000 D 2.5 60.000 767.500 413.750 707.500 C 1.5 51.000 824.000 437.500 773.000 1 50.000 869.000 459.500 819.000 (2) 경상남도의시군인구 Depth Lower Upper Mid Spread N= 21 M 11.0 113.000 113.000 H 6.0 60.000 163.000 111.500 103.000 E 3.5 50.000 385.500 217.750 335.500 D 2.0 43.000 482.000 262.500 439.000 1 38.000 967.000 502.500 929.000 (3) 서울 부산의구인구 Depth Lower Upper Mid Spread N= 41 M 21.0 365.000 365.000 H 11.0 278.000 453.000 365.500 175.000 E 6.0 175.000 503.000 339.000 328.000 D 3.5 102.500 541.500 322.000 439.000 C 2.0 67.000 569.000 318.000 502.000 1 64.000 637.000 350.500 573.000

48 2) 세그룹의상자그림 (1) (1) 경기도의시군인구 수부 --------------- 원천남 ---I + I------------------- * * * --------------- --------+---------+---------+---------+---------+--------- 150 300 450 600 750 성 (2) 경상남도의시군인구진 마창 울 ------ 주 산원 산 -I + I----- * * O O ------ +---------+---------+---------+---------+---------+-------n 0 200 400 600 800 1000 (3) 서울 부산의구인구 ---------------- ------------------I + I--------------- ---------------- +---------+---------+---------+---------+---------+------s-p 0 120 240 360 480 600

49 3) 세그룹의상자그림 (2) ----------- 경기도 --I + I--------------- ** * ----------- ------ 경상남도 -I + I----- * * O O ------ ---------- 서울 부산 -----------I + I--------- ---------- +---------+---------+---------+---------+---------+------C5 0 200 400 600 800 1000 [ 미니탭의활용 ] @ BOX-PLOT Graph > Character Graph > Boxplot. @ 미니탭의 stac( 쌓기 ) Manip > Stac/Unstac > Stac Columns.

50 9. 요약 1. EDA의다섯수치요약최소값, 제1사분위수, 중위수, 제3사분위수, 최대값 2. 문자값중위수 M, 사분위수 H, 8분위수 E, 16분위수 D, 32분위수 C 등등 3. 문자값에서의 mid(= 두분위수의중앙값 ) - 왜도 (sewness) 증가하는지, 감소하는지에따라분포의기울기정도, 방향을알수있음 4. 문자값에서 spr( 두분위수의차이 ) - 첨도 (urtosis) 증가하는속도에따라꼬리가얇은분포인지, 두터운분포인지알수있음 5. 미니탭에서의문자값전시를위한메뉴명령 Stat > EDA > Letter Values. 6. 상자그림은기본적인다섯수치요약을그래프화한것 7. 상자그림에서특이점으로판정하는경계선은 HL-1.5Ⅹspr(H), HU+1.5Ⅹspr(H) 특이한특이점을판정하는경계선은 HL-3.0Ⅹspr(H), HU+3.0Ⅹspr(H) 8. 자료가정규분포이면특이점으로판정되는자료점의수는 0.7% 에불과 9. 상자그림은여러묶음의수치자료를비교하기에효율적인그래프적수단동일한척도의수직선에상자그림을그리는것이바람직