위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞

Similar documents
Microsoft Word - EDA_Univariate.docx

statistics

슬라이드 1

R t-..

(001~006)개념RPM3-2(부속)

G Power

공공기관임금프리미엄추계 연구책임자정진호 ( 한국노동연구원선임연구위원 ) 연구원오호영 ( 한국직업능력개발원연구위원 ) 연구보조원강승복 ( 한국노동연구원책임연구원 ) 이연구는국회예산정책처의정책연구용역사업으로 수행된것으로서, 본연구에서제시된의견이나대안등은

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>

생존분석의 추정과 비교 : 보충자료 이용희 December 12, 2018 Contents 1 생존함수와 위험함수 생존함수와 위험함수 예제: 지수분포

Microsoft Word - EDA_Univariate.docx

PowerPoint 프레젠테이션

Microsoft PowerPoint - SBE univariate5.pptx

Microsoft Word - SAS_Data Manipulate.docx

3 장기술통계 : 수치척도 Part B 분포형태, 상대적위치, 극단값 탐색적자료분석 두변수간의관련성측정 가중평균과그룹화자료

중심경향치 (measure of central tendency) 대표값이란용어이외에자료의중심값또는중심위치의척도 (measure of central location) 라고도함. 예 : 평균 (mean= 산술평균 ; arithmetic mean), 절사평균 (trimmed

Microsoft PowerPoint - ºÐÆ÷ÃßÁ¤(ÀüÄ¡Çõ).ppt

자료의 이해 및 분석

통계학입문

확률 및 분포

(3) 추론에서계산이모수적방법보다훨씬단순. (4) 사용자가이의논리를스스로발견하게하며이해하기쉬움. (5) 표본이정규분포를따를때에도검정력에큰손실이없으며, 정규분포와상이한경우에이의검정력은정규분포에의한방법보다크다. 3. 부호검정 (Sg test) 모집단의중앙값에대한검정으로관찰

기술통계

이 장에서 사용되는 MATLAB 명령어들은 비교적 복잡하므로 MATLAB 창에서 명령어를 직접 입력하지 않고 확장자가 m 인 text 파일을 작성하여 실행을 한다

Microsoft Word - Ch1_Introduction_EDA.docx

고객관계를 리드하는 서비스 리더십 전략

Microsoft Word - SPSS_MDA_Ch6.doc

Microsoft PowerPoint - 26.pptx

모수검정과비모수검정 제 6 강 지리통계학

1 경영학을 위한 수학 Final Exam 2015/12/12(토) 13:00-15:00 풀이과정을 모두 명시하시오. 정리를 사용할 경우 명시하시오. 1. (각 6점) 다음 적분을 구하시오 Z 1 4 Z 1 (x + 1) dx (a) 1 (x 1)4 dx 1 Solut

..(..) (..) - statistics

Microsoft PowerPoint - PDF3 SBE pptx

제장 2 비모수 검정(NONPARAMETRIC ANALYSIS) ③ 연구자는 SPSS 출력결과에서 유의확률을 확인하여 귀무가설(H0 )의 기각, 채택 여부를 결정한다. 예를 들어 연구자가 연구자료의 정규성을 검정하기 위하여 유 의수준을 α = 0.05로 설정하고 SPS

Microsoft PowerPoint Relations.pptx

용역보고서

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

7) 다음의 다음 9) 남학생과 9. zb 여학생 각각 명이 갖고 있는 여름 티 셔츠의 개수를 조사하여 꺾은선그래프로 나타낸 것 이다. 이 두 그래프의 설명으로 옳지 않은 것은? ㄱ. ㄴ. 회째의 수학 점수는 점이다. 수학 점수의 분산은 이다. ㄷ. 영어점수가 수학 점

통계학입문

= ``...(2011), , (.)''

제 3강 역함수의 미분과 로피탈의 정리

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

PowerPoint 프레젠테이션

슬라이드 1

PowerPoint 프레젠테이션

수도권과비수도권근로자의임금격차에영향을미치는 집적경제의미시적메커니즘에관한실증연구 I. 서론

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

Microsoft PowerPoint - Stat03_Numerical technique(New) [Compatibility Mode]

Microsoft PowerPoint - IPYYUIHNPGFU

<B0A3C3DFB0E828C0DBBEF7292E687770>

제 4 장회귀분석

untitled

Vector Differential: 벡터 미분 Yonghee Lee October 17, 벡터미분의 표기 스칼라미분 벡터미분(Vector diffrential) 또는 행렬미분(Matrix differential)은 벡터와 행렬의 미분식에 대 한 표

설계란 무엇인가?

Microsoft Word - Chapter6.doc

실험 5

Microsoft Word - ch3_residual.doc

<B4EBC7D0BCF6C7D02DBBEFB0A2C7D4BCF62E687770>

텀블러514

PowerPoint Presentation

Microsoft PowerPoint 상 교류 회로

2156년올림픽 100미터육상경기에서여성의우승기록이남성의기록보다빠른첫해로남을수있음 2156년올림픽에서 100m 우승기록은남성의경우 8.098초, 여성은 8.079초로예측 통계적오차 ( 예측구간 ) 를고려하면빠르면 2064년, 늦어도 2788년에는그렇게될것이라고주장 유사

... —... ..—

Microsoft PowerPoint - e pptx

Microsoft PowerPoint - chap06-2pointer.ppt

용역보고서

Microsoft Word - Software_Ch2_FUNCTION.docx

제 1 절 two way ANOVA 제1절 1 two way ANOVA 두 요인(factor)의 각 요인의 평균비교와 교호작용(interaction)을 검정하는 것을 이 원배치 분산분석(two way ANalysis Of VAriance; two way ANOVA)이라

Microsoft PowerPoint - chap02-C프로그램시작하기.pptx

저작자표시 - 비영리 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 이차적저작물을작성할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물

Microsoft Word - ch8_influence.doc

학습목표 함수프로시저, 서브프로시저의의미를안다. 매개변수전달방식을학습한다. 함수를이용한프로그래밍한다. 2

22 장정규성검정과정규화변환 22.1 시각적방법 Q-Q 플롯과정규확률그림 Q-Q 플롯( 분위수- 분위수플롯, Quantile-Quantile plot) 은하나의자료셋이특정분포( 정규분 포나와이블분포등) 를따르는지또는두개의자료셋이같은모집단분포로부터나왔는지를

Microsoft PowerPoint - ch10 - 이진트리, AVL 트리, 트리 응용 pm0600

ANOVA 란? ANalysis Of VAriance Ø 3개이상의모집단의평균의차이를검정하는방법 Ø 3개의모집단일경우 H0 : μ1 = μ2 = μ3 H0기각 : μ1 μ2 = μ3 or μ1 = μ2 μ3 or μ1 μ2 μ3 àpost hoc test 수행

10. ..

슬라이드 1

<4D F736F F F696E74202D20C4C4C8B031B1DEC7CAB1E22DC0FCC3BCB1B3C0E72D D3133B3E232C8B8B1EEC1F6202D20BAB9BBE7BABB2E707074>

모수 θ의 추정량은 추출한 개의 표본값을 어떤 규칙에 의해 처리를 해서 모수의 값을 추정하는 방법입니다. 추정량에서 사용되는 규칙은 어떤 표본을 추출했냐에 따라 변하는 것이 아닌 고정된 규칙입니다. 예를 들어 우리의 관심 모수가 모집단의 평균이라고 하겠습니다. 즉 θ

OCW_C언어 기초

윈도우즈프로그래밍(1)

영상 처리 프로그래밍 By Visual C++

한국보건사회연구원통계학및계량경제학의기초및응용 강의노트 2017 년 4 월 5 월 통계학 : 통계적추론 (Statistical Inference) I. 들어가며 이제통계학에서가장중요한토픽이라고할수있는통계적추론에대해서본격적으로공부를해보도록하겠습니다. 통계적추론을통해연구와관

목차 1. 통계학이란무엇인가? 2. 통계학의응용분야 3. 통계학의분야들 4. 강의소개 5. 그리고..

<C0E5B7C1BBF328BEEEB8B0C0CCB5E9C0C729202D20C3D6C1BE2E687770>

이다. 즉 μ μ μ : 가아니다. 이러한검정을하기위하여분산분석은다음과같은가정을두고있다. 분산분석의가정 (1) r개모집단분포는모두정규분포를이루고있다. (2) r개모집단의평균은다를수있으나분산은모두같다. (3) r개모집단에서추출한표본은서로독립적이다. 분산분석은집단을구분하는

가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차

Microsoft Word - logic2005.doc

01

강의 개요

Microsoft PowerPoint - ch07 - 포인터 pm0415

비트와바이트 비트와바이트 비트 (Bit) : 2진수값하나 (0 또는 1) 를저장할수있는최소메모리공간 1비트 2비트 3비트... n비트 2^1 = 2개 2^2 = 4개 2^3 = 8개... 2^n 개 1 바이트는 8 비트 2 2

Microsoft Word - Chapter9.doc

슬라이드 1

<4D F736F F F696E74202D20342E20B1E8C1F6C7FC28BFACB1B8C0DAB8A620C0A7C7D120B1D7B7A1C7C120B1D7B8AEB1E2292E >


LaTeX. [width=1em]Rlogo.jpg Sublime Text. ..

<4D F736F F D20BDC3B0E8BFADBAD0BCAE20C1A B0AD5FBCF6C1A45FB0E8B7AEB0E6C1A6C7D E646F63>


슬라이드 1

공기업정책학석사학위논문 공공기관의성과연봉제가 경영성과에미치는영향에관한연구 년 월 서울대학교행정대학원 공기업정책학과 정민기

저작자표시 - 비영리 - 변경금지 2.0 대한민국 이용자는아래의조건을따르는경우에한하여자유롭게 이저작물을복제, 배포, 전송, 전시, 공연및방송할수있습니다. 다음과같은조건을따라야합니다 : 저작자표시. 귀하는원저작자를표시하여야합니다. 비영리. 귀하는이저작물을영리목적으로이용할

중간고사

Transcription:

줄기잎그림 stem and leaf + 진단내용 1) 분포의개략적인형태를알수있다. (1) 좌우대칭인가? 아니면 skewed 되었는가? (2) 봉우리 (modal) 는하나인가? 아니면여러개인가? 2) 이상치의존재여부를쉽게파악할수있다. + 데이터 ( 정렬 ) ( 정렬않음 ) + 그리는순서 자료를크기순으로정리한다. 자료의수가많을때는자료정렬을수작업하기어려움으로이단계는무시해도되지만자료를크기순으로정렬해놓으면 plot 을그리기편리하다. 자료를살펴줄기와잎을결정한다. CEO 연봉자료를살펴보면 100 단위를줄기로하고 10 단위이하를잎으로하여 plot 을그리면될것이라는것을알수있다. 줄기수는히스토그램의계급구간수에해당되므로 8~12 정도가적절하다. 적정개수가아닌경우줄기수조정에대해서는다음에다루기로한다. 한열에줄기 (stem) 를먼저그린다. 8

위에서 100 단위이상을줄기로하기로결정하였고자료의최소값이 58, 최대값이 1103 이므로 0 부터 11 까지줄기를한열에크기순으로적는다. 줄기 (stem) 옆에잎을그린다. 잎을그리는방법은간단하다. 줄기바로뒤의숫자를줄기옆에차례로적으면된다. CEO 연봉자료는잎이두자리이지만앞에것하나만적으면된다. 굳이반올림하는수고를할필요는없다. 줄기-잎그림의목적은자료의분포형태와이상치를아는것이주된목적이기때문이다. 줄기 - 잎그림 + 엑셀에서콤마가있는파일형식으로저장한후읽어들인다. + ds$ 변수명 ; 오브젝트 ds 내의변수명변수를이용지정 줄기-잎그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트의줄기-잎그림을그리고해석하시오. 2) 키데이터전체에대한줄기-잎을그리고해석하시오. 9

+ Stem-leaf plot 해석하기 > 자료의분포형태 stem-leaf plot 을통하여자료의분포형태를알수있으므로분포의형태를알수있다. 이는히스토그램과같은역할이다. > 봉우리 ( 최빈값 ) 위치및개수 => 봉우리의개수가집단의개수이다 > 좌우대칭여부 > 자료의범위및분산 > 이상치존재여부및위치 ( 히스토그램과비교 ) 줄기-잎그림을 90 도회전하면히스토그램 ( 이를 bar chart 라고도함 ) 이된다. 히스토그램은자료의값의정보가상실되지만 ( 실제값은알수없고빈도만바의크기로나타난다 ) stemleaf plot 은자료값이나타난다. 그러므로히스토그램에비해더많은정보를얻을수있다. (1) 확률분포함수추정 위의예제처럼 stem-leaf plot 의정점을연결하면확률분포함수를얻게된다. 아래그림은 모집단 CEO 연봉의확률밀도함수의추정형태이고 ( f (x) ) 면적은 1 이다. (2) 대칭, 치우침여부 symmetric (bell-shaped) 좌우대칭, 종모양 skewed to the right positively skewed 우로치우침 skewed to the left negatively skewed 좌로치우침 10

평균과중앙값일치평균 > 중앙값평균 < 중앙값 좌우대칭으로만들려면 자료변환을하면된다. X* X mild pos. X* log( X ) pos. X * 1/ pos. X * 1/ severe X severe X more 2 X* X mild neg. 3 X* X extreme neg. ( 정규성검정 ) Anderson-Darling test for normality ( 연봉모평균에대한 95% 신뢰구간구하기 ) conf.level=0.95 11

히스토그램그리기 우로치우침이있으므로제곱근변환, 혹은로그변환데이터중어느변환이더 좌우대칭분포에가까운지알아보시오. (3) 봉우리위치및개수히스토그램의봉우리는분포의최빈값에해당되는부분으로일반적으로최빈값은하나일가능성이가장높다. 구간설정에따라바로옆의구간이동시에최빈값이되는경향이가끔나타나기도한다. 다음의경우는 bi-modal 분포함수라하지는않는다. 왜냐하면구간을조정하면봉우리가하나로될수있기때문이다. CEO 연봉은단봉형태를갖는다. 단봉 uni-modal 다봉 bi-modal / multi-modal 봉우리가 2 개이상인의미는모집단이하나이상일가능성이많다. 예를들어한남대학생들 100 명의몸무게를조사하여히스토그램을그리면 bi-modal 형태가될가능성이높다. 왜냐하면여자와남자몸무게의차이가나기때문에그런현상이발생한다. 즉측정변수의특성에따라모집단이나누어진다. 용돈을조사하여히스토그램을그려보면아마봉우리가 3-4 개일가능성이있다. 왜? 학년별차이로인하여 이처럼어떤변수를측정하느냐에따라같은모집단이라도봉우리의개수가다를수있다. 봉우리가 2 개이상인경우는집단을분리하여추정및검정을시행하는것이바람직하다. 그러나집단에대한정보가없다면데이터를분리하여분석하는것이쉽지않다. 12

( 왜좌우대칭이어야하나?) 1) 회귀분석, 분산분석등대부분의통계분석에서종속변수는정규분포를따르고있다는가정을한다. 만약이것이무너지면 t-검정, F-검정을사용할수없다. 3 학년수업에서배우기를 2) 대표본표본크기 n 의크기? : 자료분석의목적은그래프정리 (bar chart, pie chart) 나숫자적정리 ( 평균, 표준편차 ) 에서끝나는것이아니라이정보를가지고모수 ( 예 : 모집단의평균 ) 를추정하거나그에대한가설을검정하게된다. CEO 30 명의연봉자료를이용하여전체 CEO 의연봉에대해알고싶은것이다. 통계소프트웨어에서출력되는 p- 값은 two-sided( 양측검정 ) 가설검정시값을출력한다. 그러므로위의경우대립가설을 H : 350( 양측검정 ) 설정하면 p-값이 0.0821 로 a 0.05 보다크므로귀무가설을기각할수없으나대립가설을 H : 350( 단측검정 ) 설정하면 p-값이 0.04105 이므로 0.05 보다적어귀무가설을기각하고연봉은높아졌다고결론지을수있다. 그러므로양측검정결과귀무가설이기각되면같은유의수준에서단측검정결과도귀무가설을기각한다. a (4) 범위와흩어진정도 분포의형태를알수있으므로자료의범위 (range= 최대값 - 최소값 ) 와흩어진 (spread) 정도를 알수있다. 흩어진정도 ( 표준편차 ) 범위 (range) (5) 이상치 (outlier) 발견다른관측치에비해매우크거나적은관측치를이상치 (outlier) 라한다. 이런이상치는히스토그램에서쉽게발견될수있다. 히스토그램이나 stem-leaf plot 의경우다른관측치와멀리떨어져있으면이를이상치라한다. CEO 연봉자료에서이상치는연봉이 1103( 백만 ) 인사람이다. 물론이값이이상치인지는검정통계량을이용하여 (Box-plot 이나검정방법을이용하여검정해야하지만우선쉽게찾을수있다는장점이있다. CEO 연봉의경우다른 CEO 에비해연봉을이상적으로높게받는 CEO ( 이를이상치라함 ) 가있음을알수있다. 13

이상치가발견되면그해결책은이상치인관측치의원자료를확인, 입력오류인지살펴본다. 오류가있으면정정한다. 이상치의대상인개체를조사해문제가있는개체이면자료에서제외한다. 예를들면 1103( 백만 ) 연봉을받는사람을조사하였더니외국인전문사장이었다. 국내 CEO 연봉으로간주하기어렵다면제외여전이유효한데이터이면자료변환을통하여이문제를해결하게된다. 변수변환 ( 자료변환 ) 을통하여이상치문제가해결되면이는치우침의한부분이된다. + 줄기수조정일반적으로자료의분포형태를잘파악하기위해서는줄기의수가 8-10 개정도되어야한다고한다. 연봉데이터예제에서본것처럼줄기수는변수측정치의범위에의해결정된다. 그러므로줄기의수를조정하여적절한줄기-잎그림을그려야한다. > 줄기수가너무많으면 (squeezed stems) 줄기를일정한수만큼합치는방법을생각하면된다. 만약줄기가 1-20 까지있다면 1-2, 3-4, 5-6,, 19-20 을각각줄기로하면줄기수가 20 개에서 10 개로줄어든다. 이처럼줄기수에따라 2 배, 3 배, 4 배씩줄이면된다. > 줄기수가너무적으면 (stretched stems) 줄기를 2 등분 (double stem) 혹은 5 등분 (five-line stem) 하여사용한다. ( 예 ) double stem: 1 * (1.0~1.4), 1. (1.5~1.9) ( 예 ) five-line stem: 1 * (.0,.1), 1 t (.2,.3), 1 f (.4,.5), 1 s (.6,.7), 1. (.8,.9) 14

적정줄기수에관한공식 > Sturges formula L [ 1 log 2 n] ( 예 ) n=30 L=5 > Velleman formula L [ 2 n] ( 예 ) n=30 L=10 > Dixon-Kronmal formula L [ 10log10 n] ( 예 ) n=30 L=14 그러나위의공식에의해줄기수 (L) 를결정하면자료값에따라줄기를결정하기어렵고분포형태를제대로알기어려운문제가있어이공식들은사용되지는않는다. [x] 의의미는 x 보다크지않는최대정수값을의미한다. [2.9]=2 / [3.1]=3 R 활용 - nclass 옵션은구간의개수를결정한다. - freq 옵션은빈도대신상대빈도 ( 확률 ) 을 y- 축으로사용하라는옵션 - 함수 lines() 는확률밀도함수를그리라는옵션 히스토그램그리기 http://lib.stat.cmu.edu/dasl/stories/singerheights.html 합창단원의키에대한 ( 단위 : inch) 데이터이다. 1) 각파트별히스토그램을그리고해석하시오. ( 확률밀도함수도그리시오 ) 2) 키전체에대한히스토그램을그리고해석하시오. 15