PowerPoint 프레젠테이션 - PDF Free Download

1 강. 통계학의소개 의료경영학과오창석 wazoski@ysu.ac.kr

1 강학습목표 통계학무엇인지이해한다. 모집단과표본에대해이해한다. 통계조사의종류에대해이해한다. 모수와통계량에대해이해한다. 기술통계와추리통계학의차이를이해한다. 통계적추론이무엇인지이해한다.

통계란? 통계란, 어떤현상에대한측정결과를서술하거나일부에대한측정결과를근거로전체를미루어생각하는절차 - 현상 : 관찰대상이나사건 - 변수 : 분류체계나측정도구에의해수치로표현될수있는현상의속성 - 자료 : 분류체계나측정도구를사용하여변수를수치로표현한것

커플에관한재미있는통계 (1) 1. 20 세에서 25 세사이의커플중 90% 는만난지한달안에키스가가능하다고생각한다. 2. 그중 52% 는지지부진한진도에짜증을슬슬내려는참이다. 3. 커플들의싸움을일으키는 76% 의원인이사소한습관때문이다. 4. 만약당신이 " 내친구의남자친구는그렇지않더라 " 는발언으로빅평가하려한다면그말을잠자코듣고있던당신남자친구의 87% 는자괴감에밤잠을설칠것이다. 5. 물론그들중 30% 는화를내기도한다. 6. 연애에빠진경험이없는사람들의 72% 는그들의첫사랑을만났을때커플링따위의상징물을만들고싶어한다.

커플에관한재미있는통계 (2) 7. 한번헤어졌던연인과관계회복을꿈꿨던사람은무려 82% 에달한다. 8. 헤어졌다가다시만난커플의해피엔딩가능성은 3%. 9. 35 세에서 44 세사이미국여성의 43% 가량이연하남성과결혼하고있고일본의신혼부부 5 쌍중한쌍이연상연하커플이다. 우리나라는 10% 의신혼부부가누나와동생사이. 10. 커플들이여행을떠나는이유는 62% 가농도깊은스킨십을시도하기위함이다.

커플에관한재미있는통계 (3) 11. 목적성첫데이트로 37% 의커플이놀이공원을꿈꾼다. 12. 소개팅으로만나커플로발전할수있는사람은 27% 에불과하며그들의 92.5% 가선과소개팅은전혀다른성질의것이라고생각한다. 13. 법적인커플로안정을찾기까지인간은평균 4.8 번의인연을거쳐야한다. 14. 물론첫사랑이결혼으로이어지는커플도 3%. 15. " 우리사귈래?" 혹은 " 결혼할래?" 라고먼저제안할수있는여자는 72%, 하지만그들의 80% 가자존심과사회적통념때문에선뜻말을꺼내지못한다.

커플에관한재미있는통계 (4) 16. 먼저말을꺼낸 14.4% 여자의용기에대해 89% 의남자가고마워한다. 17. 지속기간이한달미만인커플이 83%, 1 년이상꾸준한교제를이어온그들은과거, 한달미만의연애경험은없었던일과마찬가지로치부한다. 18. 23% 의연인들이대답하기를, 서로를간절히원하고그리워하는시간은저녁식사를마친뒤잠이들기전, 저녁 11 시부터새벽 1 시사이라고. 19. 나머지 77% 는늘그립다. 20. 다른커플들은어떻게사랑하고, 어떻게즐기는지궁금해하는연인은 99.9%, 허나막상남의사랑이야기에관심을갖고귀를기울이는사람은 13% 에불과하다.

통계학 (Statistics) 통계학의어원 : 국가산술 (State Arithmatic) 자연현상, 사회현상, 경제현상등을대상으로여러가지자료와정보를과학적으로분석하고추론하는학문 통계학은학문의특성에서이론분야와응용분야가공존하며상호보완 - 이론분야 : 확률론, 수리통계, 이론통계 - 응용분야 : 실험계획, 선형모형, 시계열, 품질관리, 신뢰성이론, 전산통계, 보건통계 - 응용분야는연구대상에따라생물통계, 경제통계, 공업통계, 공식통계등일일이열거할수없을정도로다양

보건통계학의정의 건강이나질병등보건과관련된여러현상을기술하고추론하는학문 병원통계 (hospital statistics) : 병원의환자진료및진료수익등을분석하여병원경영및기획등에필요한자료를제공하는원무통계를말함. : 원무통계는목적에따라내원형태별, 환자종류별, 수가유형별, 진료의사별, 검사항목별등으로다양하게진료수익및실적들을정리하고분석함.

보건통계학의의의 지역사회나국가의보건상태 ( 수준 ) 평가 보건사업의필요성을강조하고행정활동의지침 보건입법및보건사업에대한지원촉구 보건사업의우선순위결정과보건사업기술발전에기여 보건사업의기초자료제공 지역사회주민의질병양상파악 보건사업평가및보건사업을위한지역사회협조를구하는데활용

통계표명 : 출생, 사망추이 단위 : 명, 1 천명당명, 세 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 출생아수 ( 명 ) 614,233 634,501 554,895 492,111 490,543 472,761 435,031 448,153 493,189 465,892 출생 조출생률 ( 인구 1 천명당명 ) 합계출산율 ( 가임여성 1 명당명 ) 13 13.3 11.6 10.2 10.2 9.8 8.9 9.2 10 9.4 1.41 1.47 1.3 1.17 1.18 1.15 1.08 1.12 1.25 1.19 사망 사망자수 ( 명 ) 245,364 246,163 241,521 245,317 244,506 244,217 243,883 242,266 244,874 - 조사망률 ( 인구 1 천명당명 ) 5.2 5.2 5 5.1 5.1 5 5 5 5 - 기대수명 ( 년 ) 75.6 76 76.5 77 77.4 78 78.6 79.2 79.6 - 수명 남자 ( 년 ) 71.7 72.3 72.8 73.4 73.9 74.5 75.1 75.7 76.1 - 여자 ( 년 ) 79.2 79.6 80 80.5 80.8 81.4 81.9 82.4 82.7 - 출처 : 통계청 인구동태통계조사 * 기대수명 (Life expectancy at birth): 0 세출생자가향후생존할것으로기대되는평균생존년수로서, 0 세의기대여명 을말함.

통계학을공부하는이유 의학논문의평가 환자진료에연구결과의적용 인구동태통계의해석 역학적현상의이해 적절한진단방법의사용 의학연구의수행

통계학의기본용어 모집단과표본 - 모집단 : 관심의대상이되는모든개체의특성을나타내는관측값이나측정값의전체집합 - 추출단위 : 전체를구성하는각개체들 - 특성값 : 각추출단위의특성을나타내는값 - 표본 : 통계적분석을위해실제로관측한측정값의집합 - 관찰값 : 표본의특성값, 관찰된측정값

통계학의기본용어 예 : 우리나라고등학교남학생의키를알고싶어, 무작위로 100 명을선택조사한경우 - 모집단 : 국내고등학교남학생전원 - 추출단위 : 남학생개개인 - 특성값 : 키 - 표본 : 조사대상이된 100 명 - 관찰값 : 조사후관찰된키

통계조사의종류 전수조사 - 관심있는모집단전체를조사하는경우 - 주로모집단의규모가작은경우에조사예 ) 통계청주관인구총조사 표본조사 - 모집단을대표하기위해일부추출된표본을가지고조사예 ) TV 시청률, 국내인기가요순위조사 - 표본추출방법 : 확률표본추출, 비확률표본추출 (p.34)

표집방법 (Sampling Method) 1) 단순확률추출법 (simple random sampling) : 무작위추출방법, 난수표 ( 확률수표 ) 사용 2) 계통추출법 (systematic sampling) : 모집단에서표본을추출할때일정한간격을두고표본추출하는방법 3) 층화추출법 (stratified sampling) : 모집단을그구성성분에따라몇개의동질적인소집단 ( 층 ) 으로분류한다음각소집단으로부터단순확률추출하는방법 ( 연령별, 성별, 인종별, 학과별로, 같은지역별등 ) 4) 집락추출법 (cluster sampling) : 모집단이집단 (cluster) 으로구성된경우, 일부집단을임의로선택하여집단내에서임의표본추출방법

표본조사를하는이유 1) 모집단을전수조사하는것이불가능한경우가많다. 2) 비표본오차를줄일수있다. 조사수가많아지면측정오차이외에도 기획, 조사, 관리, 분석등의단계에걸쳐오차가많아진다. 3) 특이성이변하지않는시점에서속히조사를할필요가있을경우 순간적인특성을파악할수있다. ( 여름철유행성전염병발생률등 ) 4) 전수조사에비해서표본조사는인력, 경비, 시간등이절약된다. 5) 표본통계량으로부터모수의추정이가능하다

통계조사의예

모수와통계량 모수 (Parameter) - 모르는수? - 모집단의특성을나타내는양적인측도 - 주어진모집단의분포를나타내기위한수치 - 모수치의평균을뮤 (μ ), 표준편차를시그마 (σ ) 로표시 - 예 ) 모집단평균, 분산, 표준편차 통계치, 통계량 (Statistic) - 표본의특성을나타내는양적인척도 - 통계치의평균은엑스바 x, 표준편차를 s 로표시 - 예 ) 표본평균, 분산, 표준편차, 승산비, 각종검정통계량

통계방법의종류 통계학 - 자료이요약을통해정보를추출 - 모집단의정보를표본을이용해서추출 기술통계 - 표나도표등을이용하여대표값이나변동의크기를구하는방법 - 막대그래프, 원그래프, - 평균, 분산등 추론통계 - 자료에내포되어있는정보를분석하여불확실한사실에대한추론 - 표본의기술통계결과를바탕으로모집단의특성을추출

통계방법의종류 모집단 표집 표본 추론통계분석 가설검증 ( 기술통계분석 ) [ 모집단조사 ] [ 표본조사 ]

통계학의분야 미지의특성추측 자료의수집 자료의특성파악및규칙성발견 모형의설정 자료의정리, 요약 비교, 분석, 평가 미래에대한예측 기술통계학 추측통계학 확률을통해서 과학적, 합리적의사결정

2 강. 통계자료의수집과정리 의료경영학과오창석 wazoski@ysu.ac.kr

2 강학습목표 변수를정의한다. 변수의종류를이해한다. 척도의종류를이해한다. 데이터축약의의미를이해한다. 도수분포표와히스토그램을이해한다.

통계자료 통계자료 (data) - 통계분석의대상이되는자료는변수들의집합 - 정확한자료는정확한정보를준다 - 일변량자료, 이변량자료 변수 (Variable) - 연구하려고하는속성 - 개체에따라변화가가능한상태또는특성 - 연구대상이되고있는일련의객체가어떤속성에있어서로구별될수있을때이속성을변수라고함 - 개인이라면, 성별, 연령, 학력, 종교, 생화수준 - 상수 : 개체에따라변화가가능하지않은상태

변수의종류 (1) : 인과관계에따른 독립변수, 설명변수 - 어떤변수에영향을주는변수 - 변수자체로서독립적성격을가지며, 종속변수와의인과적관계를설정함 - 연구자는독립변수를조작함으로종속변수에어떤영향을미치는지를분석하고자함 종속변수, 반응변수 - 다른변수의영향을받는변수 - 이변수의해석은독립변수나매개변수와의인과적관계에서해야함구별될수있을때이속성을변수라고함

변수의종류 한국경제에대한판단 MB 지지도 독립변수 ( 설명변수 ) 종속변수 ( 반응변수 )

변수의종류 교수법에따른 a. 부호중심교수법 b. 총체적언어교수법 언어능력차이 독립변수 ( 설명변수 ) 지능 매개변수 종속변수 ( 반응변수 )

변수의종류 독립변수 ( 병원만족도 ) 종속변수 ( 재이용의사 ) 조절변수 ( 연령 / 성별 )

뭘조사하려고하는걸까?

뭘조사하려고하는걸까? 독립변수 종속변수

뭘조사하려고하는걸까? 종속변수 독립변수

변수의종류 (2) : 속성에따른 양적변수 - 연구자의관심대상이되는속성을수치로나타낼수있는변수 - 키, 몸무게, 성적 질적변수 - 양화된수치로표현하기보다는종류에차이가있어범주로분류할수있는변수 - 출신지, 성별, 종교, 기관

변수의종류 (3) : 연속성에의한변수 연속변수 - 두관찰값사이에무한한수의값 ( 소수점표시가능 ) 이존재하는변수로주로관찰값을재어서 (measure) 얻을수있음 - 키, 몸무게 비연속변수, 이산 ( 離散 ) 변수 - 두관찰값사이가분리되어중간값이없는변수를의미, 주로관찰값을세어서 (count) 얻을수있음 - 사람수, 자동차수, 주사위값등

조사하려면먼저척도화하여야한다! 성 : 남자 / 여자 연령 : 세 소득수준 : 원 학력 : 초졸 / 중졸 / 고졸 / 대졸 거주지 : 중소도시 / 대도시 진료과 : 내과 / 외과 / 소아청소년과 / 산부인과등 질병정도 : 경증 - 중증 입원기간 : 30 일이내 /60 일이내 /90 일이내 /91 일이상

측정 (Measurement) 과척도 (Scale) 측정 - 사물을구분하기위하여이름을부여하거나사물의속성을구체화하기위하여수를부여하는과정 척도 - 사물의속성을구체화하기위한측정의단위 - 측정수준에따라서명목척도, 서열척도, 등간척도, 비율척도가있음

척도 (Scale) (1) 명목척도 (Nominal Scale) : 분류 - 질적인차이로어떤사물, 사람또는속성을구분하고분류해서각범주에대해임의로숫자나기호를부여하는척도 - 계량적의미없음 - 성별, 종교, 취미등 - 교차분석, 빈도분석에사용 - 남자 = 1, 여자 =2 - 선수등번호

척도 (Scale) (2) 서열척도 (Ordinal Scale) : 분류, 순위 - 어떤사물의속성에대하여크기나양의많고적음, 크고작음의순서를비교할수있도록수치를부여하는척도 - 더잘하거나, 못한다는순위를나타내고있을뿐, 어느정도잘하는지, 못하는지에대한정보는없음 - 1 등, 2 등, 3 등은순위는나타내지만, 어느정도잘달리는지는알수없으며, 1 등,2 등, 3 등간의달리기속도는같은간격을보인다고할수없음 ( 즉, 몇배더잘달린다고할수없음 ) - 순서척도, 순위척도라고함 - 서열상관관계, 교차분석, 카이검증등에적용

척도 (Scale) (3) 등간척도 (Interval Scale) : 분류, 순위, 등간격 - 서열화된척도이면서, 동시에각수치들간의간격이같음 - 절대영점을가지지않음 - 학업성취지수, 지능지수, 온도등 - 기온 5 도와 15 도의차이와 10 도와 20 도의차이는같음그러나 10 도가 5 도보다두배더덥다고할수없음 (4) 비율척도 (Ratio Scale) : 분류, 순위, 등간격, 비율 - 절대영점있음 - 몸무게, 길이, 키, 금액, 시간등 - 평균, 표준편차, 정규분포검증 ( T- 검증, F- 검증, 회귀분석 ) - 10kg 은 5kg 의두배라고말할수있음

데이터의이해 데이터 정성적데이터 정량적데이터 명목척도 순서척도 등간척도 비율척도 범주형질적데이터 연속형양적데이터

변수 (SPSS)

3 강. SPSS 데이터입력하기 의료경영학과오창석 wazoski@ysu.ac.kr

SPSS 소개 SPSS (Statistical Package for the Social Science) 1968 년미국시카고대학교의국민여론연구소에서사회과학자료의분석을위해개발 SPSS 의실행 - 바탕화면의 SPSS 아이콘실행 - [ 시작 ]-[ 모든프로그램 ]-[SPSS for Widows] 실행

SPSS 를이용한통계분석의기초적단계

데이터편집기구조 Data Edition( 데이터편집기 ) Data Edition ( 데이터편집기 ) 질문 1, 질문 2, 질문 3, Case( 설문지응답자 ) 데이터의저장시확장자명.sav : data file 결과저장시확장자명.spo : output file 변수에대해여러가지설정이가능하 다. 실질적으로 coding 이이루어지는곳.

결과창의구조 SPSS 뷰어 SPSS를 data edition 창을통해입력된 data 분석을확인하는창으로써통계분석결과와도표등이제시된다.

메뉴바와도구모음 SPSS 주메뉴, 도구모음및상태표시줄 새로운데이터파일을만들때, 기존의파일을열거나다양한유형으로파일을저장할때, 파일인쇄및 SPSS를마칠때시용. 최근에사용한파일들의목록이있어이전문서로빨리돌아갈수있으며, 최근문서목록의수는 [ 편집 ] 에서옵션 (N) 기능을이용하여변경할수있음.

메뉴바와도구모음 편집 (E) 메뉴 데이터또는분석결과내용의오려두기, 복사, 현재파일의다른위치나다른파일에붙여넣기, 삭제 변수내에서특정값이데이터를찾고 SPSS의선택옵션을설정할수있음. 보기 (V) 메뉴 상태표시줄, 도구모음등을숨기거나나타낼수있으며, 폰트를바꾸거나변수값에대한설명을할수있음. 변수값설명을이용하려면 [ 변수설명 ] 을클릭하여 표시가생기도록한다.

메뉴바와도구모음 데이터 (D) 메뉴 변수나케이스들을삽입하고정렬하는등 SPSS 데이터 파일에대한전반적인처리작업을할수있음. 변환 (T) 메뉴 원데어터 (raw data) 파일에코딩된값들중일부를적절하게재코딩하는기능등을수행. 설문지에역방향척도 (reverse scale) 가있는경우에이를원래응답치와는정반대로재코딩할때변화 (T) 메뉴중코딩변경 (R) 기능을사용함.

메뉴바와도구모음 분석 (A) 메뉴 그래프 (G) 메뉴 실질적데이터분석 데이터및분석결과와관련하여막대그 래프, 선그래프, 원그래프, 히스토그램등 다양한도표들을선택할수있음.

유틸리티 (U) 메뉴 메뉴바와도구모음 변수와파일에관한정보를찾거나변수 군을정의하는데사용됨. 창 (W) 메뉴 : 다른창으로이동하거나 SPSS 데이터편집기나뷰어를최소화시킴 도움말 (H) 메뉴 : 다른 Windows 프로그램들의도움말기능과같다.

도구모음 메뉴바와도구모음 파일열기 : 이미만들어진파일을연다. 파일저장 : 새로운파일, 혹은기존에만들어진파일을저장. 인쇄 : 파일인쇄. 대화상자다시불러오기 : 마지막에사용된대화상자다시불러오기. 도구모음상자의위치를바꾸고자한다면도구상자내에버튼이없는부분을마우스로클릭하여원하는위치에끌어당기면 (drag) 도구상자의위치가변경됨. 변수정보 : 변수관련정보제공. 케이스로이동 : 해당숫자의케이스로이동. 도표로이동 : 해당이름의도표로이동. 복구 : 데이터입력, 혹은데이터유형실행취소.

메뉴바와도구모음 변수군사용 : 변수군을만들어낸다. 변수군설명 : 변수값설명을보이도록하거나보이지않도록한다. 케이스선택 : 특정기준을사용하여케이스셋 (case set) 찾기. 가중케이스 : 케이스들에가중치를둔다. 찾기 : 기록찾기. 케이스삽입 : 데이터파일에새로운케이스추가. 변수삽입 : 데이터파일에새로운변수추가. 파일분할 : 몇몇정의된변수에따라파일분할. 다른응용프로그램들과마찬가지로 SPSS 12.0에서도도구모음 (toolbar) 을이용하여빠르고쉽게작업을수행할수있음 [ 보기 (V)] 에서 [ 도구모음 (T)] 에클릭을통해 표시를하면도구모음이보임.

상태표시줄과대화상자 상태표시줄 (Status Bar) 현재상태, 명령실행과정, 현재분석이실행되고있는케이스의수등을보여주며, [ 보기 (V)] [ 상태표시줄 (S)] 을클릭하여 표가생기도록, 혹은없어지도록조정해주면됨. 대화상자 (Dialog Boxes) 모든분석방법선택시대화상자가나타나며, 대화상자를통하여분석대상변수와옵션등을선택할수있음. 모든통계분석방법선택시처음나타나는주대화상자 (main dialog box) 들은크게네가지구성요소들로이루어져있음. 변수목록상자 (source variable list) 분석대상변수목록상자 (target variable list) 명령버튼 (command pushbuttons) 하위대화버튼 (subdialog pushbuttons)

대화상자 변수목록상자 : 현재사용중인데이터파일의변수목록을보여주며, 데이터편집기상에서각변수 ( 들 ) 에대한설명을입력해준경우에는 설명 [ 변수명 ] 의형태로제시되며, 변수설명을입력하지않은경우에는 변수명 만제시됨. 분석대상변수목록상자 : 분석을위해선택한한개혹은여러개의변수 ( 들 ) 목록을보여주며, 분석방법에따라서독립변수 ( 요인 ) 와종속변수의형태로제시되기도함. 하위대화버튼 : 통계분석결과에추가적으로제시하 기를원하는내용들을지정할수있음. 명령버튼 : 확인 ( 분석실행 ), 도움말등프로그램실 행과관련된명령을수행하는버튼.

대화상자예 문자형변수 분석할변수를선택후화살표클릭 목록에서오른쪽마우스단추를누르고팝업내용메뉴에서변수정보를선택 팝업창에변수이름과이변수및변수값에지정되어있는모든설명이표시

데이터창에직접입력하기 [ 파일 ]-[ 새로만들기 ]-[ 데이터 ] 데이터보기탭클릭 : 데이터입력 변수보기탭클릭 : 각변수의변수명및변수속성지정

데이터창에직접입력하기 고객 쇼핑시간 구입액 1 2 5 2 3 10 3 1 10 4 4 20 5 2 15 6 4 30 7 5 20 8 1 5 9 2 10 10 2 5 11 2 5 12 3 20 13 1 5 14 4 20 데이터보기창에복사하기 1. 다음과같은엑셀파일을작성 2. 마우스로드래그한뒤 Ctrl+C 3. SPSS 편집창에올려놓고 Ctrl+V 변수보기창에서고치기 1. 이름부분의변수이름란에서더블클릭혹은 (F2 키 ) 2. 변수명입력후유형, 자리수, 소수점등을고친뒤설명을부가한다.

한글에서작성된데이터파일읽기 기존 SPSS 데이터불러오기 [ 파일 ]-[ 열기 ]-[ 데이터 ] 기존에만들어진확장자명이 ***.Sav 을불러올수있음 SPSS 데이터파일이아닌데이터파일불러오기 [ 한글 ] 프로그램에서만들어진자료 데이터입력후저장시확장자명을 txt 로전환하여저장 [ 메모장 ] 에서만들어진 txt 파일 단계적절차에따라불러오기 [Excel] 에서만들어진파일 이런아이콘이 Sav 파일

한글에서작성된데이터파일읽기 [ 한글 ] 프로그램에서만들어진자료불러오기과정 1 HWP 에서의자 료코딩의예 2 HWP 에서의 자료저장 3 HWP 에서의 자료저장 파일이름입력 파일형식지정

한글에서작성된데이터파일읽기 저장된파일을 SPSS 상에서불러오기위한절차

텍스트데이터읽기 텍스트데이터파일읽기 - 단계별불러오기과정 2 1

텍스트데이터읽기텍스트데이터읽기 3 4 6 5 가져온데이터파일에서변수를생략하려면미리보기창에서변수를누르고드랍다운목록에서가져올수없음을선택

실습 2 txt 파일읽기 STORE.TXT 파일을 c 드라이브에저장하여불러오기 7 1. 지정한내용을저장하여유사한텍스트데이터파일을읽을수있음 2. 기본명령문을붙여넣고저장할수도있음 3. 텍스트데이터파일을읽을준비가되면종료

엑셀데이터읽기 엑셀파일읽기 - 단계별불러오기과정 [ 파일 ]-[ 열기 ]-[ 데이터 ] 1. Excel 파일의첫행에변수명이있으면변수이름읽어오기선택 2. 다른 Sheet 에저장되어있을경우선택가능

실습 3 엑셀파일읽기 1. 왼편의데이터를엑셀에서작성 2. C:\data 폴더를만들고이폴더에저장하기 3. 데이터를불러들여보고 SPSS 데이터 파일로저장하기.

변수와 CASE 삽입및삭제 데이터파일에서변수의삽입및삭제 데이터파일에서 CASE 삽입및삭제 데이터 (D) 메뉴에서변수삽입 변수가삽입되고자하는열에서마우스클릭마우스오른쪽클릭 - 선택 데이터 (D) 메뉴에서케이스삽입 케이스가삽입되고자하는행에서마우스클릭마우스오른쪽클릭 - 선택

변수계산을통한새변수생성 변수계산 SPSS 데이터편집기상에입력된원데이터를이용 계산식을통하여몇개의변수를조합하여하나의변수로통합하거나다른수치로변환시켜야하는경우에사용 [ 변환 (T)]-[ 변수계산 ] 앞선백화점예제에서시간당구입액을계산하여새로운변수로지정해보자.

변수정의 변수의이름은문자로 마침표를찍지않음 공백과특수문자사용하지않음 동일한변수이름은있을수없음

결측값 시스템결측값 : 숫자변수에공백문자가할당된경우이를시스템결측값이라고한다. 사용자결측값 : 데이터가어떻게누락되었는가를나타내기위해사용되는결측값으로설문지에서 해당없음, 응답거부 등을사용자결측값으로지정한다.

4 강. 자료의통계적측정 의료경영학과오창석 wazoski@ysu.ac.kr

4 강수업목표 도수분포표와히스토그램을이해한다 평균값의의미를이해한다. 평균값의성질을이해한다. 산술평균, 기하평균, 제곱평균, 조화평균의차이를이해한다. 분산의의미를이해한다. 표준편차의의미를이해한다. 분산과표준편차를실습을통해구해본다.

다음의데이터는무엇을말하는가? 80 명의여대생키 (cm) 151 154 158 162 154 152 151 167 160 161 155 159 160 160 155 153 163 160 165 146 156 153 165 156 158 155 154 160 156 163 148 151 154 160 169 151 160 159 158 157 154 164 146 151 162 158 166 156 156 150 161 166 162 155 143 159 157 157 156 157 162 161 156 156 162 168 149 159 169 162 162 156 150 153 159 156 162 154 164 161

데이터와특징 데이터는그자체로아무것도알수없기때문에통계를사용함 분포한다 라고표현함 분포가생기는이유는그수치들이결정된이면에어떤 불확실성 이움직이고있기때문임 고유한특징 이나 반복 되는것을알아내는것이통계임

데이터를축약하는방법 축약 : 데이터로나열되어있는많은숫자를어떤기준으로정리정돈해서의미있는정보만을추출 1 그래프로만들어서그특징을파악할수있도록한다 2 숫자하나로특징을대표하도록한다 이때대표하는숫자를 통계량 이라고함

기술통계개요 기술통계 - 자료분석의가장기초단계 - 자료의모양을수치화하기전단계 - 변수의분포, 즉있는그대로의모양을보여줄수있으면좋다. - 표를이용한통계 - 그래프 (chart, graph) 를이용한기술통계 - 기술통계량을이용한기술통계 ( 평균, 중위수, 최빈값, 분산, 사분위수범위등 )

기술통계분석과정 기술통계분석과정 - 이산형변수 : 막대도표, 도수분포표, 분할표 - 연속형변수 : 히스토그램, 줄기잎그림, 5 4 3 2 1 0 항목 1 항목 2 항목 3 항목 4

막대그래프 (Bar Graph) 가장간단한통계적자료를요약하고있음 이산형변수의자료요약방법 - 수준별관측개수또는백분율로표시 - 변수의각특성값별로몇개의관측치가조사되었는가? 범주의배열은도수의크기분포순으로배열 33 28 12 5 항목 1 항목 2 항목 3 항목 4

원그래프 (Pie Chart) 가장간단한통계적자료를요약하고있음 이산형변수의자료요약방법 - 수준별관측개수또는백분율로표시 - 변수의각특성값별로몇개의관측치가조사되었는가? 범주의배열은도수의크기분포순으로배열 30% 24% 29% 17% 항목 1 항목 2 항목 3 항목 4

연속형변수 연속형변수는이산형변수보다더많은정보를가지고있다 이산형변수분석에사용된통계방법은연속형범주화를통해적용이가능하다 도수분포표 : 각특성값과관찰도수또는상대도수를표로정리 - 변수값이갖는범위결정 - 계급의수결정 - 폭 = 범위 / 계급의수

도수분포표와히스토그램만들기 히스토그램 : 도수분포표 를통해서, 만들수있음 1 데이터중에서 최대값 과 최소값 을찾는다 2 3 최대값부터최소값까지포함되도록구간을자르기좋은대강의범위를만들고그범위에서 5-8개의작은구간 ( 계급 ) 으로자른다. 각계급을대표하는수치를정한다. 대게는가운데값을선택하고, 이것을 계급값 이라고한다 4 각계급에들어가있는데이터의총수를센다. 이것을 도수 라고한다. 각계급의도수가전체에서차지하는비율을계산한다. 이것을 상대도수 라고한다. 5 상대도수는합하면 1 이된다. 어느계급까지의도수를모두합한다. 이것을 누적도수 라고한다. 6 최종누적도수는데이터의총개수와일치한다.

80 명의여대생키 (cm) 151 154 158 162 154 152 151 167 160 161 155 159 160 160 155 153 163 160 165 146 156 153 165 156 158 155 154 160 156 163 148 151 154 160 169 151 160 159 158 157 154 164 146 151 162 158 166 156 156 150 161 166 162 155 143 159 157 157 156 157 162 161 156 156 162 168 149 159 169 162 162 156 150 153 159 156 162 154 164 161

도수분포표 ( 여대생 80 명키에대한 ) 계급 계급값 도수 상대도수 누적도수 141-145 143 1 0.0125 1 146-150 148 6 0.075 7 151-155 153 19 0.2375 26 156-160 158 30 0.375 56 161-165 163 18 0.225 74 166-170 168 6 0.075 80 특징 1. 도수분포표를만들면잃어버리는정보가있다특징 2. 키는균등하게분포하지않고어느한구간 ( 계급 ) 에쏠려집중되어있다. 특징 3. 데이터의분포가어느한곳을축으로좌우대칭성이있다.

히스토그램 143 148 153 158 163 168

줄기잎그림 (Stem & Leaf)

실습문제 ( 여대생몸무게 ) 48 54 47 50 53 43 45 43 44 47 58 46 46 63 49 50 48 43 46 45 50 53 51 58 52 53 47 49 45 42 51 49 58 54 45 53 50 69 44 50 58 64 40 57 51 69 58 47 62 47 40 60 48 47 53 47 52 61 55 55 48 48 46 52 45 38 62 47 55 50 46 47 55 48 50 50 54 55 48 50 계급계급값도수상대도수누적도수 36-40 41-45 46-50 51-55 56-60 61-65 66-70

정리 1. 데이터자체는현실그대로를나타내지만아무리자세히본다고해도알수있는것은없다. 2. 데이터를축약하는방법에는그래프를만드는방법과통계량을구하는방법두가지가있다. 3. 도수분포표는데이터를 5-8 개정도의그룹으로나눈것이다. 도수분포표로데이터의특성 ( 데이터의집중이나대칭성 ) 을파악할수있다. 4. 히스토그램이란도수분포표를그래프로바꾼것으로더욱쉽게데이터의특징을파악할수있다

위치측도와산포측도 A. 위치측도 : 관측치가주로모여있는위치를나타내는측도 B. 산포측도 : 중심위치로부터각관측치들이퍼져있는정도

위치측도 a. 평균 (mean): 변수값의총합 / 관측갯수 b. 중위수 (median) : 측정값들을가장작은갓에서부터크기순서로나열했을때가장가운데위치하는측정값을말한다. c. 최빈수 (mode): 측정값들중에서가장빈도가많은측정값을말한다. d. 절대위치측도 : 사분위수와백분위수

산포의측도 ( 중심위치를기준으로얼마나퍼져있는가 ) a. 분산 : 중심위치의기준과각관측치간의제곱의평균값 b. 표준편차 : 분산의단위를평균과맞추기위한측도 c. 사분위수범위 : 중심위치기준이중위수 d. 변동계수 = 표준편차 / 평균

평균값의정의 평균값 : 데이터합계를데이터총개수로나눈값 (151+154+..+156+161) /80 = 157.575 도수분포표를통해평균값계산하는법 계급값 (A) 상대도수 (B) A x B 143 0.0125 1.7875 148 0.075 11.1 153 0.2375 36.3375 158 0.375 59.25 163 0.225 36.675 168 0.075 12.6 157.75

히스토그램에서평균값의역할

평균값을어떻게이해하는가? 데이터는평균값주변에분포한다 많이나타나는데이터가평균값에주는영향력은크다 히스토그램이좌우대칭인경우그대칭축을지나는점이평균값이된다.

실습문제 ( 평균값계산 ) 계급값도수상대도수계급값 x 상대도수 30 5 50 10 70 15 90 40 110 20 130 10

평균값의종류 A. 산술평균 B. 기하평균 C. 조화평균

분산의정의 국민소득 3 만불 국민소득 3 만불 A 국가 B 국가

분산의정의 분산 : 평균으로부터얼마나불규칙하게흩어져있는가를나타내는값 A BUS = 2 분늦거나 2 분빠름 B BUS = 10 분늦거나 10 분빠름

분산의계산 어떤버스가 7 시 30 분에도착하는데, 실제시간을구해보니아래와같다. 32 27 29 34 33

분산의계산 1. 평균값을알아보니 31 분이었다. 2. 그런데, 버스가도착한시간이제각각임을알수있다. 3. 얼마나제각각일까? 32 27 29 34 33 +1-4 -2 +3 +2 편차 (Deviation) : 각데이터가평균값을뺀값

분산의계산 4. 편차의산술평균을구하니값이 0 이된다. 5. 그래서, 제곱평균을사용하여구해본다. 32 27 29 34 33 +1-4 -2 +3 +2 1 16 4 9 4 1+16+4+9+4 5 = 6.8 분산 (Variance)

표준편차의계산 분산계산시분을제곱으로계산하였음 루트를통해서제곱양을다시계산 32 27 29 34 33 +1-4 -2 +3 +2 1 16 4 9 4 1+16+4+9+4 5 = 2. 61 = 6.8 표준편차 (Standard Deviation)

표준편차의의미 1. 버스는평균적으로시간표보다 1 분늦는버스다. 2. 그러나이것을아는것만으로는버스가언제올수알수없다. 버스는언제나 1 분늦게도착하는것이아니라도착시간이제각각이다. 3. 버스가도착하는시간의불규칙성, 시간표와맞지않아서확실하지않은상태를측정하는것이표준편차이다. 4. 2.6 분이라는것은정해진시간보다 2.6 분정도다를수있다고생각해도좋다. 5. 평균값이데이터의분포를대표하는수치지만, 표준편차는그대표값을기점으로해서데이터가대략얼마정도멀리위치하고있는지를나타내는통계량이라고볼수있다.

두점수의데이터와평균값 A 4 4 5 6 6 평균값 =5 B 1 2 6 7 9 평균값 =5 두점수의데이터편차 A -1-1 0 +1 +1 B -4-3 +1 +2 +4 A 의표준편차 = 약 0.89 B 의표준편차 = 약 3.03

도수분포표로표준편차를구하는방법 1 계급값 X 상대도수의합계로평균값을계산한다 2 평균값 - 계급값 = 계급값의편차 3 계급값의편차제곱후상대도수와곱한값을모두더한다 4 이렇게구한분산에루트를씌워서표준편차를구한다

(A) 계급값 (B) 상대도수 A X B 1 0.3 0.3 2 0.5 1.0 3 0.1 0.3 4 0.1 0.4 평균값 = 2.0 A( 계급값 ) C( 계급값 - 평균값 ) C 2 B C 2 XB 1-1 1 0.3 0.3 2 0 0 0.5 0 3 +1 1 0.1 0.1 4 +2 4 0.1 0.4 분산 = 0.8 표준편차 = 0.8 = 약 0.89

표준편차의의미 당신이 75 점을받았다. 평균이 60 점이고, 표준편차가 12 인 a 경우와표준편차가 8 인 b 경우는무엇을의미하는가? A 학생 : 10 번모의시험평균 : 60 점, 표준편차 10 점 B 학생 : 10 번모의시험평균 : 50 점, 표준편차 30 점

연습문제 데이터 6 4 6 6 6 3 7 2 2 8 평균값 편차 편차의제곱 평균값 표준편차 =

자료의방향성측도 a. 왜도 : 평균을기준으로자료가좌우대칭으로분포하고있는가? ( 좌우대칭 ) 왜도 = 0 ; 좌우대칭인분포왜도 > 0 ; 관측치가왼쪽으로치우친분포왜도 < 0 ; 관측치가오른쪽으로치우친분포

자료의방향성측도 b. 첨도 : 자료의분포가얼마나투터운가? ( 상하여부 ) 첨도 = 0 ; 정규분포첨도 > 0 ; 중앙이중규분포보다높다첨도 < 0 ; 중앙이정규분포보다낮다

p. 84 부터 ~~~~ 연습문제

5 강. 정규분포 의료경영학과오창석 wazoski@ysu.ac.kr

5 강학습목표 정규분포의정의 정규분포사용이유 정규분포의성질 표준정규분포 정규분포의적용

정규분포

정규분포의발견 무한수의사례가있는전집에기초를둔가설적이고이상적인분포이다. 18 세기천문학자우주관측후측정오차를도표화 아래와같은모양의분포를얻음 19 세기생리학자성인의키를측정분포도를작성 몸무게, 머리크기, 달리기속도등 전집에대한추리와같은현실적자료를설명하는데유익

정규분포의성질 대칭분포이다. 평균 = 중앙치 = 최빈치 단봉분포 (unimodal distribution) 이다. 종모양이다. X 축에점근 ( 漸近 ) 한다. 꼬리부분으로갈수로값은작아지지만완전히 0 이되지는않는다. + 에서 - 로점근한다. 면적은 1 이다. 분포의특징은평균 와표준편차 로나타낸다. 1 x 2 2.5066 2.718 무한수의사례가있는전집에기초를둔가설적이고이상적인분포이기때문 Y 2 2

정규분포곡선 0.4 0.3 Y N e 2 1 ( X ) 2 / 2 2 p 1 2 1 ( X ) 2 / 2 e 2 y 1 2 1 ( X ) 2 / 2 e 2 X N(, 2 ) 확률변인 X 가평균치 와표준편차 를가지고정규분포할때의표시 0.2 0.1 漸近한다 -3-2 -1 0 1 2 3 68.26 95.44 99.72

정규분포의질문 100 개의동전을동시에던졌을때앞면이나오는동전의수를데이터로집계하면평균이 50 이고, 표준편차가 5 이며정규분포를한다고한다. 이때 95.44% 의데이터를포함하는범위는? ( ) {( ) * 2} 에서 ( ) + {( ) * 2} 이기때문에, ( ) 에서 ( ) 사이의범위가된다

정규분포의다양성

표준정규분포의필요성 와 에따라다양한형태의정규분포가가능 =4 =1.5 =7 =2 =10 =1.0 분포의형태는다르지만평균을중심으로제한된범위내의확률은같다. 모든형태에적용가능한표준적인형태의분포를이용하는것이편리 1 2 3 4 5 6 7 8 9 10 11 12

표준정규분포 이게왜필요할까? X N(, 2 ) 인정규분포 Z X i 평균이 0 이고표준편차는 1 이되는정규분포로변환 Z X i N(0,1) 수표 2 를참조

표준분포의정규분포접근 표본자료에서모수치를추정할때충족되어야할두가지조건 표본이표집되는모집단분포가정규분포여야한다. 표본수가충분히커야한다. 표본분포는다소간불규칙적인데그이유는다음과같다. 표집방법이편기적반드시 측정도구의비신뢰성알아두자 표본의수, 표본의수가무한개에접근할때표본분포는이상적인정규분포에접근하며정규성의전제가가능하다 중심극한정리 : 모집단의분포형태에관계없이만약표본수가충분히크고표본이무선적으로표집된경우표본평균치의분포는정규분포를이룬다.

정규분포하의면적계산 1 대학생의체중 N=500 평균 =68 표준편차 =7 84kg 이상인사람 59kg 이하인사람 59kg 인사람 수표 2 에서면적을찾으면.4909 수표사용방법을잘익힐것 Z 84 7 68 2.36.5000-.4909 표준편차 2.36

정규분포하의면적계산 2 54kg 과 70kg 사이에는몇명이나있나? Z Z 54 68 7 1 70 68 7 2 2.07 0.36 수표 2 에서해당값을찾음 310.7 500.6214.4804.1406.6214

정규분포하의면적계산 3 하위 20% 에해당하는체중은얼마지? 20% 50% 30%.3 에해당되는 Z 점수는.84 20%.84 X 68 7 여기에해당되는 Z 점수를찾아야 X. 84 7 68 62.12

SPSS 를이용한계산 1 Statistics/Frequencies 메뉴를누르면나타나는창 빈도에대한그래프를그리고정규곡선을같이나타낼경우

SPSS 를이용한계산 2 14 12 신장 Statistics/Descriptives 를선택하면나타내는대화상자 10 8 6 4 2 0 Std. Dev = 7.14 Mean = 170.8 N = 30.00 155.0 165.0 175.0 185.0 160.0 170.0 180.0 신장 이것을선택하면표준점수를저장할수있다

6 강. 통계학적추정 의료경영학과오창석 wazoski@ysu.ac.kr

통계학적추정 통계적추정 : 표본의특성을분석함으로모집단의특성을추정하는것. 점추정, 구간추정 구간추정 : 모수의진정한값이포함되는구간 신뢰구간 : 믿음의정도를보조적으로제시함으로써점추정의불확실성을보완

통계적추정이출발점 정규분포를통해 예언 95% 적중이란말은 5% 의예언은틀린다는뜻 95.44% 의예언구간은 -2 이사 +2 이하 -1.96 이상 +1.96 이하로정리 -2.1 이상 +1.86 이하의상대도수 = 95% 일반정규분포의 95% 예언적중구간평균값이 이고표준편차 인정규분포 95% 의예언적중구간은 ( -1.96 ) 이상 ( +1.96 ) 이하.

일반정규분포의추정 데이터 x 가평균값이 이고표준편차 인정규분포를따를때 95% 예언적중구간은 X 1.96 1.96 문제 : 100 개의동전을던질때앞면이나올확률 95% 를구하라

예제문제 여성의키평균값이 160 이고, 표준편차가 10 인정규분포라고했을때, 당신이내일만날여성의키를예언한다고했을때, 95% 적중시키려면어느범위를예상하면좋을까? 식 답 :

가설검증의개념 가설검정의개념 : 정규분포를하고있는모집단의모수에서그모수가어떤수치인지를추측하는가설검정은다음과같이계산하면된다. 그모수의모집단이정규분포이고, 그평균값이 이고, 표준편차를 로했을때, 관측된데이터 X 에대한부등식 X 1.96 1.96 성립하면, 가설을채택한다. 그렇지않으면, 가설을기각한다라고설명한다.

예제문제 N 개의동전을던져서앞면이 10 개나온다고했을때던진개수를 N 으로하여다음두개중어느것이타당한것인가? 가. 16 개 나. 36 개 평균 = 8 평균 = 18 표준편차 = 2 표준편차 = 3 구간 = 구간 = 가. 5% 의희귀한일이일어남. 나. 가설이바르지않다 = 가설을기각한다.

예제문제 N 개의동전을던져서앞면이 57 개가나왔을때가설 N=100 개가기각되는가아닌가를계산하여답하시오.

추정의개념

표본으로모집단추정

추정의개념

모집단의모표준편차와모집단모평균의예 정규모집단에서표본평균의성질 : 정규모집단의모평균을 μ, 모표준편차를 σ 라고할때여기에서관측된데이터의 x의 n개에대한표본평균의분포는 x역시정규분포한다. x 의분포평균값은 μ 그대로지만, 표준편차는 n 가되어, 모집단에비해 n 분의 1로줄어든다. 정규모집단에서모평균의 95% 예언적중구간 x 1.96 1.96 n

모집단표준편차와모평균추정의예 모집단이정규분포를하고, 그모평균이 200 이며, 모표준편차가 10 이라고하자. 1) 모집단에서하나의데이터만관측할때그것이들어가는범위를계산하라 (95%) 2) 모집단에서 4 개의데이터를관측하고그표본평균을만들때, 그표본평균값이들어가는범위를계산하라 3) 모집단에서 16 개의표본을관측하고그표본평균값이들어가는범위를계산하라 (95%)

정답과의미하는것은? 1) 180.4 이상 219.6 이하 2) 190.2 이상 209.8 이하 3) 195.1 이상 204.9 이하 표본평균을만드는개수가늘어날수록예언하는구간이좁아진다

모집단표준편차와모평균추정

1 개모집단평균의추정 A. 정규모집단이라는것을알고있으며, 모분산 ( 표준편차 ) 을알고있을때모평균추정 - Z 값이용가. 모분산을알고있을때나. 모분산을모르나표본의크기가클때 B. 정규모집단이라는것을알지만, 모평균을모르고표본의분산 ( 표준편차 ) 을알고있을때모평균추정 - T 값이용 X t a/2 (n-1) S n X + t a/2 (n-1) S n

1 개모집단평균의추정 ( 예제 ) Q. 어느출판사가새로운대학교재를출판하기앞서교재가격을결정하기위하여교재 36 권을표본추출하여가격을조사하였더니, 표본들의평균가격이 24,200 원이었다. 이분야의교재가격의모집단의표준편차가 4,500 원일때모평균의 95% 구간을추정하라.

1 개모집단평균의추정 ( 예제 ) A. 24200-1.96*(4500/6) 24200+1.96*(4500/6) = 24200-1470 24200+1470 = 22730 25670

1 개모집단평균의추정 ( 예제 ) Q. K 회사에서생산되는제품의무게를추정하기위하여임의로 100 개의표본을추출하여평균은표본평균은 51.3kg, 표준편차는 6.8kg 을얻었다. 이제품의무게에대한모평균 95% 신뢰구간을구하라.

1 개모집단평균의추정 A. 정규모집단이라는것을알고있으며, 모분산 ( 표준편차 ) 을알고있을때모평균추정 - Z 값이용가. 모분산을알고있을때나. 모분산을모르나표본의크기가클때 B. 정규모집단이라는것을알지만, 모평균을모르고표본의분산 ( 표준편차 ) 을알고있을때모평균추정 - T 값이용 ( 모집단이정규분포라는것만알고모분산은모르는경우소표본에서모평균을추정한다 ) X t a/2,(n-1) S n X + t a/2,(n-1) S n

1 개모집단평균의추정 ( 예제 ) Q. 양산이라는도시에살고있는성인남성의콜레스테롤수준을조사하기위해 n=25 명의성인남성을조사한결과콜레스테롤의평균수준이 186 이었고, 표준편차가 12 였다. 모평균 95% 의신뢰구간을구하여라.

1 개모집단평균의추정 ( 예제 ) A. 186-2.06*(12/5) 186+2.06*(12/5) = 186-4.944 186+4.944 = 181.056 190.944

중간고사시험유형 1. 다음의각개념정의 ( 모집단, 표본, 표본추출방법, 기술통계, 추론통계, 독립변수, 종속변수, 연속변수, 이산변수, 척도, 결측값, 히스토그램, Stem-Leaf 그래프, 위치측도, 산포측도 ) 2. 다음의정규분포곡선에대비하여아래의그래프를그리시오. 평균 7, 최빈수 6, 중위수 8, 왜도 0.9, 첨도 1.0 3. 다음의평균과표준편차를구하시오. 데이터 8 4 6 6 6 10 10 6 6 8

4. 평균이 70 이고, 표준편차가 20 인 A 학생과평균이 50 이고표준편차가 40 인 B 학생이대학을선택할때어떤차이가있을수있는가? 5. 표준정규분포의특징 5 가지 6. 1000 명의통계학시험점수평균이 74 점, 표준편차가 4 일때점수가 68 점이하인학생의수는얼마인가? 7. 어느출판사가새로운대학교재를출판하기앞서교재가격을결정하기위하여교재 36 권을표본추출하여가격을조사하였더니, 표본들의평균가격이 24,200 원이었다. 이분야의교재가격의모집단의표준편차가 4,500 원일때모평균의 95% 구간을추정하라.

8. 양산이라는도시에살고있는성인남성의콜레스테롤수준을조사하기위해 n=25 명의성인남성을조사한결과콜레스테롤의평균수준이 186 이었고, 표준편차가 12 였다. 모평균 95% 의신뢰구간을구하여라. 9. 다음두가지의경우중어느것이동전 11 개가앞면에나올신뢰구간 95% 를포함하고있는지를식으로표현하라. A 와 B 중어느것이 95% 의신뢰구간에서동전앞면이 11 개가나올수있는가? 모집단의표준편차는 4 이다. A : 16 회를던져서, 평균 8 B : 36 회를던져서, 평균 12

7 강. 가설검정과 T-test 의료경영학과오창석 wazoski@ysu.ac.kr

가설의개념 가설 어떤현상이나원인이일어날수도혹은일어나지않을수도있는가정된사항 가설검정 통계적가설의타당성을검증하는것 표본의분포나자료로부터그표본이추출된모집단에관하여사전에설정된통계적가설이사실인지아닌지타당성을판정하는과정

가설 (Hypothesis) 귀무가설 (Null hypothesis) : 조사연구의과정에서직접검정의대상이되는가설로서이는어느한변수의값이얼마라든가, 또는둘이상의변수간에는어떤값이나관계가없다고진술된명제를말한다. 한변수의경우 Ho : 모집단 = 조사변수 : 차이가없다. 둘이상변수 Ho : 가집단 = 나집단 : 차이가없다 대립가설 (Alternative hypothesis) = 연구가설 : 대립가설이란귀무가설이받아들여질수없을때대신받아들여지는가설을말한다. 한변수의경우 H 1 : 모집단 조사변수 : 차이가있다. 둘이상변수 H 1 : 가집단 나집단 : 차이가있다

가설검정 1) 가설설정 ( 귀무가설 ) H 0 : 입원전 후환자의정신건강수준에는통계적으로유의한차이가없다. ( 대립가설 ) H 1 : 입원전 후환자의정신건강수준에는통계적으로유의한차이가있다. 2) 통계분석 : 변수의형태에따라통계분석방법을선택 3) P 값해석 : 통계팩키지 (SPSS 등 ) 가 P 값산출 4) 결론 : p<0.05 이면 귀무가설기각 대립가설채택 ( 연구가설채택 )

1 종오류와 2 종오류 가설검증의결과발생할수있는오류에는 1 종오류와 2 종오류가있다. 1 종오류 : 귀무가설이진실인데기각하는오류 2 종오류 : 귀무가설이허위인데기각하지않는오류 H 0 = 무죄, H 1 = 유죄 1 종오류 = 무죄인데, 유죄로판단하는경우 2 종오류 = 유죄인데, 무죄로판단하는경우

유의수준 연구자는가신이주장한가설에얼마만큼자신을가질수있는가? - 어느회사의맥주한병에담긴양이 640ml 가안된다는주장을한소비자단체가맥주 30 병을선택해서평균이 639ml 로나타난경우와 620ml 로나타난경우 유의수준 (Significant level) : 귀무가설을잘못기각하였을확률, 즉귀무가설이맞는데틀렸다고결론내릴확률을말함. P-value 로표시 유의수준 : 1 종오류의확률

영가설에대한.. 수용역과기각역 유의수준의값은 Fisher 의전통에따라서 1%(.01) 혹은 5%(.05) 로잡는다. 유의수준은 혹은 p 로나타내며, 수준이라고하기도하며, =.01, =.05 혹은 p=.01, p=.05 로나타내기도한다. 기각역 (2.5%) 수용역 (95%) 기각역 (2.5%) 유의수준이란연구자가감수하는위험율 영가설을받아들이는영역 두값을차이는우연의결과 0-1.96 1.96 두값의차이는진정한결과

양측검정과단측검정 남녀사이의키를비교할때 가설을아래와같이세울수있다. 1) 남자의키가클것이다 ( 방향설정 ) 단측검정 2) 남녀사이에차이가있을것이다 ( 방향설정하지않음 ) 양측검정

가설검정의방법 1. 통계학적가설을수립한다. 영가설 대립가설 2. 검정통계량을선정한다. t값을검정통계량으로선정 3. 유의수준을설정한다. α = 0.05( 또는 0.01) 4. 검정통계량을계산한다. 5. 판정을내린다.

T- 검정 (t-test) T 검정은두집단의평균비교 변수 종속변수 : 비율척도, 등간척도 독립변수 : 두개의집단 예 ) 성별, 지역 ( 도시, 농촌 ), 학력 ( 고, 저 ) 종류 단일표본 T-검정 독립표본 T-검정 대응표본 T-검정

단일표본 T- 검정 단일표본 T- 검정 모평균에대한검정할때사용 모집단의평균값을일반적인이해와는다르게연구자가사용하는경우 가설형태 H 0 = 학생평균신장은 150cm 이다 H 1 = 학생평균신장은 150cm 와차이가있을것이다.

단일표본 T- 검정 가설설정 분석 평균비교 단일표본 T- 검정

단일표본 T- 검정 과정 검정변수 : 검정하고싶은원하는변수삽입 검정값 : 변수와비교하려는값입력 최초급여 ( 변수 ) 평균값이 2400 인지검정할것이므로 2400 입력

단일표본 T- 검정 결과해석 유의수준 0.05 ( 또는 0.01) T값이 -7.454 이고유의확률은 0.001보다작음 유의수준보다유의확률이작으므로귀무가설기각 즉, 최초급여는 2400이아니다.

독립표본 T- 검정 독립표본 T- 검정 두개의독립모집단평균차이검증 두모집단이정규분포를이루며, 분산이같다는가정 표본의크기가크면 Z-test 를할수있으나 t-test 를사용하는것이보다엄격

독립표본 T- 검정 ( 예 ) 남녀대학생 10 명에대한보건의료통계학시험점수를나타내었다. 남녀의성적은차이가있다라고말할수있는가? 남자 77, 72, 77, 72, 76, 78, 74, 68, 57, 68 여자 90, 81, 85, 88, 89, 91, 78, 75, 76, 80 연구가설 :??

독립표본 T- 검정 ( 예 ) 자동차판매사원들을교육하는두가지방법중어느방법이더효과적일까? 신입직원 18 명을대상으로두그룹으로나누어 A 방법과 B 방법으로교육하였다. 두방법은다른판매실적을초래한다고할수있는가? (95% 신뢰수준에서 ) A 32, 44, 37, 35, 35, 31, 28, 34, 41 B 35, 40, 31, 27, 29, 32, 25, 31, 34 연구가설 :

대응표본 (a paired-diffrence) T- 검정 표본값들이짝을이룬값을비교할때 짝을이룬값들이서로독립적이지않으며, 모집단은두개가아닌하나임 패키지 A, B 에따라, 슈퍼마켓지점별판매실적을알아보고자할때

대응표본 T- 검정 ( 예 ) 표본값들이짝을이룬값을비교할때 짝을이룬값들이서로독립적이지않으며, 모집단은두개가아닌하나임 패키지 A, B 에따라, 슈퍼마켓지점별판매실적을알아보고자할때

8 강. 분산분석 (ANOVA) 의료경영학과오창석 wazoski@ysu.ac.kr

분산분석의개요 1 ANOVA : Analysis Of Variance ANOVA 는평균을비교하기위해집단의분산정보를이용하는방법 연속형결과변수의평균을 2 개이상의집단간비교 - 비교집단이 2 개인경우 독립표본 T 검정 - 비교집단이 3 개이상인경우 ANOVA 비교집단이서로짝지어진경우에도 ANOVA 분석이사용됨 - 비교집단이 2 개인경우 대응표본 T 검정 - 짝지어진집단이 3 개이상인경우 - ( 예 ) 학생들의키를초등학교, 중학교, 고등학교키를비교 ANOVA 분석

분산분석의개요 2 실험인자 (Factor) : 실험데이터에영향을줄수있는무수히많은원인들중에서실험에직접취급되는원인 인자수준 (Level): 실험을하기위한인자의조건들 ( 교육방법 1, 교육방법 2, 교육방법 3) 사과나무에수확량에영향을줄수있는요인 (Factor) - 품종, 날씨, 비료, 농약, 토질, 물주는횟수 사과나무수확량기준 반응값의결정 : 사과개수, 사과의평균무게, - 비료 3%, 5%, 7% 3 인자수준 (level) - 품종 A, B, C, D 4 인자수준 (level)

분산분석의종류 분산분석 : 인자의수준별집단의모평균을비교 실험인자개수에따라 - 일원배치분산분석 실험효인이 1 개인경우 - 이원배치분산분석 실험효과가 2 개인경우 - 다원배치분산분석 실험효과가 3 개이상인경우 반응변수개수에따라 - 일변량분산분석 반응변수가 1 개인경우 - 다변량분산분석 반응변수가 2 개이상인경우 표본이얻어지는방법에따라 - 독립자료분산분석 각측정치가독립되어있음 - 반복측정분산분석 측정치가서로상관되어있음 ( 예 : 동일학생의초, 중, 고등학교키비교 )

일원배치분산분석모형 실험인자가하나인실험계획자료를분석하기위한통계모형 - 일원배치법 : 하나의인자가관측값에미친영향을조사하는분산분석법 변동의요인 - 관측값의변화를일으키는요인 < 예제 > 교육방법 1 교육방법 2 교육방법 3 27 26 23 35 32 27 26 25 25 28 27 21 평균 26 27 24

일원배치분산분석평균차이해석 교육방법 1 교육방법 2 교육방법 3 27 26 23 35 32 27 26 25 25 28 27 21 평균 26 27 24 집단내에서 - 이관측값은학생에따라변화가있다 - 이변화는교육방법과관련이없는것이다 집단수준간 - 평균차이가있다 Q : 인자수준간평균차이만으로교육방법에차이가있다고할수있는가?

일원배치분산분석평균차이해석 인자수준평균차이만으로교육수준에차이가있다고할수있는가? - 우연히좀더능력이뛰어난학생이교육방법 1 에할당된경우 인자수준간평균차이에대한해석 - 교육방법각각에따른실제성적이차이가발생한경우 - 교육결과방법에따른것이아니라, 분산값들의큰차이에의한경우

일원배치분산분석 SPSS 교육방법 1 교육방법 2 교육방법 3 27 26 23 35 32 27 26 25 25 28 27 21 평균 26 27 24 일원배치분산분석귀무가설 : 세집단간평균차이가없다 일원배치분산분석검정통계량 : F 검정통계량 - 흔히분산분석을 F 검정이라고부르나, 올바른용어는아님.

일원배치분산분석결과

분산분석표

분산분석의이해

변동의분해

F 검정통계량 F > 1 집단간거리 > 집단내거리

F 검정통계량 F < 1 집단간거리 < 집단내거리

일원배치분산분석의정리

연습문제 1 교육프로그램 A B C D 65 75 59 94 87 69 78 89 73 83 67 80 79 81 62 88 81 72 83 69 79 76 90

연습문제 2 광고에대한태도점수 A 광고 B 광고 C 광고 4.1 3.1 3.5 남자 3.9 2.8 3.2 4.3 3.3 3.6 2.7 1.9 2.7 여자 3.1 2.2 2.3 2.6 2.3 2.5

연습문제 3 광고에대한태도점수 A 광고 B 광고 C 광고 2.7 1.9 2.7 남자 3.1 2.2 2.3 2.6 2.3 2.5 4.8 2.5 3.5 여자 4.7 2.33 3.2 4.9 2.5 3.6

이원배치분산분석의개념 하나의요인의주효과 다른요인의주효과 상호작용혹은교호작용유무를파악하기위함 유의확률이 0.05 보다작을때상호작용효과가있다 유의확률이 0.05 보다클때상호작용효과가없다

상호작용의개념

사후검증의의미

사후검증의의미 광고 a > 광고 c > 광고 B

사후검증의의미

9 강. 상관분석 의료경영학과오창석 wazoski@ysu.ac.kr

두변수관계의요약 선형관계 (linear relationship) : 비례관계 (Positive or negative)

두변수관계의요약 종속관계 독립변수 종속변수 회귀계수 비종속관계 비종속관계 상호의존관계 상관계수

선형관계와비선형모형

상관분석

상관계수

상관계수의크기

상관계수의크기와방향

상관계수의크기

상관분석

SPSS 상관분석실습 광고비지출과매출액간의관계를조사하기위해최근 10 개월간의자료를수집한결과아래와같다. 두변수간의상관관계를계산하고유의성을검증하라. 월광고비매출 1 2 3 4 5 6 7 8 9 10 1.2 0.8 1.0 1.3 0.7 0.8 1.0 0.6 0.9 1.1 101 92 110 120 90 82 93 75 91 105

SPSS 상관분석가설 연구문제 : 광고비와매출액간에는상관관계가있는가? 연구가설 : 광고비와매출액간에는상관관계가있다. Ho : 광고비와매출액간에는상관관계가없다 H1 : 광고비와매출액간에는상관관계가있다

SPSS 상관분석실습

SPSS 상관분석실습 ( 서열 ) 월소비자 A 소비자 B 1 2 3 4 5 6 7 8 7 4 2 6 1 3 8 5 1 5 3 4 8 7 2 6 두명의소비자가청량음료 8 개브랜드의선호도를서열척도로아래와같이평가하였다. 두사람의선호도에대한서열상관계수를계산하고유의성검증을하라 ( 유의수준 =.05)

SPSS 상관분석실습

10 강. 카이제곱검증 의료경영학과오창석 wazoski@ysu.ac.kr

적합도검증 적합도검증 (Goodness of Fit Test) : 어떤자료가주어진분포를한다고할수있는가를검증하는것. 수집된어떤자료가정규분포한다고할수있는가또는새로얻어진어떤자료가전에알고있었던어떤분포를따른다고할수있는가등을검증하는것. 예 : 100 명의학생이성적을얻었을때이성적자료가정규분포를하는가?

적합도검증 한자동차제조회사신제품개발담당자가현재신제품승용차의색깔대안을다섯가지로고려하고있으며, 소비자들이이중일부색을더선호하는지여부를알고자 300 명의소비자에게선호도조사를하였다. 이러한자료로부터소비자들의색깔의선호도가다르다고할수있는가? ( 유의수준 = 0.01) A B C D E 합계 88 65 52 40 55 300 연구가설 : 색깔의선호도에는차이가있을것이다.

독립성검증 독립성검정 (Chi-square independence Test ) : 수집된자료가명목척도로측정된경우, 두변수간의관련성 ( 차이 ) 이있는지를알아보기위한분석방법 독립성검정의예 : 가족규모에따라구매하는세탁기의크기가다르다고할수있는가? 1-2 명 3-4 명 5 명이상합계 소형 25 38 8 70 중형 10 62 53 125 대형 5 41 59 105 합계 40 140 120 300 연구가설 : 가족규모와세탁기크기는독립적이지않다. ( 가족규모에따라세탁기크기는다른다 )

카이검증 ( 기대빈도와관측빈도 ) 3 세반 4 세반 5 세반전체 찬성 6 명 (10 명 ) 10 명 (10 명 ) 14 명 (10 명 ) 30 명 반대 14 명 (10 명 ) 10 명 (10 명 ) 6 명 (10 명 ) 30 명 전체 20 명 20 명 20 명 60 명

독립성검증

카이검증보고서제시양식 허용제한적허용금지전체 x 2 남아 7(21.2%) 25(75.8%) 1(3.0%) 33(100%) 여아 6(25.0%) 14(58.3%) 4(16.7%) 24(100%) 3.65 전체 13(22.8%) 39(68.4%) 5(8.8%) 57(100%) df=2 남녀성비에따라전쟁놀이허용유무에대한카이검증결과성별에다른차이가없다.

11 강. 회귀분석 의료경영학과오창석 wazoski@ysu.ac.kr

회귀분석의개념 두변수가일관된관계일때한변수의알려진값을이용하여다른쪽의대응값을예측할수있음. 예를들어, 지능과창의성의경우. 한변수 (Y 값 ) 를다른변수 (X 값 ) 로부터예언하는것을회귀 (Regression) 이라고함. 회귀분석 : 독립변수가종속변수에영향을미치는정도를예측하고이들관계를하나의선형방정식으로표현함.

회귀방정식 Y 종속변수 X( 독립변수 ) 회귀방정식 : Y = Bx + a B: 회귀계수, a : 상수 ( 절편 )

회귀분석의목적 a. 가설의형태로되어있는종속변수와독립변수간의관계를실제현상에서확인하여봄 b. 독립변수를기초로하여종속변수를예측 c. 독립변수가종속변수에미치는영향력의크기를측정하여독립변수의일정한값에대응하는종속변수의값을예측할수있음

회귀분석의종류 a. 단순선형회귀분석 (Simple Regression Analysis) : 하나의독립변수와하나의종속변수사이의관계, 즉독립변수가종속변수에영향을미치는지, 인과관계가있는지를분석하는방법 ( Y= Bx + a) b. 다중선형회귀분석 (Multiple Regression Analysis) : 여러독립변수들과하나의종속변수간의관계를분석하는방법 (Y = Bx + Cx +Dx +a)

회귀분석의기본가정 a. 종속변수와독립변수가모두양적변수여야함. b. 종속변수와독립변수가직선의관계를가지고있어야함. c. 독립변수들사이에다중공선성이없어야함 : 독립변수간의상관관계가 0.8 이하 d. 종속변수측정치의오차들간에서로영향을미치지않아야함. e. 독립변수의값에관계없이오차의분포가정상분포를이루고종속변수의흩어진정도가같아야함.

다중회귀분석 a. 동시입력방식 b. 단계입력방식 (Stepwise) c. 독립변수의영향력상대적크기 : 표준화된베타값 d. 공선성 (collinearity) : 두개의독립변수들간의관계를의미, 상관관계가 1 은완전공선성을말함. e. 다중공선성 : 세개이상의변수들간의관계 f. 공차한계 : VIF 값이 10 이하이면, 공선성의문제가없음으로판단함.

기말시험예제 (ANOVA) A B C 4 5 3 4 3 4 4 3 5 5 7 4 6 5 4 6 5 5 4 4 8 7 7 6 8 7 8 8 5 6 세개의광고물대안 A, B, C 중가장효과적인광고물을선택하고자한다. 다음표는각광고물에노출된소비자의브랜드태도값을의미한다. (1= 가장비호의적, 9= 가장호의적 ) 이결과물로부터광고대안에따라그효과가다르다고할수있는가? 다르다면어느광고물이가장효과적인가? ( 유의수준 = 0.05)

기말시험예제 (ANOVA) 성별여행빈도선호도 1 1 2 1 2 2 2 1 1 1 1 2 1 2 1 2 3 1 2 3 2 3 3 3 2 3 4 5 7 5 7 9 8 6 8 9 성별과여행빈도가여행선호도에미치는영향을조사한표이다. 성별과여행빈도에따른이원배치분산분석을하고, 그결과를설명하시오 ( 성별 1= 남자, 2= 여자, 여행빈도 1= 적음, 3= 많음, 선호도 1= 전혀좋아하지않음, 9= 매주좋아함 )

기말시험예제 ( 회귀분석 ) 발표능력이직무성적에영향을미치는지를분석하고그결과를설명하시오 사원직무성적발표능력 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 87 93 91 85 86 97 90 93 88 96 86 89 94 91 95 9.2 9.4 9.5 8.7 8.8 9.6 9.2 9.3 8.5 9.6 8.4 8.7 9.6 9.2 9.7