. 통계학이란? 통계학은자료에대한학문으로 (Statistics is about data) 관심대상의개체 (subject; 사람, 기업, 국가, 동식물등 ) 에대한데이터로부터정보 (iformatio) 를얻는일련의과정에대한과학이다. 데이터는정보를지닌숫자의 (umber with cotet) 모임으로통계학은일반적으로다음 4 단계를거처정보를얻게된다. 표본 모집단 () 데이터 수집 (dataa collectio) 관심집단의특성을측정한다. 측정된특성을변수라하고변수형태는비율 (ratio), 구간 (iterval), 순서 (ordial), 명목 (omial) 으로나눈다. () 데이터 정리 (dataa summarizatio) 수집된데이터를표나그래프로 ( 히스토그램, 산점도 ) 정리하여그래프요약을 (graphical summary) 얻거나표준편차, 비율과숫자요약을얻는다. 평균, ( 3) 데이터 분석 (dataa aalysis) 알고자하는모집단의특성 ( 모수 ), 함수관계에대한추론단계추론 (iferece) 이란모수 (parameter) 값을추정하거나통계적가설에대한진위여부를판단하는단계 (4) 데이터 표현 (data presetatio) 데이터를정리, 분석하여얻은정보를적절히표현하는단계. 통계전공자가아니더라도쉽게이해할수있도록작성한다.
통계학예제 OO 대학교재학생의한달용돈은어느정도인가? 한달용돈평균 수집 재학생전체를조사하면비용과시간면에서효율적이지않으므로 00 명을임의추출하여 ( 이를표본이라함 ) 조사한다. 정리조사된 00 명의인구사회학적항목에 ( 성별, 대학별 ) 대한빈도, 용돈에대한기초통계량 ( 평균, 표준편차 ) 등을계산한다. 분석계산된통계량을이용하여재학생전체의용돈평균을추정한다. 표현 용돈에대한신뢰구간을구하고성별, 대학별용돈평균을그래프나표로정리 발표한다. 다음은통계학에 (Statistics) 대한많은정의중일부이다. [Webster s Dictioary] 통계학은숫자데이터 (umbered data) 를수집, 정리, 분석, 표현에관련된일련의과정에관한학문으로수학의한분야이다. [Kedall ad Stuart] 통계학은모집단 (populatio: 관심의대상이되는집단 ) 의성질 ( 이를통계학에서는변수라한다 ) 을세거나측정하여얻어진데이터를다루는과학의한분야이다. [Wikipedia] Statistics is the sciece of makig effective use of umerical data relatig to groups of idividuals or eperimets. [Ott] 통계학은데이터에관한학문이다 (Statistics is about data). [Aoymous] 통계학은미지에대한가이드이다. Statistics is a guide to the ukow. 위의정의에서볼수있듯이통계학은데이터를절절히요약 정리하고 ( 기술 ), 이를이용하여모집단의특성에대한정보를 ( 추론 ) 얻는일련의과정에관한학문이다.. 통계학기원 구약성서의민수기 (umbers) 에는광야생활전과후에각한번씩이스라엘백성인구조사가적혀있다. 로마황제 Tullis 는세금징수를위하여 5 년마다로마인구조사를실시하였으며, Caesar 는이를로마제국전역으로확대하여세금을징수하였다. 총조사를의미하는센서스 (cesus) 의어원은 cesura 로 ( 라틴어 ) 세금을의미하며, statistics ( 통계학 ) 의라틴어어원은 status 로국가를의미한다. 이처럼초기통계학은국가를유지하기위한수단으로활용되었다.
인구통계만조사되다가 7C 부터영국에서출생률과사망률을조사하기시작하였다. 크리미안전쟁중간호사였던나이팅게일은 (Florece Nightigale) 사망자수와사망원인그래프로표현한 Polar Diagram 을 ( 아래그림참고 ) 작성하였다. 사회조사는 9 세기후반부터사회과학자들에의해사용되기시작하였다. Karl Mar 는 880 년에 만 5 천명의프랑스노동자를대상으로그들의정치적태도와성향에대한우편조사를시행하였고, Ma Weber 는직접관찰과조사연구를통하여노동자들의심리, 태도, 직업관등을연구하였다. 0 세기에들어오면서미국사회학자들에의해사회조사방법론연구가활발하게진행되었으며, 미국통계국 (Bureau of Cesus) 은표본추출방법과자료수집방법에대한연구에집중하였고, Gallup 과 Roper 와같은사회여론조사기관은방법론을발전시켰다. 추론통계의근간이된확률, 게임이론 (game theory) 은중세의종교적, 도덕적장벽으로인하여발전이더디었다. Fermat 과 Pascal(754) 은친구의요청으로 인게임에서이길확률을계산하기위하여파스칼의삼각형을 ( 아래그림 ) 제안하였다. 승률이동일한 팀이 7 전 4 선승결승경기를하던중 3 게임 ( 팀 A 는 승, 팀 B 는 승 ) 후에기상악화로더이상경기를속개할수없게되었다. 상금을어떻게배분해야하나? 3 번째행 (,, ) 의합은 4 이고첫두열의합은 3 이므로 승한팀은상금의 3/4 을, 승팀은 /4 을나눠 3 가지면된다. 파스칼삼각형은이항전개에서의계수값계산에이용된다. ( a b) 을 3 3 전개하면 a 4a b 4ab b 가된다. 3
3 3 4 6 4 5 0 0 5 파스칼삼각형활용 () 7 전 4 선승경기에서 4 게임을 ( 팀 A 3 승, 팀 B 승 ) 치른후더이상경기를할수없다. 이경우팀 A 의상금배분? () (3) 4 ( a b) 전개하시오. 5 ( a b) 전개시 a b 3 의계수값? 확률이론발전 (J. Beroulli, A. de Moivre, Komogorov), 사회현상에대한고찰이나과학적사고로얻어진논리에대한연구와수학의접목을통하여통계학은더욱발전하게되었다. 천문학자인 Gauss 는행성간거리를연구하다가측정오차의분포로정규분포를 (Normal distributio; Gaussia) 유도하였다. 부모의키와자녀의키의관계를연구한유전학자 F. Gallto 의아이디어에 ( 회귀분석 ) 통계학자 K. Pearso 은아들키와아버지키의선형함수식의계수를계산하는방법으로최소자승법을 (method of least square) 제안하였다. 독일의맥주공장공장장인 W. Gosset 은표본의수가적을때는정규분포를따르지않는경우를자주접하게되어 Studet (Gosset 의필명 ) t-분포를제안하였다. 사람의지적능력을측정하는분야를 (Classic, Mathematics, Discovery, Eglish, Frech, Music) 그룹화하려는 Gallto 의아이디어에 C. Spearma 은요인분석방법을제안하였다. 이처럼통계학은인문, 사회, 자연현상으로부터발견된이론을데이터를활용하여설명하거나진위여부를판단하는방법론과이론을제공한다. 자연과학은우리주변현상을이해하려는노력으로 현상을기술하거나 일정한규칙발견하고혹은 3이론과법칙을정립하는과정이다. 현상을주목하고경험적인관찰을통한논리적설명을한다. 사회과학은일정한규칙을발견하는것은쉽지않으며인간은이를의식적으로탈피하려는경향이있어일반적인모형을적용하는것에대한이견이적지않다. 그럼에도일정한규칙을발견하려는노력은계속되고있고이에다양한통계적방법론이사용되고있다. 사회현상을이해하고해석하는데통계학을사용할수있다는가능성을보여준사람이벨기에통계학자 A. Guetelet(9 세기초 ) 이다. 0 세기부터사회현상에대한정확한서술은계량화 (quatify) 라고생각한부류와행동주의 (behaviorism) 등이활발히 4
연구되었다. 연구과정과모형화는경험적관찰이나이론을바탕으로연구가설을정립한다. 다양하고적절한방법 ( 관찰, 관측, 실험, 설문조사, 발표자료수집 ) 으로데이터를수집하여가설의진위를판단한다. 가설을정립할때추상적인개념을구체화하고정형화, 수량화 ( 계량화 ) 작업이필요하다..3 통계학종류 ASA (America Statistical Associatio) 는통계학은데이터수집, 분석, 표현에대한수리적원리의과학적응용이라고정의하고, 통계학자는조사및실험설계, 데이터수집, 처리, 분석, 그리고결과에대한해석에그들의수리적, 통계학적지식의활용하여과학적의문에도움을주는전문가이다. 통계학은기술통계학과추론통계학으로나뉜다. 기술통계학은 (descriptive Statistics) 모집단전체혹은표본 ( 모집단일부 ) 으로부터얻은데이터에대한숫자요약 ( 기초통계량 ; 평균, 분산 ) 이나그래프요약을 ( 히스토그램 ) 통하여관심대상에대한유용한정보를생산하는분야이다. 표본으로부터얻은정보, 요약된통계량이나그래프를이용하여모집단의특성 ( 모수 : parameter) 을추론 ( 추정, 검정 ) 하거나설정된특성들의 ( 변수 ) 함수관계의진위여부를판단하는분야를추론통계학이라 (iferetial Statistics) 한다. 기술통계학과추론통계학 OO 대학교재학생의한달용돈평균 기술 통계학 표본학생 00 명의한달용돈평균 353,430 원, 표준편차는 5,770..7원, 범위는,57 원 ~49,768 원이었다. 용돈히스토그램 80 60 40 0 0 5 30 35 40 45 50만원 추론 재학생 전체의용돈평균은 353,430 원이다. ( 추정치 ) 5
통계학 5,70.7 95% 신뢰구간은 ( 353,430 ±.96 ) 이다. 00 통계방법론은 CDA (Cofirmatory Data Aalysis, 확증적데이터분석 ) 와 EDA (Eploratory Data Aalysis, 탐색적데이터분석 ) 방법으로나눌수있다. 과학철학자 Popper(955) 는 이론은직관에의해서만얻어질수있다 고주장해연역적방법의 (CDA) 타당성을강조하였다. 즉, CDA 는경험이나이론에의해가설을설정하고적절한데이터를수집하여이론의타당성을검증한다. 귀납적방법 (iductive reasoig) 은 977 년 J. Tukey 가제안한탐색적데이터분석 (EDA: Eploratory Data Aalysis) 방법에근거하고있다. () 수집된데이터가가진정보를숫자요약과그래프를이용하여찾아내거나 () 데이터를보다유용하게만들기위하여데이터를재표현 (re-epressio) 하여정보를얻는방법이다..4 통계학도구.4. 데이터 관심대상의개체에 ( 사람, 기업, 국가, 동식물등 ) 대한정보를지닌원시형태나비정형형태의숫자나문자모임을데이터라 (data) 정의한다. 데이터는측정 (measure), 관측 (observe), 조사 (survey) 실험을 (eperimet) 통하여수집하거나신뢰성높은기관의생산 발표통계를얻는다. 좋은데이터는측정목적이명확히서술되어하며, 수집과정에대한내용, 데이터관리및품질유지방법등에대한문서화가되어있어야한다. 데이터는사실, 정보, 통계량등과혼용하여정의되기도한다. 데이터는개체에대한관심특성인변수 (variable) 과개체의변수측정값인관측치로 (observatio) 구성되어있다. 변수는알파벳 X, Y, Z, 등으로표현하고관측치는 X i, Y i, 등으로표현한다. 데이터의형태는실수형으로관측되는측정형과 (metric, umeric, quatitative) 문자형으로관측되는분류형으로 (o-metric, categorical, qualitative) 나눈다. 측정형은구간 (iterval) 과비율 (ratio), 범주형은명목형과 (omial) 순서형으로 (ordial) 나눈다..4. 수학통계학의이론이나방법들은사회, 자연현상을연구하는연구자들의과학이론에대한검증을위하여제안되고발전하였다. 숫자의모임인데이터를통하여정보를얻거나추론을하게되므로통계학의방법론들은수리에관한학문인수학이론및전개를기초로한다. 수학적지식은통계학이론을이해하는데도움이되며자료분석과결과해석을위한논리적사고를갖게하므로통계전공자가수리적사고를가져야한다. 또한통계학은 6
천문학, 물리학의실험데이터분석, 수학의확률및분포이론으로부터통계적방법론이제안되고발전되었으므로통계전공자에게수학적지식은필요하다..4.3 컴퓨터컴퓨터의발달은사용자의보편화, 대용량데이터처리능력향상, 응용소프트웨어발달로이어지게된다. 통계소프트웨어도통계계산분석용이수리적한계극복 : 복잡한수학방정식의해혹은근사해를구한다 Simulatio: 사회현상이나실험을컴퓨터에서실현하여결과를예측한다. O-Lie-Trasactio-Protocol Data warehousig Data miig.5 R 활용 통계계산과그래프작성을위한언어와환경인 R 은뉴질랜드 Aucklad 대학의 Ross Ihaka 와 Robert Getlema 이 995 년개발하고 R-Core 팀이 997 년결성 00 년 R Foudatio 이설립되어전세계에무료로배포되고있다. R 은 Ui 와유사한 OS 로다양한인터페이스, DBMS 데이터수용하고그래픽기능이강한 S 언어환경하에서개발되었다. S 코드대부분은수정없이 R 에서실행가능하다. R 의장점은작고효과적이며대화식프로그램수행이가능하다는것이다. 대용량데이터관리및처리, 행렬연산, 그래픽환경이면 Freeware ad Ope source 개념을지향하여 GPL(Geeral Public Licese) 개념으로 CRAN (Comprehesive R Archive Network) 에서배포한다. 그러므로 R 은전세계연구자에의해개발된알고리즘과함수활용을가능하게한다. 다양한확장성및범용성을가지고있어 UNIX, Mac, Widows 운영체계사용이가능하며 Java, C, Fortra 프로그래밍언어에인터페이스제공되고있다..5. 설치하기 설치파일웹사이트 : http://www.r-project.org R 프로그램설치하기 Dowload R.0 for Widows 링크를클릭하면아래화면이나온다. 저장 하여프로그램을설치할수있으나, 다시사용할필요가없고언제든지다운받을수있으므로바로 실행 을눌러프로그램을설치할것을권한다. 7
실행 을눌러프로그램설치가시작되면설치마법사가설치관련옵션을창에띄워선택하게한다. 설치후환경설정을수정할수있으므로제시하는디폴트옵션으로설치할것을권한다. 다음은디폴트옵션에의해설치된 R 프로그램의설치폴더는이고프로그램메뉴에다음아이콘그룹이생성된다. 그룹메뉴에서을선택하면 R 프로그램이실행된다. 다음은 R 의첫화면이다. 메뉴바, 주요아이콘바, 콘솔 (cosole) 창이나타난다. 콘솔창에서는라인실행이가능하다. 콘솔에서는프로그램 (R 에서는 Script 라한다 ) 실행, 결과출력, 프로그램오류등이출력된다. 그래프창은필요시팝업되며적절한그래프가그려진다. 프로그램은콘솔에서가능하지만스크립트 (Script, 프로그램 ) 창에서작성이가능하다. 패키지설치 base 에포함되지않는함수가포함된라이브러리는 패키지 메뉴에서가능하다. 그룹변수에의해측정형변수의기초통계량을구하는함수 summaryby() 는 base 에포함되어있지않고 doby 라이브러리에있다. 이를설치하는예로패키지설치방법을설명하겠다. 8
설치가완료되면콘솔에설치된패키지내용과성공여부가출력된다. 패키지는한번만설치하면지속적으로사용할수있으므로미리설치할필요없이필요할때마다설치하면된다..5. 메뉴 파일메뉴 > 스크립트 (script); 작업을위한프로그램모임, 일정한작업을프로그램으로저장해놓으면유사작업수행용이 > 작업공간 (workspace); 프로그램수행중만들어진오브젝트, 데이터셋등을저장해두면, R 프로그램재실행후도동일하게사용할수있음 > 이력 (history): 작업수행을위해사용하였던 Lie 프로그램을저장, 이전라인프로그램으로가려면화살표 을사용하면된다. > 디렉터리 (directory) 변경 : 외부데이터가있거나스크립트, 이력등을저장하려는폴더지정 > 파일에저장 ; 콘솔내용을텍스트로저장 편집메뉴 > 프로그램이나결과중필요한부분복사, 잘라내기, 붙여넣기 > 콘솔지우기 ; 콘솔에있는내용모두지우기 > 자료편집기 ; 데이터혹은행렬편집, 엑셀과같은스프레드시트형식으로열림 >GUI 설정 : R 의 GUI (Graphic User Iterface) 환경 9
설정 기타메뉴 > 아이콘바와아래상태바보기 > 필요한패키지설치메뉴 (.3. 참고 ) > 열린창보기설정 > 도움말기능 아이콘메뉴메뉴중가장많이사용되는기능을아이콘으로표현하여사용을용이하게함, 아이콘에마우스를놀려놓으면작업내용을표시한다. 다음은두번째아이콘에마우스를올려놓았을때표시된작업내용이다..5.3 오브젝트 (object) 오브젝트는 R 에서모든것이다. (Object is everythig) 모든오브젝트는속성을가지고있고이를통하여 R 사용자는 R 과이야기하며, 이곳에모든내용을이곳에저장한다. 0
오브젝트의형식은숫자형 (umeric), 문자형 (characteristic), 요인 ( 분산분석의요인 ), 논리형 (logical), 실수형 (double), 복소수형 (comple) 등이있다. 오브젝트에저장될수있는내용은벡터, 행렬, 데이터, 배열, 리스트, 함수 ( 분석 ) 결과내용등이있으며, 저장하려면기호 <-, = ( 동일한작업내용 ) 을사용한다. 이를오브젝트할당 (assigmet) 라한다. R 오브젝트활용 =, <-을사용하면우측작업내용이좌측이름으로오브젝트로저장된다. 오브젝트내용을보려면오브젝트이름을입력하면된다. 오브젝트의리스트를보려면함수 ls() 이용한다. ; 은명령문을나누는역할을한다. 오브젝트이름은영어알파벳, 숫자, 마침표., uder-bar _ 등의조합을사용할수있으나, 숫자,., _, -은첫글자로사용할수없다. 그리고내장함수 (sqrt, si, pi) 이름나명령어로 (for, if, matri, read.ls) 예약된단어는오브젝트이름으로사용할수없다. R 에서는대소문자구별해야 (case sesitive) 하므로오브젝트이름도동일한적용을받아, ds 와 Ds 는서로다른오브젝트이름이다. 이름길이는충분히길어도되지만가능하면짧고오브젝트내용을인지할수있으면된다. 학생들의성적관련데이터셋이면 scoredataset 보다는 score 혹은 score.ds 가더적절해보인다. 오브젝트를향후에도사용하고싶다면 (workspace) 을이용하여저장해두었다가향후에불러사용하면된다. 필요없는오브젝트를지우려면다음과같이함수 rm() 을사용하면된다. 함수 search() 를사용하면현재작업환경에서구동중인패키지의이름들이리스트된다..5.4 함수 (fuctio)
내장함수 (built-i fuctio) R 의라이브러리패키지에는여러함수가내장되어있다. 다음그림은.. 절에서설치한 doby 패키지에내장된함수와그에대한사용설명도움말 (html 폴더내에있음 ) 화면을캡처한것이다. R 에내장된함수는수학함수, 문자함수, 통계분포함수, 통계함수, 데이터생성함수등이있다. 다음은통계학에서주로사용되는함수중심으로함수명과기능을예제중심으로설명한것이다. 수학함수 (mathematical fuctio) 함수기능 R 에서실행 abs() sqrt() ^ 절대값, 제곱근, 승값
ceilig() floor() truc() 올림 내림 소수점이하버림 roud(, digits=) cos(), si(), ta() 소수점 자리이하반올림 삼각함수값 log(), log0(), log() 자연로그값, 상용로그값, 밑이 인로그값 ep() 지수함수값 e prod() choose(, r), factorial() 데이터곱 조합, combiatio 순열, factorial 문자함수 (characteristic fuctio) 함수기능 R 에서실행 substr(, s, e) strsplit(, sp ) paste() 단어 X 에서 s 자리부터 e 자리까지선택 sp 단어에서단어가나누어짐단어붙이기 3
toupper() tolower() 대문자만들기 소문자만들기 sub(r, o, ) 단어 에서 o 문자를 r 로대체함 통계함수 (statistical fuctio) 함수 기능 R 에서실행 데이터 함수 rorm(, m, s) 는평균이 m, 표준편차 s 인정규분포를 따르는데이터 개를랜덤하게만든다. 랜덤하게만들때 seed 는실행시각으로할당되므로매번다르게된다. 함수 roud() 는값을정수로반올림한다. mea() 평균 0% 절삭평균 ( 상, 하각각 0% 절삭 ) sd(), var() 표준편차, 분산 media() 중위수 quartile(, p) 사분위값 rage() sum(), prod() 범위 합계, 곱 6 (= 5.5 0 ) 4
diff(,lag=t) 앞의숫자 뒤숫자 ( 시차 =t) mi(), ma() 최소값, 최대값 통계분포함수 (statistical distributio fuctio) 함수 기능 d*(, 모수 ) p*(, p, 모수 ) q*(p, 모수 ) r*(, 모수 ) 확률밀도함수확률값, f() 분포함수값, F() 역분포함수값, F - (p) 분포함수따르는데이터 개랜덤하게생성 f() d*()=p F()=p*() =q*(p) 분포이름 R 함수모수 5
기타함수 (miscellaeous) 함수기능 R 에서실행 seq(s, e, b) 정수 s 부터 e 까지 b 씩증가 rep(a:b, r) rep(a, r) 정수 a 부터 b 까지 r 반복 정수 a 를 r 반복 PLOT() 함수 plot(, y, mai=, sub=, lim=c(a, b), ylab=, type= ) 산점도그리기 X Y mai= sub= -축변수지정 y-축변수지정그래프제목그래프아래제목 6
lim= ylab= - 축좌표눈금지정, y 축은 ylim y- 축제목지정, - 축은 lab type= p 관측치점을 으로표현 l 라인으로그리기 b 점과라인모두그리기 c 점선으로그리기 --- o h s 선과점을동시에그리기히스토그램을선으로형태계산형식의히스토그램그래프사용하지않음.5.5 연산자 (operator) 연산자는스칼라 ( 실수 ), 벡터, 행렬, 데이터오브젝트의계산을위한명령어이다. 수학연산자 (arithmetic operator) 함수기능 R 에서실행, -, *, / 사칙연산 **, ^ 승수연산 %% 나머지 %/% 나눈몫 7
논리연산자 (logical operator) 함수 기능 <, <=, >, >= 조건에서양변의크기대소 == 조건에서양변동일, = 은오브젝트지정에사용!= 조건에서양변다름, & or 양조건중하나참, ad 두조건모두참 istrue() X 의논리참여부 참이면 TRUE, 거짓이면 FALSE 의값을저장.5.6 제어문 (cotrol statemet) R 은라인명령문왼쪽에서오른쪽으로, 위에서아래로순서대로실행된다. 이를제어하는문장을제어문이라한다. FOR 문장 for( 변수 i 연속 ) { 문장 } 연속에지정된값만큼변수값이변화하면서 문장 을반복실행한다. For() 예제 함수 prit() 는괄호안화면출력 변수 i=,, 3 인순차적으로증가되면서 {} 문장반복된다. 함수 legth() 는괄호안의데이터크기 i 에서앞의숫자가더큰경우에는순차적으로감소한다. 8
WHILE 문장 while( 조건 ) { 문장 } 조건이만족하는동안문장반복실행된다. while() 예제 값이설정되지않으면 R 내부초기값은 0 이나실제존재하지않는다. 그러므로 0 은출력되지않는다. i=i 은 i 의값을 씩증가시킨다. i 가 3 이되는순간까지반복실행한다. IF-ELSE 문장 if ( 조건 ) { 문장 } 조건이만족하면문장이실행된다. if-else() 예제 i%% 는 i 값을 로나누었을때나머지값 값 i 의 로나눈나머지가 0 인경우 i 값을출력하게된다. 9
if-else() 예제 if ( 조건 ) { 문장 } else { 문장 }; 조건이만족하면문장, 그렇지않으면문장 을실행 함수 cat() 은 prit() 와유사하게화면출력기능, 오브젝트뿐아니라문자도출력가능 \ 은출력시라인바꿈, \b 는탭이동을기능.5.7 스크립트 (script) 콘솔에서는라인타입명령문입력과실행으로작동하여 Eter 키를입력하지않는한라인에작업한내용은실행되지않는다. 그러므로상이한명령문을연속하여동일라인에입력하고자하면명령문사이에세미콜론 (;) 을사용하면된다. 명령문길이가길어한라인에들어가기못하는경우 (Eter 키를치기전까지는하나의명령문으로 R 은인지하고있음 ) 명령어중간에서 Eter 키를치면커서는다음라인에위치하고 > 대신플러스 () 사인이라인첫머리에나타난다. 이전라인명령문을재실행하려면방향키, 을사용하면된다. 라인명령문을향후에도사용하려면을이용하여명령어들을저장한후향후불러사용하면된다. 라인에디터작업환경은다소불편하므로다수의라인명령어들동시에실행하거나원하는함수를만들기, 작업에필요한프로그램작업을위해서는스크립트를활용하는것이좋다. 스크립트는 SAS 의프로그램작업과동일하다. 새로운스크립트만들기는다음과같이하면스크립트창이열린다. 0
스크립트작업이끝나면스크립트를저장하여다시불러사용하면된다. 저장할때는 R 을확장자사용하는것이적절하다. 이는 R 은다른소프트웨어와는달리확장자 R 이자동으로붙여지지않는다. 그러므로스크립트이름을붙일때는다음과같이이름뒤에확장자까지붙여저장하기를권장한다. 스크립트에작성된프로그램은라인별로실행할수도있으며전체프로그램을한번에실행할수도있다. 실행된명령문은콘솔에명령문과함께결과가출력된다. > 라인별실행 : 커서를명령문라인아무곳에나놓고 CT RL R 을치면라인명령문이실행되어콘솔에명령문과결과가출력되고커서는다음라인명령문으로이동한다. 커서가마지막라인에있으면더이상아래로이동하지않는다. > 전체스크립트실행 : 아무곳에나놓고 CT RL A 을입력하면스크립트명령문전체가선택된다. CT RL R 을치면스크립트전체가실행되어콘솔에나타난다. 스크립트일부만선택하고싶으면마우스로실행원하는부분을선택한후 CT RL R 을치면된다. 스크립트에서명령문을실행하지않으려면명령문제일앞에 # 표시를하여실행되지않도록한다. 이를주석문 (commet statemet) 이라한다. 스크립트예제 콘솔내용 > 라인실행해보자. > 전체실행해보자.
스크립트예제 전체실행하면오른쪽결과가콘솔화면에나타난다..6 알아두기.6.. Greek 문자 다음은통계학에서기호로자주사용되는 Greek 문자와그의발음표이다. 소문자 α β γ δ ε ζ η θ 대문자 Α Β Γ Δ Ε Ζ Η Θ 발음 alpha beta gamma delta epsilo zeta eta theta 소문자 ι κ χ λ μ ν ξ ο 대문자 Ι Κ Χ Λ Μ Ν Ξ Ο 발음 iota kappa chi lambda mu u i(ksi) omicro 소문자 π ρ σ τ υ ϕ ψ ω 대문자 Π Ρ Σ Τ Υ Φ Ψ Ω 발음 pi rho sigma tau upsilo phi psi omega
.6.. 특수한상수 기호읽기내용함수 i R π 파이, pi 원주율, 3.4596535 ep(), e 지수 epoetial e =.788..., e = e e e = lim ( ) log a ( ) 로그 a 밑이 (base) a, 승수가 (power) 인로그 = a y y = log a ( ) Log() L() 상용로그 자연로그 Commo log, 밑이 0 Natural log, 밑이 e / = 제곱근 제곱할때 인값 k = / k k 제곱근 k 제곱하여 인값 감마함수 이정수인경우감마함수 (Gamma fuctio) 은다음과같이정의된다. Γ ( ) = e d = ( 0 ( 특수한값 ) Γ ( 5) = 4! = 4, Γ ( ) =, Γ ( ) = 0! = 0.5 Γ( ) = π =.7745..., Γ ( ) =! π Γ ( ) =.67893..., 3 Γ ( ) = 3.6560... 4 )! 조합과순열순열은 (permutatio) 서로다른 개의개체중 r 개를뽑아순서대로정렬하는경우의! 수이다. P(, r) = Pr = ( r)! 3
4 조합은 (combiatio) 서로다른 개의개체중 r 개를뽑는경우의수이다.! )! (! ), ( r r Cr r C = = 순열, 조합 () ~9 까지의숫자로서로다른 3 자리숫자를만들수있는경우의수? () 5 명의입사지원자중 명을임의선발할때선발될수있는가지수? (3) 7 명의입사지원자중여자 3 명, 남자 4 명이다. 여자에서한명, 남자에서 명을선발할때만들어질수있는경우의수?.6.3 특수한시리즈 이항시리즈 (biomial series) b a C b a C b a C b a C b a 0 0 0 ) ( = K, 은정수 a a a a a =... ) (, 은정수 ( 참고 ) Pascal Triagle ( 특수한경우 ) a a a a a =... ) (... ) ( 4 3 =... 5 4 3 ) ( 4 3 = 이항시리즈 () 7 ) 3 ( y 의전개식에서 4 y 3 의계수를구하시오. () 00 ) 9 ( y 의전개식에서 45 y 55 의계수를구하시오. R 을이용하여구하시오. 함수는 choose() 이용하시오.
지수함수시리즈 e 3 =! 3! K ( 특수한경우 ) 3 e =... (Taylor Series)! 3! e = lim ( ) (3장참고 ) 3 4 l( ) = K, < < 3 4 ( l ) ( l ) 3 l a a a = e = l a...! 3! 지수함수시리즈 () e 3 의전개식을구하시오. () e 의전개식을구하시오. (3) (), () 의함수에서 =3 일때값을구하시오. 전개식을이용하여 (for() 문을이용하고반복은 5,000 번까지하시오 ) 구하고계산기에의해구한값과비교하시오. 5
산술시리즈 (arithmetic sequece) 등차수열 a ( a d) ( a d)... ( a ( ) d) = (a ( ) d) *) a 는초기값 (iitial value), 증가값 d 는등차라 (equal differece value) 정의한다. ( 특수한경우 )... = ( ) 3 5.. ( ) = 등차수열 () 3 6 9... 99 합을구하시오. () 4 6 K 300 을구하시오. 기하시리즈 (geometric sequece) 등차수열 a ar ar... ar a( r ) = ( r) ( 유한, Fiite) *) a 는초기값 (iitial value), 증가곱 r 은등비라 (equal differece) 한다. ( 참고 ) a a ar ar... =, ( 무한, ifiite 단, < r < ) ( r) 등비수열 () 3 9 7... 7747합을구하시오. () 0.5 0.5 0.5... 을구하시오. for() 문을이용하여계산된 결과를확인하시오. 반복은 5,000 번하시오. (3).. 을구하시오. for() 문을이용하여계산된결과를 6 8 54 확인하시오. 반복은 5,000 번하시오. 6
( 특수한경우 ) ( )( )... = 6 3 3 3 ( )... = = (... ) 4 Taylor 시리즈 함수 f () 가미분가능하다면 (5 장미분참고 ) 임의의상수 a 에대해다음이성립한다. f ( a)( a) f ( a)( a) 3 f ( ) = f ( a) f ( a)( a)...! 3! 만약상수 a = 0 이면, f ( ) = f (0) f (0) f (0)! f (0) 3... 3!.6.4 확률변수 통계학은관심의대상 ( 모집단 ) 으로부터데이터를수집 ( 실험하거나조사 ) 하여그데이터를분석하여정보 (iformatio) 를얻는데관련된학문이다. 데이터 키 : 80, 65, 83, 바이러스수 : 03, 0, 3, 흡연유무 : 흡연, 비흡연, 비흡연, 데이터는변수 ( 특성 : 키, 바이러스수, 흡연유무 ) 와개체에대한각특성의측정치 ( 관측치 ) 로구성되어있으며관측치는,,..., 로표시한다. 은데이터의개체수이고이것을표본의크기라한다. 키의경우 = 80, = 65,... 이고흡연유무는 =, = 0,... ( 흡연 =, 비흡연 =0) 로나타내게된다. 7
표본공간 (sample space) 실험결과를예측할수없는실험을확률실험 (radom eperimet) 이라한다. 주사위를던지는실험이확률실험이다. 확률실험이나조사에서발생가능한모든결과들의모임을표본공간이라한다. 기호는일반적으로 S 를사용한다. S = { e, e, e3,...} 로나타내며확률실험의결과 ei 을원소 (elemet) 라한다. 주사위하나를던지는실험의표본공간은? S = {,,3,4,5,6 } 표본공간 동전을 개던지는시험의표본공간은? S = { TT, TH, HT, TT} } 대학교학생들의키를조사하는관측조사에서표본공간은? S = { : 50 50} 대학교학생들의흡연여부관측조사에서표본공간은? S = { Y, N } 표본공간 () 두개의주사위를던지는확률실험의표본공간을적으시오. () OO 대학교학생의한달용돈조사실험의표본공간을적으시오. (3) OO 대학교학생들의함께거주하는가족수조사실험의표본공간? 확률변수정의통계학에서확률변수의 ( 함수에서 에해당 ) 측정값에대한기호로아래첨자를 (subscript) 사용하게된다. 확률변수는 (radom variable) 표본공간의 ( 확률실험의결과, 예를들면주사위던져나오는눈금, 학생들의 IQ 값혹은출신고지역 ) 원소와 ( 결과값 ) 실수값을대응시키는규칙이다. 각원소에대해서는하나의값만대응시킨다. 확률변수 ( 의미는측정값들이계속변하기때문이다 ) 는실험 ( 조사 ) 결과를숫자로변환하는역할을한다. 기호는주로대문자 X, Y, Z, W, U, V 등을사용한다. 8
o e o e oe 3 oe 4 - - 0 3 ( 표본공간 ) ( 실수공간 ) 관측치표현 다음은학생 8 명의통계학점수이다. (70, 50, 80, 40, 90, 90, 60, 80) 관측치를첨자로표현하면 = 70, = 50,, 8 = 80 ( 합과곱기호 ) 합기호 i = K i= 곱기호 i = K i= 합기호활용 i = i, ( i = 0,,,..., 0 ) 인경우다음을구하시오. 3 3 () 5i = () (3k ) = i= k= 3 3 (3) ( k i) = (4) ( k 3) = i= k= i= k= 3 3 (5) ( i 3) = (6) ( j j ) = i= k= j= 0 (7) ( j j ) = (8) 3 j = j = 0 j= 0 9
곱기호활용 i = i, ( i = 0,,,..., 0 ) 인경우다음을구하시오. () C 3 ( i ) = () C 3 ( i ) i = i= i= 0 (3) C i = (4) C 5 i = i= 0 i= 3 ic3 0 (5) i i = (6) C i i = = i= 9 ( 평균, 분산공식 ) 확률변수 개의관측치를 (,, K, ) 이라하면, 평균과 (mea) 분산 (variace) 공식은다음과같다. 분산의양의제곱근을 (square root) 표준편차 (stadard deviatio) 이라한다. i 평균 (mea) μ = E( X ) = X = i= = i / i= i ( μ) ( ) i 분산 (variace) σ = V ( X ) = i=, s = V ( X ) = i= ( 분산간편식 ) σ = i, s = i 표준편차 (stadard deviatio) σ = σ, s = s 30
평균과표준편차계산 다음은학생 7 명의통계학점수이다. (70, 50, 80, 40, 90, 90, 60, 80) 평균 = i (70 50 K 80) = 8 = 70 분산 = (70 50 80 ) i K = 4,600 4,600 8* 70 s = i = 7 = 34.86 평균과표준편차 () 분산간편식을증명하시오. () 7 명의키를조사한데이터이다. (70, 80, 65, 90, 78, 6, 75) 학생키의평균과표준편차를구하시오. 3