가능한연구가설제시 가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차이가있을것이다. 가설 3 : 유권자의학력수준에따라지지후보는다를것이다. 지지후보의선택은유권자의학력수준에따라차이가있을것이다. 유권자의학력수준은지지후보의선택에영향을미칠것이다. 가설 4 : 유권자의성별은지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의성별에따라차이가있을것이다. 지지후보의선택에는유권자성별이영향을미칠것이다. 가설 5 : 나이가많은사람이교육기간이길것이다. (?)
가설 1 : 지지후보의선택은유권자의나이에따라차이가있을것이다. 유권자의나이는지지후보의선택에영향을미칠것이다. 유권자의나이에따라지지후보는다를것이다. 원인변수 : 유권자의나이 결과변수 : 지지후보의선택 유권자의나이 비율척도 지지후보의선택 명목척도 분산분석
가설 2 : 유권자의사회생활만족도는지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의사회생활만족도에따라차이가있을것이다. 원인변수 : 유권자의사회생활만족도 결과변수 : 지지후보의선택 유권자의사회생활만족도 등간척도 지지후보의선택 명목척도 카이 - 제곱분석
가설 3 : 유권자의학력수준에따라지지후보는다를것이다. 지지후보의선택은유권자의학력수준에따라차이가있을것이다. 유권자의학력수준은지지후보의선택에영향을미칠것이다. 원인변수 : 유권자의학력수준 결과병수 : 지지후보의선택 유권자의학력수준 서열척도 지지후보의선택 명목척도 카이 - 제곱분석
가설 4 : 유권자의성별은지지후보의선택에영향을미칠것이다. 지지후보의선택은유권자의성별에따라차이가있을것이다. 지지후보의선택에는유권자성별이영향을미칠것이다. 원인변수 : 유권자의성별 결과변수 : 지지후보의선택 유권자의성별 명목척도 지지후보의선택 명목척도 카이 - 제곱분석
가설 5 : 나이가많은사람이교육기간이길것이다. (?) 원인변수 : 연령 결과변수 : 교육기간 연령 비율척도 교육기간 비율척도 회귀분석
1. 분산분석 분산분석 : 경영에영향을미치는요인들간의어떤 ( 인과 ) 관계가있는지를파악하는것은경영관리자에게매우중요한업무 분산분석은어떤요인이특정결과에대한주요인임을객관적으로증명해보이는방법 종속변수 : 특정결과가되는부분을종속변수라함 독립변수 : 많은요인중에자기가주요인이라고주장하는요인을독립변수라함. 외생변수 : 그외의다른모든요인들은외생변수라함. 통계적분석도구로서분산을이용하기때문에분산분석이라고함 분산분석은이많은이많은요인중에독립변수가특정결과에대해주요인임을객관적으로증명하는방법
1. 분산분석 기본개념 : 예를들어백화점매출감소의원인이주로상대적으로높은가격이라생각된다면백화점매출이종속변수가되고가격이독립변수가되며그외의모든다른요인들, 예를들어불친절, 교통복잡등이외생변수가됨. 백화점사례 백화점의여러지점의가격을조사해본결과가격수준을높음, 중간, 낮음등 3가지로분류각가격수준에서의각각 5개지점의매출현황은표10-1과같음
1. 분산분석 우선가격수준이같은지점끼리왜매출이다르게나오는것일까? 예를들어높은가격지점의수집된자료를보자. 모두높은가격의 5 개의지점들모두가매출이다르다. 즉 (80, 70, 60, 40, 50) 이다. 이는가격외의다른요인들 즉외생변수의영향이매출에존재한다는것을의미한다. 외생변수영향의계량화 : 예를들어, 가격이높은지점들에게 ( 가격외의 ) 외생변수의총영향은각지점의매출액과자점평균과의차이를모두합한것으로계량화가가능 하지만각지점의매출과평균과의차이를모두더하면그합은 0이됨. 이를방지하기위해각지점의매출과평균과의차이를제곱하여모두더함. 2 2 2 2 2 (80-60) + (70-60) + (60-60) + (40-60) + (50-60) 더확장하면모든 15개의지점들에대해외생변수의총영향을다음과같이계산 2 2 2 2 (80-60) + (70-60) + + (70-65) + (75-65) + 2 2 2 2 2 (90-70) + (40-70) + (65-70) + (75-70) + (80-70)=2825
1. 분산분석 외생변수의영향이전혀없다고가정. 표 10-1 은다음표 10-2 와같이가정 각가격수준의매출평균이전체평균과다른이유는바로가격 ( 독립변수 ) 때문. 이를외생변수에서와같은논리로계량화하면, 지점들에게미치는총독립변수의영향은다음과같음 2 2 2 5(60-65) + 5(65-65) + 5(70-65) =250 각괄호앞에나와잇는세개의 5 는각가격수준의지점들의수를나타내는가중치. 만일각가격수준의지점이 10 개씩이라면각가중치는 10 이됨.
1. 분산분석 집단내제곱의합 (Sum of Square Within, SSW) : 외생변수의총영향의크기는집단내제곱의합이라며다음과같이계산됨. _ SSW=ΣΣ(Yij - Yi) 2 집단내제곱의합의평균 (mean of square within, MSW) : 평균외생변수의영향의크기 MSW = SSW / df MSW 의자유도 (degree of freedom df.) : C= 카테고리의수 ni= 각카테고리 i 의표본수 d.f.=(ni-1)c
1. 분산분석 집단간제곱의합 (Sum of Square Between, SSB) : 2.2. 제곱한분해 외생변수의총영향의크기는집단내제곱의합이라며다음과같이계산됨. _ SSB=njΣ(Yi - Y) 2 집단내제곱의합의평균 (mean of square between, MSB) : 평균독립변수의영향의크기 MSB = SSB / df MSB 의자유도 (degree of freedom df.) : C= 카테고리의수 d.f.=c-1
1. 분산분석 어떻게비교하는가 : 위두값 SSW 과 SSB 를비교할때우리는그평균을가지고비교 어느정도가충분한가 : 분산분석은위에서계산한집단내제곱합의평균과집단간제곱합의평균을비교하여독립변수평균영향이외생변수평균영향에비해충분히큰지를판단 분산분석은이두가지분산의비율로서구함 분산공식 : 각변수의영향을평균과의차이를평균한것으로계량화하는데이것을바로분산공식 분산비율 (F) 은분산을분산으로나눈값이므로항상 0 보다크고무한대보다작은값을지닐수있음
2 2. x 분산분석 통계분할표 (contigency table) : 통계데이터조사결과를어떤속성또는범주에따라표의형태로정리하면이해하기도쉽고결과를한눈에알아보기쉬움. 이와같이만들어진표를통계분할표라고함 2 x 검정 : 통계분할표의형태로정리된데이터를분석하는데사용하는통계분석방법 2 x 검정은질적인데이터가주어진속성에딸분류되어있는경우에이용되 2 며, 크게변수가하나인경우와두개인경우로나누어 x 검정의목적을설명할수있음. 적합도검정 : 변수가하나인경우에는다항실험에있어표본에서얻은관찰도수와기대도수간에차이가있는지를밝혀모집단의분포가특정분포에적합한지에대한추론을실시하는데이를적합도검정이라고함. 독립성검정 : 변수가두개인경우에는질적인데이터를둘또는그이상의속성으로분류한분할표를작성하고분할표상의두변수간에관련성또는독립성에대한추론을실시하는데이를독립성검정이라고함.
2 2. x 분산분석 일반적으로변수가하나인경우보다는하나이상인변수들간의관련성을 2 검정하기위해 x 검정을실시하는경우가많다. 특히질적인속성을지닌변수에서두가지이상의속성을관찰한경우, 두변수간에관련성이있는지혹은통계적으로독립성을지니고있는지를살펴보기위하여통계데이터를분류기준에따라표형식으로정리한분할표가사용된다. 즉통계 2 분할표에나타난두범주형변수간의관련성을알아보는 x 검정이이용된다. 다음과같은예제를통해두변수간에연관성이있는지를검정하는방법을설명하기로한다. 예제 데이터를가지고지불수단과판매된제품간에는관련성이있는지를유의수준 1% 하에서검정. 분할표에있는데이터를각셀의관측도수 (observed frequency) 라함.
2 2. x 분산분석 두변수가독립적이라면설정되는귀무가설과대체가설은다음과같음. Ho: 지불수단과판매품목은독립적이다. Ha: 지불수단과판매품목은독립적이아니다. 각셀의기대도수를계산하기위하여우선분할표에있는데이터의열과행의합계를구하여주변확률을추정
2 2. x 분산분석 분할표의각셀에해당하는기대도수는아래의공식에의해간단히구할수있음. Eij=. ( 행 i 합계 ) ( 열 j 합계 ) 표본크기 이공식을이용하여분할표의각셀에해당하는기대도수를계산하면표 11-5 와같음. 독립성검정에서만약두변수가독립적이고표본이충분히크면 2 2 2 2 검정통계량 x 값은 x 분포에접근하며검정통계량 x 은 x [(r-1)(c-1)] 의분포를함.
2 2. x 분산분석 선형적관계의강점 : 1. 사회과학에서는모든데이터측정에오차가있기마련. 관계식을선형으로표시할때소위 rule of averaging out 원리가작용선형으로표시할때나타나는오차가평균적으로서로상쇄되어비선형으로표시할때보다열등한답을제공하지않는다는것으로경험적으로알고있음. 2. 현재의컴퓨터성능으로볼때, 관계식이선형인경우에는아주쉽게해결할수있으나관계식이비선형이되어버리면컴퓨터가원하는만큼빠른속도로정확하게해결하지못하는경우가대부분 3. 또하나는선형적인관계를가정하면종속변수와독립변수그리고외생변수간에필요하면같은같은성질을보유하게되므로그관계파악에서비선형관계보다도설득력이더해짐.
3. 회귀분석 회귀분석 : 통계학에서선형적인간계를파악하는것을회귀분석이라함 이관계를파악하기위해서는우선종속변수와독립변수의두가지데이터 (xi, yi) 가팔요. 단순회귀분석 : 회귀모델을설명할때우리는독립변수가하나인경우를가정. 이를단순회귀모델이라고함. 다중회귀분석 : 다중회귀모델은단지독립변수가여러개이므로독립변수끼리의상관관계문제라는단순회귀모델에서는존재치않는새로운과제가추가.. 회귀분석의독립변수외종속변수 : 회귀분석에서는독립변수는상수이고종속변수는확률변수
3. 회귀분석 두변수간의관계 : 매출액 (Y)=20 x 광고액 (X) + 외생변수효과 (ε) 여기서광고액은상수이고매출액은확률변수. 따라서매출액이확률변수이므로외생변수효과도확률변수이고또한양자간은선형관계이므로매출액이정규분포를이루면외생변수효과도정규분포를이룸. 하지만반대도가능. 따라서독립변수와종속변수의결정은통계학적으로보면상수냐확률변수냐하는것에따라결정됨.
3. 회귀분석 외생변수효과의바람직한성질 : 독립변수와종속변수간의관계를도출해낼때외생변수의효과가전혀없다면가장바람직하지만그렇지못할바에는바람직한외생변수의효과가존재하기를기대하는것이적절 가장바람직한경우는모든외생변수들의효과가서로상쇠되어전체적으로볼때외생변수의효과가무력화 ( 중립화 ) 되는것. 통계학에서는 error term 의평균이 0 임. 외생변수의효과가일정하게존재하는것이바람직 ( 분산이일정하다 )
3. 회귀분석 회귀분석의목적 : 회귀분석은 β0, β1 을구하는것이목적. 즉독립변수와종속변수간의관계유무및그정도를도출하는것이목적 β0 와 β1 을구하면독립변수아종속변수간의수학적관계식이나오는데이를회귀선 (regression line) 이라함. E(Y)=β0+β1X
3. 회귀분석 회귀모델 : 주어진두데이터 (Xi, Yi) 를가지고다음과같은통계적관계로표현할수있을때회귀모델이라고함. Yi=β0+ β1xi+ εi i= 1, 2,, n 쌍의데이터 β0= 직선의절편, X 나 E 와는관계없이 Y 자체가갖는값 β1= 직선의기울기, Y 와 X 간의관계정도를나타냄 Xi= 독립변수의값으로이는상수로써그값이이미결정되어있음. Yi= 종속변수의값으로이는확률변수로서확률분포를갖는다. 흔히정규분포를가정. εi=error term 이라하고외생변수의값으로써 yi 와같은성질을갖는확률변수이다. 따라서정규분포를갖게됨.
3. 회귀분석 최소자승법 : 점으로표시되는데이터의경향을하나의선 ( 회귀선 ) 으로나타내는방법으로써그선과각데이터간의거리가최소화되는선을구하고자하는것. 만약회귀선이데이터점들의성향을아주잘나타내고있다면회귀선과점데이터간의거리가최소로될것이라는가정에서시작. 양자간의차이를수식에서 ei 로표시되며따라서 ei 의합이최소회되는회귀선 (regression line: 즉 b0, b1) 을구하고자하는것. 회귀분석에서통계적추론 : 회귀분석에서통계적추론은크게회귀모델자체에대한추론과각개별변수 β0 와 β1 의유의성에대한추론으로나누어볼수있음. 회귀모델자체의추론과각개별변수의유의성추론 : 회귀모델자체의추론은회귀모델이종속변수의분산을효과적으로설명하여줄수있는지를평가하는데그목적이있음. 각개별변수의유의성추론은각각의독립변수와종속변수가통계적으로유의한관계를갖고있는지를평가하는데그목적이있음.
3. 회귀분석 회귀모델평가방법 결정계수 : 구한회귀모델, 즉회귀선이어느정도두데이터의통계적상관관계를잘나타내는가를평가하는숫자가있음. 이를결정계수 (coefficient of determination) 라함. SST = SSR + SSE 총차이 = 설명가능차이 + 설명불가능차이 - 결정계수 R =SSR/SST, - 즉총차이중에서설명되는부분의합의비율을말한것임. - 따라서좋은회귀선은총차이를잘설명하는것. - 즉결정계수가 1 에가깝게나오고 - 렇지못한회귀선은총차이를설명하지못하는것이므로 - 결정계수 0 에가깝게나오게됨. - 따라서이결정계수는 0 < R < 1 이됨.
3. 회귀분석 회귀계수 β1 에대한통계적추정 : 우리가가장알고싶은것은과연우리가결정한독립변수가종속변수와의미있는관계가있느냐는것 이를수식으로표시해보면 β1 이 0 인가아닌가하는문제 H0: β1=0 Ha: β1 0 회귀계수 β1 에대한검정은모평균 μ 에대한가설검정과그절차가유사함. 가설검정은검정통계량으로하며이는 t 분포를가지고판단. t= b1-0 Sb1 Sb1: 표준오차 (standard error of estimate)