지경택 송영호 * 정국삼 ** ( 주 ) 한라 * 충북대학교대학원안전공학과 ** 충북대학교안전공학과 (2001. 9. 12. 접수 / 2001. 10. 30. 채택 ) Categorical Analysis for the Factors of Industrial Accident Cases Kyung-Tek Jhee Young-Ho Song * Kook-Sam Chung ** HALLA * Graduate School, Department of Safety Engineering, Chungbuk National University ** Department of Safety Engineering, Chungbuk National University (Received September 12, 2001 / Accepted October 30, 2001) Abstract : This study aimed to search for the fundamental causes using a categorical analysis, a kind of statistical methods. As the analysis methods, correlation analysis, independence test and logistic regression analysis were used. And the SPSS package, a general - purpose mathematical library, was used to obtain statistical characteristics. As the result of this study, the causes associated with factor of were factors such as, sex, types of, month. In case of applying independence test method, the most important cause was the factor of month. In case that logistic regression analysis method was applied, the cause contributed to the increase of occurrence probability of major injury were factors such as suffocation & intoxication, temporary construction structure, less than 6 month. On the basis of these results, the plan for prevention and the proper investment for prevention expenditure could be carried out in each workshop. Key Words : categorical analysis, cause, correlation analysis, logistic regression analysis 1. 서론 1) 국내의현행산업재해사고의통계는산업재해보험가입사업장의업무상재해로인정된산재자만을대상으로하여, 산업재해조사조사표에단순구분된재해형식과원인요소별로분류하여백분율로산출하고있어다분히피상적이다. 따라서, 산업재해요인의과학적인분석을기하지못하고있어근본적인재해발생의원인규명에한계가있는실정이다. 1) 그러므로, 본연구에서는국내의충북지역에서발생한산업재해를대상으로통계적기법인범주형분석을이용하여재해발생에있어서의요인별상관성, 요인간의영향성및중요요인을파악하여보다효과적인산업재해예방의대책과안전관리활동방안을수립하는데필요한기초자료로활용하고자 To whom correspondence should be addressed. sshae5@trut.chungbuk.ac.kr 하였다. 본연구에사용된통계학적기법을설명하면다음과같다. 첫째, 산업재해사례의 data 를분석하여근로손실일수및재해형태와기타변수들간의상관분석을통하여상관도를도출하였다. 둘째, 명목및서열척도의범주형변수 (categorical variables) 들을분석하여변수간의교차분석을통하여독립성과관련성을분석하였다. 셋째, 종속변수와독립변수들간의인과관계와독립변수들의변동에따라종속변수의변화를예측하기위하여, logistic regression analysis 을적용하였다. 위와같은분석을위하여사용된산업재해사례 data 는모두 2,133 건으로, 충북지역의사업장에서 1997 년한해동안수집한 data 로하였고, 분석에사용된통계 package 는 SPSS(Statistical Package for the Social Science ver. 8.0) 을사용하였다. 그리고, 통계분석을용이하게하기위하여 data 의 coding 을변경하거나변환을시도하였다. 94
2. 통계적분석 ρ lm = A (A+B+C) (5) 2.1. 상관도해석산업재해사례에서요인들간의상관도계산방법의기본적인개념은다음과같다. 인자 l 또는인자 m 이동시에일어나는재해사례는인자 l 또는인자 m 이각각일어난사례에대하여어느정도의비율을갖는가? 하는문제로인자 l 이일어난재해사례집합을 A, 인자 m 이발생한재해사례집합을 B 라하고각각의요소수를 n(.) 로표시하면인자 l, 인자 m 사이의상관도 ρ lm 는 로표시된다. 이때, 상관도의실제계산을위해재해사례 Data 를 X i 로하면, X i = [ 0, 1, 0, 1,, 0, 1 ] 로재해사례에 1 : 1 로대응하고있다. 재해사례의분류인자를순서대로번호를부여하면, i 번째사례의 j 번째인자에있어서의 data 는다음과같은것이된다. X ij =1 (i 번째사고의 j 번째인자가일어난경우 ) 0 (i 번째사고의 j 번째인자가일어나지않은경우 ) 여기서, i = 1, 2, 3,, N ( 재해사례의총건수 ) 이고, j = 1, 2, 3,, K ( 인자의총수 ) 이다. 변수 X ij 를위와같이정의하기로하면, 인자 l 과 m 이재해사례총건수가운데함께일어나고있는경우를 A, 인자 l 이일어나고, 인자 m 이일어나지않는경우의수를 B, 그리고, 인자 l 이일어나지않고인자 m 이일어나는경우의수를 C 라고하면, (1) 여기에서정의된 ρ lm 은인자 l 과인자 m 이어느정도의관련성을갖고있는가를나타내는양이된다. 2) 2.2. 독립성검정두변수간의관련성의여부와검정결과만일상호관련성이있다면, 그정도는얼마나되는지를알아보기위하여다음과같이독립성검정방법을채택하였다. 2.2.1. χ 2 통계량만일두변수가각각 m, n개의범주를갖는다면교차표는 (m n) 개의 cell을이룬다. 이들두변수가갖는빈도분포에의하여 (m n) 개의각 cell에두변수가결합된기대빈도를구하고실제측정된빈도와비교함으로써 χ 2 값을산출해내게되는데, 독립성검정에서가장많이이용되는것이바로 Pearson 의카이제곱통계량 (Pearson s Chi-square Statistics) 이다. 3) Pearson의카이제곱통계량은 χ 2 = k ( O i - E i ) 2 ( E i ) (6) 여기서, O i 는 i 번째범주에대한관측빈도를말하고, E i 는 i 번째범주에대한기대빈도, k 는범주수로정의되는데, 귀무가설이맞을때에는자유도 (degree of freedom ; df) 가 (m-1)(n-1) 인 χ 2 분포를따르게된다. 결정원칙은검정통계량보다더큰값이나올확률인 P 값 (P - value) 을구해서유의수준 ( α = 0.05) 보다작으면귀무가설을기각하게되어두변수는서로독립이아니라는결론을얻게된다. A = B = C = X il X im (2) X il (1-X im ) (3) (1 - X il ) X im (4) 로되어, 앞서정의되었던상관도 ρ lm 은다음식과같이표시할수있다. 2.2.2. 관련성척도 ( λ) χ 2 검정결과는두변수간에통계적으로의미있는관련성이있는지는알려주지만, 이를근거로두변수간에관련성이어느정도인지는판단할수없다. χ 2 값이크다고반드시관련성이강하다고는볼수없으며, 관련성은약하더라도표본이크면 χ 2 값은크게나타날수있다. 그러므로, 관련성의정도를알기위해서는별도의측정방법이필요하다. 본연구에서는이중에서가장무난하고해석이명확한 λ를채택하여관련성을측정하기로한다. λ 산업안전학회지, 제 17 권제 1 호, 2002 년 95
지경택, 송영호, 정국삼 는식 (7) 과같이정의되는데, 취할수있는값의범위는 0 λ 1 으로, λ =0 일때두변수는완전히독립적이고, λ =1 일때두변수는완전한관계임을의미한다. (7) 여기서, N은사례수이고, f i 는독립변수의각카테고리내의최빈도수를말하며, F d 는종속변수의최빈도수를말한다. 4) 2.3. Logistic regression analysis Logistic regression analysis 는자료의분포형태가비선형적이고, 종속변수가이원화, 즉단지두개의값만을취할때, 종속변수와독립변수들간의인과관계를추정하는기법이다. 5) Logistic regression analysis 로어떤사건이일어날확률을직접적으로추정할수있다. 하나이상의독립변수에대하여, 이모델은다음과같이나타낼수있다. 3) (8) 여기서, z 는선형결합을나타내는데, 다음과같이나타낼수있다. (9) 3. 분석결과및고찰 분석을위해수집된산업재해사례 data 들은모두 25 개의항목들로구성되어있는데, 신뢰성있는분석을위하여 10 개항목으로재분류하였고, 또각각의항목들에대해서통계분석기법을처리하는데있어서용이하도록 code 화하였다. 또, 재해사례조사중미기재항목이나기록이불충분한자료는가용항목들만 code 화하고, 나머지항목들은분류불능으로처리하였다. 3.1 상관도해석재해사고의과정상중요한변수라고할수있는사고의발생형태와근로손실일수에영향을줄수있는기타변수들간의상관관계를상관도분석을통하여그결과를도출해내었는데, 이결과를 Table 1 및 Table 2 에나타내었다. 이들 Table 에서보는바와같이가장높은상관도를보이는것은 Table 1 의경우 61 일 ~90 일 - 6 개월미만 에서는 0.161 이었고, Table 2 에서는 추락 - 6 개월미만 의경우가 0.189 로서항목간높은교차빈도를보일경우상관도도높 Table 1. Correlation degrees between and [yr] -0.5 05-1 1-2 2-3 3-4 5-10 10-20 20-1-14.015.011.029.010.016.020.038.067 15-28.064.046.051.055.038.036.017.011 29-60.160.106.094.054.072.071.047.009 61-90.161.052.068.073.039.064.048.010 91-120.115.066.060.048.052.047.014.010 121-150.081.037.039.039.027.039.029 151-180.048.048.027.039.040.015.030.014 181-270.139.056.062.025.031.027.020.003 271-365.039.020.010.023.033.009.019.029 366-730.044.039.033.015.037.043.021.044 death.022.024.032.029.005.038.007.022 Table 2. Correlation degrees between types of and [yr] types of electric shock -0.5 05-1 1-2 2-3 3-4 5-10 10-20 20-.012.012.004.011.012.022 personal disease.005.008.008.006.017.009.043 traffic.037.103.158.092.058.067.011.031 dropping.122.070.055.055.044.050.030.010 upset&collapse.175.067.028.034.040.041.027.006 pneumoc oniosis.011.058.244 suffocation& intoxication.002.004.006 falling.189.062.049.040.043.042.018.003 collision.041.034.031.033.021.037.028.008 narrowness.187.085.115.069.059.069.033.017 fire&explosion.013.012.008.011.018 96 Journal of the KIIS, Vol. 17, No. 1, 2002
게나타났다. 3.2. 독립성검정 Table 3 은 근로손실일수 와 발생월 항목간의 χ 2 검정을행한결과이다. 양측검정의점근유의수준이설정유의수준 ( α=0.05) 보다작으므로 두변수가상호독립이다 라는귀무가설을기각하게되어대립가설, 즉 두변수가상호독립이아니다. 를채택하였다. 즉, 근로손실일수는재해가발생하는월에따라다르다는결론을얻었다. 또우도비검정 (Likelihood Ratio Chi-Square) 결과도같은결과를나타내고있었다. 연관성의정량적척도인 λ 값은 0.075 로서두변수간에는다소미약한연관성을나타내고있었다. 3.3. Logistic Regression Analysis Logistic 회귀분석에서는상관도분석에서나온결과를바탕으로반응변수, 즉 근로손실일수 항목에큰영향을미친다고판단되는독립변수네가지 ( 재해형태, 기인물, 근속기간, 업종 ) 를채택하여반응변수의발생확률을예측하였다. 이분석기법에서는반응변수가 2 원화되어야하므로반응변수 근로손실일수 항목을경상 ( 근로손실일수 56 일이하 ) 및중상 ( 근로손실일수 56 일초과 ) 으로나누어독립변수들에따라각각의발생확률을계산하였다. Table 4 에 logistic 회귀분석의결과를나타내었는데, 유의수준으로볼때독립변수중반응변수에영향을주는것은 연령, 근속기간, 기인물 항목이었으며, 회귀식은식 (10) 과같다. Table 3. Result of χ 2 -test on month by Chi-Square Tests Value of Approx. Sig. Z = 0.9717 + 0.0018( types) - 0.0385(originated objects) - 0.0552( ) + 0.0745(ages ) (10) Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid-Cases 2133 662.221 a 110.000 659.289 110.000 87.086 1.000 a 22 cells(16.7%) have expected count less than 5. The minimum expected count is 1.39 Nominal by Nominal Lambda Goodman and Kruskal tau Directional Measures Value Asymp. Std. Errora Approx. Sig. Symmetric.075.010.000 month month a Not assuming the null hypothesis b Based on chi-square approximation.103.011.000.043.012.000.030.002.000b.033.003.000b 그리고, 독립변수에따라서종속변수의발생확률을구하여고찰하였는바, 이확률값은회귀계수와독립변수들의곱의합으로서나타나는선형회귀식 Table 4. Result of logistic regression analysis Number of selected cases : 2133 Number rejected because of missing data : 0 Number of cases included in the analysis : 2133 Variable : -2 Log Likelihood : 2635.8918-2 Log Likelihood : 2589.731 Goodness of Fit : 2127.392 Cox R^2 :.021 Nagelkerke R^2 :.021 Chi-Square df Significance Model 46.161 4.0000 Block 46.161 4.0000 Step 46.161 4.0000 Variable B S.E df Sig. R Exp(B) types.0018.0154 1.9060 -.0836 1.0018 originated objects -.0385.0085 1.0000 -.0836.9622 -.0552.0209 1.0081 -.0436.9463 ages.0745.0202 1.0002.0663 1.0774 Const..9717.1979 1.0000 산업안전학회지, 제 17 권제 1 호, 2002 년 97
지경택, 송영호, 정국삼 에서선형결합값을구한후식 (8) 과 (9) 에대입하여구하였다. 즉, 중상재해의발생확률이높은경우는재해발생형태중에서는 질식중독, 추락, 개인질병 등이고, 기인물중에서는 건조설비, 화학설비 등이었으며, 재해자의연령은 45-49 세미만, 55-59 세미만 과같이연령이높고근속기간은 6 개월미만 과같이짧은경우에발생확률이높게나타났는데, 이는안전교육을충분히실시하지않은채위험작업에종사하게되어재해가발생한것으로사료된다. 4. 결론 산업재해사례에있어서의재해발생요인에대한제반분석을범주형자료분석기법을이용하여분석한결과, 다음과같은결론을얻을수있었다. 1) 상관도의분석결과, 변수 근로손실일수 와다른변수간의가장높은값을나타내는경우는 (29-60 일 ) - 업종 ( 제조업 ) 인경우 0.198, (29-60 일 ) - 성별 ( 남자 ) 인경우 0.230. (181-270 일 ) - 발생월 (6 월 ) 인경우 0.154, (61-90 일 ) - 근속기간 (6 개월미만 ) 인경우 0.161 의값을나타내었다. 2) χ 2 -Test 로독립성검정을한결과, 독립변수중 근속기간, 기인물, 재해발생월, 성별, 업종, 재해형태등이종속변수인근로손실일수와상호관련이있는것으로나타났고, λ 값을적용시킨결과근로손실일수와가장관련성이높은요인은재해발생월로나타났다. 3) 근로손실일수를경상및중상으로나누어반응변수와독립변수의인과관계를추정하여, 중상재해의발생확률을높게하는변수요인들을파악할수있었다. 참고문헌 1) 홍광수, 정국삼, 상관분석을응용한산업재해사례요인의고찰, 산업안전학회지, Vol. 14, No. 1, pp. 141~149, 1999. 2) 정국삼, 재해사고분석론, 충북대학교안전공학과, 1993. 3) 정충영, 최이규, SPSSWIN 을이용한통계분석, 무역경영사, 1998. 4) 홍종선외 2 명, 조사방법과통계자료분석, 전영사, 1996. 5) 배일섭, 정영숙, SPSS 한글프로그램과통계분석기법, 대구대학교출판부, 1998. 98 Journal of the KIIS, Vol. 17, No. 1, 2002