韓國數學敎育學會誌시리즈 A < 數學敎育 > J. Korea Soc. Math. Ed. Ser. A: The Mathematical Education 1998. 11. 제 37권, 제 2호, 227-231. Nov. 1998, Vol. 37, No. 2, 227-231. 이항분포의정규근사 1) 이장택 ( 단국대학교 ) I. 서론 2) 이항분포의정규근사문제는고교수학에서중요한비중을차지하고있다. 그리고그내용을정리하면다음과같이요약될수있다. 확률변수 X가이항분포 B(n,p) 를따르고 n이충분히클때 Z=(X-np)/ npq는근사적으로표준정규분포를따르게된다. 단 q=1-p. 위사실을이용하면이항분포에대한확률의근사값을표준정규분포표를이용하여구할수있는데, 하지만다음과같은예를생각하여보자. 1 의눈부터 12 의눈까지표시된정 12 면체를 40 번던질때 1 의눈이 1 회이상 3 회이하나올확률을구하여라. 상기예의답은다음과같이풀수있는데, 1의눈이나오는횟수 X는 B(40,1/12) 을따르므로평균은 m= 40 1/12 = 3.333, 표준편차는 = 40 1/12 11/12 = 1.748이며이항분포표를이용하면 P(1 X 3)= P(X 3)-P(X 0) = 0.56985-0.030793 0.53906을구할수있으며이값은정확한값이된다. 한편정규근사를이용하여계산하는경우에는확률변수 X는근사적으 1) 이연구는단국대학교대학연구비의지원으로연구되었음 2) 이연구는단국대학교대학연구비의지원으로연구되었음. 로 N(m, 2 ) 을따르게되기때문에, 따라서 P(1 X 3)=P( 1-m X-m 3-m = 0.33342 와같이구할수있다. 이경우확률의참값과는 0.20564만큼이나차이가발생한다. 한편이항분포의정규근사계산을정확하게하기위하여대학과정에서는연속성의수정을도입하는데, 이것은 X가이항분포와같은이산형확률변수인경우의 확률값 P(a X b) 을구하는경우에 P(a-1/2 X b+1/2 ) 를이용하여정규근사를한다는이론이다. 따라서위의예인경우에연속성의수정을이용하여확률값을구하면 0.48546이됨을알수있으며, 따라서참값과의차이는 0.0536으로줄어든다. 하지만확률의차이 0.0536 역시적지않은오차라고할수있다. 위의예에서일반적으로시행횟수 40번은통계학에서중심극한정리를이용하여정규근사를하는경우에시행횟수가 30번이상이면근사정도가만족할만하다는이론에비하여서도큰값인데이와같은오차는왜발생하는것인가? 분명한것은이항분포의정규근사는단지시행의횟수가적당하게큰경우에도모두만족할만한근사를제공하지는못한다는사실인데, 그러면어떤경우에이항분포를정규근사화할수있는지를구체적으로알아볼필요가있다. 본논문의목적은이항분포의모수값 n과 p에대하여어떤경우에이항분포의정규근사가타당한지를여러가지 n과 p값의경우에실제계산을한결과를토대로가장바람직한경험적인규칙을찾아보려는것이라고할수있다. 논문의구성은 2절에서는이항분포의정규근사방법을소개하고, 3절에서는 n과 p값의다양한경우에대하여실제확 ) 227
228 이장택 률값을구하여가장적당한판정기준을알아본다. 끝으로 4절에서는본연구의결론이주어진다. 적인지를알아보려고한다. III. 여러가지근사제안의비교 II. 이항분포의정규근사방법들이항분포의정규근사는막연하게표본이충분히큰경우에적용이가능하다고대부분의수학및통계학책에서술되어있다. 하지만이것을직접적용하는데에는좀더구체적인제안들이필요한데, 다음은여러가지통계학책에나오는제안들을요약한것이다. [ 제안 1] np 5와 n(1-p) 5가동시에성립하는경우. [ 제안 2] p ± 2 p(1-p)/n (0,1). [ 제안 3] n > 9 max ( (1- p)/p, p/(1- p) ). [ 제안 4] np(1-p) 10. [ 제안 5] np(1-p) > 9. [ 제안 1] 에대한책의저자를소개하면, Aczel (1993), Anderson, Sweeney와 Williams(1994), Creighton (1994), Freund(1992), Goldman과 Weinberg(1985), Jarrell(1994), Kelly(1994), Lapin(1990), Mason, Lind와 Marchal(1994), Triola(1995), Trivedi(1982), Walpole 와 Myers (1993), Weiss(1995) 등을들수있으며, [ 제안 2] 는 Scheaffer와 McClave(1990), Mendenhall 과 Sincich(1992) 를들수있다. 또한 [ 제안 3] 에대하여는 Larson(1995), [ 제안 4] 는 Ross(1994), [ 제안 5] 는 Aczel(1993) 의책에서찾아볼수있다. 하지만위의저자들은한결같이언제정규근사를사용하는것이타당한가에대한구체적인이론적인타당성을모두배제하고단지제안만을하고있는데, 따라서어느방법이가장타당한지를모르기때문에정규근사를사용하는경우에는혼란만가중될따름이다. 따라서 3절에서는다섯가지제안의타당성여부를 n과 p값의다양한경우에대하여정확한이항분포의확률값과근사확률값의차이를비교하여위의제안중어느방법이어느정도효율 확률변수 X가시행의횟수가 n, 성공확률이 p일때 2절에서논의된근사조건중가장바람직한조건을알아보기위하여다음과같은확률을구하는경우를고려하여보았다. 시행의횟수는적당히큰 10 n 50, n = 10,11,,50을선택하고, 이경우성공확률 p 는 0.05 의간격으로 0.05 p 0.95를선택하였으며, 고려된확률의계산문제는 P(a X b), a < b, a = 0, 1,, n-1, b = 1, 2,, n와같다. 주어진 n과 p값의여러가지경우에대하여확률의값과정규근사를연속성의수정을고려한경우와하지않은두가지경우에대하여통계패키지 SAS를이용하여그값을구하였다. 한편아래와같은표준정규근사를사용하는경우에 P(a X b) P(c Z d), Z N(0,1), 상수 c와 d값에대하여, 제약이없는전체자료, 경우1 : c<0,d<0, 경우2 : c<0,d>0, 경우3 : c>0,d>0와같은 4가지경우로나누어근사정도를확인하여보았다. 그리고확률의차이는이항분포표에의한정확한값을 P b 라고하고, 연속성의수정을쓰지않은정규근사와사용한정규근사를이용한확률값을각각 P u 와 P c 로두면, D 1 = P b -P u 와 D 2 = P b -P c 를이용하여계산하였다. 다음 < 표 3.1> 은각각의경우에대한 5가지근사조건을이용하여구한확률의차이값 D 1 과 D 2 를이용하여구한자료의개수, 평균값, 표준편차, 최대값, 최소값을제시하며, D 1 과 D 2 값은연속성의수정에서각각 x와 o로표시되어있다. 또한고려된 4가지경우에대하여 5가지의제안중가장효율적인제안을연속성의수정을고려하지않은경우에는 * 로고려한경우에는 + 로표시하였다. < 표 3.1> 을통하여알수있는중요한결론들은다음과같다. 1. 고려된모든경우에대하여 5가지제안모두연
이항분포의정규근사 229 속성의수정을고려하는경우가하지않는경우보다근사의정확도를훨씬높일수있다. 따라서정규근사를사용하는경우에는연속성의수정을고려하는것이바람직하다. 2. Ross(1994) 가제안한 [ 제안 4] 는모든경우에있어서상대적으로다른제안들보다가장효율성이좋다. 하지만다른제안들보다 n에대한제약조건이가장강하다고할수있다. 여러가지제안들을제약조건의강도순으로나열하면 [ 제안 4] > [ 제안 5] > [ 제안 3] > [ 제안 1] > [ 제안 2] 의순서이지만, [ 제안 5] 는 [ 제안 4] 와비슷한효율성을가지며, 또한 [ 제안 1], [ 제안 2], [ 제안 3] 도서로비슷한효율성을가진다고할수있다. IV. 결론고교수학과정에서이항분포를정규분포로근사하여확률값을구하는경우에일방적으로표본의크기가크다는이유만으로사용하는것은문제점을안고있는데, 그이유는성공확률 p도영향을주기때문이다. 따라서언제이근사를사용할수있는지를밝혀주는것이바람직하다고생각되며, 실제로정규근사를활용하는경우에는연속성의수정을사용하고, 5가지제안중에서가장근사정도가높은 [ 제안4] 의조건을만족하는경우가제일이상적이라고할수있다. 하지만컴퓨터하드웨어와소프트웨어의눈부신발전으로이제는이항분포에관련된확률값을정확히구하는것이더이상어려운문제가아니기때문에가능하면근사방법대신정확한값을구하는것이가장바람직하다고할수있다. 참고문헌 Aczel, A.D. (1993). Complete Business Statistics (2nd ed.), Homewood, IL: Irwin. Anderson, D.R., Sweeney, D.J., & Williams, T.A. (1994). Introduction to Statistics Conceptsand 제안종류경우연속성수정자료개수평균표준편차최 [ 제안 1] 전체 경우 1 경우 2 < 표 3.1> 여러가지근사제안의비교 x 305208 0.0269 0.0323 0. o 305208 0.0026 0.0039 0. x 87162 0.0246 0.0329 0. o 87162 0.0025 0.0042 0. x 122365 0.0307 0.0312 0. o 122365 0.0029 0.0036 0. 경우3 x 95681 0.0240 0.0326 0. o 95681 0.0024 0.0040 0. 전체 x 350935 0.0275 0.0339 0. o 350935 0.0031 0.0048 0. 경우1 x 104276 0.0244 0.0342 0. [ 제안2] o 104276 0.0029 0.0051 0. 경우2 x 132430 0.0333 0.0329 0. o 132430 0.0035 0.0045 0. 경우3 x 114229 0.0238 0.0338 0. o 114229 0.0027 0.0049 0. 전체 x 257031 0.0267 0.0316 0. o 257031 0.0022 0.0031 0. 경우1 x 70269 0.0255 0.0326 0. [ 제안3] o 70269 0.0022 0.0034 0. 경우2 x 109018 0.0288 0.0304 0. o 109018 0.0023 0.0028 0. 경우3 x 77744 0.0247 0.0323 0. o 77744 0.0020 0.0032 0. 전체 x 75370 0.0214* 0.0259 0. o 75370 0.0011+ 0.0016 0. 경우1 x 19314 0.0217* 0.0268 0. [ 제안4] o 19314 0.0012+ 0.0018 0. 경우2 x 35004 0.0214* 0.0250 0. o 35004 0.0011+ 0.0015 0. 경우3 x 21052 0.0212* 0.0267 0. o 21052 0.0011+ 0.0017 0. 전체 x 112506 0.0221 0.0266 0. o 112506 0.0014 0.0020 0. 경우1 x 29318 0.0220 0.0275 0. [ 제안5] o 29318 0.0014 0.0021 0. 경우2 x 51179 0.0225 0.0257 0. o 51179 0.0014 0.0018 0. 경우3 x 32009 0.0215 0.0274 0. o 32009 0.0013 0.0021 0. Applications(3rd ed.), St. Paul, MN: West
230 이장택 Publishing. Creighton, J.H.C. (1994). A First Course in Probability Models and Statistical Inference, New York: Springer-Verlag. Freund, J.E. (1992). Mathematical Statistics (5th ed.), Englewood Cliffs, NJ: Prentice-Hall. Goldman, R.N., & Weinberg, J.S. (1985). Statistics: An Introduction, Englewood Cliffs, NJ: Prentice -Hall. Jarrelll, S.B. (1994). Basic Statistics, Dubuque, IA: William C. Brown. Kelly, D.G. (1994). Introduction to Probability, New York: Macmillan. Lapin, L.L. (1990). Probability and Statistics for Modern Engineering,(2nd ed.), Boston: PWS- Kent. Larson, H.J. (1995). Introduction to Probability, Reading, MA: Addison-Wesley. Mason, R.D., Lind, D.A., & Marchal, W.G. (1994). Statistics: An Introduction(4th ed.), Fort Worth, TX: Harcourt, Brace & Company. Mendenhall, W., & Sincich, T. (1992). Statistics for Engineering and the Sciences(3rd ed.), New York: Macmillan. Ross, S. (1994). A First Course in Probability (4th ed.), New York: Macmillan. Scheafferl, R.L., & McClave, J.T. (1990). Probability and Statistics for Engineers(3rd ed.), Boston: PWS-Kent. Triola, M.F. (1995). Elementary Statistics(5th ed.), Reading, MA: Addison-Wesley. Trivedi, K.S. (1982). Probability & Statistics with Reliability, Queuing and Computer Science Applications, Englewood Cliffs, NJ: Prentice- Hall. Walpole, R.E., & Myers, R.H. (1993). Probability and Statistics for Engineers and Scientists(5th ed.), NewYork: Macmillan. Weiss, N.A. (1995). Introductory Statistics(4th ed.), Reading, MA: Addison-Wesle 고동욱 이범규 박평순 박수천 (1991). 수학II( 하 ), 서울 : 금성교과서 ( 주 ). Normal Approximation to the Binomial Distribu Lee, Jang Taek Department of Computer Science and Statistics, Dankook University, Yong Hannam-dong, Seoul, 140-714, Korea; email: jtlee@ns.dankook.ac.kr Students invariably ask the question What are conditions concerning which are appropriate for using normal approximation to the binomial distribution? In this article we compare the accuracy of several conditions for the appr give some general conclusions concerning when to use the normal approximation
이항분포의정규근사 231 이흥천 김종현 (1991). 수학 II( 하 ), 서울 : 동아출판사. 정봉화 박재석 (1991). 수학II( 하 ), 서울 : 하나교과서주식회사.