3. 실험데이터의통계적취급 모든측정자료에포함된불확정성을적절히취급하고의미있는결론을이끌어내기위해서는자료의통계학적인취급이필수적이다. 그리고실험을설계할때부터실험데이터에서요구되는정확도를알아내고필요한검출기의분해능과실험의지속시간등을추정하는과정에서도통계학은중요한역할을하고있다. 이장에서는핵및입자물리실험에밀접하게관련된부분으로제한하여통계학을설명하고자한다. 3.1 확률분포 통계학에서는주사위를던진다든지주어진시간안에붕괴하는방사성붕괴사건의개수추정등과같이실험결과가사건마다일정하지않은임의과정 (random process) 을취급하고있다. 임의과정은각각의가능한결과에대해기대되는빈도를나타내는확률밀도 (probability density) 에의해설명될수있다. 즉임의과정의결과는모든가능한영역에서분포하는임의변수 에의해결정된다. 예를들면하나의주사위를던지는경우 는 1부터 6까지의정수중하나가될것이다. 그리고이때결과가 값을가질확률은 이된다. 취급하는과정에따라 는연속일수도있고불연속일수도있다. 가불연속이라면 는각점 에서어떤값을가질것이며, 이때임의의구간 에서사건이일어날확률은다음과같다. (3.1) 그러나 가연속이라면어떤유한한 구간에서의사건발생확률만이가능하게된다. 즉 와 사이에서사건이일어날확률은 가되고, 어떤구간 에서사건이일어날확률은다음과같다. (3.2) 보통확률함수는다음과같이규격화되어있다. (3.3) 임의변수 의기댓값 (expectation value) 또는평균 (mean or average) 은 (3.4) - 48 -
와같이정의되며, 임의의함수 의기댓값또는평균은 (3.5) 로정의된다. 그리고분산 (variance) 은 (3.6) 로정의된다. 이때표준편차 (standard deviation) 는확률분포의퍼진정도를나타내며임의변수 가평균 주위로얼마나요동 (fluctuate) 치는지를나타낸다. 앞에서하나의변수 만고려하는간단한경우만살펴보았다. 그러나일반적으로여러개의변수가관련되는경우에는다변확률분포함수 가이용된다. 이때각변수에대한평균과분산은이전과같이정의된다. 이에더하여각변수간의선형적인상관관계 (correlation) 를나타내는공분산 (covariance) 이다음과같이정의된다. cov (3.7) 그리고때때로공분산보다다음과같이정의되는상관계수 (correlation coefficient) 가더많이사용된다. cov (3.8) 상관계수는 -1 부터 1 사이에존재한다. 만약변수들이완전히선형적으로관계되어있다면 이되고, 전혀선형적인관계가없다면 0 이된다. 3.2 확률분포함수의예 무수히많은확률분포함수가운데물리학에서는주로이항 (binomial), 푸아송 (Poisson), 가우스 (Gaussian) 분포를사용한다. 예를들어, 동전을 번던졌을때순서에관계없이앞면이 번나올확률은다음과같은이항분포로주어진다. (3.9) 이때 는한번던졌을때앞면이나올확률이다. 이항분포는불연속함수이며몇가지예를그림 3.1에보여주고있다. 식 (3.4) 와 (3.6) 을이용하여평균과분산을구하면 - 49 -
(3.10) (3.11) 가된다. 그리고식 (3.9) 를 부터 까지합해주면이항분포함수가 1로규격화되어있다는것을보여줄수있다. 또 이매우크고 ( ) 가그리작지않은 ( ) 극한에서는이항분포가가우스분포로근사된다는것도보여줄수있다. 이때가우스분포의평균과분산은각각식 (3.10) 과식 (3.11) 이된다. 그림 3.1 일때몇가지 값에대한이항분포. 가우스분포는정규 (normal) 분포라고도부른다. 실험기기의측정오차등은대부분다음과같은가우스분포를따르게된다. exp (3.12) 그림 3.2에서볼수있듯이가우스분포는연속함수이며대칭적이다. 그리고가우스분포에서표준편차 는봉우리최고높이의약 60% 정도에서봉우리두께의절반에해당한다. 때로는표준편차대신절반높이에서의봉우리전체폭 () 이사용되기도하는데, 이두변수사이의관계는다음과같다. ln (3.13) 하지만불행하게도가우스분포의적분은해석적으로계산불가능하여수치적분에의존할수밖에없으며이값은여러참고문헌에표로잘요약되어져있다. 그리고이때표는주로축 - 50 -
약 (reduced) 가우스분포 ( ) 를이용하여나타낸다. 모든가우스분포는다음과같은변수변환을이용하여축약가우스분포로바꾸어줄수있다. (3.14) 실험데이터를해석할때매우유용하게사용되는것은주어진표준편차범위내에서가우스분포의적분값이다. 즉어떤사건이 ± 내에존재할확률은약 68.3% 이고, ± 내에존재할확률은약 85.5% 이며, ± 내에존재할확률은약 99.7% 가된다. 그림 3.2 가우스분포에서표준편차 와 과의관계. 사건의수 이무한대로근사하고확률 가 0으로근사하여평균 가유한한값으로남아야한다는조건을만족한다면이항분포는다음의푸아송분포로표현될수있다. exp (3.15) 이항분포와같이푸아송분포도불연속함수이다. 그림 3.3에서볼수있듯이푸아송분포는대칭이아니며따라서봉우리의최고높이지점이평균도아니다. 그러나평균이커지면점점더대칭성이회복되어결국 에서가우스분포로근사하게된다. 푸아송분포는한번시도에서사건이일어날확률은거의없지만시도횟수가매우커서결국사건발생의빈도가유한한값인경우에잘맞는다. 예를들면, 핵충돌이라든지방사능원소의붕괴등이이에해당한다고할수있다. 푸아송분포의중요한점은식 (3.15) 에서볼수있듯이평균 만나타나고 이나 는나타나지않는다는사실과 라는점이다. 이것이왜핵이나입자물리실험에서평균의제곱근이중요한지를설명해주고있다. - 51 -
그림 3.3 여러가지 값에대한푸아송분포. 이론적인계산값과실험데이터가얼마나잘일치하는가를판단하고싶을때는주로카이제곱 ( ) 변수를이용한다. 만약 개의독립변수 가있다고가정하자. 그리고각각의변수가가우스분포를따르고평균과표준편차가각각, 라고가정한다면, 카이제곱은 (3.16) 로정의되고이는평균값주위로데이터 의요동정도를나타내는변수가된다. 이때주어진 집합에대한 의확률분포함수는다음과같이된다. exp (3.17) 여기서정수 를자유도 (degrees of freedom) 라고부르며식 (3.17) 의유일한변수이고 은감마함수이다. 자유도는식 (3.16) 의독립변수의개수와관계된다. 그림 3.4는여러가지 에대한카이제곱분포를보여주고있다. 이때식 (3.4) 와 (3.6) 을이용하면카이제곱분포의평균과분산이각각, 가됨을보여줄수있다. - 52 -
만약 의분포가완벽한가우스확률분포를따른다면식 (3.16) 으로부터 를얻을수있다. 그리고카이제곱은이평균값근처로식 (3.17) 식에따라요동침을알수있다. 이와같은분석의유용성은측정한실험데이터와이론값사이의카이제곱이이론값에대한실험데이터의요동이적당 (reasonableness) 한지를판단할수있도록해준다는데있다. 즉 일때실험데이터는어떤맞춤함수또는이론값으로부터완벽한가우스분포를이루고맞춤이잘이루어졌음을의미한다. 그림 3.4 여러가지자유도 에대한카이제곱분포. 3.3 측정과정과오차 실험에서의측정과정은어떤확률분포에의해표현될수있는임의과정이라고말할수있으며, 확률분포의변수가바로우리가원하는정보를내포하게된다. 따라서측정의결과는이확률분포의표본이되고실험데이터의오차는표본오차라고볼수있다. 오차에는기기오차 (systematic error) 와통계오차 ( 또는임의오차 ) 가있다. 기기오차는측정당시기기자체의문제로인해실험데이터가정확한값을주지못할가능성때문에발생하는불확정성이다. 기기오차는같은조건에서같은기기로얻은측정값에같은방향으로같은양만큼주어진다. 보통기기오차는실험데이터의불확정성에가장중요한역할을함에도불구하고잘정의된분석방법이존재하지않으므로실험마다개별적으로취급해야만한다. 이에반해통계오차는무한히많은사건에서유한한임의표본을추출함에의해발생하므로통계이론으로다루어야만한다. 예를들어, 방사성핵이붕괴하는경우를생각해보자. - 53 -
이핵의붕괴가능성은양자역학적인확률법칙에의해결정되므로, 주어진시간안에발생하는붕괴사건의수는임의변수가된다. 단위시간안에붕괴사건의수를측정하는것은핵붕괴에대한확률분포의표본을취하는것이다. 이때처음측정한사건수를 이라고하자. 그리고계속해서두번째및세번째측정에서 및 사건수를측정했다고하자. 그러면이데이터로부터 의평균을구할수있고, 데이터는유한한표본이므로이평균에는통계적인불확정성이있을것이다. 이를통계오차라고부른다. 3.4 표본추출과변수추정 ( 최대공산법 ) 표본추출은우리가알지못하는분포함수의변수를얻기위한실험적인방법이다. 여론조사에서볼수있듯이표본추출시편향 (biased) 되지않은표본을얻는것은매우중요하다. 즉실험데이터에서실험자가생각하기에옳지않은것같다고판단하여데이터중의일부를버리는것은매우위험한일이다. 실험데이터중일부를버리기위해서는명백한이유가있어야만한다. 그렇다면표본데이터가주어졌을때구하고자하는변수의최적값 ( 참값에가장가까운값 ) 을정하는방법을무엇일까? 여기서최적값이란참값과실험적인추정값사이의분산이최소가되는경우가될것이다. 통계학에서는이를추정 (estimation) 이라고부른다. 추정문제는최적추정과추정의오차를정하는문제로나뉜다. 최적추정에는여러가지방법이있지만가장많이사용되는것이최대공산법 (maximum likelihood method) 이다. 우선평균이 이고분산이 인 표본을생각해보자. 이때표본평균은표본의산술적인평균으로정의된다. (3.18) 이때 극한에서는표본평균이평균으로접근한다. lim (3.19) 비슷하게표본분산은 (3.20) 으로정의되고 극한에서는분산 으로접근한다. 그리고변수가두개인경우의표본공분산 (sample covariance) 은다음과같이정의된다. - 54 -
cov (3.21) 물론 극한에서는식 (3.7) 의공분산으로접근한다. 최대공산법은표본이추출된분포의형태를알고있을때에만적용가능하다. 대부분물리실험의경우에이분포는가우스또는푸아송분포이다. 하지만좀더일반적으로이론적인분포인 로부터추출된 개의독립적인측정값 을생각해보자. 여기서 는구하고자하는변수이다. 최대공산법은다음과같은공산함수 (likelihood function) 를구하는것으로부터시작된다. (3.22) 이공산함수는실험에서 의순서로측정할확률이라고생각하도록하자. 최대공산원리란측정된값에서이확률이최대가된다는것이다. 따라서변수 는함수 이최대가되도록정해져야한다. 만약 이정칙 (regular) 함수라면 을풀어서 를구할수있을것이다. 만약둘이상의변수가존재한다면각각의변수에대한 의편미분방정식을이용하면될것이다. 어떤경우에는 보다는 의로그함수를미분하는것이더쉬울수도있다 ( 즉, ln ). 이식의해인 을 변수의최대공산추정값 (estimator) 이라고부른다. 만약두번째표본에서 을구하면이는첫번째추정값과다를것이다. 따라서추정값역시확률분포에의해묘사될수있다. 그렇다면 의오차는무엇일까? 식 (3.6) 을이용하면다음과같이 의분산을구할수있다. (3.23) 이식은일반적인표현식이지만불행하게도해석적인결과를얻을수있는경우는매우드물다. 그러므로더쉬운방법은최대점에서근사적으로다음을계산하는것이다. ln (3.24) 만약두개이상의변수가있다면위이차미분식의행렬을만들어야한다. ln (3.25) 그러면역행렬의대각선요소가분산의근사값이된다. - 55 -
(3.26) 한가지주의할점은처음에 의평균이 라고가정하였다는사실이다. 이는 의극한에서편향되지않은추정값에대해성립하는근사로써모든추정값에대해성립하는것은아니다. 이제최대공산법을푸아송분포에적용해보자. 평균이 인푸아송분포로부터 을측정했다고가정하자. 이때공산함수는 exp exp (3.27) 이되고, 이식에서곱셈을없애기위하여로그를취해준다. ln ln ln (3.28) 이제 를 로미분한식을 0 으로두면 (3.29) 와같이표본평균을얻을수있다. 그리고 의분산은식 (3.24) 를이용하여구할수있을것이다. 그러나지금과같이특별한경우에는다른방법을써보도록하자. 식 (3.6) 의분산의정의를표본에적용하고항을정리하면 (3.30) 식 (3.30) 의유도에는특별히푸아송분포가사용되지않는다. 따라서식 (3.30) 은일반적인표현식이며표본평균의분산은모분포의분산을표본의크기 으로나누어준것이다. 특별히푸아송분포에대해서는 이므로추정한푸아송평균에대한오차는다음과같다. (3.31) 이번에는최대공산법을가우스분포에적용해보자. 역시평균이 인가우스분포로부터 을측정했다고가정하자. 그러면공산함수및그것의로그형은각각 - 56 -
exp (3.32) ln ln (3.33) 이된다. 이제식 (3.33) 을 에대해편미분하고 0 으로두면 (3.34) 가된다. 즉가우스분포에대한최적추정평균역시푸아송분포의경우와마찬가지로표본평균이됨을알수있다. 이번에는식 (3.33) 을 에대해편미분하고다시 0으로두면 (3.35) 이되고결국다음과같이표본분산을얻게된다. (3.36) 그러나유한한표본의수에대해표본분산은편향된추정값이되며, 은정확한값이되지못하고아래에서볼수있듯이일정한상수만큼작게된다. (3.37) 그리고 극한에서 은진짜분산으로수렴하게된다. 따라서실제실험데이터를분석할때에는표본분산의평균에 요소를곱해주는것이더욱정확할것이다. (3.38) 결국평균과는다르게한개의표본 ( ) 만으로는표준편차를추정하는것이불가능하다는것을알수있다. 한편일반적인식 (3.30) 을이용하면 (3.39) - 57 -
을얻을수있고이는결국식 (3.36) 과동일하며보통평균의표준오차라고부른다. 결국표본의개수 이증가할수록더욱정확한평균 를얻게되는것이다. 지금까지취급한예는모두같은기기로측정된같은양의표본만을다루었다. 그러나종종두개이상의서로다른양과오차를갖는데이터를합하여야하는경우가발생한다. 이경우여러데이터의단순한평균을구하는것은어떤데이터가다른것보다더욱정밀하게측정되었다는사실을무시하는것이다. 따라서각각의데이터에오차에따른중요도를고려한평균및오차를구하여야한다. 예를들어평균은 로같으나표준편차가 로서로다른가우스분포로부터각각 표본을추출했다고가정하자. 이때공산함수는식 (3.32) 에서 만 로바꾸어주면된다. 이공산함수를최대화시킨다면가중평균 (weighted mean) 은다음과같다는것을보여줄수있다. (3.40) 따라서기대했던대로 가작은 는더욱큰가중값을갖게된다. 그리고식 (3.24) 를이용하여가중평균의오차를구하면 (3.41) 이되고, 만약모든 가같은값을갖는다면가중평균과오차는각각식 (3.34) 와 (3.39) 로돌아가게된다. 3.5 몇가지예 ( 예 3.5.1) 접는의자의높이를 15번측정하여다음과같은실험데이터를얻었다. 이막대 의길이에대한최적추정값은얼마일까? 17.62 17.62 17.615 17.62 17.61 17.61 17.62 17.625 17.62 17.62 17.61 17.615 17.61 17.605 17.61 ( 풀이 ) 길이측정의오차가기기 ( 의자또는자 ) 에관련된것이라고가정하면실험데이터는가우스분포를가질것으로예상할수있다. 식 (3.34) 로부터최적추정평균은 = 17.61533이되고, 식 (3.38) 로부터표준편차는 = 5.855 10-3 이된다. 그러면평균 의 - 58 -
표준오차는식 (3.39) 에의해 = 0.0015 임을알수있다. 여기서최종결과를나타낼때의끝수버림 (rounding off) 에관해서설명할필요가있다. 우리가얻은평균 ( 여기서는 17.61533) 에서취하는숫자의개수는그결과의오차 ( 여기서는 0.0015) 에의해서결정이된다. 물론오차에서는 0이아닌첫번째숫자만의미가있다 ( 여기서는소수셋째자리까지 ). 그리고평균도오차와동일한자릿수를갖는다 ( 역시소수셋째자리까지 ). 끝수버림의일반적인방법은버려지는모든숫자의앞에소수점을부친후 ( 여기서는 의경우 0.33, 의경우 0.5), 이값이 (a) 0.5보다작으면마지막유효숫자 ( 여기서는 의경우에는 5, 의경우에는 1) 를그대로두고, (b) 0.5보다크면마지막숫자를 1만큼올려주며, (c) 정확히 0.5일때는마지막유효숫자가홀수인경우에는 1만큼올려주고, 짝수인경우에는그대로둔다. 결국의자길이에대한최적값은 = 17.615±0.002가된다. 하지만이결과가다른데이터분석에사용되는경우에는일반적으로오차에서두개의숫자까지유지할것을권한다. 이때두번째숫자는축적된끝수버림에의한오차를피하는데도움이되기때문이다. 따라서이때는의자길이에대한최적값은 = 17.6153±0.0015가된다. 끝수버림에서주의할점한가지는한번에숫자하나씩버리는것은옳지않다는것이다. 예를들면임의로 2.346을생각해보자. 그리고앞에서설명한방법으로 2.3을얻었다고가정하자. 하지만한번에숫자하나씩버려서자릿수를맞춘다면 2.346 2.35 2.4를얻게될것이다. ( 예 3.5.2) 7 개의논문에서뮤온의평균수명을찾아본결과다음과같이서로다른실험데이터를발견하였다. 최적값은얼마인가? 2.198±0.001 μs 2.202±0.003 μs 2.1966±0.0020 μs 2.1948±0.0010 μs 2.203±0.004 μs 2.197±0.005 μs 2.198±0.002 μs ( 풀이 ) 각각의데이터가서로다른오차를갖고있으므로가중평균공식을이용하여야만한다. 식 (3.40) 을이용하면평균수명으로 2.19696 μs을얻고, 식 (3.41) 을이용하면평균수명의오차로 0.00061 μs을얻는다. 이제앞에서설명한끝수버림방법을이용하면 = 2.1970±0.0006 μs이된다. ( 예 3.5.3) 방사성원소인 22 Na 핵으로부터 1 분간일어나는붕괴사건의수를 5 번측정하여다음과같은실험데이터를얻었다. 이핵의붕괴율과오차를구하여라. - 59 -
2201 2145 2222 2160 2300 ( 풀이 ) 방사능붕괴는푸아송분포에의해지배된다. 식 (3.29) 를이용하면 = 2205.6 을얻고, 식 (3.31) 을이용하면 을얻는다. 앞에서설명한끝수버림방법을이용하면붕괴율은 (2206±21사건/ 분 ) 이된다. 그런데만약 5분동안위의모든핵붕괴사건 ( 총 11028) 을한꺼번에측정했다면결과는어떻게될까? 이경우의오차는 이될것이다. 즉붕괴율 = (11028±106 사건 /5 분 ) = (2206±21 사건 / 분 ) 이되어이전과같은결과를얻었다. 지금까지살펴본몇가지예에서는어떤신호가측정되었을경우에실험결과를취급하는법을다루었다. 하지만핵물리실험에서는어떤이론또는법칙에의해금지되어있는특정한사건을찾아야하는경우도많이있다. 만약실험을어떤시간 동안수행한후, 특별한신호를찾지못했다고가정해보자. 이경우에는비록신호를찾지못했다고하더라도, 앞의이론이나법칙에위배되는사건이 100% 없다고장담할수는없을것이다. 따라서대신평균수명이나붕괴율등에한계 (limit) 를주게된다. 이과정을설명하기위하여평균반응율이 인임의의반응과정을생각해보자. 그러면시간 동안특정사건을찾지못할확률은 exp (3.42) 가된다. 한편이식은시간 동안특정사건을발견하지못하였을때 의확률분포로도해석될수있다. 가 보다작을확률을구해보면 exp exp (3.43) 가된다. 여기서식 (3.42) 를 로규격화시켜주었음에유의하라. 이확률을구간 0과 사이의신뢰수준 (confidence level 또는간단히 ) 이라고부른다. 물론신뢰수준이높을수록더욱믿을만한데이터가될것이다. 그리고신뢰수준에따른 의값은식 (3.43) 으로부터 ln (3.44) 이된다. ( 예 3.5.4) 100일동안 50g의 82 Se에서중성미자방출이없는이중베타붕괴사건이일어나는지관측하였다 ( 보통이사건은경입자보존법칙에의해금지되어있으나, 최근의입자물리이론에서는가능성이제기되고있음 ). 효율이 20% 인검출기로이사건을발견하지못 - 60 -
하였다고가정하고이붕괴모드의평균수명에대한높은한계를정하라. ( 풀이 ) 만약 90% 의신뢰수준으로평균수명을구하고자한다면, 식 (3.44) 에의해 는 ln = 0.115/day 보다작다는것을예상할수있다. 이제이한계를 82 Se 핵의평균수명으로전환해야한다. 50g 안에는 82 Se 핵이 = [(6.022 10 23 /mol)/(82 g/mol)] (50 g) = 3.67 10 23 개 들어있다. 즉핵하나당붕괴확률은 = (0.115/day)/(3.67 10 23 ) = 3.13 10-26 /day 이된다. 평균수명은붕괴율의역수이므로 8.75 10 21 year (90% ) 임을알수있다. 결국 82 Se 핵으로부터의중성미자방출이없는이중베타붕괴사건은존재가능성을완전히배제할수는없으나, 매우드문사건임을알수있다. 3.6 오차의전파 오차를포함하고있는어떤데이터가다른물리변수를계산하는데사용된다면그오차가어떻게전파될까? 이를이해하기위하여어떤함수 를고려해보자. 이때각변수 와 의오차는각각, 라고가정하자. 그러면 의분산은 (3.45) 와같이구할수있을것이다. 여기서 의평균은 가된다. 첫번째미분항만고려한다면 (3.46) 이성립하고, 양변을제곱한후식 (3.45) 를대입하면 - 61 -
cov (3.47) 이된다. 이때공분산항은그부호에따라오차를증가시킬수도있고감소시킬수도있다. 만약두변수가서로독립적이라면공분산항은 0이된다. 다음에몇가지예를들어보자. (a) 합의오차 ( ): cov (3.48) (b) 차의오차 ( ): cov (3.49) (c) 곱의오차 ( ): cov 또는 cov (3.50) (d) 비의오차 ( ): cov 또는 cov (3.51) ( 예 3.6.1) 양성자나중성자와같은입자의편극을측정하는고전적인방법은이들입자를적당한분석표적 (analyzing target) 에입사시킨후, 산란된입자의비평형도 (asymmetry) 를측정하는것이다. 예를들어, 빔의오른쪽으로산란된입자수를, 왼쪽으로산란된입자수를 이라고가정하면, 비평형도는다음과같이계산할수있다. 이때 의오차를구하라. ( 풀이 ) 에대한표현식을미분하면다음의두식을얻는다. 여기서 이다. 만약 과 이푸아송분포를따르면이들의분산은각각, 이된다. 이때측정이독립적이어서 과 사이의공분산항이 0이라고가정하고식 (3.47) 을이용하면 - 62 -
을얻는다. 비평형도가매우작아서 라고가정하면위식은다음과같이쓸수있다. 3.7 실험데이터맞추기 임의의함수 를고려해보자. 개의 좌표에서 값을오차 로측정했다고가정하자. 이실험데이터를함수 으로맞추고자 (fitting) 한다. 여기서 은미지의변수이다. 물론측정한실험데이터의개수 이맞추고자하는변수의개수 보다더커야만할것이다 ( ). 최소제곱법 (least square method) 은다음의합이최소가될때 가최적이된다는것이다. (3.52) 식 (3.16) 과의유사성때문에이방법을카이제곱최소법 (chi-square minimization) 이라고부르기도하나, 엄격히이야기하면이는 함수가평균이 이고분산이 인가우스분포를따를때만맞는용어이다. 하지만최소제곱법은완전히일반적인것으로모분포의종류에관계없이성립한다. 만약모분포를이미알고있다면최대공산법을쓸수도있을것이다. 그리고모분포가가우스분포일때는두결과가같다는것을보여줄수있다. 참고로 와 가모두오차를갖고있을경우에는이들오차를각각제곱하여더한후제곱근을취한값 (quadrature 또는 quadratic sum) 을 대신사용하면된다. 이제 를구하기위해식 (3.52) 를미분해주면 (3.53) 을얻고함수 의종류에따라식 (3.53) 은해석적으로풀수도있고, 그렇지못할경우도있다. 이제 의최적값을구하였다고가정하고이변수의오차를구해보자. 이를위해소위공분산행렬또는오차행렬이라고부르는 를만들어야한다. (3.54) - 63 -
이때이차미분은최소영역에서계산한다. 이때 의대각선원소 (diagonal element) 가바로 의분산이되며, 비대각선원소가 와 의공분산이된다. cov cov cov cov cov cov (3.55) 만약함수가 에대해선형적이라면식 (3.53) 은해석적으로풀수있다. 예를들어, 다음의함수 를생각해보자. (3.56) 여기서변수 와 를결정하기위해식 (3.52) 및그미분식을구하면 (3.57) (3.58) (3.59) 을얻는다. 이때 를다음과같이정의하면 (3.60) (3.61) 을얻게된다. 이제 와 의오차를구하기위해 의역오차행렬을 (3.62) 라고두자. 여기서 - 64 -
(3.63) 이다. 을이용하여식 (3.62) 의역을구해보면 (3.64) 을얻게되므로, (3.65) cov 이된다. 한편맞춤의질을판단하기위해서는카이제곱의평균 ( 최소영역에서의 ) 을이용한다. 3.2절에서이미설명하였듯이만약데이터가맞춤함수모양에맞고맞춤함수로부터벗어난정도가가우스분포를하고있다면 는평균이자유도 와같은카이제곱분포를따를것으로예상되고있다. 여기서자유도 이고선형맞춤의경우에는 가되므로 가된다. 이때일반적으로매우빠르고쉬운판단을위하여다음과같이정의되는축약카이제곱을자주이용한다. (3.66) 보통잘된맞춤에서는축약카이제곱이 1에가까워야하나좀더자세한분석에서는카이제곱이 보다클확률 를구하기도한다. 가 5% 보다큰경우에맞춤은받아들일만하다고말할수있다. 또다른주의할점은 가매우작을때이다. 이경우에는데이터가충분히요동치지않음을말해주는것으로서주로데이터의오차를너무크게할당한경우에해당한다. ( 예 3.7.1) 다음데이터를기술하는최적의맞춤직선을구하라. 0 1 2 3 4 5 0.92 4.15 9.78 14.46 17.26 21.90 0.5 1.0 0.75 1.25 1.0 1.5 ( 풀이 ) 식 (3.57) - (3.65) 를이용하면다음의결과를얻을수있다. - 65 -
= 4.227, = 0.878, = 0.044, = 0.203, cov = -0.0629 그리고맞춤이얼마나잘되었는가를판단하기위하여식 (3.57) 을이용하여카이제곱을구하면 = 2.0788 임을알수있다. 이때독립적인데이터점이모두 6개이고 2개의변수를추출하였으므로자유도 는 4이고, 0.5가되어좋은맞춤임을알수있다. 그리고 4개의자유도에대하여 97.5% 가되어역시좋은맞춤임을확인할수있다. ( 예 3.7.2) 방사성핵의붕괴는다음과같이지수함수에의해기술된다. exp (3.67) 여기서 는시간이고 는 = 0일때핵의개수이며 는평균수명이다. 매 15초마다방 사능핵의붕괴사건의수를측정하여다음데이터를얻었다. 이핵의평균수명은얼마인 가? (sec) 0 15 30 45 60 75 90 105 120 135 106 80 98 75 74 73 49 38 37 22 ( 풀이 ) 식 (3.67) 은선형이아니지만양변에로그를취하면선형으로전환할수있다. ln ln 식 (3.56) 과비교해보면 ln,, ln 이므로최소제곱법을이용할수있다. 한가지주의할점은오차의취급이다. 물론 은푸아송분포이므로통계적오차는 이다. 그러나맞춤에서는 ln 이사용되므로오차전파공식을사용해야만한다. ln ln 식 (3.57) 부터 (3.65) 를이용하면 = -0.008999, = 4.721, = 0.001, = 0.054를얻으므로 = 111.1±0.1 sec이된다. 이때축약카이제곱은 = 15.6/8 = 1.96으로 1 보다좀높은것을알수있다. 좀더자세히맞춤의질을살펴보기위해카이제곱확률 15% 임을보면겨우받아들일수있는조건임을알수있다. 그림 3.5는데이터점들과최적의맞춤선형함수를보여주고있다. 이와같이맞춤의질이만족할만한수준에이르지못할때는배경사건 (background) 의포함여부또는방사능핵에다른핵종이섞여있을가능성등에대하여조사해봐야한다. - 66 -
그림 3.5 ( 예 3.7.2) 의실험데이터에대한맞춤함수. 앞의몇가지예에서독립변수 의오차는없거나무시할정도로작다고가정하였다. 하지만일반적으로 의오차가 의오차와비슷해지면어떻게될까? 이경우에는유효분산법 (effective variance method) 을사용하면된다. 자세한유도는참고문헌 1, 2를참고하 기바라며여기서는그결과만소개하도록하겠다. 결론적으로식 (3.52) 에서 대신 을대입하는것이다. 여기서 와 는각각 와 의오차이다. 이때미분항이보통 의함수이기때문에 는비선형이고 를극소화하기위해서는수치계산법을이용해야만한다. 수치해석법은모든경우에적용가능한일반적인방법이존재하지않고경우에따라적당한방법을찾아야한다 [3, 4]. 3.8 참고문헌 [1] M. Lybanon, Am. J. Phys. 52, 22 (1984). [2] J. Orear, Am. J. Phys. 50, 912 (1982); errata in 52, 278 (1984). [3] W. T. Eadie, D. Drijard, F. E. James, M. Roos, and B. Sadoulet, Statistical Methods in Experimental Physics (North-Holland, Amsterdam 1971). [4] P. R. Bevington, Data Reduction and Error Analysis for the Physical Sciences (McGraw-Hill Book Co., New York 1969). - 67 -