6. Relaton and Statstcal Weather Forecastng (관 계와 통계적인 일기예보) 6.1 Background 대기운동은 비선형이므로 결정론적인 의미에서 완벽하게 예측될 수 없다. 보완책으 로 통계적인 방법이 유용하고 예보의 일부로 사용된다. 1 수치예보모델 없이 순수하게 통계 모형만을 이용하는 경우 단시간 예보나 아주 긴 시간(수주이상) 예보에서 사용 수치예보모델과 결합하여 사용되는 경우 모델이 표현하지 못하는 량이나 지역에 대해서 확률 값을 제시하는 경우 6. Relatonshp
Scatter plot: 두 변수 사이의 관계를 보기 위하여 사용 Lnear regresson: 독립변수에 의존하는 종속변수의 평균적 관계를 나타내는 관 계식 결정적 관계식(좌) 통계적 관계식(우): 결정성분+오차성분 Determnstc(결정적): f we know the value of one varable, we can determne the value of the other exactly Statstcal(통계적): natural varablty exsts n both measurements Correlaton: 선형 상관관계의 방향과 정도를 나타냄 6.3 Revew of least-squares regresson 정의
회귀 분석 : 변수들 간의 함수적인 관련성을 규명하기 위하여 어떤 수학적 모형을 가정 하고 이 모형을 측정된 변수들의 자료로부터 추정하는 통계적 분석방법 종속 변수 : 다른 변수의 영향을 받는 변수 독립 변수 : 다른 변수에 영향을 주는 변수 모델 설계 1 모델은 다음으로 표현 y = α + βx + ε ( = 1,, L, n) 오차(무작위 오차)의 평균은 0, 따라서 y값의 평균은 결정성분과 동일 3 즉, 결정성분을 다음과 같이 가정 E( y) = α + β x 4 Sample 자료에서 α,β에 대한 추정치 a,b를 구하여 수식을 완성: ŷ 는 E(y)의 추정치가 됨 ŷ = a+ bx 5 오차항은 다음과 같이 정규분포로 가정 ε σ ~ N (0, ) 6 통계적으로 유용성을 검증: 표준편차? 7 모델을 예측이나 추정에 사용 예제: 약품사용량과 반응
섭씨와 화씨 온도 yˆ = 3 + 1.8x 6.3.1 최소자승법(Least square method) 회귀모형에서 미지의 모수 a와 b를 추정할 때 오차(잔차)의 제곱 합을 최소로 하도록 추정하 는 방법 구하고자 하는 수식은 ŷ = a+ bx 잔차(resdual)의 정의 ˆ = = + + ~ (0, ) e y y y a bx e e N σ 오차(잔차)의 제곱 합
오차(잔차)의 제곱 합이 최소가 되는 추정치 잔차 제곱합을 a의 함수로 나타내었을 때, 최소치에서는 a에 대하여 미분하면 0 잔차 제곱합을 b의 함수로 나타내었을 때, 최소치에서는 b에 대하여 미분하면 0 정규방정식 (Normal equaton)
6.3. 분산분석 최소제곱 회귀직선을 구하여 사용하는 것이 의미가 있는가를 판단하는데 사용 y y = ( y y ) + ( y y) ˆ ˆ
y ˆ : 잔차 y yˆ y : 회귀직선에 의하여 설명되는 편차 분산 우변 마지막 항 왜냐고? y = a+ bx yˆ = a+ bx = y bx + bx 정규방정식에서
따라서 분산은 다음과 같이 n n n ( y ) ( ˆ ) ( ˆ y = y y + y y) = 1 = 1 = 1 1 3 SST=SSE+SSR 1 항: 평균과 차이의 총제곱합, 총변동 = SST(Sum of Squares Total) 항: 잔차 제곱합 = SSE(Sum of Squared Error) 3 항: 회귀 제곱합 = SSR(Sum of Squares for Regresson) 결정계수(Coeffcent of Determnaton): 단순회귀모형에서 회귀직선에 의한 분산(변동)이 종 속변수 분산(변동)에 기여하는 정도를 나타냄 SSR R = SST 0 R 1 R은 상관계수
분산분석 평균제곱: 각각의 제곱합을 대응하는 자유도로 나눈 것 SST SSE SSR 자유도 n-1 n- 1 표준편차 구할 때와 동일 개 parameters (a,b)가 사용 평균제곱 MST=SST/(n-1) MSE=SSE/(n-) MSR=SSR/1 ANOVA: Analyss of Varance MSR F-rato : F = = t MSE - 회귀직선의 유의성 검정에 사용 - F값이 클수록 유의성 커짐 Resdual vs ftted values resdual vs x 가중 회귀모형 잔차(resdual)에 가중치(w )를 줌 e = w ( y yˆ ) 6.3.3 찬차의 분석 단순회귀모형에서 직선관계, 정규성, 독립성, 등분산성의 가정이 옳은가 검토할 때 사용 y = α + β + ε x 잔차 e = y yˆ
잔차의 분포가 정규분포인가? 잔차와 추정값과의 도표 등분산을 만족하는가? 잔차와 x 값들과의 도표 독립성을 만족하는가? 6.3.3 중회귀 분석 독립변수의 정해진 값 x, L, x ( = 1,, L, n) 에서 측정되는 종속변수 관계식이 성립한다고 가정하자. Y 에 대하여 다음의 k개의 β Y = α + β1x + β x + L+ βkx + e, = 1,, L n e 은 서로 독립이며 ~ N (0, σ ) 1, β, L, β k, e α, β σ 이고 은 미지의 모수이다. α, β β 최소제곱법에 의한 의 추정 1, 정규방정식 중회귀의 분산분석 SST=SSE+SSR [k개의 독립변수를 사용하는 경우] SST SSE SSR 자유도 n-1 n-k-1 k 평균제곱 MSE=SSE/(n-k-1) MSR=SSR/k F-rato: SSR / k MSR F = t SSE /( n k 1) = MSE =
- k와 (n-k-1)의 자유도를 가진 F 선형관계가 있는가? 가설: 귀무가설(H 0 ), 대응가설(H 1 ) H 0 1 1 : β = β =... = β = 0 H : β 0 for some Reject H 0 when F exceeds kn, k 1( α ) k F 다항식 모형 k Y = α + β1x+ βx + L + βk x + e Logstc regresson y = 1+ exp( b 1 + b x + b x + Lb 0 x 1 K K x )
6.4 Statstcal forecast 6.4.1. 일반적 통계예보 예보시점에 이용 가능한 변수들을 예보자(predctor)로 사용하여 예측하고자 하는 변수 (predctand)와 회귀식을 구축함 (고전적인 예보) 자료의 분류와 합성 자료의 분류 predctor와 predctand의 관계는 조건에 달라 다를 수 있음 예) 계절에 따른 분류, 낮과 밤에 따른 분류 등 자료의 합성 비슷한 조건을 갖는 여러 관측소의 자료를 함께 이용하여 하나의 회귀관계식을 도 출. 사용되는 자료의 수를 증가시킬 수 있음 6.4. 예보자(predctor) 예보자 이용시 주의점 물리적으로 의미있는 predctor를 선택함 회귀식은 그 관계식의 개발에 사용되지 않은 독립된 자료를 이용하여 평가함 회귀식의 개발에 충분히 많은 자료들이 사용되야 함 overft regresson: 자료의 수가 n개일 때 회귀식의 독립변수의 수가 n-1개이면 물리적 관 계와 상관없이 완벽한 회귀식을 도출하게 됨 predctor 수 예보자 수를 증가하였을 때 개선 효과가 나타나지 않으면 현 predctor가 적정 predctor의 수의 증가가 R 의 값을 의미있는 (예: 0.05%) 증가를 초래하지 않는 경우 predctor의 수의 증가가 MSE의 의미있는 증가를 초래하지 않는 경우 6.4.3 확률예보 Regresson estmaton of event probabltes (REEP) predctand가 0 또는 1의 값을 갖는 선형회귀식의 개발 예) 강수가 온 경우 : 1, 강수가 안 온 경우: 0
물리적으로 의미없는 결과가 나오기도 함 예를 들어 음수나 1이상이 되는 값. 그러나 음 수인 경우 0으로 1이상인 경우 1로 예보하면 됨 6.4.4. 수치예보의 결과를 이용한 통계예보 통계모델의 필요성 국지기상에 중요한 작은 규모의 효과들이 수치예보모델에는 명시적으로 포함되어지지 못 함. 예보가 요구되는 작은 지역이나 특정 변수(강수확률)들을 수치예보모델에서 명시적으 로 나타나지 못함 수치예보모델이 완벽하지 않음 => systematc 오차 수치예보모델은 결정론 적이므로 결과의 불확실성을 정량화 할 수 없음 Perfect Prog forecasts 수치모델결과가 완벽하다고 가정 관측된 predctor와 관측된 predctand가 회귀 관계식 개발에 사용됨 예보시 해당 predctor의 수치모델결과를 사용 예) 1000-850hPa의 층후가 기온에 대한 좋은 predctor인 경우 예보된 1000-850hPa의 층후 가 기온예보를 위한 통계모델에 사용됨 모델이 predctor를 잘 예측하면 perfect prog forecast는 좋은 예보결과를 줄 수 있음 Model Output statstcs (MOS) forecasts 수치모델 결과와 관측결과가 회귀관계식 개발에 사용됨 수치모델결과를 predctor로 사용하고 관측결과가 predctand로 사용됨 수치모델 결과의 완벽성을 가정하지 않음 perpect prog approach와 달리 예보시간의 길이에 따라 다른 통계식이 요구됨 예) 1hr 예보시와 4hr 예보시 모델결과의 정확성이 떨어짐에 따라 다른 관계식이 요구 됨 고전적인 방법과 Perfect prog, MOS의 비교 고전적인 방법 통계예보모델 개발시와 예보시 같은 입력변수들이 사용됨 y t = f c ( x 0 ) Perfect prog 통계예보 모델 개발시
y 0 = f pp x ) ( 0 예보시 y = t f pp ( x t ) - x t 는 수치모델 결과 관측결과에 predctor와 predctand는 좋은 관계식을 갖고 있고 수치예보모델에서 predctor는 잘 예측이 되어지나 predctand가 잘 예측되어 지지 않는 경우 perfect prog forecastng이 사용될 수 있음 장점: 많은 자료가 통계예보모델 개발에 사용될 수 있음. 수치예보모델 또는 forecast projecton에 의존적이지 않음 단점: 모델의 systematc error를 고려하지 못함 MOS 통계예보모델 개발시와 예보시 둘다 수치모델 결과를 predctor로 사용함 장점: 모델의 systematc error를 고려할 수 있음 단점: 적은 자료만이 통계예보모델 개발에 사용됨, 수치예보모델과 forecast projecton 에 의존적임 6.4.5 앙상블 예보 조금씩 다른 초기조건을 갖고 모델을 반복적으로 수행하여 그 결과를 평균함으로써 예보결과 를 얻고 불확실성을 정량화 함
Term Project: 태풍의 예상진로 예보 태풍진로 예상위치는 필요에 따라 수시간에서 48시간까지 발표하고 있다. 태풍의 이동 방향과 속도의 변화가 심할 때는 예상위치에 대한 예보시간 간격을 조정하여 발표 하기 도 한다. 태풍예상위치 표시는 아래 그림과 같이 예상위치의 범위를 원형으로 표시한다. 이때 원의 크기는 태풍의 중심이 들어갈 예보확률을 70%로 한다. 현재 위치에서 다음 예 상 위치에 있는 원의 가장자리를 개의 실선으로 연결한다. 다만, 태풍 예상위치 표시는 태풍정보 발표구역 및 발표시간에 따라 생략 또는 단축시킬 수 있다. 태풍이 거의 정체 할 것으로 예상되어 예상위치 범위를 표시하기 어려울 때는 거의 정체 라고 표기한 다. 일반적 진로와 특이 진로
월별 진로 태풍진로에 대한 자료: 속도, 방향 자료 지역: 10~130E, 0~30N 월: 7월 셀마 사라 나비 속도 00 km/4h 30 km/4h 170 km/4h 방향 5 10 350 분석 결과
속도 - 평균 - 표준편차 방향 - 평균 - 표준편차