Mathematical Foundations of Infinite-Dimensional Statistical Models Ch.2 Gaussian Processes 2.1 Definitions, Separability, 0-1 Law, Concentration 이상엽 June 29, 2018
2.1.1 Stochastic Processes: Preliminaries and Definitions 2/32
Definition X가지표집합 T 에대한확률공간 (Ω, Σ, Pr) 위의확률과정 (stochastic process) X : T Ω R, (t, ω) X(t, ω) 각 t에대해 X t := X(t, ) 이확률변수 Definition X가지표집합 T 에대한확률공간 (Ω, Σ, Pr) 위의확률과정일때 Ω R T, ω {X t (ω) t T } 는잴수있는사상이되어 µ = Pr {X t t T } 1 는확률측도이다. 이 µ 를 X의확률법칙 (probability law) 라한다. 3/32
F T 가유한집합일때, Ω R F, ω {X t (ω) t F } 는잴 수있는사상이므로 µ F = Pr {X t t F } 1 는유한차원 분포가된다. F G T 에서 G가유한일때, π GF : R G R F 가자연스러운사영이면 µ F = µ G πgf 1 ( 일관성조건 ) 이성립한다. 4/32
Theorem (Kolmogorov consistency) 지표집합 T 가주어져있을때, 각 k N, t i T (i = 1,..., k) 에대해 ν t1,...,t k 는 (R n ) k 위의확률측도이다. 이러한측도들이아래의일관성조건들을만족한다고하자. F i R n 이잴수있고 π가 1,..., k의순열이면 ν tπ(1),...,tπ(k)(f π(1) F π(k) ) = ν t1,...,t k (F 1 F k ) F i R n 이잴수있고 m이양의정수이면 ν t1,...,t k (F 1 F k ) = ν t1,...,t k,t k+1,...,t k+m (F 1 F k (R n ) m ) 그러면어떤확률공간 (Ω, Σ, Pr) 과확률과정 X : T Ω R n 이존재해, 각 k N, t i T (i = 1,..., k) 와잴수있는집합 F i R n 에대해 ν t1,...,t k (F 1 F k ) = Pr(X t1 F 1,..., X tk F k ) 를만족한다 1. 1 https://en.wikipedia.org/wiki/kolmogorov_extension_theorem 5/32
반대로 {µ F F T, F 는유한집합 } 이일관성조건을만족하면원통 σ-대수 C = σ{πtf 1 (A) A B(RF ), F T, F 는유한집합 } 2 RT 에서정의된확률측도 µ 가유일하게존재해 µ F = µ πtf 1 이성립한다. X : T R T R, (t, x) x(t) 는 (R T, C, µ) 위의 확률과정이고, µ 는 X 의확률법칙이된다. 6/32
Definition 2.1.1 지표집합 T 에 대한 확률과정 X, Y 가 각각의 유한차원 분포가 같으면(또는 (RT, C)에서 같은 확률법칙을 가지면) 각각을 서로에 대한 version이라 하고, 각 t T 에 대해 Pr (Xt = Yt ) = 1이면 strict version이라 한다. Definition 확률과정 X 의 지표집합 T 에서 거리나 유사거리2 d가 존재할 때, X 가 확률연속(continuous in probability) d(tn, t) 0이면 P Xtn Xt 2 서로 다른 두 점 사이의 거리가 0일 수 있음 7/32
Definition 2.1.2 확률과정 X 의 지표집합 (T, d)가 (유사)거리공간일 때, X 가 분리 가능(separable) 셀 수 있는 T0 T 와 Pr (Ω0 ) = 1 인 Ω0 Ω가 존재해 모든 ω Ω0, t T, > 0에 대해 Xt (ω) {Xs (ω) s T0 B(t, )}을 만족 X 가 잴 수 있음(measurable) (Ω T, Σ T ) R, (ω, t) 7 X (ω, t)가 잴 수 있음3 I X 가 분리 가능하면 T0 이 T 에서 조밀하므로 T 는 분리 가능 I X 가 분리 가능하면 supt T Xt = supt T0 Xt a.s.. 우변이 셀 수 있는 상한이므로 잴 수 있어 좌변도 잴 수 있다. Xt 에 대해서도 마찬가지. 3 T 는 T 의 열린 공들로 생성된 σ-대수 8/32
Definition 2.1.3 확률과정 X t (t T ) 가표본유계 (sample bounded) 어떤 X 의 version X 의표본경로 (sample path) 들이거의모든 ω에대해고르게유계, 즉 sup t T X t < a.s.. (T, d) 가 ( 유사 ) 거리공간일때 X가표본연속 (sample continuous) 어떤 X의 version X 의표본경로들이거의모든 ω에대해유계이고고르게연속 9/32
Definition Cu (T, d)는 (T, d)에서 정의된 유계이고 고르게 연속인 함수로 이루어진 공간이다. I X 가 표본연속이면 그 유한차원 분포는 Cu (T, d)의 원통 σ-대수 C Cu (T, d) = {A Cu (T, d) A C}의 어떤 확률측도 µ의 주변분포이다. I 이때 (T, d)가 완전유계4 이면 C Cu (T, d)는 Borel σ-대수이고, 위의 µ는 Borel 확률측도이다. 4 임의로 정해진 똑같은 반지름을 가진 유한 개의 공들로 덮을 수 있는 공간 10/32
Proposition 2.1.4 (Oxtoby-Ulam) 완비분리가능거리공간위의 Borel 확률측도는 tight 5 하다. Proof. Oxtoby, J. C., and Ulam, S. On the existence of a measure invariant under a transformation. Ann. Math. 40 (1939), 560 6. (T, d) 가완전유계일때 C u (T, d) 는분리가능하고, f = sup t T f (t) 에대해완비이므로 X의확률법칙은 tight하다. 5 각 ɛ>0 에대해 µ(k c ) < ɛ 인 compact 한 K 가존재 11/32
Banach 공간 B에대해확률변수 X가 B 값을가지는 (B-valued) 것은확률공간에서정의된함수로서공역이 B 임을뜻한다. 집합 T 에대해 l (T ) R T 는유계함수들의모임이고, 이것은 x T = sup t T x(t) 에대해 Banach 공간이다. C u (T ) l (T ) 12/32
Proposition 2.1.5 (T, d) 가완전유계 ( 유사 ) 거리공간이고 X t (t T ) 가표본연속이면다음을만족하는 X의 version X 가존재한다. X 가 C u (T, d) 값을가진다. X 의확률법칙은받침 (support) 이 C u (T, d) 의부분집합인 tight 한 Borel 측도이다. 곧 l (T ) 에서의 Borel 측도이다. Proof. 6, 10 쪽의논의에서. 13/32
Example 2.1.6 (Banach space-valued random variables as sample continuous processes) 분리가능 Banach 공간 B 의쌍대공간 (dual space) 을 B, B 의 닫힌단위공을 B 1 라하자. {x i i = 1, 2,... } B 가조밀하면 Hahn-Banach 정리에서각 i 에대해 f i (x i ) = x i B 인 f i B 1 가 존재한다. 따라서 D = {f i } 이면모든 x B 에대해 x B = sup f D f (x). 확률변수 X 가 B 값을가지면 f f (X) (f D) 는모든표본경로가유계, 고르게연속. 따라서완전유계지표집합에대한표본연속확률과정에대한 논의를이경우에적용할수있다. 14/32
Proposition 2.1.7 X t (t T ) 가표본유계라하자. X의각유한차원분포가어떤 l (T ) 의 Borel 확률측도의주변분포와같을필요충분조건은다음을만족하는 T 에서의 ( 유사 ) 거리 d가존재하는것이다. (T, d) 는완전유계 거의모든표본경로가 d에대해고르게연속인 X의 version 존재 15/32
Proof. (= ) X의확률법칙이 l (T ) 의 Borel 측도라가정해도무방. (K n ) 은 µ( n=1 K n) = 1인 l (T ) 의증가하는 compact 집합열. d(s, t) = n=1 2 n (1 d n (s, t)) (d n (s, t) = sup{ f (t) f (s) f K n }) ɛ > 0을고정, m은 n=m+1 2 n < ɛ/4. m n=1 K n이 compact, 완전유계 f 1,..., f r m n=1 K n : m n=1 K n r s=1 B(f s, ɛ/4). 6 A = {(f 1 (t),..., f r (t)) t T } R r 이유계, 완전유계 t 1,..., t N A : A N i=1 B((f 1(t i ),..., f r (t i )), ɛ/4). 7 6 f = sup t T f (t) 7 (v 1,..., v r ) = max 1 i r v i 16/32
Proof. 각 f K n 에대해 f f s < ɛ/4인 s를 s(f ), 각 t T 에대해 (f 1 (t),..., f r (t)) B((f 1 (t i ),..., f r (t i )), ɛ/4) 인 i를 i(t) 로. d n (t, t i(t) ) = sup f Kn f (t) f (t i ) sup f Kn ( f (t) f s(f ) (t) + f s(f ) (t) f s(f ) (t i ) + f s(f ) (t i ) f (t i ) ) max 1 s r f s (t) f s (t i ) + ɛ/2 3ɛ/4 d(t, t i (t)) n=m+1 2 n + m n=1 2 n d n (t, t i (t)) ɛ (T, d) 는완전유계. 16/32
Proof. K = n=1 K n 이면 µ(k) = 1 이므로 (l (T ), B, µ) 의항등사상은 거의모든표본경로가 K 에있는 X 의 version. f K n, d(s, t) < 2 n 이면 f (s) f (t) d n (s, t) 2 n d(s, t) f 는고르게연속 K n 이유계이므로 f 는유계. K 의모든원소가유계, 고르게연속이므로원하는조건을만족. ( =) X: 가정을만족하는 version X 는 C u (T, d) 값을가지고, 책 17 쪽의논의에의해어떤 C u (T, d) 의 Borel 측도 µ 와유한차원주변분포가같으며 C u (T, d) 가완비 분리가능하므로 Oxtoby-Ulam 정리에서 µ 는 tight. 16/32
2.1.2 Gaussian Processes: Introduction and First Properties 17/32
Definition 2.1.8 모든 유한차원 주변분포가 다변량 정규분포를 따르는6 확률과정을 가우시안 과정(Gaussian process)이라 한다. 그 모든 다변량 정규분포의 기댓값이 0이면 중심화(centered) 가우시안 과정이라 한다(이후 다른 설명이 없으면 가우시안 과정은 중심화된 것으로 생각). Definition 2.1.9 Φ : T T R이 각 n N, t1,..., tn T 에 대해 행렬 (Φ(ti, tj ))ni,j=1 이 대칭이고 양의 반정부호(positive semidefinite) 이면 Φ를 T 에서의 공분산이라 한다. 6 그것들의 모든 선형결합이 정규분포를 따르는 것과 동치이다. 18/32
Proposition 2.1.10 Φ, f 가각각 T 에서의공분산, 함수일때, 모든 s, t T 에대해 EX t = f (t), E(X t f (t))(x s f (s)) = Φ(s, t) 인가우시안과정 X t 가존재한다. 이때 Φ, f 를 X의공분산, 기댓값이라하고, X가중심화인것과 f 0는동치이다. Proof. 유한집합 F T 에대해 µ F = N((f (t)) t F, Φ F F ) 라한다. {µ F } 가일관성조건을만족하므로 Kolmogorov 일관성정리에적용가능. 19/32
Example 2.1.11 H가분리가능 Hilbert 공간일때모든 g, h H에대해 EX h = 0, EX h X g = h, g H 를만족하는 X h (h H) 를백색 (white noise) 잡음과정이라한다. 셀수있는 H의정규직교기저 {ψ i } 가존재하므로, {g i } 를독립인표준정규분포열이라하면 X ψi = g i 를확장함으로써 X의존재성을보일수있다. 20/32
Definition X 가 가우시안 과정이면 dx2 (s, t) := E (Xt Xs )2 로 정의된 dx 는 T 에서의 유사거리가 되는데, 이것을 X 의 내재적 거리(intrinsic distance)라 한다. I (T, dx ) ({Xt t T }, d2 )7 는 등거리사상. I X 는 dx 에 대해 확률연속. 즉 dx 에 대해 조밀한 T0 T 에서 유한차원 주변분포에 따라 X 의 확률법칙이 결정된다. I 결국 가우시안 과정 X 의 모든 확률적 성질은 (T, dx )에서 얻을 수 있다. 7 d2 는 L2 공간에서의 자연스러운 거리, 즉 d22 (Xt, Xs ) = E (Xt Xs )2 21/32
Proposition 2.1.12 Xt (t T )가 가우시안 과정일 때, 아래 두 조건은 동치이다. I 유사거리공간 (T, dx )이 분리 가능 I X 의 분리 가능하고 잴 수 있는 (strict) version 존재 Definition 2.1.2 확률과정 X 의 지표집합 (T, d)가 (유사)거리공간일 때, X 가 분리 가능(separable) 셀 수 있는 T0 T 와 Pr (Ω0 ) = 1인 Ω0 Ω가 존재해 모든 ω Ω0, t T, > 0에 대해 Xt (ω) {Xs (ω) s T0 B(t, )}을 만족 X 가 잴 수 있음(measurable) (Ω T, Σ T ) R, (ω, t) 7 X (ω, t)가 잴 수 있음8 8 T 는 T 의 열린 공들로 생성된 σ-대수 22/32
Proof. ( =) 8 쪽의논의에서. (= ) T 0 = {s 1, s 2,... } T : d X 에대해조밀. 동치류로묶은뒤 d X 가거리라고해도무방. 각 m, n N 에대해 C n (s m ) = B(s m, 2 n ) k<m B(s k, 2 n ) 이면 {C n (s m ) m N} 은 T 의분할. 각 t T 에대해!s n (t) T 0 : t C n (s n (t)), (X n ) t = X sn(t). (X n ) 1 (A) = i N (C n (s i ) X 1 s i (A)) (X n ) 은잴수있음. 각 t 에대해, Chebyshev 부등식에서 Pr( (X n ) t X t > 1/n) n 2 E(X sn(t) X t ) 2 n 2 /2 2n Borel-Cantelli 정리에서 (X n ) t X t a.s.. 23/32
Proof. X t (ω) := lim sup n (X n ) t (ω) 이면각 t 에대해 X t = X t < a.s. 이고, 잴수있는함수들의상극한이므로 X 는잴수있다. X 는 X 의 strict version. r N 이면 n r : l < r d X (s r, s l ) > 2 nr. 그러면 n n r (X n ) sr = X sr 이므로 s T 0 이면 X s = X s. 각 ω 에대해 X t (ω) = lim sup X sn(t)(ω) = lim sup X sn(t)(ω) { X s (ω) s T 0 B(t, 2 n )} X 는분리가능. 23/32
Proposition 지표집합이같은가우시안과정 X, Y 가독립이면 X + Y 는가우시안과정이고그공분산은 X, Y 의공분산의합이다. 특히두과정이같은확률법칙을따르면 ( 서로의 version이면 ) α, β가실수일때 αx + βy 는 α 2 + β 2 X와같은법칙을따른다. Theorem 2.1.13 (0-1 law) 부분공간 F R T 이 F C이고 X t (t T ) 가가우시안과정이면 Pr{X F } {0, 1}. 24/32
Proof. X 1, X 2 : X와분포가같고서로독립인과정. 각 n N에대해 A n := {X 1 + nx 2 F }, B n := {X 2 / F } A n. X 1 + nx 2 는 1 + n 2 X의 version이고, F 가벡터공간이므로 Pr(B n ) = Pr(A n ) Pr(A n {X 2 F }) = Pr(X F ) Pr(X 1 F, X 2 F ) = Pr(X F ) Pr(X F ) 2 이 n과무관. 한편 n m이면 B n B m = φ이므로 Pr(B n ) = 0. Pr(X F ) = Pr(X F ) 2. 25/32
Example 2.1.16 B가 분리 가능 Banach 공간일 때, B값을 갖는 확률변수 X 가 각 n N과 fi B 9 에 대해 (f1 (X ),..., fn (X ))가 기댓값이 0인 다변량 정규분포를 따르면10 X 를 중심화 가우시안 확률변수라 한다. 그때 X : B L2 (Ω, Σ, Pr ), Xf = f (X )는 가우시안 과정이다. B가 d 차원일 때는 어떤 B의 기저 {f1,..., fd }에 대해 (Xf1,..., Xfd )가 다변량 정규분포를 따르면 X 가 가우시안 과정이 된다. 9 여기서 B 은 위상적 쌍대공간으로, 연속인 사상들만 포함한다. 선형성에 의해 각 f B 에 대해 f (X )가 기댓값이 0인 정규분포를 따르는 것과 동치이다. 10 26/32
정규분포와마찬가지로, 가우시안과정의 sup노음이그기댓값 ( 과중앙값 ) 근처에아주높은확률로몰려있다 (concentrate). 여기에서는오차가큰대신상대적으로증명이쉬운버전을다룸 27/32
Theorem 2.1.17 (B, B ) 는유한차원 Banach 공간, X가 B값을갖는중심화가우시안확률변수, f : B R은 Lipschitz 함수라하자. Ψ : R R이 0 이상, 볼록이고잴수있으면 EΨ(f (X) Ef (X)) EΨ( π 2 f (X), Y ) 이성립한다 (Y 는 X 와독립이고같은분포를따르는확률변수,, : B B R, (g, a) g(a)). 28/32
Proof. X 의치역이 B 라고해도무방. X(θ) = X sin θ + Y cos θ (θ [0, 2π)) X (θ) = X cos θ Y sin θ, X(θ) 와 X (θ) 는독립. (X, Y ) 와 (X(θ), X (θ)) 는같은분포 f (X(θ 2 ) f (X(θ 1 )) f Lip X(θ 2 ) X(θ 1 ) f Lip ( X + Y ) θ 2 θ 1 f (X( )) 는절대연속 f (X) f (Y ) = f (X(π/2)) f (X(0)) = π/2 d 0 dθ f (X(θ))dθ 29/32
Proof. Ψ 가볼록이고음이아니므로 EΨ(f (X) Ef (X)) = EΨ(f (X) Ef (Y )) EΨ(f (X) f (Y )) = EΨ( π/2 d 0 dθ f (X(θ))dθ) 2 π E π/2 0 Ψ( π d 2 dθ f (X(θ)))dθ = 2 π/2 π 0 EΨ( π d 2 dθ f (X(θ)))dθ (Jensen) (Fubini) (Jensen) (Fubini) 29/32
Proof. f 는 B 의 Lebesgue 측도 m 에대해거의모든점에서미분가능 (Rademacher 정리 ), 각 θ 에대해 X(θ) 의확률법칙 11 이 m 에대해 절대연속 f (X(θ)) 가확률 1 로존재. df (X(θ))/dθ = f (X(θ)), X (θ) a.s.. EΨ( π d 2 dθ f (X(θ))) = EΨ( π 2 f (X), Y ) 11 X 의확률법칙과같다. 29/32
Proof. Ψ 가볼록이고음이아니므로 EΨ(f (X) Ef (X)) = EΨ(f (X) Ef (Y )) EΨ(f (X) f (Y )) = EΨ( π/2 d 0 dθ f (X(θ))dθ) 2 π E π/2 0 Ψ( π d 2 dθ f (X(θ)))dθ = 2 π/2 π 0 EΨ( π d 2 dθ f (X(θ)))dθ = EΨ( π 2 f (X), Y ) (Jensen) (Fubini) (Jensen) (Fubini) 29/32
Example 2.1.19 (Concentration for the maximum of a finite number of jointly normal variables) ( 중심화 ) 다변량정규분포를따르는 X = (g 1,..., g n ) 의최댓값 max 1 i n g i 의분포가그기댓값에얼마나몰려있는지알아보자. B = R n 은노음 f ((x 1,..., x n )) = max 1 i n g i 에대해 n 차원 Banach 공간이다. f 가 Lipschitz 이므로 Ψ 만그대로가져오면정리 2.1.17 의모든조건을만족한다. 한편 f 는 B 의거의모든점에서단한성분만 0 이아니고, 그 값은 ±1 이다. 따라서 f (X) 가확률 1 로존재한다. 30/32
Example 2.1.19 (Concentration for the maximum of a finite number of jointly normal variables) σ 2 i = Eg 2 i, σ2 = max 1 i n σ 2 i 라하면, f (x), Y 는거의모든 x R n 에대해어떤 ±g i 이므로 g N(0, 1) 일때 σ i g 과같은 분포를따른다. 이제 Ψ 에짝함수이고 [0, ) 에서단조증가인조건을더해주면 거의모든 x에대해 EΨ( π 2 f (x), Y ) EΨ( π 2 σg) 이므로, EΨ( π 2 f (X), Y ) EΨ( π 2 σg). 정리 2.1.17 에서 EΨ(max g i E max g i ) EΨ( π σg) (1) 2 30/32
Example 2.1.19 (Concentration for the maximum of a finite number of jointly normal variables) Ψ(x) = e λ x (λ > 0) 이면 E(e t g ) E(e tg + e tg ) = 2e t2 /2 이므로 EΨ( π 2 σg) 2eλ2 π 2 σ 2 /8. 위에서구한식과 Chevyshev 부등식에서 Pr( max g i E max g i > u) 2e λu+λ2 π 2 σ 2 /8 우변의지수를최소화하는 λ 를넣으면 Pr( max g i E max g i > u) 2e u2 /2π 2 σ 2 (2) 30/32
Theorem 2.1.20 X t (t T ) 가 Pr(sup t T X t < ) > 0인분리가능한가우시안과정, Ψ가볼록, 잴수있고, [0, ) 에서단조증가인짝함수, g N(0, 1) 이라하면다음이성립한다 11. σ = σ(x) := sup t T EX t 2 <, E sup t T X t < EΨ(sup t T X t E sup t T X t ) EΨ( π 2 σg) Pr( sup t T X t E sup t T X t > u) 2e u2 /2π 2 σ 2 11 마지막부등식의우변은 O(e u2 /2σ 2 ) 까지줄일수있다. 31/32
Proof. z 0.674 : g 의 0.25 분위수, Pr( g > z) = 1/2. 0-1 법칙 ( 의따름정리 ) 에의해 sup t T X t < a.s.. M < : 1/2 > Pr(sup t T X t > M) 각 t T 에대해 1/2 > Pr( g > M ) 이므로 EX 2 t σ M/z < M EX 2 t > z 32/32
Proof. T 0 = {t 1, t 2,... } T : sup t T X t = sup t T0 X t 각 n N 에대해 Y n = max 1 i n X ti 이라하자. 식 (2) 에서각 n N 에대해 Pr( Y n EY n > σu) 2e u2 /2π 2 Y n sup t T X t < a.s. 이므로 sup t T X t 는유한한중앙값 m 을가진다. 따라서각 n N 에대해 Pr(Y n m) 1/2. 2e u2 /2π 2 < 1/2 인 u 를잡으면 (Y n m) 와 ( Y n EY n σu) 의교집합이존재해 EY n m + σu. 단조수렴정리에의해 E sup t T X t = lim EY n m + σu <. 32/32
Proof. lim(y n EY n ) = sup t T X t E sup t T X t a.s.. Ψ가볼록, 연속이므로 lim Ψ(Y n EY n ) = Ψ(sup t T X t E sup t T X t ) a.s.. 식 (1) 과 Fatou 보조정리에서가운데부등식을얻는다. 마지막부등식은예 2.1.19의마지막부분과같이얻을수있다. 32/32