ベイズ最適化 適応的実験計画の基礎と実践を読んだときのメモ
1.2 章あたりは、金森 統計的学習理論のp.5~p10辺りも副読してもいいのかも。
つまり、本で言うp.10の真ん中の
– 経験リスクを観測データを用いて近似した経験リスク ~ という部分は(それはそうかもしれないけど)大数の(弱)法則による近似の話っぽい。
p.7 期待リスクを観測データを用いて近似した経験リスクは大数の弱法則、つまり、任意の$\varepsilon > 0$に対して
\[
\lim_{n \to \infty}Pr_{P_{X \times Y}}(\{\abs{\hat{R}(h)-R(h)}>\varepsilon\})=0
\]
– あと、(これも計算すればわかるけど), 経験リスクは期待リスクの不偏推定量になっている。
\[
D = {(x_1, y_1), \dots, (x_n, y_n)}
\]
LOOCV は、1つだけデータを抜いて学習し、抜いた1つで検証することを n 回繰り返す方法です。
たとえば, $n=K=3$のとき, $n_1=n_2=n_3=1$である場合,
- 1回目:学習$ (D \setminus {(x_1, y_1)} )= \{(x_2, y_2),(x_3, y_3)\}$, 検証 $( (x_1, y_1) )$
- 2回目:学習$ (D \setminus {(x_2, y_2)} )= \{(x_1, y_1),(x_3, y_3)\}$, 検証 $( (x_2, y_2) )$
- 3回目:学習$ (D \setminus {(x_3, y_3)} )= \{(x_1, y_1),(x_3, y_3)\}$, 検証 $( (x_3, y_3) )$
一般の3-fold CVの場合, $1,…,n_1$ が$D_1$に対応, $n_1+1,…,n_1 + n_2$ が$D_2$に対応, $n_1 + n_2 + 1,…,n_1+n_2 + n_3 $が$D_3$に対応($n_1 + n_2 + n_3 = n$), $\textrm{Err}_1$は$D_1$で検証しているということ。
95%ベイズ信用区間とは、事後分布に従う乱数を小さいものから順番に並べて、2.5%点から97.5%点に該当する範囲を調べることで得られる:
\[
Pr(l(y)\leq \theta \leq u(y)\mid Y=y) =0.95 \quad (= \int_{l(y)}^{u(y)} p(\theta \mid Y=y) ) d\theta
\]
ちなみに、この積分が実際には計算が難しいってこともあって(MCMCが役立つ)
p.42 の右上で行っていることは、例えばx=5を見たときに、黒い曲線との交点と、ほか2つの曲線とx=5の交点(2つ)との距離が左図も右図も等距離であることを言っている。そういう意味で、挙動(変動)に影響を与えるのはカーネル関数$k$, つまり分散ということ。
2.2.5について,
$K=((k(x,x’))_{x,x’ \in X}$は正定値対称行列ということだが、その場合,
\[
\inner{ x, y }_K := x^\top K y
\]
は$R^n$上の内積になっている。だから, (2.48),(2.49)の性質を満たす。任意の固有値$\lambda$が非負なのは、正定値から$\lambda \norm{x}^2=\inner{ x, x }_K\geq 0$
\[
\begin{array}{c|c|c}
& \text{データ観測前} & \text{データ観測後} \\
\hline
w \text{について}
& p(w)\ \ (\text{事前分布})
& p(w \mid \Phi, y)\ \ (\text{事後分布}) \\[6pt]
f_* \text{について}
& p(f_*)\ \ (\text{事前分布})
& p(f_* \mid X, y, x_*)\ \ (\text{事後(予測)分布}) \\[6pt]
\end{array}
\]