データ解析のための統計モデリング入門を読んだときのメモ

https://github.com/Yukaeru/statisticalModeling
↑コードのメモはこっち

 

7章:
p.156
\[
p(y_i\mid \beta_1,\beta_2, \sigma^2) = L_i = \int_{-\infty}^{\infty} p(y_i\mid \beta_1,\beta_2,r_i)p(r_i \mid s) dr_i
\] $p(r_i \mid s)$について分布自体は変化していない(パラメータsが止まっているから)から$r$の分布の重みを表す分布の形(p.157の$p(r\mid s)$)は同じ。

二項分布と正規分布を混ぜ合わせる:
$\textrm{logit}(q) = \beta + r$だから
\[
q= \frac{1}{1+\exp(-(\beta+r))}
\] つまり, p.157の図でいうと, 左が$p(y\mid q, N=8)$($q$が動くから分布も形が変わる), $r\sim N(0,3^2)$

Poisson分布と正規分布を混ぜ合わせる:
\[
\lambda=\exp(0.5+r)
\] を使う。つまり, p.158の図でいうと, 左が$p(y\mid \lambda)$($\lambda$が動くから分布も形が変わる), $r\sim N(0,1)$. 特に、混合された分布は
\[
p(y_i\mid \beta, \sigma^2=1) = \int_{-\infty}^{\infty} p(y_i\mid \beta=0.5,r_i)p(r_i \mid \sigma^2=1) dr_i
\] が混合された分布の分布を形作る。

ベイズ最適化についての勉強

ベイズ最適化 適応的実験計画の基礎と実践を読んだときのメモ

1.2 章あたりは、金森 統計的学習理論のp.5~p10辺りも副読してもいいのかも。
つまり、本で言うp.10の真ん中の
– 経験リスクを観測データを用いて近似した経験リスク ~ という部分は(それはそうかもしれないけど)大数の(弱)法則による近似の話っぽい。
p.7 期待リスクを観測データを用いて近似した経験リスクは大数の弱法則、つまり、任意の$\varepsilon > 0$に対して
\[
\lim_{n \to \infty}Pr_{P_{X \times Y}}(\{\abs{\hat{R}(h)-R(h)}>\varepsilon\})=0
\] – あと、(これも計算すればわかるけど), 経験リスクは期待リスクの不偏推定量になっている。

\[
D = {(x_1, y_1), \dots, (x_n, y_n)}
\]

LOOCV は、1つだけデータを抜いて学習し、抜いた1つで検証することを n 回繰り返す方法です。
たとえば, $n=K=3$のとき, $n_1=n_2=n_3=1$である場合,

  • 1回目:学習$ (D \setminus {(x_1, y_1)} )= \{(x_2, y_2),(x_3, y_3)\}$, 検証 $( (x_1, y_1) )$
  • 2回目:学習$ (D \setminus {(x_2, y_2)} )= \{(x_1, y_1),(x_3, y_3)\}$, 検証 $( (x_2, y_2) )$
  • 3回目:学習$ (D \setminus {(x_3, y_3)} )= \{(x_1, y_1),(x_3, y_3)\}$, 検証 $( (x_3, y_3) )$

一般の3-fold CVの場合, $1,…,n_1$ が$D_1$に対応, $n_1+1,…,n_1 + n_2$ が$D_2$に対応, $n_1 + n_2 + 1,…,n_1+n_2 + n_3 $が$D_3$に対応($n_1 + n_2 + n_3 = n$), $\textrm{Err}_1$は$D_1$で検証しているということ。

95%ベイズ信用区間とは、事後分布に従う乱数を小さいものから順番に並べて、2.5%点から97.5%点に該当する範囲を調べることで得られる:
\[
Pr(l(y)\leq \theta \leq u(y)\mid Y=y) =0.95 \quad (= \int_{l(y)}^{u(y)} p(\theta \mid Y=y) ) d\theta
\] ちなみに、この積分が実際には計算が難しいってこともあって(MCMCが役立つ)

p.42 の右上で行っていることは、例えばx=5を見たときに、黒い曲線との交点と、ほか2つの曲線とx=5の交点(2つ)との距離が左図も右図も等距離であることを言っている。そういう意味で、挙動(変動)に影響を与えるのはカーネル関数$k$, つまり分散ということ。

2.2.5について,
$K=((k(x,x’))_{x,x’ \in X}$は正定値対称行列ということだが、その場合,

\[
\inner{ x, y }_K := x^\top K y
\] は$R^n$上の内積になっている。だから, (2.48),(2.49)の性質を満たす。任意の固有値$\lambda$が非負なのは、正定値から$\lambda \norm{x}^2=\inner{ x, x }_K\geq 0$

\[
\begin{array}{c|c|c}
& \text{データ観測前} & \text{データ観測後} \\
\hline
w \text{について}
& p(w)\ \ (\text{事前分布})
& p(w \mid \Phi, y)\ \ (\text{事後分布}) \\[6pt] f_* \text{について}
& p(f_*)\ \ (\text{事前分布})
& p(f_* \mid X, y, x_*)\ \ (\text{事後(予測)分布}) \\[6pt] \end{array}
\]