Markov埋め込み

Definition.
$n,l$は$2\leq n \leq l$をみたす自然数. 次のように構成される写像$f\colon S_{n-1} \to S_{l-1}$をMarkov埋め込みという.
1) $\Omega_l$を空でない, 互いに交わらない部分集合の族$\{C_1, \ldots, C_n\}$に分割する.

2) 各$j$ (1\leq j \leq n)に対して, $C_j$に台をもつ$\Omega_l$上の確率分布
\[
Q_{(j)} = (Q_{(j)}^1, \ldots, Q_{(j)}^l)
\] ここで, $Q_{(j)}^k = a1_{C_j}(k)$である($a$は$k,j$に依存する適当な正数).

3) $(y^1,\ldots, y^l) = f(x^1,\ldots, x^n)$を
\[
y^k = \sum_{j=1}^n x^j Q_{(j)}^k
\] で定義する.

Remark.
(1)を$Q_{(j)}$をつかって言い換える. まず,
任意の$1\leq i \leq n$に対して, 或る$k_i \in \Omega_l$が存在して, $C_{(l)} \ni k_i$である. つまり, $Q_{(j)}^{k_i} >0$で, $Q_{(j)}^{k_i}=0$ ($i \neq j$)
Lemma.
上のようにして作った写像は本当に埋め込み写像である
[proof] 1) 上のRemarkから
\[
\begin{pmatrix}
Q_{(1)}^{1} & Q_{(2)}^{1} & \cdots & Q_{(l)}^{1} \\
Q_{(1)}^{2} & Q_{(2)}^{2} & \cdots & Q_{(l)}^{2} \\
\vdots & \vdots & \ddots & \vdots \\
Q_{(1)}^{n} & Q_{(2)}^{n} & \cdots & Q_{(l)}^{n}
\end{pmatrix}
\] はランク$n$である. だから, $(df)\colont T_pS_{n-1} \to T_{f(p)}S_{l-1}$は次元定理から単射になる.
2) $S_{n-1}$と$f(S_{n-1})$が同相であることは, $S_{n-1}$がコンパクトで, $f$連続, $f(S_{n-1})$はHausdorffだから, 単射性のみみればよいが, 単射性も上のremarkを
\[
\sum_{j=1}^n (x^j – z^j) Q^k_j= 0
\] が$1\leq k \leq l$で成立していることと合わせればわかる.
[/proof]

指数型接続と混合接続

 

(i)の二個目の等号は、$S$が対称テンソルだからそう.

$Xg(Y,Z)= g(\nabla_X Y, Z) + g(\nabla_Y X, Z) $で、$\alpha + (-\alpha) = 0$だから, $\alpha S_p(X,Y,Z) + (-\alpha) S_p(X,Z,Y) = \alpha S_p(X,Y,Z) + (-\alpha) S_p(X,Y,Z) = 0$

$g(\nabla^{(\alpha)}_{\partial_i} \partial_j ,\partial_k)= g((\overline{\nabla}_{\partial_i} \partial_j ,\partial_k) – \frac{\alpha}{2} S(X,Y,Z)$

\[
\partial_j \log p(\omega) = \frac{\partial_j p(\omega)}{p(\omega)}
\] と, $\log$の二回微分の計算
\[
\partial_i\partial_j \log p(\omega)
= \frac{(\partial_i\partial_j p(\omega)),p(\omega)-(\partial_i p(\omega))(\partial_j p(\omega))}{p(\omega)^2}.
\]、あるいは別表現

\[
\partial_i\partial_j \log p(\omega)
= \frac{\partial_i\partial_j p(\omega)}{p(\omega)}-\frac{\partial_i p(\omega),\partial_j p(\omega)}{p(\omega)^2} = \frac{\partial_i\partial_j p(\omega)}{p(\omega)} -\quad  (\partial_i \log p(\omega)) (\partial_j \log p(\omega))
\] を使う.

上の $\log$の二回微分の計算を使うと,
\begin{align}
\Gamma_{ij,k}^{(-1)} &= \sum_{\omega =1}^n p(\omega) \{ (\partial_i \log p(\omega))(\partial_j \log p(\omega)) + \partial_i\partial_j \log p(\omega)  \} (\partial_k \log p(\omega)) \\
&= \sum_{\omega =1}^n  (\partial_i \partial_j p(\omega) ) (\partial_k \log p(\omega))
\end{align}

\[ \partial_b p(\omega)= \delta_b(\omega) – \delta_n(\omega)  \]だから,
$ \partial_a\partial_b p(\omega)= 0$である.
したがって, $\Gamma_{ij,k}^{(-1)} =0$がわかる.

$\alpha$-接続

$((f_*)T) (X,Y) = T((df)_*X,(df)_*Y)$ ($X, Y \in T_p\mathcal{S}_{n-1}$)は, $(df)_* \colon T_p\mathcal{S}_{n-1} \to T_p\mathcal{S}_{l-1}$ ($n\leq l$)による$\mathcal{S}_{n-1}$上の$(0,2)$テンソルである.
さて, 計量$g$を持っている場合テンソルを上げ下げ($T$と$S$の一対一対応)できるのであった。
だから,
$g_p^{[l]}(T(X, Y),Z)=S_p^{[n]}(X,Y,Z)$と, $g_{f(p)}^{[l]}(((df)_*T)((df)_*X, (df)_*Y),(df)_*Z)=S_p^{[n]}((df)_*X,(df)_*Y,(df)_*Z)$

だから, $(0,3)$テンソルの仮定は, $(0,2)$テンソルのChentsovの定理(に$T$を代入して存在)の仮定でいう
\[
g_p^{[l]}(T(X, Y),Z) = g_{f(p)}^{[l]}(((df)_*T)((df)_*X, (df)_*Y),(df)_*Z)
\] を導く.

ここで, $T(X,Y)= \overline{\nabla_X^{[n]}}Y$とする ($ \overline{\nabla^{[n]}}$は計量$g$に付随するRiemanian接続. ).
このとき, 次のようにして, $(0,2)$テンソルの Chentsovの定理から,
\[
g_p^{[l]}(T(X, Y),Z) = g_{f(p)}^{[l]}(((df)_*T)((df)_*X, (df)_*Y),(df)_*Z)
\]

が導ける.

それには, $\Gamma_{ij,k}=\frac{1}{2}(\partial_i g_{jk} +\partial_j g_{ki} + \partial_k g_{ij})$
を用いて,
\begin{align}
g_{f(p)}^{[l]}\!\left( \overline{\nabla^{[l]}_{(df)_*X}}(df)_*Y ,(df)_*Z \right)
&= \frac12 \Big\{
((df)_*\partial_i)\, g_{f(p)}^{[l]}\big((df)_*\partial_j, (df)_*\partial_k\big) \\
&\quad + ((df)_*\partial_j)\, g_{f(p)}^{[l]}\big((df)_*\partial_k, (df)_*\partial_i\big)
+ ((df)_*\partial_k)\, g_{f(p)}^{[l]}\big((df)_*\partial_i, (df)_*\partial_j\big)
\Big\} \\
&= \frac12 \Big\{
\partial_i\, g_{p}^{[n]}(\partial_j, \partial_k)
+ \partial_j\, g_{p}^{[n]}(\partial_k, \partial_i)
+ \partial_k\, g_{p}^{[n]}(\partial_i, \partial_j)
\Big\} \\
&= g_{p}^{[n]}\big( \nabla^{[n]}_{X} Y , Z \big).
\end{align}

この上で, $T(X,Y)= \nabla_X^{[n]}Y- \overline{\nabla_X^{[n]}}Y$から導かれる$(0,3)$テンソルの不変性から,
\[
g_p^{[n]}(\nabla_X^{[n]}Y- \overline{\nabla_X^{[n]}}Y,Z)= -\frac{\alpha}{2}S_p^{[n]}(X,Y,Z)
\] をみたす. つまり, $(\nabla^{[n]}$と$\alpha$が一対一に対応する.

ここまでの一連の示したことを、定理の形に書くと次のようになる。

Theorem.
Markov埋め込みの下で, 計量の不変性を満たすとき,
当該のRiemann計量は,
\[
g_p(X,Y) = \sum_{\omega =1}^n p(\omega)(X\log p(\omega))(Y\log p(\omega))
\] に限られる.

不変性を満たすアファイン接続$\nabla^{\alpha}$では,
\[
g_p^{[n]}(\nabla_X^{\alpha}Y,Z)= g_p^{[n]}(\overline{\nabla_X^{[n]}}Y,Z) -\frac{\alpha}{2}S_p^{[n]}(X,Y,Z)
\] により, 実数$\alpha$と一対一に対応する.
ここで, $S_p$は, $(0,3)$-テンソルのChentovの定理で出てきた
\[
S_p(X,Y,Z)= \sum_{\omega =1}^n p(\omega)(X\log p(\omega))(Y\log p(\omega))(Zlog p(\omega))
\]

Definition.
上の定理での$g$をFisher計量, $\nabla^{\alpha}$を$\alpha$接続という.

Chentsovの定理(1: (0,2)-テンソルの場合)

アファイン写像は凸結合を保つので、次のような補題がわかる.

Lemma.
(V) と (W) を実ベクトル空間とする。
写像 ($f : V \to W$) がアフィン、すなわち
\[
f(x)=A x + a
\] ((A) は線形写像、($a\in W$))
であるとする。このとき、任意の点$ (x_1,\dots,x_m\in V)$ と凸結合
\[
x=\sum_{i=1}^m \lambda_i x_i,\qquad
\lambda_i\ge 0,\ \sum_{i=1}^m \lambda_i=1,
\] に対して、
\[
f(x)=\sum_{i=1}^m \lambda_i f(x_i)
\] が成り立つ。
[proof] アフィン性より
\[
f(x)=A\left(\sum_{i=1}^m \lambda_i x_i\right)+a
=\sum_{i=1}^m \lambda_i A x_i + a
=\sum_{i=1}^m \lambda_i (A x_i + a)
=\sum_{i=1}^m \lambda_i f(x_i).
\] [/proof] 前補題を ($\lambda_i=1/n$) に適用すればよい
Lemma.
$(v_1,\dots,v_n\in V) $の重心
\[
b=\frac1n\sum_{i=1}^n v_i
\] に対し、アフィン写像 ($f:V\to W$) は
\[
f(b)=\frac1n\sum_{i=1}^n f(v_i)
\] を満たす。

 

Theorem.
$\mathcal{S}_{n-1}$上の(0,2)テンソル場$g^{[n]}$からなる列$\{g^{[n]} \mid n=2,3,\ldots, \}$であって, 任意のMarkov埋め込み$f$に関する不変性
\[ g^{[n]}_p(X,Y) = g^{[n]}_{f(p)} (f_*X, f_*Y) \] を満たすものは定数倍を除いて、
\[.g^{[n]}_p(X,Y)= \sum_{\omega =1 }^n p(\omega)(X \log p(\omega))(Y \log p(\omega)) \] に限られる.
[proof] [Step. 0] Markov埋め込み写像$f\colon \mathbb{R}^n_{>0} \to \mathbb{R}^l_{>0}$に次のようにして自然に拡張される:つまり,
\[
f\colon \mathbb{R}^n_{>0} \to \mathbb{R}^l_{>0}; (x^1, \ldots, x^n) \mapsto (\sum_{j=1}^n x^jQ^{1}_{(j)}, \ldots, \sum_{j=1}^n x^jQ^{l}_{(j)})
\] であって, $f\rvert_{S_{n-1}}$は$S_{n-1}$上では, $S_{l-1}$にはいる($f(S_{n-1})\subset S_{l-1} \subset R^{l-1}_{>0}$.)
が, 別に, $f\rvert_{\mathbb{R}^{n}_{>0} \setminus S_{n-1}}$は別に$S_{l-1}$にはいらなくてもいい.

[Step.1] $\mathcal{S}_{n-1}$の重心
\[ p_0=(\frac{1}{n},\ldots,\frac{1}{n})\] で考える. Markov埋め込みによる不変性の特殊なケースとして、$l=n$の場合, つまり、(ラベルを入れ替える写像として$f$を考えるということ。)事象のラベル付けの不変性から、
\[. g^{[n]}_{p_0}(\frac{\partial }{\partial x^i},\frac{\partial }{\partial x^i}) \] は$1\leq i \leq n$によらない。 また$1\leq i\neq j \leq n$に対し,
\[. g^{[n]}_{p_0}(\frac{\partial }{\partial x^i},\frac{\partial }{\partial x^j}) \] は$i,j$によらない。
したがって,
ある定数の列$A^{[n]},B^{[n]}$が存在して,
\[ g^{[n]}_{p_0}(\frac{\partial }{\partial x^i},\frac{\partial }{\partial x^j}) = \delta_{ij}A^{[n]} + B^{[n]} \] となる. (実際, $A^{[n]}= g^{[n]}_{p_0}(\frac{\partial }{\partial x^1},\frac{\partial }{\partial x^1})$, $B^{[n]}$を$g^{[n]}_{p_0}(\frac{\partial }{\partial x^1},\frac{\partial }{\partial x^2})$とおけばよい。)
実は, $B^{[n]}=0$としても一般性が失われないことが次のようにしてわかる:
まず, $X\in T_{p_0}\mathcal{S}$を
\[X=\sum_i X^i \frac{\partial }{\partial x^i}\] と成分表示すると,
\[\sum_i X^i =0\] となる。何故ならば、$\mathbb{R}^n_{>0}$上の関数$h(x^1,\ldots,x^n)=x^1+\cdots + x^n$は$\mathcal{S}_{n-1}$上は常に値$1$を取る定数関数だから, $X(h)=X(1)=0$である. したがって,
\[ 0=X(h)=X(\sum_i  x^i) = (\sum_i X^i \frac{\partial }{\partial x^i})(\sum_i  x^i) = \sum_i X^i \] 以上により, 任意の$X,Y \in T_{p_0}\mathcal{S}$に対し,
\[. g^{[n]}_{p_0}(X,Y) = \sum_{i,j=1}^n X^iY^j(\delta_{ij}A^{[n]} + B^{[n]} ) = A^{[n]}   \sum_{i=1}^n X^iY^i \] となるから、$B^{[n]}=0$としても一般性が失われない。(X^i, Y^i一方のみのときは直前のことから消える。)
[Step2] 任意の$l$に対して、ある自然数$k$が存在して, $l=nk$となっている状況で、
\begin{align}
f(x^1,\ldots,x^n)&=(\frac{x^1}{k},\ldots,\frac{x^1}{k}, \ldots, \frac{x^n}{k},\ldots,\frac{x^n}{k},) \\
&=: (y^{1_1},\ldots, y^{1_k},\ldots,y^{n_1},\ldots, y^{n_k})
\end{align}
という$\mathcal{S^{l-1}}\subset \mathbb{R}^{l}$へのMarkov埋め込みを考える。
実際、 $1\leq j \leq n$に対して, $C_{(j)}=\{(j-1)k+1,\ldots, jk\}$とし, $Q_{(j)}=(\frac{1}{k}1_{C_{(j)}}(1),\ldots, \frac{1}{k}1_{C_{(j)}}(n))$とすれば確かにMarkov埋め込みの条件を$f$が満たしていることがわかる。
さて, このとき, $f_{*}\colon T_p \mathcal{S}_{n-1} \to T_p \mathcal{S}_{l-1}$を考えると, これは、 $\frac{\partial }{\partial x^i}\mapsto \sum_{j=1}^{l} \frac{\partial y^j}{\partial x^i} (\frac{\partial }{\partial y^j} )= \frac{1}{k} \sum_{r=l}^n \frac{\partial }{\partial y^l} $
であり、$\mathcal{S^{l-1}}$の重心$p_0$の$f$による像は$f$の定義から, $\mathcal{S}_{l-1}$の重心である。

実際, 行列 (A\in\mathbb{R}^{(nk)\times n}) による線形写像

\[
y = A x
\] で表せる。ここで (A) の成分は次のようになる:行番号を $( (i-1)k + j) ((i=1,\dots,n), (j=1,\dots,k))$と取ると
\[
A_{(i-1)k + j, \ell} =
\begin{cases}
1 & (\ell=i) \\
0 & (\ell\neq i)
\end{cases}.
\]

したがって、不変性により,
\begin{align}
A^{[n]} &= g^{[n]}_{p_0}(\frac{\partial }{\partial x^i},\frac{\partial }{\partial x^i}) \\
&=g^{[n]}_{f(p_0)}(f_*\frac{\partial }{\partial x^i},f_*\frac{\partial }{\partial x^i}) \\
&=g^{[n]}_{f(p_0)}( \frac{1}{k} \sum_{r=1}^n \frac{\partial }{\partial y^l}  , \frac{1}{k} \sum_{r=1}^n \frac{\partial }{\partial y^l} )\\
&= \frac{1}{k^2} \sum_{r,s =1}^n g^{[n]}_{f(p_0)}(  \frac{\partial }{\partial y^l}  ,  \frac{\partial }{\partial y^l} ) \\
&= \frac{1}{k^2} \sum_{r,s =1}^n \delta_{i_r,i_s} A^{[l]} \\
&=\frac{1}{k} A^{[l]}
\end{align}
これにより,

\[
\frac{A^{[n]}}{n} = \frac{A^{[l]}}{nk} = \frac{A^{[l]}}{l}
\]

したがって、ある定数$\lambda$が存在して,
\[
A^{[n]}= \lambda n
\] となる.
[Step3.] 今までの計算を使って、$(0.2)$テンソルの中身の基底の計算が別の場合を示していく。

$\mathcal{S}_{l-1}$上の有理点$p$を任意にとり, それを共通の分母$l$にもつ(通分しておくということ)分数で,
\[
p = (\frac{m_1}{l},\ldots, \frac{m_n}{l})
\] と表しておく.、
そして,
\begin{align}
f(x^1,\ldots,x^n)&=(\frac{x^1}{m_1},\ldots,\frac{x^1}{m_1}, \ldots, \frac{x^n}{m_n},\ldots,\frac{x^n}{m_n},) \\
&=: (y^{1_1},\ldots, y^{1_k},\ldots,y^{n_1},\ldots, y^{n_{m_n}})
\end{align}

ここで, 一般に
\[
\sum_{r=1}^{m_1} \sum_{s=1}^{m_2} \delta_{rs} = \sum_{r=1}^{m_1} 1_{\{ s \mid s\leq m_2 \}}(r)=m_1 \wedge m_2
\] であるから,
\[
\frac{1}{m_i m_j}\sum_{r=1}^{m_i} \sum_{s=1}^{m_j} \delta_{ij} \delta_{rs} A^{[l]} = \frac{\delta_{ij}}{m_i m_j} \times (m_i \wedge m_j ) A^{[l]} = \frac{\delta_{ij}}{m_i \vee  m_j} A^{[l]}
\] となることに注意する.

すると、任意の点$p\in \mathcal{S}_{l-1}$に対し
\[p(\omega) = \sum_{a=1}^{n-1}\xi^a \delta_a(\omega) + (1 – \sum_{a=1}^{n-1} \xi^a ) \delta_a(\omega) \] をみたす正の実数の組$(\xi^1,\ldots, \xi^{n-1})$が唯一つ定める($\xi^1(p),\ldots, \xi^{n-1}(p)$に関する微分方程式が解けるからそういうこと。)。
$a$方向に偏微分すると,
\[
\frac{\partial}{\partial \xi^a}p(\omega) = \delta_a(\omega) – \delta_n(\omega)
\] がわかる.

$1\leq a,b \leq n$に対して, $\delta_a(\omega)\delta_n(\omega)=0$, $\delta_b(\omega)\delta_n(\omega)=0$であることに注意すればよい.

[/proof]