双対平坦と幾何構造

  • Hesse幾何ってやつと関連している。

    参考: 【情報幾何学】指数型分布族が定めるHesse構造

    Definition.
    双対構造$(g,\nabla, \nabla^*)$を持つ多様体$M$において, $\nabla$に関する曲率$R$も捩率$T$も共に$0$となり, かつ$\nabla^*$に関する曲率$R^*$も捩率$T^*$も共に$0$になるとき, $M$は双対平坦と呼ばれる.
    Remark.
  •  このあと, 5.3節で双対平坦な多様体として統計多様体を考えたい。
  •  また、 $R=0$, $R^*=0$が同値だから実は冗長。

Theorem.

$(A_{ij}),(A_{ij}) \in M_{n\times n}(\mathbb{R})$に対して, $A_{ij}=\sum_{j=1}^n B_{ik}A_{kj}$ならば, $B_{ij}=E_n$

Remark.
これは行列の積の定義から当たり前ではあるが、見方として$e_k=(A_{k1} A_{k2}\ldots A_{kn})$とおくと, 仮定の式は, $e_{l}=\sum_{k=1}^n B_{lk}e_k$と書き直せて, $\sum_{k=1}^n (B_{lk}-\delta_{ik})e_k=0$であることからもわかる.
Theorem.
双対構造$(g,\nabla, \nabla^*)$に関して双対平坦な多様体$M$では, 各点の周りで
\[g\left( \frac{\partial }{\partial x^i}, \frac{\partial }{\partial y^j}\right)=\delta_{ij}\] を満たす局所$\nabla$-アファイン座標系$(x^i)$と局所$\nabla^*$-アファイン座標系$(y^j)$の組$\{(x^i),(y^j)\}$を取ることができる.

[proof]

\[ \frac{\partial}{\partial \eta^j} = \frac{\partial y^k}{\partial \eta^j} \frac{\partial}{\partial y^k}\] こうして作ったアファイン座標系の組$\{(x^i),(y^j)\}$が, 点$p_0$だけでなく, 全ての点$p\in U \cap V$で
\[g_p\left( \left( \frac{\partial }{\partial x^i}\right)_p, \left( \frac{\partial }{\partial y^j}\right)_p\right)=\delta_{ij}\] を満たすことを示すことになるが、これは任意の$X\in \mathcal{X}(M)$に対して,
\begin{align*}
Xg\Big( \frac{\partial}{\partial x^i}, \frac{\partial}{\partial y^j} \Big)
&= g\Big( \nabla_X \frac{\partial}{\partial x^i}, \frac{\partial}{\partial y^j} \Big)
+ g\Big( \frac{\partial}{\partial x^i}, \nabla^*_X \frac{\partial}{\partial y^j} \Big) \\
&= 0
\end{align*}

となることからわかる。実際、
\[
f(p) = g_p\Big( \big(\frac{\partial}{\partial x^i}\big)_p, \big(\frac{\partial}{\partial y^j}\big)_p \Big)
\] とおくと、今の式は
\[
Xf = 0
\] を言っており、これはまさしく
\[
df(X) = 0
\] すなわち
\[
df = 0
\] である($f$ は連結成分上で定数)。

最後の等号では、$(x^i)$ が $\nabla$-アファイン座標系、$(y^j)$ が $\nabla^*$-アファイン座標系であること、すなわち
\[
\nabla_X \Big( \frac{\partial}{\partial x^i} \Big) = 0, \quad
\nabla^*_X \Big( \frac{\partial}{\partial y^j} \Big) = 0
\] であることを用いた。加えて、$1 \le j \le n$ に対して、
\[
\nabla_{\frac{\partial}{\partial x^j}} \Big( \frac{\partial}{\partial x^i} \Big)
= \Gamma_{ij}^k \frac{\partial}{\partial x^k}
\] において、$\Gamma_{ij}^k = 0$ だから
\[
\nabla_X \Big( \frac{\partial}{\partial x^i} \Big) = 0
\] が導かれる。

[/proof]

Definition.
上記の定理の性質を有する局所$\nabla$-アファイン座標系$(x^i)$と局所$\nabla^*$-アファイン座標系$(y^j)$の組$\{(x^i),(y^j)\}$を双対アファイン座標系という。
Lemma.
双対アファイン座標系$\{(\theta^i), (\eta_i)\}$に関する計量$g$の成分を
\[g_{ij}:=g(\partial_i,\partial_j),\quad g^{ij}:=g(\partial^i,\partial^j)\] とおくと,
\[g_{ij}=\partial_i \eta_j=\partial_j\eta_i\quad g^{ij}=\partial^i \theta^j= \partial^j\theta^i, \quad g_{ij}g^{jk}=delta_i^k\] が成り立つ.
[proof] 座標変換則
\[\partial_i = \frac{\partial \eta_k}{\partial \theta^i}\partial^k, \quad \partial^i = \frac{\partial \theta^k}{\partial \eta_i}\partial_k \] より,
\[g_{ij}=g(\frac{\partial \eta_k}{\partial \theta^i}\partial^k,\partial_j)=\frac{\partial \eta_k}{\partial \theta^i}g(\partial^k,\partial_j)=\frac{\partial \eta_k}{\partial \theta^i}\delta_j^k=\frac{\partial \eta_j}{\partial \theta^i}\] となる. つまり, $g_{ij}$は座標変換$(\eta_i) \mapsto (\theta^i)$のJacobi 行列である.  計量$g$の対称性から$g_{ij}=g_{ji}$は明らかである.
[/proof]
Lemma.
或る$C^{\infty}$関数の組$\{\psi(\theta^1,\ldots,\theta^n), \phi(\eta_1,\ldots,\eta_n)\}$が存在して,
\[\theta_i = \partial_i\psi, \quad \theta^i = \partial^i\phi,\quad psi(\theta^1,\ldots,\theta^n) + \phi(\eta_1,\ldots,\eta_n) -\theta^i\eta_i =0 \]
[proof] 前補題の一個目の等式から, $\partial_i \eta_j=\partial_j\eta_i$であって, これは$\eta_i = \partial_i \psi$となるポテンシャル関数$\psi$の存在を意味している. 実際, 前補題と計量$g$の対称性から, 可積分性$\partial_j \partial_i \psi = g_{ij}  = g_{ji}= \partial_i \partial_j \psi$がわかる.  更に多様体は局所ユークリッドだから, 必要があれば座標系の近傍を小さくとれば$\theta$のdomainが単連結となるように取れる. したがって, $\eta_i = \partial_i \psi$ ($i=1,2\ldots$) という連立偏微分方程式の解$\psi$が存在することがわかる.

同様に, $\partial^i \theta^j=\partial^j\theta^i$は$\theta^i = \partial^i \varphi$となるポテンシャル関数$\varphi$の存在を意味している. そして$\psi+\varphi -\theta^i \eta_i$を全微分すると, 積の微分から
\begin{align}
d(\psi+\varphi -\theta^i \eta_i)&=d\psi+d\varphi -(d\theta^i ) \eta_i -\theta^i  (d\eta_i ) \\
& = (\partial_i \psi)d\theta^i + (\partial^i \varphi)d\eta_i – \eta_i (d\theta^i ) -\theta^i  (d\eta_i )\\
& =0
\end{align}
となるから, 関数$\psi+\varphi -\theta^i \eta_i$は定数関数であることがわかる. そこで, ポテンシャル関数$\psi,\phi$に登場する任意積分定数$C$をうまく選ぶことで, 恒等的に
\[ \psi+\varphi -\theta^i \eta_i =0\] となるようにできる.
[/proof]

自明ではあるが, 結構大事な正定値性の補題をここで示す。

Lemma.
$\{(\frac{\partial}{\partial x_i})\} \subset T_p M$とする. さらに, $g_{ij} = g\left( \frac{\partial}{\partial x_i}, \frac{\partial}{\partial x_j} \right)$とする. このとき, $g_{ij}$は正定値である. つまり, 任意の$ v= (v_1,\ldots, v_n) \neq 0$に対して,
\[v^T(g_{ij})v > 0\]
[proof] \[v^T(g_{ij})v = \sum_{ij}g_{ij}v_i v_j = g(v,v) \] からわかる.
[/proof]
Lemma.
$u\in \R^n$, $\nabla^2 f(u)$が正定値行列ならば、$f$が狭義凸関数である.
(ちなみに半正定値と、広義凸の場合なら同値の関係になってる。)
この$2$つに注意すると次の補題が示せる.
Lemma.
前補題の$C^{\infty}$関数の組$\{\psi(\theta^1,\ldots,\theta^n), \phi(\eta_1,\ldots,\eta_n)\}$は計量$g$と
\[g_{ij} = \partial_i\partial_j \psi=(\nabla_{\theta}^2 \psi)_{ij},\quad g_{ij} = \partial^i\partial^j \varphi =(\nabla_{\eta}^2 \varphi)_{ij}\] で関連付けられる。したがって, $\psi$は$(\theta^1, \ldots,\theta^n )$に関する狭義凸関数, $\varphi$は$(\eta_1,\ldots, \eta_n)$に関する狭義凸関数である.
[proof] 4つ前と, 3つ前の等式のそれぞれ同じ番目に現れるものをくみあわせればわかる。 また, $g_{ij}$も$g^{ij}$も2つ前の補題から, 正定値であって、対称性が計量$g$の対称性から明らかである。したがって, $\psi$も$\varphi$も狭義凸関数である.
[/proof]
Lemma.
点$p\in M$の$\theta$座標と$\eta$座標をそれぞれ
\[\theta(p)=(\theta^1(p),\ldots,\theta^n(p)),\quad \eta = (\eta_1,\ldots,\eta_n)\] とあらわすとすると、以前の補題の$C^{\infty}$級$\{\psi(\theta^1,\ldots,\theta^n), \varphi(\eta_1,\ldots,\eta_n)\}$は互いにLegendre変換
\[ \varphi(\eta(p))=\max_{q\in M}\left\{ \theta^1(q)\eta_i(p)- \psi(\theta(q))\right\}  \] \[ \psi(\theta(p))  =\max_{q\in M}\left\{ \eta_i(q)\theta^i(p) – \varphi(\eta(q)) \right\} \] で与えられる.
[proof] 点$p$を固定し, 関数$q \mapsto \theta^i(q)\eta_i(p)-\psi(\theta(q))$を微分してみると, (二つ前の補題の最後の主張を使うと, )
\begin{align}
d(\theta^i(q)\eta_i(p)-\psi(\theta(q))) &= (\frac{d(\theta^i(q)\eta_i(p)-\psi(\theta(q))) }{d \theta^i}) d\theta^i(q) \\
& = (\eta_i(p)-\partial_i \psi(\theta(q))) d\theta^i(q)  \\
& = (\eta_i(p)- \eta_i(q)) d\theta^i(q)
\end{align}

だから, 一個目の所望の等式はmax は, 全ての$1\leq i \leq n$で$\eta_i(p)= \eta_i(q)$, すなわち$p=q$のときそのときに限り達成されて, その最大値は$ \theta^1(q)\eta_i(p)- \psi(\theta(q))$となる. これに二つ前の補題の最後の主張を使うと, $ \varphi(\eta(p))$がわかる.
[/proof]

Definition.
$M$を双対構造$(g,\nabla,\nabla^*)$に関する双対平坦多様体とする。2点$p,q\in M$に対して定まる量
\[ D(p||q) :=  \psi(\theta(p)) +  \varphi(\eta(q)) – \theta^i(p)\eta_i(q) \]

を$\nabla$-ダイバージェンスという. ここで, $\{(\theta^i), (\eta_i)\}$は$M$の大域的な双対アファイン座標系である。

次に, 今定義した$D(p||q)$の値が座標系によらないことを次の補題で示す。

Lemma.
$\{(\theta^i), (\eta_i)\}$, $\{(\tilde{\theta}^{lamba}), (\tilde{\eta}_{\lamba})\}$をそれぞれ, $M$の任意の双対アファイン座標系とし, それぞれの双対ポテンシャルを$\{\psi(\theta), \varphi(\eta)\}$と$\{\tilde{\psi}(\tilde{\theta}), \tilde{\varphi}(\tilde{\eta})\}$とかくと,
\[. \psi(\theta(p)) +  \varphi(\eta(q)) – \theta^i(p)\eta_i(q) = \tilde{\psi}(\tilde{\theta}(p)) +  \varphi(\tilde{\eta}(q)) – \tilde{\theta}^{\lamba}(p)\tilde{\eta}_{\lamba}(q) \]
[proof] 前章最後の補題から, アファイン座標同士は、或るアファイン変換で関連づけられている:
\[ \tilde{\theta}^{\lambda} = ( A_{i}^{\lambda} \theta^i + a^{\lambda} ,\quad \tilde{\eta}_{\lambda} = (B_{\lambda}^{j}\partial_j \psi+ b_{\lambda} )\]

\[ \frac{\partial}{\partial \theta^i} = \sum_{\lambda =1}^n \frac{\partial \tilde{\theta}^{\lambda}}{\partial \theta^i} \frac{\partial}{\partial \tilde{\theta}^{\lambda}} =  \sum_{\lambda =1}^n A_i^{\lambda} \frac{\partial}{\partial \tilde{\theta}^{\lambda}}   \]

\[ \frac{\partial}{\partial \eta_i} = \sum_{\lambda =1}^n \frac{\partial \tilde{\eta}_{\lambda}}{\partial \eta_i} \frac{\partial}{\partial \tilde{\eta}_{\lambda}} =  \sum_{\lambda =1}^n B_i^{\lambda} \frac{\partial}{\partial \tilde{\eta}_{\lambda}}   \] 直交性により,
\[ \delta_i^j = g(\partial_i, \partial^j)=\sum_{\lambda,\mu} A_i^{\lambda} B_j^{\mu} g(\partial_{\lambda}, \partial^{\mu}) = A_i^{\lambda} B_j^{\mu} \delta_{\mu}^{\lambda} = A_i^{\lambda} B_j^{\lambda}\] したがって, $A$と$B$は互いに逆行列である. このことに付随して,
\[\partial_{\lambda} = (\frac{\partial}{\partial \tilde{\theta}^{\lambda}} )=B_{\lambda}^i \partial_i ,\quad \partial^{\lambda} = ( frac{\partial}{\partial \tilde{\eta}_{\lambda}} )= A_{i}^{\lambda} \partial^i\] がわかる.
ここで, $\psi$と$\tilde{\psi}$の関係を導く.
$\tilde{\eta_\lambda}=\partial_{\lambda} \tilde{\psi}$が前補題からわかる. このことと直前の$\{B_{\lambda}^{i}\}$関係式から,
\[. \tilde{\eta_\lambda} = \partial_{\lambda} \tilde{\psi}= B_{\lambda}^{j} \partial_j \tilde{\psi} \] を得る. ここで, $\partial_j \tilde{\psi}$は$\frac{ \tilde{\psi}(\tilde{\theta}(\theta) )}{ \partial \theta^i }$.
$\psi$と$\phi$の関係と, $\tilde{\eta}$, $\eta$のアファイン変換から,
\[.\tilde{\eta} = B_{\lambda}^{j}\partial_j \psi+ b_{\lambda} \] である.
この同じ左辺をもつ直前二式を見ると, (逆行列の対応から)
\[
\partial_j \tilde{\psi} = \partial_j \psi+ A_{\lambda}^{j} b_{\lambda}
\] がわかる. これを積分することで, (potential 出会ったことを思い出す. )
\[
\tilde{\psi}(\tilde{\theta}) = \psi(\theta) + A_{\lambda}^{j} b_{\lambda}\theta^j +c
\] ここで, $c$は或る定数である.
更に次の式変形に注目しておく.
\[
\sum_{\lambda} \left( \sum_{i}.\sum_{j}A_{\lambda}^{i} \theta^i B_{\lambda}^{j} \eta_j\ \right) = \sum_{\lambda} \left( \sum_{i}.\sum_{j}\theta^i \delta_i^{j} \eta_j\ \right) = \sum_{\lambda} \left( \sum_{i}\theta^i  \eta_i\ \right)
\] すると, $\{(\tilde{\theta}^{lamba}), (\tilde{\eta}_{\lamba})\}$による表現を$\{(\theta^i), (\eta_i)\}$とそのポテンシャル関数で表すことができる.
\begin{align}
\tilde{\varphi}(\tilde{\eta}) &= \tilde{\theta}^{\lambda}\tilde{\eta}_{\lambda} – \tilde{\psi}(\tilde{\theta})  \\
& = ( A_{i}^{\lambda} \theta^i + a^{\lambda} )(B_{\lambda}^{j}\partial_j \psi+ b_{\lambda}) – (\psi(\theta) + A_{\lambda}^{j} b_{\lambda}\theta^j +c) \\
&= \{ \theta^i \eta_i + \psi(\theta) \} + a^{\lambda} B_{\lambda}^{j} \eta_j + a^{\lambda}b_ {\lambda} -c \\
&= \varphi(\eta)  + a^{\lambda} B_{\lambda}^{j} \eta_j + a^{\lambda}b_ {\lambda} -c
\end{align}
を得る. ここまでの関係式を統合すると,
\begin{align}
& \tilde{\psi}(\tilde{\theta}(p)) +  \varphi(\tilde{\eta}(q)) – \tilde{\theta}^{\lamba}(p)\tilde{\eta}_{\lamba}(q) \\
& =\{ \psi(\theta(p)) + A_{\lambda}^{j} b_{\lambda}\theta^j(p) +c \} + \{  \varphi(\eta)  + a^{\lambda} B_{\lambda}^{j} \eta_j + a^{\lambda}b_ {\lambda} -c  \} \\
&-( A_{i}^{\lambda} \theta^i + a^{\lambda} )( (B_{\lambda}^{j}\partial_j \psi+ b_{\lambda} ) \\
&= \psi(\theta(p)) +  \varphi(\eta(q)) – \theta^i(p)\eta_i(q)
\end{align}
と結論される. 三項目の積の形の部分が、1、2項目の共に2,3番目の部分と打ち消しあうことから上記の結論がわかる.
[/proof]

$(\mathbb{R}^n, g_E, \nabla_E, \nabla_E)$を通常のユークリッド空間とする。
このとき,
\[D(p||q) =\frac{1}{2}\norm{p-q}\]

Proposition.
$D(p||q)\geq 0$
$D(p||q) = 0$ は $p=q$の必要十分条件である.
$(M,g,\nabla^*, \nabla)$: も双対平坦空間である.
$(M,g,\nabla^*, \nabla)$: 双対平坦空間に対して, $D^*$をそのダイバージェンス($\nabla^*$-ダイバージェンス)とすると, $D^*(p||q)=D(q||p)$である. 

[proof] 一個目と二個目は, \[ \varphi(\eta(p))=\max_{q\in M}\left\{ \theta^1(q)\eta_i(p)- \psi(\theta(q))\right\}  \]からわかる.
三個目は, $(\nabla^*)^*=\nabla$からわかる.
四個目は, $\theta$と$\eta$, $\psi$と$\phi$が全て入れ替わるからわかる.
[/proof]

拡張ピタゴラスの定理と射影定理

Theorem.
$(M,g,\nabla, \nabla^*)$: 双対平坦空間,
$p,q,r \in M$
$\gamma_1$: $p,q$を結ぶ$\nabla$-測地線
$\gamma_2$: $q,r$を結ぶ$\nabla^*$-測地線
$q$において, $\gamma_1$と$\gamma_2$が$g$に関して直交($g_q(\gamma_{1}'(0), \gamma_{2}'(0))$)する.
このとき,
\[D(p||r) = D(p||q) + D(q||r) \]
[proof] アファイン局所座標系に関するクリストッフェル記号はすべて$0$なので, 測地線の方程式の局所座標表示から、直線またはその一部として表すことができる。
$\gamma_1, \gamma_2$ はそれぞれ $\theta, \eta$を用いて,
\[
\gamma_1(t) = t\theta(p) + (1-t)\theta(q), \quad
\gamma_2(t) = t\eta(p) + (1-t)\eta(q) \quad (t\in [0,1])
\] とあらわすことができる.

\begin{align}
v=\dot{p}(0)&=((\theta^i\circ p)(1) – (\theta^i\circ p)(0))\left( \frac{ \partial}{\partial \theta^i} \right) \\
&= ((\theta^i)(p) – (\theta^i)(q))\left( \frac{ \partial}{\partial \theta^i} \right)
\end{align}

\begin{align}
w=\dot{q}(0)&=((\eta^i\circ q)(1) – (\eta^i\circ q)(0))\left( \frac{ \partial}{\partial \eta^i} \right) \\
&= ((\eta^i)(q) – (\eta^i)(r))\left( \frac{ \partial}{\partial \eta^i} \right)
\end{align}
仮定により, この$2$つの測地線が$q$で直交しているから,
\begin{align}
&0= g_q(v,w) \\
&= ((\theta^i)(p) – (\theta^i)(q)) ((\eta^j)(q) – (\eta^j)(r)) g_q\left( \left( \frac{ \partial}{\partial \theta^i} \right) , \left( \frac{ \partial}{\partial \eta^j} \right)  \right) \\
&= ((\theta^i)(p) – (\theta^i)(q)) ((\eta^i)(q) – (\eta^i)(r))
\end{align}
したがって, $\psi + \phi = \sum_{i=1}^n \theta^i \eta_i$を用いて,
\begin{align}
&D(p||q) + D(q||r) – D(p||r) \\
&= \{ \psi(\theta(p)) + \varphi(\eta(q)) – \theta^i(p)\eta_i(q) \} \\
&\quad + \{ \psi(\theta(q)) + \varphi(\eta(r)) – \theta^i(q)\eta_i(r) \} \\
&\quad – \{ \psi(\theta(p)) + \varphi(\eta(r)) – \theta^i(p)\eta_i(r) \}
\end{align}
一段目の一項目と三段目の一項目, 二段目の二項目と三段目の二項目で打ち消しあう. 一段目の二項目と二段目の一項目に $\psi + \phi = \sum_{i=1}^n \theta^i \eta_i$を用いて,
\begin{align}
&D(p||q) + D(q||r) – D(p||r)  \\
&=\{ \psi(\theta(q)) + \varphi(\eta(q)) \} – \theta^i (p)\eta_i(q)  – \theta^i (q)\eta_i(r)  + \theta^i (p)\eta_i(r) \\
&= \sum_{i=1}^n \theta^i (q)\eta_i (q) – \theta^i (p)\eta_i(q)  – \theta^i (q)\eta_i(r)  + \theta^i (p)\eta_i(r)  \\
&= ((\theta^i)(p) – (\theta^i)(q)) ((\eta^i)(q) – (\eta^i)(r)) \\
&=0
\end{align}
[/proof]

Remark.
指数分布族$S_e$の場合, K-L ダイバージェンスは, 平坦多様体$(S_e, \nabla^{(m)}, g^F)$の$\nabla$-ダイバージェンスに一致する。
Theorem.
$(M,g,\nabla, \nabla^*)$: 双対平坦空間, 
$S\subset M$: 部分多様体
$p \in M$, $r\in S$
$D(p||r)$: $(M,g,\nabla, \nabla^*)$の$\nabla$-ダイバージェンス
$p$を固定し, $f(r)=D(p||r)$によって$S$上の関数$f$を定める.
$f(r)$が$q\in S$において, $p,q$を結ぶ$\nabla$-測地線が$S$と$g$に関して直交する.

メモ:
$(\theta^i)$ : $\nabla$- アファイン座標系, $\psi$ : $g$の$\theta$-ポテンシャル
$(\eta_i)$ : $(\theta^i)$の双対アファイン座標系, $\varphi$ : $g$の$\eta$-ポテンシャル
このとき, $M\times M$上の関数$D$が

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です