EM Algorithmの解説

ELBOという重要な概念についてはここを参考 📄ELBOとEM Algorithmについて

ELBOとは、以下のようなもの。

ELBO = \mathbb{E}_{q(z|x)} [\log p(x,z) - \log q(z|x)] \\ = \mathbb{E}_{q(z|x)} [\log p(x|z)] + \mathbb{E}_{q(z|x)} [\log p(z) - \log q(z|x)]

基本的には尤度は非常に大きい、小さい値を扱うことを考えて、計算精度の問題上、対数で扱う。

データ $X$ の背後にあるパラメタ $θ$ を学習したい。しかし、隠れパラメタがある都合上上手くこのままでは難しい。

ここで、隠れパラメタ $Z$ だとする。以下のように周辺確率に分解でき、対数を取る事ができる。

p(\mathbf{X} | \theta) = \int p(\mathbf{X}, \mathbf{Z} | \theta) d \mathbf{Z} \\\\ \log p(\mathbf{X} | \theta) = \log \int p(\mathbf{X}, \mathbf{Z} | \theta) d \mathbf{Z}

実際には、隠れ変数 $Z$ は明示的に設計者が決めなければならない。なぜならば、以降のEステップもMステップも明確に $Z$ についての条件付確率、条件付期待値を求めるためである。

しかし、 $log ∫$ は扱いづらい！(以下の参考資料では $log Σ$ となっている)。ここで、いい感じの関数 $q(Z)$ を導入することで、以下のように式変形できる。なお、 $q$ が何であるかは明示的に決める必要はない。以下のEステップで自明に決まるからである。

\int q(\mathbf{Z}) \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} d \mathbf{Z} = \mathbb{E} _{q(\mathbf{Z})} [ \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} ]

このように、 $q(Z)$ についての期待値に変形できる。

そして、 $log$ が上に凸の関数であるので、イェンゼンの不等式を用いると以下のように変形できる。汎関数 $ℒ$ という変分下限を得ることができる。

\log \mathbb{E} [X] \leq \mathbb{E} [\log X] \\\\ \log \int q(\mathbf{Z}) \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} d \mathbf{Z} = \log \mathbb{E} _{q(\mathbf{Z})} [ \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} ] \\\\ \geq \mathbb{E} _{q(\mathbf{Z})} [ \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} ] = \int q(\mathbf{Z}) \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} d \mathbf{Z} = \mathcal{L}(q, \theta)

ELBOは、以下のように定義されている。

ELBO = \mathbb{E}_{q(z|x)} [\log p(x,z) - \log q(z|x)] \\ = \mathbb{E}_{q(z|x)} [\log p(x|z)] + \mathbb{E}_{q(z|x)} [\log p(z) - \log q(z|x)]

上の得られた変分下限は、以下のようになる。

\mathbb{E} _{q(\mathbf{Z})} [ \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} ] = \mathbb{E}_{q(\mathbf{Z})} [\log p(\mathbf{X, Z}|\theta) - \log q(\mathbf{Z})]

ここでは、本来のELBOと違うのは、 $q(z|x) \to q(\mathbf{Z})$ である。

ELBOでは、変分推論で使われている $q(z|x)$ は、本来わからない $p(z|x)$ の代替となるような分布を人が選んでそのパラメタをいじって学習させている。
EM Algorithmでは、 $q(\mathbf{Z})$ はただの関数であり、特に $p(\mathbf{Z})$ や $p(\mathbf{Z|X}, \theta)$ を近似するために選んだわけではない。

ELBOと似た形である以上、以下のように差分はKLダイバージェンス $KL[q(Z)|p(Z|X, θ)]$ になる。下図参照。

\log  p(X|θ) = ℒ(q, θ) + KL[q(Z)|p(Z|X, θ)]

KLダイバージェンスは非負なので、 $log p(X|θ)$ ではなく、 $ℒ(q, θ)$ の最大化を代わりに行うことで結果的に $p(X|θ)$ の最大化をしよう！(下限を大きくするので必ず最善というわけではないが)というのがEM Algorithm。

というわけで、目標は以下のELBOを最大化すること。

\mathbb{E} _{q(\mathbf{Z})} [ \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} ] = \mathbb{E}_{q(\mathbf{Z})} [\log p(\mathbf{X, Z}|\theta) - \log q(\mathbf{Z})]

これを、 $q, \theta$ を交互に動かすことで最大化をしていく。

EステップはExpectation。 $p(\mathbf{X,Z}|\theta)$ のパラメタたる $θ$ を固定して、 $q$ を動かして最大化をする。
MステップはMaximaization。 $q$ を固定して、 $θ$ を動かして最大化をする。

E->M->E->M…と行い、収束したら終了。

\log p(X|θ) = ℒ(q, θ) + KL[q(Z)|p(Z|X, θ)]

この式において、 $θ$ を固定しているので、左辺は定数となる。この時、 $q$ を動かして $ℒ(q, θ)$ を最大化するということは、 $KL[q(Z)|p(Z|X, θ)]$ の最小化と同じ意味である。

KLダイバージェンスが0ということは、解は $q(Z) = p(Z|X, θ)$ である。

なので、明示的に $q$ について定める必要はなく、既知の $p(Z|X)$ が $q(Z)$ であればいい。

$q(Z) = p(Z|X, \theta_{old})$ を代入して解く。ここで、 $\theta_{old}$ は今までの $θ$ であり、パラメタ $θ$ の最適化を行う際には定数として固定するものである。このように一方を固定してもう一方を最適化するのはよくある手法。

\mathcal{L}(q, \theta) = \int q(\mathbf{Z}) \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{q(\mathbf{Z})} d \mathbf{Z} =\int p(\mathbf{Z} | \mathbf{X}, \theta _{old}) \log \frac{p(\mathbf{X}, \mathbf{Z} | \theta)}{p(\mathbf{Z} | \mathbf{X}, \theta _{old})} d \mathbf{Z} \\\\ = \int p(\mathbf{Z} | \mathbf{X}, \theta _{old}) \log p(\mathbf{X}, \mathbf{Z} | \theta) d \mathbf{Z} - \int p(\mathbf{Z} | \mathbf{X}, \theta _{old}) - \log p(\mathbf{Z} | \mathbf{X}, \theta _{old}) d \mathbf{Z} \\\\ =\int p(\mathbf{Z} | \mathbf{X}, \theta _{old}) \log p(\mathbf{X}, \mathbf{Z} | \theta) d \mathbf{Z} - \mathrm{const}

このように、前半だけ $θ$ で最小化できればよい。つまり、以下の対数尤度の条件付期待値がθにおいて最適化できるということであれば、EMアルゴリズムを用いて最終的に最適解へ収束できる。

∫p(Z|X, \theta _{old})\log p(X, Z|θ)dZ = 𝔼 _{Z|X, \theta _{old}}[\log p(X, Z|θ)]

例えば、指数分布族やガウス分布なら解析的に解ける。

ガウス分布の例を時間会ったらここに乗せる。

積分を近似的に解いてから、勾配を計算し、勾配上昇法やニュートン法でやるしかない。