ELBOとEM Algorithmについて - Sen(Qian)’s Memo

何がわかっていて何がわからない

入力 $x$ に潜んでいる、潜在変数 $z$ があるとする。 $x$ からどのように $z$ ができるのかを知りたい。

$p(x)$ 　既知。これは入力データの分布で、入力データから得られる経験分布を使う。
- ただし、詳細なモデルは当然知らない。
$p(z)$ 　既知。人間が $z$ がどうなっているかを仮定する。
- 一般的には $p(z) \sim \mathcal{N}(0,1)$ となる。
$p(z|x)$ 　未知。一番知りたいもの。
- 直接知るのは難しいので、人間がモデルやそのパラメタを定めて $q(z|x)$ を計算する。
$p(x|z)$ 　未知。知ってると何かと役に立つもの。
- VAEなどの生成モデルでは、潜在変数から新たな例を生成するために必要。

変分推論とEMアルゴリズムの違い

EMアルゴリズムも、変分推論も結果的にELBOを最大化したい。

しかし、そのアプローチが異なる。

変分推論では、事後分布 $p(z|x)$ はモデルすらわからないので、人間があるモデルの分布 $q(z|x)$ を選んで、それで近似する。そのうえで、ELBOの最大化をする。
- 例えばDNNのような理論上任意の関数に近似できる学習器を使っても、変分推論のアプローチである限り変分推論。EMアルゴリズムではない。
  - だがDNNで近似できると割り切れば別にEM Algorithmをやっても構わない。
- $p(z|x)$ が厳密にわからない以上、我々はそれの近似分布の $q(z|x)$ を動かしてELBOの最大化をするしかない。
EM Algorithmでは、特に $p(z|x)$ のモデルはわかる(パラメタはわからない)条件で行う。
- 例えば、 $p(z|x)$ は混合ガウス分布だとわかっているとか。
- $p(z|x)$ のモデルがわかっている以上、そこから $p(x, z)$ のモデルも逆算できて、 $q(z)$ のみならず、パラメタを動かして $p(x,z)$ を変更させての最小化もできる。
- なので2つのステップで交互に最小化を行うし、変分推論よりも収束も早いし、安定もする。

一般的なアプローチは変分推論だが、特別な条件下で解きやすいのがEM Algorithmである。

変分推論

目標は $p(z|x)$ をうまく推定すること。

変分推論とは、分布 $p(z|x)$ を推定するときに、 $p(z|x)$ の分布の形はわからないので、別の分布 $q(z|x)$ を(分布の形やパラメタを仮定する形で)考えて、それと与えられたデータをもとに得る、 $p(z|x)$ から得られたとのDivergenceを最小化したいものである。

$q$ には、どのような分散や平均などのパラメタ、分布の概形を与えるかについては一概に言えず、うまく選ぶのが変分推定の目標。

例えば、VAEなどではガウス分布であると固定して、与えたデータから平均や分散を計算してパラメタとして入れている。

ELBO

以下の式が成り立つ。

$p(z|x)$ は計算しづらいということで、変分推論では $q(z|x)$ に置き換えている。

これはEMアルゴリズムなら、 $p(z|x)$ のままやっている。

\log p(x) = ELBO + KL(p||q) \\ ELBO = \mathbb{E}_{q(z|x)} [\log p(x,z) - \log q(z|x)]

式のかたちは、変分推論の分布 $q(z|x)$ に従ってサンプリングされた $z$ についての期待値。その中身は変な形であるが、ここではELBOが大きければ、 $p, q$ のKL-Divergenceが小さくなり分布として一般的に近くなるということになる。

変分推論の目標は、ELBOを最大化したい。

ELBOの最大化の手順

ELBO = \mathbb{E}_{q(z|x)} [\log p(x,z) - \log q(z|x)] \\ = \mathbb{E}_{q(z|x)} [\log p(x|z)] + \mathbb{E}_{q(z|x)} [\log p(z) - \log q(z|x)]

この2つの項に分ける。前者は尤度 $p(x|z)$ の期待値で、これは $p(z|x)$ の近似分布 $q(z|x)$ から計算する。

前者の計算

前者について、 $p(z|x)$ を $q(z|x)$ で代替するとしても、 $p(x|z) = p(z|x) p(x) / p(z)$ のベイズの定理を用いる必要がある。

いつも通りだが、これの外に期待値をつけるので、その積分は解析的に解けない場合も多い。

\mathbb{E}_{q(z|x)} [\log p(x|z)] = \int q(z|x) \log p(x|z) dz

解析的に解けない場合では、サンプリングによる推定をするしかない。

変分分布 $q(z|x)$ からサンプル $z_i$ を生成し、それについて、 $\log p(x|z)$ を評価( $p(x|z)$ はモデルがなんなのかを定めている以上、知っている前提)。

なお、 $\int q(z|x) \log p(x|z) dz$ と積分する以上、実は $q(z|x)$ と $p(x|z)$ が共役である必要はない(logとったものとの積なので)

一般的には、ニューラルネットワークを用いたDecoderで $z$ から $x$ を復元し、その復元結果から解析的に計算できるならそれでよし、できないならモンテカルロ法やほかの数値近似方法で計算する。

しかし、 $q(z|x)$ もガウス分布で、 $p(x|z)$ もガウス分布の時、当然 $q(z|x), \log p(x|z)$ は共役ではない。それでも、ガウス分布の時は復元した後の平均と分散がわかれば、計算できるということ。

これは解析的に解くことができ、以下のようになる。

$\mu(x)$ は中間表現の平均
$\Sigma(x)^2$ は中間表現の分散。
$f(\mu(x))$ はEncoder, Decoderを通して得たものの平均。
$\sigma_x^2$ はEncoder, Decoderを通して得たものの平均。

後者の計算

実をいうとよくみると、後者はKL-Divergenceそのもの。

\mathbb{E}_{q(z|x)} [\log p(z) - \log q(z|x)] = -D_{KL}(q(z|x)||p(z))

つまり、ELBOでは $p(z|x), q(z|x)$ というKL-Divergenceの計算は求まらないので計算しなくていい代わりに、 $p(z), q(z|x)$ のKL-Divergenceを求める。そして、これを最小化していきたい。

どのように最大化するのか

計算の方法がわかったところで、最大化を行う。

一般的には、VAEではEncoderは $q(x|z)$ であり、Decoderは $p(z|x)$ である。これがガウス分布という概形で、平均分散どうのこうのは人間がそうやって仮置きして解釈しているだけである。

そして、Encoder-Decoderモデルの学習では、ELBOを目的関数にしている。

ここより下はまだわかっていない！

EM Algorithm

📄EM Algorithmの解説を参考。

変分EM Algorithm

変分推論やEMアルゴリズム似てるよな、こいつらのコンボあるで。