Diffusion Modelについてのメモ

非常に高次元で複雑な分布 $p(x)$ について、全容を知るのは難しいので、以下のような式からサンプリングする。 $K$ は比例定数。

\pi = K\exp(-p(x))

つまり、 $p(x)$ が高いとサンプリングされる確率が低くなり、 $p(x)$ が低いとサンプリングされやすい。

この $p(x)$ は物理的な背景からポテンシャル関数と呼ばれる。

これは単にサンプリングされる確率が指数的にポテンシャル関数に従い変わることを示しており、具体的なサンプリング方法はこれを満たす必要があるような手法が必要って感じ。

ランジュバンって読むぞ。

確率微分方程式で、ある拡散していく様子を記述できるが、その拡散の軌跡をサンプリング結果とすることで、このような指数的な条件に従った分布である。以下の確率微分方程式に従う。

$B_t$ は時間に依存したノイズ項で局所最適解にとどまることを防いでいる。 $\sqrt{2}$ は正規分布関連のノイズのためのスケーリングらしい。

d x_t = - \nabla p(x_t) dt + \sqrt{2}d B_t

確率密度の勾配が下がる向きに進むことで、欲しいサンプリングを実現できる。

これを離散化すると、以下のような漸化式になる。

x_{t+1} = x_t - \nabla p(x_t) dt + \sqrt{2}d B_t

これは既知の確率密度の勾配がわかっているとき、これに従って動くと正しくサンプリングできるってこと。

Diffusion Modelの学習で使うわけではない。

オルンシュタイン＝ウーレンベックとよむ。OU過程。

Diffusionでは基本的に、OU過程の順過程と逆過程をたどることで学習させる。

Langevin力学の特別な場合がOU過程。ポテンシャル関数 $p(x)$ が二次関数の時らしい。

なぜポテンシャルが二次関数の時こうなるのか

ポテンシャル関数 $p(x) = \theta(x - \mu)^2/2$ とすると、勾配を計算すると確かにこの形になる。

ブラウン運動に、今の座標に応じた何かしらの点へ戻るバネのような力が加わったものである。

dx_t = -\theta(x_t - \mu) dt + \sigma dB_t

性質として以下のようなものがある。

流れは

先ほどのOU過程に従い、ノイズを加えつつ拡散をしていく。OU過程の性質によって最終的に安定した分散を持ち期待値が0のガウス分布になる。

d x_t = -x_t dt + dB_t

これを漸化式にすると以下のようになる。 $\eta_t$ はノイズ。

x_{t+1} = x_t - x_t \Delta t + \sqrt{\Delta t} \eta_t

OU過程の逆過程は以下のようになる。

なぜ $\nabla \log p(x)$ があるのかというと、真の分布 $p(x)$ はガウス分布にゆくゆくなるから。 $p(x)$ がガウス分布の形ならば、 $\nabla \log p(x) = -(x - \mu)$ になり、確かに復元する項である。

d x_t = -\{\frac{1}{2} x_t + \nabla \log p(x_t) \} dt + dB_t

ここでは、 $-x_t/2$ と原点へ戻る力を半分にして、 $\nabla \log p(x_t)$ に復元を任せる感じ。

これを漸化式にすると、以下のようになる。これを満たすように、 $s_\theta$ を学習していく。

x_t = x_{t+1} - \frac{1}{2} x_t \Delta_t + s_\theta(x_{t+1}, t) \Delta t + \sqrt{\Delta t} \eta_t