NNDL 第8章 Attention機構と外部記憶

中国の有名な機械学習の本の勉強ノート。自分がわからなかったところだけなので飛び飛びだろう。

https://nndl.github.io/

Attentionとは Key-Valueの構造実際の機械学習ではどのように組み込むのか Multi-Head Attention 構造化されてるものへのAttention Pointer Network(指针网络)Self-Attention 外部記憶 Memory Augmented Neural Network(MANN)End-To-End Memory Network Neural Turing Machine Neurodynamicsに基づくAssociative Memory Model Hopfield Network

再度いうが、理論上DNNとRNNは非常に強力である。DNNは任意の関数を近似できるし、RNNはチューリング完全である。しかし、最適化のやり方や処理能力(そんなに大きいネットワークは作れない)の制約上、CNNなどの賢いアーキテクチャを事前に人間考えて訓練させないとなかなか性能出ないということがわかった。

ネットワーク内で保存できる情報量はNetwork Capacityと言う。一般的には、RNNの保存できる情報量はニューロンの数とネットワークの複雑度に比例する。

しかし、これは人間の脳も同じである。わずか数秒しか覚えられない脳は、RNNでいう記憶消失問題そのものを抱えている。しかし、人間には注意力=Attentionと、長期記憶を持つ。

Attentionとは

大量の情報がある中で集中的にみる分野を選び出すことをAttentionという。以下の2種類ある。

Focus Attention　意識的に○○に集中すること
Saliency-Based Attention　無意識に、周りとすごく違うものに注目すること

CNNのMaxPoolingやRNNのGate制度は、Saliency-Based Attention(意識的に最大)を行っているといえる。

入力が $\{\mathbf{x}_1, \cdots \mathbf{x}_N \} \in \mathbb{R}^{D \times N}$ と与えられるとき、重要な情報だけに注目したい=一部の情報をそぎ落としたい。

ここで、Query Vectorという $\mathbf{q}$ を導入し、これに従って $i$ 番目のVectorが選ばれる確率 $\alpha_i$ を定義したい。

離散的ではなく連続的に扱いたいので、softmaxを噛ませてCalibrationしている。そして、 $s(\mathbf{x}, \mathbf{q})$ とは、サンプル $\mathbf{x}$ がQuery Vector $\mathbf{q}$ の下でどれほど選ばれるべきかのスコアを出力するスコア関数。スコア関数は以下の数通りありえる。

スコア関数のモデル名	形	学習するパラメタ
加算モデル	$s(\mathbf{x}, \mathbf{q}) = \mathbf{v} ^ T \tanh (W \mathbf{x} + U \mathbf{q})$	$\mathbf{v}, U, W$
内積モデル	$s(\mathbf{x}, \mathbf{q}) = \mathbf{x} ^ T \mathbf{q}$
スケールつき内積モデル	$s(\mathbf{x}, \mathbf{q}) = \mathbf{x} ^ T \mathbf{q} / \sqrt{D}$ ここで $D$ は $\mathbf{x}$ の次元
二次形式モデル	$s(\mathbf{x}, \mathbf{q}) = \mathbf{x} ^ T W \mathbf{q}$	$W$

理論上加算モデルと内積モデルは同じ表現能力を持つが内積のほうが計算も早い。

入力の次元が高すぎると、内積モデルそのままでは大きな標準偏差を持つので、 $\sqrt{D}$ で割ることによって解決することができる。

二次形式モデルは一番表現力が高い。

このよう計算した $\alpha_n$ は、 $\mathbf{x}_n$ が選ばれる確率となるが、どれほどの割合で注目を受けるかということともいえる。それを確率論ではなく、期待値のようにそのまま計算したものがSoft Attentionである。

\sum_{n=1}^N \alpha_n \mathbf{x}_n

これと逆なのがHard Attentionというもの。何が選ばれるかを明確に1つだけ選出する。選び方としては、

$\alpha_n$ が最大の $\mathbf{x}_n$ を選ぶ。
$\alpha_n$ 自体がある確率分布なので、その確率分布の中でランダムに選び出す。

ただし、これでは決定的に選べているわけではないんので、損失関数からの誤差逆伝搬で更新するのはできない。これは強化学習を使わないといけない。というわけで、MLでは誤差逆伝搬で追うことができるように、全部Soft Attentionである。

Key-Valueの構造

すべてのデータについて、 $(K,V) = [(\mathbf{k}_1, \mathbf{v}_1), \cdots, (\mathbf{k}_n, \mathbf{v}_n)]$ のようにキーと値を分離させる。Attentionを計算するのは $\mathbf{k}$ で、Soft Attentionで合算に使われるのが $\mathbf{v}$ である。

実際の機械学習ではどのように組み込むのか

Attentionは、

何かしらの入力をQuery Vector $\mathbf{q}$ として扱い
それと一連のデータ $\mathbf{x}_1, \cdots, \mathbf{x}_N$ に対して、あるスコア関数のもとで計算を行い
Weightとして $\alpha_1, \cdots, \alpha_N$ のスカラーを得る。
そのWeightをどう使うかはそれぞれ次第

というものである。この枠組みによって、人間の意図的に集中して○○を見るという部分がうまく学習で実現できる。

Transformerアーキテクチャでも使われている手法。複数のQuery Vecotor $Q = [\mathbf{q}_1, \cdots, \mathbf{q}_M]$ があるとき、並列的に各Query VectorのAttentionを計算する。各Query Vectorはそれぞれ違うところに注目しており、その結果得られたSoft Attentionの結果もそのまま結合して1つのベクトルにまとめる。(次元を増やしてそのままそれぞれの結果をつなぎ合わせる感じ)

構造化されてるものへのAttention

上下関係が存在するとわかっているものに対して、再帰的にAttentionを適用させてももちろん良い。

Pointer Network(指针网络)

参考: https://blog.csdn.net/qq_38556984/article/details/107574587

従来のEncoder-Decoderモデルでは、Decoderとして得られるベクトルはDictionaryのどれであるかを表すOne-hotベクトルであった。しかし、TSPや凸包を計算するとき、入力される長さは可変なので、出力するone-hotベクトルの次元数も可変になってしまうが、既存のone-hotによるdecodingではそれに対処することはできない。

従来のAttentionは、入力された一連の各サンプルに対して、どれを重視するのかを計算していた。ならば、一番重視しているもの=出力されるもの、とすればone-hotによるDecoderの出力表現とおさらばできる！これがPointer Networkである。(既存のAttentionベースのものは、Dictionaryのone-hotについての確率分布を出力してた)

Pointer Networkの入力には $X=[\mathbf{x}_1, \cdots, \mathbf{x}_N]$ が与えられ、出力として $c_1, \cdots, c_M$ が出力され、その値の中身は $[1,N]$ である。

次の出力 $c_{m}$ が得られる条件付き確率は以下のように近似できる。 $c_{1:(m-1)}$ を直接得る代わりに、 $c_{1:(m-1)}$ がインデックスとして指し示している $\mathbf{x}_{c_1}, \cdots, \mathbf{x}_{c_{m-1}}$ を条件付確率として渡す。

$\mathbf{x}_j$ はEncoderの時刻 $j$ においての入力。 $\mathbf{d}_i$ はDecoderの時刻 $i$ においての隠れ層の出力。 $s_{i,j}$ はAttentionによって計算されたものであり、ここでのスコア関数はRNNの隠れ層の計算のようなものになっている。

s_{i,j} = \mathbf{v} ^ T \tanh (W \mathbf{x}_j + U \mathbf{h}_i) \\ p(c_m | c_1, \cdots, c_{m-1}, \mathbf{x}_1, \cdots, \mathbf{x}_N) = \frac{\exp(s_{i, m})}{\sum_{n=1}^N \exp(s_{i,n})}

ここでは、Softmaxですべての $\mathbf{x}_m$ についてイテレーションしているので、Keyが $\mathbf{x}_m$ のものについて、Query Vectorが $\mathbf{h}_i$ としてAttentionをしているといえる。そして、そのAttentionによって得られたWeightをそのまま確率 $p(c_m | c_1, \cdots, c_{m-1}, \mathbf{x}_1, \cdots, \mathbf{x}_N)$ に転用しているように学習を仕向ける。ここでは、 $\mathbf{v}, W, U$ を学習する。

Self-Attention

長さが一定しない入力に対して、同じ長さの何かを出力するには、CNNやRNNを使えばできる。しかしCNNでは近傍的な関係しかとらえられず、RNNは短期記憶しか持たないのでやはり近傍的関係になる。それはLSTMとしても、性能上の限界が残る。

ネットワークの構造上、長距離の依存関係をとらえるには1. 全結合層を使う 2. ネットワークを深くするがありえる。しかし、訓練コストや訓練データの準備が非常に大変であるうえに、長さが一定ではない入力に対して、全結合層は同じ重みを適用させようとするので難しい。

ここで天才がひらめく。Attentionをうまく使うことで、重みを長さごとに自動生成して変化させれば、全結合層の重みが長さごとに変動できない問題が解決できると。このように、自分自身に対して判断して、現実的には長距離の依存関係を捉えられるようなWeightを生成できるのが、Self-Attentionである。

入力が $X=[\mathbf{x}_1, \cdots, \mathbf{x}_N] \in \mathbb{R}^ {D_x \times N}$ であるとする。出力は $H = [\mathbf{h}_1, \cdots, \mathbf{h}_N] \in \mathbb{R}^{D^v \times N}$ である。これは入力 $\mathbf{x}_i$ に対して自分自身へのAttentionを行うことで、その結果各 $i$ に対して何かしらの望ましい $\mathbf{h}_i$ というベクトルを得るということ。これは全結合層よりと比べて、異なる長さの入力に対しても異なる重みを(重みを結果的に自動的に生成することで)適用することができ、全結合層さえもしのぐ非常に高い表現力を持つ。具体的には以下のように行う。

まず、3つの線形写像 $W_q, W_k, W_v$ によって入力の $X=[\mathbf{x}_1, \cdots, \mathbf{x}_N]$ を写像する。同じ入力からQuery、Key、Valueをそれぞれ $N$ 個生成する感じ。3つの線形写像はみな学習するパラメタ。

Q = W_q X \in \mathbb{R}^{D_k \times N}, \mathbf{q}_i \in \mathbb{R}^{D_k}, W_q \in \mathbb{R} ^ {D_k \times D_x} \\ K = W_k X \in \mathbb{R}^{D_k \times N}, \mathbf{k}_i \in \mathbb{R}^{D_k}, W_k \in \mathbb{R} ^ {D_k \times D_x} \\ V = W_v X \in \mathbb{R}^{D_v \times N}, \mathbf{v}_i \in \mathbb{R}^{D_v}, W_v \in \mathbb{R} ^ {D_v \times D_x}

すべての $\mathbf{q}_i \in Q$ に対して、Attentionを行い、soft attentionの結果を得る。なお、よく $s(\mathbf{q}, \mathbf{k}) = \mathbf{q} ^ T \mathbf{k} \ \sqrt{D_k}$ が使われるらしい。

\mathbf{h}_n = \mathrm{att}(\mathbf{q}_n, (K, V)) = \sum _{j=1} ^ N \alpha_{n,j} \mathbf{v}_j \\ = \sum_{j=1}^N \mathrm{softmax} (s(\mathbf{q}_n, \mathbf{k}_j)) \mathbf{v}_j

この $\mathbf{h}_n \in H$ こそが、Self-Attentionという構造によって得たかったもの。

つまり、自分で作ったQueryと自分で作ったKeyを使ってAttentionをして、その結果を使って自分のデータを混ぜる(ようにパラメタを学ばせる)ことで、自分自身のどこを注目するのかを決めさせるという高い表現力を持たせることができる。

このSelf-Attentionについても、複数の3つ組の重み行列によって複数のチャンネルを作ることができ、Transformerアーキテクチャではそれが使われている。

ただ、Self-Attentionは $\mathbf{q}, \mathbf{k}$ の関連性だけを見るので、どの入力 $\mathbf{x}$ が先か後かはわからない。どんな $\mathbf{x}_i$ だろうが同じようなやり方でSelf-Attentionで計算される。どの入力を注目すればいいのはわかるが、注目したのが何番なのかの情報がない。(これは全結合層でも同様にそう。なので、RNNのような順序立った入力を受けるシステムが必要だった)

これを防ぐには、 $\mathbf{x}$ の次元を拡張してそこに位置の情報を追加することが大事。一番簡単なのは何番目かを追加した次元に入れることである。他にも、1番目の値に+1, +2と+(位置)のように入れることである。ただ、これで一応情報は入れてるが、うまく学習してもらえるのはやはり難しい。

そして、Transformerでは、単純に何番目なのかを追加するよりも、三角関数を利用したベクトルを作り、それを本来の入力に加算をしたあとにMulti-Head Self Attentionを行うことで、数学的に高次元に拡張したのでより容易にSelf-Attentionに位置情報付きの前提で学習できるように仕向けている。

Positional EncodingのQiita解説はこちら: https://qiita.com/snsk871/items/93aba7ad74cace4abc62

いずれ自分でもまとめてみる。

外部記憶

RNNの中では短期記憶にとどまってしまう。それを長期的に保持するためにLSTMは別に1つ用意したが、それを拡張して外部記憶のようなDBのようにアクセス専用のものを考えてみよう。

人間の脳で記憶は1つの場所においてるのではなく、広いところに少しずつ置かれているらしい。

そして、人間は

Working Memory　臨時で覚えるもの。何に使われているかまで覚えている。容量は一番少ない。
Short-Term Memory　短期的に覚えるもの。容量はちょっと多い。
Long-Term Memory　長期的に覚えるもの。容量はかなり多い。短期記憶から長期への遷移はEvolutionという。

また、記憶に関しては関係性によって記憶を覚えており、人のことを思い出したら顔や声などが思い返されるというようなものである。

LSTMの長期記憶と比べると、人間の長期記憶はより多くの情報を保存できるうえ、更新されることはあれど、自身を使って他の短期記憶などを更新することはない。

Memory Augmented Neural Network(MANN)

外部記憶という追加の情報を保存する部分を作ることで、ネットワークの記憶能力を増大させる。外部記憶 $M=[\mathbf{m}_1, \cdots, \mathbf{m}_N]$ について、Soft Attentionを行うことで、必要な情報を引き出すことができる。

これを利用して3つの典型的なMANNがある。

End-To-End Memory Network
Neural Turing Machine

End-To-End Memory Network

読み取り専用の外部記憶とする。 $M=[\mathbf{m}_1, \cdots, \mathbf{m}_N]$ に対して、Attentionに使われるKeyは $K=[\mathbf{k}_1, \cdots ]$ であり、Valueは $V=[\mathbf{v}_1, \cdots ]$ とする。これは何かしら $M$ からいい感じに生成する。

入力 $\mathbf{x}$ に対して、Queryの $\mathbf{q}$ をメインネットワークが生成する。そして、Attentionを行い得た $\mathbf{r}$ をもとに、以下のように計算したかったラベルを得る。

\mathbf{y} = f(\mathbf{q} + \mathbf{r})

これは非常にシンプルな例であるが、次式のように何度もQuery Vectorを更新してその都度Attentionを行ってもよい。

これをMulti-Hopという。毎回Attentionする $K, V$ は同じものでもよいし、別々のものでもよい。同じく $M$ から生成されたものであればそれでよい。

Neural Turing Machine

チューリングマシンの説明は省略。気持ちとしては外部記憶をTuring Machineのようにすることで、書き込みや読み取り両方できるようにしたい。

コントローラーと外部記憶という2つの部分からなる。

外部記憶は $M \in \mathbb{R}^{D \times N}$ と定義される。 $D$ は各記憶の次元数で、 $N$ は記憶の個数。

コントローラーはDNNかRNNで実現する。

コントローラーは今の入力 $\mathbf{x}_t$ 、1つ前の出力 $\mathbf{h}_{t-1}$ と1つ前に外部記憶から読み取った $\mathbf{r}_{t-1}$ を入力し、今の出力 $\mathbf{h}_t$ を得る。

\mathbf{h}_t = f(\mathbf{x}_t, \mathbf{h}_{t-1}, \mathbf{r}_{t-1})

$\mathbf{h}_t$ を出力するのと同時に、検索Vector $\mathbf{q}_t$ 、削除Vector $\mathbf{e}_t$ 、増加Vector $\mathbf{a}_t$ を $\mathbf{h}_t$ より生成する・
1. $\mathbf{q}_t$ はAttentionに使い、 $\mathbf{r}_t$ を得る。これは既存のAttentionであり、読み取り操作にあたる。
2. 新しいのは、書き取り操作を実現するための削除、増加Vectorもあるということ。(LSTMのGateをより複雑な層で実現した形)
3. $\alpha_{n,t}$ は $n$ 個目の記憶へのAttentionの重みだとする。以下のように削除したい $\mathbf{e}_t$ と、新たに加えたい $\mathbf{a}_t$ を使って更新していく。
$\mathbf{m}_{t+1, n} = \mathbf{m}_{t,n}(1 - \alpha_{t,n} \mathbf{e}_t) + \alpha_{t,n} \mathbf{a}_t$

Neurodynamicsに基づくAssociative Memory Model

Associative Memory Model=入力された情報から関連する情報を呼び出すためのモデル。

不完全な情報、ノイズのある情報でも連想ができるのが望ましい。

Hopfield Network

隠れ層がなく、自分の出力が自分を含む次の入力に全部使われる再帰的なネットワーク。

離散版だと以下のように更新できる。重みは $w_{ij}=w_{ji}, w_{ii}=0$ が成り立つ。

更新のやり方として、各ニューロンがランダムに1つ1つ更新されていくものと、同時に $\mathbf{s}_t =f(W \mathbf{s}_{t-1} + \mathbf{b})$ で一気に更新するのがある。違いとしては、1つ1つ更新だと次のニューロン更新にさっそく今更新した $\mathbf{s}_i$ が使われているが、一気に更新だとすべて古いものを使うということ。

この各状態について、HopField Networkはエネルギー関数というものを定義できる。これをIterationしていくと収束することは保証されている。

収束した先はエネルギー関数の局所最適解で、Attractorという。複数のAttractorを持つ=複数のパターンを持つ、Attractorへたどり着く動きは検索といえる。Noiseがあっても同じAttractorへ収束すればいいというのは結構都合がいい性質。