Sen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

2024-06-19

講義ノート統計的機械学習

(講義ノート)統計的機械学習第10回

前回はこちら。📄(講義ノート)統計的機械学習第9回。内容は以下の通り。

Boostingの汎化誤差解析として、以下の式であった。

Image in a image block

決定木の汎化誤差は以下のとおりである。

Image in a image block

最後に、XGBoostの汎化誤差解析も行った。

Neural Network

NNの汎化誤差解析を考える。まずは簡単な3層のNNとする。

隠れ層は $m$ 層ある。
入力は $\mathbf{x} \in \mathbb{R}^d$ であり、 $n$ 個存在する。
NNのパラメタは、3層なので2種類のみ存在し、第1層の重みは $W \in \mathbb{R}^{d \times m}$ であり、2層目の重みは $\mathbf{w} \in \mathbb{R}^m$ である。
活性化関数は $a(x)=\max(0, x)$ のReLUとする。
これらを踏まえて全体のNNは以下のような関数と定義できる。

f_\theta : \mathbb{R}^d \to \mathbb{R}, f_\theta(\mathbf{x}) = \mathbf{w}^T a(W \mathbf{x})

3層NNのRademacher複雑度

重みにはL2ノルムの上限がある。 $W_j$ は行ベクトルであり意味としては隠れ層の各ノードごとに重みをベクトルとして扱ったときにL2ノルムの上限がある。

||\mathbf{w}||_2 \leq B_2, ||W_j||_2 \leq B_2

そして、入力のL2ノルムの期待値の上界も考える。 $\mathbb{E}[||\mathbf{x}||_2] = C$

そして、以下のように3層NNのRademacher複雑度を抑えられる。

R_n(\mathcal{F}) = \mathbb{E}_{\mathbf{x, \boldsymbol \sigma}} [\sup_{f_\theta \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^n \sigma_i f_\theta(\mathbf{x}_i)] \leq 2 B_1 B_2 C \sqrt{\frac{m}{n}}

証明

Image in a image block

Holderの不等式で、 $\mathbf{w}$ についてのノルムを外に出せる。次は、この行列の計算された2乗ノルムを計算したい。

Image in a image block

ベクトルについてのL2ノルムの制約はあるが、行列についてはない。なので、どうにかして行列での評価をベクトルにしたい。

こういう時は、一番影響力がある一行( $\max_j$ )をとってきてそれを $m$ 倍するとすることで、上側から押さえられる。

そして、絶対値の外し方として、 $|a| = \max(a, -a)$ として処理している。

Image in a image block

重みを0にしたら項の値は0にすることができるんで、もし下手にマイナスに行くならば重みを0にすればいい。そして、 $\max(a,b) \leq a+b$ と抑えている。

こうすることによって、あとはReLUのリプシッツ定数が1なので普通に $a()$ を外すことができ、結局この2つの項は同じ値をとるRademacher複雑度となり、したがって、以下のように評価できる。

R_n(\mathcal{F}) \leq B_2 \sqrt{m} (2 \frac{B_1 C}{\sqrt{n}})

古典的にはこれのほうがいいが、最近はOverparameterizationのほうが望ましいということで、 $\sqrt{m}$ も大きく理論的上界の意味があまりなくなる。

ResNetについての評価

ResNetのモデリング

Image in a image block

上の $h_l(x)$ では、前の $h_{l-1}(x)$ と、その残差を足し合わせている。残差の計算は $\Phi_\theta ^l$ で計算できる。この残差の計算自体は、入力に線形変換+活性化関数+線形変換を施したもので $V_l, U_l$ が学習対象。

論文に従っての定義である。

Image in a image block

講義ノート統計的機械学習