(講義ノート)統計的機械学習第1回

記号

入力は $x \in \mathcal{X}$ であり、出力は $y \in \mathcal{Y}$ とする。

$h : \mathcal{X} \to \mathcal{Y}$ を仮説=Hypothesisという。 $h \in \mathcal{H}$ とする。1つのモデル $\mathcal{H}$ はパラメタを変えることで複数の仮説 $h$ を作る、という感じ。

$l : (\mathcal{X \times Y}) \times \mathcal{H} \to \mathbb{R}$ を損失関数という。入力を仮説に入れた予測結果と真の結果を受け取ることで、それらの距離を測り、それを最適化するということになる。

汎化は何がカギか

どのモデル=関数集合を使うか
どの損失関数を最小化するか

この2つそれぞれに対して、汎化の理論を作る必要がある。

確率不等式

確率不等式での評価が主である。基本的によく使われる記法は以下の通り。

\epsilon > 0, \delta \in [0, 1], P[L \leq \epsilon] > 1 - \delta

損失関数 $L$ が $\epsilon$ より小さい確率は、少なくとも $1 - \delta$ だけの確率がある。

これを逆にした $P[L > \epsilon] \leq \delta$ のほうが数式の取り扱いでは楽だったりするけど。

データの設定

真のデータ生成分布を $\mathcal{D}$ とする。そこから $n$ 個のサンプルは独立に選択され=i.i.d、 $\{ (x_i, y_i) \}_{i=1}^n$ で得られ、 $(x_i, y_i) \sim \mathcal{D}$ と書くことができる。

すでに得られたサンプルたちを使って○○をやるときは、経験○○という名前がつく。

例えば、経験分布 $\mathcal{S}_n$ は以下のように定義できる。各データごとに $1/n$ の重みが付与されており、生成されたら1、そうじゃなかったら0として扱ったときの分布である。

\mathcal{S}_n = \frac{1}{n} \sum _{i=1}^n \mathbf{1}[(x,y)=(x_i, y_i)]

期待損失と経験損失

期待損失とは、理想的な真のデータ生成分布の元での損失である。

L(h) = \mathbb{E} _{(x,y) \sim \mathcal{D}} [l((x,y),h)]

だが現実では、期待値はサンプルからの経験で代替するしかない。以下の経験損失を使うことになる(以下の期待値は経験分布についての期待値の意味である)

\hat{L}_n(h) = \mathbb{E} _{(x,y) \in \mathcal{S}_n} [l((x,y),h)] = \frac{1}{n} \sum_{i=1}^n l((x_i, y_i),h)

我々にできるのは、 $h \in \mathcal{H}$ を選んで経験損失 $\hat{L}_n(h)$ を最小化することしかない。

Tips: $\hat{h}$ はサンプルから訓練されるので、サンプルを変数として $\hat{h}(\mathcal{S}_n)$ と書くこともある。ただしこれは仮説 $h$ に $\mathcal{S}_n$ を直接与えてるわけではなく、便宜的な書き方である。

汎化誤差

汎化理論で示す主な確率不等式は以下のようになる。

P _{\mathcal{S}_n \sim \mathcal{D}} [L(\hat{h}(\mathcal{S}_n)) - L(h^*) \leq \epsilon] > 1 - \delta

つまり経験誤差と期待誤差は、 $1 - \delta$ 以上の確率で必ず $\epsilon$ に収まるという流れを作りたい。

これを示していきたい。まずは(1)以下の式が成り立つことを示す。

L(\hat{h}) - L(h^*) \leq L(\hat{h}) - \hat{L}_n(\hat{h}) + \hat{L}_n(h^*) - L(h^*)

証明

右辺で $\hat{L}_n(h^*) - \hat{L}_n(\hat{h}) \geq 0$ を示せればよい。 $\hat{L}_n$ においての最適な仮説は $\hat{h}$ なので、これは自明に示せた。

なお、この式を出すのは本来、以下のように足して0になるものを複数挟み込んでいる。

L(\hat{h}) - L(h^*) = \{L(\hat{h}) - \hat{L}_n(\hat{h})\} + \{ \hat{L}_n(\hat{h}) - \hat{L}_n(h^*)\} + \{\hat{L}_n(h^*) - L(h^*)\}

これによって、真ん中のものは上の議論によって自明に負であるので、取り除いたら不等式ができる。これで証明の構えを作りたい。

(1)で示した式を前半 $L(\hat{h}) - \hat{L}_n(\hat{h})$ と後半 $\hat{L}_n(h^*) - L(h^*)$ と分割することができる。

後半 $\hat{L}_n(h^*) - L(h^*)$ は、 $h^*$ は訓練サンプル集合に関係なく固定値であるので、確率的に変動する独立な $n$ 個のサンプルを入力した損失関数の和によってのみ変わる。独立なので、扱いやすい。
- 大数の弱法則で0へ収束すること、中心極限定理については $O(1/\sqrt{n})$ のオーダになるなどと扱える。
前半 $L(\hat{h}) - \hat{L}_n(\hat{h})$ は $\hat{h}$ が訓練サンプル集合によって変わるのが後半と違うところ。これによって、既存の各道具を使うのは難しい。
- ここをがんばるのが、統計的機械学習です。