NNDL 第3章線形学習

中国の有名な機械学習の本の勉強ノート。自分がわからなかったところだけなので飛び飛びだろう。特に線形学習は大体わかってるし。

https://nndl.github.io/

やらないとやはりヤバい。存亡の際に立っている認識で臨む。

線形分類器と識別境界多クラス分類 Logistic回帰 Softmax回帰パーセプトロン(感知器)パラメタ平均式パーセプトロン多クラス分類パーセプトロンへの拡張 Support Vector Machine(支持向量机)パラメタの更新

線形分類器と識別境界

線形識別器は、 $\mathbf{w}^T \mathbf{x}+b$ 。これが妥当な重みが存在して完全に分類できるときは、線形分類可能という。

多クラス分類

カテゴリがみな $K$ 個あるとする。特徴量は $P$ 次元。

1 vs other。 $K$ 個の識別器を作って判断する。
1 vs 1。 $K(K-1)/2$ 個の識別器を作って、すべてのありうるカテゴリのペアで作る。
argmax。識別結果としてスカラーを出すのではなく、 $K$ 次元のベクトルを出して、各成分ごとにそのカテゴリに所属していることに対しての評価値(正ほど良い)。これを実現するために $\mathbf{w}$ は $P \times 1$ のベクトルではなく、 $P \times K$ の行列とすればいい。実質的には $K$ 個の識別器を同時に訓練している。
- これが一番いいです。
- argmaxで分類できる場合、多クラス線形分類可能であるという。

Logistic回帰

g(x)=\frac{1}{1+e^{-x}} \\ p(y=+1|\mathbf{x}) = g(\mathbf{w}^ T \mathbf{x} + b)

線形識別器をロジスティック関数に入れたもので、事後確率を近似する試み。

\mathbf{w} ^ T \mathbf{x} + b = \log \frac{p(y=1|\mathbf{x})}{p(y=0 | \mathbf{x})}

式変形するとこうなる。logの中身は、Oddsという。log OddはLogitという。

なので、Logistic回帰は、Logit回帰とも言われたりする。

Logistic回帰の学習については、クロスエントロピー誤差によって勾配降下法で行う。式変形をすると以下のように導関数は明示的に得ることができる。二次導関数も明示的に求まるので、ニュートン法でもいい。

Softmax回帰

多クラスのLogistic回帰ともいえる。

p(y=c|\mathbf{x})=\mathrm{softmax}(\mathbf{w}_c ^ T \mathbf{x} + b_c) = \frac{\exp (\mathbf{w}_c ^ T \mathbf{x} + b_c)}{\sum _{i=1}^C \exp (\mathbf{w}_i ^ T \mathbf{x} + b_i)}

$C=2$ の時 $\argmax _{y \in 0, 1} \mathbf{w}_y ^ T \mathbf{x}=\mathbf{1}[(\mathbf{w_1 - w_0}) ^ T \mathbf{x} > 0]$ とみなせるので(バイアス項はベクトルの中に折りたためる)、Logistic回帰とも兼ねている。