Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

2017-NIPS-Toward Robustness Against Label Noise in Training Deep Discriminative Neural Networks

https://arxiv.org/abs/1706.00038

Introduction

既存のアルゴリズムでは、以下のグラフィルカルモデルのようにNoisy LabelからGround-truthを得るモデルを使っている。

Image in a image block

この論文では、Conditionla Random Fieldという以下の無向のグラフィカルモデルを用いた手法を開発した。hhは隠れたバイナリ変数。

無向グラフィカルモデルの定式化については、📄Arrow icon of a page linkNNDL 第11章 独立した複数のモデルの訓練による効用 を見るとわかる。

Image in a image block

Robust Discriminative Neural Network

小さいCleanなデータセットと大きなNoisyなラベルから訓練して、よいDNNを作る。サンプルはx\mathbf{x}であり、ラベルはone-hotのy=(0,1,0,)T\mathbf{y} = (0, 1, 0, \cdots)^Tとなる。ラベルの中で、Cleanなもので確定したのはy^\hat{\mathbf{y}}である。

提案したグラフィカルモデルでは、y,y^\mathbf{y, \hat{y}}のいずれもx\mathbf{x}に依存している。Noisyなラベル存在するときに、この相関から真のラベルを推測していく。Noisy Labelの分布はp(yy^,x)p(\mathbf{y} | \hat{\mathbf{y}}, \mathbf{x})で表す。ここに、hHh \in Hで表す二値変数を導入する。

CRFモデルは、パラメタ化されたエネルギー関数EθE_\thetaを用いて、ポテンシャルスコアを定義する。

Eθ(y,y^,h,x)E_\theta(\mathbf{y, \hat{y}, h, x})

そして、ボルツマン分布を定義する。

pθ(y,y^,hx)=1Zθ(x)exp(Eθ(y,y^,h,x))Zθ(x)=yYNy^YChHexp(Eθ(y,y^,h,x))p_\theta(\mathbf{y, \hat{y}, h | x}) = \frac{1}{Z_\theta(\mathbf{x})} \exp(-E_\theta(\mathbf{y, \hat{y}, h, x})) \\ Z_\theta(\mathbf{x}) = \sum_{\mathbf{y} \in Y_N} \sum_{\mathbf{\hat{y}} \in Y_C} \sum_{\mathbf{h} \in H} \exp(-E_\theta(\mathbf{y, \hat{y}, h, x}))