2016-NIPS-Estimating The Class Prior And Posterior from Noisy Positives And Unlabeled Data

https://papers.nips.cc/paper_files/paper/2016/hash/79a49b3e3762632813f9e35f4ba53d6c-Abstract.html

Introduction

PU Learningするには、Uの中に含まれているPとNの割合を知ることが重要である。

既存のClass Prior推定ではNoiseがある高次元のデータ(画像とか)を考慮していなかった。先行研究の多くはPの分布がわかるか、Pが十分にCleanであることが前提であった。

先行研究ではNoiseに対するアプローチはあるが、密度比推定が必要で、これは高次元データではうまく動かない。

この論文では、Noiseある高次元データについてのClass Prior推定の手法を提案する。入力されたデータをある単変量の分布に変換し、そこで密度比推定を行う(次元を落とすってことかな)。

問題設定

Noisy PUの問題設定を考える。

二値分類において、本来は以下のように $\alpha$ の割合で混合分布が与えられるデータであるが、Noisy Labelの場合は、 $\alpha$ とは違う $\beta$ がClass PriorであることでNoisy Labelを表現している。

この場合、f1, f0の分布自体が違ってくることを想定せず、ノイズはクラスやインスタンスに依存せずに発生すると仮定している。だいぶ限られたノイズパターン。

f(x) = \alpha f_1(x) + (1 - \alpha) f_0(x) \\ g(x) = \beta f_1(x) + (1 - \beta)f_0(x)

この問題設定において、うまく $\alpha$ をNoisyな高次元データでも推定できるようにするのが目標。

Class Priorの推定

$f, g$ の2つの分布が与えられたときに、Class Priorは一意に定まるとまず仮定する。

実をいうと一般的には $f$ が $g$ を含む、その逆もしかりとありえるので、実はこの過程は成り立たないこともある。

これを避けるために、できるだけ $f_1, f_0$ を相方によってあらわせないようにしたい。これは相互不可約性という。

例えば、一様分布とガウス分布みたいな。

以下のように2つの混合分布を定義する。

そして、この中での2つの基底の選び方は以下のように選べるすべての組み合わせのうち、全く同じ形以外のもので組み合わせの集合 $\Pi^{all}$ を考えられる。

だが、 $\Pi^{all}$ は、同じガウス分布だけどパラメタが違うみたいなものを防げないので、一様分布とガウス分布による混合、みたいに明確に分布の形が違い互いに表せない必要があり、それは $\Pi^{res}$ という集合とする。こっちのほうが大事。

つぎに、最大成分割合というものを定義する。これは、基底の分布 $\lambda_1$ が混入できる最大の割合 $\alpha$ だとする。 $\lambda = \alpha \lambda_1 + (1 - \alpha) \lambda_0$

もし、 $\alpha = 0$ ならば、一切 $\lambda_1$ は $\lambda$ に混合されないということ。

最後に、基底の直積の集合、2つの混合分布 $\mu, \nu$ を与えたとき、ありうる混合比率 $(\alpha, \beta)$ を構成する集合は、 $A^+(\mu, \nu, \Pi)$ とおく。この集合は1つだけ要素を持てば、 $(\alpha, \beta)$ において識別可能つまり一意に特定できることを指す。

だが、ここで意外なことに、 $\Pi^{all}$ の要素を基底に使うと、識別可能ではないときがある。

説明

まず、混合分布 $(\mu, \nu)$ が与えられたとする。ここから式(3), (4)の定義に従うと、以下のように基底となる $\mu_1, \mu_0$ が得られる。

これらが集合上の測度として満たすには、どうやら $\alpha/\beta \leq \alpha^+, (1-\beta)/(1-\alpha) \leq \beta^+$ を満たす必要があるらしい。( $\alpha^+$ はαの最大成分割合、 $\beta$ も同様)

だがこの条件を満たすとき、等式ではなく不等式なので明らかに $(\alpha, \beta)$ は一意に決まらない。

その代わりに、一意に定まるような条件を新たに、以下のように考える。

このようにおいたとき、 $(\alpha^*, \beta^*, \mu_0^*, \mu_1^*)$ から混合分布 $(\mu, \nu)$ を生成すれば、ちゃんとClass priorは一意に決まるらしい。

問題設定

確率変数 $x$ を入力の真の分布を表す値をとるランダム変数として、確率変数 $y$ は真のラベルを表すランダム変数だとする。すると、 $x|y=0, x|y=1$ に従い、 $\mu_0, \mu_1$ が分布する(それはそう)。

ノイズについては、以下のように加える。

確率変数 $S \in 0, 1, 2$ を各サンプル $\mathbf{x} \in X$ ごとに考える。
$S=2$ の時は、データセットから除外する。
$S=0$ の時は、Unlabeledにする。
$S=1$ の時は、Positiveとする。
1. $S$ と真のラベル $y$ は必ずしも一致しないから、Positiveと言ってもNoisyなPositive( $y$ がNegativeであるものが混入するかもしれない)

PUのNoiseがある問題設定として以下の3つを追加で考える。

$p(y|S=0) = p(y)$ 　Unlabeledの中のClass priorの値はデータセット全体のClass Priorと同じ。
$p(y=1|S=1)=\beta$ 　ラベルを付けるという $S=1$ の意味を持つ潜在変数を引いた時、実際にPositiveである割合は、全体の観測されたClass priorは $\beta$ と同じということ。
1. 実際に $y=0$ であるような $S=1$ のサンプルを引いたら、確率 $\gamma_0$ で誤ってPになってしまう、というかたちでNoiseが混入する。
2. なお、 $y=1$ の場合でも、すべてラベル付けされるということではなく、 $\gamma_1$ の確率で誤って、学習に使わない=データセットから除外される( $S=2$ の時のように)。
$p(x|S,y)=p(x|y)$ 　潜在変数 $S$ は影響しない。

この3点を満たすならば、以下を満たす。

$p(x|S=0)=p(x)$ 　このようにUnlabeledの分布は $p(x)$ の分布と同じ。
$Pr(S=2) \neq 0$ 　除外するデータはありうる。

解き方

以下のような識別器を訓練する。

\tau_P(x) = Pr(S=1|\mathbf{x}, S \in \{0, 1 \})

これをうまく予測することで、以下のように真のClass priorを計算できる。

Sen(Qian)’s Memo