2019-ICLR-[PUSB]Learning from Positive and Unlabeled Data with a Selection Bias

既存では、PU Learningの仮定はPositive例の中から一様にサンプルされる例が選ばれるSelect Completely At Random=SCARであった。だが、実際の応用では非現実的である。

これに対して、バイアスを考慮した研究がある。📄2019-ECML PKDD-[PWE]Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data など。

この研究では、SCARではないが、もっと強い仮定を設けてそれについての研究を行う。簡単に言うと、よりPositiveの確度が高いほど、よりラベル付けされやすいという仮定。

問題設定

サンプルは $\mathbf{x} \in \mathbb{R}^d$
Ground-Truthのラベルは $y = -1, +1$
ラベルがついているは $o=+1$ であり、ついてないは $o=0$
本論文はCase Control。つまり、 $Pr(o=+1)$ はわからない。
- Positiveは $p(\mathbf{x}|y=+1, o=+1)$ からサンプリングしている。
- Unlabeledは $p(\mathbf{x})$ からサンプリングしている。
SCARではないので、 $p(\mathbf{x}|y=+1) \neq p(\mathbf{x}|y=+1, o=+1)$ もあり得る。
Class Prior $\pi = Pr(y=+1)$ は重要である。

📄2017-MLJ-Class-prior Estimation for Learning from Positive and Unlabeled Data

Identification Strategy

SARについての1つの仮説

SCARの場合、以下の条件が成り立つ。つまり、ラベルがつくかどうかによって、Ground-TruthがPositiveであるサンプルの事後分布には影響しない。

p(\mathbf{x}|y=+1, o=0) = p(\mathbf{x}|y=+1, o=1) = p(\mathbf{x}|y=+1)

これを利用して式変形として以下のようなことができた。

SCAR仮定を外すと、最後の式変形のステップがこなせなくなる。このままではSARで行き詰まってしまう。

そこで、本論文は、Charles Manski. Partial Identification in Econometrics. Palgrave-Macmillan, 2 edition, 2008.のPartial Identificationから着想を得て、さらなる仮定を加えて、SAR設定で問題を解いていく。

\forall i, j, Pr(y=+1|\mathbf{x}_i) \leq Pr(y=+1 | \mathbf{x}_j) \Leftrightarrow Pr(o=+1|\mathbf{x}_i) \leq Pr(o=+1 | \mathbf{x}_j)

つまり、よりPositiveの確度が高いほど、よりラベル付けされやすい。

省略

Partial Identificationと分類の戦略(提案手法)

直接 $Pr(y=+1|\mathbf{x})$ の推定が難しい(Class Priorがあっても、選択バイアスがあるので)ことから、以下の分布の密度比を推定する。

r(\mathbf{x}) = \frac{p(\mathbf{x} | y=+1, o=+1)}{p(\mathbf{x})}

先ほど提案した仮定「よりPositiveの確度が高いほど、よりラベル付けされやすい」によれば、以下のことが成り立つ。

\forall i, j, Pr(y=+1|\mathbf{x}_i) \leq Pr(y=+1|\mathbf{x}_j) \Leftrightarrow r(\mathbf{x}_i) \leq r(\mathbf{x}_j)

証明はこちら

あｓ

左辺は推測できないが、順序を保っている右辺を推測することで左辺の代わりにしようというもの。 $r(\mathbf{x})$ を得た後、ある閾値 $\theta$ を設けて、識別器を以下のようにする。

先行研究では、データにラベルを付けられるデータ数に制約を設けて、最も密度比が高いサンプルにPositiveのラベルを付けるというかたちで選別していく。

h(\mathbf{x}) = \mathrm{sign}(r(\mathbf{x}) - \theta)

ここで提案されている $\theta$ の選択の手法は、以下の式である。累計密度関数は広義単調増加なので、適宜なところで二分探索して妥当な $\theta = \theta_\pi$ を見つければよい。

\pi = \int \mathbf{1}[r(\mathbf{x}) \geq \theta_\pi] p(\mathbf{x}) d\mathbf{x}

この時、precisionはrecallとも同じになるらしい。これはprecision-recall breakeven point(BEP)というらしい。閾値決定の時にこういう条件が理想的である。

アルゴリズム

アルゴリズムの流れ

まず、指定のRisk Estimatorをもとに、 $r(\mathbf{x})$ を推定する。そこから $\theta_\pi$ を推定することで、識別器 $h(\mathbf{x})$ が完成する。

$r(\mathbf{x})$ の推定

r(\mathbf{x}) = \frac{p(\mathbf{x} | y=+1, o=+1)}{p(\mathbf{x})}

$f$ から推定する。

$r(\mathbf{x})$ を推定するための手法の1つとして、以下の式を用いるということ。通常のPUのリスクの式ではSCARの場合は $Pr(y=+1|\mathbf{x})$ を予測できるが、こっちでは $Pr(o=+1|\mathbf{x}) = Pr(y=+1,o=+1 | \mathbf{x})$ を予測するに過ぎない(ここの等式はPUでは必ずラベル付き)。

r(\mathbf{x}) = \frac{p(\mathbf{x} | y=+1, o=+1)}{p(\mathbf{x})} = \frac{p(\mathbf{x} , y=+1, o=+1)}{p(\mathbf{x})Pr(y=+1, o=+1)} \\ =\frac{1}{Pr(y=+1)} \cdot Pr(y=+1,o=+1|\mathbf{x})

📄2015-ICML-[uPU] Convex Formulation for Learning from Positive and Unlabeled Data では、以下のような損失の最小化が提案された。しかし、これはSCAR仮定で、バイアスに対しては何も考えていない。(これは $l(g)-l(-g)=-x$ とすれば計算効率が上がるという論文だった)

しかし、SAR仮定では $\mathbb{E}_P \sim p(\mathbf{x}|y=+1)$ を得ることはできない。しかし、使えないと割り切っても同じ式をここでは使う。

ここでは、損失関数を $l(f(\mathbf{x}), +1) = - \log f(\mathbf{x}), l(f(\mathbf{x}), -1) = - \log (1 - f(\mathbf{x}))$ としている=Logarithmic lossである。

式に関しては、これ以外にも、📄2017-NIPS-[nnPU] Positive-Unlabeled Learning with Non-Negative Risk Estimator で提案されていたnnPUの式も導入している(DNN用はこちら)。

上のリスクを最小化する $f^*$ を考える。 $\forall \epsilon \in [0, 1/2]$ で以下の定理が成り立つ。

$D_1$ はラベル付きのデータの分布の $\pi$ 倍が、

ようわからん。

直接 $r(\mathbf{x})$ を推定する

先ほどは $Pr(y=+1, o=+1| \mathbf{x})$ を推定し、そこに $1/\pi = 1 / Pr(y=+1)$ を掛けることで、 $r(\mathbf{x})$ を求めていた。

ここでは、直接推定する手法を考えてみる。ここでは、最小二乗法による重要度fittingを使っている。具体的には、 $s(X)$ という関数を使って、 $r(X)$ に近似していくことを考える。

$-2s(X)r(X)$ の部分は、以下のように期待値を展開すると、別の期待値にすることができる。

定数部分を除くと以下の部分を最小化するのと等しい。

実験

実験ではモデルとして、

Sen(Qian)’s Memo

2019-ICLR-[PUSB]Learning from Positive and Unlabeled Data with a Selection Bias

Introduction