Sen(Qian)’s Memo
2021-TPAMI-[LBE]Instance-Dependent Positive and Unlabeled Learning With Labeling Bias Estimation
グラフィカルモデルによって、ground truthのyiは隠れ変数であり、ラベルがついているかsiとインスタンスxiは明示されている変数である。 モデルとして、多層パーセプトロンかロジスティック回帰を使っている。これで、グラフィカルモデルに従って必要なp(yi|xi)やp(si|xi, yi)を定義する。 学習自体はEMアルゴリズムで行っている(変分推論ではない)
2020-CIKM-[VAE-PU]Deep Generative Positive-Unlabeled Learning under Selection Bias
PにバイアスがあるSAR仮定における解決法として、生成モデルで本来のPに含まれるが与えられたデータには含まれてないPを生成させて、それをまとめて、SAR仮定のPU Learningの式で学ばせるというもの。 生成ではVAEをベースに、Discriminatorとの敵対的訓練を使っている。
2023-AAAI-[GradPU]Positive-Unlabeled Learning via Gradient Penalty and Positive Upweighting
理論的に面白いのは、ワッサースタイン距離で誤差上界を評価できること。普通のPositiveと経験的Positive in Unlabeledの評価ができている。 その理論的な結果から、損失関数と識別器の合成写像のリプシッツ定数が小さいほうが望ましい。また、真のPositiveの分布と、Positive in UnlabeledにDomain Shiftが生じて、矛盾するようなDomain Shiftが得られた(間違ったラベルとか)とすると、識別器はなめらかではなくなりGradientが大きくなる。 P in Uの学習とPの学習は上界から評価する限りだと、トレードオフの関係にありそう。 提案手法として、Gradient PenaltyとAdaboostのような重みづけで学習促進がある。Class Priorは使わず、その代わりに学習はAdaBoostの機構による重みづけで行っている。
2019-ECML PKDD-[PWE]Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data
BiasつきのPUについて、数理的に考察をし手法も提案した論文。propensity scoreという量を導入し、それを損失関数の重みに寄与させることでbiasを考慮できるとした。それをRiskの式に導入したのちに、推定の手法として2つの変数があるので(propensity scoreと本体の推定器)、EMアルゴリズムで交互に最適化をしていた。
2016-CVPR-Multi-label Ranking from Positive and Unlabeled Data
マルチラベルでのPUのフレームワークを提案している。1つのサンプルには複数のラベルがつくが、付いているラベル以外のラベルを含まないとは限らない。こういう条件で、Rank Lossの形をPU2014のように、Ramp損失を導入した。また、PUで計算するときの目的関数についても導出をした(マルチラベルでは結構重要なので見るといいかも)
2008-KDD-Learning Classifiers from Only Positive and Unlabeled Data
Charles Elkan, Keith Noto
