Sen(Qian)’s Memo
2024-?-[PUAE]Deep Positive-Unlabeled Anomaly Detection for Contaminated Unlabeled Data
異常検知において、「ほぼ正常だけど少し異常が混ざってるかも」=Uのデータと「異常である」=Pのデータを用いて、PU Leaningのフレームワークで考えられる。 元々、異常検知は正常データを与えて、それを復元できるようなAuto Encoderを訓練することで、異常データならうまく復元できずにAuto Encoderの復元損失が大きいというのを利用して異常を検出する。 それを、新たなフレームワークについて適用した研究。
2024-ICLR-Multiscale Positive-Unlabeled Detection of AI-Generated Texts
LLM生成の文章かどうかの識別は短文においては非常に難しい。 そもそも短文は人間もLLM生成の文章も似ているので、いっそのことUnlabeldとして認識して、nnPUの枠組みを導入する。 この時、「class priorにあたる値は、文章の長さにのみ依存する」という前提のもので(ハイパラをいじりながら)実験した結果、先行研究を上回った。
2023-TPAMI-[PULDA]Positive-Unlabeled Learning With Label Distribution Alignment
DIstPU余と同様に、Negative Assumptionに対抗するために識別器によるUデータの識別結果のうちclass priorの割合だけPであるようにするMAEをつけた。 DistPUではMixupもして、本体とmixupの両方にEntropy項をつけた。この手法では、識別データが識別境界から一定以上のマージンを持つような項をつけている。そのマージン項についてuPU, nnPUのようなリスク書き換えを行って新たなObjective Functionを作った。
2022-NIPS-Positive-Unlabeled Learning using Random Forests via Recursive Greedy Risk Minimization
決定木は2つの子グループに分けるとき、Entropyやジニ係数が一番下がる特徴量&それの閾値で分けていた。Entropyやジニ係数について、実は損失関数として組み込んだObjectiveの式にまとめ直すことができる。 ということで、先行研究のuPUやnnPUの式をObjectiveとして使って、決定木の決断に使う。 そのうえでRandom Forestの時は、通常各木で使う特徴量やデータもランダムに選んだ部分集合にするが、今はさらにその閾値すらランダムに決定する、Extra Treesという手法を使う。
2021-TPAMI-[LBE]Instance-Dependent Positive and Unlabeled Learning With Labeling Bias Estimation
グラフィカルモデルによって、ground truthのyiは隠れ変数であり、ラベルがついているかsiとインスタンスxiは明示されている変数である。 モデルとして、多層パーセプトロンかロジスティック回帰を使っている。これで、グラフィカルモデルに従って必要なp(yi|xi)やp(si|xi, yi)を定義する。 学習自体はEMアルゴリズムで行っている(変分推論ではない)
2021-NIPS-[TEDn]Mixture Proportion Estimation and PU Learning: A Modern Approach
Class Priorの推定は、BBEという手法を用いる。Uの中の閾値を超える割合/Pの中の閾値を超える割合の値が最小になるとき、その値がClass Priorだという。 学習については、Warm-up(普通に雑にPN Learning)しつつ、Uのl(f(x),-1)についての損失が少ない1-π割にNegativeというPseudo Labelを付与して、重みπを考慮したPN Learningで学習していく。これはSelf-supervised Learningベースのもの。 Class Priorの推定とSelf-supervised Learningを交互にやっていく感じ。
2020-NIPS-Partial Optimal Transport with Applications on Positive-Unlabeled Learning
Denoisingにも使えそう。
2020-CIKM-[VAE-PU]Deep Generative Positive-Unlabeled Learning under Selection Bias
PにバイアスがあるSAR仮定における解決法として、生成モデルで本来のPに含まれるが与えられたデータには含まれてないPを生成させて、それをまとめて、SAR仮定のPU Learningの式で学ばせるというもの。 生成ではVAEをベースに、Discriminatorとの敵対的訓練を使っている。
2020-onlyarxiv-[MixPUL] Consistency-based Augmentation for Positive and Unlabeled Learning
2022-ICLR-[P3Mix]Who Is Your Right Mixup Partner in Positive and Unlabeled Learning
PUのcost-sensitiveのnegative assumptionを防ぐため、識別境界に近い(これは識別確率が[0.5-x, 0.5+x]に含まれているって感じの)データをmixupして学習させるという手法。 面白いのは、cost sensitiveなのにPUの項の重みは固定ではなくハイパラにしているところ。
