Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.
Bias

2021-TPAMI-[LBE]Instance-Dependent Positive and Unlabeled Learning With Labeling Bias Estimation

グラフィカルモデルによって、ground truthのyiは隠れ変数であり、ラベルがついているかsiとインスタンスxiは明示されている変数である。 モデルとして、多層パーセプトロンかロジスティック回帰を使っている。これで、グラフィカルモデルに従って必要なp(yi|xi)やp(si|xi, yi)を定義する。 学習自体はEMアルゴリズムで行っている(変分推論ではない)

2019-ICML-[PUbN] Classification from Positive, Unlabeled and Biased Negative Data

2020-AAAICAI-Class Prior Estimation with Biased Positives and Unlabeled Examples

Pをk個(ハイパラ)の集合(k-meansなどで)に分けて、Uもそのk個の中のどれかに属してもらう(k-NNみたいに) そしてそれぞれのグループを生成するようなk個のお互いかぶらない分布を考え、これを基底みたいだと考える。 そして、混合比(該当分布のデータ数が占める割合)で基底を混ぜたのが全体の混合分布だとして、合成した後にClass PriorをAlphaMaxを用いて推定している。

2020-NIPS-[aPU]Learning from Positive and Unlabeled Data with Arbitrary Positive Shift

abs-puを開発。これはnnPUの式のmaxを絶対値に。 全体的な流れは、N in U in train, N in testが同分布という仮定。 まずはtrain同士でPU learningして、そこからp(y=-1|x)から比率で変換して、うまくUからN in Uを抽出する。 そして、test domainにあるデータとNUかPNU Learningする。

2023-AAAI-[GradPU]Positive-Unlabeled Learning via Gradient Penalty and Positive Upweighting

理論的に面白いのは、ワッサースタイン距離で誤差上界を評価できること。普通のPositiveと経験的Positive in Unlabeledの評価ができている。 その理論的な結果から、損失関数と識別器の合成写像のリプシッツ定数が小さいほうが望ましい。また、真のPositiveの分布と、Positive in UnlabeledにDomain Shiftが生じて、矛盾するようなDomain Shiftが得られた(間違ったラベルとか)とすると、識別器はなめらかではなくなりGradientが大きくなる。 P in Uの学習とPの学習は上界から評価する限りだと、トレードオフの関係にありそう。 提案手法として、Gradient PenaltyとAdaboostのような重みづけで学習促進がある。Class Priorは使わず、その代わりに学習はAdaBoostの機構による重みづけで行っている。

2019-NIPS workshop-[aaPU] Revisiting Sample Selection Approach to Positive-Unlabeled Learning- Turning Unlabeled Data into Positive rather than Negative

まずはnnPUで訓練し、ある程度信頼できるモデルにする。Noisy LabelのSmall Loss Trickを使い、そのあとから、Unlabeledの中のlossが大きいものを選んで、Positive扱いにする。しかし、Uから選んだPositive扱いのものは、nnPUでmaxを取った項の中での計算はさせない(強い過学習傾向がnnPUでさえ見られてしまう).

2019-ICLR-[PUSB]Learning from Positive and Unlabeled Data with a Selection Bias

2019-ECML PKDD-[PWE]Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data

BiasつきのPUについて、数理的に考察をし手法も提案した論文。propensity scoreという量を導入し、それを損失関数の重みに寄与させることでbiasを考慮できるとした。それをRiskの式に導入したのちに、推定の手法として2つの変数があるので(propensity scoreと本体の推定器)、EMアルゴリズムで交互に最適化をしていた。