Sen(Qian)’s Memo
2018-NIPS-Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels
後の手法の基本となったCo-Teachingについて。 先行研究のDecouplingもここにある。 Small Loss Trickで、最初は高い割合のデータを使うが、どんどんlossが小さいデータだけを使うようにする。後続研究と矛盾する提案。
2017-MLJ-Class-prior Estimation for Learning from Positive and Unlabeled Data
Class Priorを推定する。既存のf-divergenceでの推定は過大にClass Priorを推定してしまう。t>1の部分でf(t)=infとすることで防げる。 理論的には、Fenchelの双対性定理などを用いてちゃんと凸最適化できる!と説明していた。
2017-ICML-[PNU]Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data
まず、PU+NU学習での損失関数の統合、そしてPNU学習を提案した。
2016-NIPS-Theoretical Comparisons of Positive-Unlabeled Learning against Positive-Negative Learning
なぜ時たまPUはPNよりも性能が良くなるのか。その理論的な条件を示した。 統計的学習理論の知識をふんだんに使うとこれが示せる。そのうえ、性能が良くなるのはどういうときか?を比で考察して評価をした。 特に、Uデータが無限に取れる場合は、理論上はPNやるよりはPUかNUをやった方がエラー上界の収束が早い。
2016-CVPR-Multi-label Ranking from Positive and Unlabeled Data
マルチラベルでのPUのフレームワークを提案している。1つのサンプルには複数のラベルがつくが、付いているラベル以外のラベルを含まないとは限らない。こういう条件で、Rank Lossの形をPU2014のように、Ramp損失を導入した。また、PUで計算するときの目的関数についても導出をした(マルチラベルでは結構重要なので見るといいかも)
2015-ICML-[uPU] Convex Formulation for Learning from Positive and Unlabeled Data
PU学習で2014-RampはR_Xの書き換えをするとき、余事象を使うことで損失項の和が定数にできるというテクを使った。ここでは、余事象を使って書き換えずに普通に代入したとき、損失関数の差が線形関数(-zにしている)になるとしても、いい性質があると提案した。後は外れ値検出のDiscussionがあるが難しくてわからなかった。
2014-NIPS-[Ramp]Analysis of Learning from Positive and Unlabeled Data
PU学習について、式変形すれば重み付きの既存のPositiveとNegativeの学習に帰着できる。損失はPNならHingeが普通だが、PUの場合目的関数から損失項を減らせるRamp損失のほうがいい。そのうえ、Class Priorの間違った推定が与える影響も説明されている。理論的には、PUはPNの性能とたかだか2√2倍までしか悪くならない。
2019-PMLR-[SELFIE] Refurbishing Unclean Samples for Robust Deep Learning
1. ラベルのp(y|x)の各クラスごとのエントロピーを測って、低い=ほぼクラスyかほぼクラスyではない、ということならp(z|x)を最大化するzを新しいラベルにする。 2. backwardするときは、それなりに正しいと思われるサンプル(損失が少ない上位X割)とrelabeledされたデータだけで計算。 3. このアルゴリズムで信頼できるサンプルを選べるが、そのラベル修正込みのサンプルで、訓練を頭からもう1回やり直す=restartでロバストなモデルを作っている SELFIEは高ノイズ環境に強い!
