Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.
9/14

(講義ノート)統計的機械学習第6回

大学院講義 統計的機械学習のノート

2019-ECML PKDD-[PWE]Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data

BiasつきのPUについて、数理的に考察をし手法も提案した論文。propensity scoreという量を導入し、それを損失関数の重みに寄与させることでbiasを考慮できるとした。それをRiskの式に導入したのちに、推定の手法として2つの変数があるので(propensity scoreと本体の推定器)、EMアルゴリズムで交互に最適化をしていた。

2017-NIPS-[nnPU] Positive-Unlabeled Learning with Non-Negative Risk Estimator

PUの訓練の式で経験損失がというか一定値以下にならないようにclipするといい感じ。実用的には、一定値以下となった時、損失関数全体が負となった原因の項(本文参照)を取り出し、そのgradientでgradient ascentすることで過学習を防いでいる。

2018-NIPS-Co-teaching: Robust Training of Deep Neural Networks with Extremely Noisy Labels

後の手法の基本となったCo-Teachingについて。 先行研究のDecouplingもここにある。 Small Loss Trickで、最初は高い割合のデータを使うが、どんどんlossが小さいデータだけを使うようにする。後続研究と矛盾する提案。

2017-MLJ-Class-prior Estimation for Learning from Positive and Unlabeled Data

Class Priorを推定する。既存のf-divergenceでの推定は過大にClass Priorを推定してしまう。t>1の部分でf(t)=infとすることで防げる。 理論的には、Fenchelの双対性定理などを用いてちゃんと凸最適化できる!と説明していた。

(講義ノート)乱択アルゴリズム第6回

大学院講義 乱択アルゴリズムのノート グラフの枝数の推定

2017-ICML-[PNU]Semi-Supervised Classification Based on Classification from Positive and Unlabeled Data

まず、PU+NU学習での損失関数の統合、そしてPNU学習を提案した。

2016-NIPS-Theoretical Comparisons of Positive-Unlabeled Learning against Positive-Negative Learning

なぜ時たまPUはPNよりも性能が良くなるのか。その理論的な条件を示した。 統計的学習理論の知識をふんだんに使うとこれが示せる。そのうえ、性能が良くなるのはどういうときか?を比で考察して評価をした。 特に、Uデータが無限に取れる場合は、理論上はPNやるよりはPUかNUをやった方がエラー上界の収束が早い。

2016-CVPR-Multi-label Ranking from Positive and Unlabeled Data

マルチラベルでのPUのフレームワークを提案している。1つのサンプルには複数のラベルがつくが、付いているラベル以外のラベルを含まないとは限らない。こういう条件で、Rank Lossの形をPU2014のように、Ramp損失を導入した。また、PUで計算するときの目的関数についても導出をした(マルチラベルでは結構重要なので見るといいかも)

2015-ICML-[uPU] Convex Formulation for Learning from Positive and Unlabeled Data

PU学習で2014-RampはR_Xの書き換えをするとき、余事象を使うことで損失項の和が定数にできるというテクを使った。ここでは、余事象を使って書き換えずに普通に代入したとき、損失関数の差が線形関数(-zにしている)になるとしても、いい性質があると提案した。後は外れ値検出のDiscussionがあるが難しくてわからなかった。