Sen(Qian)’s Memo
2020-ICML-[Flooding]Do We Need Zero Training Loss After Achieving Zero Training Error?
機械学習するとき、訓練ロスが一定値を下回ったらgradient ascendさせるという、Flooding(一定の深さの水が浮かんでいて、それより下に行くと浮力が働く感じ)の手法は、汎化性能、平坦な最小値探索の向上に有効である。実装も簡単なのでみんなやろう。
2024-ICLR-Improving Convergence and Generalization Using Parameter Symmetries
違うパラメタでも同じような損失関数の値をとることがDNNではある。これについて、より勾配が急なところにテレポートして勾配降下すればいいので、
2019-NIPS-Are deep ResNets provably better than linear predictors?
一定の仮定下では、損失についてResNetは線形識別器より必ず良いが、全結合ネットワークはよくても高々線形識別器と同じ程度という証明ができた。 何層にもわたるResNetのRademacher複雑度も証明した。
2023-AAAI-[GradPU]Positive-Unlabeled Learning via Gradient Penalty and Positive Upweighting
理論的に面白いのは、ワッサースタイン距離で誤差上界を評価できること。普通のPositiveと経験的Positive in Unlabeledの評価ができている。 その理論的な結果から、損失関数と識別器の合成写像のリプシッツ定数が小さいほうが望ましい。また、真のPositiveの分布と、Positive in UnlabeledにDomain Shiftが生じて、矛盾するようなDomain Shiftが得られた(間違ったラベルとか)とすると、識別器はなめらかではなくなりGradientが大きくなる。 P in Uの学習とPの学習は上界から評価する限りだと、トレードオフの関係にありそう。 提案手法として、Gradient PenaltyとAdaboostのような重みづけで学習促進がある。Class Priorは使わず、その代わりに学習はAdaBoostの機構による重みづけで行っている。
2019-ECML PKDD-[PWE]Beyond the Selected Completely At Random Assumption for Learning from Positive and Unlabeled Data
BiasつきのPUについて、数理的に考察をし手法も提案した論文。propensity scoreという量を導入し、それを損失関数の重みに寄与させることでbiasを考慮できるとした。それをRiskの式に導入したのちに、推定の手法として2つの変数があるので(propensity scoreと本体の推定器)、EMアルゴリズムで交互に最適化をしていた。
2016-NIPS-Theoretical Comparisons of Positive-Unlabeled Learning against Positive-Negative Learning
なぜ時たまPUはPNよりも性能が良くなるのか。その理論的な条件を示した。 統計的学習理論の知識をふんだんに使うとこれが示せる。そのうえ、性能が良くなるのはどういうときか?を比で考察して評価をした。 特に、Uデータが無限に取れる場合は、理論上はPNやるよりはPUかNUをやった方がエラー上界の収束が早い。
