Sen(Qian)’s Memo
This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.
Knowledge Distillation
2024-11-06
2024-KDD-[PTLoss]Knowledge Distillation with Perturbed Loss: From a Vanilla Teacher to a Proxy Teacher
Knowledge Distillationでは、教師モデルの出力分布にはバイアスがあるかもしれないので、学生モデルが完全に学んでしまうのはある意味よくない。 そこで、KL Divergenceをマクローリン展開して、摂動を加えるということを考える。このフレームワークによる表現力は非常に高い。 摂動自体はbrute forceで選ぶらしいが、指針となるものは数学で導いた誤差上界とする。 具体的には、手を加えたKL Divergenceを計算して、それに該当するKL Divergenceを得るような代理教師の分布がなんなのかを計算して、それで誤差上界の計算を実現する。
