Sen(Qian)’s Memo
This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.
Transformer
2024-11-01
2024-CVPR-MLP Can Be A Good Transformer Learner
VisionTransformerはAttentionメカニズムを利用してるが、最初の数個のAttention Blockは情報理論的にみると、情報量が少ない。ならば、「最初に数個とかではなく、消してよさげなAttention Blockを見つけておけば、推論時にそのBlockを消すことで、モデルの軽量化できるよね?」というのを考え付いた。
