Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.

2024-onlyarxiv-The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

2020-ICML-[Flooding]Do We Need Zero Training Loss After Achieving Zero Training Error?

機械学習するとき、訓練ロスが一定値を下回ったらgradient ascendさせるという、Flooding(一定の深さの水が浮かんでいて、それより下に行くと浮力が働く感じ)の手法は、汎化性能、平坦な最小値探索の向上に有効である。実装も簡単なのでみんなやろう。

2021-ICML-[EGNN]E(n) Equivariant Graph Neural Networks

Equivariant Graph Neural Network(EGNN)。 同変性について、GNNは順序同変性を持つが、回転と平行移動同変性も導入したい。この時、GNNに座標埋め込みという新たなものを導入することで実現した。

2024-ACL-[MAGE]Machine-generated Text Detection in the Wild

LLM生成のテキストと人間のテキストの識別は重要。指定のLLMであるか、の情報が与えられるか、指定の分野と与えられるか、が重要である。また、学習の時に学んでないテキスト分野やLLMの種類による識別など。 これについての実験の論文。

2024-?-[PUAE]Deep Positive-Unlabeled Anomaly Detection for Contaminated Unlabeled Data

異常検知において、「ほぼ正常だけど少し異常が混ざってるかも」=Uのデータと「異常である」=Pのデータを用いて、PU Leaningのフレームワークで考えられる。 元々、異常検知は正常データを与えて、それを復元できるようなAuto Encoderを訓練することで、異常データならうまく復元できずにAuto Encoderの復元損失が大きいというのを利用して異常を検出する。 それを、新たなフレームワークについて適用した研究。

2024-KDD-[PTLoss]Knowledge Distillation with Perturbed Loss: From a Vanilla Teacher to a Proxy Teacher

Knowledge Distillationでは、教師モデルの出力分布にはバイアスがあるかもしれないので、学生モデルが完全に学んでしまうのはある意味よくない。 そこで、KL Divergenceをマクローリン展開して、摂動を加えるということを考える。このフレームワークによる表現力は非常に高い。 摂動自体はbrute forceで選ぶらしいが、指針となるものは数学で導いた誤差上界とする。 具体的には、手を加えたKL Divergenceを計算して、それに該当するKL Divergenceを得るような代理教師の分布がなんなのかを計算して、それで誤差上界の計算を実現する。

2024-CVPR-MLP Can Be A Good Transformer Learner

VisionTransformerはAttentionメカニズムを利用してるが、最初の数個のAttention Blockは情報理論的にみると、情報量が少ない。ならば、「最初に数個とかではなく、消してよさげなAttention Blockを見つけておけば、推論時にそのBlockを消すことで、モデルの軽量化できるよね?」というのを考え付いた。

2023-ICML-A Universal Unbiased Method for Classification from Aggregate Observations

様々なAggregate Observationの手法に対して、不偏のRisk Functionを提案した。これの訓練をするためには、ある比率を求める必要がある。 その比率はEMアルゴリズムで別の目標値を訓練するうちに副次的に求まる。 あとは様々なAggregate Observationに対してフレームワークを統合させて、答えを出した。

2024-ICLR-Multiscale Positive-Unlabeled Detection of AI-Generated Texts

LLM生成の文章かどうかの識別は短文においては非常に難しい。 そもそも短文は人間もLLM生成の文章も似ているので、いっそのことUnlabeldとして認識して、nnPUの枠組みを導入する。 この時、「class priorにあたる値は、文章の長さにのみ依存する」という前提のもので(ハイパラをいじりながら)実験した結果、先行研究を上回った。

Lie代数まとめ