Site cover image

Site icon imageSen(Qian)’s Memo

This website is Donglin Qian (Torin Sen)’s memo, especially about machine learning papers and competitive programming.
Auto Driving

2024-CoRL-DRIVEVLM: The Convergence of Autonomous Driving and Large Vision-Language Models

VLMでの自動運転はVLMに1. 画像から物体を認識, 2. 物体の種類や動きを分析させる, 3. これをもとに自分の動くべき軌道を考える の3ステップ。 しかしすべてVLMに任せると計算コストが高く高頻度で更新できない。なので、計算コストが低い既存の手法を組み合わせる。画像認識については画像から3D物体認識させて、それをCVで今の視覚に投影させるとどうなるかを判定させ、それで信頼できるような物体検出をする。軌跡については、既存手法でVLMの出力軌跡を参考にして高頻度で軌跡を更新させる。

2024-CVPR-Driving Everywhere with Large Language Model Policy Adaptation

LLMから得た運転指針にPrompt Tuningをして、地域ごとに追加で守るべき交通ルールをPromptに追加して再度LLMに運転指針を提供したらうまく行く。