LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding.

Hongyu Li Jinyu Chen Ziyu Wei Shaofei Huang 0001 Tianrui Hui Jialin Gao Xiaoming Wei Si Liu 0001 LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding. 8592-8603 2025 CVPR https://openaccess.thecvf.com/content/CVPR2025/html/Li_LLaVA-ST_A_Multimodal_Large_Language_Model_for_Fine-Grained_Spatial-Temporal_Understanding_CVPR_2025_paper.html https://doi.org/10.1109/CVPR52734.2025.00803 conf/cvpr/2025 db/conf/cvpr/cvpr2025.html#LiCWHHGWL25