Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning.

Yihong Tang Ao Qu Zhaokai Wang Dingyi Zhuang Zhaofeng Wu Wei Ma Shenhao Wang Yunhan Zheng Zhan Zhao Jinhua Zhao 0001 Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning. 2024 abs/2410.16162 CoRR https://doi.org/10.48550/arXiv.2410.16162 db/journals/corr/corr2410.html#abs-2410-16162 streams/journals/corr