微调支持除FlashAttention之外的方法吗？

如题，

我查了一下transformers库的源代码，发现理论上可以支持多种Attention实现方式

<img width="511" alt="Image" src="https://github.com/user-attachments/assets/857ef195-cb65-4d0f-9281-0178c6c49c74" />

但是当我在qwen-vl-finetune/qwenvl/train/train_qwen.py中使用eager / sdpa时会有如下报错

<img width="1239" alt="Image" src="https://github.com/user-attachments/assets/1ccdbd77-be36-4cbf-b70f-20ff1ad98973" />

请问目前Qwen2.5-VL支持其他attention方式吗？