如题, 我查了一下transformers库的源代码,发现理论上可以支持多种Attention实现方式 <img width="511" alt="Image" src="https://github.com/user-attachments/assets/857ef195-cb65-4d0f-9281-0178c6c49c74" /> 但是当我在qwen-vl-finetune/qwenvl/train/train_qwen.py中使用eager / sdpa时会有如下报错 <img width="1239" alt="Image" src="https://github.com/user-attachments/assets/1ccdbd77-be36-4cbf-b70f-20ff1ad98973" /> 请问目前Qwen2.5-VL支持其他attention方式吗?
如题,
我查了一下transformers库的源代码,发现理论上可以支持多种Attention实现方式
但是当我在qwen-vl-finetune/qwenvl/train/train_qwen.py中使用eager / sdpa时会有如下报错
请问目前Qwen2.5-VL支持其他attention方式吗?