Skip to content

微调支持除FlashAttention之外的方法吗? #1276

@DUTyimmy

Description

@DUTyimmy

如题,

我查了一下transformers库的源代码,发现理论上可以支持多种Attention实现方式

Image

但是当我在qwen-vl-finetune/qwenvl/train/train_qwen.py中使用eager / sdpa时会有如下报错

Image

请问目前Qwen2.5-VL支持其他attention方式吗?

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions