Skip to content

我基于你们的代码训练了Qwen-image,但是我发现训练先变好再变差。我想获得一些debug的帮助 #6

@shoutOutYangJie

Description

@shoutOutYangJie

我基于fastgen(https://github.com/NVlabs/FastGen/tree/main)这个库,复现了你们的代码,并用于qwen image 20B模型上的训练。
我使用wandb可视化一些指标。我发现这些指标挺奇怪的

首先看生图效果。默认使用8步推理
在第一步时,infer了12张图.
Image

第250步时:

Image 到这里还挺正常的,毕竟200多步的训练就能进行8步推理了

但是奇怪的事情发生了,越训图越崩,
第400步,图像的亮度明显变的越来越暗
Image
第500步,暗度继续增加
Image
第750步,已经快看不清图中的内容了
Image

我可视化了4个loss(dm loss, cfg loss, cdm loss, 以及fake loss)的分布情况
Image

stu的 grad norm以及 学习率情况

Image

我不知道为啥会这样,我其实在DMD-v2的训练中也发现过这种越来越暗的情况。 我对蒸馏方向并不算很有经验,想获取你们的建议。
再次感谢。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions