我基于fastgen(https://github.com/NVlabs/FastGen/tree/main)这个库,复现了你们的代码,并用于qwen image 20B模型上的训练。
我使用wandb可视化一些指标。我发现这些指标挺奇怪的
首先看生图效果。默认使用8步推理
在第一步时,infer了12张图.

第250步时:

到这里还挺正常的,毕竟200多步的训练就能进行8步推理了
但是奇怪的事情发生了,越训图越崩,
第400步,图像的亮度明显变的越来越暗

第500步,暗度继续增加

第750步,已经快看不清图中的内容了

我可视化了4个loss(dm loss, cfg loss, cdm loss, 以及fake loss)的分布情况

stu的 grad norm以及 学习率情况
我不知道为啥会这样,我其实在DMD-v2的训练中也发现过这种越来越暗的情况。 我对蒸馏方向并不算很有经验,想获取你们的建议。
再次感谢。
我基于fastgen(https://github.com/NVlabs/FastGen/tree/main)这个库,复现了你们的代码,并用于qwen image 20B模型上的训练。
我使用wandb可视化一些指标。我发现这些指标挺奇怪的
首先看生图效果。默认使用8步推理

在第一步时,infer了12张图.
第250步时:
但是奇怪的事情发生了,越训图越崩,



第400步,图像的亮度明显变的越来越暗
第500步,暗度继续增加
第750步,已经快看不清图中的内容了
我可视化了4个loss(dm loss, cfg loss, cdm loss, 以及fake loss)的分布情况

stu的 grad norm以及 学习率情况
我不知道为啥会这样,我其实在DMD-v2的训练中也发现过这种越来越暗的情况。 我对蒸馏方向并不算很有经验,想获取你们的建议。
再次感谢。