Skip to content

v1.5.0

Compare
Choose a tag to compare
@shibing624 shibing624 released this 27 Aug 16:05
· 278 commits to main since this release
391a2af

v1.5版本

新增DPO(直接偏好优化)方法,DPO通过直接优化语言模型来实现对其行为的精确控制,而无需使用复杂的强化学习,也可以有效学习到人类偏好,DPO相较于RLHF更容易实现且易于训练,效果更好。

提供完整PT+SFT+DPO全阶段串起来训练的pipeline:run_training_dpo_pipeline.ipynb ,其对应的colab: Open In Colab,运行完大概需要15分钟,我运行成功后的副本colab:Open In Colab

What's Changed

New Contributors

Full Changelog: 1.4.0...1.5.0