首页 > AI资讯 > 最新资讯 > 北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

北大硕士基于DeepSpeed-Chat成功训练RLHF对话模型

新火种    2023-09-01

新火种 8月31日 消息:最近,北大硕士通过DeepSpeed-Chat框架训练了一个RLHF对话模型。他在知乎分享了自己的实践过程,总结了原理,代码以及踩坑与解决方案。

在训练奖励模型时,作者使用Cohere提供的问答数据,构造了2万个优质答案和劣质答案的组合,通过排序任务训练奖励模型给答案打分。在强化学习阶段,作者采用Actor-Critic框架,分别训练策略模型、价值模型、参考模型和奖励模型。学习过程包含生成经验和更新模型两步。

在模型训练过程中,作者分享了一些常见错误和解决方法。主要问题有DeepSpeed引发的生成问题、强制最大长度造成的偏差、Critic loss发散等。他通过关闭引擎、修改最大长度、缩放奖励等方式解决了这些问题。最后作者还尝试了一些trick来提高模型性能,如归一化优势、增加策略熵、缩放奖励等。

通过解决 above 问题,作者最终成功地训练出了自己的RLHF对话模型。本文对RLHF在对话系统中的应用进行了较为系统和详细的介绍,对相关研究具有很好的参考价值。

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章