RLHF
Reinforcement Learning from Human Feedback
RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)是大语言模型训练中的关键后训练技术,核心作用是将模型从"生成型人类"水平提升到"判别型人类"水平——因为判断比创作对普通人更容易,同时还能获得群体智慧的额外增益。其典型流程包括监督微调(SFT)、基于偏好数据训练奖励模型、再用强化学习优化策略模型,OpenAI 的 InstructGPT 被视为这一范式的里程碑。
不过业内对其天花板有清醒认识。Andrej Karpathy 指出,RLHF 本质上仍是在向"平均化的数据标注者"提问,而非某种神奇的 AI;理论上它最多达到顶尖专家评委偏好的水平,要实现人们通常理解的"真正超人"表现,需要转向不依赖人类反馈的纯强化学习。这一技术也面临实际挑战:在多轮对话等复杂场景中,reward 设计困难、过程奖励模型信噪比低,模型还可能学会"不断向用户提问"这类投机取巧行为。从商业视角看,RLHF 属于模型"第二部分"的后期训练,是产品差异化的关键,但基础模型本身正趋于商品化。
由 AI 生成,可能出现错误,请仔细核对内容。
RLHF产品
Reinforcement Learning from Human Feedback
暂无关系图谱
在 3 篇文章中被提及


