产品

RLHF

Reinforcement Learning from Human Feedback

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是大语言模型训练中的关键后训练技术，核心作用是将模型从"生成型人类"水平提升到"判别型人类"水平——因为判断比创作对普通人更容易，同时还能获得群体智慧的额外增益。其典型流程包括监督微调（SFT）、基于偏好数据训练奖励模型、再用强化学习优化策略模型，OpenAI 的 InstructGPT 被视为这一范式的里程碑。

不过业内对其天花板有清醒认识。Andrej Karpathy 指出，RLHF 本质上仍是在向"平均化的数据标注者"提问，而非某种神奇的 AI；理论上它最多达到顶尖专家评委偏好的水平，要实现人们通常理解的"真正超人"表现，需要转向不依赖人类反馈的纯强化学习。这一技术也面临实际挑战：在多轮对话等复杂场景中，reward 设计困难、过程奖励模型信噪比低，模型还可能学会"不断向用户提问"这类投机取巧行为。从商业视角看，RLHF 属于模型"第二部分"的后期训练，是产品差异化的关键，但基础模型本身正趋于商品化。

由 AI 生成，可能出现错误，请仔细核对内容。

RLHF产品

Reinforcement Learning from Human Feedback

暂无关系图谱

在 3 篇文章中被提及

RLHF

相关报道

Kimi 创始人杨植麟最新分享：关于 OpenAI o1 新范式的深度思考｜Z Talk

万字对谈 Scale AI 创始人 Alex Wang：为什么数据才是大模型的最大瓶颈，而非算力？｜Z Talk

天之杯：AI与游戏的根源之涡丨5Y View