Bolt荐阅｜如何更有效的做大模型评估 - Evals Are All You Need

线性资本·2024年7月4日·6·0

大模型前时代，机器学习工程师常戏称自己的工作为"炼丹"。当基础的模型训练架构趋于稳定，工程师一半以上的时间都被用在更好的清洗和筛选训练数据。同样基于大模型的应用，提示词工程师（prompt engineer) 工作的重心也围绕着如何高效准确的做产品评估。今天基于Miachel Taylor的一篇关于

评测不仅是底座模型打榜的标尺，更是应用产品落地中不可或缺的环节。

大模型前时代，机器学习工程师常戏称自己的工作为"炼丹"。当基础的模型训练架构趋于稳定，工程师一半以上的时间都被用在更好的清洗和筛选训练数据。同样基于大模型的应用，提示词工程师（prompt engineer) 工作的重心也围绕着如何高效准确的做产品评估。今天基于Miachel Taylor的一篇关于如何给模型打分的文章（点击阅读原文），聊聊在模型训练和应用中的一个重要环节--评估。

🎙️ 为什么评估是一件很难的事情？

AI模型的输出往往具有不确定性，即使在相同的输入下也可能产生不同的结果。因此，建立可靠的评估指标至关重要。 这些指标不仅有助于理解模型在特定任务上的表现，还能在模型更新和优化时提供关键数据支持，从而确保AI模型能够满足业务目标并产生高质量的结果。

主要评估方法

程序化评估（Programmatic Evaluations）：
- 优点：快速且成本低，适用于有明确答案的问题，如比较AI生成的回答与参考答案是否一致。
- 缺点：对于复杂任务表现欠佳，难以处理主观或模糊的标准。

合成评估（Synthetic Evaluations）：
- 优点：利用AI来评估AI生成的答案，成本比人工评估低且速度快。
- 缺点：准确性不如人工评估，且比程序化评估更慢、更贵。
人工评估（Human Evaluations）：
- 优点：准确性高，特别适用于关键任务。
- 缺点：成本高且速度慢，需要投入大量人力。

🎙️ 实施评估的挑战

可靠性： AI模型输出的非确定性使得结果不一致，需要多次测试来评估其稳定性。
供应商选择： 不同的AI供应商提供的模型性能和成本各异，需要权衡选择。
幻觉问题： AI模型有时会生成错误的信息，如何检测和减少这种"幻觉"是一个挑战。

🎙️ 评估的实际应用

优化生成内容： 通过程序化评估检查AI生成的文本长度是否符合要求，或通过合成评估比较不同模型的输出质量。
减少幻觉： 如在广告生成中，通过程序化评估检测是否有新的、不符合产品描述的属性被生成。
提升客户体验： 如在营销邮件生成中，人工评估可以确保邮件内容的准确性和个性化。

Thoughts

对于AI开发者和创业者来说，建立和使用一套完善的评估体系是确保AI模型高效运作的关键。 通过结合程序化、合成和人工评估方法，可以全面提升模型的可靠性和质量。

随着开源模型的日渐成熟，对应用开发者来说，如何通过评测，让基础模型的能力更流畅的与应用场景完美适配，是容易在往前冲的路上被忽视的核心环节。 不仅对如作者这样的提示词工程师如此，对于模型微调和对齐等部分有效的评估也是直接影响用户体验不可或缺的部分。HumanLoop，Vellum等在评估领域布局的初创公司开始先后帮助Duolingo，Redfin等客户更有信心的在百万规模的产品中落地，善用工具和服务也是一个选择，核心还是在于解决了关键问题，高效准确的评估是对C端产品用户提供卓越体验的"最后一公里"。

你无法改进你不知道的东西，Bolt 鼓励每一位AI开发者和创业者，积极探索和应用先进的评估方法和工具，做出贴近用户需求的产品（我的微信：zoey_jingyi）。

Bolt Community

如果你是认同Bolt观点的AI浪潮的探索者，希望和志同道合的小伙伴一起讨论，欢迎通过扫描下面的二维码向我们简单介绍一下你自己，审核过后会邀请加入讨论。

Linear Bolt Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学，专注在技术驱动带来变革的项目，希望帮助创始人找到实现目标的最短路径，不管是行动速度，还是投资方式，Bolt 的承诺是更轻，更快，更灵活。