Bolt荐阅｜LLM²：AI 的自我进化

线性资本·2024年6月22日·8·0

我们正经历着AI快速发展的时刻，今天所看到的模型能力提升主要来自AI研究人员的大量理论创新以及工程实践。这一过程虽然富有成效，但本质上还是受限于人力。**如果大语言模型本身可以充当AI研究员的角色参与到模型调优与改造当中，我们是否可以想象一个愈加快速发展的人工智能未来呢？**

我们正经历着AI快速发展的时刻，今天所看到的模型能力提升主要来自AI研究人员的大量理论创新以及工程实践。这一过程虽然富有成效，但本质上还是受限于人力。如果大语言模型本身可以充当AI研究员的角色参与到模型调优与改造当中，我们是否可以想象一个愈加快速发展的人工智能未来呢？

今天我分享的文章“Can LLMs invent better ways to train LLMs?” （点击文末阅读原文）来自近期正完成新一轮融资的Sakana AI，**他们使用大语言模型驱动的发现过程来合成一系列未知的Preference Optimization Algorithms（偏好优化算法，是一种大语言模型对齐操作中的常用算法，目标是通过优化损失函数，使模型的输出更符合人类的期望和偏好），其中一种目标函数DiscoPOP在对齐任务上达到了SOTA（State of the art，描述机器学习中特定任务或研究领域中性能最佳的模型或算法的术语）。**Sakana将这种大预言模型自我改进的方式戏称为LLM² ，以表达对先前元学习中基础工作的致敬。

实现逻辑

Sakana制定了一套大语言模型驱动的发现方法，来利用大语言模型产生假设和编写代码的能力，自动化的发现更有效的模型优化手段，这个通用的手段大致分为三步：

通过Prompt的方式给大语言模型提示初始的任务和问题描述，可以选择将实例或者先前的评估结果以及测试性能记录添加到初始提示中；
大语言模型根据上述提示内容，输出一个假设（thought）、一个新的优化方法的名称（name），以及该方法对应的代码实现（code）。然后在一个训练测试循环中运行该代码，并将测试性能数据记录下来；
将测试性能数据更新在第一步的提示语内容中并继续下一步，由此往复。

该实现框架具有一定通用性，作者虽然在本实验中仅选择偏好优化算法的目标函数为优化标的，但原则上可以适用到设计新的模型架构组件甚至预训练优化算法。

Fun Fact

在整个实验中AI并不是随机生成目标函数的调整策略，而是会在几个不同的探索、微调和知识构成步骤之间交替进行，甚至能够将两个概念上不同的目标函数组合成一个新的目标并显著提升了性能，并且这些调整的想法都清楚的记录在了“thought”字段中。

大语言模型找到的最优目标函数DiscoPOP也有一些有意思的性质，首先它不是凸函数（也难怪我们不太会想出来），其次它在其他语言任务上也表现出了良好的性能。

关于这个实验尝试的更多技术细节，感兴趣的小伙伴可以查看Sakana发表的论文“Discovering Preference Optimization Algorithms with and for Large Language Models”.

Bolt Thought

通过AI加速优化AI的想法其实在机器学习时代就有很多尝试，比如对算法超参数的优化。今天因为大语言模型能力的突破，AI能理解和处理的任务更加复杂，可能会使得AI在自我改进这个路线上走的更深更远。一个畅想是：今天的AI Agent还没有触及到模型本身的改造，如果能在模型层面做到任务适应，也许Agent能力会和今天完全不一样。
**DiscoPOP的发现结果某种意义上说明了人类基于专家经验的构造思路存在的局限性，但同时也预示着AI能够帮助我们打开新思路的巨大潜力。**一个直接的想象空间是在AI for Science领域，比如新材料的发现，线性已经在这个方向有所布局，未来也会持续关注该领域。
**未来让AI加速甚至介入到训练AI的过程中也许可能带来新的问题。**Anthropic团队近期的一篇文章“Sycophancy to subterfuge: Investigating reward tampering in language models”中恰好就提到了当研究人员让大语言模型能够拥有修改奖励函数的权限后，就会产生奖励操纵的问题并且难以杜绝。由此延展的AI安全问题如何被解决甚至目前如何被定义都是一个全新的领域，我们期待有更多的探索在这个领域发生。

这是一个美好的时代，我们一边时常惊讶于AI技术的进步，但又仿佛总还有新的变量使这种进步无法放缓，这个变量是AI本身，或许也是《技术的本质》里所描述的技术自我进化的属性，更或许也是创业者们看到未来可能性的强烈渴望，如果你也有这种渴望欢迎和我们聊聊（我的微信：bluesbaiLcz）。

Bolt Community

如果你是认同Bolt观点的AI浪潮的探索者，希望和志同道合的小伙伴一起讨论，欢迎通过扫描下面的二维码向我们简单介绍一下你自己，审核过后会邀请加入讨论。

Linear Bolt Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学，专注在技术驱动带来变革的项目，希望帮助创始人找到实现目标的最短路径，不管是行动速度，还是投资方式，Bolt 的承诺是更轻，更快，更灵活。