智能提升的下一步：Agent 是补丁还是未来？｜MonoX

Monolith砺思资本·2025年9月15日·70·0

大模型训练的价值排序正悄悄重写

过去几年，大语言模型的发展重塑了人工智能的叙事。从参数规模的持续扩张，到多模态的探索与 Agent 架构的尝试，这条道路始终在快速演进。

与此同时，行业内部的关注点也在转变：模型的"好坏"该如何衡量？数据反馈机制真的能支撑长期迭代吗？多模态融合是未来方向，还是技术陷阱？Agent 是否正在开启新的智能形态？

这些问题的答案或许并不统一，但它们共同勾勒出大模型发展最核心的不确定性与机会。

近日，Monolith邀请到了多位LLM领域在头部厂商工作的Tech Lead，举办了MonoX最新一期「LLM Tech Lead」的线下活动，共同探讨大语言模型最前沿的技术进展。

我们整理了本次讨论的核心内容，以文章形式呈现，希望对行业读者有所帮助。

MonoX活动持续跟踪LLM最新进展，探讨最前沿技术、工程话题。我们将在9月底再次在海淀举办Tech lead活动，欢迎大家在下方扫码报名加入。

目录：

什么是好模型和好数据
全模态模型困境：1+1+1 < 3
LLM的演进：从模型到Agent
跨越信噪比：LLM如何提高主观问题表现

1. 什么是好模型和好数据

1.1 能"玩起来的模型"才是好的开源模型

要回答这个问题必须先明确我们以什么样的标准衡量"好"。

如果将智能的上限作为追求的目标，那么通用模型仍然是主流方向。所有垂直领域的专项模型，本质上都可以视为通用模型的数据。

但是，通用模型的智能水平与模型产品提供给用户的价值并不等价，因此将通用模型转化为具备用户价值的产品并不容易，包含大量的非技术壁垒和组织研发的挑战。

在打通模型能力和用户之间的最后一公里的路上，永远会存在各种封装。一些为了修正模型输出不足而存在的简单工程补丁当然会随着模型能力提升终将被淘汰。

还有一些封装是复杂的系统性工程，例如将多个模型协同在一起工作的封装，这种封装的价值会随着基础模型能力的增强而愈发凸显。

从技术上看，一个真正有价值的开源模型或许并非只是一味追求极致的模型的效果，最重要的是它能够让社区"玩起来"。

什么是"玩起来"？可以理解为二次开发。一个好的开源模型需要为大家留下足够的改进和研发空间，让研究者们可以基于它进行二次开发。例如，阿里的Qwen系列模型在这一层面来看就是一个"好的"开源模型，它规模跨度大、质量优良但又"并非完美"，反而比Deepseek这种大而全、难以改动的开源模型更能激发社区的活力。

Qwen系列模型

本质上，一个好的开源模型应该是能够给生态的参与者提供一个可以验证自己想法、实现价值的平台。

1.2 "数据飞轮"的失效和重构

在当前AI产品的开发中，"数据飞轮"这个互联网时代的概念被反复讨论。

基本逻辑是产品上线后，通过收集真实用户场景中回流的数据，持续对模型进行后训练（Post-training），从而不断提升产品表现，吸引更多用户，形成正向循环。

然而，在实践中，数据飞轮并非总是有效。

真实的用户数据当然具有合成数据无法比拟的优势。合成数据往往较为单一，而真实用户在复杂场景下提出的问题，其多样性和独特性是难以通过预设逻辑生成的。例如，用户在某个历史景点拍照后，询问模型"我现在在哪？能否识别出这里的历史背景？"这类包含多模态信息和复杂推理需求的真实问题，对模型迭代具有极高的价值。

但这并不意味着所有用户数据都有价值。 大规模、未经筛选的回流数据可能只是噪音。核心挑战在于"挖掘"——能否从海量信息中识别出那些真正能驱动模型改进的有效信号。当数据量达到一定程度（例如来自100个用户的反馈），关键就不再是增加数据量，而是提升数据挖掘的深度和精度。

同时在实践中，从业者们发现，数据飞轮的有效性在不同应用场景中表现出巨大差异。

例如，在情感陪伴、闲聊等开放式交互场景中，构建数据飞轮面临着巨大挑战。

首先是用户反馈的信噪比极低。有团队曾尝试让用户标记回答的"好"与"坏"作为数据反馈，但发现这种反馈非常主观，用户往往只是在表达当下的心情，而非对内容质量的客观评价。这种随机性强的反馈，无法作为模型优化的可靠依据。

其次模型能力限制了数据质量。用户能聊什么、聊多深，很大程度上取决于模型本身的能力。如果模型能力不足，用户可能会很快失去兴趣，从而无法产生有深度、有价值的交互数据。这就形成了一个负向循环：模型能力弱 -> 用户交互浅 -> 回流数据质量差 -> 模型提升慢。

不过在目前创业者的实践中，已经探索出了几种更为有效的数据获取方式：

激励高质量用户： 通过积分等方式，鼓励平台内表达能力强、互动质量高的用户（尤其是女性用户）进行深度聊天，从而撬动内部的高价值数据。
外部采购： 从专业的陪聊公司购买数据。这些数据因为经过了市场验证（用户付费），通常质量较高。
专家标注： 比如在社交和情感陪伴领域，招募一批被称为"海王"的社交高手来标注数据。事实证明，这种由领域专家精心筛选和标注的数据，其效果远胜于海量的普通用户数据。

总而言之，在陪伴这类目标模糊、交互开放的场景中，依赖大规模、自动化的数据回流并不可行。精细化运营和专家驱动的高质量数据标注才是提升模型能力的关键。

与陪伴场景形成鲜明对比的是，在具有明确优化目标的场景下，数据飞轮能够高效运转。

典型的例子是搜索和广告。在GEO的场景中，用户搜索"哪里可以买口香糖"，模型推荐的第一个品牌是否被点击，就是一个非常明确的"结果性信号"，可以被用作数据飞轮促进模型提升。

类似的实践还有，Meta利用AI生成广告文案，并通过用户的点击率、转化率来直接优化模型，取得了显著成效，广告转化率提升了10%之多。

MetaAI广告产品

尽管如此，即使在这种理想场景下，数据飞轮也存在其上限。通过海量数据持续优化，更多的是修正模型对用户数据分布的认知偏差，而不是带来模型能力的根本性突破。当优化达到一定程度后，其边际效益会递减。

综上所述，构建数据飞轮需回归两个核心问题：一、业务是否存在明确的优化目标？二、回流数据的信噪比有多高？对AI产品开发者而言，这个问题上，用互联网时代的旧地图不一定能找到新大陆。

2. 全模态模型困境：1+1+1 < 3

随着大模型技术的发展，能够同时理解和生成文本、图像、语音等多种模态的"All-in-One"模型，正成为业界探索的下一个前沿。

目前业界的前沿聚焦在将多模态数据（如图像、语音）加入到以文本为基础的大模型训练中，是否能提升模型综合能力，尤其是能否对文本这一核心能力带来增益的探索上。

一种乐观的观点觉得，不同模态的信息能够相互补充，从而增强模型的整体认知和生成能力。例如加入5T的多模态数据后，一个文本模型不仅不会降低原有的35T纯文本处理能力，反而应有所提升，也就是"1+1 > 2"。

然而，实践的情况却没那么理想。在当前实践中，将不同模态数据进行混合训练后，模型的整体表现往往不如预期。在现有技术框架下，不同模态之间的信息融合并非无损，反而常常引发包括文本理解和生成能力在内的核心能力下降。

例如，**一位开发者在进行文本与语音的混合训练时，模型的降智现象比想象中严重得多，其核心的文本对话能力下降了约10%。**不过他发现虽然文本能力受损，但模型在语音任务上的统一性和综合表现却得到了显著提升。

为解决这一问题，其中一个备受关注的前沿方向是采用**"纯像素输入（Pixel in）"**的方案，即绕过传统的图像Encoder，将视觉信息更直接地融入模型。目前初步的小规模实验表明这种方法有望提升模型的多模态理解效果。但该实验尚未在更大规模上验证其有效性，特别是其对文本能力的具体影响仍是未知数。

3. LLM的演进：从模型到Agent

3.1 Agent能带来哪些新的PMF？

近一年，随着新模型的出现，模型的能力有了长足的进步。不过显而易见的是，模型的能力提升并非均衡分布在所有领域。

以编程为例，新模型普遍在AI Coding方面的能力显著增强，这直接推动了相关应用的PMF进一步提升。开发者可以更高效地利用AI完成代码生成、调试等任务。然而，在更深层次的后端逻辑理解等领域，新旧模型之间的差异并不显著。

当前模型迭代的趋势更多是在已验证的应用方向上进行深化和优化，而非开辟全新的应用场景。突破产品壁垒、创造新PMF的关键路径可能在哪里？一个越来越明确的答案是：Agent。

在前沿的实践中，多智能体（Multi-Agent）系统被认为是极具潜力的前沿方向。这一构想源于对现实世界复杂性的洞察：许多问题本质上是高度并行的，这与单一智能体或人类通常只有4-5个并行通道的情况存在天然冲突。

**传统的思路可能是让多个Agent共享一个庞大的知识库（Knowledge）和上下文（Context），但这会导致效率低下和Token消耗激增。一种更优的范式，类似论文《Alita: Generalist Agent Enabling Scalable Agentic Reasoning with Minimal Predefinition and Maximal Self-Evolution》**的构想，是让多个智能体在各自任务上并行工作，并通过高效的中间交流机制互通有无，而不是共享一切。

Alita架构构想

这种协同模式可以带来效率与效果的提升，因为通过任务分解和并行处理，系统解决问题的总效率远超单一智能体的串行执行。同时，智能体间的交流可以碰撞出超越个体平均水平的解决方案。并且这种模式足够可持续。

由于每个智能体只需关注自身任务相关的上下文，并进行小范围、高效率的通信，系统的总Token消耗可以得到有效控制。

当这样一个有着复杂任务的规划能力、执行能力，效率、效果大幅度提升并且成本能够被控制的Agent系统出现时，新的PMF也将会涌现出来。

3.2 Agent训练的三大支柱：基座、规模与数据

当一个Agent在执行超过10步的任务时便开始出现困难，我们又应如何将其能力扩展至100步乃至更长？答案仍然在于三个最基础也最关键的支柱上：基座模型的能力、训练的规模化，以及数据的决定性作用。

第一，Agent的能力上限，根本上是由其基座模型决定的。如果在预训练阶段模型本身的能力不足，那么在后续的微调阶段，无论是监督微调（SFT）还是强化学习（RL），都难以实现质的突破。

第二，尽管业界涌现了大量关于Agent训练的算法和策略，但回顾至今的发展历程，最关键的驱动力始终是规模（Scale），而非算法的精巧性。当我们将训练环境（如数据量）扩大10倍时，不同算法之间带来的微小差异可能就变得无足轻重了。

第三，规模的核心是数据，**预训练数据决定了模型的知识边界。**如果一种能力、一个知识点或一种推理模式在预训练数据中从未出现过或出现频率极低，那么在后续阶段，无论如何也很难将其激发出来。如果某个正确行为的模式在模型内部存在的概率低于某个阈值，那么对于训练而言，它就等于不存在。你无法让模型学会一个它完全无法理解的概念。

3.3 如何训练GUI Agent

与依赖结构化API的Agent不同，GUI Agent必须在复杂、动态且充满不确定性的视觉环境中学习。

当前训练GUI Agent的核心瓶颈有两大问题：交互环境的规模化难以实现与分布式系统的固有不稳定性。

从业者们在讨论明确指出，提升GUI Agent能力最关键的动作仍然是规模化（Scale）。这种规模化并非简单地增加数据量，而是体现在三个维度上：

更多（More）：提供海量的交互实例，让模型能够从大量的操作序列中学习。
更广（Wider）：构建极其多样化的交互环境。如果Agent只在少数几个环境中训练，它学会的可能是"破解"特定环境的技巧（Over-hacking），而非通用的操作能力。只有当环境足够丰富，模型才能真正实现泛化。
更快（Faster）：提升环境的运行和反馈效率，以支持更大规模的训练迭代。

最终的目标是，当数据和环境的规模达到某个阈值时，模型的能力会通过量变引发质变，自然地泛化到所有场景，而无需依赖于某个"银弹"式的算法创新。

然而，在通往规模化的道路上，一个理论上无法完美解决的问题始终存在，即环境的稳定性。

当Agent进行在线强化学习时，它需要在成千上万个并行的虚拟机或模拟器中进行实际操作。这本质上是一个庞大的分布式系统，其中的一个虚拟机可能因为网络抖动、瞬时资源不足等原因暂时卡顿，也可能已经彻底崩溃。

从外部看，这两种状态难以区分。为了处理以上情况带来的无响应的虚拟机，我们必须设置一个超时（Timeout）机制。但这个时间的设定极为棘手，如果设置太短（如1小时），可能会误判一个本可恢复的环境为死亡，丢失训练进程。但设置太长（如10小时），则会极大地拖慢训练效率。

这个问题是分布式系统领域的经典难题，因此，训练GUI Agent的过程必须在工程上设计复杂的策略来应对和容忍这种固有的不稳定性。

GUI Agent的真正价值在哪里？一个核心的应用方向是作为"人类模拟器"，**为训练更强大的奖励模型（Reward Model）提供数据。**通过模拟人类在各种GUI环境中的测试、探索和操作，Agent可以产生海量的交互数据。这些数据虽然充满了不确定性，但却能有效地被用来训练一个能够判断"什么是好的交互"、"什么是成功的任务执行"的奖励模型。

4. LLM如何提高主观问题表现

4.1 主观问题评估有多难

当前模型评估最大的挑战在于主观类问题。其核心难点在于评估信号的"信噪比极低"，难以形成统一、稳定的评判标准。

在实践中，有从业者曾经组织30位标注人员对AI在陪伴场景下的回复进行"好"与"坏"两档的简单判断，结果最后呈现五五开的局面，这导致无法判断AI回复的真实质量。这种困境在视频、图片等多模态生成领域被进一步放大。即便模型在视频生成任务中有一个很不错的FID指标，但从人类的感官体验来看，生成的视频可能依然存在抖动的问题。

简而言之，在主观感受上，人类之间都难以达成共识，更遑论为机器定义一个清晰的优化目标。

为了让模型更好地与人类对齐，强化学习，尤其是基于人类反馈的强化学习RLHF被广泛应用。然而，在涉及多轮对话的复杂场景（如情感陪伴）中，RL的应用又存在多轮on-policy的挑战。

具体来说，一个完整的对话Session往往旨在达成一个最终目标，例如提升用户满意度。但这个目标的实现依赖于一个连贯、流畅的多轮交互过程。传统的RL方法可能只优化单轮回复的即时reward，但这远远不够。理想的优化应当贯穿整个对话，从第一轮到最后一轮。然而，要获取这种on-policy的交互数据，需要模型与真实用户进行持续沟通，这种数据的构造难度极大且成本高昂。

目前，一种尝试是直接向线上用户投放模型，观察真实反馈，但这种尝试还尚未形成成熟、可规模化的解决方案。

总的来说，无论是主观评估还是多轮对话，其根本症结都指向了同一个问题——Reward的设计与定义。

在长程对话中，最终的Outcome Reward（如用户是否点赞）信号是稀疏且延迟的。这就像下棋，虽然最后知道赢了，但很难归因于中间哪一步是关键手。**为了解决这个问题，研究者们尝试引入过程奖励模型（Process Reward Model, PRM）**来对中间步骤进行打分。但实践证明，PRM同样很难做得特别准，因为一个中间步骤的价值，往往需要由最终结果来反向决定，正向推导的信噪比很低。

更有趣的是，模型在优化过程中会表现出投机取巧的行为。**例如，在对话中模型可能会发现，不断向用户提问是一种最简单、最不容易犯错的交互方式，于是倾向于频繁使用。**这种行为虽然可能在某些局部指标上表现不错，却违背了提供实质性帮助或进行有意义交流的初衷。

4.2 解决方法：寻找高信噪比的"代理信号"

面对上述定义模糊、信噪比极低的困境，前沿探索不再纠结于"正面定义"，而是转向寻找一个可量化、高信噪比的代理信号（Proxy Signal），并通过优化这个信号来间接解决问题。

其核心方法论是：放弃从第一性原理出发去定义问题，转而从期望的结果中寻找可学习的范本或可优化的指标。

场景一：解决模型"情商"问题

例如，与逻辑推理或知识问答不同，"情商"这类概念的共同点是缺乏强共识，我们无法像评判一道数学题那样，为"好的情感互动"或"有价值的回答"建立一个客观、统一的评估标准。

在情感陪伴场景中，从业者在讨论中指出，经过特殊优化的自研模型，其用户平均对话轮次可以达到通用大模型（如豆包）的两倍。这说明模型的文本能力，例如"文笔好"或"知识渊博"，并不完全等同于高情商，用户追求的是一种难以量化的情感共鸣。有一些其他的东西。

怎么找到这个东西？**在该场景中，寻找"代理信号"意味着不再去问"什么是高情商"，而是去寻找"谁是高情商的人"。**通过数据分析筛选出平台内那些极具聊天吸引力的用户，将这些已被市场验证的"高质量沟通者"的对话数据作为核心语料进行微调。

场景二：解决模型是否开启推理模式

当我们与AI交互时，有时希望答案简洁明了，有时又期待它展现详尽的思维链（CoT）。AI应如何动态切换模式，以平衡用户体验与计算成本？

一个基本准则是，是否启用长思维链，应取决于它是否能为用户带来切实的价值增益。如果一个简短的回答已经能充分满足用户的需求，那么调用更耗费计算资源的深度思考模式则是一种不必要的浪费。

这个问题本质上是"情商"难题在另一个维度的投射。因为"价值"同样是主观的：有时用户开启思维链并非为了审视逻辑，仅仅是"喜欢看它思考的样子"，这便从逻辑需求转向了情感体验。因此，预设规则很难奏效。

在这里，我们再次看到了"代理信号"方法论的应用，但形式更为抽象和数学化。

有从业者探索出了一种解决方案：将一个模糊的"用户意图分类"问题，转化为一个清晰的、可量化的数学优化目标。

具体而言，可以构建一个"成本-效益"评估坐标系：

· 横轴（X轴）： 代表Token数量，即计算成本。

· 纵轴（Y轴）： 代表回答的效果分数（Performance Score）。

任何一次AI的回答，都是这个坐标系中的一个点。最终的优化目标，是让模型学会在所有情况下，做出能最大化这条"成本-效益"曲线下方动态面积的决策。

5. 总结

总结下来，我们相信，无论是Agent 体系、多模态交互、奖励模型的优化，这些探索最终都指向一个共同目标：让人工智能能够与人类社会深度耦合，而不是停留在工具的角色。

当模型具备解释力、能自我纠错、能与环境长期互动时，它将不只是回答问题，而是真正参与到决策与创造中，那可能将是近期智能演进的一个拐点，也是最值得期待的方向。