长程自主智能体：一个新物种的诞生

Monolith砺思资本·2026年3月5日·59·0

将军稀缺了，士兵免费了

2月5号，我们写了一篇使用OpenClaw的心得，称这是"Agent的寒武纪时代"。春节前后短短几周，新的演进剧烈程度超出了想象，让我们觉得值得停下来，做一次更系统性的思考和记录。

目录：

一、72小时，6万颗星

二、从30秒到30分钟

三、中本聪时刻？

四、谁的利润会蒸发？

五、门槛归零之后

一、72小时，6万颗星

这一个月里，我们的使用体验是，OpenClaw不是一个聊天机器人，不是一个代码补全工具，也不是任何我们在过去三年里已经见惯的AI产品形态。

它是一个完全被授权的数字代理人——它读你的邮件，管理你的日历，在终端里执行代码，在Slack和Discord里替你沟通。它不是在辅助你。它在替你行动。

2月份，OpenCLaw在GitHub上72小时内获得了6万颗星，它消耗了OpenRouter平台上13%的全部token流量，几乎和 OpenClaw同时发布的Kimi K2.5则是用量最大的模型。

这不仅是一个标志性事件，更是一个新时代的开启信号。它标志着AI正在从"对话者"变成"执行者"，从回答问题变成完成工作。而承载这个转变的技术范式，叫做长程智能体（Long-Horizon Agent）。

二、从30秒到30分钟

总共不到三年半的时间——从ChatGPT发布到今天，AI从只能回答问题，到长期执行任务、跨系统运行，逐渐演变出"数字员工"的雏形。

METR一直在追踪AI完成长时间任务的能力数据显示，AI能够自主完成的任务时长每7个月翻一倍。按照这个速度，到2028年，AI应该能可靠地完成需要人类专家一整天的工作。

最近，Andrej Karpathy在twitter上分享了自己搭建家用监控摄像头服务的经历——他用纯文字向一个AI agent描述了一个任务：登录本地服务器、配置SSH密钥、下载视觉模型、搭建家庭安防摄像头的视频分析仪表盘、设置系统服务、写一份markdown报告。

这个Agent跑了大约30分钟，中间遇到多个错误，自己上网查解决方案，逐一修复，写代码，测试，部署，最后交回一份完整报告，他本人全程没有碰任何东西。

Karpathy因此说到，"三个月前这可能是一个周末项目。今天你启动它，然后去泡杯咖啡，30分钟后回来就做完了。"

然后，在他的推特下面有一个更有趣的评论"你在30分钟内复制了一个获得1700万美元融资的创业项目"。

Karpathy推特下的评论

点进这个项目的官网，确实如此，和Karpathy做的事情功能高度类似。

该项目的官网介绍

三个月前是一个周末，今天是30分钟，一年后会怎么样？

三、中本聪时刻？

在这次演进中，一个可能容易被忽略的事实是：让长程智能体真正work的，不仅需要更好的模型，也需要更好的系统工程。

Heartbeat（心跳机制）、progress file（进度文件）、checkpoint（检查点）、context compaction（上下文压缩）——这些都不是什么前沿AI研究的产物。它们是分布式系统和软件工程里用了几十年的老技术。但以正确的方式组合在一起，套在LLM外面，就让agent从"跑30秒"变成了"跑30分钟"甚至更长。

这让我们想到中本聪与比特币。比特币的所有组件——哈希函数、P2P 网络、非对称加密——在 2008 年都不是新发明。但中本聪找到了一种组合方式，构成了一个全新的物种。

OpenClaw的创始人Peter也没有发明新技术。它的核心是五个各司其职的组件：Gateway、Brain、Memory、Skills和Heartbeat。每一个单独拿出来都谈不上复杂——Memory的载体甚至只是些Markdown文件，按天追加写入，会话开始时加载前两天的日志。

OpenClaw的架构设计

项目爆火之后，很多工程师的第一反应是："这我也能写。"

但新物种就是这样诞生的。零件早就摆在那里，所有人都看得见，但只有一个人找到了把它们组合在一起的方式——让agent能主动醒来、跨会话记住你、通过你已经在用的聊天软件替你行动。这个组合本身就是发明。

模型的Harness（脚手架/外壳）变得无比重要。Anthropic的工程团队在最近的博客中坦承：即使Claude有上下文管理能力，理论上可以让agent无限期工作，但实际上光靠模型本身远远不够。他们发现agent会试图一次做太多导致上下文耗尽，或者在看到部分进展后就宣布任务完成。解决方案不是等一个更强的模型——而是设计一个更好的"脚手架"（harness）：用initializer agent做环境搭建，用coding agent做增量推进，用progress file做跨会话的状态传递。

不知道你是否接受这个前提——如果地球上的科技进步突然停摆，即使模型冻结在当前水平，光靠工程层的组合创新，也能释放出巨大的新能力。

那它意味着：

第一，应用层的创业窗口比大多数人以为的更大、更紧迫。你不需要等GPT-6。

第二，这种组合创新的护城河是隐性的。 不像模型参数量那样可以被公开benchmark比较，一个好的harness的优势藏在几百个工程细节里。这些东西只能在真实场景里磨出来，很难被快速复制。

四、谁的利润会蒸发？

一个崭新的未来在等待我们。

每个人都能感受到，现代商业中存在大量摩擦溢价的利润空间。订阅制自动续费、捆绑套餐、保险默认续保、中介佣金........

长程自主智能体正在系统性地拆除这个前提。很快，一个不知疲倦的agent可以24小时帮你比价、在最佳时机切换供应商、取消你不再使用的订阅、在你不知道的情况下帮你省下大笔开支。当每个消费者背后都站着一个永远在线的优化引擎时，所有靠原有模式赚钱的公司都会面临结构性压力。

未来的app可能会变得非常少，也不需要那么多。聚合平台、搜索引擎和信息流广告、订阅制SaaS……我们熟悉的很多商业形态都将被重塑。

令人兴奋的是，当agent能像人一样完成工作时，一个自然的问题是：会不会出现一个"雇佣agent"的市场？

这个Marketplace也许不是一个统一的"agent商店"，而更可能分散在各个垂直领域中：一个专门做保险理赔的agent平台，一个专门做法律尽调的agent平台，一个专门做财务核对的agent平台。每个平台上的agent经过了该领域真实数据的训练和校准，其准确性和可靠性远超通用模型。

谁能在一个高价值垂直领域里，最先积累起足够深的执行轨迹数据，谁就拥有了别人无法复制的壁垒。 模型可以被替换，prompt可以被复制，但几万次真实业务执行中磨出来的corner cases和最佳实践路径——这些是私有的、独占的、越用越深的。

五、门槛归零之后

对创业者来说，这同时是最好的消息和最残酷的消息。

最好的消息是：创业的资本门槛在急剧下降。 以前你需要先融资才能雇团队——工程师、设计师、市场——然后才能做出MVP。现在你可能用几百美元的API成本、一个周末的时间就能做出来。

最残酷的消息是：既然你能这么做，所有人都能。 当进入门槛无限趋近于零时，竞争密度会爆炸性增长。一千个人可以在同一周内做出功能相似的产品。

差异化不再来自"能不能做出来"，而来自对问题的理解有多深。

时间窗口也在被压缩，在长程agent时代，从idea到产品的周期从月缩短到天。先发优势变得更重要，但也更短暂。

以及，对整个社会结构的挑战，是一个更深层的问题。

在过去，一个普通白领可能每天要处理300个决策。但这其中90%其实是伪决策：这封邮件是现在回还是待会回、会议纪要发在群里还是单独发给老板，这些选择消耗了真实的时间和注意力，却几乎不产生任何真实的价值，但伪造了我们的忙碌感与职业身份感。

长程自主智能体的出现，本质上是一台决策压缩机。它把300个平庸的执行项，压缩成了3个核心的判断题。当那297个消耗注意力的杂事消失后，一个赤裸的问题浮出水面：当不再忙于奔跑，你还具备辨别方向的能力吗？

Andrej Karpathy 将这种幸存的能力称为Taste。在执行力几近免费的时代，将军稀缺了，士兵免费了——对行业深度的理解、对好坏定义的直觉、以及在 Agent 跑偏时勒住缰绳的果敢，成了唯一被杠杆放大的资产。平庸的执行将被清零，深邃的认知将翻十倍。

而且，这场筛选不会预先通知，也不会等所有人准备好。

写在最后

作为一家科技投资机构，我们写这篇文章不是为了预测未来，而是想记录一个我们亲眼目睹的结构性变化的起点。

在快速变化中，没有人能确定最终的赢家是谁。移动互联网初期，我们或许能从LBS模式推演出滴滴和美团，但没有人能预见到抖音——那是创业者的天才创造。

对于长程自主智能体，我们现在能看见的变化已经很惊人，但新物种不是被预测出来的，它们只能被创造。我们能推演到的部分，显然只是冰山露出水面的那一角。

我们期待创造出未来的你，也许正在读这篇文章。

欢迎所有在这个领域的创业者随时和MONOLITH交流，以及参加下一期MonoX「参与新物种——长程自主智能体」的线下活动。