长程自主智能体:一个新物种的诞生
将军稀缺了,士兵免费了


2月5号,我们写了一篇使用OpenClaw的心得,称这是"Agent的寒武纪时代"。春节前后短短几周,新的演进剧烈程度超出了想象,让我们觉得值得停下来,做一次更系统性的思考和记录。
目录:
一、72小时,6万颗星
二、从30秒到30分钟
三、中本聪时刻?
四、谁的利润会蒸发?
五、门槛归零之后

一、72小时,6万颗星
这一个月里,我们的使用体验是,OpenClaw不是一个聊天机器人,不是一个代码补全工具,也不是任何我们在过去三年里已经见惯的AI产品形态。
它是一个完全被授权的数字代理人——它读你的邮件,管理你的日历,在终端里执行代码,在Slack和Discord里替你沟通。它不是在辅助你。它在替你行动。
2月份,OpenCLaw在GitHub上72小时内获得了6万颗星,它消耗了OpenRouter平台上13%的全部token流量,几乎和 OpenClaw同时发布的Kimi K2.5则是用量最大的模型。

这不仅是一个标志性事件,更是一个新时代的开启信号。它标志着AI正在从"对话者"变成"执行者",从回答问题变成完成工作。而承载这个转变的技术范式,叫做长程智能体(Long-Horizon Agent)。
二、从30秒到30分钟
总共不到三年半的时间——从ChatGPT发布到今天,AI从只能回答问题,到长期执行任务、跨系统运行,逐渐演变出"数字员工"的雏形。
METR一直在追踪AI完成长时间任务的能力数据显示,AI能够自主完成的任务时长每7个月翻一倍。按照这个速度,到2028年,AI应该能可靠地完成需要人类专家一整天的工作。
最近,Andrej Karpathy在twitter上分享了自己搭建家用监控摄像头服务的经历——他用纯文字向一个AI agent描述了一个任务:登录本地服务器、配置SSH密钥、下载视觉模型、搭建家庭安防摄像头的视频分析仪表盘、设置系统服务、写一份markdown报告。
这个Agent跑了大约30分钟,中间遇到多个错误,自己上网查解决方案,逐一修复,写代码,测试,部署,最后交回一份完整报告,他本人全程没有碰任何东西。
Karpathy因此说到,"三个月前这可能是一个周末项目。今天你启动它,然后去泡杯咖啡,30分钟后回来就做完了。"
然后,在他的推特下面有一个更有趣的评论"你在30分钟内复制了一个获得1700万美元融资的创业项目"。

Karpathy推特下的评论
点进这个项目的官网,确实如此,和Karpathy做的事情功能高度类似。

该项目的官网介绍
三个月前是一个周末,今天是30分钟,一年后会怎么样?
三、中本聪时刻?
在这次演进中,一个可能容易被忽略的事实是:让长程智能体真正work的,不仅需要更好的模型,也需要更好的系统工程。
Heartbeat(心跳机制)、progress file(进度文件)、checkpoint(检查点)、context compaction(上下文压缩)——这些都不是什么前沿AI研究的产物。它们是分布式系统和软件工程里用了几十年的老技术。但以正确的方式组合在一起,套在LLM外面,就让agent从"跑30秒"变成了"跑30分钟"甚至更长。
这让我们想到中本聪与比特币。比特币的所有组件——哈希函数、P2P 网络、非对称加密——在 2008 年都不是新发明。但中本聪找到了一种组合方式,构成了一个全新的物种。
OpenClaw的创始人Peter也没有发明新技术。它的核心是五个各司其职的组件:Gateway、Brain、Memory、Skills和Heartbeat。每一个单独拿出来都谈不上复杂——Memory的载体甚至只是些Markdown文件,按天追加写入,会话开始时加载前两天的日志。

OpenClaw的架构设计
项目爆火之后,很多工程师的第一反应是:"这我也能写。"
但新物种就是这样诞生的。零件早就摆在那里,所有人都看得见,但只有一个人找到了把它们组合在一起的方式——让agent能主动醒来、跨会话记住你、通过你已经在用的聊天软件替你行动。这个组合本身就是发明。
模型的Harness(脚手架/外壳)变得无比重要。Anthropic的工程团队在最近的博客中坦承:即使Claude有上下文管理能力,理论上可以让agent无限期工作,但实际上光靠模型本身远远不够。他们发现agent会试图一次做太多导致上下文耗尽,或者在看到部分进展后就宣布任务完成。解决方案不是等一个更强的模型——而是设计一个更好的"脚手架"(harness):用initializer agent做环境搭建,用coding agent做增量推进,用progress file做跨会话的状态传递。
不知道你是否接受这个前提——如果地球上的科技进步突然停摆,即使模型冻结在当前水平,光靠工程层的组合创新,也能释放出巨大的新能力。
那它意味着:
第一,应用层的创业窗口比大多数人以为的更大、更紧迫。你不需要等GPT-6。
第二,这种组合创新的护城河是隐性的。 不像模型参数量那样可以被公开benchmark比较,一个好的harness的优势藏在几百个工程细节里。这些东西只能在真实场景里磨出来,很难被快速复制。
四、谁的利润会蒸发?
一个崭新的未来在等待我们。
每个人都能感受到,现代商业中存在大量摩擦溢价的利润空间。订阅制自动续费、捆绑套餐、保险默认续保、中介佣金........
长程自主智能体正在系统性地拆除这个前提。很快,一个不知疲倦的agent可以24小时帮你比价、在最佳时机切换供应商、取消你不再使用的订阅、在你不知道的情况下帮你省下大笔开支。当每个消费者背后都站着一个永远在线的优化引擎时,所有靠原有模式赚钱的公司都会面临结构性压力。
未来的app可能会变得非常少,也不需要那么多。聚合平台、搜索引擎和信息流广告、订阅制SaaS……我们熟悉的很多商业形态都将被重塑。
令人兴奋的是,当agent能像人一样完成工作时,一个自然的问题是:会不会出现一个"雇佣agent"的市场?
这个Marketplace也许不是一个统一的"agent商店",而更可能分散在各个垂直领域中:一个专门做保险理赔的agent平台,一个专门做法律尽调的agent平台,一个专门做财务核对的agent平台。每个平台上的agent经过了该领域真实数据的训练和校准,其准确性和可靠性远超通用模型。
谁能在一个高价值垂直领域里,最先积累起足够深的执行轨迹数据,谁就拥有了别人无法复制的壁垒。 模型可以被替换,prompt可以被复制,但几万次真实业务执行中磨出来的corner cases和最佳实践路径——这些是私有的、独占的、越用越深的。
五、门槛归零之后
对创业者来说,这同时是最好的消息和最残酷的消息。
最好的消息是:创业的资本门槛在急剧下降。 以前你需要先融资才能雇团队——工程师、设计师、市场——然后才能做出MVP。现在你可能用几百美元的API成本、一个周末的时间就能做出来。
最残酷的消息是:既然你能这么做,所有人都能。 当进入门槛无限趋近于零时,竞争密度会爆炸性增长。一千个人可以在同一周内做出功能相似的产品。
差异化不再来自"能不能做出来",而来自对问题的理解有多深。
时间窗口也在被压缩,在长程agent时代,从idea到产品的周期从月缩短到天。先发优势变得更重要,但也更短暂。
以及,对整个社会结构的挑战,是一个更深层的问题。
在过去,一个普通白领可能每天要处理300个决策。但这其中90%其实是伪决策:这封邮件是现在回还是待会回、会议纪要发在群里还是单独发给老板,这些选择消耗了真实的时间和注意力,却几乎不产生任何真实的价值,但伪造了我们的忙碌感与职业身份感。
长程自主智能体的出现,本质上是一台决策压缩机。它把300个平庸的执行项,压缩成了3个核心的判断题。当那297个消耗注意力的杂事消失后,一个赤裸的问题浮出水面:当不再忙于奔跑,你还具备辨别方向的能力吗?
Andrej Karpathy 将这种幸存的能力称为Taste。在执行力几近免费的时代,将军稀缺了,士兵免费了——对行业深度的理解、对好坏定义的直觉、以及在 Agent 跑偏时勒住缰绳的果敢,成了唯一被杠杆放大的资产。平庸的执行将被清零,深邃的认知将翻十倍。
而且,这场筛选不会预先通知,也不会等所有人准备好。
写在最后
作为一家科技投资机构,我们写这篇文章不是为了预测未来,而是想记录一个我们亲眼目睹的结构性变化的起点。
在快速变化中,没有人能确定最终的赢家是谁。移动互联网初期,我们或许能从LBS模式推演出滴滴和美团,但没有人能预见到抖音——那是创业者的天才创造。
对于长程自主智能体,我们现在能看见的变化已经很惊人,但新物种不是被预测出来的,它们只能被创造。我们能推演到的部分,显然只是冰山露出水面的那一角。
我们期待创造出未来的你,也许正在读这篇文章。
欢迎所有在这个领域的创业者随时和MONOLITH交流,以及参加下一期MonoX「参与新物种——长程自主智能体」的线下活动。



