云启 AI 测评 | 我们在 OpenClaw 的“坑”里,看到了 AI 落地的 Gap

云启资本·2026年2月12日

马力全开·云启年货集 vol.03

最近 OpenClaw 在 AI 圈的热度不用多说,大家都在尝试,都在讨论。

作为一家深耕 AI 的科技 VC,**我们常说的一句话是:"不仅要投,更要用。"**有了 OpenClaw 这一款看似高度契合"自动化工作流"期待的工具,我们当然也要试试。

「马力全开·云启年货集」第三次"开箱",和你分享我们从 OpenClaw 一线带回的**(稍微有点"疼"的)实测体验。新的一年,我们也将持续在**「云启测评」分享云启的 AI 工具体验观察。

第一阶段:

和 OpenClaw

磕磕绊绊的一整天

第一个测试场景是:前沿科技领域的垂直新闻自动化推送。 也就是让 OpenClaw 来跑新闻收集+分类+飞书推送。

流程听起来不复杂:从数据库抓取全球动态→按照算法、硬件、投融资等 9 个维度精准分类→排版成清晰的飞书卡片。

但在实测中,OpenClaw 在理解这种垂直业务逻辑时显得有些"磕磕绊绊"。从连接数据库、分析字段结构、按指定逻辑分类、调用模型生成 summary、拼接飞书卡片样式、推送测试,每一步都需要纠正。

经过近百轮的 prompt 纠偏,耗时将近一天,它终于吐出了那张满意的卡片。

但随后我们遇到了一个很头疼的问题:成果无法有效沉淀。

当你再次要求它发送,希望它能像"老员工"一样每天自动干活时,之前设定的 NLP 处理逻辑、消息卡片样式全部"归零"——不是样式乱了就是分类偏了。

这让我们意识到:现阶段,单纯靠 Prompt 让 OpenClaw 完成一个垂直领域、含定制逻辑的任务(收集、处理、飞书推送),如果不沉淀下来,是非常不稳定的。

换个思路:

引入 Claude "梦幻联动"

既然 OpenClaw 的原生工作流还在进中,我们转而尝试了一种"曲线救国"的方案:引入 Claude Code 辅助。

同样的前沿科技新闻推送需求,我们把复杂的数据库逻辑和分类标准丢给了 Claude Code。令人惊喜的是,Claude Code 用一个多小时就完成了代码编写到测试的全流程。它的优势很明显,生成的是代码,而不是一段偶然成立的动作流程。而代码天然可以沉淀、重构、复用。

我们随后又做了一个关键动作: 把这段稳健的代码封装成一个 Skill,部署到 OpenClaw 所在的服务器上。

反转出现了:当 OpenClaw 作为"智能管道"去调用这段专业脚本时,它表现得十分自然、稳定。这意味着,现阶段面对高度自定义的任务,将逻辑代码化,再交给 OpenClaw 进行分发和调度,或许才是更务实的路径。

OpenClaw & Claude Code 合作中 @云启 office

此外,我们也尝试了将 open code的 skill配置在openclaw上,明确要求openclaw通过代码形式完成一个 skill的开发,也顺利完成任务。

所以关键不是用什么工具,而是用什么思路去要求AI做事情。

一点更有意思的实验:

Skills 时代的"捞针"

在大模型评测里,有一个经典测试叫"大海捞针"。

我们也做了一个类似的实验,给 OpenClaw 加了一个"对暗号"的 skill,想看看它在海量技能中能否精准检索。

结果显示,它并不能丝滑地直接反馈,往往需要更明确的提示词引导。看来,Agent 的意图识别与技能检索的深度耦合,仍有很大的进步空间。

结语:

拥抱暂时的"小 Bug"

这次实测,验证了从"能用"到"好用"确实还有不小的 Gap。同时,我们也对 AI落地有了更务实的理解,和大家交流:

1. 代码依然是"硬通货"。现阶段,大量自定义逻辑的任务如果追求 100% 的稳定性,最佳路径依然是将任务"代码化"。Claude Code 负责创造资源,OpenClaw 负责智能分发,这种"双 open"模式可能是当下的优解。

2.别把"自动驾驶"神化。很多时候不能依靠一句"帮我搜搜进展"就得到精华。AI 只是管道,对业务的数据源精选、精准的分类逻辑、甚至一套符合审美的 Prompt 风格,才是真正的核心资产。

3. 对新事物保持耐心: OpenClaw 作为一个高速迭代的项目,频繁改名和兼容性问题确实会让人"抓狂",但这或许这也正是新事物诞生的常态。

当然,可能是我们自己还用得不够好

所以也想问问万能的朋友圈,大家在部署和使用类似 Agent 工具时,有没有什么独门秘籍或者妙用指南? 欢迎在评论区给我们"支招"。** 一起探索,一起更好!