云启 AI 测评 | 我们在 OpenClaw 的“坑”里，看到了 AI 落地的 Gap

云启资本·2026年2月12日·9·0

马力全开·云启年货集 vol.03

最近 OpenClaw 在 AI 圈的热度不用多说，大家都在尝试，都在讨论。

作为一家深耕 AI 的科技 VC，**我们常说的一句话是："不仅要投，更要用。"**有了 OpenClaw 这一款看似高度契合"自动化工作流"期待的工具，我们当然也要试试。

「马力全开·云启年货集」第三次"开箱"，和你分享我们从 OpenClaw 一线带回的**（稍微有点"疼"的）实测体验。新的一年，我们也将持续在**「云启测评」分享云启的 AI 工具体验观察。

第一阶段：

第一个测试场景是：前沿科技领域的垂直新闻自动化推送。 也就是让 OpenClaw 来跑新闻收集+分类+飞书推送。

流程听起来不复杂：从数据库抓取全球动态→按照算法、硬件、投融资等 9 个维度精准分类→排版成清晰的飞书卡片。

但在实测中，OpenClaw 在理解这种垂直业务逻辑时显得有些"磕磕绊绊"。从连接数据库、分析字段结构、按指定逻辑分类、调用模型生成 summary、拼接飞书卡片样式、推送测试，每一步都需要纠正。

经过近百轮的 prompt 纠偏，耗时将近一天，它终于吐出了那张满意的卡片。

但随后我们遇到了一个很头疼的问题：成果无法有效沉淀。

当你再次要求它发送，希望它能像"老员工"一样每天自动干活时，之前设定的 NLP 处理逻辑、消息卡片样式全部"归零"——不是样式乱了就是分类偏了。

这让我们意识到：现阶段，单纯靠 Prompt 让 OpenClaw 完成一个垂直领域、含定制逻辑的任务（收集、处理、飞书推送），如果不沉淀下来，是非常不稳定的。

既然 OpenClaw 的原生工作流还在进中，我们转而尝试了一种"曲线救国"的方案：引入 Claude Code 辅助。

同样的前沿科技新闻推送需求，我们把复杂的数据库逻辑和分类标准丢给了 Claude Code。令人惊喜的是，Claude Code 用一个多小时就完成了代码编写到测试的全流程。它的优势很明显，生成的是代码，而不是一段偶然成立的动作流程。而代码天然可以沉淀、重构、复用。

我们随后又做了一个关键动作：把这段稳健的代码封装成一个 Skill，部署到 OpenClaw 所在的服务器上。

反转出现了：当 OpenClaw 作为"智能管道"去调用这段专业脚本时，它表现得十分自然、稳定。这意味着，现阶段面对高度自定义的任务，将逻辑代码化，再交给 OpenClaw 进行分发和调度，或许才是更务实的路径。

OpenClaw & Claude Code 合作中 @云启 office

此外，我们也尝试了将 open code的 skill配置在openclaw上，明确要求openclaw通过代码形式完成一个 skill的开发，也顺利完成任务。

所以关键不是用什么工具，而是用什么思路去要求AI做事情。

在大模型评测里，有一个经典测试叫"大海捞针"。

我们也做了一个类似的实验，给 OpenClaw 加了一个"对暗号"的 skill，想看看它在海量技能中能否精准检索。

结果显示，它并不能丝滑地直接反馈，往往需要更明确的提示词引导。看来，Agent 的意图识别与技能检索的深度耦合，仍有很大的进步空间。

这次实测，验证了从"能用"到"好用"确实还有不小的 Gap。同时，我们也对 AI落地有了更务实的理解，和大家交流：

1. 代码依然是"硬通货"。现阶段，大量自定义逻辑的任务如果追求 100% 的稳定性，最佳路径依然是将任务"代码化"。Claude Code 负责创造资源，OpenClaw 负责智能分发，这种"双 open"模式可能是当下的优解。

2.别把"自动驾驶"神化。很多时候不能依靠一句"帮我搜搜进展"就得到精华。AI 只是管道，对业务的数据源精选、精准的分类逻辑、甚至一套符合审美的 Prompt 风格，才是真正的核心资产。

3. 对新事物保持耐心： OpenClaw 作为一个高速迭代的项目，频繁改名和兼容性问题确实会让人"抓狂"，但这或许这也正是新事物诞生的常态。

当然，可能是我们自己还用得不够好

所以也想问问万能的朋友圈，大家在部署和使用类似 Agent 工具时，有没有什么独门秘籍或者妙用指南？ 欢迎在评论区给我们"支招"。** 一起探索，一起更好！