KernelCAT 林志航:做能真正掌控你电脑的智能

真格基金·2026年3月22日

让 AI 一往无前地跑,不再被人类的交互框架束缚。

OpenClaw 爆火的第二天,我们坐在了智子芯元的办公室里,听联合创始人林志航分享他们的新产品 KernelCAT。

KernelCAT 是一款本地运行的 AI Agent。

在林志航看来,今天很多 AI 产品的交互方式仍然是为人类设计的。GUI、按钮、菜单,这些都是为了让人更容易操作计算机而发明的。但计算机诞生之初并没有这些界面,只有 terminal。在那个世界里,人们通过一行行指令直接与机器对话。

「当一个系统已经可以完全由 terminal 控制,」他说,「为什么还要再给它做 GUI?」

KernelCAT 的起点正来自这种想法:不是把 AI 嵌入一个产品,而是让它成为能够掌控电脑的智能体。

当材料只存在于你的电脑里,当文件、代码和环境都只在本地存在时,再强大的模型也无法真正理解你的世界。只有在这台机器上运行的智能,才能进入这个上下文。

于是 KernelCAT 试图做一件更极端的事:让 AI 直接操作电脑。

很多顶级程序员至今仍然在 terminal 里工作,因为那里更直接、更接近计算机本身。林志航觉得,AI 也应该拥有属于自己的工作方式。

智子芯元一直在用 AI 做计算加速。在来上海见真格之前的飞机上,林志航正在读《人类群星闪耀时》。书里写到斯科特远征南极,他离开温暖的家和刚出生的孩子,向地球最后的未知之地进发。

他们做了周密计划,却仍被风暴、严寒和无尽的冬夜拖垮。斯科特最终抵达南极点,却发现那里早已插上他人的旗帜。返程途中,体力耗尽,世界只剩白茫茫一片。

他没有抱怨,只在遗书里给妻子写道:「关于这次远征的一切,该怎么和你说呢?」

它不知比坐在舒适的家里要好多少。

同一天,林志航在自己的备忘录里写下:「我们的目标是人类无法触及的算子。」

或许这一路会日夜难安,也许在尽头会看到他人先一步插下的旗帜,但这场探险本身的每一刻都弥足珍贵。

继续向未知之地挺进。

KernelCAT

Q:设计 KernelCAT 的灵感从何而来?

林志航: KernelCAT 被设计之初是为了做计算加速,在这个过程中我们主要在赋予 AI 一些运筹优化的能力。我们设计时发现,这些能力如果真正释放出来,在其它领域也会有巨大潜力。

很多特性的增加不是凭空想出来的,而是跟着用户真实的使用需求去演进。就像我写代码的时候,常常同时改三个不同位置的代码,它们各自承担不同任务。那对应的就是我给 KernelCAT 一个特性「同时在多个 workspace 工作的能力」。

很多时候我们是先观察自己。毕竟我们自己既是开发者,也是第一批重度用户。 我们会反思自己的使用方式,把它们逐渐体系化。慢慢地,KernelCAT 一个很核心的目标是想看看非技术同事会怎么用这个产品。

Q:有用出来什么好玩的 case?

林志航: 我意外发现大家对整理文件夹的需求特别强烈。

我一直很相信 AI 的底层能力。如果一个 AI 产品的第一步是让你先选择一个工作区,本质上是在假设:你已经提前准备好了一个文件夹,里面放齐了所有任务材料,然后再让 AI 开始执行。可现实是,如果我真有这么一个文件夹,我的工作大概率已经没有那么痛苦了。

就像我这周出差报销发票。如果我已经把飞书、邮件、微信里所有发票都整理进一个文件夹,那后面的事情也不需要 AI 了。

这有点像做饭。最累的是前期备菜,可能要花三小时,真正下锅只有一小时。AI 要解决的恰恰是那三小时。

KernelCAT 有个我们之前没预料到的能力:它能处理那些命名混乱、格式杂乱的发票。理论上,如果所有发票都用清晰的自然语言命名,当然容易。但现实往往是一串随机数字。但 KernelCAT 会自动获取你电脑里的材料作为参考,各种格式都能处理。

Q:设计 KernelCAT 有什么不一样的视角?

林志航: AI 和人类的结合要到什么程度?

10% 是结合,100% 也是结合。在计算加速这条线上,很多人都在做类似的事。不同之处在于,我们可能更极端。我们想走到 90% 以上。

我们和华为官方一起发布过一个成果,适配的模型是 DeepSeek OCR 2。我们用了 38 分钟,把它从一台机器适配到另一台。全过程我们只输入了一句话:「把这个项目适配到这台机器上。」

然后按回车。

接下来就是等待。

每一个团队都在不同切面上做自动化。我们设计时更愿意考虑「如何把控制权完全交出去」。

在我组建新团队的时候,对这种信仰的要求变高了。三年前找「相信 AI 的人」很难,现在找到声称「相信 AI 的人」变简单了,但找到「真正相信 AI 」的人依然很难。就像让你不系安全带,上一个从没坐过的司机的车,然后完全相信他。大概就是这种难度。

AI 带来的生产方式变化太大,大到我们这种自认很懂 AI 的人也会跟不上。很多产品会说「每一行代码都是 AI 写的」。我们会更极端——KernelCAT 第一版是 AI 设计的,UI 也几乎由 AI 完成。

Q:这个发现是在意料之外?

林志航: 更准确地说是情况之外。

我们昨天在讨论 KernelCAT 下一次迭代。有同事提出一个问题:有些命令执行本来就需要超过 10 分钟,但我们现在给 AI 的单次执行时间上限是 10 分钟,会超时,该怎么办?

如果是传统产品思维,我大概会延长超时时间。但在 AI 时代,我们完全换了一种方式。

我们给了它两个能力:第一,创建后台任务的权限;第二,读取后台任务输出的权限。

假设是一个下载任务。人类如果等了 10 分钟没进度,可能就会中断它。如果只是简单把超时时间延长到 30 分钟,问题仍然存在。相反,如果把它放到后台,让它周期性读取进度,每 3 分钟检查一次,如果连续几次没有变化,它会主动终止;如果已经下载 80%,即使超过 30 分钟,它也会判断值得继续。

我们解决「时间不够长」这个问题的方法和时间本身无关。我们只是给了两个能力,它自然就解决了。

今天下午我们还在讨论并发探索。它可以在后台同时开启三个任务,通过读取三路输出实现并发。我们的逻辑一直很简单:给它足够 native 的能力,它通常能做得比我们预期更好。

我们很少限制 AI 的行为。我们更倾向于在可控边界内给予它充分权限。它会努力做得更好。

我是 AI 降临派。诺亦腾创始人戴若犁博士曾发过一条朋友圈:「如果有一天 AI 统治人类,在万人坑上,最上面、坐北朝南晒得到太阳的,一定是我们这些曾为 AI 做过贡献的人。」

一个激进的降临派

Q:为什么会是降临派?

林志航: 我是一个坚定认为 AI 会比人类更聪明的人。

我的编程能力不算差,现在如果我说 AI 编程已经比我强,大家也不会意外。一年前我就这么说过。那时候人类和 AI 像我们在比赛跑步——如果它跑得更快,我们就开始强调别的能力,比如规划路线、决策策略,把比赛规则往体力之外的方向去定义。

可这不代表人类更聪明。只是因为现有的工作环境是为人类设计的。

很多时候,人类之所以看起来更强,是因为被放在了一个更适合自己的环境里。 环境是人类设计的,工具是人类设计的,流程也是人类设计的。如果在这样的环境下你觉得 AI 不够好,那不能说明你更聪明。

换个环境就未必了。就像如果把我们丢进一个完全为盲人设计的世界,我们未必生活得比 AI 好。

我甚至觉得,现在很多工程软件和系统效率低下的问题,本质上都源于人类不够聪明,包括我自己。我常常会因为自己的愚蠢而感到疲惫,但 AI 不会。

Q:在什么瞬间会有这种想法?

林志航: 写代码的时候经常有。

如果某一天,全世界所有车瞬间都变成 AI 自动驾驶,人类完全不用参与,你信吗?

如果真的能一次性全部替换成自动驾驶,而且已经是 L4、L5 级别,我相信是够用的。现在自动驾驶要处理很多复杂场景是因为它在和人类一起开车。它需要预测人类的错误、防御人类的犹豫、对冲人类的不稳定。如果是一个纯 AI 的系统,规则会简单很多。

我的第一份工作在好未来。那一年我拿了集团唯一一个最高绩效。因为我做了一个新的技术框架。在很多大公司里,晋升往往依赖搭建新的规则。于是这个世界上就有了很多奇怪的框架。

我受益过,但我不喜欢这种体系。

就像 FPGA,它本质上是用软件去定义硬件,理论上可以变成任何结构,非常酷。可它一直卖得不好,其中一个原因是,人类写不出足够好的代码。如果没有足够好的编程语言帮助我们,它就像给你一张复杂到看不懂的地图。

F1 是最快的车,但它难开。如果未来自动驾驶已经可以把 F1 开好,那这个世界为什么还需要家用车?现在车的形状本质上是为了保护人类的不稳定。很多科幻电影里的车不是为了让人安心设计的。未来,也许满街都是 F1 型的机器。

Q:所以你希望打造更适合 AI 的工作环境。

林志航: 对,这几乎是我们唯一重要的事情,其它都只是边角。我们在做的是运筹优化。更准确一点,是为 AI 创造一个更原生的工作环境。

Q:这 7 个月为什么决定换成这种形态?

林志航: 我们一直在用 AI 做计算加速,我们希望硬件能不受软件约束,设计更第一性,软件都由 AI 来写。就像车,如果不考虑人类驾驶,轮子的设计、转向机制,都可以完全不一样。现在很多设计本质是为人类能力做妥协。

Q:你怎么判断什么是有价值的?

林志航: 看人类是否需要它,以及需要到什么程度。

在我看来,价值分两种:优化性的价值和颠覆性的价值。

不要做锦上添花的东西,也不要做太颠覆的事。要像左晖做链家那样,他第一天就想做大平台,但做不起来,于是先在线下打透,再回来构建平台。

我们做计算加速也是一样。问题在于,使用芯片的人不够聪明,包括我在内。我们写不出足够好的代码,所以芯片能力没有被释放。也不是我们做错了什么,是智力就摆在这了。

我们在想,如果用 AI 替代我们去写计算加速的软件呢?

我相信那会是完全不同的一种光景。

如果豆包开源了,你会做什么?

Q:面试时会怎样保证技术价值观一致?

林志航: 第一个问题是:假设明天豆包开源,你可以做任何事情,你会让它做什么?

这里可以替换成任何一个当前主流 AI 的名字。如果回答只是「再做一个类似产品」,那太没意思了。我还没听到让我特别满意的答案。

第二个环节是技术验证。我们做算法加速,会给面试者一个题目,让他用我们的工具写一个算子。前后端都一样,技术岗都要写。我们会看他的操作 history。

第一层看能力。第二层我们问:你觉得我们的产品怎么样?有今天的智能程度,人类还能为 AI 做什么?

最后一个问题:你认为最强的 AI 是什么?

Q:如果豆包真的开源,你会做什么?

林志航: 我发现我现在已经答不好这个问题了。因为我心中的答案已经在做了。

Q:为什么把自己定义为极端?

林志航: 「支持不绝对,就是绝对不支持。」

我觉得这句话放在这里也成立。你要做伟大的事情,如果不极端坚定,大概率做不成。当然,极端的想法不等于极端的行为。

就像之前教我们的俄罗斯合伙人打麻将,他是 IMO 金牌得主,特别会算,一整晚几乎每次都是第一个胡。但他从来不胡大牌,最大的也就是门清自摸。

我问他为什么不冲更大的牌?他说那些玩法收益波动太大,竞争激烈。他的策略是:通过放弃极端选项,降低计算复杂度,保证自己稳态最优。

我恰恰相反。我是放弃那些平衡、稳妥、看起来合理的选择,把空间压缩到极端路径上。

他的 action space 是通过「减法」变简单。我的 action space 是通过「砍掉中间状态」变纯粹。

想要做一个伟大的事业,你如果内心不够坚决,很难走到最后。

产品背后是一只控制它的小猫咪

Q:产品今天的形态有受哪些经历启发吗?

林志航: 有一个瞬间影响了我们未来五年的决定。

当时和真格的钟天杰在上海吃饭,我们讨论为什么不该给 AI 设计一个 GUI 操作系统。

我当时说,计算机诞生的第一天是没有 GUI 的,只有控制台。既然如此,使用 terminal 的 AI 能力下限应该是那个时代的人类在 terminal 里能做到的一切总和。

如果它已经可以完全由 terminal 控制,你为什么还要给它做 GUI?

GUI 本质上是为人类设计的。很多顶级程序员其实并不用 GUI,他们仍然在 terminal 里工作,还写得非常强。我不鼓励这么极端的方式,但这件事本身说明:PC 是为人类设计的,不是为 AI 设计的。

AI 应该有自己的使用方式。从那天起,我们就开始往一个方向推:让 AI 真正一往无前地往前跑,不再被人类的交互框架束缚。

你未来看到的很多产品,表层都会趋向「可用」「好用」「好看」,因为它们要面向人。但底层真正的智能可能只是一个控制它的小猫咪。

Q:假设五年后我们再对谈,你会设想一个什么样的场景?

林志航: 我觉得人类的思想会被交互方式塑造。

当你坐在电脑前,你天然进入生产力场景;当你用手机打开 AI,就偏休闲一点;如果是在抖音里用,那就更娱乐。人们并没有把很多 AI 产品当成真正的生产力工具,而是把它当成娱乐工具,或者非常有限的生产力辅助。这不是能力问题,是交互问题。

不同的交互形式会改变人类对 AI 的预期。

我们观察到,同一个产品在电脑端和手机端收到的 query 完全不同。你在手机上发出的消息更探索性、更随意;在电脑上,你会想很多、组织很多。哪怕是同样的任务,你给 AI 的 prompt 都会完全不一样。

OpenClaw 之所以火,一个客观原因是它给了 AI 一个机会——即时通信的文本输入。人们在 IM 里发出的内容往往非常自然、非常真实。这种输入给 AI 的发挥方式很大。

相反,如果你给的是一个被框住、极度规范化的输入,你不要指望 AI 有太大空间。

现在的教程都在教人如何把 prompt 写得更清晰、更规范。但那些真正有创造力的输入不会是被框限出来的。

Q:就像大家现在很喜欢 Typeless 这种语音输入,也是新的交互方式。

林志航: 我讲个故事。

我之前做医疗大模型「华佗」。刚毕业那年,我得了严重腱鞘炎。有个很久没联系的朋友突然问我:「好了吗?」我说:「感谢 AI。」他以为是医疗模型帮我治疗。我说不是,是它帮我写代码了。

后来前几天腱鞘炎又复发了。因为我现在和三个 AI 一起写代码。虽然它们帮我写,但我同时要和三个对话,打字反而更多。换成 AI 让我的腱鞘炎复发了。

天杰给我推荐了 Typeless。我试了一下,确实很好。但问题是,我还有慢性咽炎。接下来我可能就得看看脑机接口的项目了。

这个故事刚好对应三个阶段:

第一阶段,AI 帮助人类;

第二阶段,AI 变快了,人类被迫跟上;

第三阶段,人类开始扩展自身接口。

我觉得我做不了更快工作的原因不是因为我不会想,而是我的 IO(输入/输出)太慢。打字慢,读得慢,输入输出都有限,再快就开始打错字。现在有点像是 AI 在鞭策人类升级自己。

Q:为什么 Anthropic 会是最好的?

林志航: Anthropic 有种感觉,你会觉得他们想做成什么,就一定能做成。我还不知道他们怎么做到的。

有人问我为什么不去做大模型。我说做大模型很无聊。要训练一个顶级模型,只要有资源和钱,未必做不到。但我做不到的是,建立一支可以持续领先且不靠抄别人也能领先的团队。

Q:你用 Anthropic 有什么 wow moment 吗?

林志航: 没有。但如果一家公司在你心里地位这么重,却从未有一个 wow moment,那意味着它不是一次惊艳,而是持续地强。

人生或许不敌预期,但更精彩

Q:刚才聊到转型的阵痛,你有任何类似的经历吗?

林志航: 我本科是重庆理工大学,一个双非院校。在创业,尤其是在 AI 圈子里,我认识的几乎每个人学历都比我强。

当年我放弃了北航的自主招生名额,去了这所学校。因为我通过比赛拿到的那个名额,只能选民用飞行器设计专业,而且是从本科读到博士,路是被锁死的。那是代价。

但我初中就开始写代码了。程序员很早就是我的人生梦想,所以我放弃了那条路。

从双非本科到好未来,又正好遇上双减。后来创业有过突破,但也没有达到预期。很多投资人问我:「你一路走来好像都挺顺的,会不会有一天遇到挫折,一蹶不振?」

我说,过得顺,是结果。

Q:是什么机会初中就开始编程的?

林志航: 电视怎么发光?怎么显示画面?听起来很复杂,但你往下拆,最后不过是三原色的组合。灯也是一样,看着复杂,本质不过是发热发光、通电激发。工程机械也是,百吨级的设备看起来夸张,底层不过是内燃机、活塞、齿轮放大了规模。

你可以讲材料学的细节,讲工程优化,但原理是很简单的。它用了更强的材料、更大的结构,但逻辑没有质变。

只有计算机,我没办法讲清楚为什么它能工作。

1 + 1 = 2,计算机是怎么做到的?你们现在能完整解释吗?即使是现在的我也要查些资料。

它对我来说是无法拆解的东西。我学它是因为我想理解它,没有什么宏大叙事,只是想搞明白。

后来 AI 出现了。现在的小朋友,已经能觉得「计算机也没什么了不起」,但他们完全无法理解 AI 为什么能有智能。每一代人都会遇到一个无法拆解的东西。

如果你问我,为什么要有人工智能?我最近很喜欢用一个概念去解释:lossless compression(无损压缩)。

你用 Python 生成一个一亿位的随机数。你怎么把它带走?最简单的方法是把生成这串随机数的代码带走。如果这串数字足够长,真正有价值的不是那一亿位数字,而是生成它的程序。程序比数字更短,但包含了全部结构。

压缩到极致,最后留下的是规律。

所以有人说,智能本质上是一种压缩能力。当你能用更短的结构去表示更复杂的现象,你就在逼近智能。这是我见过最优雅的解释之一。

Q:真遇到一个小朋友,你会跟他怎么解释 AI ?

林志航: 我讲不明白。

Google 有道有名的面试题:「如何向你奶奶解释搜索引擎?」

有一次我真的去跟我外婆试着讲,讲不通。后来我去看那些所谓的优秀答案,发现它们有个下限,对方至少得学过初中数学。所谓「讲清楚」是有前提的。

Q:你怎么有的创业想法?

林志航: 每一代人有每一代人的使命。我觉得用 AI 做计算加速是我们这代人的使命之一。

假设有一天我们把这件事真的做成了,很可能下一代人会觉得我们是垃圾。他们会说,你看这家公司还在用 AI 去写计算硬件的软件,这思路太落后了。在他们看来,我们现在这一套也许就是过渡阶段,是「too old too slow」。

我们现在沟通的时候发现,越资深的算子工程师,越不相信我们在做的逻辑。反而是一些 CEO 或站在更宏观视角的人,会更容易接受。

这很正常。你想象一下,你发明了自动纺纱机,然后去找织布最快的那个人演示。他可能觉得你是垃圾。他会说,我已经够快了,你能帮我多少?如果你去找国家级非遗传承人讲这个机器,他不打你都算客气。但如果你去找厂长讲,就不一样。

将来可能也是一样。当更强的智能出现后,人们会觉得现在的路径根本不对。 也许他们会说,为什么还要软件去调度硬件?为什么不能直接在芯片上内嵌 AI,由芯片自己完成调度?

到那个时候,我们又落后了。

一代人终究会被淘汰。我的思考能力可能也只能到达当前这个阶段。下一代人会跳得更远。

我很早看过一本书叫《浪潮之巅》,里面讲了一个话:「要在老糊涂之前退休。」

Q:艺术里面有个词叫 unlearn,就是说你要把你学过的东西忘掉,那是不是现在做这些就是得忘掉一些东西?还是就忘不掉?

林志航: LLM 的 unlearning 正好是我研究过的方向。

你会发现,unlearning 和 forget 是两回事。假设一个模型训练于 1990 年,那时苏联还没解体。到了 1993 年,现实已经改变,你怎么让模型「忘掉」原来的世界观?

覆盖数据是不够的。因为某些叙事占据了它大量训练比例。我做着做着会觉得这个问题非常难。也许真正的 unlearning 本来就是人类做不到的。

与其强迫自己忘掉,不如在还记得这些东西的时候,保持开放。

Q:刚才提到打开一个 AI 产品是有预期的,我们应该对 KernelCAT 抱有什么预期?

林志航: 我们现在的出发点是基于算子,把 AI 和程序化能力结合起来做产品。但当有一天我们发现,这个产品拥有更大的智能空间,我们可能要重新定义它。

我们现在有个草稿式定义:它是一台能真正掌控你电脑的智能。

我们不太想从「它能做什么」去定义,而是从「它如何存在」去定义。它的形态是一个可以操作你电脑的智能体。 至于它能做什么,那由用户自己去想象。材料只存在于你的电脑上,哪怕一个比我们厉害得多的写作者,没有访问权限,也无法重构那段内容。

所以我们会强调,它是在你的电脑上运行的智能。

混乱中长出生命力

Q:你希望未来别人会怎么描述你的团队呢?

林志航: 我来上海见真格之前,在飞机上读了《人类群星闪耀时》。其中有一章《征战南极》,讲的是英国探险家斯科特。

他出发去南极时,孩子刚出生。他还是选择远征,去地球上最后一个无人占领的区域。那意味着严寒、风暴、极夜。后来他们确实抵达了南极点,但死在了返程途中。

在一片白茫茫的原始世界里,燃料耗尽,只剩冻死或饿死两个选项时,他选择体面地面对死亡。他在给妻子的遗书里写,甚是怀念家里的火炉和孩子,但接着又说:「关于这次远征的一切,我该怎么和你说呢?它不知比坐在舒适的家中要好多少!」

我觉得创业也是这样。如果只是为了钱,没有必要创业。

这个故事最美妙的地方在于,斯科特的起点是成为第一个征服南极的人。但他不是第一个。第一位是挪威人阿蒙森。

人类历史上大量先进的计划死在了路上。比如现在又火起来的 RISC-V。RISC-V 当年并不是因为不先进而失败,是市场竞争输了。后来时势变了,它又被重新提起。

智子芯元也可能会死。我对这个无所谓。做计算加速这件事,有人把我们先打败了,我也会高兴。乐趣不在于第一个到达。功成不必在我。

你问我希望怎么被描述?

「计算加速先行者」很好,「未竟的先行者」也不错。

智子芯元也可能会失败,但用 AI 做计算加速这件事,如果有人把我们先打败了,我也会高兴。我真正害怕的,是如果我们倒在路上,后面的人看到,从此不再走这条路。

Q:这种创业心情就像很多书里写过的冒险。现在你还有什么没搞懂的问题?

林志航: 搞不懂的问题不一定是我的错。我相信世界上总有人更聪明。有人问 Elon Musk 创业最难的是什么。他说,最难的是在一个复杂系统中,构建一个持续给出正确 feedback 或 reward 的机制。你需要一个系统能持续校正你。

Q:你会喜欢找之前也有过创业经历的人吗?

林志航: 要看他的动机。如果他创业是为了伟大的事业,那要看我们在做的对他来说算不算伟大。如果不伟大,那就不匹配。如果他创业是为了快乐,那我们能不能给他快乐。从这个角度看,不合适的人远多于合适的人。

Q:找到合适的人很难。

林志航: 是长期且痛苦的事情。

Q:那你创业是为了什么?

林志航: 伟大的事业。但伟大能持续多久?做人工智能平权当然很伟大。但也许有人只对某一阶段感兴趣,解决完一个问题后就觉得无聊。我自己也是,训练大模型刚开始很有意思,后来对我来说就是流水线。

Q:如果用三个词来形容现在的团队的话,你觉得会用哪三个词?哪三个词?

林志航: 年轻、混乱、多样化。

Q:混乱这个词很有意思。

林志航: 要对抗熵减,首先得有熵。没有混乱度,你拿什么对抗?

我们花了一个月讨论如何和 agent 交互。传统设计思路是字段、结构、拆解 JSON。但现在不需要了。AI 说什么,就渲染什么。不用定义字段格式,不用纠结结构。你只要接受它的输出。

这在公司内部造成了巨大混乱。后端第一天入职就问:「为什么 Day 1 就做这么重的产品?」看起来什么都能做,结构复杂。

但实际上不是。底层智能程度一样,输出是同步的,只是形态不同。

很多同事不习惯这种模式,会觉得怪。我会说,我知道你难受,但忍一下。

探索可能失败。但探索这个词,本来就和成败无关。

文|Cindy