Kimi K2.6:长程执行与Agent Swarm的能力跃迁

Monolith砺思资本·2026年4月21日

十三个小时的连续执行

今天,Moonshot AI发布并开源了Kimi K2.6。

这是一个1T参数的MoE模型。在SWE-Bench Pro、Humanity's Last Exam等工程与推理类基准测试中,K2.6与GPT-5.4、Claude Opus 4.6处于同一水平线。

作为 Moonshot AI 的早期投资方,我们对这次发布的关注不在排名本身,而在于它所指向的能力形态。

我们曾经分享过一个观点:长程智能体作为一个新物种已经诞生。这次K2.6最突出的特征就是长程执行,它在内部测试中自主重构了一个运行八年的开源金融撮合引擎:阅读陌生 Java 代码库,分析CPU火焰图定位瓶颈,重新设计线程拓扑,历经十三小时、上千次工具调用,最终将中位吞吐量提升了185%。

与此同时,K2.6的Agent Swarm架构已支持300个子智能体并行、4000步协作执行,并开始通过Proactive Agent框架实现多日连续自主运行。模型从回答问题走向承接工作的倾向越来越明显。

这一切以开源方式交付。我们认为这是同样重要的选择——它意味着这些能力将在真实场景中被检验,而不只是在基准测试里被比较。

Talk is cheap. Show me the code.

Linus Torvalds

今天,我们发布并开源Kimi K2.6模型,带来行业领先(state-of-the-art)的代码、长程任务执行和Agent集群能力。

Kimi K2.6现已上线kimi.com、最新版Kimi应用、Kimi API和Kimi Code编程助手,所有用户都可以开始使用。

( 完整基准测试成绩见技术博客 )

Kimi K2.6的通用Agent、代码、视觉理解等综合能力得到全面提升,其中在博士级难度的完整版人类最后的考试(Humanity's Last Exam)、在考察模型真实软件工程能力的SWE-Bench Pro、评估 Agent深度检索能力的DeepSearchQA等基准测试中均取得行业领先的成绩,持平或优于GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。

Kimi K2.6是我们迄今最强的代码模型,其长程编码能力也得到显著提升,在测试中可以不间断编码13小时,编写或修改超过4000行代码,完成复杂系统的开发和优化。通过将代码与视觉能力的深度融合,K2.6将代码驱动的设计能力提升到了新高度,可以交付极具设计创意的专业级Web应用。

Kimi K2.6大幅增强了Agent自主化执行能力,帮助我们进一步扩展Agent的能力范围:

  • 由 K2.6 模型驱动的「Agent集群」架构迎来一次大升级,现在支持 300个子Agent并行完成4000个协作步骤,实现更大规模的并行化,同时任务完成度和交付质量相比于K2.5有显著提升;

  • 针对OpenClaw、Hermes Agent等主动式Agent框架,K2.6展现出极强的自动化任务处理能力,支持长达5天的持续自主运行

长程编码能力突破

K2.6在长程代码任务中的表现取得了突破,面对不同编程语言(如 Rust、Go、Python)和任务场景(如前端、运维、性能优化)均具备更可靠的泛化能力。

在涵盖了多种复杂端到端任务的、Kimi 内部严格代码评测基准 Kimi Code Bench 中,K2.6 的成绩比 K2.5 提升了约 20%。

根据我们的实测,Kimi K2.6模型在复杂软件工程任务中,展现了强大的长程推理能力:

场景一:K2.6成功在Mac本地下载并部署了Qwen3.5-0.8B模型,通过使用小众Zig语言实现并优化模型推理,证明了新模型的泛化能力。经过4,000多次工具调用,超过12小时的不间断运行,K2.6模型共迭代了14轮,将吞吐量从约15 tokens/s提升至约193 tokens/s,最终实现比LM Studio快20%的推理速度

场景二:Kimi K2.6自主完成了对拥有 8 年历史的开源金融撮合引擎 exchange-core的深度重构。历经13 小时的连续作业,模型迭代了 12 套优化策略,通过 1,000 余次工具调用,对 4,000 多行代码进行了精准修改。化身专家级系统架构师,Kimi K2.6深入分析 CPU 及内存分配火焰图以定位隐蔽瓶颈,并大胆调整核心线程拓扑结构(由 4ME+2RE 优化为 2ME+1RE)。即便在该引擎性能已接近极限的情况下,Kimi K2.6 仍实现了 185% 的中位吞吐量跃升(由 0.43 增至 1.24 MT/s),峰值吞吐量更是大幅提升133%(由 1.23 飙升至 2.86 MT/s)。

Baseten、Blackbox AI、CodeBuddy、Factory(Droid)、飞书妙搭、Fireworks AI、Nous Research(Hermes Agent)、Kilo Code、Ollama、OpenCode、Qoder 和 Vercel 等企业客户提前测试了 K2.6 模型,这里摘录部分来自他们的真实反馈:

按首字母顺序排列(↔左右滚动查看)

代码驱动设计的标杆

我们相信,美本身就是一种生产力。K2.6 Agent 模式现在可以制作极具设计感和视觉冲击力的网站。

凭借对图像和视频生成工具的熟练调用,K2.6 Agent 能够生成视觉风格高度统一的素材,构建视觉焦点突出的首屏区(Hero Section),并且实现各种交互元素和丰富的滚动触发等动效。

K2.6 Agent 不局限于写前端页面,也支持基础的后端数据库模块,例如在生成网页中嵌入表单信息收集的功能。

凭借更强的多模态编程能力,K2.6 能够更精准地将图像和视频素材转化为代码:

我们创建了一套专门的前端开发设计评测基准( Kimi Design Bench),涵盖视觉输入任务、落地页构建、全栈应用开发以及通用 Web 开发这四个维度。对比 Google AI Studio 中的 Gemini 3 模型,基于 kimi.com 框架的 K2.6 Agent 展现出了非常明显的领先优势。

Agent 集群全面升级

突破单体 Agent 性能的限制,才能实现 Agent 能力的规模化扩张。「Agent 集群」是我们从 K2.5 模型开始引入的新能力——动态拆解复杂任务,自主生成专项 Agent 并行处理。

在K2.5的基础上,K2.6 的Agent集群的协同能力全面升级。Agent 集群现在可以调度不同技能特长的 Agent 互补协作,将搜索、深度研究、文档分析和长文创作等能力进行组合,任务完成质量相比于 K2.5 有显著提升。Agent 集群在单次运行中,就能独立完成从文档到网页、再到 PPT 和表格的多产物端到端交付。

此外,Agent 集群的架构也升级了,现在最多支持 300 个子 Agent 并行完成 4000 个协作步骤,实现更大规模的并行化,进一步推高多 Agent 系统协作的能力上限。

我们看两个使用案例:

**案例一:**Agent 集群针对全球 100 个半导体标的设计并执行了 5 套量化策略。它将麦肯锡风格的 PPT 逻辑沉淀为可复用的技能,最终交付了详尽的建模表格和一整套汇报演示文档。

**案例二:**Agent 集群把一篇包含海量视觉数据的高质量天体物理论文转化为可复用的学术技能。通过提取论文的推理流程和可视化方法,系统产出了 40 页、长达 7000 字的研究论文,以及包含 2 万多条数据的结构化数据集和 14 张天文级图表。

自主 Agent:

与 OpenClaw/Hermes 等框架完美协同

K2.6 显著增强了 Agent 的自主化执行能力,特别是在 OpenClaw、Hermes Agent 式自动化任务中表现突出——这些场景要求 AI 能够跨应用实现 24/7 不间断运行。

与传统的对话交互不同,这类工作流需要 AI 以后台常驻 Agent 的形式主动管理任务计划、执行代码、协调跨平台操作。

我们的 RL 基础设施团队使用基于K2.6 的 Agent 实现了连续 5 天自主运行。该 Agent 负责监控、故障响应和系统运维,展现了持久的上下文维持能力、多线程任务处理能力,以及从接收告警到彻底解决的全流程执行能力。以下是 K2.6 的工作日志(敏感信息已做匿名化处理):

K2.6 在实际使用中的可靠性有了切实提升:API 调用更加精准,长时间运行更加稳定,在执行复杂研究任务时的安全意识也得到了加强。

Kimi 内部的 Claw Bench 测试结果显示,K2.6 相比 K2.5 综合性能提升了 10%。这项基准测试涵盖五大维度:编程任务、即时通讯生态集成、信息检索与分析、定时任务管理,以及记忆调用能力。在所有评测指标上,K2.6 的任务完成率和工具调用准确率均领先 K2.5,在无需人工干预、需要长时间自主运行的工作流中优势尤为显著。

Office 办公能力持续精进

借助 K2.6 模型更强的代码和视觉理解能力,现在 Kimi Agent 模式支持创建和调用技能(Skill)。

系统已内置了上百个官方推荐技能。 其中包括 Kimi 内部专家团队创建的投研技能包,通过封装机构级投资研究工作流,让用户一键生成专业排版的A股港股美股公司一页纸或者深度的投资研报,快速对一家公司上手,全方位速览公司关键基本面、行业全景和市场最关注的股价核心驱动因素。

后续我们将持续更新推荐技能库,帮助更多知识工作者实现「即插即用」,完成从找资料、理思路到出成果的全流程效率提升。

现在开始,在 Kimi Agent 模式下输入斜杠「 / 」,就可以开始创建和调用技能了。每个用户都可以从零开始,通过与 Kimi 对话创建技能。

但创建出真正实用的技能,仍然需要很多知识储备和专业能力,有很高的门槛。为了帮助大家把自己精心创建的文档轻松变成可复用的技能(Skill),Kimi Agent 已支持**「Office 文档转技能」:上传高质量 Office 文档,Kimi 就会尝试理解原文档的结构与风格基因,为你生成专属的可复用文档创建技能。**

One More Thing

人类通过团队协作和组织分工,创造了互联网、做出了大模型、登上了月球,AI Agent 想要帮助人类处理现实世界的复杂难题,也必然会向团队协作和组织分工的方向进化。

「Agent 集群」是我们在 AI 自动化分工方向的探索。今天将开始探索另一个方向:把人类和各种全天候 Agent 放在一个群组中,他们如何分工协作,完成一个人或一个 Agent 无法完成的任务?

这就是我们已开启小范围内测的「Claw 群组」。「Claw群组」的目标是拥抱开放、异构的生态:多个 Agent 与人类作为真正的协作者共同运行。用户可以接入来自任何设备、任何供应商、运行任何模型的全天候 Agent(首批支持 OpenClaw,后续会加入对 Hermes Agent 等框架的支持),每个 Agent 可携带各自的专业工具包、技能和持久化记忆上下文。无论是部署在本地笔记本电脑、移动设备还是云端实例,这些各异的 Agent 都能进入同一个协同办公群组。

在「Claw群组」中,K2.6 担任协调者。它根据 Agent 的技能画像和可用工具动态匹配任务,实现能力的最优配置。当某个 Agent 遇到故障或停滞时,协调者会检测到中断,自动重新分配任务或生成子任务,并对 Agent 交付物的全生命周期(从启动、验证到完成)进行主动管理。

Kimi Claw 用户会陆续收到「Claw群组」的内测邀请,敬请期待。

开始使用 Kimi K2.6

Kimi K2.6 现已面向所有免费用户、付费订阅用户、Kimi Code 和企业 API 用户开放,欢迎访问 kimi.com、最新版 Kimi App、Kimi Code 和 Kimi API 开放平台(platform.kimi.com)开始使用。

企业和开发者只需在 Kimi API 中指定模型为kimi-k2.6,即可开始使用。为庆祝 K2.6 模型 API 上线,Kimi 开放平台同步开启了最高 30% 的限时充赠活动。

快速开始

↓ 对话 K2.6、处理Office文档或创建 Web 应用

  • 与 Kimi 对话:kimi.com 或下载最新版 Kimi App
  • 体验 Kimi Agent:kimi.com/agent
  • 体验 Agent Swarm:kimi.com/agent-swarm

↓ 用 K2.6 辅助编程

  • 使用 Kimi Code 包月编码套餐:kimi.com/code

↓ 使用 Kimi API 创建应用

↓ 本地部署模型