Kimi K2写作能力接近Qwen 3

葬AI·2025年7月15日

Kimi还有梦想（没收Kimi钱😭）

「没收Kimi钱😭」

这两天，我测试了Kimi新模型K2的写作能力。

因为我和合伙人在开发一个写作产品，我们之前把市面上主流的大模型，都测试过一遍。

写作能力上，我的结论是：Gemini 2.5 Pro > Claude Sonnet 4 ≥ 各种缝合版 > Qwen 3 > Kimi K2 > DeepSeek R1

这个公众号的绝大部分文章都用AI写了初稿，我让这些大模型全都重写了两遍阶跃星辰没有新闻，从写作结果看优缺点。

完整的测试文档在这个飞书链接，包含了测试过程和各个模型的写作全文。

篇幅限制，这篇公众号只谈结论。

Kimi K2的写作能力略逊于Qwen 3。 它的逻辑能力不错，和Qwen 3没什么区别，能讲清楚比较复杂的事情。文风却接近DeepSeek，文笔有点飘，有一些灵机一动但不可控的表述。

K2写作最大的问题是编造，它写的东西有很多具体表述和数据是上下文里没有的，并且编得很流畅，不仔细看看不出来，导致其很难用来严肃写作。

比如我让K2根据我的口述转录和提纲，写作阶跃星辰没有新闻这篇文章的全文。

K2编造了大量我根本没说过的话。

我的原话大意是，我问了几个朋友，都不知道阶跃有啥新闻。K2直接写成「我问了十个AI创业者，九个摇头，剩下一个反问：面壁智能不比他更有资格？」。

这是学新闻学的？😌

最离谱的是，它会编造有鼻子有眼的数据。它凭空编造了：「零一万物做过一个AI编程助手，DAU刚过五万，团队解散。」，还说「智谱做过一个会议纪要工具，DAU三万，负责人已经离职创业。」。

要不是我对这几家公司还有点了解，知道转录里自己肯定没这么说，这些话要是直接用了，大概率我都被起诉了。

K2的文笔也很飘，很像DeepSeek，有一些灵机一动但不可控的表述。比如它自己原创了一句「2024年上半年，VC们像扔手榴弹一样把钱砸进来。」

确实很生动形象。但总体来说，这种不稳定的创造力，加上严重的编造问题，导致K2无法用在严肃写作。

目前写作能力最好的大模型，我体验下来是Gemini 2.5 Pro。

Gemini 2.5 Pro的逻辑能力特别好。你让它写一篇2000字以上的长文，它一次性吐出来的稿子，句子和句子之间是逻辑连贯的。加上它100万tokens的超长上下文，可以处理我的所有写作需求。

当然，Gemini偶尔也会冒出一些AI味儿的句子，灵光一动但不稳定。

在稳定性上，Claude Sonnet 4 就做得很好。它的文笔非常平实、朴素，几乎没有怪话。但Claude的短板也很明显，逻辑能力较差，写2000字以上长文的时候，文章整体很流畅，但语句之间没有逻辑联系。

然后是Qwen 3，很像一个弱化版的Gemini 2.5 Pro。逻辑能力不错，能完成复杂写作任务。文笔也比较简洁、朴实，偶尔有灵机一动的句子。但Qwen 3的问题是压缩严重，经常把有用的细节压缩没了，导致文章只有逻辑骨架，缺少细节血肉。

回到Kimi K2上。

至少在写作能力上，K2没有带给我惊喜。逻辑水平和Qwen 3接近，但幻觉更严重，上下文长度也较短（128k vs 256k），这决定了K2很难一次性处理特别复杂的写作任务。

我收回之前的偏见（没收Kimi钱😭）

在2025年7月这个时间点，Kimi团队做出了一个能力接近Qwen 3的模型，并且把这个万亿参数规模的大模型开源了。

我没法说，一个愿意开源次先进大模型的公司，是没有梦想的。即便我不会用K2来工作，但依然对做出K2的团队保持敬意。

（本文配图由ChatGPT o3生成，Gemini 2.5 Pro辅助写作。）