Kimi K2写作能力接近Qwen 3
Kimi还有梦想(没收Kimi钱😭)

「没收Kimi钱😭」
这两天,我测试了Kimi新模型K2的写作能力。
因为我和合伙人在开发一个写作产品,我们之前把市面上主流的大模型,都测试过一遍。
写作能力上,我的结论是:Gemini 2.5 Pro > Claude Sonnet 4 ≥ 各种缝合版 > Qwen 3 > Kimi K2 > DeepSeek R1
这个公众号的绝大部分文章都用AI写了初稿,我让这些大模型全都重写了两遍阶跃星辰没有新闻,从写作结果看优缺点。
完整的测试文档在这个飞书链接,包含了测试过程和各个模型的写作全文。
https://likczh6fsao.feishu.cn/docx/IPNxd1SZhoXjWkx6vW1c6vuTnYd?from=from_copylink
篇幅限制,这篇公众号只谈结论。
Kimi K2的写作能力略逊于Qwen 3。 它的逻辑能力不错,和Qwen 3没什么区别,能讲清楚比较复杂的事情。文风却接近DeepSeek,文笔有点飘,有一些灵机一动但不可控的表述。
K2写作最大的问题是编造,它写的东西有很多具体表述和数据是上下文里没有的,并且编得很流畅,不仔细看看不出来,导致其很难用来严肃写作。
比如我让K2根据我的口述转录和提纲,写作阶跃星辰没有新闻这篇文章的全文。
K2编造了大量我根本没说过的话。
我的原话大意是,我问了几个朋友,都不知道阶跃有啥新闻。K2直接写成「我问了十个AI创业者,九个摇头,剩下一个反问:面壁智能不比他更有资格?」。

这是学新闻学的?😌
最离谱的是,它会编造有鼻子有眼的数据。它凭空编造了:「零一万物做过一个AI编程助手,DAU刚过五万,团队解散。」,还说「智谱做过一个会议纪要工具,DAU三万,负责人已经离职创业。」。

要不是我对这几家公司还有点了解,知道转录里自己肯定没这么说,这些话要是直接用了,大概率我都被起诉了。
K2的文笔也很飘,很像DeepSeek,有一些灵机一动但不可控的表述。比如它自己原创了一句「2024年上半年,VC们像扔手榴弹一样把钱砸进来。」

确实很生动形象。但总体来说,这种不稳定的创造力,加上严重的编造问题,导致K2无法用在严肃写作。
目前写作能力最好的大模型,我体验下来是Gemini 2.5 Pro。
Gemini 2.5 Pro的逻辑能力特别好。你让它写一篇2000字以上的长文,它一次性吐出来的稿子,句子和句子之间是逻辑连贯的。加上它100万tokens的超长上下文,可以处理我的所有写作需求。
当然,Gemini偶尔也会冒出一些AI味儿的句子,灵光一动但不稳定。
在稳定性上,Claude Sonnet 4 就做得很好。它的文笔非常平实、朴素,几乎没有怪话。但Claude的短板也很明显,逻辑能力较差,写2000字以上长文的时候,文章整体很流畅,但语句之间没有逻辑联系。
然后是Qwen 3,很像一个弱化版的Gemini 2.5 Pro。逻辑能力不错,能完成复杂写作任务。文笔也比较简洁、朴实,偶尔有灵机一动的句子。但Qwen 3的问题是压缩严重,经常把有用的细节压缩没了,导致文章只有逻辑骨架,缺少细节血肉。
回到Kimi K2上。
至少在写作能力上,K2没有带给我惊喜。逻辑水平和Qwen 3接近,但幻觉更严重,上下文长度也较短(128k vs 256k),这决定了K2很难一次性处理特别复杂的写作任务。
但我能因此说Kimi没有梦想吗?
我收回之前的偏见(没收Kimi钱😭)
在2025年7月这个时间点,Kimi团队做出了一个能力接近Qwen 3的模型,并且把这个万亿参数规模的大模型开源了。
我没法说,一个愿意开源次先进大模型的公司,是没有梦想的。即便我不会用K2来工作,但依然对做出K2的团队保持敬意。
(本文配图由ChatGPT o3生成,Gemini 2.5 Pro辅助写作。)