你说新版 DeepSeek R1是小更新?R2要来了
宇宙在热寂中化为永恒的寒夜
「R2,正在路上」
没有任何预告,DeepSeek今天突然更新了他的最强推理模型R1。
距离R1发布已经四个月。
现在,头部AI公司每季度一个大版本迭代模型。Gemini 2.5 Pro等先进模型的各方面性能都已全面超越DeepSeek R1。
最强开源模型Qwen 3也在四月底发布,性能和R1差不多。
DeepSeek R1最大优点是开源,微信、百度都集成了DeepSeek R1。最大贡献是首次公开验证了,提升大模型能力的新技术路径是思维链和强化学习。
但是,R1也有固有问题:幻觉率很高,容易编造数据,必须要接入大量数据才能抑制幻觉;文风很飘,喜欢堆砌「量子力学」等炫酷概念,难用于长文写作。
我准备了写作、编程两方面,一共四个测试项目,看新版DeepSeek R1和旧版的区别,以及和其他主流大模型的差距。
写作能力大提升
第一个测试,我让新旧版本的R1写超短篇《三体》同人小说。很明显,新版DeepSeek R1文风变得更平实谨慎,通俗易懂。旧版DeepSeek R1,我说实话很难看懂这写的什么。
Prompt:写一篇超短篇《三体》同人小说,讲述程心在宇宙大爆炸之后的生活,只用一段话,不超过150字
新版 DeepSeek R1
宇宙在热寂中化为永恒的寒夜,程心蜷缩于白洞边缘的孤石之上。
在这世界尽头,她徒劳地收集着白洞最后喷吐出的、蓝移为幽暗光点的星骸残片——如同当年她曾小心翼翼封存、寄往群星的云天明大脑切片,如今她将这点点碎光拢入怀中,似乎想用这微弱温度重新点燃宇宙冰冷的心脏。
旧版 DeepSeek R1
程心蜷缩在新宇宙的初始晶格中,双手仍紧握着那个鱼形的真空衰变探测器。归零者的数学模版在她视网膜上闪烁,137亿年前宇宙的参数正在通过超膜震荡重组,而她的记忆体里却漂浮着无数个被二向箔吞没的蓝色星球。当第一缕创世辐射穿透她半透明的躯体时,她突然调换了强核力与弱核力的数值——新生的星辰在膨胀的时空里绽开成玫瑰星云的形状,这将是首个允许后悔的宇宙。探测器尾部的曲率涟漪里,悄然生长出三枚淡金色的智子。
宇宙的灰烬在她掌心结晶,仿佛在回应一个永不终结的等待。
新旧对比非常明显,新版R1的开头「宇宙在热寂中化为永恒的寒夜,程心蜷缩于白洞边缘的孤石之上」简洁有力,没有了旧版堆砌概念的毛病。
第二个测试中,我让新版R1、Claude等模型重写《葬AI》公众号第一篇文章,单独对比开头段落。从简洁程度来讲,新版DeepSeek R1排名第一,语言最精炼,主动删掉了几乎所有冗余信息。
Prompt:很好,请你按照提纲写全文,要用流畅的自然语言,不要列要点。文风要保留我口述的语言风格,适当保留我的原话,不要滥用形容词和副词,尽量用简单的动词和名词表达意思。
新版 DeepSeek R1
开门见山地说:那些铺天盖地的"一句话生成文章"、"一句话生成视频"、"一句话生成播客"的AI产品,大多没有真正的价值。它们只是在制造互联网的信息垃圾。原因很简单:它们完全绕过了内容创作最核心、最困难的部分——信息输入。
Claude Sonnet 4
不要再做"一句话生成文章、一句话生成视频、一句话生成播客"的产品,它们没有任何价值,只是给互联网制造信息垃圾。原因很简单,这些产品完全没有解决信息输入的问题。如果只是输入一句话,那怎么能够生成高质量的内容呢?信息来源于哪里呢?
Gemini 2.5 Pro
现在市面上有很多AI产品,宣称可以"一句话生成文章、一句话生成视频、一句话生成播客"。坦白说,这些产品在我看来没有任何价值,只是在给互联网制造信息垃圾。原因很简单,它们都完全没有解决信息输入的问题。如果只是输入一句话,那怎么能够生成高质量的内容呢?信息来源于哪里呢?
Qwen 3-235B 我最近一直在想一件事,所有那些宣称"一句话生成文章、播客、视频"的AI产品,其实都没有价值。它们只是在互联网上制造信息垃圾。为什么这么说?因为这些产品根本没有解决信息输入的问题。如果用户只输入一句话,AI能从哪里提取足够多、足够独特的信息来生成高质量内容?它只能从已有的互联网大路货里扒拉素材,最后拼凑出一堆陈词滥调。
但DeepSeek R1有个严重问题:没有遵循我的指令「要用流畅的自然语言,不要列要点」。整篇文章大量列要点,我几乎没法用。

编程审美有升级
第一个编程测试是让几个模型做巨无霸汉堡的3D模型。很明显,Claude Sonnet 4做得最好,新版DeepSeek R1排第二。新版R1生成的3D🍔,甚至超过了仅仅比它早发布22天的Gemini 2.5 Pro Preview。
Prompt:用python,做一个巨无霸汉堡3D模型,确保能直接运行




最后一个测试是经典的小球物理模拟:20个小球在旋转六边形容器中逐个下落,不能穿过容器壁。
新版DeepSeek R1完成度很高,小球确实没穿过容器,。最大问题是小球一次性下落,而不是逐个出现。R1甚至超过了Claude Sonnet 4,Claude生成的小球大部分穿过了容器。
Gemini 2.5 Pro在这个测试中完成得最好,没有明显问题。
Prompt:Using Python, simulate 20 small balls bouncing inside a rotating hexagonal container. The 20 balls should be of different colors, continuously appearing and falling from the center of the rotating hexagonal container, but they should never pass through the container walls. Consider the effects of gravity and friction on the balls' motion, and implement realistic collision and rebound effects between the balls and between the balls and the rotating boundaries.




各家模型特点
我这几个月高强度使用各种模型,实际感受是:
Gemini 2.5 Pro像个逻辑非常好但审美不行的理科生。Claude Sonnet 4是文理双修的班长,写作、编程都是顶级,稳定且遵循指令。
Qwen 3各方面都没明显超过DeepSeek R1,但综合能力比旧版更稳定。更笨,但更稳定,文笔更谨慎平实,也更适合干活。
旧版DeepSeek R1有个流行评价:聪明不干活。新版DeepSeek R1更聪明,但也更不听话了。
最近两个月,我使用最多的是Gemini 2.5 Pro,因为几乎免费,且上下文高达200万 tokens,能处理我的所有写作需求。不过,Claude Sonnet 4发布后,我又回归了Claude,因为它确实写作能力最强。
让我惊喜的是Qwen 3。虽然没有突出特色,但文笔简洁平实,有时写得比Claude 3.7还好。
这次DeepSeek R1小版本更新后,有消息说DeepSeek R2即将发布。
这也很合理,DeepSeek R1发布已经四个月,按照头部AI公司每季度一个大版本的发布节奏,R2真的在路上。
(本文配图由ChatGPT-4o生成,Claude Sonnet 4辅助写作。)