回看AI“五月天”：最重要的五件小事 | Attent!on 科技手账

云启资本·2024年5月31日·30·0

未来已来，只是分布不均

世界纷纷扰扰、喧喧闹闹什么是真实？

看不过来的大模型发布会、用不过来的AI助手产品、数不过来的大模型降价信息……形容5月的AI行业，用"疯狂"和"卷"并不为过。有媒体报道直言，这是AI行业在ChatGPT发布以来"最热闹的一个月"。

深耕AI领域的云启密切关注行业动态，在5月的最后一天，我们用这期**「Attent!on科技手账」梳理本月值得关注的行业动态，并分享我们的一些观察和思考**。我们也会持续通过这个系列，和大家一起在信息汪洋中看清方向。

1.OpenAI、 Google 、微软

更新「AI全家桶」

"比起性能，更亮眼的是多模态"

5月中下旬，备受关注的OpenAI、Google、微软接连在开发者大会发布"AI全家桶"，从模型到应用再到硬件，可谓无所不"卷"。它们把AI带到了怎样的新高度？简单回顾：

5月14日，"先发制人"的OpenAI抛出端到端原生多模态旗舰模型GPT-4o。这款新模型在短短26分钟的发布会呈现了AI与语音、图像、视频等人类语言的低时延交互，在业内激起巨大水花。

Google于次日的I/O 2024开发者大会迎战。模型层，推出了Gemini 1.5pro、文生视频模型Veo，文生图模型Imagen 3；应用层，发布了AI搜索、AI+Gmail和谷歌力推的多模态助手工具「Project Astra」。与GPT-4o一致，多模态交互是谷歌这次更新颇受瞩目的一大亮点。

一周后，微软在Build2024大会发布了50多项重大更新。其中最受瞩目的关键词是Copilot，围绕智能助理功能，微软发布了Team Copilot、自定义Copilot等更新，并在大会前夕推出"Copilot+PC"，意在从应用和硬件层面立体重塑生产力。

云启观察

端到端原生多模态成大模型的主力"竞技场"。 无论是先声夺人的GPT-4o，还是Google的Project Astra，实时有感情的语音、视频交互是最令人惊艳之处。而这些能力的实现，基于模型层面的算法大一统，即ASR（自动语音识别）、TTS（文本到语音）等拆解步骤被合而为一了。

端到端原生多模态大模型的迭代将进一步改变人机交互方式，也将给应用层创新带来更大的想象空间。

但模型性能本身的更新效果并不算突出，大模型能力的成长曲线似乎在变缓。云启合伙人陈昱接受晚点Late Post采访时表示，这个趋势大概率会延续下去，一个关键原因是能够训练大语言模型优质数据已接近耗尽。

2.大模型创业公司"开卷"

AI助手产品

"各有各的卖点，差异化待提升"

国内的AI竞技场同样喧嚣。在迭代模型能力的同时，大模型创业公司也频频推出基于自研模型的助手类应用。

MiniMax-「海螺AI」发布，语音交互是亮点

5月15日，云启天使轮被投MiniMax正式推出生产力产品「海螺AI」。这是MiniMax自娱乐类产品「星野」后推出的另一款to C产品，包含网页版和iOS及安卓App端。「海螺AI」接入了 MiniMax 自研的多模态大模型，包括4月份发布的万亿参数 MoE 大语言模型 abab6.5，以及语音大模型和图像大模型。这也意味着「海螺AI」支持文本、图像、语音等多模态交互。其中值得一提的是语音交互，用户可以拨打语音电话的方式与「海螺AI」进行问答，其支持声音设置、声音克隆等功能。

零一万物-发布首个闭源模型，接入to C生产力产品

5月13日，李开复担任CEO的零一万物发布千亿参数模型Yi-Large，此系该公司成立近一年来发布的首款闭源模型。Yi-Large也接入了零一万物近期推出的AI生产力工具"万知"。这款产品被定位为"问答、阅读、创作的一站式AI工作平台"，本质上是一款to C效率工具，以长文档阅读和创作为核心卖点。

百川智能-基座大模型更新，AI助手产品上线

5月22日，百川智能发布最新一代基座大模型Baichuan 4，同时推出了首款 AI 助手应用「百小应」。除知识问答、文本读取与整理、辅助创作等"标准动作"外，多轮搜索、定向搜索能力是「百小应」希望突出的特色。

云启观察

起跑一年，自研应用也成为大模型创业公司在模型能力之外的发力点，技术与应用双驱动的路线愈加常见。

但纵观各家的AI助手应用，功能和使用效果上还没有出现质的差异，而显著的差异才是强化用户心理认知、建立品牌认同的关键。

3.国内大厂继续打磨大模型

"模型越来越多了，应用场景也是"

本月，阿里、字节、腾讯等大厂陆续推出升级后的大模型，并且进一步将模型能力嵌入到各自的应用生态中。

阿里-闭源版通义千问迭代，对标GPT-4 Turbo

5月9日，阿里云发布闭源基座模型通义千问2.5，该模型在去年12月推出的2.1版本基础上迭代，理解能力、逻辑推理、指令遵循、代码能力分别较上一代提升9%、16%、19%、10%。这款模型在OpenCompass主观综合测评中与GPT-4 Turbo并列第一，客观测评则落后于GPT-4 Turbo、Claude3-Opus和GLM-4，领先于Erniebot-4.0。值得注意的是，为适应不同的使用场景，通义给模型划分了尺寸，推出从5亿到1100亿参数不等的大语言模型。同时，阿里云宣布1100亿参数模型Qwen1.5-110B开源，这目前是国内开源领域最大的模型。

字节-豆包大模型家族亮相，一次发布9个模型

5月15日，由"云雀"更名为"豆包"的字节跳动自研大模型正式接入火山引擎，开始对外提供服务。此次亮相的豆包家族共有九款模型，包括两款通用模型和角色扮演、语音识别、语音合成、声音复刻、文生图、Function Call、向量化等七款应用在垂直场景的模型。关于模型参数和测评结果，字节方面未予公布。

腾讯-混元大模型升级，文生图大模型开源

5月17日，腾讯宣布混元大模型升级，新版模型总体性能较上一代提升50%，部分中文能力追平GPT-4。同时，腾讯大模型开源进展向前一步，升级后的混元文生图大模型宣布全面开源，而混元MoE模型也即将对外开源。面向开发者，腾讯还推出大模型知识引擎、大模型图像创作引擎、大模型视频创作引擎等三款PaaS产品。此外，背靠庞大的应用生态，腾讯称混元大模型已在腾讯会议、腾讯读书等600+内部业务和场景落地测试。

云启观察

继续追赶GPT-4的同时，参数量已不是大厂攻克的绝对目标。结合"钉子"打磨"锤子"，大厂各自的应用生态正成为模型能力的"实验田"。

4.大模型API价格战

"更多是大公司的游戏"

新模型与新应用层出不穷，穿插其间的价格战难以忽略。

5月6日，幻方旗下大模型创业公司深度求索以每百万tokens输入1元人民币的开源模型DeepSeek-V2掀起降价潮，该模型的API价格约为ChatGPT4的1/100。此后半个月，智谱、字节、科大讯飞、阿里、百度、腾讯等先后宣布大模型API降价，其中百度、腾讯、讯飞的部分轻量大模型在自限定条件下免费。

根据智能产业新媒体"智东西"统计，截止到5月24日，如果只看最高配版本模型，优惠力度最大的是字节和深度求索，价格均降至每百万tokens个位数级别。科大讯飞、腾讯云、阿里云次之，最高配模型的输入或输出定价都达到每百万tokens百元以下。

云启观察

这波降价潮客观反映出大模型推理成本的下降趋势，而在各大厂主流旗舰大模型性能未有明显差距的情况下，降价也被认为是大模型公司吸引开发者、获取更多优质数据的必然策略，从而使模型优化的"飞轮"继续转动。

不难发现，加入本轮降价潮以"大厂"为主，初创公司甚少。云启资本合伙人陈昱在接受晚点LatePost时表示，价格战打到最后还是大公司赢，"除非创业公司另辟蹊径，走与大公司不同的产品和商业化路线。"

5.具身智能持续进化

"人形机器人研发和融资都很活跃"

具身智能被认为是大语言模型落地物理世界的理想场景之一。热闹的AI"五月天"里，具身智能也在持续进化。

5月中上旬，包括机器人自动化领域顶级学术盛会 ICRA（国际机器人与自动化大会）在内的多个行业展会举行，擎朗智能、睿尔曼智能、酷家乐三家云启被投亮相多个行业盛会，展出了机器人相关的新产品和新技术。（详情点击这里查看）

人形机器人领域的动态也值得关注。产品方面，5月13日，宇树科技推出机器人世界模型和人形机器人新品Unitree G1 ，入门款G1标准版售价9.9万元人民币，系行业最低水平。融资方面，据云启不完全统计，加速进化、逐际动力、大象机器人等人形赛道的初创公司获得新一轮融资。

早前，**云启天使轮被投「星尘智能」**也于4月底披露首款自研AI机器人Astribot S1。通过模仿学习，S1能以媲美成年人的敏捷、灵活和丝滑度，执行多项对人有用的复杂任务，建立了新的AI机器人标准。该产品已接入大模型测试，并预计在2024年内完成商业化。（详情点击这里查看）

云启观察

AGI的进展让具身智能领域的产品研发和投融资动态都来到活跃期。云启看好机器人进入具身智能商业价值，相信其通用性、泛化性将给机器人落地应用带来巨大增益。期待在既有的硬件供应链优势下，看到具身智能公司实现更多软硬件结合的突破创新。

五月结束，盛夏将至，云启将持续关注AGI浪潮里的新火花、新变量。科技常新，也期待成为更多创新力量的同行者。

*文中事实性信息整理自媒体公开报道