回看AI“五月天”:最重要的五件小事 | Attent!on 科技手账
未来已来,只是分布不均
世界纷纷扰扰、喧喧闹闹什么是真实?
看不过来的大模型发布会、用不过来的AI助手产品、数不过来的大模型降价信息……形容5月的AI行业,用"疯狂"和"卷"并不为过。有媒体报道直言,这是AI行业在ChatGPT发布以来"最热闹的一个月"。
深耕AI领域的云启密切关注行业动态,在5月的最后一天,我们用这期**「Attent!on科技手账」梳理本月值得关注的行业动态,并分享我们的一些观察和思考**。我们也会持续通过这个系列,和大家一起在信息汪洋中看清方向。


1.OpenAI、 Google 、微软
更新「AI全家桶」
"比起性能,更亮眼的是多模态"
5月中下旬,备受关注的OpenAI、Google、微软接连在开发者大会发布"AI全家桶",从模型到应用再到硬件,可谓无所不"卷"。它们把AI带到了怎样的新高度?简单回顾:
5月14日,"先发制人"的OpenAI抛出端到端原生多模态旗舰模型GPT-4o。这款新模型在短短26分钟的发布会呈现了AI与语音、图像、视频等人类语言的低时延交互,在业内激起巨大水花。
Google于次日的I/O 2024开发者大会迎战。模型层,推出了Gemini 1.5pro、文生视频模型Veo,文生图模型Imagen 3;应用层,发布了AI搜索、AI+Gmail和谷歌力推的多模态助手工具「Project Astra」。与GPT-4o一致 ,多模态交互是谷歌这次更新颇受瞩目的一大亮点。
一周后,微软在Build2024大会发布了50多项重大更新。其中最受瞩目的关键词是Copilot,围绕智能助理功能,微软发布了Team Copilot、自定义Copilot等更新,并在大会前夕推出"Copilot+PC",意在从应用和硬件层面立体重塑生产力。
云启观察
端到端原生多模态成大模型的主力"竞技场"。 无论是先声夺人的GPT-4o,还是Google的Project Astra,实时有感情的语音、视频交互是最令人惊艳之处。而这些能力的实现,基于模型层面的算法大一统,即ASR(自动语音识别)、TTS(文本到语音)等拆解步骤被合而为一了。
端到端原生多模态大模型的迭代将进一步改变人机交互方式,也将给应用层创新带来更大的想象空间。
但模型性能本身的更新效果并不算突出,大模型能力的成长曲线似乎在变缓。云启合伙人陈昱接受晚点Late Post采访时表示,这个趋势大概率会延续下去,一个关键原因是能够训练大语言模型优质数据已接近耗尽。

2.大模型创业公司"开卷"
AI助手产品
"各有各的卖点,差异化待提升"
国内的AI竞技场同样喧嚣。在迭代模型能力的同时,大模型创业公司也频频推出基于自研模型的助手类应用。
- MiniMax-「海螺AI」发布,语音交互是亮点
5月15日,云启天使轮被投MiniMax正式推出生产力产品「海螺AI」。这是MiniMax自娱乐类产品「星野」后推出的另一款to C产品,包含网页版和iOS及安卓App端。「海螺AI」接入了 MiniMax 自研的多模态大模型,包括4月份发布的万亿参数 MoE 大语言模型 abab6.5,以及语音大模型和图像大模型。这也意味着「海螺AI」支持文本、图像、语音等多模态交互。其中值得一提的是语音交互,用户可以拨打语音电话的方式与「海螺AI」进行问答,其支持声音设置、声音克隆等功能。
- 零一万物-发布首个闭源模型,接入to C生产力产品
5月13日,李开复担任CEO的零一万物发布千亿参数模型Yi-Large,此系该公司成立近一年来发布的首款闭源模型。Yi-Large也接入了零一万物近期推出的AI生产力工具"万知"。这款产品被定位为"问答、阅读、创作的一站式AI工作平台",本质上是一款to C效率工具,以长文档阅读和创作为核心卖点。
- 百川智能-基座大模型更新,AI助手产品上线
5月22日,百川智能发布最新一代基座大模型Baichuan 4,同时推出了首款 AI 助手应用「百小应」。除知识问答、文本读取与整理、辅助创作等"标准动作"外,多轮搜索、定向搜索能力是「百小应」希望突出的特色。
云启观察
起跑一年,自研应用也成为大模型创业公司在模型能力之外的发力点,技术与应用双驱动的路线愈加常见。
但纵观各家的AI助手应用,功能和使用效果上还没有出现质的差异,而显著的差异才是强化用户心理认知、建立品牌认同的关键。

3.国内大厂继续打磨大模型
"模型越来越多了,应用场景也是"
本月,阿里、字节、腾讯等大厂陆续推出升级后的大模型,并且进一步将模型能力嵌入到各自的应用生态中。
- 阿里-闭源版通义千问迭代,对标GPT-4 Turbo
5月9日,阿里云发布闭源基座模型通义千问2.5,该模型在去年12月推出的2.1版本基础上迭代,理解能力、逻辑推理、指令遵循、代码能力分别较上一代提升9%、16%、19%、10%。这款模型在OpenCompass主观综合测评中与GPT-4 Turbo并列第一,客观测评则落后于GPT-4 Turbo、Claude3-Opus和GLM-4,领先于Erniebot-4.0。值得注意的是,为适应不同的使用场景,通义给模型划分了尺寸,推出从5亿到1100亿参数不等的大语言模型。同时,阿里云宣布1100亿参数模型Qwen1.5-110B开源,这目前是国内开源领域最大的模型。
- 字节-豆包大模型家族亮相,一次发布9个模型
5月15日,由"云雀"更名为"豆包"的字节跳动自研大模型正式接入火山引擎,开始对外提供服务。此次亮相的豆包家族共有九款模型,包括两款通用模型和角色扮演、语音识别、语音合成、声音复刻、文生图、Function Call、向量化等七款应用在垂直场景的模型。关于模型参数和测评结果,字节方面未予公布。
- 腾讯-混元大模型升级,文生图大模型开源
5月17日,腾讯宣布混元大模型升级,新版模型总体性能较上一代提升50%,部分中文能力追平GPT-4。同时,腾讯大模型开源进展向前一步,升级后的混元文生图大模型宣布全面开源,而混元MoE模型也即将对外开源。面向开发者,腾讯还推出大模型知识引擎、大模型图像创作引擎、大模型视频创作引擎等三款PaaS产品。此外,背靠庞大的应用生态,腾讯称混元大模型已在腾讯会议、腾讯读书等600+内部业务和场景落地测试。
云启观察
继续追赶GPT-4的同时,参数量已不是大厂攻克的绝对目标。结合"钉子"打磨"锤子",大厂各自的应用生态正成为模型能力的"实验田"。

4.大模型API价格战
"更多是大公司的游戏"
新模型与新应用层出不穷,穿插其间的价格战难以忽略。
5月6日,幻方旗下大模型创业公司深度求索以每百万tokens输入1元人民币的开源模型DeepSeek-V2掀起降价潮,该模型的API价格约为ChatGPT4的1/100。此后半个月,智谱、字节、科大讯飞、阿里、百度、腾讯等先后宣布大模型API降价,其中百度、腾讯、讯飞的部分轻量大模型在自限定条件下免费。
根据智能产业新媒体"智东西"统计,截止到5月24日,如果只看最高配版本模型,优惠力度最大的是字节和深度求索,价格均降至每百万tokens个位数级别。科大讯飞、腾讯云、阿里云次之,最高配模型的输入或输出定价都达到每百万tokens百元以下。
云启观察
这波降价潮客观反映出大模型推理成本的下降趋势,而在各大厂主流旗舰大模型性能未有明显差距的情况下,降价也被认为是大模型公司吸引开发者、获取更多优质数据的必然策略,从而使模型优化的"飞轮"继续转动。
不难发现,加入本轮降价潮以"大厂"为主,初创公司甚少。云启资本合伙人陈昱在接受晚点LatePost时表示,价格战打到最后还是大公司赢,"除非创业公司另辟蹊径,走与大公司不同的产品和商业化路线。"

5.具身智能持续进化
"人形机器人研发和融资都很活跃"
具身智能被认为是大语言模型落地物理世界的理想场景之一。热闹的AI"五月天"里,具身智能也在持续进化。
5月中上旬,包括机器人自动化领域顶级学术盛会 ICRA(国际机器人与自动化大会)在内的多个行业展会举行,擎朗智能、睿尔曼智能、酷家乐三家云启被投亮相多个行业盛会,展出了机器人相关的新产品和新技术。(详情点击这里查看)
人形机器人领域的动态也值得关注。产品方面,5月13日,宇树科技推出机器人世界模型和人形机器人新品Unitree G1 ,入门款G1标准版售价9.9万元人民币,系行业最低水平。融资方面,据云启不完全统计,加速进化、逐际动力、大象机器人等人形赛道的初创公司获得新一轮融资。
早前,**云启天使轮被投「星尘智能」**也于4月底披露首款自研AI机器人Astribot S1。通过模仿学习,S1能以媲美成年人的敏捷、灵活和丝滑度,执行多项对人有用的复杂任务,建立了新的AI机器人标准。该产品已接入大模型测试,并预计在2024年内完成商业化。(详情点击这里查看)
云启观察
AGI的进展让具身智能领域的产品研发和投融资动态都来到活跃期。云启看好机器人进入具身智能商业价值,相信其通用性、泛化性将给机器人落地应用带来巨大增益。期待在既有的硬件供应链优势下,看到具身智能公司实现更多软硬件结合的突破创新。
五月结束,盛夏将至,云启将持续关注AGI浪潮里的新火花、新变量。科技常新,也期待成为更多创新力量的同行者。
*文中事实性信息整理自媒体公开报道





