谷歌对阵GPT-4o，我们关心什么？| 云启「Future Scope」

云启资本·2024年5月15日·6·0

原生多模态大模型“战局”正酣

大模型的能力边界持续刷新。

北京时间5月14日凌晨，Open AI发布新模型GPT-4o。主打端到端多模态和跨语音、文本、视觉推理交流，GPT-4o在短短26分钟的发布会上凭借人机视频对话、实时翻译等表现惊艳众人。

深耕AI的云启也在GPT-4o发布当天展开讨论，我们认为：

➤超快超便宜、实时带感情的语音交互和实时视频交互是GPT-4o最吸睛的三个亮点。这些能力的实现，基于**GPT-4o在模型层面的算法大一统，**ASR（自动语音识别）、TTS（文本到语音）等拆解步骤被合而为一了。

➤但GPT-4o模型的更新效果差异有限，这次更新更像是现有技术组合下针对应用的创新，也更多体现了Open AI的产品思维。 与此同时，以GPT-4o为代表的端到端原生多模态大模型的迭代，也将给应用层创新带来更大的想象空间。

就在GPT-4o面世一天后，谷歌在北京时间5月15日凌晨召开的2024年谷歌 I/O上发布了多款AI产品的重要更新，直接对垒Open AI。谷歌的「AI全家桶」创新成色如何？本期云启「Future Scope」带你了解详情。

下文来源：Founder Park

原标题：提及121次AI的谷歌I/O，发布了哪些产品来应对OpenAI？

北京时间5月15日凌晨，在OpenAI春季发布会的第二天，2024年谷歌I/O召开，这是一场充满了AI的发布会，谷歌对其旗下的多款AI产品发布了大更新，从基座模型Gemini到新的AI助手Astra、新的文生视频模型Veo，以及更强大的文生图模型Imagen 3。

还有就是，谷歌终于决定对搜索进行AI改造了！重新设计了搜索的展示形态，并且很快将对美国用户推出AI Overviews（AI 概览）功能。

1

Gemini 更新：更长上下文、

轻量版本、个性化机器人

首先是Gemini 1.5 Pro，100 万 tokens 的长文本能力，目前已登陆 AI Studio，向所有开发者开放使用。

Google Workspace中也将可以使用Gemini 1.5 Pro，用户可以使用 AI 进行邮件总结或者PDF文本分析，比如搜索用户的所有邮件并且显示摘要，加快用户的邮件处理速度。

最大的更新尚未到来——谷歌宣布今年晚些时候将模型的现有上下文窗口增加一倍，达到200万tokens。这将使其能够处理2小时的视频、22小时的音频、超过 60,000行代码或超过140万个单词，是目前Claude 3上下文长度的两倍。

除了更长的上下文窗口，Google表示，在过去的几个月里，通过算法改进，Gemini 1.5 Pro已经得到了「增强」。在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面更加出色。在Gemini API和AI Studio中，1.5 Pro现在可以跨音频进行推理，除了图像和视频之外，还可以通过称为系统指令的功能进行「引导」。

对于Gemini的订阅用户，可以使用谷歌新推出的「Gems」功能，创建不同种类的 Chatbot，类似于在Character.AI中制作机器人，该服务允许用户与流行角色和名人的AI版本或甚至AI医生交谈。谷歌表示，用户可以将Gemini变成健身伙伴、厨师、编程伙伴、创意写作指南或能想到的任何东西。

Gems有些类似于OpenAI的GPT商店。

轻量级的Gemini：Gemini1.5 Flash

可能是出于成本的考虑，在已有的Nano、Pro和Ultra 之外，谷歌发布了新的轻量级模型：Gemini 1.5 Flash，为开发人员提供更多选择。

这是Pro版本的精简版，更便宜更轻量级，但功能同样强大，谷歌表示这是通过「蒸馏」的方式来实现的，将 Gemini 1.5 Pro 中最重要的知识和技能转移到较小的模型上。这意味着Gemini 1.5 Flash将获得与 Pro 相同的多模态功能（分析音频、视频和图像等），以及同样长度的上下文窗口。

官方声称，Flash版本适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。目前开发者可以通过API的方式使用，Flash模型并未向普通消费者提供。

工作人员详细介绍了Gemini 1.5 Pro 和 Flash的定价。Gemini 1.5 Flash的价格定为每100万 tokens 35 美分，这比GPT-4o的每100万tokens 5美元的价格要便宜得多。

此外还有一些其他应用中加上了AI的能力：

Ask Photos with Gemini：谷歌Photo中，用户可以直接使用对话功能搜索图片，比如「我访问的每个国家公园的最佳图片」，目前优先向One订阅用户开放。
桌面版Chrome中内置Gemini Nano：从Chrome 126版本开始，Gemini Nano 将直接集成于Chrome的桌面版本中，后续会启用一系列的API，提供诸如翻译、字幕和文本转录的功能。
基于Gemini 1.5 Pro 的Gemini Advanced：升级后的Gemini Advanced可以处理「多个大型文档，总计最多 1,500 页，或汇总 100 封电子邮件」。支持35多种语言和150多个国家/地区。而其「即将」推出的功能是能够「处理一个小时的视频内容或超过30,000行的代码库」。

开源模型Gamma2 6月推出

Gemma是谷歌的开放模型系列，采用与Gemini模型相同的技术构建。此次谷歌在原来模型基础上宣布推出Gemma2，Gemma2采用全新架构，旨在实现突破性的性能和效率，并将提供27B大小的尺寸。

目前可用的是PaliGemma，号称Gemma家族的第一个视觉LLM，据悉，PaliGemma 是谷歌受PaLI-3启发，将用户图像字幕、图像标注和物体识别等。

2

终于对搜索下手了：AI Overviews

谷歌将在搜索中加入AI结果的呈现：AI Overviews(AI概览），在用户进行提问时在页面顶部提供AI生成的答案。

官方人员表示，AI概览不会出现在每个搜索结果中，目前主要针对于更复杂的问题。每次用户进行搜索时，谷歌会在后台进行算法价值判断，以决定是否提供由 AI生成的答案还是直接提供传统的网页链接。

本周谷歌将向美国用户提供AI概览功能，该功能将在年底推广到更多国家。该功能面向全平台推出，从Web网页、App到Android设备。

此外，即将发布的功能还有行程规划功能，你可以要求谷歌为你制定膳食计划，或者找到一个附近提供折扣的普拉提健身房。在谷歌的规划中，AI Agent可以汇总附近的工作室和用户评论，并规划出步行时间，依赖于谷歌拥有的大量数据，这是其他AI搜索暂时无法做到的。

谷歌Lens也发布了新的更新：可以直接拍摄视频进行搜索，以前Lens只能捕捉图片，现在则可以使用视频和语音进行提问。

3

Astra：与ChatGPT殊途同归

谷歌的最新AI语音助手——Astra，能够通过摄像头识别物体、代码和各种东西。这个概念其实是DeepMind负责人Dmis在去年 12 月首次推出Gemini模型所承诺的功能。

Astra能够通过设备的摄像头识别物体和场景，并用自然语言进行交互。官方介绍，Astra使用了Gemini Ultra的高级版本。

在演示中，用户可以佩戴谷歌的智能眼镜可以与Astra进行交互，这也被视为一个重启谷歌智能眼镜的机会。

Demis在此前的采访中表示，文本聊天只是通过更复杂的AI助手的过渡阶段，语音和视觉可能才是未来，这也是为什么 Gemini 是原生多模态的大模型。

4

挑战Sora：Veo视频生成模型

谷歌希望用Veo来挑战OpenAI的Sora，Veo能够根据提示词生成60秒时长的 1080P的视频片段，可以捕捉不同的视觉和电影风格，包括风景镜头、延时摄影灯。

Veo接受了大量的镜头训练。这也是当下大模型的训练方式：提供一个又一个的数据示例，模型就会在数据中找到模式，使它们能够生成新数据——对Veo来说数据就是视频。官方人员承认有些数据来自YouTube。

像Sora一样，Veo对物理有一定的理解——比如流体动力学和重力等，这些有助于它生成更具真实感的视频。

Veo还支持对视频的特定区域进行遮罩编辑，并可以从静态图像生成视频，类似于 Stability AI 的 Stable Video等生成模型。最引人注目的是，给定一系列共同讲述一个故事的提示，Veo可以生成更长的视频——超过一分钟长度的视频。

Imagen3文生图模型

DeepMind负责人Demis声称，与Imagen 2相比，Imagen 3能够更准确理解图像的文本提示词，并且生成的图片更具创造性和细节。

「这是我们文本渲染的最好模型，这对于图像生成来说一直是个挑战。」Demis补充道。

此外，谷歌宣称，Imagen3将使用由 DeepMind 开发的 SynthID 水印方法，对生成的图片应用不可见的、加密的水印。SynthID将全面应用于AI生成的图片、视频和音乐作品中。

5

Android 15深度集成AI

在I/O大会上，谷歌提到了即将推出的安卓新版本，即以 AI 为核心的Android，今年将实现三项突破：在Android上提供更好的搜索、Gemini正在成为AI助手，以及设备上的AI将解锁新的体验。

与底层操作系统的集成后，就能实现一些更酷的功能。Android上的Gemini具有更强的上下文感知能力，可以覆盖在正在使用的任何app之上，因此你无需来回切换。还有一个巧妙的功能，用户能够使用Gemini生成图像，并将它们拖放到像 Gmail或Google消息这样的应用程序中。

谷歌将在手机上尝试搜索的新方式：Circle to Search，就像Now on Tap一样，这种方式更有互动性，非常直观。

谷歌还展示了直接通过Pixel 8a上的Google Messages应用程序使用Gemini的不同方式。它包括能够分析PDF或视频并向Gemini提出问题，获得清晰（并引用）的答复。这些功能将在「未来几个月」出现在更多设备上。

如果用户将Gemini设置Android手机的默认助手，它可以对网页或屏幕截图进行总结或回答问题。不久，它还将能够检测到屏幕上是否有视频，并可以跟用户进行互动。

可能，集成了Gemini的手机助手，才是多年前发布的Google Now的完全版。

本文首发于公众号：Founder Park

如需转载请联系：geekparker