谷歌对阵GPT-4o,我们关心什么?| 云启「Future Scope」

云启资本·2024年5月15日

原生多模态大模型“战局”正酣

大模型的能力边界持续刷新。

北京时间5月14日凌晨,Open AI发布新模型GPT-4o。主打端到端多模态和跨语音、文本、视觉推理交流,GPT-4o在短短26分钟的发布会上凭借人机视频对话、实时翻译等表现惊艳众人。

深耕AI的云启也在GPT-4o发布当天展开讨论,我们认为:

➤超快超便宜、实时带感情的语音交互和实时视频交互是GPT-4o最吸睛的三个亮点。这些能力的实现,基于**GPT-4o在模型层面的算法大一统,**ASR(自动语音识别)、TTS(文本到语音)等拆解步骤被合而为一了。

➤但GPT-4o模型的更新效果差异有限,这次更新更像是现有技术组合下针对应用的创新,也更多体现了Open AI的产品思维。 与此同时,以GPT-4o为代表的端到端原生多模态大模型的迭代,也将给应用层创新带来更大的想象空间

就在GPT-4o面世一天后,谷歌在北京时间5月15日凌晨召开的2024年谷歌 I/O上发布了多款AI产品的重要更新,直接对垒Open AI。谷歌的「AI全家桶」创新成色如何?本期云启「Future Scope」带你了解详情。

下文来源:Founder Park

原标题:提及121次AI的谷歌I/O,发布了哪些产品来应对OpenAI?

北京时间5月15日凌晨,在OpenAI春季发布会的第二天,2024年谷歌I/O召开,这是一场充满了AI的发布会,谷歌对其旗下的多款AI产品发布了大更新,从基座模型Gemini到新的AI助手Astra、新的文生视频模型Veo,以及更强大的文生图模型Imagen 3。

还有就是,谷歌终于决定对搜索进行AI改造了!重新设计了搜索的展示形态,并且很快将对美国用户推出AI Overviews(AI 概览)功能。

1

Gemini 更新:更长上下文、

轻量版本、个性化机器人

首先是Gemini 1.5 Pro,100 万 tokens 的长文本能力,目前已登陆 AI Studio,向所有开发者开放使用。

Google Workspace中也将可以使用Gemini 1.5 Pro,用户可以使用 AI 进行邮件总结或者PDF文本分析,比如搜索用户的所有邮件并且显示摘要,加快用户的邮件处理速度。

最大的更新尚未到来——谷歌宣布今年晚些时候将模型的现有上下文窗口增加一倍,达到200万tokens。这将使其能够处理2小时的视频、22小时的音频、超过 60,000行代码或超过140万个单词,是目前Claude 3上下文长度的两倍

除了更长的上下文窗口,Google表示,在过去的几个月里,通过算法改进,Gemini 1.5 Pro已经得到了「增强」。在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面更加出色。在Gemini API和AI Studio中,1.5 Pro现在可以跨音频进行推理,除了图像和视频之外,还可以通过称为系统指令的功能进行「引导」。

对于Gemini的订阅用户,可以使用谷歌新推出的「Gems」功能,创建不同种类的 Chatbot,类似于在Character.AI中制作机器人,该服务允许用户与流行角色和名人的AI版本或甚至AI医生交谈。谷歌表示,用户可以将Gemini变成健身伙伴、厨师、编程伙伴、创意写作指南或能想到的任何东西。

Gems有些类似于OpenAI的GPT商店。

轻量级的Gemini:Gemini1.5 Flash

可能是出于成本的考虑,在已有的Nano、Pro和Ultra 之外,谷歌发布了新的轻量级模型:Gemini 1.5 Flash,为开发人员提供更多选择。

这是Pro版本的精简版,更便宜更轻量级,但功能同样强大,谷歌表示这是通过「蒸馏」的方式来实现的,将 Gemini 1.5 Pro 中最重要的知识和技能转移到较小的模型上。这意味着Gemini 1.5 Flash将获得与 Pro 相同的多模态功能(分析音频、视频和图像等),以及同样长度的上下文窗口。

官方声称,Flash版本适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。目前开发者可以通过API的方式使用,Flash模型并未向普通消费者提供。

工作人员详细介绍了Gemini 1.5 Pro 和 Flash的定价。Gemini 1.5 Flash的价格定为每100万 tokens 35 美分,这比GPT-4o的每100万tokens 5美元的价格要便宜得多。

此外还有一些其他应用中加上了AI的能力:

  • Ask Photos with Gemini:谷歌Photo中,用户可以直接使用对话功能搜索图片,比如「我访问的每个国家公园的最佳图片」,目前优先向One订阅用户开放。

  • 桌面版Chrome中内置Gemini Nano:从Chrome 126版本开始,Gemini Nano 将直接集成于Chrome的桌面版本中,后续会启用一系列的API,提供诸如翻译、字幕和文本转录的功能。

  • 基于Gemini 1.5 Pro 的Gemini Advanced:升级后的Gemini Advanced可以处理「多个大型文档,总计最多 1,500 页,或汇总 100 封电子邮件」。支持35多种语言和150多个国家/地区。而其「即将」推出的功能是能够「处理一个小时的视频内容或超过30,000行的代码库」。

开源模型Gamma2 6月推出

Gemma是谷歌的开放模型系列,采用与Gemini模型相同的技术构建。此次谷歌在原来模型基础上宣布推出Gemma2,Gemma2采用全新架构,旨在实现突破性的性能和效率,并将提供27B大小的尺寸。

目前可用的是PaliGemma,号称Gemma家族的第一个视觉LLM,据悉,PaliGemma 是谷歌受PaLI-3启发,将用户图像字幕、图像标注和物体识别等。

2

终于对搜索下手了:AI Overviews

谷歌将在搜索中加入AI结果的呈现:AI Overviews(AI概览),在用户进行提问时在页面顶部提供AI生成的答案。

官方人员表示,AI概览不会出现在每个搜索结果中,目前主要针对于更复杂的问题。每次用户进行搜索时,谷歌会在后台进行算法价值判断,以决定是否提供由 AI生成的答案还是直接提供传统的网页链接。

本周谷歌将向美国用户提供AI概览功能,该功能将在年底推广到更多国家。该功能面向全平台推出,从Web网页、App到Android设备。

此外,即将发布的功能还有行程规划功能,你可以要求谷歌为你制定膳食计划,或者找到一个附近提供折扣的普拉提健身房。在谷歌的规划中,AI Agent可以汇总附近的工作室和用户评论,并规划出步行时间,依赖于谷歌拥有的大量数据,这是其他AI搜索暂时无法做到的

谷歌Lens也发布了新的更新:可以直接拍摄视频进行搜索,以前Lens只能捕捉图片,现在则可以使用视频和语音进行提问。

3

Astra:与ChatGPT殊途同归

谷歌的最新AI语音助手——Astra,能够通过摄像头识别物体、代码和各种东西。这个概念其实是DeepMind负责人Dmis在去年 12 月首次推出Gemini模型所承诺的功能。

Astra能够通过设备的摄像头识别物体和场景,并用自然语言进行交互。官方介绍,Astra使用了Gemini Ultra的高级版本。

在演示中,用户可以佩戴谷歌的智能眼镜可以与Astra进行交互,这也被视为一个重启谷歌智能眼镜的机会。

Demis在此前的采访中表示,文本聊天只是通过更复杂的AI助手的过渡阶段,语音和视觉可能才是未来,这也是为什么 Gemini 是原生多模态的大模型。

4

挑战Sora:Veo视频生成模型

谷歌希望用Veo来挑战OpenAI的Sora,Veo能够根据提示词生成60秒时长的 1080P的视频片段,可以捕捉不同的视觉和电影风格,包括风景镜头、延时摄影灯。

Veo接受了大量的镜头训练。这也是当下大模型的训练方式:提供一个又一个的数据示例,模型就会在数据中找到模式,使它们能够生成新数据——对Veo来说数据就是视频。官方人员承认有些数据来自YouTube。

像Sora一样,Veo对物理有一定的理解——比如流体动力学和重力等,这些有助于它生成更具真实感的视频。

Veo还支持对视频的特定区域进行遮罩编辑,并可以从静态图像生成视频,类似于 Stability AI 的 Stable Video等生成模型。最引人注目的是,给定一系列共同讲述一个故事的提示,Veo可以生成更长的视频——超过一分钟长度的视频

Imagen3文生图模型

DeepMind负责人Demis声称,与Imagen 2相比,Imagen 3能够更准确理解图像的文本提示词,并且生成的图片更具创造性和细节。

「这是我们文本渲染的最好模型,这对于图像生成来说一直是个挑战。」Demis补充道。

此外,谷歌宣称,Imagen3将使用由 DeepMind 开发的 SynthID 水印方法,对生成的图片应用不可见的、加密的水印。SynthID将全面应用于AI生成的图片、视频和音乐作品中。

5

Android 15深度集成AI

在I/O大会上,谷歌提到了即将推出的安卓新版本,即以 AI 为核心的Android,今年将实现三项突破:在Android上提供更好的搜索、Gemini正在成为AI助手,以及设备上的AI将解锁新的体验。

与底层操作系统的集成后,就能实现一些更酷的功能。Android上的Gemini具有更强的上下文感知能力,可以覆盖在正在使用的任何app之上,因此你无需来回切换。还有一个巧妙的功能,用户能够使用Gemini生成图像,并将它们拖放到像 Gmail或Google消息这样的应用程序中。

谷歌将在手机上尝试搜索的新方式:Circle to Search,就像Now on Tap一样,这种方式更有互动性,非常直观。

谷歌还展示了直接通过Pixel 8a上的Google Messages应用程序使用Gemini的不同方式。它包括能够分析PDF或视频并向Gemini提出问题,获得清晰(并引用)的答复。这些功能将在「未来几个月」出现在更多设备上。

如果用户将Gemini设置Android手机的默认助手,它可以对网页或屏幕截图进行总结或回答问题。不久,它还将能够检测到屏幕上是否有视频,并可以跟用户进行互动。

可能,集成了Gemini的手机助手,才是多年前发布的Google Now的完全版。

本文首发于公众号:Founder Park

如需转载请联系:geekparker