AI五月大考,微软交卷了| 云启科技π

云启资本·2024年5月22日

AI如何拯救你的生产力?

AI如何与现实世界产生关联?在愈演愈烈的AI“战事”中,这个问题的答案逐渐清晰。

继Open AI 、谷歌之后,微软在今天凌晨开幕的Build 2024开发者大会发布了50多项重大更新。从“重头戏”Copilot,再到Copilot加持的Agent,以及大会前夕亮相的AI PC,微软正以“软硬兼施”的节奏重塑生产力工具的“每一寸肌肤”。

本轮AGI浪潮之初,云启曾判断:随着模型推理能力和处理工具使用能力的增强,未来的软件形式发生重大变化,AI Agent在工具性和体验感上将给用户带来融合使用体验;与此同时,硬件也将成为AI落地现实的重要入口。

如今这些变化正在发生,我们也期待和更多敏锐的创新者一道,让AI更深地融入现实。

本期「云启科技π」带你了解,微软发布的AI“新杀器”如何融入生产力?

下文授权转载自:有新Newin

原标题:速递|微软 Build 2024开发者大会汇总

凌晨,微软在 Build 2024 开发者大会上举行了两次主题演讲。微软希望将生成式 AI 带到 Windows 以及 PC 最前沿。

活动现场,微软推出了一系列新的 Windows 机器 "Copilot+ PC",以及 Recall 等 AI 驱动的生成式 AI 功能,可帮助用户查找应用程序、文件和其他内容。

微软将 "Copilot" 定义成自家的生成式 AI 品牌,相关功能很快将更深入地融入 Windows 11 体验中,而新的 Microsoft Surface 设备即将上市。

微软希望将AI融入到我们能找到的每一个角落和缝隙,这也意味着 Copilot 会不仅看着你,且协助你完成《我的世界》中的游戏任务,或成为你的 AI Agent 同事。

Copilot+ PC

Copilot+PC是微软推出的最新AI硬件,其包含称为 NPU 的专用芯片,用于为Recall等AI体验提供支持,至少配备16GB RAM,搭配SSD存储。

首批Copilot+电脑将搭载高通的Snapdragon X Elite和Plus芯片,微软称这些芯片可提供长达15小时的网页浏览时间和20小时的视频电池续航时间。

Intel和AMD也致力于与宏碁、华硕、戴尔、惠普、联想和三星等一系列制造商合作,为Copilot+设备制造处理器。**Copilot+PC起价为999美元,**部分产品现已开始预订。

Surface Pro & Surface 笔记本电脑

微软推出新款Surface设备 —— Surface Laptop和Surface Pro,并注重性能和电池,新款Surface Laptop配备13.8英寸或15英寸显示屏,经过重新设计,具有"现代线条"和更薄的屏幕边框。

微软表示,它充电一次可使用长达22小时,速度比Surface Laptop 5快86%。它还支持Wi-Fi 7,并配有触觉反馈触控板。

新款Surface Pro比上一代Surface Pro(Surface Pro 9)速度提升了 90%,并且配备了带有HDR显示屏的新型 OLED、Wi-Fi 7(以及可选的 5G)和升级超广角前置摄像头。此外,其可拆卸键盘(已用额外的碳纤维加固)具有触觉反馈。

Recall "时光倒流"

Windows 11即将推出的Recall功能可以"记住"用户几周甚至几个月前在PC上访问的应用程序和内容,例如帮助他们找到正在讨论他们正在考虑购买的衣服的 Discord聊天。

用户可以使用Recall的时间线"向后滚动",查看他们最近在做什么,并深入查看 PowerPoint演示文稿等文件,以显示可能与他们的搜索相关的信息。

Recall可以在颜色、图像等之间建立关联,让用户可以用自然语言搜索PC上的几乎所有内容(与初创公司Rewind的技术没有什么不同);开发人员将能够通过向应用程序添加上下文信息来提高召回率。

此外,微软表示与Recall相关的所有用户数据都是保密的并保存在设备上 - 重要的是,不用于训练AI模型。

图像编辑和实时翻译

Windows的新功能"超级分辨率"可通过自动放大旧照片来恢复旧照片。Copilot现在可以分析图像,为用户提供创意构图的灵感。通过一项名为Cocreator的功能,用户可以生成图像,还可以让AI模型按照他们所绘制的内容来更改或重新设计图像。

在其他地方,带有实时翻译的实时字幕可以将通过PC传输的任何音频(无论是来自YouTube还是本地文件)翻译成用户选择的语言。实时翻译最初将支持大约40 种语言,包括英语、西班牙语、普通话和俄语。

Microsoft Edge中的一项独立但相关的新功能可在LinkedIn、YouTube、Coursera、路透社、CNBC、彭博社等网站上提供实时视频翻译。该功能将于不久的将来推出,支持将西班牙语翻译成英语,以及将英语翻译成德语、印地语、意大利语、俄语和西班牙语,并通过配音和字幕实时翻译口语内容。

微软表示该功能"即将推出",未来将添加更多语言和视频平台。

Volumetric Apps

微软正在将 Windows Volumetric Apps 引入 Meta Quest 耳机。微软表示,通过与 Meta 的合作,它将为Quest耳机提供Windows 365和本地PC连接,使开发人员能够将他们的应用程序扩展到3D空间。

微软从Meta Quest 3耳机的角度展示了Xbox控制器的数字分解3D视图——佩戴者可以用手操纵的数字对象。

微软Windows和设备首席副总裁 Pavan Davuluri 表示,微软正在深化与Meta的合作关系,以使Windows在Quest设备上提供一流的体验。

开发人员可以注册预览版以获取对Microsoft新体积API的访问权限。

Team Copilot

Team Copilot是Microsoft不断发展的Copilot生成式AI技术套件的最新扩展。 它由公司的视频会议应用程序Teams集成,以帮助管理会议议程并记录会议中的任何人都可以共同撰写的笔记。

它还扩展到 Microsoft 的协作和规划平台 Loop 和 Planner,用于创建和分配任务、跟踪截止日期并在需要时通知团队成员。

此外,Microsoft Teams 现已支持添加你自己的表情符号的功能,就像在 Slack 中一样,管理员可以限制谁可以添加表情符号,且在组织域之外不可见,预计七月上线。

Azure AI Studio+ Copilot Studio

Azure AI Studio是微软Azure OpenAI服务中的工具集 ,它允许客户组合AI模型,并构建一个"推理"数据的应用程序。不久后将允许开发人员用按需付费的推理API 创建应用程序——开发人员可以通过这些API访问和微调托管在Azure基础设施上的生成AI模型。

微软称之为"模型即服务",并将首先推出来自Nixtla和Core42的模型。在相邻的Copilot Studio产品套件中,微软正在推出 Copilot Agent,可以"独立编排针对特定角色和功能定制的任务"。

Copilot Studio提供了将Copilot for Microsoft 365(Excel 和 Word 等应用程序中由AI驱动的Copilot功能,支持连接到第三方数据的工具,并利用内存和上下文知识,Copilot Agent可以导航各种类型的业务工作流程、从用户反馈中学习,并在遇到不知道如何处理的情况时寻求帮助。

微软表示,Copilot AI很快可以作为虚拟员工,企业可以用它来执行一些琐碎的任务,例如监控电子邮件、执行一系列自动化任务、帮助员工入职或进行数据输入,所有这些都无需提示。

此外,新的Copilot功能不会取代所有工作——只会取代无聊的部分,这项新功能将于今年晚些时候在Copilot Studio预览版中发布。

Windows Copilot Runtime

Windows Copilot运行时为召回和超分辨率等功能提供支持,它是约40个生成式 AI模型的集合,构成了Microsoft所描述的 Windows 的"新层"。

Windows Copilot 运行时与语义索引(单个 Copilot+ PC 本地基于矢量的系统)相结合,允许生成式AI驱动的应用程序(包括第三方应用程序)运行,而无需互联网连接。

Windows Copilot 由现成的AI API组成,例如Studio Effects、实时字幕翻译、OCR、带有用户活动的Recall等,这些API将于6月向开发人员提供。

此外,TikTok母公司字节跳动推出的流行视频编辑器CapCut将使用Windows Copilot 运行时和随附的新Windows Copilot库(一组 API 和 AI 开发工具)来加速其 AI 功能。

Meta还将在WhatsApp中添加上述 Studio Effects,以在视频通话期间提供背景模糊和目光接触等功能。

Phi-3-vision 多模态模型

微软推出了Phi-3-vision,这是4月份宣布的Phi-3 AI 模型的新版本,它是多模态的,可以阅读文本和查看图片。但它是一种小型语言模型,足够紧凑,可以在移动设备上工作。

Phi-3-vision是微软Phi-3系列模型的一部分,微软于4月份宣布推出,现已提供预览版。

GPT-4o 与 Azure AI

在Microsoft Build2024 上,微软表示,希望获得GPT-4o的人现在可以通过 Azure AI Studio获得,并以API的形式访问它。

Microsoft的Azure AI Studio是开发人员尝试Azure支持的最新工具的游乐场,其中包括GPT-4 Turbo和现在的GPT-4o 等OpenAI模型。GPT-4o的图像和视觉功能已经可以通过OpenAI自己的API和ChatGPT获得,而备受期待的语音模式还有几周的时间。

Satya Nadella 现场分享了人们通过 Copilot使用GPT-4o 的一些方法。这包括与 GPT-4o支持的Copilot共享您的屏幕或会话,并请求其帮助玩 Minecraft。然而,正如 Mashable 的 Alex Perry指出的那样,如果你在《我的世界》中遇到困难,"你可以玩游戏 10 分钟,也可以直接用Google 搜索一下。"

Sam Altman 也出席现场,他表示新的模态和Agent智能体将是OpenAI下一个模型关键,预计模型将会变得更智能、更强大,更安全,GPT-4o 将会速度更快,成本更低。

Scaling Law将像摩尔定律一般改变我们使用数据、生成数据的方式,全新的交互界面,即模型本身,将支持文本、语音、图像、视频作为输入和输出。

随后Microsoft CTO Kevin Scott展示了GPT-4o如何帮助编写代码,并强调模型将如何继续变得更快、更强大。将手机对准代码屏幕,使用GPT-4o的ChatGPT 风格机器人读取代码,并帮助首席工程师Jennifer Marsman实时解决问题。

高通版 Mac Mini

高通发布了用于Windows的大约 Mac Mini 大小、售价 899 美元的Snapdragon 开发套件内置了Snapdragon X Elite芯片,它还拥有 32GB RAM、512GB SSD 和大量端口。

Microsoft 文件资源管理器作为 Git 存储库

用户很快就可以使用 Microsoft 的文件资源管理器来跟踪您的编码项目,因为微软正在将 Git 集成到文件系统浏览器中。

微软表示,开发人员将能够在文件资源管理器中跟踪文件状态、提交消息及其当前分支。此外,该应用程序现在原生支持7-zip和TAR压缩。

AI 驱动的剪贴板功能

Microsoft的新高级粘贴功能现已作为Windows 11 PowerToys套件的一部分提供,用户能够随时转换剪贴板的内容。

你可以通过按Windows键 + Shift + V 来触发"高级粘贴"菜单,然后使用其他键盘快捷键将粘贴转换为纯文本、Markdown或 JSON等格式。

此外,你还可以通过在提示框中键入内容来进行转换,该提示框具有其他功能,例如在粘贴文本之前更改或总结文本,而这项功能的使用需要配合OpenAI API密钥以及OpenAI帐户中用于 AI 部分的积分。

与可汗学院合作

微软正在与可汗学院合作,捐赠云计算基础设施的访问权限,使可汗学院能够向美国的教育工作者免费提供可汗学院的AI工具,并合作探索通过生成式AI改进现有 AI教育应用的机会,实现个性化教学并让学习变得有趣。

借助AI工具,教师可以将更多时间花在学生身上。Khanmigo提供一系列AI建议和教师工具,减轻教师许多导致教师倦怠的行政负担。只需点击屏幕上的仪表板,只需几分钟甚至更短的时间,教师就可以生成自定义课程计划、建议学生分组,或为学习困难或需要更多挑战的学习者"提升"或降低文本段落。

低工资和因COVID-19大流行而加剧的难以管理的工作量是许多教师放弃教学的一些主要原因。可汗学院估计,结合使用这些工具,教师每周平均可以节省 5 个小时的工作时间。

Sal Khan 表示,教师们工作过度,离开这个行业的教师人数创历史新高,服务欠缺地区的学区受到的打击尤其严重,将 AI 用于教育不仅是一种可能有助于加速学生学习的强大方法,也是"使教学更具可持续性"的一种方法。