复现Sora?长文本 or RAG?Agent是否伪需求?|云启十问 X Attent!on
Just enjoy the 「petrichor」 of AGI.
「问题比答案更重要」
——在被誉为「科技圣经」的银河系漫游系列书中,作者道格拉斯·亚当斯表达了这一重要观点。
1950年,「计算机科学之父」图灵提出了一个著名问题——「机器能思考吗?」,拉开了人工智能的序幕。
2017年,**「Attention Is All You Need」**论文提出Transformer架构,启发了OpenAI通往AGI的可能。不久前,英伟达黄仁勋预测5年内AGI将通过图灵测试。
Just enjoy the 「petrichor」 of AGI.

最近一周,AI宇宙继续百花齐放:OpenAI公布首批Sora用户反馈视频;GPT-5尚未发布,GPT-6训练已经刷爆10万张H100;Kimi引发国内大厂开卷长文本……
一方面技术不断快速演进,另一方面商业化挑战加剧,我们正处在下一代AI 产品爆发前夜的拐点,很多问题也许现在并没有标准答案,但也正是如此才拥有无限可能。
上周日,「Attent!on」云启AGI+系列沙龙首场上海站火热开启,我们收到了近200位朋友的踊跃报名,邀请了其中近50位来自一线大厂技术/产品专家、顶尖算法科学家、明星创业公司创业者进行深入探讨。
因闭门讨论信息量巨大且私密,我们节选了部分内容,整理成10个技术和产品的关键问题**「云启十问」**,供君参考,enjoy

部分参与者
阿里、华为、腾讯、字节跳动、商汤
上海交大、CUHK、上海AI Lab、复旦肿瘤医院
月之暗面、Zilliz、询盘云、BentoML等AI实践者
Emily、Dalton 云启前沿科技组投资人
YQ&AI
01. Sora的最大突破是什么?
一线大厂 大模型负责人
传统的视频生成模型受限于GPU显存的大小,只能在有限的资源下进行训练。这导致了视频模型的训练时长通常只有短短的几秒,无法充分挖掘和表达视频内容的丰富性。Sora采用了DiT架构,利用这一架构,Sora能将视频模型拆分到多张GPU卡上并行运行,解决了单卡显存限制的问题。极大地提升了模型的表达能力和训练效率,这让Sora能够处理更长的视频内容,以及更复杂的视频帧数。
此外,Sora在数据处理方面也展现了其强大的能力,可以灵活处理输入,不局限于图像调整至固定大小,视频数据的收集和处理难度远高于文本和图像,尤其是在数据清洗和视频与文本匹配方面。Sora所带来的启发还在于:未来的多模态AI模型,需要在文字描述视频模型方面实现更深层次的突破。
YQ&AI
02. 「卷」长文本,为什么RAG是重要技术手段?
Zilliz AI平台负责人
Long Context 和RAG两者并不矛盾。RAG是一种更效率的提供context的方法,在工程上是一种更稳定/高效的实现方式。
RAG的核心在于其能够结合检索(Retrieval)和生成(Generation)的能力,通过线下维护的知识库,提取与查询相关的信息,并将其融入到大模型的推理过程中,从而得出高质量的输出。这种方法的优势在于,它能够有效地扩展大模型处理长文本的能力,同时保持对信息的精确捕获。
然而,RAG的应用也面临着挑战,尤其是在成本控制和效率优化方面。随着技术的发展,我们期待RAG能够在保持高质量输出的同时,实现更高效的在线推理。这不仅需要算法上的优化,还需要在工程实践中不断探索,如通过构建有效的索引和利用离线计算来降低成本。此外,RAG的应用场景也在不断拓展,从医疗产品到企业知识库,都在探索如何利用这一技术提升服务质量和用户体验。
YQ&AI
03. Foundation Model如何做出差异化?
月之暗面 高级研发工程师
月之暗面的Kimi智能助手现在支持200万字超⻓无损上下文输入,这是我们选择的差异化方向之一。大家可能正在排队试用,目前推理速度还有些慢,我们希望能在国内外市场把长文本做到最好,在某些方面突出到足以与O.AI正面竞争。
我们也注意到MiniMax在Function Call方面做得很好,这也是我们接下来聚焦的主要方向,会进一步增强模型的可控性和适用性。
YQ&AI
04. 如何让AI Agent 对用户更有价值?
AI大厂 Agent方向产品经理
现在在AI Agent的研发与实际应用中,复杂任务的拆分和执行过程中还存在较大的不确定性,如token消耗的未知性、潜在的循环问题以及任务执行中的偏离现象。因此,当前的趋势是倾向于开发简单、共识性强的任务流程,确保结果的可控性,以便更好地落地实施。
要让AI Agent对用户产生更大的价值,我们需要明确几个关键点。首先,定义清晰的用户目标;其次,考虑如何让用户理解并有效地使用Agent。我们正在探索如何利用AI Agent的能力,通过解析API文档并生成相应的UI界面,让用户以个性化的方式与Agent交互。
在寻找应用场景时,我们应该关注那些能够显著降低传统实现成本的领域。当用户感受到使用Agent与大模型实现的成本差异时,他们对AI的价值感受会更加深刻。
腾讯 AI Lab算法科学家
AI Agent的核心在于其感知环境、思考决策和执行控制的能力。这三个环节紧密相连,缺一不可。感知能力让Agent理解周围世界,无论是物理环境还是抽象概念;思考决策能力则体现在大语言模型上,它在某些方面甚至超越了人类;而执行控制能力则关乎于Agent如何将决策转化为实际行动。
在技术与产品的结合上,我认为关键在于如何将这些能力以用户友好的方式呈现出来。用户界面(UI)的设计就是一个绝佳的例子,它将复杂的控制简化为直观的操作。将Agent的感知、思考和执行能力整合在一起,让用户以最自然的方式与之互动。
YQ&AI
05. 实际场景中,AI Agent 正面对哪些技术挑战?
前NASA 科学家
AI Agent的研发趋向于融合感知、决策和执行的能力。在技术层面,我们需要解决的问题包括如何让AI Agent更好地适应环境变化,提高其Planning的泛化能力,以及如何在不同的目标和场景中进行有效的优化。
此外,AI Agent的研发也需要考虑到与现有系统的集成,如何利用Agent的能力去优化和提升现有工具的使用效率。
YQ&AI
06. Scaling Law是终极答案吗?
阿里 算法专家
Scaling Law并非万能钥匙,AI作为一种应用科学,其价值首先在于对产业场景的优化上,这也是为什么现在AI热度如此高的原因。而产业场景复杂多样,要求我们在算法层面进行深入的探索和创新,而不是简单地依赖于模型规模的扩大。
例如,在视频生成领域,视频模型的优化和细节调整仍然至关重要。视频内容的生成不仅需要考虑视频与文本的配合,还需要处理每一帧内部像素之间的协调,以及视频帧之间的时序关系。这些复杂的配合关系要求我们在模型设计上进行精细的调整。此外,不同的下游任务设置也是Scaling Law难以解决的问题。以舞蹈为例,无论是单人舞蹈、双人舞,还是其他舞蹈形式,每种设置都需要对模型进行特定的调整,以最佳方式建模并生成所需的信号。结合算法创新和场景优化,才能真正推动AI的应用。
YQ&AI
07. 未来的AI架构是统一的,还是可插拔、模块化组合?
上海交通大学 教授
关于这个问题,我们人类在工作状态下的思考过程启发了我们。例如,我们的嗅觉通常在关键时刻才会对特定现象产生反应,而视觉和大脑则在不断灵活协作。这样的思考让我们意识到,未来的AI架构或许可以根据不同的应用场景,设定不同的训练目标,并在适当的时机启动不同的训练模块。
我们设想,即使模型能够处理各种任务,它也应该是受控的。因此,未来的架构设计不仅要能兼容各种场景,还需要能够接受外部的监管和调控。
YQ&AI
08. 如何更好地将业务场景与AI结合?
AI信息推荐 创业者
在深入探索AI与大模型的结合应用中,我们作为创业者,关注的核心问题主要集中在两个方面:数据的边界和模型的业务优化潜力。我们意识到,在视频模型的训练中,由于互联网上可获得的数据往往是流行和热度较高的内容,这可能导致模型无法捕捉到更广泛的、普通人的真实反应和行为,从而忽略了更真实的一部分。
其次,关于模型的业务优化潜力,我们认为端到端模型将是未来的趋势。在当前大模型能力有限的情况下,我们使用Agent作为一种临时性的妥协方案,将不同的模型和工具组合起来以适应不同的业务场景。然而,我们相信随着技术的进步,未来的强大模型将能够直接发起工作流,而不再需要复杂的Agent组合。
YQ&AI
09. AI产品如何出海GTM?
BentoML 亚太区负责人
开源、持续迭代和海外实体是我们全球化战略的三个关键点。在出海前期,可能需要依赖私人关系或投资人的介绍来推广产品,但这种方法可能无法实现规模化。开源尝试是一种更广泛验证产品的方式,尤其是当产品解决了行业痛点时,开源可以迅速获得市场反馈。
从销售角度来看,要记住"产品永远不会完全准备好"。不能等到产品达到完美状态才开始寻找客户。相反,我们需要在产品迭代的过程中寻找合作伙伴和愿意尝试的客户,共同打磨产品。最后,我们认为,对于海外市场必须有一个实体存在。例如,我们在旧金山有定期的线下活动,这有助于我们在推广产品时获得信任和认可,这种"born global"的心态可能带来更好的结果。
YQ&AI
10. 硅谷AI创业有哪些经验启示?
AI Native Productivity Tools 硅谷创业者
硅谷的竞争并非仅限于本土创业者,而是全球范围内的移民创业者。硅谷的创业环境非常独特,那里的创业者非常勤奋,他们参加各种活动,几乎不放过任何一个机会。
同时,硅谷的AI创业者非常注重从一开始就筛选有付费意愿的用户。他们认为,没有付费意愿的用户不如不接触,这种筛选机制在早期阶段就能够帮助他们聚焦于真正有价值的客户。硅谷的网络和社区对于初创公司来说极其重要,不仅能提高了产品的曝光度,还能快速获得宝贵的用户反馈,这对于产品的快速迭代至关重要。
除了**「云启十问」的思辨碰撞,现场「开放麦」和「BBQ」**环节也热闹非凡,有不同产业场景和应用的讨论,也有新老朋友的撸串畅聊🍻

复旦大学
肿瘤医院教授
我想了解AI新技术如何应用在医疗领域,尤其是肿瘤病理方面
我们和Sora相比差距在哪里?有多大GAP?

国泰君安

询盘云
来给大家分享一些跨境和医疗领域的AI实践
……
「Attent!on」云启AGI+沙龙上海站现场回顾
AI宇宙还在不断演进,寻找下一个AI ACE产品之旅中,不必急于找到标准答案,思考、质疑、探索,一起拥抱更多的可能性。
本次因场地容纳有限,很多朋友遗憾未能到场相聚,新一期的「Attent!on」云启AGI+沙龙将在5月深圳进行,敬请期待,欢迎加入分享和讨论 : )






