DeepSeek如何革新AI应用开发?7位实战派的34条思考 | 榕汇

高榕创投高榕创投·2025年3月11日

从To C应用,到旅游、金融、医疗垂直领域和Agent。

“时至今日,我们依然处在DeepSeek海啸引发的震荡中。”从去年12月26日发布671B参数规模的DeepSeek-V3模型,到1月20日开源了性能、效率、成本显著卓越的推理模型DeepSeek-R1,再到春节期间引发市场连锁反应,以及后续带动开源全球加速,DeepSeek带来的冲击波持续扩散。

除了关注DeepSeek的技术创新和价值重构,我们也关心:DeepSeek-V3和R1等模型,为AI应用层和垂直场景的创业者带来哪些切实的利好?基于开源模型做行业应用,有哪些真实的经验和反思?

近日,榕汇邀请AI互动内容平台、AI+旅游、AI+金融投研、AI+医疗、AI Coding等领域的创始人展开线上研讨。

以下我们摘取了部分思考,谈及创业者最关注的模型能力、成本以及垂直场景商业化机会等话题。

DeepSeek模型核心创新点

延诤 亚马逊云科技AI应用实验室方案架构师

2024年12月底,DeepSeek发布主干模型DeepSeek-V3,V3参数规模达到671B,性能已经接近GPT-4等顶级闭源模型。V3模型的创新点非常多,最为人津津乐道的包括5个重点:

01. 混合专家架构(DeepSeekMoE) ,在总参数量高达671B的情况下,每个token的激活数量仅37B参数,有效提高了计算资源的利用效率; 02. 多头潜在机制(MLA) ,通过低秩压缩技术减少计算量,降低了内存和显卡占用率,有效减少推理延迟; 03. 多令牌预测技术(MTP) ,可同时预测多个tokens,将训练效率提升至1.8倍,减少生成时间; 04. FP8混合精度训练,结合FP8低精度计算与高精度参数存储,减少GPU内存占用,同时维持训练稳定性,显著降低成本。 05. Dual pipeline是一种创新的双向流水线并行算法,允许正向和反向计算同时进行,显著减少GPU空闲时间。

此后,DeepSeek基于V3进行纯强化学习训练,让模型涌现了推理能力,得到R1-zero;R1则基于DeepSeek-V3,结合两次监督微调和强化学习训练,最终让这一强大的推理模型问世。

DeepSeek是真正的范式创新

刘新华 高榕创投投资合伙人

DeepSeek意味着真正的范式创新,因为其带来了六重价值拐点。

01. 算力拐点 DeepSeek凭借在算法、模型架构、训练策略等方面的极致创新,显著减少了对高算力硬件的依赖,证明“唯有斥巨资拼算力才可达顶尖”的大模型研发模式并不是唯一解。算力一直是各国AI角逐的关键点。DeepSeek“夹缝中的创新”打破了算力的瓶颈,为国产芯片、ASIC芯片等带来了发展机遇。

02. 参数拐点 DeepSeek运用模型蒸馏技术,将强大“教师”模型的推理模式提取并转移到较小的“学生”模型中,例如从R1蒸馏出的较小模型(1.5B、7B、14B、32B、70B)在推理任务上表现出色,且保留了模型的精华。这意味着在端侧小算力条件下——例如AI手机、AI PC、人形机器人、物联网等场景,也可以完成推理模型的部署。

03. 算法拐点 DeepSeek在算法上进行了多方面的创新,如混合专家架构、R1-zero采用纯强化学习策略(GRPO)直接优化推理能力、多令牌预测等,显著提升了模型性能和效率,降低了模型成本。相信接下来全球大模型公司都会拥抱DeepSeek发明的一些新范式。

04. 开源拐点 DeepSeek采用了MIT开源协议,这是最宽松的一种开源协议,允许商用。更重要的是,以往开源模型往往落后于闭源,但DeepSeek的部分模型在性能上比肩甚至超越了顶尖闭源模型。2月底是DeepSeek开源周,DeepSeek进一步公开了诸多工程层面的创新。可以说,DeepSeek引领了“开源的胜利”,也带动其他大模型公司重新审视开源策略。

05. 应用扩散拐点 2024年7月,我们曾预测未来18个月随着硬件成本下降、模型架构优化和算法优化,AI产品开发成本有望降低100倍。今天看来,DeepSeek引发的模型成本下降可能会进一步突破上述预测,也让应用层真正迎来爆发。进一步看,近期“杰文斯悖论”被讨论很多,指的是当效率提高、成本下降,会加速采用,带动整体需求扩张。未来的创新扩散不会局限在互联网的应用层,也会渗透到全产业链各种场景,例如芯片、云、机器人、自动驾驶等领域。

06. 价值重估拐点 DeepSeek不仅促进对中国资产的重估,也展示了“中国在科技发展上的创新性和包容性”,体现了民营经济和创业者的创新活力。

AI应用落地开发原则

延诤 亚马逊云科技AI应用实验室方案架构师

01. 亚马逊云科技AI应用Lab专注于模型的前沿性研究和AI项目开发落地与交付。基于不同的场景,实验室会使用各种不同的模型做适配和组合,最终服务B端客户。一个工作链路上,可能会包含基座模型,也会包含微调模型或行业模型。

近期实验室积极利用DeepSeek模型为客户打造具体落地应用方案,例如基于Deepseek-R1 Distill 70B版本模型的知识库,实现了对用户问题的深度理解、分析推理和资料溯源,输出内容不仅给出答案,还有详细的分步解释。

02. 与此同时,有一个重要的原则和思考是——**DeepSeek模型很强,但不意味着DeepSeek可以解决一切问题。**需要把专业的事情交给专业的模型去做,然后把专业模型组合起来,进而完成一个复杂的任务。

例如实验室近期结合DeepSeek-R1和任务分类检测微调模型,为农业客户进行马铃薯叶片疾病检测服务并给出应对建议。整体技术方案是先基于微调的CV模型,对马铃薯叶片进行检测;随后将检测结果给到R1,借助R1的推理能力为农户提供指导,包括疾病成因和防治建议。

AI互动内容平台

沈洽金 想法流创始人、CEO

01. 想法流核心产品「造梦次元」是一个多模态AI驱动的互动内容平台。平台背后搭建了一整套workflow、接入了多个模型,包括大语言模型、生图模型、音乐生成模型以及工程模块等,进而允许创作者基于模型能力,去创建有趣的互动内容乃至有游戏性的内容和玩法。

02. DeepSeek-V2发布伊始就引起了团队的关注。当时我们意识到MoE架构将越来越重要,让应用开发者能够在激活参数没那么大、但是模型整体参数足够大的情况下去调用模型,进而平衡模型成本、延时和模型智能程度之间的关系,最终利好应用开发者以更低成本使用大参数的模型。

此前内容领域AI应用有一个很大的问题是,如果用一个小参数模型,无法解决内容泛化问题,导致模型的指令遵循能力不佳,可能导致剧情和人设崩掉;如果用一个大参数模型,除了成本很高之外,内容生成的速度会很慢。MoE架构很好解决了这个问题,我们调用了MoE架构模型后(最早使用的是豆包大模型),发现当泛化到玄幻、古风等类型内容时,依然有不错的表现。

03. 我们还意识到缓存(cache)命中这件事情非常重要。 每百万tokens输入,缓存命中和缓存未命中的价格差距很大。「造梦次元」的产品特点是用户无时无刻不在用模型,日均活跃互动时间超过100分钟。而且我们的场景中,输入tokens远大于输出tokens,如果我们的输入90%能够打到cache里,能够极大降低成本。

04. 团队一直以来关注模型的进展,特别是模型推理能力的提升。「造梦次元」产品里有很多的玩法,例如一些带数值和分数的游戏玩法,或者推理凶手玩法,都需要有一定的推理能力支持。最早我们基于workflow的方式实现;R1出现之后,我们知道,一直在追求的低成本、强推理能力并且推理速度足够快的模型已经到来。

05. 未来,我们希望AI互动内容平台从“有趣”发展到“有用”,比如将生活场景的一些能力,例如时间/定位/天气的API接入进来,或许会有更多有趣的玩法。比如我去北京出差,AI会跟我说北京现在零下6度、你有没有带羽绒服。

AI驱动的旅游平台

李少华 视旅科技创始人、CEO

01. 视旅科技致力于打造AI驱动的新一代旅游平台,过去几年我们看到了几点机会。首先,大语言模型带来的自然交互革命,将为旅游场景带来非常大的变革机会;其次,多模态大模型的应用,可能让旅游产品本身的表达相较今天主流OTA平台有颠覆性的变化;第三,行业垂直模型和向量化的数字供给体系,有机会改变旅游行业一直以来存在的供给分散现状。

02. 2023年5月,视旅科技发布了国内首个旅游领域大模型VtripGPT,这也是旅游行业首个通过国家网信办等主管部门审核备案的大模型。在DeepSeek-R1开源之后,我们第一时间做了私有化部署,并用蒸馏技术将R1的推理能力迁移到我们的旅游大模型中。从业务增长来看,推理模型对业务有非常大的促进作用。

03. 2023年,我们基于自研行业大模型上线第一个目的地的时候,4-5位资深的运营专家花了差不多2个月的时间做预训练和监督反馈,才让模型的输出结果达到行业可用标准;模型跑了一年多时间,基本可以做到1-2位业务人员用1个月的时间新增一个目的地;当部署R1之后,我们发现在没有业务专家反馈的情况下,差不多2天时间就能上线一个目的地(在模型输出环节增加了一个专家纠偏的模块,用一些通用规则限定输出结果)。

04. R1的推理和长思维链(CoT)能力,对于旅游行业的行程规划、有特定要求的方案设计以及动态的商品组合,都有非常大的促进作用。 以一个场景为例,海外出差涉及2、3个中转地的国际机票,今天基本需要依赖人力去解决,而且需要平台积累的大量数据作为支持。未来,大模型的深度推理能力完全有机会应用于这类复杂场景。

05. 更进一步,如果开源的高性能模型可以帮助每一位普通用户在没有旅行专家参与的情况下完成高端私人定制,将会对旅行体验有非常大的重构,也会让垂直创业公司更快找到商业化突破的可能性。

AI智能投研

李渔 熵简科技联合创始人、CTO

01. 熵简科技打造的AlphaEngine产品是一款AI投研工具,基于最新的大模型技术帮助专业投资者在投研乃至投资决策过程中提升决策效率和胜率。2年前,我们训练了自己的行业大模型FinGPT;R1发布之后,我们蒸馏了具备推理能力的FinGPT-Deep,使模型具备逻辑推理、因果分析和多步决策能力,并搭载在AlphaEngine产品上。依托深度推理能力,AlphaEngine实现了三大核心功能升级:1)多步推理问答,2)精准资料溯源,3)融合分析师思维。上线之后,用户与产品问答的交互量提升了3倍左右。

02. 相比此前模型,**R1推理的广度几乎相同,但是推理的深度至少深入两步。**例如提问"如何分析某家机器人公司的走势",以往大模型会看公司的基本面、市场竞争格局等;有了R1,模型会自己推理——分析公司走势还需要研究公司的产业链上下游,再进一步推导到下游可能会涉及传感器、轴承。

03. DeepSeek带来的一个底层变量是,**让我们这类垂直SaaS公司能够以很低的成本去获得基本比肩o1水平的大模型能力。**只有成本大幅降低,我们才有可能大规模让用户去体验,真正提升生产力。

04. 基于大模型做行业应用,有三大要素。**第一,底模足够好;第二,在垂直行业积累足够全量、时效性强的数据库,目前熵简基本可以实现对A股和美港股公开数据的全量覆盖;第三,还需要配套一些小模型,以及Multi Agent的一整套编排体系。**小模型方面,熵简训练了向量化模型FinBERT,提升数据召回率;专业的面向投研场景的语音大模型FinAudio,支持将投研领域的会议音频准确转录成文本;以及解析PDF的文本大模型。

05. 编排方面,需要和行业具体场景做深度编排,打造一套Multi Agent框架,其中涉及大量工程工作和具体规则。例如目前熵简针对投研问答其实有三个Agent——内省Agent、推理Agent和回答Agent在相互配合。

AI医疗健康助手

曾柏毅 春雨医生联合创始人、CTO

01. 医疗领域有两大问题——1)医疗资源不足,2)医疗供给不平衡。最早春雨医生重点解决医疗供给不平衡的问题,通过平台做供给和需求的连接。随着大模型不断成熟,2023年4月,我们上线了AI健康助手产品「春雨慧问」,并着手解决医疗资源不足的问题。

02. 当前医疗领域的重点是医疗资源不足,尤其是权威优质医生的供给不足。为了解决这一核心矛盾,我们计划两步走:**首先是作为医生的Copilot进行辅助预问诊,然后逐步向AI医生过渡。**我们知道,医生问诊过程中前期信息收集阶段是非常耗时的,这背后映射的其实是诊断的思路与过程。我们打造的医生Copilot,就是希望通过AI把预问诊过程完成,医生在此基础上专注于提供诊断和治疗方案,从而帮助医生节省时间,提高工作效率。

03. 「春雨慧问」已经接入R1,R1对比以往的基座模型有两大进步。第一,以前我们需要用多个prompt让模型实现问诊的过程,今天可以快速实现多步思维链任务;第二,接入R1后,我们发现模型的泛化能力更强。以往大模型可能针对一个单科的问题能够有不错的回答;但一旦扩展到全科,面对不同的科室、疾病,分析和回答问题的难度就会急剧增加。基于R1,当泛化到不同科室的问诊和智能诊断任务时,效果会有明显的提升。

AI Coding

李亚飞 ClackyAI创始人、CEO

01. AI Coding的变迁:最早仅依赖程序员,这是**"按字写代码";2022年ChatGPT出现之后,代码领域先火了,GitHub Copilot等可以实现"按行写代码";2024年,以Cursor为代表的AI Coding工具开始支持"按块写代码",AI Coding领域也因其有很强的闭环领跑AI应用商业化;今天我们正在推进的是"按片写代码",或者说是按feature代码,相信会帮助程序员实现效率的大幅提升;L4级别,我们相信AI自主写代码**会成为终极演进的方向。

02. ClackyAI定位为L3级别的Agent AI CDE,即在云端实现从issue到PR的工作,面向严肃开发人员,有交互时光机机制,提供全仓库的识别和检索,以及多任务处理系统。技术层面,我们全栈自研了一个多任务的Agent架构,DeepSeek对我们也有巨大的助力,目前基座模型的推理模块已经部署了R1。

03. 在代码生成维度,DeepSeek模型目前与Claude 3.5、Claude 3.7等相比还有一定差距;但是编程不只是编程本身,我们也关注推理能力,例如对问题的理解、任务规划、路径设计等。我们也期待DeepSeek后续一代模型能够在Coding方面取得进步,我们就有可能把主力模型完全切过来。现阶段,我们会平衡SOTA模型和DeepSeek开源模型的使用。

AI Agent

刘新华 高榕创投投资合伙人

01. 推理模型的极速发展让Agent这个方向变得越来越有价值,相信今年Agent方向能够看到突破性的进展,从Agent的通用框架、基础设施到各场景Agent,将百花齐放。**To C领域,未来AI搜索将全面Agent化。**实际上,DeepSeek的C端应用本身就是一个Agent,出色的基座模型之上再通过一套流程(如联网搜索),使得自身不断进化。

02. To B领域,包括横向场景和纵向场景。**横向场景中,编程、客服、生产力效率、营销、销售、人力招聘领域,都有机会看到Agent落地。**例如客服Agent除了能和用户自然对话,更进一步可以和内部的workflow打通,将客户的问题自动转入业务部门,问题解决之后再回流给客户。纵向垂直场景,法律、医疗等领域也会优先看到Agent落地应用。

......

"DeepSeek炸裂的成功印证了一个道理——伟大不能被计划。我们在创业的探索过程中要珍视这种偶然性和独特性,并且保持开放和探索。当你积累了足够多的垫脚石,伟大或许就与你不期而遇。"

未来,我们也期待陪伴使命驱动、有创新活力的创业者,"相信2025年有更多中国AI应用创新绽放"。