TTS
Text-to-Speech
TTS(Text-to-Speech,语音合成)正从"单句自然"走向"情境感知",但上下文理解与情感连贯仍是瓶颈。据 Monolith砺思资本 2025 年 7 月的观察,商用尖端服务如 ElevenLabs 最新版已能提供多样音色并通过提示词调节情绪语气,单句自然度出色,却在多语言支持和长台词生成中稳定性不足,"有时会忘记前面的情绪设定"。
与此同时,国内厂商在性价比和开源策略上展开差异化竞争:沐言智语 2025 年 6 月发布的开源模型 Muyan-TTS 以每 1 秒语音仅需 0.33 秒推理时间成为开源领域最快,词错率和语音质量评分均处一线水平;MiniMax 同年 5 月推出的 Speech 02 则以 ElevenLabs 一半至四分之一的价格,在 Hugging Face TTS Arena 评测中登顶全球双榜,其"会学习的音色提取器"架构支持 32 种语言的零样本音色克隆与跨语言迁移。对于追求定制化的大型游戏开发团队,自研 TTS 虽投入不菲,仍被视为满足个性化配音高要求的更优路径。
由 AI 生成,可能出现错误,请仔细核对内容。
TTS产品
Text-to-Speech
暂无关系图谱
在 4 篇文章中被提及



