Suno创始人访谈:至少对音乐来说,Scaling Law不是万灵药|Bolt荐阅
AI 音乐的挑战及未来

Scaling Law 是否在放缓?甚至快要走到尽头?AI 音乐制作工具 Suno 的联合创始人兼 CEO Mikey Shulman 在访谈中回答了这一点:音乐与文字非常不同,不能简单的认为在 AI 的发展过程中,语音只是比文字发展的慢了一点,认为 Scaling law 会解决所有问题。音乐是非常主观的领域,要把音乐的模型训练的好、做出好的产品,还需要很多其他的技能。
在这次与播客节目 20VC 的访谈中,Mikey Shulman 还谈到了为什么他会把音乐和游戏行业类比,Suno 与音乐行业之间如何共存发展等问题。我们整理和翻译了采访中的部分内容,原播客内容可以点击「阅读原文」链接跳转收听。
🔍 内容摘要
1. Suno 的转型: Suno 最初作为企业级AI音频工具,后来转型为专注于音乐创作的工具,重点在于利用 AI 推动互动和创意的音乐体验。
2. 技术挑战: 音乐与文本的生成逻辑不同,扩大模型规模并非解决问题的唯一途径,AI 模型必须通过保持小规模并结合其他技术,确保生成音乐符合用户的品味。
3. 互动体验: Mikey Shulman 希望音乐创作变得像电子游戏一样互动,通过有趣的创作过程吸引更多用户参与,而不是仅仅将音乐当作背景音乐。
4. 版权与诉讼: Suno 在使用版权作品进行训练时面临诉讼,但 Mikey 认为这属于行业常态,并强调音乐行业应合作共建一个更广阔的未来,而非互相争斗。
5. AI 训练 AI 的可能性: Suno 正在探索基于特定艺术家内容训练 AI 的可能性,以帮助艺术家和粉丝创造更加个性化和互动性的音乐体验。
6. 未来的商业模式: 新的商业模式能让艺术家与粉丝的互动更加直接,例如通过购买版权和创作模型分支,重新定义艺术家的收入方式。
图|播客 Shownotes
Part.01
探索音乐中的AI
1) Harry Stebbings:我听说 Suno 最初是一个企业级的 AI 音频工具,现在转变为音乐创作工具。能否分享一下这个转变的背后原因?
Mikey Shulman: 我不认为这算是一种"转型"。其实我们的团队背景一直是自然语言处理(NLP),而且我们早就意识到音频领域的技术发展程度远远落后于文本。最初,我们认为生成高质量的音频内容会非常困难,所以我们觉得第一个产品是先尝试理解和探索它的用途。就像 GPT-2 刚发布时,大家并没有使用它来生成有趣的文本,而是更多地把它作为理解文本的工具。我们当时也认为,在掌握这些技术并能扩展之前,可能会在这个阶段停留几年。
但后来我们发现,技术的进展超出了预期。生成内容的能力进展迅速,远比我们预想的要快。因此,我们很快就放弃了原本的计划,转向了更具创意和互动性的音乐创作工具。
2) Harry Stebbings:你认为 Scaling law 会继续发挥作用吗?
Mikey Shulman: 音乐与文本的逻辑完全不同。许多人可能会简单地把 OpenAI 和 Anthropic 等公司在文本领域的经验类比到音频领域,认为音频只不过落后几年,以为 Scaling Law 能解决所有问题。但实际上,音乐是极为主观的。规模并不是解决问题的唯一途径。在音频领域,模型需要保持相对较小,并且必须通过其他技术来确保生成的内容具备"审美"。
3) Harry Stebbings:你曾提到,未来的音乐应该更像电子游戏,这个类比很有趣,你能进一步说明吗?
Mikey Shulman: 电子游戏的特点在于它们高度互动且引人入胜,单人游戏很有趣,而多人一起玩时更有趣。从这个角度来看,我希望音乐能够像电子游戏一样,具备互动性和趣味性,让人们更加专注于创作音乐。通过这种方式,我们能够吸引更多的人参与到音乐创作中。
如果我们能实现这个目标,让音乐创作变得既互动又引人入胜,人们会像玩电子游戏一样,愿意为音乐创作付费。对我而言,未来的音乐不应该仅仅是听觉的享受,它应该是一个具有参与感和互动感的体验。
Part.02
音乐领域的挑战
4) Harry Stebbings:如何让 AI 模型符合人类的品味?毕竟人的品味是非常主观的。
Mikey Shulman: 这确实是个很大的挑战,但我们可以通过大量数据收集和 A/B 测试来不断调整。目前,技术的进步还不完全清晰,但未来很可能会有更多个性化的元素加入。就目前来说,我们采用的人类反馈强化学习(RLHF)和 ChatGPT 中类似的方法,旨在根据人类反馈调整模型以符合用户的偏好。不过,这条路是否适用于音乐模型,仍然不确定。我们并不完全知道,用来对齐大语言模型(LLM)与复杂人类审美的技术,是否能直接应用于音乐创作的模型。
5) Harry Stebbings:你认为大模型公司会进入应用层吗?比如,OpenAI 会进入客服或音乐创作领域吗?
Mikey Shulman: 它们会尝试,但音乐领域的可能性相对较小,它们进入客服领域的概率更大。我也希望能建立一家庞大的公司,但通用智能和客服的市场比音乐市场大得多。如果一切都能实现自动化,客服的未来可能会远远超过 Zendesk(提供客户支持软件和服务公司)和 BPO(外包服务公司)等行业的现有模式。至于音乐,未来肯定会比现在更清晰,只是 OpenAI 的团队可能还没有意识到这一点。这不仅仅是审美问题,还是产品的竞争。最终,什么能让人们选择使用像 Suno 这样的产品?还是因为它是一个更好的产品,而不仅仅是因为它背后有更大、更强的模型。我们专注于为用户提供愉悦的音乐创作体验,简单直接。所以,聊天界面并不是实现这一目标的唯一方式。
6) Harry Stebbings:2024 年 6 月,RIAA(美国唱片工业协会)起诉你们使用其版权作品训练模型。你怎么看这个诉讼?
Mikey Shulman: 我们知道训练数据里有一些已经有版权的作品。但这并不违法,这是整个行业的标准做法,几乎每家 AI 公司都会这么做。从某种意义上说,这个诉讼并不令人意外。大部分 AI 公司都会遇到训练数据版权问题,音乐行业本身也有很多诉讼案子。说实话,这让人有点沮丧,因为我相信音乐的未来应该是更加广阔和光明的,我们可以与现有行业共同发展,而不是争斗,这样反而可能会让整个行业变得越来越小。
说到律师,我有点想抱怨一下:我读过一篇 80 年代的经济学论文,探讨了为什么一些国家能够发展,而一些国家却停滞不前。论文的结论之一是,一个国家的工程师与律师的比例直接影响经济增长。工程师越多,经济增长越快;律师越多,经济增长越慢。虽然这个结论有些夸张,但它提醒我们,如果我们能在诉讼之前与一些参与诉讼的人展开合作,共同致力于构建一个更大、更美好的音乐未来,那大家都会更开心。音乐行业当前有一种"蛋糕就这么大,大家来分"的心态,大家都在争夺有限的财富,导致不公平的分配。如果我们能够一起把蛋糕做大,那么一切都会变得更加容易。
7) Harry Stebbings:你认为新兴的 AI 公司和传统企业之间的诉讼冲突如何解决?是通过新兴公司用风投资金达成和解,还是通过股权分配让大公司在其中占据一席之地?
Mikey Shulman: 传统的硅谷心态是,"我要颠覆你们现有的行业,你们对此无能为力。"而大公司则通常采取"我要告你,直到你消失"的态度。显然,这两种做法都不对。在 Suno,我们每个人都深深爱着音乐,并且极度尊重这一行业,这种文化非常棒,也使我们避免了那种非得"颠覆现有行业"的心态。我们更倾向于与行业内的现有参与者携手合作,专注于共同打造一个更大、更光明的未来。
Part.03
合作音乐的未来
8) Harry Stebbings:在你理想的世界里,未来的音乐应该是什么样的?
Mikey Shulman: 我希望未来的音乐能让更多人参与进来,创造更多不同的音乐体验。这意味着我们并不满足于让当前的音乐创作速度提高 10% 或变得更简单。若想改变全球十亿人听音乐的方式,就必须为十亿人创造独特的体验。
这首先需要让每个人都能享受音乐创作的乐趣,这与现状截然不同。如今,创作音乐并不轻松,它需要大量的时间和练习,你必须非常擅长某种乐器或制作软件。我认为,大多数人并不享受他们花在音乐创作上的大部分时间。
9) Harry Stebbings:关于使用版权音乐进行训练的问题,你们现在拥有庞大的音乐库,那什么时候可以开始使用 Suno 的音乐进行训练?AI 什么时候可以训练 AI?
Mikey Shulman: 这是一个非常复杂的问题,关键是如何在不对模型造成偏见的情况下使用这些数据。大公司也面临类似的挑战,他们正在积极寻求解决方案。像很多问题一样,能够让这些大公司解决复杂的技术难题,我们就能专注于自己的竞争优势,这其实对我们来说是件好事。所以,我希望这个问题能由其他人来解决,而不是由我们来解决。
10) Harry Stebbings:为什么不能将 AI 音乐和传统音乐分成两个世界?为什么 Spotify 不直接与 Suno 合并,做到一款应用同时提供这两种体验?
Mikey Shulman: 从用户体验角度来说,如果用户需要去两个不同的地方寻找内容,那会非常麻烦。如果你在 Spotify 上找不到某些音乐,必须去另一个应用才能找到,这样的体验并不好。如果音乐被分成两个独立的世界,普通消费者可能会感到困惑。而且,我并不希望音乐只是单纯的消费体验,创作和分享音乐本身也应该是一种有趣的体验。创作和聆听不该割裂开来。将这些环节结合在一起,能够让它们的价值远远大于单纯的分开来看。
11) Harry Stebbings:是否有办法为不同的创作者创建个性化的模型?比如,假设 Ariana Grande 想和你们合作,给予你独家访问她的内容,你就能基于她的内容训练模型,并迅速创作出未来所有 Ariana Grande 歌曲。
Mikey Shulman: 答案是肯定的,我非常希望能做到这一点。实际上,按照她的合同条款,她可能无法这么做,这有些复杂。她并不拥有所有音乐的版权,但她拥有自己的名字和形象。我希望进入一个这样的世界,在这个世界里,她可以拥有创造自己音乐的模型。我们在 Suno 的设计理念是,如果你在创作音乐时加上她的名字,我们会提醒你:这不是原创音乐,这并不是未来音乐的做法,而是模仿他人。Suno 专注于原创音乐,而不是模仿。
但如果 Ariana Grande 自己使用这个工具,那就不算是模仿,而是创造她自己的音乐风格。这是一个非常强大的工具,不仅可以帮助她创作音乐,也能帮助为她写歌的人更好地理解她的风格,甚至如果她原因,她也可以把这个工具给她的歌迷,她的歌迷可以据此再次创作一些东西。这将是一个极具吸引力的互动,比与粉丝进行 AMA(问我任何问题)还要有价值,更能激发粉丝的参与感。
12) Harry Stebbings:那假设我请求 Suno 创作一些特定艺术家风格的歌曲,这位艺术家会因此获得分成吗?
Mikey Shulman: 人们可能没有意识到的一点是,我们目前的产品是让用户享受创作音乐的过程,并愿意为此付费。这与传统的听音乐是不同的。我认为音乐的未来在于重新思考商业模式。现在的流媒体分成模式存在局限,所有人都在争夺那块有限的蛋糕,而艺术家的收益其实并不高。我希望能够找到新的商业模式,能够让这些模式更加紧密地与用户的享受体验相结合,并且与艺术家的收入直接挂钩,尤其是当人们真正想与艺术家互动时。
13) Harry Stebbings:这些新的商业模式会是什么样的?
Mikey Shulman: 举个例子,假如你发现了一位你非常喜欢的创作者,你可以在平台上直接购买他的版权,甚至拥有他音乐模型的分支版本。如果他同意,且你也愿意为此付费,你就可以创作出风格类似他的音乐。我们曾经与著名音乐制作人 Timbaland 举办过一个混音大赛,收到了大量的参赛作品。对我来说,能够重新编排自己音乐偶像的作品,是与他们互动的终极方式。这比在演唱会后台见到他们还要酷。而现有的流媒体分成模式并没有正确体现这种互动的价值。
📮 更多阅读



Linear Bolt Bolt 是线性资本为早期阶段、面向全球市场 AI 应用专门设立的投资项目。它秉持线性投资的理念和哲学,专注在技术驱动带来变革的项目,希望帮助创始人找到实现目标的最短路径,不管是行动速度,还是投资方式,Bolt 的承诺是更轻,更快,更灵活。Bolt 已经在 2024 年投资了 Final Round、心光、Cathoven、Xbuddy、Midreal 等 11 个 AI 应用项目。