Ed Newton-Rex 独家专访:irly Trained 如何推动音乐 AI 训练数据合规,维护音乐人正当权益
Ed Newton-Rex 独家专访:irly Trained 如何推动音乐 AI 训练数据合规,维护音乐人正当权益
Midin独家专访AI Music领域顶尖专家,也是Stability AI前音频副总裁,负责Stable Audio的Ed Newton-Rex,看看音乐人和音乐行业如何拥抱AI技术,合规合理合的进行AI音乐训练,并保护音乐人的正当权益。
训练数据的版权来源是生成式人工智能发展面对的一大难题。2023年9月,Stability AI发布的Stable Audio(参考《深入揭发音乐人的噩梦 Stable Audio:音乐生成 AI 的商业技术背景 + 使用教程》)引发了高度关注,之后却因版权问题引发内部动荡。在产品发布仅2个月后,负责开发Stable Audio的团队负责人Ed Newton-Rex宣布辞职,以该公司使用受版权保护的数据来训练人工智能模型。在Suno和Udio爆火之后,Ed Newton-Rex撰写的两篇文章揭露了这两项人工智能音乐生成服务可能涉嫌的训练数据侵权《深入揭发:AI Music 新平台 Udio 训练数据来源分析,依然涉嫌侵权》《深入揭发:Suno 的音乐 AI 训练数据是否侵权?》。
Ed Newton-Rex是生成式人工智能的支持者,也是一名作曲家,曾在剑桥大学取得音乐学士学位。他在其创立的音乐人工智能公司JukeDeck被字节跳动收购后曾在Tiktok人工智能部门任职,之后于2022年加入Stability AI。
在离开Stability AI之后,Ed Newton-Rex一直致力于推进音乐人工智能领域训练数据来源的合理合和公平公正,而作为非盈利组织的irly Trained[https://www.irlytrained.org/]就在这个背景下诞生。irly Trained的主要工作是对取得了训练数据合授权的生成式人工智能模型进行认证。从成立至今,已有包括Beatoven.ai, Endel, Infinite Album, Lemonaide, LifeScore, Rightsify, Somms.ai, Soundful, Tuney, Voicemod, Boomy, Frostbite Orckings, Jen, Kits, KL3M共15个公司的模型得到了认证。除创始人Ed Newton-Rex之外,irly Trained的主要成员还包括Tom Gruber(Siri和LifeScore首席技术官)、Elizabeth Moody(Granderson Des Rochers律所高级合伙人)、Maria Pallante(美国出版商协会)和作曲家Max Richter。irly Trained还得到了包括环球音乐集团、美国演员工会等重要企业和行业组织的支持。
近日,Midin有幸就音乐人工智能相关话题与Ed Newton-Rex进行深度的独家交流。以下为采访内容。
Midin:你在离开 Stability AI 后创办了 irly Trained。能告诉我们更多关于 irly Trained 的信息吗?
Ed Newton-Rex:当然。irly Trained 的存在是为了在生成式人工智能时代为训练数据背后的创造者争取更公平的待遇。这是一家非营利组织,为推进更公平公正的训练数据管控方式来对生成式人工智能公司进行认证。具体而言,我们认证那些未使用受版权保护的作品且取得版权所有者同意的模型。
Midin:irly Trained 的客户大都是什么样的?你有设想过如 Google 和 TikTok 这样参与音乐生成的大型互联网公司与irly Trained 合作吗?
Ed Newton-Rex:我们已经认证了大约 15 家公司,这其中许多(但不是全部)都是从事音乐相关业务。到目前为止,我们认证的都是初创公司,还没有大公司加入。这很值得思考,因为人们通常认为取得训练数据授权是大公司才有能力做的事情,而这会让小型初创公司的发展变得更加困难。但这个猜想与实际情况相反,初创公司在取得训练数据授权以及实现公平公正的训练数据管控方面处于领先地位。
Midin:一家公司要如何获得 irly Trained的认证?
Ed Newton-Rex:公司需要首先填写一份申请文件,irly Trained随后会根据申请材料内容提出后续问题并进行讨论。我们主要关注的是公司训练数据的构成来源,但我们也会关注公司调查流程的尽职与否以及相关记录的保存情况。
Midin:如今谈论人工智能版权问题时,我们常常聚焦于生成式模型的训练数据。你是否认为在无关音乐生成或替代工作的音乐人工智能(例如音源分离等)中,训练数据的版权问题也应获得同等的关注?
Ed Newton-Rex:我当然认为非生成性人工智能的训练数据许可值得关注,但这不是 irly Trained 关注的重点。
Midin:你在最近撰写的两篇文章中揭露了 Suno和Udio可能的训练数据侵权问题《深入揭发:AI Music 新平台 Udio 训练数据来源分析,依然涉嫌侵权》《深入揭发:Suno 的音乐 AI 训练数据是否侵权?》,而三大唱片公司 Suno和Udio的诉讼件中也提供了类似的证据《三大唱片公司生成式 AI Music 公司 Suno 与 Udio,50 多家音乐行业公司力挺音乐人》。我们的读者对此感到十分震惊。他们当中许多人想知道自己的音乐是否被用于模型训练。另外,对于模型生成的音乐,人们也想知道有没有更好的办判别其中是否包含受版权保护的元素。
除了你在文章中提到的方之外,你还有其他方来鉴别和判断侵权情况吗?你对音乐人如何保护自己创作的音乐不被非用于模型训练有什么建议吗?
Ed Newton-Rex:通常很难有办知道你的音乐是否被用于人工智能模型训练,因为多数生成式人工智能公司不会透露他们的训练数据来源。话虽如此, Suno 就在对三大唱片公司诉讼的回应中亲口表示“Suno 的训练数据基本上包括所有能够在在公开互联网问到的质量合格的音乐文件”(参考《AI Music 动态:三大唱片与 Suno 和 Udio 隔空嘴》)。因此我们可以假设,如果你的音乐质量过关并且可以在互联网上可以听到,那么它就已经被Suno用于他们的模型训练当中。
不幸的是,我认为阻止音乐人的音乐被非用于模型训练唯一可靠的办就是避免将其发布到网上。果然,已经有一些创作者因为担心人工智能公司爬取数据而停止在网上发布内容。
Midin:如果音乐人已经发现某个人工智能所生成的音乐与自己的作品有相似之处,他/她可以采取怎样的律行动来维护自己的权利并阻止进一步的版权侵犯?
Ed Newton-Rex:作为个人,这将很困难。集体诉讼是一种应对的可能性。
Midin:音乐人显然对他们的音乐在未经同意和付费的情况下就被使用感到不满。有些人正在讨论关于在自己的音频中添加反 AI 的对抗水印,并希望音乐流媒体平台采取类似的措施。我们知道包括画家和摄影师在内的视觉艺术工作者已经开始应用反 AI 水印。你对此有何看?你知道在音频领域是否存在这种技术?
Ed Newton-Rex:在音乐中是可以添加听不见的水印。图像上使用的保护性水印是想要显著降低在其数据上训练的模型质量,但我没有得知在音乐领域有这样的技术。不过,音乐流媒体平台可以在很多方面采取措施保护音乐人的权益。首先,音乐流媒体平台应该给人工智能生成的音乐贴上标签。消费者有权知道他们什么时候在听人工智能生成的内容,也有权选择是否收听这样的内容。其次,音乐流媒体平台还应该避免在首页歌单中推荐人工智能生成的音乐。除此之外,流媒体平台还应下架任何使用未经许可受版权保护的音乐进行训练的人工智能模型所生成的音乐。
Midin:生成式人工智能的发展速度比许多研究人员的预测还要快,许多音乐人在担心自己未来的工作生计。凭借你在人工智能音乐领域的多年经验,你认为人工智能音乐将在 1 年、2 年、5 年后达到什么样的程度?音乐人该如何应对?
Ed Newton-Rex:人工智能音乐将与最优秀的人类音乐家一样优秀,这一点早已是显而易见。这一天将很快到来,就在这几年之内。我对音乐人的建议是专注人工智能可能不太擅长的音乐元素,比如现场表演或者是演奏乐器这样较少使用数字输入创作的方面。消费者肯定是希望由人类来创造音乐的。另一个思路是与生成式人工智能公司合作,并将你的音乐作为训练数据授权给他们。没有训练数据,模型就无工作。如果你是音乐人,那么你的作品一定对生成式人工智能公司有价值。
Midin:你认为人工智能音乐生成技术的成熟会推动音乐人转向如黑胶唱片和磁带这样的非数字媒介吗?你是否认为音乐人会走向与现在不同的音乐创作方式和的音乐传播交流模式?
Ed Newton-Rex:当然是这样。我认为人工智能在各个艺术创意领域的成熟将引发一场倾向于非数字的现场音乐的运动,而这将有利于现场演出和即兴表演。我认为人们会想知道他们正在听的音乐不是由人工智能生成的,而这一点将推动上述音乐创作和传播的转变。
Midin:人工智能现在可以生成令人信服的音乐,但它依然无实现音乐风格转换,也无遵循对乐器和速度等方面的控制。这是为什么呢?音乐人工智能是否有潜力实现真正的创造,还是说它只是在模仿训练数据?
Ed Newton-Rex:我认为人工智能将能够在短期内实现这些能,但我不确定它是否有可能有真正的创造力。我当然认同人工智能在本质上是在模仿训练数据。
Midin:你认为当前的人工智能音乐领域的研究有什么不足吗?我们仍然需要更好的音乐转录模型、更好的音乐理解模型、更好的音源分离模型,但这些领域最近似乎落后于音乐生成的发展。
Ed Newton-Rex:是的,所有这些方面肯定还有改进的空间。我不确定说它们是否落后于音乐生成,我只是认为音乐生成发展迅速,给人一种领先的印象。
音乐生成的特点是它不会“犯错”。你可能不喜欢模型输出的音乐,但生成模型的输出没有对错之分。音乐转录、理解和音源分离这些要么可以按对错来比较效果,或者在音频上有有明显的失真。因此,就某些方面而言,这些任务比音乐生成更具挑战。尽管如此,这些模型也取得了长足的进步。就我个人而言,我认为这些研究比音乐生成更令人兴奋,因为它们将是音乐人所需要的工具。
Midin:我们之前报道过你关于 Suno和 Udio 的文章《深入揭发:AI Music 新平台 Udio 训练数据来源分析,依然涉嫌侵权》《深入揭发:Suno 的音乐 AI 训练数据是否侵权?》。自此以来,还有什么值得注意的进展吗?
Ed Newton-Rex:三大唱片公司了 Udio 和 Suno,而两家公司都作出回应。案件相关的内容都值得一看《AI Music 动态:三大唱片与 Suno 和 Udio 隔空嘴》。
Midin:您对 Adobe 正在开发的音乐生成工具以及 Stability AI 的 Stable Audio 2.0 的训练数据(参考《风格迁移 AI 效果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》)有何看?
Ed Newton-Rex:恐怕我不知道它们的训练数据是哪里来的!
后记:
如果你所在的公司想要得到irly Trained认证的话,可以通过官网[https://www.irlytrained.org/apply]与他们取得联系。irly Trained期待更多中国公司加入「训练数据合规」的阵营之中,推动人工智能行业健康发展。
在这里可以看到所有已经获得「训练数据合规」认证的AI Music公司、产品和模型:https://www.irlytrained.org/certified-models