Google 和 Meta 继续研究 AI Music，Stable Audio 发布免费开源工具

2024-8-11

在三大唱片公司与Suno和Udio的诉讼占据头条之际，大公司们也没闲着，依然在不遗余力的推进音乐人工智能的研发和应用。

YouTube

图：去年发布的Dream Track

谷歌旗下的YouTube 在人工智能音乐领域的野心仍在继续，但它希望在采取下一步行动之前与唱片公司达成授权协议。据英国《金融时报》报道，YouTube正在与唱片公司洽谈，希望获得其歌曲的许可，用于制作流行歌手音乐的人工智能工具。这些产品可能会在今年晚些时候推出。报道还称，作为这些交易的一部分，YouTube 将向三大唱片公司提供“一笔巨款”。这些新工具是去年 11 月 YouTube Shorts 中的 Dream Track的延续（参考《被谷歌的音乐生成工具 Lyria 刷屏了?不如先试试 Riffusion》），该项目了 9 位歌手的声音，供一小部分创作者在短中使用。

DeepMind

另一方面，谷歌的研究部门 DeepMind公开了其为生成音乐音频最新技术。该技术的将像素与文本提示词相结合，为生成声音。在官方展示中，该模型能够生成包含配乐、音效和与角色匹配的对话。用户可以使用正向和负向提示词来改变音频和音乐。

图：模型结构

生成模型使用了autoregressive和diffusion作为基础。这个系统首先将输入编码压缩，然后通过diffusion从随机噪声中提炼音频。这个过程由输入和自然语言提示词引导。

该模型高度依赖高质量的片段来制作高质量的音频。中的失真可能会导致音频质量明显下降。DeepMind还在开发的口型同步技术，但目前还是会出现例如角色说话时嘴唇不动的情况。

Stable Audio Open

图6：

Stability AI在商业版Stable Audio（参考《深入揭发音乐人的噩梦 Stable Audio：音乐生成 AI 的商业技术背景 + 使用教程》）之后推出了能类似但是免费开源的Stable Audio Open。这个开源工具允许用户生成用于声音设计的高质量音频样本。它使用简单的文本描述生成最长 47 秒的音频。相比之下，商业版Stable Audio可以生成完整长度的歌曲。Stable Audio Open专门用于创建音乐和声音设计中常用的音效、鼓点、loops等。开源模型让用户能够使用自己的自定义音频数据对产品进行微调。这样，音乐人也有可能用自己的声音来训练模型，以自己的风格生成新颖的音乐。

Stability AI 前音频副总裁Ed Newton-Rex于 2023 年底离职，理由是对于在训练数据集中使用版权材料存在分歧。这一事件引发了对音乐人工智能版权问题的广泛讨论（参考《风格迁移 AI 效果器 Comboulator 发布，另有一波 Google 和 Adobe 音乐 AI 新品袭来》）。

Stability AI 表示，其新模型是在来自Freesound和免费音乐档案的音频片段数据集上进行训练的。该公司表示，开源训练数据使他们能够创建一个开源的音频模型，同时尊重创作者的权利。Stable Audio Open 模型权重可在机器学习模型平台Hugging ce上下载[https://huggingce.co/stabilityai/stable-audio-open-1.0]。