Google 和 Meta 继续研究 AI Music,Stable Audio 发布免费开源工具

在三大唱片公司与Suno和Udio的诉讼占据头条之际,大公司们也没闲着,依然在不遗余力的推进音乐人工智能的研发和应用。

YouTube


图:去年发布的Dream Track

谷歌旗下的YouTube 在人工智能音乐领域的野心仍在继续,但它希望在采取下一步行动之前与唱片公司达成授权协议。据英国《金融时报》 报道 ,YouTube正在与唱片公司洽谈,希望获得其歌曲的许可,用于制作流行歌手音乐的人工智能工具。这些产品可能会在今年晚些时候推出。报道还称,作为这些交易的一部分,YouTube 将向三大唱片公司提供“一笔巨款”。这些新工具是去年 11 月 YouTube Shorts 中的 Dream Track的延续(参考《被谷歌的音乐生成工具 Lyria 刷屏了?不如先试试 Riffusion》),该项目了 9 位歌手的声音,供一小部分创作者在短中使用。

DeepMind

另一方面,谷歌的研究部门 DeepMind公开了其为生成音乐音频最新技术。该技术的将像素与文本提示词相结合,为生成声音。在官方展示中,该模型能够生成包含配乐、音效和与角色匹配的对话。用户可以使用正向和负向提示词来改变音频和音乐。


图:模型结构

生成模型使用了autoregressive和diffusion作为基础。这个系统首先将输入编码压缩,然后通过diffusion从随机噪声中提炼音频。这个过程由输入和自然语言提示词引导。

该模型高度依赖高质量的片段来制作高质量的音频。中的失真可能会导致音频质量明显下降。DeepMind还在开发的口型同步技术,但目前还是会出现例如角色说话时嘴唇不动的情况。

Meta

Meta在人工智能音乐生成领域的最新研究名为JASCO,这是一种可以将或节拍等信息转换成完整音乐曲目的开源工具。Meta称JASCO的质量可与其他音乐人工智能相媲美,同时可以对生成的音乐进行更好、更灵活的控制。更多内容包括音频示例可以访问链接[https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/]。


图:JASCO的模型结构

Meta 展示了JASCO 将拉威尔的《波莱罗舞曲》中的一段旋律被改编成“一首 80 年代的流行歌曲(an 80s driving pop song)”和“一首带有手风琴和原声吉他的民歌(folk song with accordion and acoustic guitar)”。柴可夫斯基的《天鹅湖》变成了“一首带有古筝、打击乐和竹笛的中国传统曲目(Chinese traditional track with guzheng, percussion, and bamboo flute)”和“一首带有贝司、电鼓和小号的 R&B (R&B track with deep bass, electronic drums and lead trumpet)”。

Meta上一个相关研究是2023年开源发布的MusicGen(参考《深入揭发:cebook 人工智能音乐模型 MusicGen 是如何通过参考旋律生成音乐的?》)可以通过文本生成音乐。

Stable Audio Open


图6:

Stability AI在商业版Stable Audio(参考《深入揭发音乐人的噩梦 Stable Audio:音乐生成 AI 的商业技术背景 + 使用教程》)之后推出了能类似但是免费开源的Stable Audio Open。这个开源工具允许用户生成用于声音设计的高质量音频样本。它使用简单的文本描述生成最长 47 秒的音频。相比之下,商业版Stable Audio可以生成完整长度的歌曲。Stable Audio Open专门用于创建音乐和声音设计中常用的音效、鼓点、loops等。开源模型让用户能够使用自己的自定义音频数据对产品进行微调。这样,音乐人也有可能用自己的声音来训练模型,以自己的风格生成新颖的音乐。

Stability AI 前音频副总裁Ed Newton-Rex于 2023 年底离职,理由是对于在训练数据集中使用版权材料存在分歧。这一事件引发了对音乐人工智能版权问题的广泛讨论(参考《风格迁移 AI 效果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》)。

Stability AI 表示,其新模型是在来自Freesound和免费音乐档案的音频片段数据集上进行训练的。该公司表示,开源训练数据使他们能够创建一个开源的音频模型,同时尊重创作者的权利。Stable Audio Open 模型权重可在机器学习模型平台Hugging ce上下载[https://huggingce.co/stabilityai/stable-audio-open-1.0]。

ElevenLabs

最后,语音人工智能初创公司ElevenLabs也在初步研究一种通过提示词生成歌曲的模型。ElevenLabs已经有不少在语音领域比较成熟的产品,不过该款音乐生成工具仅在社交平台上简单展示,没有向用户。

来源:

音频应用编曲资源网-Audioba-音频吧编曲混音资源网访问主页
THE END