NVIDIA 发布 AI 音频合成 / 转换大模型 Fugatto，探索音频制作领域发展新边界

2024-12-3

NVIDIA 发布 AI 音频合成 / 转换大模型 Fugatto，探索音频制作领域发展新边界

NVIDIA 近日发布了一段由该公司新组建的人工智能团队全新开发的 AI 大模型Fugatto 的预览。与目前市面上现有的AI 音频/音乐制作工具不同的是，Fugatto 具有更加多面和灵活的创造力，让你能以文本和音频输入的方式创造声音、对话和音乐。而更加神奇的是，该研究团队发现 Fugatto 可以处理未经过预训练的任务，例如从文本提示生成高质量的歌声。

”

Fugatto（全名为 Foundational Generative Audio Transformer Opus 1）是一个基础的生成式 transformer 模型。该模型建立在研究团队之前在语音建模、音频声码和音频理解等领域的工作之上。完整版使用了 25 亿个参数，并在一组包含 32 个 NVIDIA H100 Tensor Core GPU 的 NVIDIA DGX 系统上进行了训练。

Fugatto 可以运用文本和音频文件将提示描述转换成声音、对话和音乐的任意组合。例如，根据文本提示产生一段音乐，从现有歌曲出人声部分，改变说话的口音或语气，甚至合成前所未有的声音。这让音乐制作人可使用 Fugatto 加快歌曲制作的效率，尝试不同风格的人声和乐器、添加各种前所未有的音效等。面对不同地区和市场的需求，Fugatto 在配音、影视和游戏开发领域也均展现出了不凡的潜力。

Fugatto 由来自世界各地的不同群体共同开发，包括印度、巴西、中国、约旦和韩国。他们的合作使 Fugatto 的多语言能更加强大。这项工作最困难的部分之一是生成一个混合数据集，其中包含数百万个用于训练的音频样本。该团队采用多方面的策略来生成数据和指令，大大扩展了模型可以执行的任务范围，同时实现了更准确的性能，并在不需要额外数据的情况下支持新任务。

官方预览（原地址：https://youtu.be/qj1Sp8He6e4）

尽管这段与一些早期的 AI 模型演示一样，在某些处理方面似乎还有一点原始，但也足以为我们展示出一幅非常宏大的图景。例如，该演示了如何将文本提示与 Fugatto 结合使用，以便从混音中提取人声、将一种声音转换为另一种声音、生成逼真的语音、重新混合现有音频以及将 MIDI 旋律转换为逼真的人声样本。这些能实际上补充和扩展了当前一代数字音频工作站的能。

NVIDIA 应用音频研究经理Rael Valle表示：

“我们希望创建一个能像人类一样理解和生成声音的模型，Fugatto 是我们迈向未来的第一步，音频合成和转换中的无监督多任务学习将根据数据和模型规模而产生。”

通过这个演示，我们似乎可以看到未来音频处理方式可能存在的转变，基于文本和语音命令或许会成为音频制作和设计领域的重要组成部分。这类软件将会变得更加智能，而且工作流程也会随之发生一定的变化。某些 DAW 和插件制造商势必将会在新一代的产品中逐渐加入这些能以形成新的卖点，毕竟以传统硬件为蓝本的合成器、音效插件市场已经非常饱和。而且尤其对于新手来说，那些不知所以的参数和纷乱的旋钮还是有些太复杂了。这让很多用户都把大量的时间花在学习软件之上了。其实现有的音乐制作流程，是随着笨拙的硬件发明历史而被逐渐固定下来的。如今人类已经走到了无回避的 AI 时代！用简单、直接一点的提示语来参与工作难道不好吗？经典固然有其美，但少折腾一点也有其便，何况创作最需要的灵感。

音乐制作人兼 Nvidia 初创加速计划成员 Ido Zmishlany 表示：