人工智能拼:Suno 纯音乐 AI 生成评测


图1:Suno.AI

过去的几周内,通过Suno V3生成的音乐出现在互联网各个角落,导致各位音乐人现在是焦虑值暴增。今天让我们准备做一组评测,试试Suno与其他人工智能音乐产品相比有多少提升。另外,为了探究Suno在音乐市场上与人类音乐竞争的情况,我们还将音乐素材库乃至流媒体服务纳入比较。

目前市场上能够无门槛的音频音乐直接生成产品包括:

[https://m.midin.com/news_body.php?id=48819]。

其他已知正处于研发或测式阶段的产品有:

由于生成质量差距较大因此不纳入本次测试。

这次评测将局限于没有演唱的纯音乐生成任务。由于Suno、Riffusion以及Google Dream Track等产品的歌声生成机制尚无太多息,因此无确切判定其是直接音频生成还是间接的歌声合成。我们会在有更多公开资料和类似产品发布后再进行歌曲生成评测。

Suno一类的音乐生成产品是通过文本提示词来引导深度学习模型输出对应的音频。与此类似,各类音乐素材库的发现机制也是以文本搜索作为基础,再辅以乐器、风格、速度等条件帮助用户筛选出合适的音乐。因此,虽然文本到音频的音乐生成在原理上与音乐素材库检索完全不同,但其目前的使用流程却是类似的。本次评测中将会使用到的音乐素材库包括:

除此之外,YouTube和Spotify因其容纳了更广泛的音乐素材内容也被纳入测试比较。

测试方非常简单,我们将使用5组简单的文本提示词描述我们想要的纯音乐类型特征,然后分别交由各个人工智能工具和音乐素材库进行生成和检索。在不进行多次生成和过多搜索结果挑选的情况下,我们将最后得到的音频结果进行对比分析。

2024年2月,在Suno V3模型发布之前的几周,滚石的记者在离马萨诸塞州剑桥市哈佛大学校园仅几步之遥的Suno临时总部的会议室听到了由人工智能生成的密西西比蓝调音乐。这首歌曲被命名为Soul of the Machine,由ChatGPT辅助歌词创作。Suno使用的提示词为"solo acoustic Mississippi Delta blues about a sad AI”。歌曲中富含的感情丰富程度让人震惊。

音频1:Soul of the Machine

当滚石记者将这首歌发送给乐手好友后,大家讨论到人工智能演唱布鲁斯音乐所造成的困惑和不自然,因为“这是一种美国黑人的表达方式,与他们在历史上的经受的奴役和痛苦息息相关”  。在寒冷的新英格兰的Suno实验室中,人工智能“学会了”来自上世纪初美国酷热的密西西比三角洲穷苦黑人的吟唱。这种音乐风格本已在20世纪中叶逐渐消亡,但因一批历史保留目的而录制的唱片在那时流入英国,引发了英国蓝调热潮和随后由披头士和滚石乐队率领的英伦入侵,就此改变了世界流行音乐的面貌。

音频2:solo acoustic Mississippi Delta blues about a sad musician

如果你期待Suno可以掀起一波新的音乐风格诞生的话,那目前的结果可能会让你失望。虽然Soul of the Machine的曲调和演奏都足以让人信服,但生成式人工智能每一次推理都有不确定性,同时也要考虑到使用者的选择偏见。当提示词稍作改动换成“solo acoustic Mississippi Delta blues about a sad musician”之后,Suno生成的音乐就彻底没了蓝调味儿,成了一首白人民谣。为了搞清楚提示词和生成音频究竟有多密切的联系,我们进行了总共5组测试。所有取得的音频均经过响度标准化调整至-20 Integrated LUFS。

 

第一组我们选用了跟刚刚基本相同的提示词,但将其改为生成纯器乐作品。

人工智能组

Suno

音频3:Suno_1_blues.mp3
音频4:Suno_2_blues.mp3

我们注意到Suno生成的第一段音频是完全标准的蓝调,有头有尾挑不出毛病。但同样提示词生成的第二段音频就应该归类到乡村民谣了。这里出现的风格理解问题与之前的歌曲是一致的。

Google Music FX

音频5:Google_music_fx_1_blues.mp3
音频6:Google_music_fx_2_blues.mp3

Google生成的音乐更像是东拼西凑的乐句,但在风格和配器上没有问题。

Riffusion

音频7:Riffusion_blues.mp3

Riffusion公司最近似乎是把重心转向了歌曲生成,所以纯音乐生成的效果与过去没有什么进步,音质较差。乐器使用的是原声吉他,但风格上似乎也没有蓝调的特点。

Stable Audio

音频8:Stable_Audio_blues.mp3

我们能听出来是木吉他演奏的蓝调,但除了音质上的外,好像节拍也不太稳定。

人类组

Audiosparx

音频9:Audiosparx_blues.mp3

在Audiosparx网站上搜索关键词后获得共34个结果,小编选取的最佳结果来自第五名。出于时间考虑我们没有在这里展示完整音频,但人类表演在音乐结构上是完全过关的。不过音频中有人声演唱,与关键词不太符合,但在风格和乐器上是完全正确的。


图2:Audiosparx不仅提供了音乐,还对每首音乐有着更详细的文字描述。在这个例子里,文字描述包括了乐器、风格、歌词内容简介、用途、情感以及速度等信息。

APM Music

音频10:APM_blues.mp3

完全符合描述的标准蓝调,录音质量也非常不错!这是在264个搜索结果中排名第二的音乐。

Universal Production Music

音频11:Universal_Production_Music_blues.mp3

这首音乐听起来有些田野录音的感觉,还有脚打拍子的声音。Universal Production Music网站仅提供了一个搜索结果,不过恰好符合要求。

Soundstripe


图3:

音频12:Soundstripe_blues.mp3

Soundstripe也只提供了一个搜索结果,不过乐器却变成了电吉他。音乐倒是很好听,揉弦的。

Youtube

音频13:Youtube_blues.mp3

一般来讲,在YouTube无论搜索怎样的关键词总会得到无数的结果。这是排名第一的,一位博主自己录制的演奏。

Spotify

音频14:Spotify_blues.mp3

Spotify其实并不适合进行这样的搜索,不过该平台内容的音乐性确实会高过罐头音乐网站。这首歌曲排名第五,但包含了不需要的人声演唱。

 

冲浪摇滚是流行于上世纪六十年代的一种早期摇滚风格,通常会有独特的吉他效果器。如今很难找到有乐队表演这种风格,所以要录制一首复古的冲浪摇滚并不是一件容易的任务。我们还要求音乐里面有管风琴和拍手节拍,这是该风格常见的乐器。

人工智能组

Suno

音频15:Suno_1_rock.mp3
音频16:Suno_2_rock.mp3

风格、和声进行、节奏型、鼓点、这些统统没有问题,连混响的风格也是对的。除了高频的噪音部分不太真实外,小编挑不出什么毛病来。考虑到当年的录音水平,混音上倒没必要吹毛求疵了。当然最大的是Suno没有按要求加入管风琴和拍手节拍,不知道其他人工智能会表现如何。

Google Music FX

音频17:Google_music_fx_1_rock.mp3
音频18:Google_music_fx_2_rock.mp3

哦,这不算冲浪摇滚吧?不好讲这是什么音乐风格。第一段音乐有很多的管风琴,但没有拍手声。第二段虽然多了些架子鼓,但音乐性上也没什么进步。

Riffusion

音频19:Riffusion_rock.mp3

一如既往地节拍不稳,也听不出有什么乐器,不评价。

Stable Audio

音频20:Stable_Audio_rock.mp3

管风琴是有了,但不太冲浪,拍手声也没有。音质上确实有待提高,特别是打击节奏乐器。

人类组

Audiosparx

音频21:Audiosparx_rock.mp3

完全符合要求!吉他、solo、管风琴、架子鼓、clap、全齐!这是总共4个搜索结果中的最后一个,前三个都不符合要求。小编只是觉得声场有点怪怪的,怀疑制作人塞了些别的乐器到Lesile speaker里。

APM Music


图4:

音频22:APM_rock.mp3

管风琴的声音很小,但确实能听到。可惜没有拍手声。这段音乐是APM网站上返回的唯一一个搜索结果。

Universal Production Music

音频23:Universal_Production_Music_rock.mp3

跟APM的结果很像,也是没有拍手声。Universal Production Music总共有5个搜索结果,这是第三首音乐。

Soundstripe

Soundstripe没有搜到任何东西。冲浪摇滚能用到的地方确实不太多。

YouTube

音频24:Youtube_rock.mp3

古老的混音方式!架子鼓全都放在右边声道。这是YouTube排名第二的搜索结果,可惜并没有拍手和管风琴。

Spotify

音频25:Spotify_rock.mp3

架子鼓独奏咚咚咚!Spotify排第一的搜索结果,也没有管风琴和拍手。

 

说到罐头音乐,怎么能少了大气磅礴史诗管弦,配战争配风景配游戏配新闻配主播配短,生活就是战斗!

人工智能组

Suno

音频26:Suno_1_cinematic.mp3
音频27:Suno_2_cinematic.mp3

非常合格的管弦背景音乐。音质上有,弦乐像是在刷砂纸。不过外放也够用了对吧?

Google Music FX

音频28:Google_music_fx_1_cinematic.mp3
音频29:Google_music_fx_2_cinematic.mp3

这个音质明显就不够用了,中间也有些错误音符。

Riffusion


图5:

音频30:Riffusion_cinematic.mp3

这个也不太行。

Stable Audio

音频31:Stable_Audio_cinematic.mp3

除开音质的问题,结构和音乐性都是不差的。

人类组

Audiosparx

音频32:Audiosparx_cinematic.mp3

人类作品的节奏型和结构发展上还是要高出人工智能不少。相比之下Suno和Stable Audio生成的作品就过于背景音乐化了,相互之间都是雷同的。在Audiosparx中搜索该关键词有超过1000条结果。该段音乐排名第二。

APM Music

音频33:APM_cinematic.mp3

112个搜索结果中排名第三。前两个没有被选中是因为它们用上了合成器和摇滚的元素,并非音乐质量的原因。如果这段音乐要用到发行级的影视作品里可能还需要在混音上再下下夫,不过APM正好也提供分轨音频下载。二次编辑能力也是目前人工智能所不具备的地方。

Universal Production Music


图6:

音频34:Universal_Production_Music_cinematic.mp3

167个结果中排名第一,没有什么问题,中规中矩。

Soundstripe

音频35:Soundstripe_cinematic.mp3

唯二的两个结果中排名第一,进行有些特色。

YouTube

音频36:Youtube_cinematic.mp3

真正的epic drums,来自YouTube排名第一的结果。

Spotify

音频37:Spotify_cinematic.mp3

没有什么问题,不过多评价。

 

现在开始,我们要试试人工智能有没有创新的可能。这几年最出名的融合新风格就是乡村与嘻哈的结合了。从一曲Old Town Road开始,流行乡村歌曲多了一些808 Hi-Hat,而Trap也多了一点班卓琴。让我们期待一下人工智能会带来什么不一样的组合。

人工智能组

Suno

音频38:Suno_1_trap.mp3
音频39:Suno_2_trap.mp3

大失所望!Trap倒是Trap,可惜小编没有听到一点点乡村元素。用的Lo-Fi键盘音色要是换成个吉他倒还有可圈可点之处。

Google Music FX

音频40:Google_music_fx_1_trap.mp3
音频41:Google_music_fx_2_trap.mp3

第一段音乐好像坏掉的音乐盒的声音,只能说有点出其不意。不过第二段音乐真的有吉他耶,但跟乡村音乐扯不扯得上关系就另说了。

Riffusion

音频42:Riffusion_trap.mp3

这有点搞笑,Lo-Fi味儿倒是对了。只能说嘻哈搞采样Lo-Fi是预判了人工智能,领先时代40年。

Stable Audio

音频43:Stable_Audio_trap.mp3


图7:

好好放克的Hi-Hat,别的就真没有了。

人类组

Audiosparx

音频44:Audiosparx_trap.mp3

没想到,在嘻哈这种重复性很强的音乐风格上,人类作品中的小小细节可以展现出如此创造力。30秒过后的吉他弯音真是把小编击中了。本首音乐在4个搜索结果中排名第三。

APM Music

音频45:APM_trap.mp3

来自APM的唯一搜索结果。这首beat的创意性就略显逊色,不过也是完全符合关键词要求的作品。

Universal Production Music

音频46:Universal_Production_Music_trap.mp3

这个beat好像不那么trap,有点流行。乡村元素也有点淡。

Soundstripe

没有搜索结果。

YouTube

音频47:Youtube_trap.mp3

YouTube排名第一的搜索结果。鼓机的节奏型更靠乡村那一边,有点意思。

Spotify

音频48:Spotify_trap.mp3

同样是排名第一的结果,中规中矩,满足关键词要求。

 

最后,我们准备尝试一个不可能完成的任务:中国风爵士!在小编本人肤浅的音乐知识中,这两者的结合是少之又少,也不像Trap乡村这种融合方式能够复刻。让我们期待奇迹吧!

人工智能组

Suno

音频49:Suno_1_jazz.mp3
音频50:Suno_2_jazz.mp3

虽然完全不是我们想要的中国风爵士,但是当看到Suno将其命名为Moonlit Shanghai时小编有笑到耶,还蛮准确的。

Google Music FX


图8:

音频51:Google_music_fx_1_jazz.mp3
音频52:Google_music_fx_2_jazz.mp

这个反而有点对味,不知道有没有让大家想到一些上世纪三十年代的流行歌。

Riffusion

音频53:Riffusion_jazz.mp3

跑调咯!(爵士也能跑调么)

Stable Audio

音频54:Stable_Audio_jazz.mp3

不明觉厉,Modal Jazz? Free Jazz?

人类组

Audiosparx

音频55:Audiosparx_jazz.mp3

当小编听到这一曲时惊喜不已,改编方式和和声让人过耳不忘。“在那东山顶上”,来自CoCo Zhao的专辑《一只鸟Solitary Bird》,Audiosparx网站的唯一搜索结果。

APM Music

没有搜索结果,情有可原。

Universal Production Music

没有搜索结果。

Soundstripe

没有搜索结果。

YouTube


图9:

音频56:Youtube_jazz.mp3

再次发现宝藏!一曲“”收录于音乐家Zac Zinger的专辑《Fulfillment》,用上了笛子、二胡和古筝的融合爵士,完完全全超出了小编的想象。贝斯手竟是大家熟悉的YouTube音乐博主Adam Neely,好神奇。他们的其他有被搬到B站[https://www.bilibili.com/video/BV1a4411i7uC/],欢迎围观。

Spotify

没有搜索结果。

听过了这么些音乐,相信大家已经对Suno的底细有更深的理解了。当然,本次测试比较简单,并没有覆盖更多的风格和提示词,也没有涉及最火的歌曲生成能。目前看来,无论是人工智能还是已有的音乐素材库,在对语义理解上有很大的提升空间。由于训练数据集覆盖的原因,Suno无理解诸如乡村嘻哈这样的风格。音乐素材库也因为缺乏对音频的理解工具,完全依赖创作者提供的标签信息,甚至连模糊搜索能都不具备。虽然音乐素材库在准确度和内容质量上都是完胜Suno,但Suno在放弃匹配度的情况下提供音乐,在一些情况反而是一种优势。总之,音乐音频内容的自动理解、标注、相似音乐搜索是目前急需的研究方向。

最后,关于版权问题不得不提。在滚石对Suno的采访中,Suno团队拒绝回应对其训练数据的来源的质疑。目前有理由怀疑Suno超过其他人工智能产品的原因之一就是其更庞大且可能侵权的训练数据。此前,来自Stability AI的Stable Audio就因非使用Audiosparx平台上的音乐进行训练进而引发管理层愤然离职(参考新闻《风格迁移 AI 效果器 Comboulator 发布,另有一波 Google 和 Adobe 音乐 AI 新品袭来》)。Stability AI的CEO也因该起事件和其他不道德行为于近期辞职,公司也面临成为首家倒闭AI独角兽的不利局面。Suno采取禁止在提示词中包含音乐人名字的方式避免生成某位大家熟知歌手声音,但这并不代表其生成的音乐没有版权风险。在目前Suno拒绝披露其训练数据来源的情况下,贸然使用其生成的音乐可能会面临版权方追责。对于人工智能音乐的版权问题我们将持续跟进报道。

音频应用编曲资源网-Audioba-音频吧编曲混音资源网访问主页
THE END