Suno AI V3发布:输入音乐流派和主题,几秒生成2分钟完整歌曲
在当今的科技领域,人工智能与音乐的融合成为一个备受关注的亮点。它不仅能带来前所未有的音乐创作体验,还可能革新整个音乐产业。
Suno模型的前身与基础
Suno模型不是凭空出现的。像Bark这样的产品就是其发展的基础之一。Bark作为首个基于开源Transformer的“文本到音频”模型,在一个月内于GitHub上从零开始获得1.9万颗star。这表明其具有独特的魅力和潜力。它的架构受到Karpathy NanoGPT的启发共振峰合成,并且与先前适用度有限且不自然的TTS模型不同,它根据广泛的真实音频训练,使得输出丝滑流利。
Suno模型能有现在的成果,也是站在之前很多项目的肩膀上。例如它的历史能追溯到Tensorflow Magenta南宫pg娱乐电子游戏官网,虽然可能还有更早的相关项目未被查询到,但这足以说明其发展过程中借鉴与传承的重要性。
V3版本的进步与提升
Suno的新模型版本V3较之前的V2版本有诸多进步。它新增了更多音乐风格和流派,这意味着能满足更多人的各种音乐喜好。同时加强了对提示词的依从性,减少幻觉问题。从实际效果看,模型架构能够生成人们喜爱的音乐。这种提升让其在人工智能音乐的道路上迈进一大步。
在整个开发过程中,团队肯定付出了很多心血。无论是技术瓶颈的突破还是各种参数的调整优化,都是提升V3版本成果的重要因素。这也体现出在人工智能音乐领域持续改进和探索的必要性。
模型架构的独特性
Suno的模型走上了一条独特的道路。在目前其他研究机构相对忽视的道路上前行。它代表着人工智能音乐的巨大飞跃,能力是过去版本的10倍以上。
它向文本生成领域的先驱者学习,了解transformers模型工作效果、适用问题类型等。并不强行给模型加规则共振峰合成,让模型自己学习探索,这一点区别于一些传统的做法,是一种创新的思路,也是其独特性的重要体现。
训练数据的多样性
在训练数据方面,Mikey表示单凭音乐去训练高质量模型不行。真实人声素材虽然是让大家头痛的部分,但却是训练所必要的。这就如同大语言模型接纳不同人声一样,这些不同类型的人声虽不属于音乐,但能帮助模型学习知识。
要让模型学习到足够的知识来完成音频生成,需要多种类型的数据配合。例如区分语音、背景音乐和人声部分,把这些不同部分区分开对于捕捉音频生成手段极为重要。
与开源大模型的类比
Suno的方法与开源大模型有相似之处。具体会使用多种不同模型来学习离散表示,借此对音频进行编码。这种类比为研究人员提供了参考的思路,也让整个行业看到不同领域技术互相借鉴的可行性。
通过相似之处找到有效的工作方式,同时在此基础上不断调整,以适合于自身的发展需求。这是Suno在发展过程中善于反思吸收的体现,也是自身不断进步重要推动力。
对未来模型的展望
目前市面上虽还没有能搞定所有用例的模型,但相信未来会有。并且Transformers(或许是Diffusion Transformers)大概率会继续充当其核心。
随着技术的发展以及对人工智能音乐认识的加深,未来模型会不断在优化性能、适应更多需求等方面取得进展。也希望它能在不偏离从文本领域借鉴优势到音频中的核心情况下不断创新发展。