网站介绍

AI 绘图 Stable Diffusion 着实是火了一把,只需要提供所需要的提示词,它就可以生成近似的图片。最近,这种技术也应用在了音乐生成领域 — Riffusion 是一款新的 AI 项目,它建立在最近兴起的AI绘图的基础上,但将其应用于声音。
Riffusion
Stable Diffusion 通过从随机噪点开始,并将随机图像与与提示词匹配的图像索引进行比较来实现图片的生成。应用程序选择其索引中与提示词匹配或接近的图像质量最接近的图像,然后重复此过程。每次迭代时,图像的质量越来越接近具有所需标签或文本提示的图像。
Riffusion
Riffusion的工作方式是首先构建一个索引的频谱图集合,每个频谱图都标有代表频谱图中捕获的音乐风格的关键字。一旦在此频谱图主体上进行训练,该模型就可以使用与 Stable Diffusion 相同的方法,干预噪声以获得与文本提示匹配的声波图具有相似质量的声波图像。
Riffusion
如果你的需求是 “摇摆小号爵士”,它将生成一个类似于与提示词相匹配的声波图。然后,应用程序将超声波图转换为音频,这样你就可以听到结果。
目前 Riffusion 得出的结果还很粗糙,但它确实证实了该过程确实能够产生与文本提示匹配的原始音频。目前该技术主要受限于声波图样本的数量较小,而用于图像的 Stable Diffusion 可是使用了 2.3 亿个图像进行训练。不只是数量,Riffusion 还会受到频谱图分辨率的限制,频谱图只能产生比较低保真的音频质量。
目前来看,该技术还无法在不久的将来使用人工智能产生任何传统音乐,因为这个过程没有考虑形式。音乐是声音的想法,可以及时组织以创造出的艺术结果。
不过,这种方法显示了 AI 的潜力。目前,它的任务是生成令人不安的样本素材 — 类似于 AI 图像生成的方式,即使在 6 个月前,也仅限于生成令人毛骨悚然的图像。这表明,凭借更大的数量和更高分辨率的频谱图,人工智能音频生成可能会在明年实现类似的质量飞跃。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...