Stability AI发布Stable Audio AudioSparx 1.0 音乐模型

2024年2月10日下午2:17 • 模型框架 • 阅读 222

高效生成长格式音频：根据文字提示，快速生成长达95秒的44.1kHz立体声音乐和声音。

可变长度的音频输出：实现对生成音频的内容和长度进行精细控制，支持可变长度的音频输出。

立体声音频渲染：能够渲染立体声信号，提供丰富和深度的音频体验。

快速推理时间：在A100 GPU上仅需8秒即可生成长达95秒的立体声音频，显示出极高的计算效率。

结构化音乐生成：不像其他工具那样随机制作，这个工具能够根据你的文字提示，制作出有明确结构的音乐，比如有开头、中间发展和结尾，让音乐听起来更有感觉。

性能优于AudioLDM2和MusicGen——请查看论文中的指标。

解决的问题：

提高了长格式音频的生成效率，克服了固定大小输出的限制，允许生成可变长度的音频。

通过潜在扩散模型和时间条件化，实现了对生成音频长度的精细控制，同时保持了计算效率。

项目地址：

https://stability-ai.github.io/stable-audio-demo/

本文地址：https://www.163264.com/6526