Stability AI 是一家以人工智能生成视觉效果而闻名的公司,推出了名为 Stable Audio 的文本到音频生成人工智能平台。
Stable Audio 使用扩散模型,该模型与该公司更受欢迎的图像平台 Stable Diffusion 相同的 AI 模型,但使用音频而不是图像进行训练。用户可以使用它为任何项目生成歌曲或背景音频。
音频扩散模型往往会生成固定长度的音频,这对于音乐制作来说很糟糕,因为歌曲的长度可能会有所不同。Stability AI 的新平台允许用户发出不同长度的声音,要求该公司进行音乐训练并在歌曲的开始和结束时间周围添加文本元数据。
以前,30 秒剪辑上的音频教学只能生成 30 秒的音频并创建歌曲的任意部分。Stability AI 表示,调整模型现在可以让 Stable Audio 的用户更好地控制歌曲的长度。
该公司在一份声明中表示:“Stable Audio 代表了 Stability AI 生成音频研究实验室 Harmonai 的尖端音频生成研究。” “我们不断改进我们的模型架构、数据集和训练程序,以提高输出质量、可控性、推理速度和输出长度。”
据该公司称,它使用“由超过 800,000 个包含音乐、音效和单乐器主干的音频文件组成的数据集”以及来自股票音乐授权公司 AudioSparx 的文本元数据来训练 Stable Audio。该数据集包含超过 19,500 小时的声音。Stability AI 表示,通过与一家许可公司合作,它有权使用受版权保护的材料。
Stable Audio 将提供三个定价等级:免费版本,允许用户每月为 20 首曲目创建长达 45 秒的音频;专业级 11.99 美元,包含 500 首曲目,长度不超过 90 秒;以及企业订阅,公司可以通过该订阅定制其使用情况和价格。使用免费版本的用户无法将使用稳定音频制作的音频用于商业用途。
文本到音频的生成并不新鲜,因为生成人工智能领域的其他知名人士一直在研究这个概念。Meta 于 8 月发布了 AudioCraft,这是一套生成式 AI 模型,可帮助根据提示创建听起来自然的 ERM、声音和音乐。到目前为止,它仅适用于研究人员和一些音频专业人士。谷歌的 MusicLM 也可以让人们产生声音,但仅供研究人员使用。
与其他生成式 AI 音频平台一样,Stable Audio 的很大一部分潜在用例将是为播客或视频制作背景音乐,以加快这些工作流程。
Stability AI 去年宣布计划扩展到音频生成、视频和 3D 图像领域。
免责声明
本文内容(图片、文章)翻译/转载自国内外资讯/自媒体平台。文中内容不代表本站立场,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除。