DiffRhythm AI:🎵🚀 全新快速(<15秒)和开放的音乐生成模型!

社区文章 发布于 2025年3月4日

模型: ASLP-NPU/DiffRhythm
论文: DiffRhythm:基于潜在扩散的端到端全长歌曲生成,速度极快且极其简单
演示: 试用 DiffRhythm

前所未有的突破性音乐生成速度

西北工业大学音频、语音与语言处理组(ASLP@NPU)发布了 DiffRhythm,这是首个基于潜在扩散的歌曲生成模型,能够在短短十秒内合成包含人声和伴奏的完整歌曲。这款开创性的模型以卓越的速度和质量兑现了真正端到端音乐生成的承诺。

MIT 许可证
10秒生成完整歌曲
端到端架构,用于完整歌曲创作
多语言支持,支持英文和中文歌词
极其简单的设计,实现最大效率

DiffRhythm 的独特之处

尽管最近音乐生成领域的进步备受关注,但大多数现有方法都面临关键限制。一些模型只能单独生成人声或伴奏,而另一些则依赖于精心设计的多阶段级联架构和复杂的数据管道。大多数系统仅限于短音乐片段,而基于语言模型的方法则推理速度缓慢。

DiffRhythm 以一种优雅、直接的解决方案应对了所有这些挑战:

  1. 极速生成:在短短十秒内创作长达4分45秒的完整歌曲——比任何同类系统都快得多。

  2. 同步人声与伴奏:在单个过程中同时生成人声和器乐轨道,无需复杂的管道即可确保完美同步。

  3. 直接的模型结构:无需复杂的数据准备或多阶段架构,使其具有高度可扩展性。

  4. 最小输入要求:推理时仅需歌词和风格提示——无需复杂的设置。

  5. 非自回归架构:与较慢的顺序生成方法相比,确保了更快的推理速度。

实际应用

DiffRhythm 能够创作各种流派的原创音乐,支持以下应用:

  • 艺术创作:在几秒钟内从歌词生成完整歌曲
  • 教育:演示音乐创作原理
  • 娱乐:为视频、游戏和其他内容创作配乐
  • 原型制作:在制作前快速测试音乐创意

技术实现

DiffRhythm 的潜在扩散方法与之前基于语言模型的系统显著不同。非自回归结构支持音频内容的并行生成,大大缩短了创建完整歌曲所需的时间,同时保持了高音乐性和可理解性。

该模型“极其简单”的设计确保了它不仅功能强大,而且易于广泛采用和进一步开发。

伦理考量

研究人员承认潜在风险,包括通过风格相似性造成的无意版权侵权,以及滥用生成有害内容。他们建议实施验证机制以确认音乐原创性,披露生成作品中 AI 的参与,并在改编受保护风格时获得许可。

立即体验

DiffRhythm 现已在 GitHub 和 Hugging Face 上发布。立即体验这款开创性模型,它让完整歌曲创作变得前所未有的快速和简单。

GitHub 仓库 | Hugging Face Space | 演示 | 研究论文

社区

你好,我们可以创造一些东西吗?

注册登录 以评论