DiffRhythm AI：🎵🚀 全新快速（<15秒）和开放的音乐生成模型！

社区文章发布于 2025年3月4日

模型： ASLP-NPU/DiffRhythm
论文： DiffRhythm：基于潜在扩散的端到端全长歌曲生成，速度极快且极其简单
演示： 试用 DiffRhythm

前所未有的突破性音乐生成速度

西北工业大学音频、语音与语言处理组（ASLP@NPU）发布了 DiffRhythm，这是首个基于潜在扩散的歌曲生成模型，能够在短短十秒内合成包含人声和伴奏的完整歌曲。这款开创性的模型以卓越的速度和质量兑现了真正端到端音乐生成的承诺。

✨ MIT 许可证
✨ 10秒生成完整歌曲
✨ 端到端架构，用于完整歌曲创作
✨ 多语言支持，支持英文和中文歌词
✨ 极其简单的设计，实现最大效率

尽管最近音乐生成领域的进步备受关注，但大多数现有方法都面临关键限制。一些模型只能单独生成人声或伴奏，而另一些则依赖于精心设计的多阶段级联架构和复杂的数据管道。大多数系统仅限于短音乐片段，而基于语言模型的方法则推理速度缓慢。

DiffRhythm 以一种优雅、直接的解决方案应对了所有这些挑战：

DiffRhythm 能够创作各种流派的原创音乐，支持以下应用：

DiffRhythm 的潜在扩散方法与之前基于语言模型的系统显著不同。非自回归结构支持音频内容的并行生成，大大缩短了创建完整歌曲所需的时间，同时保持了高音乐性和可理解性。

该模型“极其简单”的设计确保了它不仅功能强大，而且易于广泛采用和进一步开发。

研究人员承认潜在风险，包括通过风格相似性造成的无意版权侵权，以及滥用生成有害内容。他们建议实施验证机制以确认音乐原创性，披露生成作品中 AI 的参与，并在改编受保护风格时获得许可。

DiffRhythm 现已在 GitHub 和 Hugging Face 上发布。立即体验这款开创性模型，它让完整歌曲创作变得前所未有的快速和简单。

你好，我们可以创造一些东西吗？

通过拖放到文本输入框、粘贴或点击此处上传图片、音频和视频。

点击或粘贴此处以上传图片

· 注册或登录以评论