ACE-Step-v1.5 (2B) 看起来是目前最强悍的本地开源音乐生成模型之一

简单总结一下核心亮点(基于官方和社区反馈):

生成速度超快: A100 上完整一首歌 <2秒,RTX 3090 10秒内,RTX 5090 甚至能到 ~1秒一首4分钟歌。比很多在线服务快太多,本地跑不卡顿。


质量定位: 官方说在音乐连贯性等指标上超过大部分商业模型,社区反馈质量大概在 Suno v4.5 到 v5 之间(尤其是带歌词的完整歌曲)。人声和编曲已经很接近商用水平了,特别是 instrumentals 表现突出。


支持范围

  • 歌长:10秒到10分钟(推荐90-120秒最稳,更长可能需要分段批量生成)

  • 语言:50+种(中、英、日、韩、西、德、法等表现最好)

  • 风格/乐器:1000+种,通过 prompt 控制(neo-soul、UK garage、K-pop、synthwave 等等样样行)

  • 还能生成歌词 + 元数据 + 结构规划(用 Chain-of-Thought 让长歌更连贯)


硬件要求低: 本地跑只需 <4GB 显存(比如 RTX 3060/4060 都能玩),支持批量生成最多8首(甚至16首看配置)。还能用少量歌曲 train LoRA 个性化风格。


开源 & 本地运行: 完全开源(MIT license),模型权重在 Hugging Face 上,GitHub 主 repo:传送门  项目页:传送门 ComfyUI 集成超级方便:更新 ComfyUI → 选 Audio 模板里的 ACE-Step 1.5 workflow → 下载模型就行。 官方 ComfyUI 文件:传送门 还能在 Hugging Face Space 线上试玩(但本地才真香)。


你已经在玩 ComfyUI 了吧?如果还没装好 workflow,照着这个博客一步步来就行:传送门

提示小技巧:


用结构标签写歌词,比如 [verse] [chorus] [bridge] 会更连贯

ComfyUI 里 steps 调到 100-150 人声会更好

多生成几版挑最好的(inconsistent 是目前小毛病)

HARno7IbAAADuyN.jpg


扫描二维码推送至手机访问。

版权声明:本文由眼中看见的未来发布,如需转载请注明出处。

本文链接:http://tytyty5.com/?id=408

分享给朋友:

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。