ACE-Step-v1.5 (2B) 看起来是目前最强悍的本地开源音乐生成模型之一

简单总结一下核心亮点（基于官方和社区反馈）：

生成速度超快： A100 上完整一首歌 <2秒，RTX 3090 10秒内，RTX 5090 甚至能到 ~1秒一首4分钟歌。比很多在线服务快太多，本地跑不卡顿。

质量定位：官方说在音乐连贯性等指标上超过大部分商业模型，社区反馈质量大概在 Suno v4.5 到 v5 之间（尤其是带歌词的完整歌曲）。人声和编曲已经很接近商用水平了，特别是 instrumentals 表现突出。

支持范围：

歌长：10秒到10分钟（推荐90-120秒最稳，更长可能需要分段批量生成）
语言：50+种（中、英、日、韩、西、德、法等表现最好）
风格/乐器：1000+种，通过 prompt 控制（neo-soul、UK garage、K-pop、synthwave 等等样样行）
还能生成歌词 + 元数据 + 结构规划（用 Chain-of-Thought 让长歌更连贯）

硬件要求低：本地跑只需 <4GB 显存（比如 RTX 3060/4060 都能玩），支持批量生成最多8首（甚至16首看配置）。还能用少量歌曲 train LoRA 个性化风格。

开源 & 本地运行：完全开源（MIT license），模型权重在 Hugging Face 上，GitHub 主 repo：传送门项目页：传送门 ComfyUI 集成超级方便：更新 ComfyUI → 选 Audio 模板里的 ACE-Step 1.5 workflow → 下载模型就行。官方 ComfyUI 文件：传送门还能在 Hugging Face Space 线上试玩（但本地才真香）。

你已经在玩 ComfyUI 了吧？如果还没装好 workflow，照着这个博客一步步来就行：传送门

提示小技巧：

用结构标签写歌词，比如 [verse] [chorus] [bridge] 会更连贯

ComfyUI 里 steps 调到 100-150 人声会更好

多生成几版挑最好的（inconsistent 是目前小毛病）