// 01 ACE-Step 1.5 是什么
工具概述
工具名称
ACE-Step 1.5
项目地址
https://ace-step.github.io/ace-step-v1.5.github.io/
工具类型
开源 AI 音乐生成基础模型
开发者
ACE Studio 和 StepFun 社区协作开发
发布版本
v1.5(最新公开版本)
结构化属性表
| 属性 | 描述 |
|---|---|
| 工具名称 | ACE-Step 1.5 |
| 类型 | 开源音乐生成基础模型 |
| 输入 | 文本提示、风格标签、音频参考 |
| 输出 | 音乐音频、歌词对齐作品、编辑变体 |
| 核心架构 | LM + DiT 混合架构 |
| 性能 | 数秒级完整歌曲生成(依硬件) |
| 许可 | MIT 开源许可 |
| 应用场景 | 创作、编辑、音乐生产线、实验 |
| 多语言 | 50+ 支持 |
核心功能(Capabilities)
高速音乐生成
能够在标准 GPU 硬件上快速生成整首音乐;例如在 NVIDIA A100 上生成 4 分钟音乐通常在 2 秒以内,在 RTX 3090 上通常在 10 秒以内。
混合架构支持
采用混合架构:语言模型(LM)作为规划器将用户提示解析为歌曲蓝图,扩散变换器(DiT)用于音频生成。
多语言提示
支持 50+ 种语言的提示解析与音乐生成,提升全球使用条件。
灵活编辑控制
支持多种音乐编辑任务,如歌词编辑、重绘片段、变体生成、封面与风格转换、LoRA 训练个性化风格等。
本地运行与硬件适应性
可在拥有较低 VRAM(例如 4GB)甚至消费级硬件上本地运行,便于创作者自由迭代创作流程。
技术架构
模型架构
混合架构将语言模型与扩散变换器结合,实现音乐蓝图规划与低延迟生成。
语义对齐机制
使用内部机制(如语义对齐技术)确保音乐生成在旋律、和声和节奏等多个维度与提示一致。
编辑与控制模块
包括重绘(Repaint)、变体生成、封面生成、Lyric2Vocal 和轨道抽取等控制能力。
输入规范
支持输入类型
自然语言文本描述(歌词、提示词)
风格标签(如流行、电子)
现有音频文件用于编辑场景(可选)
输出规范
输出内容类型
音乐音频文件(包含旋律、和声和节奏等完整音乐结构)
歌词对齐音乐(文本与音频结合)
编辑后的音乐片段或变体音频
系统要求与性能表现
性能指标
在高级 GPU 上生成速度显著快于传统模型(例如 4 分钟音乐在 A100 上能在数秒内完成)。
硬件兼容性
支持消费级 GPU 和本地部署,可在 VRAM >= 4GB 的环境下运行。
应用场景
创意音乐生成
适用于快速从文本提示生成完整音乐作品,例如歌词创意、旋律构思与结构布局。
歌曲编辑与再创造
用于修改已有音乐片段、重新生成某部分音乐、创建多样化变体。
多语言音乐创作
支持多语言提示生成,因此可用于国际化音乐创作与本地化声音输出。
音频生产管线
可集成到音乐制作软件与工具链,实现从提示到完成品的自动化生成流程。
DIY 音乐实验
创作者可本地运行模型进行个性化实验,如训练 LoRA捕捉特定风格。
用户使用流程
环境准备
准备适当硬件(推荐有 GPU 支持且 VRAM ≥ 4GB)。
安装与运行
从官方 GitHub 下载代码或在支持界面工具(如 ComfyUI)中启用 ACE-Step 1.5 模型。
输入提示
提供音乐生成提示,包括文本歌词、风格标签或编辑指令。
参数调整
设定音乐时长、生成风格等生成参数(如可选)。 通常调整以控制输出特性。
生成与导出
运行生成过程,模型输出音乐文件,保存至本地或集成工具中。
