在 AI 音乐生成领域,SongGeneration是腾讯AILab 推出的一款高质量开源模型,它采用创新的 LeVo 架构与音乐编码器,支持歌词输入、风格提示与参考音频生成完整歌曲(包括人声与伴奏),并以其开源和多语言支持赢得了开发者关注。
什么是 SongGeneration?
SongGeneration(又名 LeVo) 是一个基于语言模型与音乐编解码器的歌曲生成系统,由腾讯AILab 发布在 GitHub 和 Hugging Face 上。它可通过混合或双轨 token 表示,生成高保真歌曲音频,实现“人声 + 伴奏”同步输出,是目前领先的开源文本生成音乐方案之一。
核心技术架构解析
LeVo 架构:混合 + 双轨 token
LeVo 模型同时生成mixed tokens(混合轨)与dual-track tokens(人声和伴奏分离),确保歌词与伴奏同步与和谐。
音乐编码器(Music Codec)
使用 MuCodec 编解码音频:先将双轨 token 编码,再通过解码生成高品质音频,保证输出“可听化”效果 。
多首偏好对齐训练
采用 DPO(动态偏好优化)训练,通过预训练和微调融合多种偏好提升生成质量,使生成歌曲更自然、更契合歌词。
支持输入方式和生成方式
歌词输入:用户可以输入中文或英文歌词,模型会以此为基础生成音乐。
文本描述(可选):可提供风格、情绪、节奏等提示以指导生成 。
参考音频提示(可选):输入样本音频片段,生成符合该风格的人声与伴奏。
模型提供 base(歌词驱动)版本,并计划推出支持中英文双语与扩展全模型版本 。
如何获取与使用 SongGeneration
1.教库克隆与依赖安装。
git clone https://github.com/tencent-ailab/SongGeneration
pip install -r requirements.txt
2.下载并保存 Hugging Face ckpt 文件(比如 SongGeneration-base v20250520)。
3.执行生成脚本:
sh generate.sh ckpt_path lyrics.jsonl output_path
或使用适合低显存设备的 generate_lowmem.sh。
4.JSONL 输入示例包含 idx, gt_lyric, 可选 descriptions, prompt_audio_path 提示 。
应用场景与潜在价值
音乐创作者与作曲人:快速生成 demo 歌曲,为创作提供灵感助力。
短内容创作者:为视频、广告生成定制配乐或歌曲。
AI 音乐研究与教育:模型架构与公开代码有助于研究人员入门与扩展学习。
唱片创作实验:结合人声与伴奏分离能力,可用于音频编辑与风格对比研究。
常见问题(FAQ)
Q1:SongGeneration 支持哪些语言?
A1:目前支持中文(汉语)与英文歌词生成,双语模型正在准备中 。
Q2:模型会自动生成伴奏吗?
A2:是的,LeVo 架构同时生成 vokal 和 accompaniment token,使输出具有人声和伴奏。
Q3:低显存 GPU 能运行吗?
A3:可使用 generate_lowmem.sh 脚本,在少于 30GB GPU 环境下生成歌曲 。
Q4:如何控制生成风格?
A4:可以通过 descriptions 输入如“欢快流行风格,钢琴组曲”等文本提示,或上传参考音频为风格范例。
Q5:SongGeneration 如何比较于 SongGen 或 SongBloom?
A5:SongGeneration 基于 LeVo 架构并融合音频 token 与音乐 codec,具备更同步的“人声+伴奏”输出,而 SongGen 是单阶段 AR 模型,SongBloom 专注结构草图+细节微调 。
与其他开源歌曲生成模型对比
| 模型 | SongGeneration(LeVo) | SongGen | SongBloom |
|---|---|---|---|
| 歌词输入支持 | 中文、英文(日后双语扩展) | 英文为主,支持参考声指令 | 多阶段 AR+Diffusion 架构 |
| 音乐输出 | 并行生成 vocal + accompaniment | 支持 mixed 双轨形式 | 用结构草图加强一致性 |
| 编解码器支持 | 内置高保真音乐 codec | 无,生成粗音频需后期处理 | 生成 OCR 不聚焦音质 |
| 开源完整性 | MIT 许可,提供代码与 ckpt | Apache-2.0,有模型与 pipeline | 尚缺统一开源方案 |
提升使用体验的建议
分段生成歌曲:将生成时间切分成小段来构建更长时长作品。
调整 prompt 内容:加入情绪描述(如“悲伤”“节奏感强”)提升效果。
尝试参考音频:上传 10s 风格音轨提升生成风格连贯性。
后期处理:剪辑与混音后处理提升音质与结构完整性。
参与社区贡献:对 GitHub 代码、HF demo 与参数建议提交 PR。
未来发展前瞻
SongGeneration-full(zh&en) 版本即将发布。
更多语言场景多样风格版将扩展模型适配性。
用户社区 demo 与模型 fine-tune 紧密合作。
与 Tencent Music 等平台集成,如 “AI Songwriter” 工具结合。
总结
SongGeneration(LeVo) 是一个领先的开源 AI 歌曲生成框架,融合歌词、风格提示和音乐 code 架构,生成结构严谨、音质高保真的中英文歌曲。其 LeVo 架构独特,社区活跃,适合 AI 工具使用者快速使用与技术探索。本文从基础技术、应用流程、对比分析和实用建议等角度展开,旨在提升“SongGeneration”关键词排名,吸引精准流量与音乐 AI 开发者关注。
数据统计
SongGeneration访问数据评估
本站AI工具导航提供的SongGeneration页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年6月21日 上午4:25收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替
DeepSeek
Huxe AI
Emozi AI




