// 01 SongGeneration 是什么
在 AI 音乐生成领域,SongGeneration是腾讯AILab 推出的一款高质量开源模型,它采用创新的 LeVo 架构与音乐编码器,支持歌词输入、风格提示与参考音频生成完整歌曲(包括人声与伴奏),并以其开源和多语言支持赢得了开发者关注。
什么是 SongGeneration?
SongGeneration(又名 LeVo) 是一个基于语言模型与音乐编解码器的歌曲生成系统,由腾讯AILab 发布在 GitHub 和 Hugging Face 上。它可通过混合或双轨 token 表示,生成高保真歌曲音频,实现“人声 + 伴奏”同步输出,是目前领先的开源文本生成音乐方案之一。
核心技术架构解析
LeVo 架构:混合 + 双轨 token
LeVo 模型同时生成mixed tokens(混合轨)与dual-track tokens(人声和伴奏分离),确保歌词与伴奏同步与和谐。
音乐编码器(Music Codec)
使用 MuCodec 编解码音频:先将双轨 token 编码,再通过解码生成高品质音频,保证输出“可听化”效果 。
多首偏好对齐训练
采用 DPO(动态偏好优化)训练,通过预训练和微调融合多种偏好提升生成质量,使生成歌曲更自然、更契合歌词。
支持输入方式和生成方式
歌词输入:用户可以输入中文或英文歌词,模型会以此为基础生成音乐。
文本描述(可选):可提供风格、情绪、节奏等提示以指导生成 。
参考音频提示(可选):输入样本音频片段,生成符合该风格的人声与伴奏。
模型提供 base(歌词驱动)版本,并计划推出支持中英文双语与扩展全模型版本 。
如何获取与使用 SongGeneration
1.教库克隆与依赖安装。
git clone https://github.com/tencent-ailab/SongGeneration pip install -r requirements.txt2.下载并保存 Hugging Face ckpt 文件(比如 SongGeneration-base v20250520)。
3.执行生成脚本:
sh generate.sh ckpt_path lyrics.jsonl output_path或使用适合低显存设备的 generate_lowmem.sh。
4.JSONL 输入示例包含 idx, gt_lyric, 可选 descriptions, prompt_audio_path 提示 。
应用场景与潜在价值
音乐创作者与作曲人:快速生成 demo 歌曲,为创作提供灵感助力。
短内容创作者:为视频、广告生成定制配乐或歌曲。
AI 音乐研究与教育:模型架构与公开代码有助于研究人员入门与扩展学习。
唱片创作实验:结合人声与伴奏分离能力,可用于音频编辑与风格对比研究。
