// 01 LeVo 是什么
什么是 LeVo?
LeVo 是由清华深圳国际研究生院与腾讯 AI Lab 等联合研发的高质量歌词到歌曲(lyrics-to-song)生成框架,首次实现了并行生成“混合音轨”和“声乐+伴奏双轨音项”。借助 Direct Preference Optimization(DPO)的多偏好对齐机制,LeVo 在客观与主观指标上超越现有 SOTA 模型,并提供在线 demo 音频和源代码演示地址:levo-demo.github.io。
LeVo 的核心设计与技术实现
并行混合与双轨音频建模
LeVo 架构由 LeLM(歌词语言模型)和 Music Codec(音频编解码器)组成。LeLM 同时建模“混合音轨”与“声乐+伴奏双轨音项”,确保声乐与伴奏之间的和谐性和清晰度。
混合音轨(Mixed Tokens)
混合音轨统一建模声乐与伴奏,从整体音乐角度生成,适合整体节奏和结构把控。
双轨生成(Dual‑Track Tokens)
对声乐和伴奏分别编码解码,提升生成音质与音频清晰度,降低音轨干扰。
模块化训练架构
LeVo 使用三阶段训练策略:
预训练(Pre‑training):学习整体音频结构与歌词匹配;
模块扩展训练(Modular Extension):保留预训练基础之上,多阶段优化音质;
DPO 多偏好对齐:引入人类偏好,通过 DPO 强化音乐指令遵从和主观听感。
多偏好对齐策略(Multi‑Preference Alignment)
通过 DPO 学习人类“指令遵从”、“音乐质感”、“风格偏好”等多项偏好,在客观指标(如声纹相似度FAD、MuQ)与主观音乐评测上均刷新 SOTA 水平。
LeVo 的性能亮点与评测结果
客观性能指标提升
在 FAD、MuQ-A、MuQ-T、Meta Audiobox 等客观指标中,LeVo 优于 Jukebox、SongCreator、YuE 等baseline模型。
主观听感更一致
主观实验通过盲测方式展示 LeVo 更强的歌词表达一致性、音质优先感和整体听感体验;主观偏好的提升说明了 DPO 多偏好调优的显著价值。
持续评估与消融实验
消融研究证明模块扩展训练和多偏好对齐对生成质量至关重要,移除其中任一阶段都会导致生成效果下降。
LeVo 的应用场景与落地意义
音乐创作与作曲辅助
LeVo 可自动从歌词生成样曲,为音乐人提供创作灵感与voice demo,应用于个人专辑、独立唱作人创作流程。
多语种歌词到歌曲
框架支持英文歌词生成原创歌曲,规划后续扩展多语种支持,适合跨地域发行与多语言音乐市场。
生成音频资源与生产工具
可嵌入 Web 音乐生成平台、Studio 工具(如 DAW)或语音直播助手,满足内容创作生态建设。
教学与科研应用
作为研究平台,LeVo 提供开放 demo,可用于 Music Information Retrieval、AI 音频教学研究与生成模型探索。
如何试用 LeVo?
在线 Demo 页面
访问 LeVo 官方演示音频页面:levo-demo.github.io,支持歌词生成样曲下载试听。
查看论文与代码
GitHub 仓库链接已附于 arXiv 与 demo 概述页面中,可查阅源码与模型文档。
运行自己的歌词到音乐流程
后续发布 API 或开源模型版本后,将支持自行在本地或云端运行、fine-tune、集成至创作 pipeline。
LeVo 与其他音乐生成系统对比
| 特性 | LeVo | Jukebox / MusiCot | YuE / SongGen |
|---|---|---|---|
| 混合 & 双轨建模 | ✅ 同时支持 | ❌ 通常仅单轨 | ⚠ 双轨但无多偏好调优 |
| 模块训练 + DPO 多偏好调优 | ✅ 三阶段训练+偏好对齐 | ⚠ 少考虑人类偏好 | ❌ 无DPO |
| 音质与歌词表达一致性 | ✅ 高质量生成 | ⚠ 可能失真 | ⚠ 音质优但一致性一般 |
| 支持歌词驱动高保真生成 | ✅ 强 | ⚠ 有,但有限 | ⚠ 表述力度有限 |
| 开源研究平台 | ✅ 提供源码 & demo | ⚠ Jukebox 开源但训练成本高 | ⚠ YuE 未完全开源 |
LeVo 是目前首个能提供“歌词→合唱+伴奏双轨并行+多偏好调优”的高保真音乐生成模型,具备商业级潜力。
