LeVo 的定价模式为：unknown。

LeVo 是否提供 API？

是的，LeVo 提供 API 接口供开发者集成。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 音频

▸ AI 音频 · SITES

LeVo SITES

LeVo 是由清华、大氪 AI Labs 联合开发的高保真音乐生成框架，支持歌词转歌、声乐与伴奏融合、DPO 多偏好对齐，适用于音乐创作、音频生成领域的 AI 工具用户。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年6月17日更新 2025年6月17日浏览 519

// 01 LeVo 是什么

什么是 LeVo？

LeVo 是由清华深圳国际研究生院与腾讯 AI Lab 等联合研发的高质量歌词到歌曲（lyrics-to-song）生成框架，首次实现了并行生成“混合音轨”和“声乐+伴奏双轨音项”。借助 Direct Preference Optimization（DPO）的多偏好对齐机制，LeVo 在客观与主观指标上超越现有 SOTA 模型，并提供在线 demo 音频和源代码演示地址：levo-demo.github.io。

LeVo 的核心设计与技术实现

并行混合与双轨音频建模

LeVo 架构由 LeLM（歌词语言模型）和 Music Codec（音频编解码器）组成。LeLM 同时建模“混合音轨”与“声乐+伴奏双轨音项”，确保声乐与伴奏之间的和谐性和清晰度。

混合音轨（Mixed Tokens）

混合音轨统一建模声乐与伴奏，从整体音乐角度生成，适合整体节奏和结构把控。

双轨生成（Dual‑Track Tokens）

对声乐和伴奏分别编码解码，提升生成音质与音频清晰度，降低音轨干扰。

模块化训练架构

LeVo 使用三阶段训练策略：

预训练（Pre‑training）：学习整体音频结构与歌词匹配；
模块扩展训练（Modular Extension）：保留预训练基础之上，多阶段优化音质；
DPO 多偏好对齐：引入人类偏好，通过 DPO 强化音乐指令遵从和主观听感。

多偏好对齐策略（Multi‑Preference Alignment）

通过 DPO 学习人类“指令遵从”、“音乐质感”、“风格偏好”等多项偏好，在客观指标（如声纹相似度FAD、MuQ）与主观音乐评测上均刷新 SOTA 水平。

LeVo 的性能亮点与评测结果

客观性能指标提升

在 FAD、MuQ-A、MuQ-T、Meta Audiobox 等客观指标中，LeVo 优于 Jukebox、SongCreator、YuE 等baseline模型。

主观听感更一致

主观实验通过盲测方式展示 LeVo 更强的歌词表达一致性、音质优先感和整体听感体验；主观偏好的提升说明了 DPO 多偏好调优的显著价值。

持续评估与消融实验

消融研究证明模块扩展训练和多偏好对齐对生成质量至关重要，移除其中任一阶段都会导致生成效果下降。

LeVo 的应用场景与落地意义

音乐创作与作曲辅助

LeVo 可自动从歌词生成样曲，为音乐人提供创作灵感与voice demo，应用于个人专辑、独立唱作人创作流程。

多语种歌词到歌曲

框架支持英文歌词生成原创歌曲，规划后续扩展多语种支持，适合跨地域发行与多语言音乐市场。

生成音频资源与生产工具

可嵌入 Web 音乐生成平台、Studio 工具（如 DAW）或语音直播助手，满足内容创作生态建设。

教学与科研应用

作为研究平台，LeVo 提供开放 demo，可用于 Music Information Retrieval、AI 音频教学研究与生成模型探索。

如何试用 LeVo？

在线 Demo 页面

访问 LeVo 官方演示音频页面：levo-demo.github.io，支持歌词生成样曲下载试听。

查看论文与代码

GitHub 仓库链接已附于 arXiv 与 demo 概述页面中，可查阅源码与模型文档。

运行自己的歌词到音乐流程

后续发布 API 或开源模型版本后，将支持自行在本地或云端运行、fine-tune、集成至创作 pipeline。

LeVo 与其他音乐生成系统对比

特性	LeVo	Jukebox / MusiCot	YuE / SongGen
混合 & 双轨建模	✅ 同时支持	❌ 通常仅单轨	⚠ 双轨但无多偏好调优
模块训练 + DPO 多偏好调优	✅ 三阶段训练+偏好对齐	⚠ 少考虑人类偏好	❌ 无DPO
音质与歌词表达一致性	✅ 高质量生成	⚠ 可能失真	⚠ 音质优但一致性一般
支持歌词驱动高保真生成	✅ 强	⚠ 有，但有限	⚠ 表述力度有限
开源研究平台	✅ 提供源码 & demo	⚠ Jukebox 开源但训练成本高	⚠ YuE 未完全开源

LeVo 是目前首个能提供“歌词→合唱+伴奏双轨并行+多偏好调优”的高保真音乐生成模型，具备商业级潜力。

// 04 常见问题

LeVo 是什么？

LeVo 适合哪些场景？

可优先参考它所属的 AI 音频分类，以及 industry-education、tech-speech、AI音乐模型等标签。

LeVo 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

LeVo 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5686.html 官网或下载入口https://levo-demo.github.io/分类与标签体系AI 音频、industry-education、tech-speech、AI音乐模型

◇ ◇ ◇

"关系待挖掘"
暂无搭档工具数据

▸ 我来推荐

沁言学术是一款面向科研人员、高校师生与AI工具使用者打造的全流程 AI 学术研究平台，集 AI 文献检索、论文辅助写作、Chat PDF、知识库管理、学术润色、选题分析...

AI 写作AI 工具

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe...

AI 大模型 / 对话AI 工具

TTT‑Discover

TTT‑Discover 是一种测试时训练（Test‑Time Training）框架，应用在线强化学习于大语言模型在推理阶段持续训练以发现高奖励解决方案。该方法在数学优...

AI教育AI 工具

VibeVoice-ASR

VibeVoice-ASR 是微软开源的一体化自动语音识别（ASR）模型，支持单次处理最长约 60 分钟连续音频，并输出包含说话者标识、时间戳与转录文本的结构化结果，适用...

AI 音频AI 工具

LeVo SITES

// 01 LeVo 是什么

什么是 LeVo？

LeVo 的核心设计与技术实现

并行混合与双轨音频建模

混合音轨（Mixed Tokens）

双轨生成（Dual‑Track Tokens）

模块化训练架构

多偏好对齐策略（Multi‑Preference Alignment）

LeVo 的性能亮点与评测结果

客观性能指标提升

主观听感更一致

持续评估与消融实验

LeVo 的应用场景与落地意义

音乐创作与作曲辅助

多语种歌词到歌曲

生成音频资源与生产工具

教学与科研应用

如何试用 LeVo？

在线 Demo 页面

查看论文与代码

运行自己的歌词到音乐流程

LeVo 与其他音乐生成系统对比

// 04 常见 问题

// 05 资料 来源

// 04 常见问题

// 05 资料来源