CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS532
▸ AI 大模型 / 对话 · SITES

Higgs Audio V2 SITES

Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年7月26日更新 2025年7月26日浏览 532

// 01 Higgs Audio V2 是什么

一、什么是 Higgs Audio V2

Higgs Audio V2 是 Boson AI发布的开源音频生成与理解基础模型,于 2025 年 4 月正式推出。该模型基于超过 10 百万小时精炼语音数据(称为 AudioVerse)训练,采用 Dual‑FFN 架构,融合大语言模型与音频 tokenizer,可零样本生成逼真情感语音、克隆说话人声音、生成多说话人对话,以及背景音乐混合等高级功能


二、技术亮点与核心创新

多模态音频理解与生成

Higgs Audio V2 结合语义与声学 token(由统一 audio tokenizer 编码),可同时建模文本与音频特征,支持自然语言驱动音频生成和情感表达

Dual‑FFN 架构

模型通过 Dual‑FFN 架构高效处理文本与音频 token,同时保持推理效率与高质量合成效果,并适配 LLM 结构,支撑复杂语用与对话场景

超大语料训练 AudioVerse

训练语料涵盖英语、中文、德语、西班牙语、韩语等语言,结合声音事件识别、情感标注与 ASR 自动整理,确保语音生成的自然性与丰富度

Benchmark 领先表现

在 EmergentTTS‑Eval “情感”与“疑问句”任务中,Higgs Audio V2 基础模型分别击败 GPT‑4o‑mini‑tts,获胜率达 75.7%55.7%。在 Seed‑TTS Eval 和 Emotional Speech Dataset(ESD)上也取得最优表现。此外,在多说话人对话评测中,Higgs Audio V2 的 WER 和声纹区分度显著优于 MoonCast 等模型


三、主要功能与应用能力

零样本情感语音合成

无需微调,即可生成带情感语调的语音(如喜悦、悲伤、好奇等),适合叙述、访谈与故事场景。

语音克隆与多说话人对话

支持基于参考音频进行单说话人克隆,也可生成多说话人对话,声音风格自然区分,语速与语气一致性高

长篇语音合成长形稳定

Higgs Audio V2 支持生成长篇音频内容(如播客、音频剧),声线一致、节奏自然,无明显 drift 或音质下降

支持 24 kHz 高频率输出

输出音频采样率升级至 24 kHz,兼顾高保真音质与细节呈现,可适用于高端耳机与音频欣赏场景

背景音乐合成与伴奏生成

模型可在生成语音时同步生成背景音乐或环境音轨,实现一体化音频创作,如讲故事带音效合成等。


四、示例使用流程

本地环境安装部署

推荐通过 GitHub 克隆仓库后,使用 pip 安装依赖,并在至少 24 GB VRAM GPU 环境(如 RTX 4090)上运行模型样例;也支持 Jetson Orin Nano 等轻量设备部署

快速生成音频样例

可使用提供的示例脚本生成单说话人语音、多说话人对话或克隆语音稿,用户只需提供文本与参考音频,即可调用 serve_engine.generate() 接口生成 wav 文件

多语种、多说话人对话生成

通过 transcript 文件与多个 ref_audio 参数,模型自动匹配说话节奏与情感,生成自然对话音频。

集成 Agent 或语音助手系统

开发者可将 Higgs Audio V2 嵌入到语音 Agent、播客生成流程、客服机器人或语音学习应用中,实现实时语音生成与对话模拟。


// 04 常见 问题

Higgs Audio V2 是什么?
Higgs Audio V2 是 Boson AI 发布的开源音频大语言模型,基于 1000 万小时语音数据训练,支持多说话人对话、情感语音、多语言语音生成,适合 AI 工具使用者构建语音 Agent 和音频应用。
Higgs Audio V2 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 price-open-source、tech-speech、AI语音克隆 等标签。
Higgs Audio V2 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Higgs Audio V2 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部