// 01 Higgs Audio V2 是什么
一、什么是 Higgs Audio V2
Higgs Audio V2 是 Boson AI发布的开源音频生成与理解基础模型,于 2025 年 4 月正式推出。该模型基于超过 10 百万小时精炼语音数据(称为 AudioVerse)训练,采用 Dual‑FFN 架构,融合大语言模型与音频 tokenizer,可零样本生成逼真情感语音、克隆说话人声音、生成多说话人对话,以及背景音乐混合等高级功能。
二、技术亮点与核心创新
多模态音频理解与生成
Higgs Audio V2 结合语义与声学 token(由统一 audio tokenizer 编码),可同时建模文本与音频特征,支持自然语言驱动音频生成和情感表达。
Dual‑FFN 架构
模型通过 Dual‑FFN 架构高效处理文本与音频 token,同时保持推理效率与高质量合成效果,并适配 LLM 结构,支撑复杂语用与对话场景。
超大语料训练 AudioVerse
训练语料涵盖英语、中文、德语、西班牙语、韩语等语言,结合声音事件识别、情感标注与 ASR 自动整理,确保语音生成的自然性与丰富度。
Benchmark 领先表现
在 EmergentTTS‑Eval “情感”与“疑问句”任务中,Higgs Audio V2 基础模型分别击败 GPT‑4o‑mini‑tts,获胜率达 75.7% 与 55.7%。在 Seed‑TTS Eval 和 Emotional Speech Dataset(ESD)上也取得最优表现。此外,在多说话人对话评测中,Higgs Audio V2 的 WER 和声纹区分度显著优于 MoonCast 等模型。
三、主要功能与应用能力
零样本情感语音合成
无需微调,即可生成带情感语调的语音(如喜悦、悲伤、好奇等),适合叙述、访谈与故事场景。
语音克隆与多说话人对话
支持基于参考音频进行单说话人克隆,也可生成多说话人对话,声音风格自然区分,语速与语气一致性高。
长篇语音合成长形稳定
Higgs Audio V2 支持生成长篇音频内容(如播客、音频剧),声线一致、节奏自然,无明显 drift 或音质下降。
支持 24 kHz 高频率输出
输出音频采样率升级至 24 kHz,兼顾高保真音质与细节呈现,可适用于高端耳机与音频欣赏场景。
背景音乐合成与伴奏生成
模型可在生成语音时同步生成背景音乐或环境音轨,实现一体化音频创作,如讲故事带音效合成等。
四、示例使用流程
本地环境安装部署
推荐通过 GitHub 克隆仓库后,使用 pip 安装依赖,并在至少 24 GB VRAM GPU 环境(如 RTX 4090)上运行模型样例;也支持 Jetson Orin Nano 等轻量设备部署。
快速生成音频样例
可使用提供的示例脚本生成单说话人语音、多说话人对话或克隆语音稿,用户只需提供文本与参考音频,即可调用 serve_engine.generate() 接口生成 wav 文件。
多语种、多说话人对话生成
通过 transcript 文件与多个 ref_audio 参数,模型自动匹配说话节奏与情感,生成自然对话音频。
集成 Agent 或语音助手系统
开发者可将 Higgs Audio V2 嵌入到语音 Agent、播客生成流程、客服机器人或语音学习应用中,实现实时语音生成与对话模拟。
