OmniVoice
T-03工具 长尾 OPEN-SOURCE

OmniVoice

支持 600 多种语言的零样本语音克隆 TTS 模型。

01

OmniVoice 是什么

OmniVoice 是小米 AI 实验室与 k2-fsa 团队推出的多语言文本转语音模型,支持超过 600 种语言与方言。官方资料显示,模型采用 Diffusion Language Model 风格的非自回归架构,可直接从文本生成多码本声学 token,并支持零样本语音克隆与语音设计。OmniVoice 支持仅用数秒参考音频完成声音模仿,可用于数字人、AI 配音与全球化语音交互场景。模型代码与预训练权重已在 GitHub 开源。

核心功能

  • 支持 600+ 语言
  • 零样本语音克隆
  • 非自回归 TTS
  • 支持语音设计
  • 支持多语言方言

使用场景

  • AI 配音
  • 数字人语音
  • 跨语言语音生成
  • 语音助手
  • 内容创作

适合谁用

适合语音 AI 开发者与数字内容团队

常见问题

**Q: OmniVoice 是什么?**

OmniVoice 是支持 600 多种语言的零样本文本转语音模型。

**Q: OmniVoice 怎么用?**

开发者可通过 GitHub 获取代码与模型权重进行部署。

**Q: OmniVoice 收费吗?**

项目已开源,可免费使用。

资料来源

  • https://github.com/k2-fsa/OmniVoice
  • https://arxiv.org/abs/2604.00688
  • https://news.qq.com/rain/a/20260507A06LEW00
AI大学堂