ViiTorVoice 如何收费？

ViiTorVoice 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 音频

浏览量18

▸ AI 音频 · 应用工具

ViiTorVoice 应用工具

viitor-ai 开源非自回归 TTS：3 秒克隆音色、局部编辑、情感控制、~60ms 低延迟。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · 中文/多语言

GitHub收藏 0

收录 2026年7月3日更新 2026年7月3日浏览 18

// 01 ViiTorVoice 是什么

快速结论

ViiTorVoice（viitor-voice-nar，viitor-ai 团队）是一套开源的非自回归（NAR）语音合成/克隆模型，主打用极短样本克隆音色并支持语音的局部编辑。它用离散掩码语言模型在音频 token 空间"填空"生成，而非逐 token 自回归，因此推理延迟低。GitHub 约 278 星、Python 实现，模型权重发布在 Hugging Face（ZzWater/ViiTorVoice-NAR，截至 2026-07）。

适合谁优先使用

需要低延迟、可流式 TTS 的应用开发者
做有声内容、配音、语音助手、想克隆特定音色的团队
研究语音生成/编辑、想要开源可改的算法工程师
需要对已有语音做"改词不重录"局部编辑的场景

核心能力拆解

音色克隆

提供一段提示音频（或其 codebook），即可为目标文本合成对应音色；官方称约 3 秒样本即可捕捉声纹，相似度可达 98.7%（官方数据，待核实）。

局部编辑

给出源音频、原文与改后文本，系统定位改动区域、只重合成局部片段，适合"改一个词不用整段重录"。

情感与副语言控制

可在文本条件里插入情感标签与副语言信息，并用 CFG 增强，实现更可控的表达。

低延迟推理

支持首块（first block）推理，端到端首帧延迟约 60ms；音频表示采用 DualCodec 25Hz、12 层 codebook，兼载语义与声学信息。

和同类工具怎么选

需求	优先考虑	判断标准
开源、可自部署、低延迟克隆	ViiTorVoice	NAR 架构、权重开放、可改
免部署的在线配音/克隆	ViiTor AI 官网 / 商用 TTS	网页直接用、无需算力
中文多情感高保真	对照各家开源 TTS 实测	以你的语言与音色实测为准

国内平替：不想自己跑模型，可用国内在线 TTS/配音平台；要开源自部署则本项目本身即为选项。