CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS455
▸ AI 大模型 / 对话 · SITES

MOSS‑TTSD SITES

MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年7月17日更新 2025年7月17日浏览 455

// 01 MOSS‑TTSD 是什么

什么是MOSS‑TTSD

MOSS‑TTSD(Text‑to‑Spoken Dialogue)是 OpenMOSS(由复旦大学、清华实验室和模思智能支持)开发的一款双语对话语音合成模型,支持中英双语、零样本多说话人克隆及长达960秒的连续对话生成。它是完全开源并可商用的语音生成框架

MOSS‑TTSD 可将带有说话者标签的对话脚本(如 [S1]…[S2]…)转换为自然、富有表现力的语音,对接中英文对话生成任务,例如播客、访谈等


技术架构与原理

语音离散化:XY‑Tokenizer

  • 使用双路 Whisper 编码器提取语义与声学特征,通过 8 层 RVQ(Residual Vector Quantization)压缩为语音 token,码率仅1 kbps,帧率为12.5 Hz

  • 采用两阶段多任务训练:第一阶段学习语义与重建,第二阶段微调 decoder 使用重建+GAN 损失提升音质与自然度

LLM 驱动与连续生成

  • 基于 Qwen3‑1.7B‑base 大模型,通过 autoregressive + delay pattern 调度生成语音 token 序列,实现对话上下文刻画

  • 模型训练集包括约 100 万小时单人 TTS 数据与 40 万小时对话语音,支持长达 960 秒的连贯语音合成,适合播客与访谈等长格式场景


核心特性亮点

🔊 表现力丰富的对话语音

  • 借助大规模语音数据和离散编码,合成语言富有语调抑扬、自然流畅,超过传统 TTS 水平

  • 支持两位说话者音色克隆(zero‑shot voice cloning),自动切换 speaker 标签,音色分辨率高

🌐 中英文双语能力

  • 可用中文或英文对话脚本,生成对应语言语音,并保留对话韵律与节奏

⏳ 超长语音生成

  • 最大一次生成 960 秒长语音,无需片段拼接,有效避免接缝不自然问题

🚀 开源可商用

  • 模型以 Apache‑2.0 许可开源,提供代码、模型权重、推理接口,适合教育、AI播客、对话系统等场景整合


使用指南

安装与环境配置

conda create -n moss_ttsd python=3.10 -y conda activate moss_ttsd pip install -r requirements.txt pip install flash-attn

安装 XY‑Tokenizer 权重:

mkdir -p XY_Tokenizer/weights huggingface-cli download fnlp/XY_Tokenizer_TTSD_V0 xy_tokenizer.ckpt --local-dir XY_Tokenizer/weights/

本地推理调用

python inference.py \ --jsonl examples/examples.jsonl \ --output_dir outputs \ --use_normalize

支持 JSONL 格式输入,标注对话角色,并生成对应音频文件

Hugging Face Spaces 在线体验

可访问 fnlp/MOSS‑TTSD 空间,在 Web 上输入对话文本,使用 GPU 即时生成对话语音


应用场景与价值

  1. AI 播客制作:通过对话脚本快速生成自然对话播客内容,适配配音或自动化内容制作

  2. 访谈内容语音化:将访谈稿自动配音为带有角色区分的语音文件

  3. 新闻与广告朗读:为资讯内容自动生成播报清晰且富有语感的语音版本

  4. 虚拟人及客服:用于虚拟主播、客服助理实现带有多角色语调的对话能力

  5. 语言学习和辅助:为教育场景生成示例对话音频,提高学习体验


与其他模型对比

特性MOSS‑TTSD常规 TTS 模型MoonCast / Doubao
对话语音自然度✅ 韵律自然、有起伏⚠️ 多为单句平板⚠️ 对话配音略显机械
多说话人零样本克隆✅ 自动切换音色❌ 通常无对话切换❌ 往往只支持单音色
超长语音生成能力✅ 支持最长 960 秒连续语音❌ 多需拼接❌ 长度有限
中英文双语✅ 支持⚠️ 通常单语⚠️ 常限制语种
开源与商用许可✅ Apache‑2.0,可自由集成⚠️ 多为商业闭源⚠️ 闭源

// 04 常见 问题

MOSS‑TTSD 是什么?
MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型,通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成,适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。
MOSS‑TTSD 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-speech、AI客服、AI播客 等标签。
MOSS‑TTSD 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
MOSS‑TTSD 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部