MOSS‑TTSD 如何收费？

MOSS‑TTSD 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

MOSS‑TTSD SITES

MOSS‑TTSD 是 OpenMOSS 推出的开源中英双语对话语音合成模型，通过低比特率编码器与 Qwen3 架构支持零样本多说话人克隆和超长对话生成，适合 AI 工具使用者打造自然 expressive 会话播客、访谈等语音应用。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年7月17日更新 2025年7月17日浏览 455

// 01 MOSS‑TTSD 是什么

什么是MOSS‑TTSD

MOSS‑TTSD（Text‑to‑Spoken Dialogue）是 OpenMOSS（由复旦大学、清华实验室和模思智能支持）开发的一款双语对话语音合成模型，支持中英双语、零样本多说话人克隆及长达960秒的连续对话生成。它是完全开源并可商用的语音生成框架。

MOSS‑TTSD 可将带有说话者标签的对话脚本（如 [S1]…[S2]…）转换为自然、富有表现力的语音，对接中英文对话生成任务，例如播客、访谈等。

技术架构与原理

语音离散化：XY‑Tokenizer

使用双路 Whisper 编码器提取语义与声学特征，通过 8 层 RVQ（Residual Vector Quantization）压缩为语音 token，码率仅1 kbps，帧率为12.5 Hz。
采用两阶段多任务训练：第一阶段学习语义与重建，第二阶段微调 decoder 使用重建+GAN 损失提升音质与自然度。

LLM 驱动与连续生成

基于 Qwen3‑1.7B‑base 大模型，通过 autoregressive + delay pattern 调度生成语音 token 序列，实现对话上下文刻画。
模型训练集包括约 100 万小时单人 TTS 数据与 40 万小时对话语音，支持长达 960 秒的连贯语音合成，适合播客与访谈等长格式场景。

核心特性亮点

🔊 表现力丰富的对话语音

借助大规模语音数据和离散编码，合成语言富有语调抑扬、自然流畅，超过传统 TTS 水平。
支持两位说话者音色克隆（zero‑shot voice cloning），自动切换 speaker 标签，音色分辨率高。

🌐 中英文双语能力

可用中文或英文对话脚本，生成对应语言语音，并保留对话韵律与节奏。

⏳ 超长语音生成

最大一次生成 960 秒长语音，无需片段拼接，有效避免接缝不自然问题。

🚀 开源可商用

模型以 Apache‑2.0 许可开源，提供代码、模型权重、推理接口，适合教育、AI播客、对话系统等场景整合。

使用指南

安装与环境配置

安装 XY‑Tokenizer 权重：

本地推理调用

支持 JSONL 格式输入，标注对话角色，并生成对应音频文件。

Hugging Face Spaces 在线体验

可访问 fnlp/MOSS‑TTSD 空间，在 Web 上输入对话文本，使用 GPU 即时生成对话语音。

应用场景与价值

AI 播客制作：通过对话脚本快速生成自然对话播客内容，适配配音或自动化内容制作
访谈内容语音化：将访谈稿自动配音为带有角色区分的语音文件
新闻与广告朗读：为资讯内容自动生成播报清晰且富有语感的语音版本
虚拟人及客服：用于虚拟主播、客服助理实现带有多角色语调的对话能力
语言学习和辅助：为教育场景生成示例对话音频，提高学习体验

与其他模型对比

特性	MOSS‑TTSD	常规 TTS 模型	MoonCast / Doubao
对话语音自然度	✅ 韵律自然、有起伏	⚠️ 多为单句平板	⚠️ 对话配音略显机械
多说话人零样本克隆	✅ 自动切换音色	❌ 通常无对话切换	❌ 往往只支持单音色
超长语音生成能力	✅ 支持最长 960 秒连续语音	❌ 多需拼接	❌ 长度有限
中英文双语	✅ 支持	⚠️ 通常单语	⚠️ 常限制语种
开源与商用许可	✅ Apache‑2.0，可自由集成	⚠️ 多为商业闭源	⚠️ 闭源