什么是MOSS‑TTSD
MOSS‑TTSD(Text‑to‑Spoken Dialogue)是 OpenMOSS(由复旦大学、清华实验室和模思智能支持)开发的一款双语对话语音合成模型,支持中英双语、零样本多说话人克隆及长达960秒的连续对话生成。它是完全开源并可商用的语音生成框架。
MOSS‑TTSD 可将带有说话者标签的对话脚本(如 [S1]…[S2]…)转换为自然、富有表现力的语音,对接中英文对话生成任务,例如播客、访谈等。
技术架构与原理
语音离散化:XY‑Tokenizer
使用双路 Whisper 编码器提取语义与声学特征,通过 8 层 RVQ(Residual Vector Quantization)压缩为语音 token,码率仅1 kbps,帧率为12.5 Hz。
采用两阶段多任务训练:第一阶段学习语义与重建,第二阶段微调 decoder 使用重建+GAN 损失提升音质与自然度。
LLM 驱动与连续生成
基于 Qwen3‑1.7B‑base 大模型,通过 autoregressive + delay pattern 调度生成语音 token 序列,实现对话上下文刻画。
模型训练集包括约 100 万小时单人 TTS 数据与 40 万小时对话语音,支持长达 960 秒的连贯语音合成,适合播客与访谈等长格式场景。
核心特性亮点
🔊 表现力丰富的对话语音
借助大规模语音数据和离散编码,合成语言富有语调抑扬、自然流畅,超过传统 TTS 水平。
支持两位说话者音色克隆(zero‑shot voice cloning),自动切换 speaker 标签,音色分辨率高。
🌐 中英文双语能力
可用中文或英文对话脚本,生成对应语言语音,并保留对话韵律与节奏。
⏳ 超长语音生成
最大一次生成 960 秒长语音,无需片段拼接,有效避免接缝不自然问题。
🚀 开源可商用
模型以 Apache‑2.0 许可开源,提供代码、模型权重、推理接口,适合教育、AI播客、对话系统等场景整合。
使用指南
安装与环境配置
安装 XY‑Tokenizer 权重:
本地推理调用
支持 JSONL 格式输入,标注对话角色,并生成对应音频文件。
Hugging Face Spaces 在线体验
可访问 fnlp/MOSS‑TTSD 空间,在 Web 上输入对话文本,使用 GPU 即时生成对话语音。
应用场景与价值
AI 播客制作:通过对话脚本快速生成自然对话播客内容,适配配音或自动化内容制作
访谈内容语音化:将访谈稿自动配音为带有角色区分的语音文件
新闻与广告朗读:为资讯内容自动生成播报清晰且富有语感的语音版本
虚拟人及客服:用于虚拟主播、客服助理实现带有多角色语调的对话能力
语言学习和辅助:为教育场景生成示例对话音频,提高学习体验
与其他模型对比
| 特性 | MOSS‑TTSD | 常规 TTS 模型 | MoonCast / Doubao |
|---|---|---|---|
| 对话语音自然度 | ✅ 韵律自然、有起伏 | ⚠️ 多为单句平板 | ⚠️ 对话配音略显机械 |
| 多说话人零样本克隆 | ✅ 自动切换音色 | ❌ 通常无对话切换 | ❌ 往往只支持单音色 |
| 超长语音生成能力 | ✅ 支持最长 960 秒连续语音 | ❌ 多需拼接 | ❌ 长度有限 |
| 中英文双语 | ✅ 支持 | ⚠️ 通常单语 | ⚠️ 常限制语种 |
| 开源与商用许可 | ✅ Apache‑2.0,可自由集成 | ⚠️ 多为商业闭源 | ⚠️ 闭源 |
常见问题 FAQ
问:模型一次能生成多长语音?
答:支持最长 960 秒的连续语音生成,无需拼接。
问:如何进行多说话人语音克隆?
答:在输入文本中使用 [S1]、[S2] 标签,并提供简短示例音频,即可实现零样本克隆。
问:模型可商用吗?
答:可,MOSS‑TTSD 遵循 Apache‑2.0 授权,支持商用用途。
问:支持哪些语言?
答:中英文双语皆可,生成语音效果一致。
问:如何选择音频长度或分段生成?
答:通过控制输入 JSONL 脚本中对话段落长度及 model config 参数,可分段生成后合并。
社区反馈与技术媒体评价
GitHub 项目已获得 446 ⭐ 及 27 次 Fork,社区活跃。
AITNT 报道指出“突破 AI 播客恐怖谷”,称其音质和情感表达媲美商业系统。
Hugging Face 热帖推荐指出“支持多角色对话且零样本克隆效果好,长语音无缝连接表现尤佳”。
实践建议与优化路径
提供高质量示例音频:用于激活准确 voice cloning 效果
逐段生成并评估:控制输入长度避免一次生成过长导致异常
尝试 normalize 参数:提高文本处理一致性与发音流畅度
社区参与反馈:如遇模型 bug 可提交 Issue 或 PR
结合 pipeline使用:可与 TTS、ASR、LLM 等组件组成语音 agent 系统
未来展望
加入更多 speaker 控制:源码正在支持多角色对话复杂路径
提升鲁棒性:控制 delay pattern 与 codec 推理策略优化
扩展语言支持:除中英之外,未来可能加入其他主流语言
Agent 集成:为播客 Agent、虚拟人 Agent 等语音管道提供端到端服务
部署便利性提升:未来将提供 Docker 镜像、API 服务与第三方托管支持
结语
MOSS‑TTSD 通过开创性的离散编码方法、Qwen 驱动架构和丰富语音数据,实现了 expressive bilingual dialogue synthesis 的标杆性能,是 AI 工具使用者在播客、虚拟人、对话合成等场景中值得首选的开源语音生成模型。凭借其零样本多 speaker 能力与超长语音支持,它将加速语音内容创作与部署效率。欢迎体验、试用并参与该项目未来发展!
数据统计
MOSS‑TTSD访问数据评估
本站AI工具导航提供的MOSS‑TTSD页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月17日 上午10:19收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。



