CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS679
▸ AI 大模型 / 对话 · SITES

Qwen‑TTS SITES

Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型,支持标准普通话、三种中文方言(北京话、上海话、四川话)及七种中英双语音色,通过流式输出实现快速、高质量语音生成。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · zh
收录 2025年7月10日更新 2025年7月10日浏览 679

// 01 Qwen‑TTS 是什么

什么是 Qwen‑TTS

Qwen‑TTS是阿里云通义千问(Qwen)系列最新推出的文本转语音(TTS)模型,已于 2025 年 6 月对外发布。该模型支持中文、英文和中英混合文本输入,并通过自然语音合成将文字转换为高保真、多风格的语音。用户可通过阿里云 Model Studio、Qwen API 或 DashScope SDK 接入该服务。


研发背景与目标

阿里云通义千问团队致力于打造“基础 + 多模态”生态,已有 Qwen3、Qwen-VL、Qwen-Audio 等模型。Qwen‑TTS 的推出旨在打通从“听到”到“说出”的闭环,实现“Qwen 写 → Qwen 说”的统一能力。它基于海量语音数据训练,提升声线自然度、语义韵律表达及风格迁移能力。


模型核心能力分析

普通话与方言多样性

Qwen‑TTS 除了普通话四种女性/男性音色(Cherry、Chelsie、Ethan、Serena),还支持三种方言(北京话 Dylan、上海话 Jada、四川话 Sunny)以及七种中英双语音色,适配区域化与跨语言场景。

流式生成与低延迟

该模型支持流式输出,首个音频包响应延迟低于 400ms,整体端到端时延可控制在 100ms 以内,适合语音助手、实时播报等低延迟应用场景。

真人级音质与情感控制

基于数百万小时语音训练,Qwen‑TTS 在语调、停顿、韵律方面表现接近真人语音,情感表达丰富,并能根据上下文调整说话节奏与语气,语音自然度接近 SOTA 水平。


技术实现亮点

  • 两段式架构:先编码语音特征,再由大规模自回归解码器生成音频令牌,确保音质与表达一致性。

  • 词汇长度与流控设计:上下文长度 8,192 Token,文本最长输入达 7,680 Token(约数千汉字),支持长文本合成。

  • 音频 Token 机制:音频帧按每秒 50 Token 进行编码,确保音频时序与文本流同步控制。

  • 多渠道输出:支持流式 Base64 编码 PCM 片段,也可生成完整 WAV 文件 URL。


使用方式与接入流程

快速调用示例

import os, dashscope response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model="qwen-tts", api_key=os.getenv("DASHSCOPE_API_KEY"), text="你好,欢迎使用 Qwen‑TTS。", voice="Chelsie", stream=True ) for chunk in response: play(chunk)

也可改用 Java 或 HTTP 接口方式调用。支持模型名如 qwen-tts-latest 或指定版本 qwen‑tts‑2025‑05‑22,并选择音色(如 Dylan、Sunny)。

成本与限额

  • 输入输出成本低:输入 0.0016 元/千 Token,输出 0.01 元/千 Token;

  • 免费额度:百炼用户可享 100 万 Token 免费额度,限 180 天使用期。


应用场景探索

智能客服与语音助手

借助其灵活多音色与高质量语音输出,可为客服机器人、导航语音等场景提供更自然、更具人情味的交互语音。

有声内容与娱乐

支持电台配音、有声小说、视频配音等,用户可自定义音色与情感,提升听觉体验。

教育与多语言培训

方言教材配音、跨语言教学等需求可被满足,支持干预合成模式增强学习体验。

虚拟主播与品牌语音

定制音色用于品牌形象或虚拟主持人,有助于扩展个人品牌与商业表达能力。


优势与局限比较

维度Qwen‑TTS 优势需进一步加强
音质与情感真人级表现,高保真● 情感控制仍不支持 SSML 精细调节
语言多样性支持普通话、方言与中英混合● 更多方言与其他语言待支持
延迟表现流式低延迟 <400ms● 实时互动环境需继续优化
可接入性SDK/API 多语言支持● 本地部署受限网络环境影响

// 04 常见 问题

Qwen‑TTS 是什么?
Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型,支持标准普通话、三种中文方言(北京话、上海话、四川话)及七种中英双语音色,通过流式输出实现快速、高质量语音生成。
Qwen‑TTS 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-speech、AI语音助手、AI客服 等标签。
Qwen‑TTS 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Qwen‑TTS 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

类似工具 // V4 图谱1 条
搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部