Qwen‑TTS 如何收费？

Qwen‑TTS 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Qwen‑TTS SITES

Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型，支持标准普通话、三种中文方言（北京话、上海话、四川话）及七种中英双语音色，通过流式输出实现快速、高质量语音生成。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · zh

访问官网收藏 0

收录 2025年7月10日更新 2025年7月10日浏览 679

// 01 Qwen‑TTS 是什么

什么是 Qwen‑TTS

Qwen‑TTS是阿里云通义千问（Qwen）系列最新推出的文本转语音（TTS）模型，已于 2025 年 6 月对外发布。该模型支持中文、英文和中英混合文本输入，并通过自然语音合成将文字转换为高保真、多风格的语音。用户可通过阿里云 Model Studio、Qwen API 或 DashScope SDK 接入该服务。

研发背景与目标

阿里云通义千问团队致力于打造“基础 + 多模态”生态，已有 Qwen3、Qwen-VL、Qwen-Audio 等模型。Qwen‑TTS 的推出旨在打通从“听到”到“说出”的闭环，实现“Qwen 写 → Qwen 说”的统一能力。它基于海量语音数据训练，提升声线自然度、语义韵律表达及风格迁移能力。

模型核心能力分析

普通话与方言多样性

Qwen‑TTS 除了普通话四种女性/男性音色（Cherry、Chelsie、Ethan、Serena），还支持三种方言（北京话 Dylan、上海话 Jada、四川话 Sunny）以及七种中英双语音色，适配区域化与跨语言场景。

流式生成与低延迟

该模型支持流式输出，首个音频包响应延迟低于 400ms，整体端到端时延可控制在 100ms 以内，适合语音助手、实时播报等低延迟应用场景。

真人级音质与情感控制

基于数百万小时语音训练，Qwen‑TTS 在语调、停顿、韵律方面表现接近真人语音，情感表达丰富，并能根据上下文调整说话节奏与语气，语音自然度接近 SOTA 水平。

技术实现亮点

两段式架构：先编码语音特征，再由大规模自回归解码器生成音频令牌，确保音质与表达一致性。
词汇长度与流控设计：上下文长度 8,192 Token，文本最长输入达 7,680 Token（约数千汉字），支持长文本合成。
音频 Token 机制：音频帧按每秒 50 Token 进行编码，确保音频时序与文本流同步控制。
多渠道输出：支持流式 Base64 编码 PCM 片段，也可生成完整 WAV 文件 URL。

使用方式与接入流程

快速调用示例

import os, dashscope response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model="qwen-tts", api_key=os.getenv("DASHSCOPE_API_KEY"), text="你好，欢迎使用 Qwen‑TTS。", voice="Chelsie", stream=True ) for chunk in response: play(chunk)

也可改用 Java 或 HTTP 接口方式调用。支持模型名如 qwen-tts-latest 或指定版本 qwen‑tts‑2025‑05‑22，并选择音色（如 Dylan、Sunny）。

成本与限额

输入输出成本低：输入 0.0016 元/千 Token，输出 0.01 元/千 Token；
免费额度：百炼用户可享 100 万 Token 免费额度，限 180 天使用期。

应用场景探索

智能客服与语音助手

借助其灵活多音色与高质量语音输出，可为客服机器人、导航语音等场景提供更自然、更具人情味的交互语音。

有声内容与娱乐

支持电台配音、有声小说、视频配音等，用户可自定义音色与情感，提升听觉体验。

教育与多语言培训

方言教材配音、跨语言教学等需求可被满足，支持干预合成模式增强学习体验。

虚拟主播与品牌语音

定制音色用于品牌形象或虚拟主持人，有助于扩展个人品牌与商业表达能力。

优势与局限比较

维度	Qwen‑TTS 优势	需进一步加强
音质与情感	真人级表现，高保真	● 情感控制仍不支持 SSML 精细调节
语言多样性	支持普通话、方言与中英混合	● 更多方言与其他语言待支持
延迟表现	流式低延迟 <400ms	● 实时互动环境需继续优化
可接入性	SDK/API 多语言支持	● 本地部署受限网络环境影响