Qwen‑TTS

7个月前发布 396 00

Qwen-TTS 是阿里云通义千问系列的高保真中英文语音合成模型,支持标准普通话、三种中文方言(北京话、上海话、四川话)及七种中英双语音色,通过流式输出实现快速、高质量语音生成。

站点语言:
zh
收录时间:
2025-07-10
Qwen‑TTSQwen‑TTS
问小白

什么是 Qwen‑TTS

Qwen‑TTS是阿里云通义千问(Qwen)系列最新推出的文本转语音(TTS)模型,已于 2025 年 6 月对外发布。该模型支持中文、英文和中英混合文本输入,并通过自然语音合成将文字转换为高保真、多风格的语音。用户可通过阿里云 Model Studio、Qwen API 或 DashScope SDK 接入该服务。


研发背景与目标

阿里云通义千问团队致力于打造“基础 + 多模态”生态,已有 Qwen3、Qwen-VL、Qwen-Audio 等模型。Qwen‑TTS 的推出旨在打通从“听到”到“说出”的闭环,实现“Qwen 写 → Qwen 说”的统一能力。它基于海量语音数据训练,提升声线自然度、语义韵律表达及风格迁移能力。


模型核心能力分析

普通话与方言多样性

Qwen‑TTS 除了普通话四种女性/男性音色(Cherry、Chelsie、Ethan、Serena),还支持三种方言(北京话 Dylan、上海话 Jada、四川话 Sunny)以及七种中英双语音色,适配区域化与跨语言场景。

流式生成与低延迟

该模型支持流式输出,首个音频包响应延迟低于 400ms,整体端到端时延可控制在 100ms 以内,适合语音助手、实时播报等低延迟应用场景。

真人级音质与情感控制

基于数百万小时语音训练,Qwen‑TTS 在语调、停顿、韵律方面表现接近真人语音,情感表达丰富,并能根据上下文调整说话节奏与语气,语音自然度接近 SOTA 水平。


技术实现亮点

  • 两段式架构:先编码语音特征,再由大规模自回归解码器生成音频令牌,确保音质与表达一致性。

  • 词汇长度与流控设计:上下文长度 8,192 Token,文本最长输入达 7,680 Token(约数千汉字),支持长文本合成。

  • 音频 Token 机制:音频帧按每秒 50 Token 进行编码,确保音频时序与文本流同步控制。

  • 多渠道输出:支持流式 Base64 编码 PCM 片段,也可生成完整 WAV 文件 URL。


使用方式与接入流程

快速调用示例

import os, dashscope response = dashscope.audio.qwen_tts.SpeechSynthesizer.call( model="qwen-tts", api_key=os.getenv("DASHSCOPE_API_KEY"), text="你好,欢迎使用 Qwen‑TTS。", voice="Chelsie", stream=True ) for chunk in response: play(chunk)

也可改用 Java 或 HTTP 接口方式调用。支持模型名如 qwen-tts-latest 或指定版本 qwen‑tts‑2025‑05‑22,并选择音色(如 Dylan、Sunny)。

成本与限额

  • 输入输出成本低:输入 0.0016 元/千 Token,输出 0.01 元/千 Token;

  • 免费额度:百炼用户可享 100 万 Token 免费额度,限 180 天使用期。


应用场景探索

智能客服与语音助手

借助其灵活多音色与高质量语音输出,可为客服机器人、导航语音等场景提供更自然、更具人情味的交互语音。

有声内容与娱乐

支持电台配音、有声小说、视频配音等,用户可自定义音色与情感,提升听觉体验。

教育与多语言培训

方言教材配音、跨语言教学等需求可被满足,支持干预合成模式增强学习体验。

虚拟主播与品牌语音

定制音色用于品牌形象或虚拟主持人,有助于扩展个人品牌与商业表达能力。


优势与局限比较

维度Qwen‑TTS 优势需进一步加强
音质与情感真人级表现,高保真● 情感控制仍不支持 SSML 精细调节
语言多样性支持普通话、方言与中英混合● 更多方言与其他语言待支持
延迟表现流式低延迟 <400ms● 实时互动环境需继续优化
可接入性SDK/API 多语言支持● 本地部署受限网络环境影响

FAQ 常见问题

问:Qwen‑TTS 支持哪些语言和方言?
答:支持中文普通话,三种方言(北京话 Dylan、上海话 Jada、四川话 Sunny),以及七种中英双语音色(如 Cherry、Ethan)。

问:如何进行流式输出?
答:调用时设置 stream=True,SDK 会逐个返回 Base64 PCM 音频片段,适合动态播放或实时语音场景。

问:最大输入长度是多少?
答:当前最大支持 7,680 Token,折合约数千汉字,适用于演讲稿、文章配音等长文本任务。

问:音频延迟大概多少?
答:首包延迟低于 400ms,整体 end-to-end 延迟可控制在 100ms 以内。

问:成本如何计算?
答:输入为 0.0016 元/千 Token,输出为 0.01 元/千 Token,华南地区用户可参考百炼免费额度。

问:能否商用?
答:可用于商业场景,按阿里云计费与许可授权使用,需遵循许可证条款与监管要求。


结论与建议

Qwen‑TTS 是阿里云通义千问系列中专注语音合成的重要补充模型,具备以下核心价值:

  • 自然度高:声音接近真人,涵盖丰富情感;

  • 多音色多方言:支持标准普通话、北京/上海/四川方言及中英混合;

  • 低延迟实时流式输出:适合语音助手等互动型场景;

  • 接入便捷:SDK/API接入简单,成本可控。

数据统计

Qwen‑TTS访问数据评估

Qwen‑TTS浏览人数已经达到396,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议以爱站数据为准,更多网站价值评估因素如:Qwen‑TTS的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Qwen‑TTS的站长进行洽谈提供。如该站的IP、PV、UV、跳出率等!

关于Qwen‑TTS特别声明

本站AI工具导航提供的Qwen‑TTS页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月10日 下午1:06收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。

相关AI工具平替

提示词商城

暂无评论

none
暂无评论...