一、什么是Voxtral
Voxtral是 Mistral AI于2025 年 7 月中旬发布的开源音频-语言大模型系列,包括 Voxtral Small(24B) 和 Voxtral Mini(3B) 两个版本。它融合了 Mistral Small 3.1 的语言理解能力,并进一步扩展对语音的感知,支持语音转录、多语言理解、语音问答、摘要生成与函数调用。
二、核心功能剖析
2.1 高精度语音转录
专用的转录模式支持纯语音输入,自动识别语言,针对短语音(<30秒)和长语音(>30秒)均表现出色。
在 LibriSpeech、Common Voice 多语言等基准中,Voxtral Small 的字错误率(WER)优于 Whsiper large-v3 和 ElevenLabs Scribe。
2.2 音频理解与语音对话
支持语音直接提问,回答来自音频内容的问题或生成概要。
在音频理解基准和语音翻译任务中表现与 GPT‑4o‑mini、Gemini 2.5 相当,且超过 Gemini 在部分任务表现。
2.3 多语言能力覆盖
自动识别并处理英文、法文、西班牙文、德文、葡萄牙文、意大利文、荷兰文、印地语等 8 种主流语言。
在 FLEURS 语言数据集上的翻译、转录准确率领先其他闭源模型。
2.4 长上下文能力
支持高达 32K token 上下文长度,可处理最长约 30 分钟的语音转录或 40 分钟的语音理解任务。
2.5 语音驱动函数调用
支持 Function Calling,可直接根据语音触发 API、执行函数,实现场景式操作。
三、模型结构与技术架构
3.1 架构概况
音频编码器:基于 Whisper large‑v3 的 log-Mel spectrogram 接收模块,并编码为 50 Hz 的帧嵌入。
Adapter 层:将音频嵌入下采样并整合到语言模型输入中。
解码器:Mini 基于 Ministral‑3B,Small 基于 Mistral Small 3.1,两者兼具文本与音频理解能力。
3.2 训练与评估流程
基于大规模语音+文本的联合预训练,随后进行真实与合成数据上的微调。
引入自生成推理标记与追踪机制,提升语义连贯与理解能力。
四、性能与基准评测
在短语音转录(LibriSpeech clean/other、Common Voice 等)中,Voxtral Small 的 WER 较 Whisper 优化显著。
在多语言转录(FLEURS 多种语言)、理解等任务中,达到闭源模型同等甚至更优性能。
在音频理解、问答、翻译任务上,Voxtral Small 在几个标准评测中远超 GPT‑4o‑mini 与 Gemini 2.5 闪电版。
五、使用方式与集成指南
5.1 模型获取方式
在 Hugging Face 提供 24B 和 3B 版本,均为 Apache‑2.0 开源许可。
支持 API 访问(cloud/cloud 本地部署):每分钟计费 $0.001。
5.2 快速部署示例
使用 Mistral Common 和 vLLM,支持音频推理与 Function Calling:
5.3 API and CLI 示例
使用 REST 或 curl:上传音频文件、获取 signed-url,调用
/chat/completions或/audio/transcriptionsendpoints。支持 timestamp granularity、语言指定等高级选项。
六、适用场景与应用价值
6.1 客服与语音助理
支持常时音频转写、理解与函数调用,可实现客服任务、高级语音代理等。
6.2 内容生产与会议智能
自动语音摘要、关键词提取、会后检索等功能满足媒体与会议优化需求。
6.3 多语言音频管理
支持多语种音频内容索引、翻译与理解,适合跨国团队或教育机构。
6.4 边缘部署
Voxtral Mini(3B)适合在本地或边缘设备部署,保障隐私并降低成本。
七、常见问题 (FAQ)
Q1:Voxtral 完全开源吗?
是。模型权重(24B/3B)与训练评测代码均 Apache‑2.0 开源发布于 Hugging Face。
Q2:24B 与 3B 版本区别?
24B 是用于生产环境的高性能版本
3B 轻量版适合集成本地或边缘场景使用,支持快速转录与理解。
Q3:支持哪些语言?
覆盖 8 种语言,自动识别并保持准确度高,包括但不限于英文、西班牙文、法文、德文、葡萄牙文、意大利文、荷兰文、印地语。
Q4:如何启用语音驱动函数调用?
使用 vLLM 或 Transformers 的 API,设置 tool-call-parser 和包含函数定义,即可让语音触发后端逻辑。
Q5:可以商业用途吗?
Apache‑2.0 许可足够覆盖商用,但大规模部署建议联系 Mistral 获取企业支持。
Q6:部署成本如何?
API 定价 $0.001/min;本地部署成本则依赖 GPU 资源(24B 约 55GB GPU 显存,3B 约 9.5GB)。
Q7:是否支持说话人分离与情感检测?
正在研发中,面向高级企业定制版本目前在招募设计合作伙伴。
Q8:如何参与社区和反馈改进?
可通过 Hugging Face 社区、GitHub Issues、Reddit 分享使用体验,是开源生态协同的一部分。
八、优势与局限对比
| 特性 | Voxtral Small (24B) | Voxtral Mini (3B) | Whisper large-v3 | GPT‑4o mini Audio |
|---|---|---|---|---|
| ASR 精度 (WER) | ✅ 优于 Whisper & 关闭源模型 | ✅ 优于 Whisper & Gemini mini | 基准模型 | 性能稍低于 Voxtral Small |
| 语音理解 | ✅ 支持问答、摘要、函数调用 | ✅ 支持问答、摘要、调用 | ✖ 仅转录 | ✅ 与 Gemini 相近 |
| 多语种能力 | ✅ 多语言支持 | ✅ 可识别多语种 | 支持但效果稍弱 | ✅ 多语种 |
| 上下文长度 | ✅ 30–40 分钟音频处理 | ✅ 同上 | ✖ 多为短语音 | ✅ 但规模受限 |
| 开源与部署 | ✅ Apache‑2.0 可自部署 | ✅ 同左 | ✅ Open Source | ❌ 闭源模型 |
| 成本效益 | ⚠ 本地部署成本高 | ✅ 本地边缘适用 | ✅ 开源免费 | ❌ 闭源 API 高价 |
九、未来展望与构建建议
集成声纹识别与情感分析,提升场景适配度
延长上下文窗口,支持更长语音交互与多轮对话
优化 3B 模型准确率,缩小与 24B 的差距
代码与示例丰富化,推动社区工具链发展
专属行业版本发布(如法律、医疗等),提高垂直场景表现
十、总结
Voxtral 作为 Mistral 首个开源音频理解系列,兼具领先的转录、语音理解、多语言支持、函数调用能力,并提供高效本地部署选项。它打破了“性能 vs 开源 vs 成本”三者传统矛盾,成为 AI 工具使用者构建语音应用中强大而灵活的基础模型。无论是打造智能助理、客户服务系统、会议分析工具,还是部署在边缘设备上,Voxtral 都是值得关注与应用的语音技术方案。
数据统计
Voxtral访问数据评估
本站AI工具导航提供的Voxtral页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2025年7月22日 上午10:30收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替
PxBee
Step-DeepResearch
Tiptap
Fish Audio
Bright Data MCP




