CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS525
▸ AI 大模型 / 对话 · SITES

Voxtral SITES

Voxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年7月22日更新 2025年7月22日浏览 525

// 01 Voxtral 是什么

一、什么是Voxtral

Voxtral是 Mistral AI于2025 年 7 月中旬发布的开源音频-语言大模型系列,包括 Voxtral Small(24B)Voxtral Mini(3B) 两个版本。它融合了 Mistral Small 3.1 的语言理解能力,并进一步扩展对语音的感知,支持语音转录、多语言理解、语音问答、摘要生成与函数调用。


二、核心功能剖析

2.1 高精度语音转录

  • 专用的转录模式支持纯语音输入,自动识别语言,针对短语音(<30秒)和长语音(>30秒)均表现出色。

  • 在 LibriSpeech、Common Voice 多语言等基准中,Voxtral Small 的字错误率(WER)优于 Whsiper large-v3 和 ElevenLabs Scribe。

2.2 音频理解与语音对话

  • 支持语音直接提问,回答来自音频内容的问题或生成概要。

  • 在音频理解基准和语音翻译任务中表现与 GPT‑4o‑mini、Gemini 2.5 相当,且超过 Gemini 在部分任务表现。

2.3 多语言能力覆盖

  • 自动识别并处理英文、法文、西班牙文、德文、葡萄牙文、意大利文、荷兰文、印地语等 8 种主流语言。

  • 在 FLEURS 语言数据集上的翻译、转录准确率领先其他闭源模型。

2.4 长上下文能力

  • 支持高达 32K token 上下文长度,可处理最长约 30 分钟的语音转录或 40 分钟的语音理解任务。

2.5 语音驱动函数调用

  • 支持 Function Calling,可直接根据语音触发 API、执行函数,实现场景式操作。


三、模型结构与技术架构

3.1 架构概况

  • 音频编码器:基于 Whisper large‑v3 的 log-Mel spectrogram 接收模块,并编码为 50 Hz 的帧嵌入。

  • Adapter 层:将音频嵌入下采样并整合到语言模型输入中。

  • 解码器:Mini 基于 Ministral‑3B,Small 基于 Mistral Small 3.1,两者兼具文本与音频理解能力。

3.2 训练与评估流程

  • 基于大规模语音+文本的联合预训练,随后进行真实与合成数据上的微调。

  • 引入自生成推理标记与追踪机制,提升语义连贯与理解能力。


四、性能与基准评测

  • 在短语音转录(LibriSpeech clean/other、Common Voice 等)中,Voxtral Small 的 WER 较 Whisper 优化显著。

  • 在多语言转录(FLEURS 多种语言)、理解等任务中,达到闭源模型同等甚至更优性能。

  • 在音频理解、问答、翻译任务上,Voxtral Small 在几个标准评测中远超 GPT‑4o‑mini 与 Gemini 2.5 闪电版。


五、使用方式与集成指南

5.1 模型获取方式

  • 在 Hugging Face 提供 24B 和 3B 版本,均为 Apache‑2.0 开源许可。

  • 支持 API 访问(cloud/cloud 本地部署):每分钟计费 $0.001。

5.2 快速部署示例

使用 Mistral Common 和 vLLM,支持音频推理与 Function Calling:

pip install vllm mistral_common vllm serve mistralai/Voxtral-Small-24B-2507 ...
python
from mistral_common.protocol.instruct.messages import AudioChunk, UserMessage # load model, send audio + 富文本,启用函数调用...

5.3 API and CLI 示例

  • 使用 REST 或 curl:上传音频文件、获取 signed-url,调用 /chat/completions/audio/transcriptions endpoints。

  • 支持 timestamp granularity、语言指定等高级选项。


六、适用场景与应用价值

6.1 客服与语音助理

  • 支持常时音频转写、理解与函数调用,可实现客服任务、高级语音代理等。

6.2 内容生产与会议智能

  • 自动语音摘要、关键词提取、会后检索等功能满足媒体与会议优化需求。

6.3 多语言音频管理

  • 支持多语种音频内容索引、翻译与理解,适合跨国团队或教育机构。

6.4 边缘部署

  • Voxtral Mini(3B)适合在本地或边缘设备部署,保障隐私并降低成本。


// 04 常见 问题

Voxtral 是什么?
Voxtral 是由 Mistral 推出的首款开源语音理解模型系列,支持高精度转录、语音问答、多语言识别与函数调用,提供 24B 和 3B 两种参数规模,适合 AI 工具使用者本地部署或云端集成。
Voxtral 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 price-open-source、tech-speech、AI摘要生成、AI语音转录 等标签。
Voxtral 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Voxtral 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部