Voxtral 如何收费？

Voxtral 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

Voxtral SITES

Voxtral 是由 Mistral 推出的首款开源语音理解模型系列，支持高精度转录、语音问答、多语言识别与函数调用，提供 24B 和 3B 两种参数规模，适合 AI 工具使用者本地部署或云端集成。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2025年7月22日更新 2025年7月22日浏览 525

// 01 Voxtral 是什么

一、什么是Voxtral

Voxtral是 Mistral AI于2025 年 7 月中旬发布的开源音频-语言大模型系列，包括 Voxtral Small（24B） 和 Voxtral Mini（3B） 两个版本。它融合了 Mistral Small 3.1 的语言理解能力，并进一步扩展对语音的感知，支持语音转录、多语言理解、语音问答、摘要生成与函数调用。

二、核心功能剖析

2.1 高精度语音转录

专用的转录模式支持纯语音输入，自动识别语言，针对短语音（<30秒）和长语音（>30秒）均表现出色。
在 LibriSpeech、Common Voice 多语言等基准中，Voxtral Small 的字错误率（WER）优于 Whsiper large-v3 和 ElevenLabs Scribe。

2.2 音频理解与语音对话

支持语音直接提问，回答来自音频内容的问题或生成概要。
在音频理解基准和语音翻译任务中表现与 GPT‑4o‑mini、Gemini 2.5 相当，且超过 Gemini 在部分任务表现。

2.3 多语言能力覆盖

自动识别并处理英文、法文、西班牙文、德文、葡萄牙文、意大利文、荷兰文、印地语等 8 种主流语言。
在 FLEURS 语言数据集上的翻译、转录准确率领先其他闭源模型。

2.4 长上下文能力

支持高达 32K token 上下文长度，可处理最长约 30 分钟的语音转录或 40 分钟的语音理解任务。

2.5 语音驱动函数调用

支持 Function Calling，可直接根据语音触发 API、执行函数，实现场景式操作。

三、模型结构与技术架构

3.1 架构概况

音频编码器：基于 Whisper large‑v3 的 log-Mel spectrogram 接收模块，并编码为 50 Hz 的帧嵌入。
Adapter 层：将音频嵌入下采样并整合到语言模型输入中。
解码器：Mini 基于 Ministral‑3B，Small 基于 Mistral Small 3.1，两者兼具文本与音频理解能力。

3.2 训练与评估流程

基于大规模语音+文本的联合预训练，随后进行真实与合成数据上的微调。
引入自生成推理标记与追踪机制，提升语义连贯与理解能力。

四、性能与基准评测

在短语音转录（LibriSpeech clean/other、Common Voice 等）中，Voxtral Small 的 WER 较 Whisper 优化显著。
在多语言转录（FLEURS 多种语言）、理解等任务中，达到闭源模型同等甚至更优性能。
在音频理解、问答、翻译任务上，Voxtral Small 在几个标准评测中远超 GPT‑4o‑mini 与 Gemini 2.5 闪电版。

五、使用方式与集成指南

5.1 模型获取方式

在 Hugging Face 提供 24B 和 3B 版本，均为 Apache‑2.0 开源许可。
支持 API 访问（cloud/cloud 本地部署）：每分钟计费 $0.001。

5.2 快速部署示例

使用 Mistral Common 和 vLLM，支持音频推理与 Function Calling：

5.3 API and CLI 示例

使用 REST 或 curl：上传音频文件、获取 signed-url，调用 /chat/completions 或 /audio/transcriptions endpoints。
支持 timestamp granularity、语言指定等高级选项。

六、适用场景与应用价值

6.1 客服与语音助理

支持常时音频转写、理解与函数调用，可实现客服任务、高级语音代理等。

6.2 内容生产与会议智能

自动语音摘要、关键词提取、会后检索等功能满足媒体与会议优化需求。

6.3 多语言音频管理

支持多语种音频内容索引、翻译与理解，适合跨国团队或教育机构。

6.4 边缘部署

Voxtral Mini（3B）适合在本地或边缘设备部署，保障隐私并降低成本。

// 04 常见问题

Voxtral 是什么？

Voxtral 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 price-open-source、tech-speech、AI摘要生成、AI语音转录等标签。

Voxtral 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Voxtral 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/6036.html 官网或下载入口https://mistral.ai/news/voxtral 分类与标签体系AI 大模型 / 对话、price-open-source、tech-speech、AI摘要生成、AI语音转录

◇ ◇ ◇

"关系待挖掘"
暂无搭档工具数据

▸ 我来推荐

Voxtral 工具资料卡

NavXD2025年7月22日

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

LingBot-VA

LingBot-VA 是蚂蚁灵波科技（Robbyant / Ant Group）发布的开源具身世界模型。该模型首次提出自回归视频-动作世界建模方法，实现视频动态未来预测与...

AI 大模型 / 对话AI 工具

Voxtral Transcribe 2

Voxtral Transcribe 2 是 Mistral AI 最新发布的第二代语音转写模型系列，包含用于批量转录的 Voxtral Mini Transcribe...

AI 大模型 / 对话AI 工具

Intern-S1-Pro

Intern-S1-Pro 是上海 AI 实验室开源的万亿参数级科学多模态大模型，具备混合专家（MoE）架构与通专融合架构（SAGE），在 AI4Science 科学推理...

AI 大模型 / 对话AI 工具

Voxtral SITES

// 01 Voxtral 是什么

一、什么是Voxtral

二、核心功能剖析

2.1 高精度语音转录

2.2 音频理解与语音对话

2.3 多语言能力覆盖

2.4 长上下文能力

2.5 语音驱动函数调用

三、模型结构与技术架构

3.1 架构概况

3.2 训练与评估流程

四、性能与基准评测

五、使用方式与集成指南

5.1 模型获取方式

5.2 快速部署示例

5.3 API and CLI 示例

六、适用场景与应用价值

6.1 客服与语音助理

6.2 内容生产与会议智能

6.3 多语言音频管理

6.4 边缘部署

// 04 常见 问题

// 05 资料 来源

// 04 常见问题

// 05 资料来源