
工具名称
Voxtral Transcribe 2
项目地址
实时模型权重(Hugging Face):mistralai/Voxtral-Mini-4B-Realtime-2602
工具类型
多语言语音转写(Speech-to-Text)模型家族
发布机构
Mistral AI(巴黎 AI 实验室)
首次发布
2026 年 2 月 4 日
许可协议
Apache-2.0(Voxtral Realtime 及部分开源权重)
结构化属性表
| 属性 | 描述 |
|---|---|
| 名称 | Voxtral Transcribe 2 |
| 类型 | 多语言语音转写模型 |
| 发布 | 2026-02-04 |
| 语言支持 | 13 种主要语言 |
| 实时延迟 | 可低至 sub-200ms |
| 说话人分离 | 有(Mini Transcribe V2) |
| 词级时间戳 | 有 |
| 上下文偏置 | 支持 |
| 核心能力 | 实时与批量语音转写 |
| 开源许可 | Apache-2.0(Realtime 权重) |
| 部署方式 | 本地/边缘/云 API |
| 典型场景 | 会议转录、语音助手、字幕、合规审计 |
核心技术能力
模型构成与类型
Voxtral Transcribe 2 系列包括两个主要模型:
Voxtral Mini Transcribe V2:用于批量转录任务,支持长音频处理、说话人分离和词级时间信息。
Voxtral Realtime(Voxtral Mini 4B Realtime 2602):基于流式架构实现极低延迟实时转录能力。
多语言支持
模型原生支持 13 种语言,包括英语、中文、印地语、西班牙语、阿拉伯语、法语、葡萄牙语、俄语、德语、日语、韩语、意大利语和荷兰语。
实时性能
Voxtral Realtime 可将延迟配置至 sub-200ms,适合实时语音助手和低延迟场景。
可在实时与精度之间通过设定延迟参数进行平衡(如 480ms 时接近离线模型精度)。
高准确性与效率
Voxtral Mini Transcribe V2 在 FLEURS 数据集上可达到约 4% 单词错误率(WER)。
与行业主流产品比较,该系列在多语言与多领域任务上展示了成本与性能的优势。
说话人分离与结构化输出
支持精确的说话人分离(Speaker Diarization)和词级时间戳输出,可用于会议记录、访谈处理等场景。
**上下文偏置(Context Biasing)**可引导模型识别专业术语与特定词汇。
部署与隐私
Voxtral Realtime 开源权重允许边缘部署与本地推理,实现隐私优先的语音处理方案。
支持 GDPR、HIPAA 等合规架构。
输入与输出规范
支持输入类型
单声道或多声道音频文件(如 mp3、wav、m4a、flac、ogg 等格式)。
单次批处理音频可长达数小时。
实时流式音频输入(如麦克风流、实时通话数据)。
输出内容类型
纯文本转录输出(含目标语言文本内容)。
字级或词级时间戳边界数据。
说话人标签与段落划分(Diarization)。
可选领域词汇纠错与上下文增强输出。
系统要求与部署
运行环境
可在本地 GPU 环境或服务器上部署开源权重模型。
实时流式转写典型部署推荐使用 WebSockets 或实时推理框架集成方案。
推理框架
可与主流推理系统集成,例如 vLLM 和自定义 WebRTC/流式引擎。
硬件
边缘设备运行需较低资源(约 4B 参数),支持在单个高性能 GPU 上执行实时推理。
应用场景(结构化描述)
实时语音助手与对话系统
在对话界面与语音代理应用中,利用 Realtime 子模型实现低延迟语音识别,支持即时理解与自然交互。
会议与访谈智能转录
自动化转录会议录音、多方访谈内容,并通过说话人分离与日期标签生成结构化会议记录。
媒体字幕与实时字幕制作
用于直播、在线课堂或视频平台的实时字幕生成,支持多语言字幕切换与词级时间精准生成。
呼叫中心自动化
实时电话录音转写、客户服务质量分析与 CRM 系统自动填充,可集成语义分析与情感分类等后处理。
合规审计与记录存档
通过说话人分离与时间戳支持合规监管与审计轨迹生成,例如医疗、财务与法律环境下的记录归档。
使用流程
步骤 1:音频准备
准备录音文件或实时音频流。
步骤 2:选择模型
根据需求选择批处理(Mini Transcribe V2)或实时流处理(Realtime)。
步骤 3:API 或本地推理集成
使用 Mistral Studio 或 API 集成进行测试。
或将模型权重加载至本地推理框架(如 vLLM)。
步骤 4:执行转写
对音频进行批次或实时流式转写。
获取文本输出并处理说话人分离、时间戳等元数据。
用户常见问题(FAQ)
Q1: Voxtral Transcribe 2 支持哪些语言?
A1: 支持 13 种语言,涵盖英语、中文、印地语、西班牙语、法语、阿拉伯语等。
Q2: 实时延迟最低是多少?
A2: 实时模型的延迟可配置至 sub-200ms,使其适合实时语音代理和聊天场景。
Q3: 是否开源?
A3: Voxtral Realtime 的权重开源在 Hugging Face,并采用 Apache-2.0 许可。
Q4: 它与传统离线模型相比性能如何?
A4: 在 480ms 延迟设置下,Realtime 的准确率接近批量模型,词错误率在 1-2% 区间。
Q5: 是否支持说话人分离?
A5: 是,Mini Transcribe V2 提供说话人分离(Speaker Diarization)与词级时间戳输出。
Q6: 可处理多长音频?
A6: Mini Transcribe V2 支持长达数小时的批处理音频文件。
数据统计
Voxtral Transcribe 2访问数据评估
本站AI工具导航提供的Voxtral Transcribe 2页面内容基于公开资料、第三方工具目录与用户可访问信息整理,不代表官方立场,也不构成商业承诺或事实背书。内容均由chatgpt系列生成。同时,对于该外部链接的指向,不由AI工具导航实际控制,在2026年2月7日 上午12:45收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,AI工具导航不承担任何责任。
相关AI工具平替


凹凸工坊-AI手写模拟器
轻舟办公
DeepWiki
ResearchFlow
DBiM
Creatopy




