AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 视频

浏览量15

▸ AI 视频 · 应用工具

Wan-Streamer 应用工具

Wan 家族的端到端实时音视频交互大模型，最短 160ms 流式 / 25fps，做亚秒级双向数字人对话。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2026年7月1日更新 2026年7月1日浏览 15

// 01 Wan-Streamer 是什么

Wan-Streamer 界面截图 — Wan-Streamer · 界面预览

快速结论

Wan-Streamer（Wan 流式交互模型，隶属 Wan 视频模型家族）是一个端到端、低时延的实时音视频交互基础模型，用单一 Transformer 把感知、推理、生成、轮次管理与跨模态同步统一在一起。截至 2026-06（v0.1，论文 arXiv:2606.25041），它支持最短 160ms / 25fps 的流式单元，模型侧时延约 200ms，可实现亚秒级双向（duplex）音视频对话。

适合谁优先使用

做实时数字人 / 虚拟主播 / AI 陪聊的开发者
需要低时延"语音 + 画面"双向交互的产品团队
研究流式多模态、端到端音视频生成的研究者
想替换"VAD + ASR + TTS + 视频生成"多模块拼装方案的工程团队

核心能力拆解

统一架构

单一 Transformer 同时做感知 / 推理 / 生成 / 轮次管理 / 跨模态同步，省掉独立的 VAD、ASR、TTS 与视频生成模块。

流式设计

因果编解码器 + 块因果注意力 + 低时延 token 调度，流式单元最短 160ms @ 25fps。

低时延

模型侧时延约 200ms，含网络（约 350ms）总交互时延约 550ms，达到亚秒级双向通信。

原生多模态

把语言、音频、视频作为统一 token 交错输入输出，做增量处理。

和同类工具怎么选

需求	优先考虑	判断标准
实时双向音视频对话	Wan-Streamer	端到端、亚秒级时延
离线高质量视频生成	Wan / Sora 等视频生成模型	Wan-Streamer 重交互非重画质
纯语音实时对话	实时语音大模型	不需要画面则更轻

国内平替：Wan 系列属阿里通义体系的开源视频模型，国内生态可获取；实时交互方向国内厂商也在跟进。

限制与避坑

截至 2026-06 为 v0.1，仍属早期 / 研究阶段，工程落地需验证
论文署名为 Lianghua Huang 等 25 人；与阿里 Wan 视频模型的具体关系以官方为准（待核实）
实时音视频对算力 / 带宽要求高
总时延含网络部分，实际体验受部署环境影响

NavXD 使用建议

如果你要做"能看能听能即时回应"的数字人或 AI 陪伴类产品，Wan-Streamer 的端到端流式架构很值得跟进；做离线高画质视频则该用专门的视频生成模型。wan-streamer.com 为项目站（部分地区访问受限），论文在 arXiv 公开。

常见问题

Wan-Streamer 开源吗？ 截至 2026-07 为 v0.1，论文已公开（arXiv:2606.25041），代码 / 权重开放情况以官方项目站为准（待核实）。

Wan-Streamer 和 Sora 有什么不同？ Wan-Streamer 主打实时双向交互（亚秒级），Sora 类主打离线高质量长视频生成。

Wan-Streamer 延迟多少？ 模型侧约 200ms，含网络总时延约 550ms，25fps。

// 02 核心功能

核心定位Wan 家族的端到端实时音视频交互大模型，最短 160ms 流式 / 25fps，做亚秒级双向数字人对话。
分类索引当前归档在 AI 视频，方便和同频工具横向比较。
能力标签关联标签包括多模态、视频生成、数字人、实时交互、音视频。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 视频定位和多模态、视频生成、数字人标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

Wan-Streamer 是什么？

Wan 家族的端到端实时音视频交互大模型，最短 160ms 流式 / 25fps，做亚秒级双向数字人对话。

Wan-Streamer 适合哪些场景？

可优先参考它所属的 AI 视频分类，以及多模态、视频生成、数字人、实时交互、音视频等标签。

Wan-Streamer 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Wan-Streamer 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/7022.html 官网或下载入口https://wan-streamer.com/分类与标签体系AI 视频、多模态、视频生成、数字人、实时交互

NVIDIA 3B 视觉-语言定位模型，统一目标检测/GUI 定位/文档理解/OCR，H100 上 12.7 框/秒，多项 SOTA。

AI 大模型 / 对话AI 工具

快速结论 SCAIL-2 是清华大学与 Z.ai（智谱）推出的开源端到端角色动画框架，主打通过视觉条件直接传递 […]

AI 视频AI 工具

快速结论 html-video 是 nexu-io（Open Design 背后团队）推出的开源视频生成工具， […]

AI 视频AI 工具

Gemma 4 12B 是谷歌开源约 12B 统一多模态大模型，支持文本/图像/音频/视频输入、256K 上下文、140+ 语言，Apache 2.0 可商用，可本地部署。

AI 大模型 / 对话AI 工具