Stream‑Omni 由谁开发？

Stream‑Omni 由 ictnlp 开发。

Stream‑Omni 如何收费？

Stream‑Omni 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 图像

浏览量541

▸ AI 图像 · 应用工具

Stream‑Omni 应用工具

Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合（文本、图像、语音）并生成文本和语音回应，具备边听边列文字中转、轻量训练与同声互动能力，是 AI 工具使用者构建多模态界面的优秀起点。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

GitHub收藏 0

收录 2025年6月22日更新 2025年6月22日浏览 541

// 01 Stream‑Omni 是什么

在 GPT‑4o 引领的多模态交互时代，Stream‑Omni作为一款由中国科学院计算技术研究所 ICT NLP 实验室推出的开源项目，快速跻身前沿。该模型集文本、视觉与语音功能于一体，支持实时“see‑while‑hear”交互体验，为 AI 工具使用者提供兼容文本、图片、语音的高品质交互接口，显著提升用户体验和开发效率。

Stream‑Omni 是什么？

Stream‑Omni 是一款 GPT‑4o 级别的语言‑视觉‑语音聊天机器人，由 Shaolei Zhang 等人开发，并在 arXiv 上发表论文。它支持任意模态组合的输入，并可输出文本和语音，对标 GPT‑4o 的同声中转能力，尤其适合开发多模态应用的 AI 工具使用者和研究者。

核心功能一览

✅ Omni 模态交互

Stream‑Omni 能同时支持文本、图像和语音输入，理解多种信息后做出相应语音或文字回应，适合跨模态聊天场景。

🔄 实时中转（see‑while‑hear）

在用户说话过程中，模型无需等待完整语音输入就能生成文字转写（ASR）并同步回应，带来 GPT‑4o 同级联的用户体验。

📉 数据与训练效率

Stream‑Omni 通过序列拼接和层维映射机制实现视觉和语音模态对齐，减少高质量数据依赖，训练更高效。

🎙 开源可部署

项目代码开源于 GitHub，GPL‑3.0 许可，支持本地部署和 API 调用，提供控制器与 gradio 界面脚本，适合研究和集成。

技术亮点与优化机制

模态对齐策略

视觉–文本对齐：通过序列维拼接方式融合图片特征；
语音–文本对齐：通过 CTC 层映射实现语音转文字对齐效果。

实时处理架构

借助 CosyVoice 流式 TTS、模型内部并行机制，Stream‑Omni 可在输入过程中边转写边生成回应，适合实时交互场景。

轻量设计优势

Stream‑Omni 使用少量多模态数据训练，通过结构对齐迁移文本能力，无需大规模模态对齐数据便能实现强模态交互效果。

使用场景与目标用户

多模态聊天应用开发者：实现跨设备语音+视觉机器人；
语音助手系统构建者：增强 TTS 同步输出体验；
研究者与教育者：探索统一框架模态对齐技术；
本地化部署场景：满足对商业部署限制下的开源多模态AI需求。

快速上手指南

1.下载模型与依赖：获取 Stream‑Omni checkpoint 与 CosyVoice 模型。

2.安装依赖：Python 3.10 + conda env + pip 安装 requirements.txt，flash-attn，CosyVoice。

3.启动控制器与工作进程：运行 controller、cosyvoice_worker 和 model_worker 脚本。

4.启动界面交互：运行 gradio_web.py，访问浏览器界面进行文本/图像/语音交互。

5.调用API：通过提供的 api.py 接口，选择 interaction 类型（t2t、s2s 等）进行集成调用。

// 02 核心功能

核心定位Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合（文本、图像、语音）并生成文本和语音回应，具备边听边列文字中转、轻量训练与同声互动能力，是 AI 工具使用者构建多模态界面的优秀起点。
分类索引当前归档在 AI 图像，方便和同频工具横向比较。
能力标签关联标签包括 tech-cv、tech-nlp、price-open-source、tech-speech、AI聊天机器人、AI语音助手。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 图像定位和 tech-cv、tech-nlp、price-open-source 标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

Stream‑Omni 是什么？

Stream‑Omni 适合哪些场景？

可优先参考它所属的 AI 图像分类，以及 tech-cv、tech-nlp、price-open-source、tech-speech、AI聊天机器人等标签。

Stream‑Omni 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

Stream‑Omni 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5741.html 官网或下载入口https://github.com/ictnlp/Stream-Omni 分类与标签体系AI 图像、tech-cv、tech-nlp、price-open-source、tech-speech

沁

沁言学术

沁言学术是一款面向科研人员、高校师生与AI工具使用者打造的全流程 AI 学术研究平台，集 AI 文献检索、论文辅助写作、Chat PDF、知识库管理、学术润色、选题分析...

AI 写作AI 工具

GLM-5

GLM-5 是 Zhipu AI（Z.ai）发布的第五代大型语言模型，采用 Mixture-of-Experts 架构与 DeepSeek 稀疏注意力机制，支持高达 20...

AI 大模型 / 对话AI 工具

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

Stream‑Omni 应用工具

// 01 Stream‑Omni 是什么

Stream‑Omni 是什么？

核心功能一览

✅ Omni 模态交互

🔄 实时中转（see‑while‑hear）

📉 数据与训练效率

🎙 开源可部署

技术亮点与优化机制

模态对齐策略

实时处理架构

轻量设计优势

使用场景与目标用户

快速上手指南

// 02 核心 功能

// 03 使用 场景

// 04 常见 问题

// 05 资料 来源

// 02 核心功能

// 03 使用场景

// 04 常见问题

// 05 资料来源