CURRENTVIEWING
CHAI 图像
VIEWS531
▸ AI 图像 · SITES

Stream‑Omni SITES

Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合(文本、图像、语音)并生成文本和语音回应,具备边听边列文字中转、轻量训练与同声互动能力,是 AI 工具使用者构建多模态界面的优秀起点。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年6月22日更新 2025年6月22日浏览 531

// 01 Stream‑Omni 是什么

在 GPT‑4o 引领的多模态交互时代,Stream‑Omni作为一款由中国科学院计算技术研究所 ICT NLP 实验室推出的开源项目,快速跻身前沿。该模型集文本、视觉与语音功能于一体,支持实时“see‑while‑hear”交互体验,为 AI 工具使用者提供兼容文本、图片、语音的高品质交互接口,显著提升用户体验和开发效率。


Stream‑Omni 是什么?

Stream‑Omni 是一款 GPT‑4o 级别的语言‑视觉‑语音聊天机器人,由 Shaolei Zhang 等人开发,并在 arXiv 上发表论文。它支持任意模态组合的输入,并可输出文本和语音,对标 GPT‑4o 的同声中转能力,尤其适合开发多模态应用的 AI 工具使用者和研究者。


核心功能一览

✅ Omni 模态交互

Stream‑Omni 能同时支持文本、图像和语音输入,理解多种信息后做出相应语音或文字回应,适合跨模态聊天场景

🔄 实时中转(see‑while‑hear)

在用户说话过程中,模型无需等待完整语音输入就能生成文字转写(ASR)并同步回应,带来 GPT‑4o 同级联的用户体验

📉 数据与训练效率

Stream‑Omni 通过序列拼接和层维映射机制实现视觉和语音模态对齐,减少高质量数据依赖,训练更高效

🎙 开源可部署

项目代码开源于 GitHub,GPL‑3.0 许可,支持本地部署和 API 调用,提供控制器与 gradio 界面脚本,适合研究和集成


技术亮点与优化机制

模态对齐策略

  • 视觉–文本对齐:通过序列维拼接方式融合图片特征;

  • 语音–文本对齐:通过 CTC 层映射实现语音转文字对齐效果

实时处理架构

借助 CosyVoice 流式 TTS、模型内部并行机制,Stream‑Omni 可在输入过程中边转写边生成回应,适合实时交互场景

轻量设计优势

Stream‑Omni 使用少量多模态数据训练,通过结构对齐迁移文本能力,无需大规模模态对齐数据便能实现强模态交互效果


使用场景与目标用户

  • 多模态聊天应用开发者:实现跨设备语音+视觉机器人;

  • 语音助手系统构建者:增强 TTS 同步输出体验;

  • 研究者与教育者:探索统一框架模态对齐技术;

  • 本地化部署场景:满足对商业部署限制下的开源多模态AI需求。


快速上手指南

1.下载模型与依赖:获取 Stream‑Omni checkpoint 与 CosyVoice 模型。

2.安装依赖:Python 3.10 + conda env + pip 安装 requirements.txt,flash-attn,CosyVoice。

3.启动控制器与工作进程:运行 controller、cosyvoice_worker 和 model_worker 脚本。

4.启动界面交互:运行 gradio_web.py,访问浏览器界面进行文本/图像/语音交互。

5.调用API:通过提供的 api.py 接口,选择 interaction 类型(t2t、s2s 等)进行集成调用。


// 04 常见 问题

Stream‑Omni 是什么?
Stream‑Omni 是由中科院 ICT NLP 团队开源的一体化 GPT‑4o 风格语言-视觉-语音多模态聊天模型。支持任何输入组合(文本、图像、语音)并生成文本和语音回应,具备边听边列文字中转、轻量训练与同声互动能力,是 AI 工具使用者构建多模态界面的优秀起点。
Stream‑Omni 适合哪些场景?
可优先参考它所属的 AI 图像 分类,以及 tech-cv、tech-nlp、price-open-source、tech-speech、AI聊天机器人 等标签。
Stream‑Omni 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
Stream‑Omni 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 图像 全部