CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS547
▸ AI 大模型 / 对话 · SITES

DeepEyes SITES

DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型,旨在实现“用图思考”的能力。该模型 […]

可用性
入口可访问
暂无外部入口
信息核实
待核验
2 条来源,含 NavXD 收录
类型
网页工具
Web · 中文/多语言
暂无入口收藏 0
收录 2025年6月3日更新 2025年6月3日浏览 547

// 01 DeepEyes 是什么

DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型,旨在实现“用图思考”的能力。该模型通过端到端的强化学习训练,使模型能够在推理过程中动态调用图像信息,增强对细节的感知与理解,从而提升多模态推理能力。


🚀 怎么使用?

用户可以通过以下方式使用 DeepEyes:

  1. 访问在线演示平台通过官方提供的在线 DEMO 页面,体验模型的多模态推理能力。

  2. 调用 API 接口开发者可以申请 API 调用权限,将 DeepEyes 集成到自己的应用中。

  3. 本地部署对于有数据安全需求的企业或机构,可以选择将模型私有化部署。


✨ 主要功能

  • 用图思考模型能够在推理过程中动态调用图像信息,增强对细节的感知与理解。

  • 视觉搜索在高分辨率图像中快速定位小物体或模糊区域,提升搜索准确率。

  • 幻觉缓解通过聚焦图像细节,减少模型在生成回答时可能出现的幻觉现象,提升回答的准确性和可靠性。

  • 多模态推理实现视觉和文本推理之间的无缝融合,提升模型在复杂任务中的推理能力。

  • 动态工具调用模型能自主决定何时调用图像工具,如裁剪、缩放等,无需外部工具支持,实现更高效、更准确的推理。


⚙️ 技术原理

  • 端到端强化学习DeepEyes 使用端到端的强化学习方法训练模型,无需冷启动监督微调(SFT),基于奖励信号直接优化模型的行为。

  • 交错多模态思维链(iMCoT)引入交错多模态思维链,支持模型在推理过程中动态地交替使用视觉和文本信息。

  • 工具使用导向的数据选择训练数据经过精心筛选,确保样本有效促进模型的工具调用能力,提升模型的泛化能力。


🛠 应用场景

场景描述
教育与科研辅助学生和研究人员进行图文结合的学习与研究,提高理解和分析能力。
医疗影像分析在医学图像中定位病变区域,辅助医生进行诊断和治疗方案制定。
智能制造在生产线上实时监控产品质量,及时发现并纠正缺陷,提高生产效率。
安全监控在监控视频中快速识别异常行为或事件,提升安全防范能力。
多媒体内容创作辅助创作者进行图文内容的生成与编辑,提高创作效率和内容质量。

🔗 项目地址


// 04 常见 问题

DeepEyes 是什么?
DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型,旨在实现“用图思考”的能力。该模型 […]
DeepEyes 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、industry-education、industry-medical、多模态大模型、视觉搜索 等标签。
DeepEyes 是否提供可用入口?
当前页面暂未记录官网或下载入口,建议以页面说明和后续维护更新为准。
DeepEyes 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部