DeepEyes 由谁开发？

DeepEyes 由 Visual-Agent 开发。

DeepEyes 如何收费？

DeepEyes 的定价模式为：unknown。

在 NavXD 上如何查找类似工具？

可以通过本页的分类、标签和相关推荐继续浏览同类 AI 工具，也可以返回 AI 工具导航首页按场景筛选更多替代方案。

AI 工具雷达// NavXD.v2LIVE

CURRENTVIEWING

CHAI 大模型 / 对话

▸ AI 大模型 / 对话 · SITES

DeepEyes SITES

DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型，旨在实现“用图思考”的能力。该模型 […]

可用性

入口可访问

暂无外部入口

信息核实

待核验

2 条来源，含 NavXD 收录

类型

网页工具

Web · 中文/多语言

暂无入口收藏 0

收录 2025年6月3日更新 2025年6月3日浏览 547

// 01 DeepEyes 是什么

DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型，旨在实现“用图思考”的能力。该模型通过端到端的强化学习训练，使模型能够在推理过程中动态调用图像信息，增强对细节的感知与理解，从而提升多模态推理能力。

🚀 怎么使用？

用户可以通过以下方式使用 DeepEyes：

访问在线演示平台：通过官方提供的在线 DEMO 页面，体验模型的多模态推理能力。
调用 API 接口：开发者可以申请 API 调用权限，将 DeepEyes 集成到自己的应用中。
本地部署：对于有数据安全需求的企业或机构，可以选择将模型私有化部署。

✨ 主要功能

用图思考：模型能够在推理过程中动态调用图像信息，增强对细节的感知与理解。
视觉搜索：在高分辨率图像中快速定位小物体或模糊区域，提升搜索准确率。
幻觉缓解：通过聚焦图像细节，减少模型在生成回答时可能出现的幻觉现象，提升回答的准确性和可靠性。
多模态推理：实现视觉和文本推理之间的无缝融合，提升模型在复杂任务中的推理能力。
动态工具调用：模型能自主决定何时调用图像工具，如裁剪、缩放等，无需外部工具支持，实现更高效、更准确的推理。

⚙️ 技术原理

端到端强化学习：DeepEyes 使用端到端的强化学习方法训练模型，无需冷启动监督微调（SFT），基于奖励信号直接优化模型的行为。
交错多模态思维链（iMCoT）：引入交错多模态思维链，支持模型在推理过程中动态地交替使用视觉和文本信息。
工具使用导向的数据选择：训练数据经过精心筛选，确保样本有效促进模型的工具调用能力，提升模型的泛化能力。

🛠 应用场景

场景	描述
教育与科研	辅助学生和研究人员进行图文结合的学习与研究，提高理解和分析能力。
医疗影像分析	在医学图像中定位病变区域，辅助医生进行诊断和治疗方案制定。
智能制造	在生产线上实时监控产品质量，及时发现并纠正缺陷，提高生产效率。
安全监控	在监控视频中快速识别异常行为或事件，提升安全防范能力。
多媒体内容创作	辅助创作者进行图文内容的生成与编辑，提高创作效率和内容质量。

🔗 项目地址

GitHub 项目地址：https://github.com/Visual-Agent/DeepEyes
官方演示平台：https://ai-bot.cn/deepeyes/

// 04 常见问题

DeepEyes 是什么？

DeepEyes是一款由小红书与西安交通大学联合研发的多模态视觉-语言模型，旨在实现“用图思考”的能力。该模型 […]

DeepEyes 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及 tech-cv、industry-education、industry-medical、多模态大模型、视觉搜索等标签。

DeepEyes 是否提供可用入口？

当前页面暂未记录官网或下载入口，建议以页面说明和后续维护更新为准。

DeepEyes 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/5401.html 分类与标签体系AI 大模型 / 对话、tech-cv、industry-education、industry-medical、多模态大模型

Google Gemini Robotics

AI Agent / 智能体

80%

◇ ◇ ◇

"关系待挖掘"
暂无搭档工具数据

▸ 我来推荐

沁言学术是一款面向科研人员、高校师生与AI工具使用者打造的全流程 AI 学术研究平台，集 AI 文献检索、论文辅助写作、Chat PDF、知识库管理、学术润色、选题分析...

AI 写作AI 工具

Seedream 5.0

Seedream 5.0 是字节跳动推出的下一代 AI 图像生成与编辑模型，具备深层语义理解、原生 4K 输出、高精度文本渲染、参考图像融合与智能逻辑推理能力，支持复杂场...

AI 大模型 / 对话AI 工具

Seedance 2.0

Seedance 2.0 是基于先进 AI 视频生成模型的工具，支持从文本或静态图像生成多镜头叙事视频。该工具可自动维护视觉一致性、理解复杂场景并输出高质量 1080p...

AI 大模型 / 对话AI 工具

TTT‑Discover

TTT‑Discover 是一种测试时训练（Test‑Time Training）框架，应用在线强化学习于大语言模型在推理阶段持续训练以发现高奖励解决方案。该方法在数学优...

AI教育AI 工具

DeepEyes SITES

// 01 DeepEyes 是什么

🚀 怎么使用？

✨ 主要功能

⚙️ 技术原理

🛠 应用场景

🔗 项目地址

// 04 常见 问题

// 05 资料 来源

// 04 常见问题

// 05 资料来源