当前浏览中
频道AI 大模型
浏览量16
▸ AI 大模型 · 应用工具

LocateAnything 应用工具

NVIDIA 3B 视觉-语言定位模型,统一目标检测/GUI 定位/文档理解/OCR,H100 上 12.7 框/秒,多项 SOTA。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2026年7月1日更新 2026年7月1日浏览 16

// 01 LocateAnything 是什么

LocateAnything 界面截图
LocateAnything · 界面预览

快速结论

LocateAnything(NVIDIA 视觉定位模型)是 NVIDIA 推出的 3B 参数视觉-语言模型,在统一框架下做多种定位任务:通用目标检测、GUI 元素定位、文档理解、OCR 定位。截至 2026-07,权重在 HuggingFace(nvidia/LocateAnything-3B)开放,架构为 Moon-ViT 视觉编码器 + Qwen2.5 语言解码器。

适合谁优先使用

  • 做机器人 / 具身智能(embodied AI)的团队
  • 需要 GUI 自动化(定位界面元素)的 Agent 开发者
  • 文档解析 / 版面理解 / OCR 定位场景
  • 需要高精度视觉定位的研究者

核心能力拆解

统一定位

一个 VLM 同时做目标检测 / GUI 定位 / 文档理解 / OCR 定位。

并行框解码(PBD)

把每个框当原子单元、同时预测四个坐标(x1,y1,x2,y2),几何一致且避免逐 token 解码瓶颈。

高吞吐

H100 上 12.7 框/秒,比 Rex-Omni 快 2.5×、比 Qwen3-VL 快 10×。

SOTA 表现

ScreenSpot-Pro GUI 定位 60.3 F1、DocLayNet 文档理解 76.8 F1;训练用 1200 万图、7.85 亿框、1.38 亿语言查询。

和同类工具怎么选

需求优先考虑判断标准
统一高精度视觉定位 / GUI / 文档LocateAnything一模型多任务 + 快
纯通用多模态对话Qwen-VL / GPT-4o 等LocateAnything 专定位
端侧轻量检测小型检测模型3B 需一定算力

国内平替:通义 Qwen-VL 系列、书生等国产多模态可做部分定位;专用统一定位方向 LocateAnything 领先。

限制与避坑

  • 3B 模型推理需 GPU,端侧部署有门槛
  • 专注"定位"任务,不是通用对话模型
  • GitHub 在 NVlabs/Eagle 的 Embodied 目录下,接入需一定工程
  • 效果以官方论文与实测为准

NavXD 使用建议

要做具身智能、GUI 自动化 Agent、或高精度文档 / 界面定位,LocateAnything 的"统一 + 快 + 开源"很值得用;通用多模态对话用别的。HuggingFace(需梯子)+ GitHub 可获取权重与代码,本地部署后国内可用。

常见问题

LocateAnything 开源吗? 是,权重在 HuggingFace(nvidia/LocateAnything-3B),具体许可以官方为准(待核实)。

LocateAnything 能做什么? 统一的视觉定位:目标检测、GUI 元素定位、文档理解、OCR 定位。

LocateAnything 多大? 3B 参数,Moon-ViT + Qwen2.5 架构。

赞助广告

// 02 核心 功能

  • 核心定位NVIDIA 3B 视觉-语言定位模型,统一目标检测/GUI 定位/文档理解/OCR,H100 上 12.7 框/秒,多项 SOTA。
  • 分类索引当前归档在 AI 大模型 / 对话,方便和同频工具横向比较。
  • 能力标签关联标签包括 多模态、NVIDIA、GUI定位、目标检测、视觉定位。
  • 使用入口已记录可访问入口,可通过本页主按钮跳转。

// 03 使用 场景

  • 快速判断是否适合当前任务结合 AI 大模型 / 对话 定位和 多模态、NVIDIA、GUI定位 标签,先判断它是否匹配你的工作流。
  • 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
  • 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。

// 04 常见 问题

LocateAnything 是什么?
NVIDIA 3B 视觉-语言定位模型,统一目标检测/GUI 定位/文档理解/OCR,H100 上 12.7 框/秒,多项 SOTA。
LocateAnything 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 多模态、NVIDIA、GUI定位、目标检测、视觉定位 等标签。
LocateAnything 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
LocateAnything 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

同频段 更多信号

查看 AI 大模型 全部