// 01 LocateAnything 是什么
快速结论
LocateAnything(NVIDIA 视觉定位模型)是 NVIDIA 推出的 3B 参数视觉-语言模型,在统一框架下做多种定位任务:通用目标检测、GUI 元素定位、文档理解、OCR 定位。截至 2026-07,权重在 HuggingFace(nvidia/LocateAnything-3B)开放,架构为 Moon-ViT 视觉编码器 + Qwen2.5 语言解码器。
适合谁优先使用
- 做机器人 / 具身智能(embodied AI)的团队
- 需要 GUI 自动化(定位界面元素)的 Agent 开发者
- 文档解析 / 版面理解 / OCR 定位场景
- 需要高精度视觉定位的研究者
核心能力拆解
统一定位
一个 VLM 同时做目标检测 / GUI 定位 / 文档理解 / OCR 定位。
并行框解码(PBD)
把每个框当原子单元、同时预测四个坐标(x1,y1,x2,y2),几何一致且避免逐 token 解码瓶颈。
高吞吐
H100 上 12.7 框/秒,比 Rex-Omni 快 2.5×、比 Qwen3-VL 快 10×。
SOTA 表现
ScreenSpot-Pro GUI 定位 60.3 F1、DocLayNet 文档理解 76.8 F1;训练用 1200 万图、7.85 亿框、1.38 亿语言查询。
和同类工具怎么选
| 需求 | 优先考虑 | 判断标准 |
|---|---|---|
| 统一高精度视觉定位 / GUI / 文档 | LocateAnything | 一模型多任务 + 快 |
| 纯通用多模态对话 | Qwen-VL / GPT-4o 等 | LocateAnything 专定位 |
| 端侧轻量检测 | 小型检测模型 | 3B 需一定算力 |
国内平替:通义 Qwen-VL 系列、书生等国产多模态可做部分定位;专用统一定位方向 LocateAnything 领先。
限制与避坑
- 3B 模型推理需 GPU,端侧部署有门槛
- 专注"定位"任务,不是通用对话模型
- GitHub 在 NVlabs/Eagle 的 Embodied 目录下,接入需一定工程
- 效果以官方论文与实测为准
NavXD 使用建议
要做具身智能、GUI 自动化 Agent、或高精度文档 / 界面定位,LocateAnything 的"统一 + 快 + 开源"很值得用;通用多模态对话用别的。HuggingFace(需梯子)+ GitHub 可获取权重与代码,本地部署后国内可用。
常见问题
LocateAnything 开源吗? 是,权重在 HuggingFace(nvidia/LocateAnything-3B),具体许可以官方为准(待核实)。
LocateAnything 能做什么? 统一的视觉定位:目标检测、GUI 元素定位、文档理解、OCR 定位。
LocateAnything 多大? 3B 参数,Moon-ViT + Qwen2.5 架构。

// 02 核心 功能
- 核心定位NVIDIA 3B 视觉-语言定位模型,统一目标检测/GUI 定位/文档理解/OCR,H100 上 12.7 框/秒,多项 SOTA。
- 分类索引当前归档在 AI 大模型 / 对话,方便和同频工具横向比较。
- 能力标签关联标签包括 多模态、NVIDIA、GUI定位、目标检测、视觉定位。
- 使用入口已记录可访问入口,可通过本页主按钮跳转。
// 03 使用 场景
- 快速判断是否适合当前任务结合 AI 大模型 / 对话 定位和 多模态、NVIDIA、GUI定位 标签,先判断它是否匹配你的工作流。
- 横向比较同类工具从相同分类和标签继续探索替代工具,减少只看单个产品带来的选择偏差。
- 沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页,适合做选型记录或团队分享。
