LocateAnything 如何收费？

LocateAnything 的定价模式为：unknown。

AI 工具雷达// NavXD.v4实时

当前浏览中

频道AI 大模型

浏览量16

▸ AI 大模型 · 应用工具

LocateAnything 应用工具

NVIDIA 3B 视觉-语言定位模型，统一目标检测/GUI 定位/文档理解/OCR，H100 上 12.7 框/秒，多项 SOTA。

可用性

入口可访问

已记录官网或下载入口

信息核实

已验证

3 条来源，含 NavXD 收录

类型

网页工具

Web · en

访问官网收藏 0

收录 2026年7月1日更新 2026年7月1日浏览 16

// 01 LocateAnything 是什么

LocateAnything 界面截图 — LocateAnything · 界面预览

快速结论

LocateAnything（NVIDIA 视觉定位模型）是 NVIDIA 推出的 3B 参数视觉-语言模型，在统一框架下做多种定位任务：通用目标检测、GUI 元素定位、文档理解、OCR 定位。截至 2026-07，权重在 HuggingFace（nvidia/LocateAnything-3B）开放，架构为 Moon-ViT 视觉编码器 + Qwen2.5 语言解码器。

适合谁优先使用

做机器人 / 具身智能（embodied AI）的团队
需要 GUI 自动化（定位界面元素）的 Agent 开发者
文档解析 / 版面理解 / OCR 定位场景
需要高精度视觉定位的研究者

核心能力拆解

统一定位

一个 VLM 同时做目标检测 / GUI 定位 / 文档理解 / OCR 定位。

并行框解码（PBD）

把每个框当原子单元、同时预测四个坐标（x1,y1,x2,y2），几何一致且避免逐 token 解码瓶颈。

高吞吐

H100 上 12.7 框/秒，比 Rex-Omni 快 2.5×、比 Qwen3-VL 快 10×。

SOTA 表现

ScreenSpot-Pro GUI 定位 60.3 F1、DocLayNet 文档理解 76.8 F1；训练用 1200 万图、7.85 亿框、1.38 亿语言查询。

和同类工具怎么选

需求	优先考虑	判断标准
统一高精度视觉定位 / GUI / 文档	LocateAnything	一模型多任务 + 快
纯通用多模态对话	Qwen-VL / GPT-4o 等	LocateAnything 专定位
端侧轻量检测	小型检测模型	3B 需一定算力

国内平替：通义 Qwen-VL 系列、书生等国产多模态可做部分定位；专用统一定位方向 LocateAnything 领先。

限制与避坑

3B 模型推理需 GPU，端侧部署有门槛
专注"定位"任务，不是通用对话模型
GitHub 在 NVlabs/Eagle 的 Embodied 目录下，接入需一定工程
效果以官方论文与实测为准

NavXD 使用建议

要做具身智能、GUI 自动化 Agent、或高精度文档 / 界面定位，LocateAnything 的"统一 + 快 + 开源"很值得用；通用多模态对话用别的。HuggingFace（需梯子）+ GitHub 可获取权重与代码，本地部署后国内可用。

常见问题

LocateAnything 开源吗？ 是，权重在 HuggingFace（nvidia/LocateAnything-3B），具体许可以官方为准（待核实）。

LocateAnything 能做什么？ 统一的视觉定位：目标检测、GUI 元素定位、文档理解、OCR 定位。

LocateAnything 多大？ 3B 参数，Moon-ViT + Qwen2.5 架构。

赞助

// 02 核心功能

核心定位NVIDIA 3B 视觉-语言定位模型，统一目标检测/GUI 定位/文档理解/OCR，H100 上 12.7 框/秒，多项 SOTA。
分类索引当前归档在 AI 大模型 / 对话，方便和同频工具横向比较。
能力标签关联标签包括多模态、NVIDIA、GUI定位、目标检测、视觉定位。
使用入口已记录可访问入口，可通过本页主按钮跳转。

// 03 使用场景

快速判断是否适合当前任务结合 AI 大模型 / 对话定位和多模态、NVIDIA、GUI定位标签，先判断它是否匹配你的工作流。
横向比较同类工具从相同分类和标签继续探索替代工具，减少只看单个产品带来的选择偏差。
沉淀工具选型资料把官网入口、平台、版本和 NavXD 标签合并成一页，适合做选型记录或团队分享。

// 04 常见问题

LocateAnything 是什么？

NVIDIA 3B 视觉-语言定位模型，统一目标检测/GUI 定位/文档理解/OCR，H100 上 12.7 框/秒，多项 SOTA。

LocateAnything 适合哪些场景？

可优先参考它所属的 AI 大模型 / 对话分类，以及多模态、NVIDIA、GUI定位、目标检测、视觉定位等标签。

LocateAnything 是否提供可用入口？

本页已记录官网或下载入口，可通过顶部主按钮访问。

LocateAnything 支持哪些平台？

当前记录为网页工具，通常可通过浏览器访问。

// 05 资料来源

NavXD 收...https://navxd.com/navigation/sites/7027.html 官网或下载入口https://research.nvidia.com/labs/lpr/locate-anything/分类与标签体系AI 大模型 / 对话、多模态、NVIDIA、GUI定位、目标检测

Wan-Streamer

Wan 家族的端到端实时音视频交互大模型，最短 160ms 流式 / 25fps，做亚秒级双向数字人对话。

AI 视频AI 工具

Gemma 4 12B

Gemma 4 12B 是谷歌开源约 12B 统一多模态大模型，支持文本/图像/音频/视频输入、256K 上下文、140+ 语言，Apache 2.0 可商用，可本地部署。

AI 大模型 / 对话AI 工具

JoyAI-Echo

JoyAI-Echo 是京东开源的长音视频生成模型，生成分钟级多镜头、音画同步故事视频，支持对话式实时编辑；仅限学术非商用，需高端 GPU。