CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS545
▸ AI 大模型 / 对话 · SITES

TrackVLA SITES

银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型(FSD)。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年6月3日更新 2025年6月3日浏览 545

// 01 TrackVLA 是什么

TrackVLA是由银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型(FSD)。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。无需提前建图,在复杂环境中自主导航、灵活避障,根据自然语言指令识别和跟踪目标对象 。


🚀 怎么使用?

用户可以通过以下方式使用 TrackVLA:

  1. 集成部署:将 TrackVLA 模型集成到机器人或智能设备中,实现自主导航和目标跟踪功能。

  2. 开发平台:利用官方提供的开发工具和文档,进行二次开发和定制化应用。

  3. 模拟训练:在仿真环境中对模型进行训练和测试,优化其在特定场景下的表现。


✨ 主要功能

  • 自然语言理解:理解用户的语言指令,实现语音控制。

  • 视觉目标识别:在复杂环境中准确识别并跟踪目标对象。

  • 自主导航:无需提前建图,实现自主路径规划和避障。

  • 多场景适应:具备零样本泛化能力,适应多种复杂环境。

  • 高效推理:在真实世界中以 10 FPS 的速度进行推理,保持高性能和稳定性 。


⚙️ 技术原理

TrackVLA 基于 Vision-Language-Action(VLA)架构,结合了以下技术:

  • 共享 LLM 主干网络:用于目标识别的语言建模头和用于轨迹规划的基于锚点的扩散模型。

  • EVT-Bench 数据集:构建了一个包含 170 万样本的具身视觉跟踪基准数据集,用于训练模型的识别和规划能力 。

  • 仿真训练:利用 Habitat 3.0 模拟器进行训练,增强模型在动态环境中的适应性 。


🛠 应用场景

场景应用示例
服务机器人家庭助理、导览机器人、安防巡逻等
工业自动化仓储物流、生产线巡检、设备维护等
医疗辅助医院导诊、药品配送、病房巡查等
教育娱乐教学机器人、互动玩具、虚拟现实等

🔗 项目地址


// 04 常见 问题

TrackVLA 是什么?
银河通用于 2025 年 6 月发布的全球首个产品级端到端具身导航大模型(FSD)。该模型具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力,能实现从视觉感知到动作输出的全链路闭环。
TrackVLA 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-nlp、industry-medical、industry-entertainm...、大模型 等标签。
TrackVLA 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
TrackVLA 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部