CURRENTVIEWING
CHAI 大模型 / 对话
VIEWS398
▸ AI 大模型 / 对话 · SITES

SmolVLA SITES

SmolVLA ——一款革命性的轻量级视觉-语言-行动(VLA)模型,仅 450M 参数,适合常规硬件训练与部署。

可用性
入口可访问
已记录官网或下载入口
信息核实
已验证
3 条来源,含 NavXD 收录
类型
网页工具
Web · en
收录 2025年6月10日更新 2025年6月10日浏览 398

// 01 SmolVLA 是什么

一、什么是 SmolVLA?

SmolVLA是一个高度紧凑、开源的轻量级视觉-语言-行动(VLA)模型,由 Hugging Face 、中山大学深圳校区及多个高校科研团队联合发布。它整合视觉、语言、传感输入,并通过 transformer-based 结构直接输出动作序列,专为机器人控制、人机交互场景设计。

与参数高达数十亿的传统 VLA 模型相比,SmolVLA 拥有仅 450M 参数,支持在单 GPU、消费级 GPU,甚至 CPU 上训练与部署,同时在模拟和真实世界任务上表现不输大型模型


二、SmolVLA 有何优势?

  1. 轻量级视觉-语言-行动模型

    • 参数体量仅为主流 VLA 的十分之一

    • 支持消费级硬件训练,降低进入门槛

  2. 性能媲美大型模型

    • 在 LIBERO、Meta-World 等场景表现超越多种大型 baseline

    • 模拟与真实机器人任务均具竞争力

  3. 异步推理机制

    • 采用异步推理,在 perception 与行动之间解耦,提升响应速度约 30%,任务吞吐率提升 2×

  4. 数据可持续训练与社区开放

    • 使用社区公开 robotics 数据,支持全面迁移学习

    • 完整训练代码、模型与数据均公开,便于复现与改进


三、如何使用 SmolVLA?

A. 安装与配置

  1. 克隆官方仓库:

    git clone https://github.com/huggingface/lerobot.git cd lerobot pip install -e ".[smolvla]"
  2. 安装依赖:包括 PyTorch、CUDA 与相关推理库

B. 使用预训练模型

  1. 下载 SmolVLA-450M 预训练权重:

    from lerobot.common.policies.smolvla.modeling_smolvla import SmolVLAPolicy policy = SmolVLAPolicy.from_pretrained("lerobot/smolvla_base")
  2. 使用 SO-100、SO-101 等评估模板运行测试推理。

C. 微调(Fine-tune)

  1. 在指定数据集上微调预训练模型:

    python lerobot/scripts/train.py \ --policy.path=lerobot/smolvla_base \ --dataset.repo_id=lerobot/svla_so100_stacking \ --batch_size=64 \ --steps=20000

D. 从头训练

  1. 构建新模型并训练:

    python lerobot/scripts/train.py \ --policy.type=smolvla \ --dataset.repo_id=danaaubakirova/svla_so100_task1_v3 \ --batch_size=64 \ --steps=200000
  2. 结合视觉-语言与行动 expert 模型构建端到端系统


四、技术原理深入解析

1. 视觉-语言-行动融合架构

  • SmolVLM-2:作为视觉语言主干网络,使用 SigLIP 编码视觉信息,并由 SmolLM2 解码指令

  • 行动 Expert:基于 flow-matching Transformer 设计,生成连续动作序列,使用交错的跨注意力与自注意力结构,高效感知并预测

2. 推理加速与视觉 token 减少

  • 丢弃部分视图 token,降低计算开销

  • 异步推理将 observation 与 action 处理分离,使机器人更具响应性

3. flow matching 训练目标

  • 引入噪声采样机制,将带噪动作序列映射至 ground-truth,通过条件 flow matching 实现精准连续控制

4. 轻量化训练设计

  • 保留大约一半 VLM 中间层用于特征提取

  • 使用少量视觉 token

  • 优化交叉结构设计,使模型在容量小但性能强


五、主要应用场景

  1. 家庭/实验室机器人控制

    • 控制拾取、计数、分类多物体动作任务

  2. 教育与教学机器人

    • 用于教学展示,如机器人搬运、行为演示

  3. 低成本机器人系统开发

    • 小型臂(SO-100)、开源平台控制应用

  4. 科研工具与效率提升

    • 支持模型验证、结构实验与即时推理

  5. DIY Maker 项目

    • 使用消费级硬件实现智能机器人任务

  6. 工业/仓储环境雏形演示

    • 搭建拾取、分类、执行动作初步样例


// 04 常见 问题

SmolVLA 是什么?
SmolVLA ——一款革命性的轻量级视觉-语言-行动(VLA)模型,仅 450M 参数,适合常规硬件训练与部署。
SmolVLA 适合哪些场景?
可优先参考它所属的 AI 大模型 / 对话 分类,以及 tech-cv、tech-nlp 等标签。
SmolVLA 是否提供可用入口?
本页已记录官网或下载入口,可通过顶部主按钮访问。
SmolVLA 支持哪些平台?
当前记录为网页工具,通常可通过浏览器访问。

// 05 资料 来源

搭档工具 // workflow0 条
◇ ◇ ◇
"关系待挖掘"
暂无搭档工具数据
▸ 我来推荐

同频段 更多信号

查看 AI 大模型 / 对话 全部