OmniVLA概览

一、是什么（What is it）

一个全模态视觉-语言-动作（VLA）导航大模型。
基于 OpenVLA-7B（Llama2-7B + SigLIP + DINOv2）的统一策略模型。
能同时处理二维姿态、目标图像、自然语言等多种导航目标模态。

二、它能干什么

不需要全局地图，也不做 SLAM，不规划全局路径，通过用语言描述，gps目标位置，目标位置的图像这三者中的任意一个或组合，就能实现机器人的导航。

1. Language-conditioned navigation 基于语言指令的导航

没有 goal pose、没有目标图像，通过语言进行描述

前往左侧白色墙后面的深绿色沙发

2. Multi-modal conditioned navigation (Language & 2D pose)多模态条件导航（语言 + 2D 位姿）

目标位置（goal pose）是通过 GPS/2D 坐标给机器人的，画面里看不到

沿着棕色小路的中间行进

3. 2D goal pose-conditioned navigation 基于 2D 目标位姿的导航

没有语言，没有目标图像，也不需要语义理解，只有目标位置（goal pose）。

4. Egocentric goal image-conditioned navigation 基于第一视角目标图像的导航

目标由一张“目标图像”提供，机器人要走到“看起来像目标图像”的地方。

与传统方法对比：

传统机器人	大模型导航 (VLM/VLA)
必须定位（SLAM）	❌ 不需要
必须建图	❌ 不需要
必须规划全局路径	❌ 不需要
依赖几何	✔ 依赖视觉语义与行为先验
显式建模	✔ 隐式学习世界规律
规则驱动	✔ 数据驱动

① 视觉模型（DINOv2 / SigLIP）懂世界语义和 SLAM 不同，视觉模型能“理解”场景。

② 大语言模型（LLM）提供世界知识与推理结构比如“经过立柱后到入口”，模型能理解“after passing”。

③ 大规模跨平台机器人数据（9,500 小时）提供行为分布机器人在各种真实场景中“看过 / 走过 / 绕过”。

这让模型具备了：世界理解 + 行为策略 + 常识导航能力

三、创新点

将三类目标模态及其任意组合统一到一个模型中训练。
在 9500+ 小时、10 平台的大规模真实导航数据上混训。
引入模态 Dropout：随机屏蔽不同模态，提升鲁棒性与泛化能力。
输出多步动作序列。
展现基础模型特性：可快速适应新模态（如卫星图）、可跨机器人迁移。

四、解决了什么问题（What problems it solves）

打破单模态导航的限制（过去模型无法混合训练不同目标表达）。
统一多数据集训练，让 pose、图像、语言导航数据第一次可整合使用。
显著提升未知环境与 OOD 指令下的泛化能力。
提供一个可跨平台、跨任务的通用导航策略

五、还有什么不足（Limitations）

语言导航性能仍有限，需要更大规模、精细整理的语言数据。
轻量版 OmniVLA-edge 的语言能力不足，说明大模型视觉-语言先验不可或缺。
合成标签数据存在噪声，可能成为进一步提升的瓶颈。
仍需改进在“复杂长指令”“多步骤任务”中的理解和决策质量。

六、完整系统架构总览

6.1 总览

6.2 系统组成结构

模块详细清单：

分类	模块编号	模块名称	功能说明
核心模型	1	Vision Backbone	SigLIP + DINOv2 视觉双编码器，提取图像特征
	2	Vision Projector	MLP，将视觉特征投影到 LLM 维度（1152→4096）
	3	Proprio Projector	MLP，将 2D 目标位姿（x,y,θ）投影到 LLM 维度（4→4096）
	4	Tokenizer + Embedding	文本分词，生成语言 token
	5	LLM（Llama-2 7B）	70 亿参数语言模型，作为核心推理引擎
	6	Action Head	MLP / ResNet，输出 N 步动作序列
辅助模块	7	MBRA	遮蔽重标注模块，用于训练数据动作修正
	8	FiLM	语言-视觉调制融合模块（可选，默认关闭）
数据处理	9	数据集加载器	支持 GNM、LeLaN、FrodoBots、BDD、CAST 等五大数据集
	10	图像预处理	Resize、归一化、通道调整
	11	数据增强	图像扰动、裁剪、畸变（训练时）
	12	动作归一化	BOUNDS_Q99(95) 方法，将动作压缩到 [-1,1]
训练模块	13	损失函数	L1 动作损失 + 语言模型损失
	14	优化器	AdamW（lr=1e-4）
	15	学习率调度	Warmup + 线性衰减（10 万步）
	16	LoRA	Rank=32，高效微调
	17	分布式训练	DDP，多卡并行训练
推理模块	18	传感器接口	摄像头、GPS、IMU 输入
	19	图像预处理（推理）	GPU 加速，支持 BF16 / FP16
	20	安全模块	碰撞检测、速度限制、安全半径
	21	机器人控制	速度/角速度命令发送、底盘控制

6.3 数据流

(1) 训练

(2) 推理

机器人的平台概览