从"看图说话"到"动手干活"：VLA模型如何让机器人拥有"通用智能"？

于 2025-10-26 由 Greyson 发布

文章来源：
https://arxiv.org/abs/2509.19012

文献速读

一、基本信息

标题：Pure Vision Language Action (VLA) Models: A Comprehensive Survey
作者：Dapeng Zhang, Jing Sun, Chenghui Hu*, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen†, and Qingguo Zhou†
关键词：Vision Language Action, Vision Language Model, Robotics, Embodied AI

二、文章概述

本文系统综述了视觉-语言-动作（VLA）模型的研究进展，将其定义为从传统策略控制向通用机器人技术的范式转变。文章提出了VLA方法的分类体系，包括自回归、扩散、强化学习、混合及专用方法，并分析了各类方法的动机、核心策略与实现细节。此外，还介绍了VLA研究的基础数据集、基准测试与仿真平台，最后探讨了当前挑战与未来方向，为VLA模型及通用机器人技术的发展提供了全面参考。

三、研究背景

传统机器人系统依赖预编程指令或特定任务策略，缺乏与人类及动态环境的有效交互。近年来，大语言模型（LLMs）和视觉-语言模型（VLMs）的发展为机器人操作提供了更灵活的语义理解能力，但现有研究多聚焦于基础模型或传统机器人方法，缺乏对纯VLA方法的系统性梳理。此外，VLA模型在数据稀缺、跨模态融合、实时推理及安全部署等方面仍面临挑战。因此，本文旨在通过综合分析300余篇最新研究，构建VLA方法的分类框架，总结现状并展望未来方向，以推动通用具身智能的发展。

四、研究思路

提出研究问题：VLA模型如何统一视觉、语言与动作生成，其核心范式与挑战是什么？
构建研究框架：将VLA方法分为自回归、扩散、强化学习、混合及专用方法，结合应用场景与技术细节展开分析。
选择研究方法：采用文献综述法，系统梳理近三年VLA领域的关键研究，重点分析模型架构、数据集、仿真平台及评估指标。
分析数据：整合现有数据集（如Open X-Embodiment）、仿真工具（如Isaac Gym）及基准测试，评估不同方法的泛化性与效率。
得出结论：总结VLA模型的优势与局限，提出数据多样性、跨模态融合、实时推理及安全部署等未来研究方向。

五、研究结果

VLA模型通过统一框架实现视觉-语言-动作的端到端对齐，显著提升机器人在动态环境中的任务适应性。
自回归方法擅长长序列推理（如RT-2、PaLM-E），扩散模型优化动作平滑性（如Diffusion Policy），强化学习增强动态环境适应性（如SafeVLA）。
混合架构（如HybridVLA）结合多范式优势，平衡推理精度与动作生成质量，但计算成本较高。
现有数据集（如BridgeData、OXE）和仿真平台（如Habitat、CARLA）支撑了VLA模型的训练，但真实世界数据稀缺与仿真-现实差距仍是主要瓶颈。

六、研究结论、不足与展望

研究结论：VLA模型通过融合视觉-语言理解与动作生成，推动机器人从单一任务向通用智能发展。现有方法在跨模态对齐、复杂任务规划等方面取得进展，但数据稀缺、实时性不足及安全风险限制了实际部署。
研究的创新性：首次提出VLA方法的系统性分类框架，整合自回归、扩散、强化学习等范式；强调数据集与仿真平台对VLA发展的支撑作用；深入分析了VLA在机器人操作、自动驾驶等领域的应用潜力。
研究的不足之处：未涵盖VLA模型在多机器人协作中的应用；对真实世界部署中的伦理与安全问题讨论较浅；部分分类（如专用方法）的边界定义不够明确，可能导致交叉方法归类模糊。
研究展望：未来需构建更大规模、多模态的真实世界数据集；探索高效推理机制（如模型压缩、并行解码）以提升实时性；加强安全约束与人类反馈融合，确保VLA在开放环境中的可靠性；推动VLA与具身智能的深度结合，实现通用机器人系统。
研究意义：本文为VLA领域提供了首个全面综述，明确了研究脉络与核心挑战，为后续模型设计、数据集构建及应用落地提供了理论指导，助力推动通用人工智能在机器人领域的突破。

引言

痛点切入：传统机器人只会"重复劳动"？工厂机械臂、物流分拣机…这些"单项冠军"遇到新任务就"傻眼"。

they provide only cursory examinations of robotic models or concentrate primarily on foundational models

他们只提供机器人模型的粗略检查或主要集中在基础模型

转机出现：当视觉语言模型（VLM）不再满足于"被动描述"，而是化身"主动执行者"——Vision Language Action（VLA）模型横空出世！
核心价值：这篇顶刊综述（arXiv:2509.19012）系统梳理了VLA的技术脉络，揭秘机器人如何通过"视觉-语言-动作"闭环，实现从"专用工具"到"通用助手"的跨越。

VLA：让机器人"能看懂、会理解、可行动"

Modern robots can “see” using computer vision models, “understand” language through large language models, and “act” via controllers or learned policies;

现代机器人可以使用计算机视觉模型“看”，通过大型语言模型“理解”语言，并通过控制器或学习策略“行动”;

传统机器人的瓶颈

依赖预编程指令，只能在固定场景完成单一任务（如工厂焊接）。
无法理解人类语言指令，更不能应对动态环境（如家庭中移动的宠物、突发的障碍物）。

VLA的突破：三模态融合

视觉（Vision）："看见"环境（摄像头、传感器输入）。
语言（Language）："理解"指令（如"把红色杯子放到桌上"）。
动作（Action）："执行"决策（规划机械臂轨迹、调整力度）。
关键优势：端到端打通"感知-推理-控制"，无需人工拆解任务！

举个例子
当你说"倒一杯水"，VLA模型会：
- ① 视觉识别：定位水杯、水龙头、水面高度；
- ② 语言解析：理解"倒"的动作逻辑（拿起杯子→对准水龙头→控制水流→放回原位）；
- ③ 动作生成：输出机械臂关节角度、力度等连续控制信号。

技术解密：VLA有哪些"门派"？

We classify VLA approaches into 4 categories: autoregression-based, diffusion-based, reinforcement-based, hybrid, and specialized methods, and provide a detailed analysis of their motivations, core strate- gies, and mechanisms.

我们将VLA方法分为4类:基于自回归的、基于扩散的、基于强化的、混合的和专门的方法，并详细分析了它们的动机、核心策略和机制。

方法类型	核心思路	代表模型	优势
自回归模型	像"写文章"一样逐帧生成动作序列	RT-2、OpenVLA	逻辑连贯，适合长流程任务（如组装）
扩散模型	通过"去噪"生成多样化动作轨迹	Diffusion Policy	鲁棒性强，抗干扰（如手抖、光照变化）
强化学习模型	从"试错"中学习最优动作（结合人类反馈）	SafeVLA、iRe-VLA	适应动态环境，持续优化策略

通俗类比：

自回归模型 = 照着食谱一步步做菜；
扩散模型 = 面对多种食材，随机尝试组合直到做出美味；
强化学习模型 = 新手学开车，教练（反馈）越骂开得越好。

下图3:视觉语言动作分类:从基于自回归、基于扩散、到基于强化和混合/专用方法，VLA中的多范式进展和实际适应。分类法是按照时间顺序组织的。

VLA的"练兵场"：数据、仿真与硬件

数据从哪来？

真实世界数据集：如Open X-Embodiment（16万+任务，覆盖10种机器人）、BridgeData（71个场景，从实验室到家庭）。
仿真数据：通过模拟器（如Isaac Gym、CARLA）生成海量标注数据，低成本解决"数据稀缺"问题。

仿真平台：机器人的"元宇宙"

THOR/Habitat：模拟家庭环境，训练导航、抓取能力；

CARLA：自动驾驶专用，生成雨天、堵车等极端场景数据。

硬件载体

机械臂（Franka Emika）、人形机器人（Tesla Bot）、移动机器人（波士顿动力Atlas），甚至无人机、自动驾驶汽车！

未来已来？VLA的应用与挑战

落地场景

家庭服务：做饭、打扫、照顾老人（如RoboNurse-VLA完成高精度抓取）；
工业制造：柔性生产线（同一机器人焊接、装配、质检）；
危险作业：核泄漏处理、深海探测（代替人类进入极端环境）。

当前瓶颈（论文重点强调）

数据成本高：真实世界采集1小时机器人数据需上万元；
实时性不足：复杂任务推理耗时（如自动驾驶决策需毫秒级响应）；
安全性风险：动作失误可能导致设备损坏或人员受伤（如抓取易碎品用力过猛）。

未来方向

更高效的模型：压缩参数（如TinyVLA仅需5%可训练参数）、加速推理（FAST动作 tokenization）；
更安全的交互：引入"人类反馈强化学习（RLHF）"，避免危险动作；
更通用的硬件适配：同一VLA模型适配机械臂、无人机、人形机器人等多种载体。

VLA离我们还有多远？

短期（3-5年）：在结构化场景落地（如餐厅送餐机器人、工厂协作机器人）；
长期（10年+）：进入家庭，成为像"贾维斯"一样的全能助手。
论文价值：这篇综述整合了300+最新研究，为开发者提供"技术地图"，加速VLA从实验室走向产业化。

最后，你最想让VLA机器人帮你做什么？评论区聊聊～

扫描二维码，在手机上阅读

分类：算法
标签：无标签

0条评论

发表评论