原力灵机提出GeoVLA：让机器人看懂三维世界，打破2D视觉枷锁

本文最后更新于158 天前，其中的信息可能已经过时，如有错误请发送邮件到big_fw@foxmail.com

在具身智能的浪潮中，VLA模型被视为通往通用机器人的快车道。

然而，随着研究深入到非结构化环境，现有VLA模型面临着一个严重的维度缺陷：空间失明。

目前，大多数VLA模型（比如 OpenVLA、RT-2、Pi0、Pi05）单纯依赖2D RGB图像作为视觉输入，导致模型眼中的世界“纸片化”，严重缺乏深度信息和几何先验；由此带来的后果是：

Dexmal 原力灵机作者团队提出一种全新的VLA框架GeoVLA，它在保留现有视觉-语言模型（VLM）的预训练能力的同时，采用了一种优雅的双流架构（Dual-path Architecture）。

具体而言，GeoVLA在保留VLM强大的语义理解能力的同时，引入专用的点云嵌入网络 PEN 和空间感知动作专家3DAE，直接利用深度图生成的点云数据，赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得SOTA，更在真实世界的鲁棒性测试中，特别是在视角改变和物体尺度变化的极端条件下，展现出惊人的适应力。

常见的做法试图让一个VLM既懂语义又懂几何，这往往顾此失彼；GeoVLA的核心逻辑是选择把任务解耦：

让 VLM 负责“看懂是什么”，让点云网络负责“看清在哪里”。

GeoVLA 是一个全新的端到端框架，其流程包含三个关键组件的协同工作：

原始深度图往往包含大量噪声，且数据稀疏，直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计，采用双路径架构来提取干净且紧凑的几何特征：

空间锚点（Spatial Anchor）设计是 PEN 的一大亮点。

作者团队并没有简单地对所有点云特征进行平均池化，而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。

这种以“手”为中心的视角设计，让模型能够显式地建模“手”与“物体”之间的几何关系，大幅提升操作精度。

特征提取只是第一步，如何有效融合RGB的语义信息和点云的几何信息，实现1+1＞2的效果，是多模态研究当中的难点。

作者团队在动作生成端采用基于扩散 Transformer （DiTs）的架构，并创新性地引入混合专家（MoE）机制。

实验结果显示，GeoVLA在仿真和真机实验中均展现出对传统2D VLA模型的压倒性优势，证明显式3D表征在复杂操作中的不可替代性。

在LIBERO基准测试中，GeoVLA超越所有任务套件。

在最具挑战性的 LIBERO-90（长程多任务）中，GeoVLA达到97.7%的成功率，超越之前的SOTA方法OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。

在物理仿真更为逼真的ManiSkill2中，GeoVLA优势更加明显，平均成功率达到 77%，大幅领先Dita (66%) 和CogACT (69%)。

特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中，GeoVLA 凭借点云带来的几何理解，保持了极高的操作精度。

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试；实验被分为“基础任务”和“3D 感知任务”。

在域内任务中，GeoVLA 在基础任务上平均成功率 95.0%，在 3D 感知任务上为 77.5%，总体平均 86.3%，大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。

特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中，GeoVLA 表现出更好的鲁棒性。

更令人印象深刻的是 GeoVLA 在分布外（OOD）场景下的鲁棒性，这也是 GeoVLA 最核心的突破点：

△（左）：投篮任务变体的评测结果；（右）：套娃任务变体的评测结果

参考文献

• Chengmeng Li, Junjie Wen, Yan Peng, Yaxin Peng, Feifei Feng, and Yichen Zhu. Pointvla: Injecting the 3d world into vision-language-action models. arXiv preprint arXiv:2503.07511, 2025.• Delin Qu, Haoming Song, Qizhi Chen, Yuanqi Yao, Xinyi Ye, Yan Ding, Zhigang Wang, JiaYuan Gu, Bin Zhao,Dong Wang, and Xuelong Li. Spatialvla: Exploring spatial representations for visual-language-action model. In Robotics: Science and Systems (RSS), 2025.• Zhi Hou, Tianyi Zhang, Yuwen Xiong, Haonan Duan, Hengjun Pu, Ronglei Tong, Chengyang Zhao, Xizhou Zhu,Yu Qiao, Jifeng Dai, and Yuntao Chen. Dita: Scaling diffusion transformer for generalist vision-language-action policy. arXiv preprint arXiv:2503.19757, 2025.• {Moo Jin} Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, and Chelsea Finn. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:2406.09246• Li Qixiu, Liang Yaobo, Wang Zeyu, Luo Lin, Chen Xi, Liao Mozheng, Wei Fangyun, Deng Yu, Xu Sicheng, Zhang Yizhong, and others. CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation. arXiv preprint arXiv:2411.19650.

论文名称：GeoVLA: Empowering 3D Representation in Vision-Language-Action Models论文链接：https://arxiv.org/html/2508.09071v2

项目主页：https://linsun449.github.io/GeoVLA/

版权声明：

本博客部分内容为转载文章，旨在分享有价值的信息，版权归原作者所有。

转载仅为个人学习与交流目的，不对文章观点负责，亦不用于任何商业用途。

如涉及版权问题，请联系本人删除。

推荐文章