物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题
物理优先+VLA闭环进化:高德ABot-World世界模型,破解具身智能零样本泛化难题

随着高德公开全球首款开放环境全自主具身机器人“途途”,,其背后的数据及训练基座——ABot-World世界模型同步引发行业关注。该模型实现了具身智能底层训练范式完成了从“传统视觉渲染”向“可微分物理引擎”的根本性迁移,为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。

ABot-World 创新性采用双引擎架构,在物理合规性、动作可控性与零样本泛化三大核心维度上同步实现突破,成为全球唯一在此三项关键指标上全面达到 SOTA 水平的模型。

与传统仿真依赖“像素级逼真”不同,ABot-World 确立了“物理优先”原则:系统生成的每一帧不仅是视觉画面,更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。基于此架构,系统能够根据末端执行器位姿与夹爪状态,精确推演未来时空的动力学变化,实现高保真的“动作条件化”控制。

传统世界模型(如 Sora、Veo)主要基于最大似然估计(MLE)在通用视频数据上训练,本质是概率分布下的像素预测器,缺乏对质量、摩擦、碰撞等物理定律的内建约束。这导致生成的机器人操作序列常出现:物体穿透、反重力悬浮、非接触抓取、接触缺失导致的运动不自然。这些问题不是简单的渲染瑕疵,而是物理推理的根本性失败,限制了模型在下游机器人应用中的可靠性。

ABot-World 将物理定律深度嵌入建模、训练与评估的全链路:

创新维度

传统模型

ABot-World

优化目标

视觉美学

物理一致性(动力学合理、因果可推演)

输出内容

像素矩阵

视频序列,隐含物理状态演化,行为符合力学规律

控制方式

文本提示

多模态条件输入:文本 + 动作指令(末端位姿+夹爪状态)

进化能力

静态模型

支持VLA闭环:预测 → 执行 → 反馈 → 自我修正

三大核心特性:

1.物理优先的建模范式不再单纯追求视觉美学,而是将物理一致性作为核心优化目标。每一帧生成结果不仅是像素矩阵,更是包含质量、惯性张量、接触力场的可微分物理状态快照。

2.动作条件化的因果推演通过解耦的动作注入模块,模型能够根据给定的末端执行器位姿(End-effector Pose)和夹爪状态,精确推演未来的时空动力学变化,实现”指令即因果”的可控生成。

3.闭环进化的认知基座支持”预测 – 执行 – 反馈”的 VLA(Vision-Language-Action)闭环,使模型具备在真实环境中通过误差信号自我修正的能力。

图:ABot-World 双引擎驱动架构——ABot-3DGS(数字孪生工厂)× ABot-PhysWorld(物理引擎内核)

我们将世界模型定义为机器人世界的操作系统内核,必须能理解物理、响应指令、预测后果、并支持闭环进化。为此构建了”双引擎驱动”的全新架构范式:

●ABot-3DGS:物理世界的”数字孪生工厂”

●ABot-PhysWorld:因果推演的”物理引擎内核”

以高德积累的厘米级城市、道路、室内空间数据 + 真实轨迹数据为基础,结合前沿的3D Gaussian Splatting(3DGS)技术,构建”可编程的数字孪生空间”。

核心能力:

●海量场景重建:基于高德地图数据生成亿级高保真无限尺寸的仿真场景

●任意视角合成:无需真实摄像头,即可渲染多形态机器人操作场景

●跨形态泛化:支持单臂、双臂、灵巧手、足式机器人等不同本体的数据生成

●长尾覆盖:通过背景编辑、遮挡模拟、光照扰动,覆盖 99% 典型长尾交互场景

技术实现:

● 利用 3DGS 的高保真渲染能力,实现照片级真实的场景重建

● 支持实时视角切换和动态光照调整

● 可编程的物理属性标注,为每个场景元素赋予质量、摩擦系数等物理参数

架构定位:它不是数据增强工具,而是具身智能的”数据原生引擎”,主动创造比现实更丰富、更可控、更物理一致的训练宇宙。

基于 14B 参数的 Diffusion Transformer 主干,在 300 万条真实操作视频上训练,提出”物理优先”的建模范式。

核心能力:

●动作条件化推演:给定末端执行器位姿与夹爪状态,精确预测未来时空动力学变化

●因果链建模:支持”指令→状态变化→结果反馈”的 VLA 闭环

●可微分物理状态输出:每一帧不仅输出像素,还隐含质量、接触力场、惯性张量等物理属性

技术实现:

● 基于 Wan2.1-I2V-14B 主干网络进行全量微调

● 采用 LoRA 低秩适配技术进行高效参数优化

● 并行上下文块实现动作条件的空间注入

架构定位:它不是视频生成器,而是机器人的”物理思维引擎”,能回答”如果这样做,会发生什么?”

流程类型

数据流向

价值

数据流

ABot-3DGS 生成亿级高保真仿真数据 → 输入 ABot-PhysWorld 进行物理对齐训练

从”数据制造”到”物理推演”的无缝衔接

控制流

用户输入指令 → ABot-PhysWorld 推演动作轨迹 → 输出物理合规视频 → 反馈至真实机器人执行

支持实时决策与规划

进化流

真实执行误差 → 回传至 ABot-PhysWorld → 更新模型参数 → 下一轮预测更精准

自生长、自修正、自适应

这是一个自生长、自修正、自适应的具身智能操作系统,每一次执行,都在为世界模型注入新的物理认知。

维度

创新点

数据

结构化采样 + 物理语义标注 → 构建因果理解基础

架构

冻结主干+LoRA+动作注入 → 零样本控制+低显存占用

训练

解耦判别+Diffusion-DPO → 学会物理规律判别

核心能力:基于140亿参数Diffusion Transformer主干架构,通过系统性数据治理 + 物理约束注入 + 闭环评估机制三位一体设计,实现物理一致性、动作可控性、零样本泛化能力的有机统一。

数据来源与规模:整合五大主流开源数据集(AgiBot、RoboCoin、RoboMind、Galaxea、OXE),涵盖多形态机器人与长尾任务场景,累计汇聚近300万条真实操作视频片段,为模型提供丰富的具身交互信号基础。

1、 四层分层采样策略:保证多样性与平衡性

层级

目标

实现方式

第一层:内部多样性保留

防止稀有交互模式丢失

保留OXE等聚合数据集中小型子集

第二层:跨机器人重平衡

增强跨平台泛化

对欠代表机器人类型上权重

第三层:任务感知配额分配

抑制头部任务主导

头部任务≤15%,中部任务40–50%,长尾任务全量保留

第四层:宏观规模调控

平衡数据集体量差异

AgiBot/OXE降采样;RoboMind保证最低覆盖率,三轮补充改善长尾

2、 物理感知标注系:双阶段+四层级语义结构

采用 VLM + LLM 双阶段协同标注,将每段视频转化为结构化物理语义描述,分为四个层级:

● 宏观层(意图):自然语言描述整体任务目标,如:“抓取并放置苹果”。

● 中观层(动作序列):动词-名词短语序列,如:“接近 → 抓握 → 提起 → 移动 → 释放”。

● 微观层(轨迹细节):记录笛卡尔轨迹、相对运动、夹爪状态,如:“末端沿Z轴下降5cm,夹爪闭合至20mm”。

● 场景层(物理关系):描述接触、支撑、包含关系及任务结果,如:“苹果与桌面接触,被夹爪稳固抓握,成功放置于袋中”。

3、 四级叙事结构:构建因果理解基础

标注流程按四级叙事推进:场景构建 → 动作流程 →最终状态确认 → 镜头总结

不仅回答“发生了什么”,更解释“为什么发生”,为世界模型训练奠定因果推理与物理规律理解的语义基础。

ABot-PhysWorld 的核心是确保生成结果在动力学上合理、在控制上可响应、在训练上可持续。该模型基于 DiT 主干构建,但在训练策略与结构设计上做了关键调整,使其能够内化物理规律并支持动作条件化推演。整个训练分为两个阶段:

● 第一阶段:监督微调。模型学习从当前视觉状态与语言指令出发,预测未来若干帧的演化,建立基础的时序建模能力。

● 第二阶段:偏好优化机制。在冻结主干的前提下,通过轻量级适配器对模型进行定向调整。这一阶段不再依赖像素相似度,而是以“物理合理性”作为优化信号——模型生成多个候选视频,由辅助评估模块判断其是否符合物理常识(如接触是否存在、运动是否受重力影响等),并据此强化合规行为、抑制违规输出。这使模型逐步学会区分“看起来像”和“物理上对”,从而提升在真实任务中的可靠性。

架构上的关键技术支撑体现在两方面:

● 基于 LoRA 的轻量化参数适配机制。在保持主干网络完整性的前提下,仅对部分潜空间参数进行微调,显著降低训练成本与显存占用,同时避免破坏预训练获得的通用视觉先验。这种设计使得模型既能吸收大规模数据中的语义知识,又能专注优化与物理建模相关的局部能力。

● 并行上下文注入机制。模型支持将末端执行器位姿与夹爪状态作为显式输入,通过空间编码方式嵌入到生成过程中。这种机制并非简单叠加特征,而是在Transformer结构中并行引入动作上下文,使每一帧的生成都受到当前控制意图的影响,从而实现“指令即因果”的可控推演。该设计天然支持多形态机器人控制,无需针对不同本体重新训练,具备良好的零样本泛化能力。

ABot-PhysWorld 的架构设计在保证主干模型泛化能力的前提下,通过轻量适配与条件注入机制,实现物理一致性、动作可控性与训练效率的协同优化。其目标是解决机器人世界模型的关键约束:输出需符合物理规律、响应需匹配控制指令、训练需控制资源开销。

传统世界模型采用最大似然估计(MLE)进行训练,其优化目标为最小化生成帧与真实帧之间的像素级差异。该方式在通用视频生成任务中有效,但在机器人操作场景中存在结构性缺陷:它无法区分物理合规与物理违规样本。例如,物体穿透、无接触抓取、反重力运动等行为,只要像素分布接近真实数据,仍可能被模型视为合法输出。这导致生成结果在视觉上合理,但在动力学上不可执行,限制其在真实机器人系统中的可用性。

ABot-PhysWorld 的训练方法引入物理判别机制,将优化目标从“像素相似度”转向“物理一致性”。具体实现路径为:在冻结主干网络的前提下,通过结构化评估体系对候选输出进行物理合规性评分,并基于此构建对比学习信号,驱动模型向更符合物理规律的方向演化。该机制包含两个核心组件:

● proposer module:负责根据初始状态与指令,动态构建该任务下的物理检查清单——即哪些行为是允许的、哪些是致命违规(如穿透、无接触抓取、反重力运动),哪些属于细微但关键的物理保真点(如接触力反馈、摩擦响应)。

● scorer module:对多个候选生成结果进行逐帧评估,不仅判断是否完成任务,更关注其过程是否符合物理常识,并输出结构化推理路径作为反馈信号。

分层物理检查清单

层级

类型

示例

权重

L1

致命违规

物体穿透、反重力

一票否决

L2

微物理保真

接触动力学、摩擦响应

区分合规样本

L3

负面问题强制占比

“红苹果是否变绿?”

30–50%,防捷径学习

训练过程采用扩散空间内的偏好优化(Diffusion-DPO),在潜空间层面对合规样本提升置信度,对违规样本降低置信度。该方法避免了传统MLE对所有误差平等对待的问题,使模型在训练过程中主动规避物理错误,而非被动模仿表面相似性。

为控制计算开销,整个训练在冻结主干网络的基础上进行,仅对轻量适配器模块进行参数更新。同时,在计算参考输出时采用临时关闭适配器的策略,避免维护完整副本,从而显著降低显存占用与计算成本。实测显示,该方案在14B参数规模下可节省60%以上显存,同时保持训练稳定性与收敛效率。

最终,ABot-PhysWorld 的输出视频在视觉上连续、在动力学上合理,支持末端执行器位姿与夹爪状态作为输入进行可控推演,具备跨形态、零样本、高精度的动作响应能力。其训练机制不是为了提升渲染质量,而是为了确保生成结果在物理层面可被机器人系统安全执行。

版权声明:

本博客部分内容为转载文章,旨在分享有价值的信息,版权归原作者所有。

转载仅为个人学习与交流目的,不对文章观点负责,亦不用于任何商业用途。

如涉及版权问题,请联系本人删除。

文末附加内容
上一篇
下一篇