物理优先+VLA闭环进化：高德ABot-World世界模型，破解具身智能零样本泛化难题

随着高德公开全球首款开放环境全自主具身机器人“途途”，，其背后的数据及训练基座——ABot-World世界模型同步引发行业关注。该模型实现了具身智能底层训练范式完成了从“传统视觉渲染”向“可微分物理引擎”的根本性迁移，为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。

ABot-World 创新性采用双引擎架构，在物理合规性、动作可控性与零样本泛化三大核心维度上同步实现突破，成为全球唯一在此三项关键指标上全面达到 SOTA 水平的模型。

与传统仿真依赖“像素级逼真”不同，ABot-World 确立了“物理优先”原则：系统生成的每一帧不仅是视觉画面，更是包含质量分布、惯性张量与接触力场的可微分物理状态快照。基于此架构，系统能够根据末端执行器位姿与夹爪状态，精确推演未来时空的动力学变化，实现高保真的“动作条件化”控制。

传统世界模型（如 Sora、Veo）主要基于最大似然估计（MLE）在通用视频数据上训练，本质是概率分布下的像素预测器，缺乏对质量、摩擦、碰撞等物理定律的内建约束。这导致生成的机器人操作序列常出现：物体穿透、反重力悬浮、非接触抓取、接触缺失导致的运动不自然。这些问题不是简单的渲染瑕疵，而是物理推理的根本性失败，限制了模型在下游机器人应用中的可靠性。

ABot-World 将物理定律深度嵌入建模、训练与评估的全链路：

创新维度

传统模型

ABot-World

优化目标

视觉美学

物理一致性（动力学合理、因果可推演）

输出内容

像素矩阵

视频序列，隐含物理状态演化，行为符合力学规律

控制方式

文本提示

多模态条件输入：文本 + 动作指令（末端位姿+夹爪状态）

进化能力

静态模型

支持VLA闭环：预测 → 执行 → 反馈 → 自我修正

三大核心特性：

1.物理优先的建模范式不再单纯追求视觉美学，而是将物理一致性作为核心优化目标。每一帧生成结果不仅是像素矩阵，更是包含质量、惯性张量、接触力场的可微分物理状态快照。

2.动作条件化的因果推演通过解耦的动作注入模块，模型能够根据给定的末端执行器位姿（End-effector Pose）和夹爪状态，精确推演未来的时空动力学变化，实现”指令即因果”的可控生成。

3.闭环进化的认知基座支持”预测 – 执行 – 反馈”的 VLA（Vision-Language-Action）闭环，使模型具备在真实环境中通过误差信号自我修正的能力。

图：ABot-World 双引擎驱动架构——ABot-3DGS（数字孪生工厂）× ABot-PhysWorld（物理引擎内核）

我们将世界模型定义为机器人世界的操作系统内核，必须能理解物理、响应指令、预测后果、并支持闭环进化。为此构建了”双引擎驱动”的全新架构范式：

●ABot-3DGS：物理世界的”数字孪生工厂”

●ABot-PhysWorld：因果推演的”物理引擎内核”

以高德积累的厘米级城市、道路、室内空间数据 + 真实轨迹数据为基础，结合前沿的3D Gaussian Splatting（3DGS）技术，构建”可编程的数字孪生空间”。

核心能力：

●海量场景重建：基于高德地图数据生成亿级高保真无限尺寸的仿真场景

●任意视角合成：无需真实摄像头，即可渲染多形态机器人操作场景

●跨形态泛化：支持单臂、双臂、灵巧手、足式机器人等不同本体的数据生成

●长尾覆盖：通过背景编辑、遮挡模拟、光照扰动，覆盖 99% 典型长尾交互场景

技术实现：

● 利用 3DGS 的高保真渲染能力，实现照片级真实的场景重建

● 支持实时视角切换和动态光照调整

● 可编程的物理属性标注，为每个场景元素赋予质量、摩擦系数等物理参数

架构定位：它不是数据增强工具，而是具身智能的”数据原生引擎”，主动创造比现实更丰富、更可控、更物理一致的训练宇宙。

基于 14B 参数的 Diffusion Transformer 主干，在 300 万条真实操作视频上训练，提出”物理优先”的建模范式。

核心能力：

●动作条件化推演：给定末端执行器位姿与夹爪状态，精确预测未来时空动力学变化

●因果链建模：支持”指令→状态变化→结果反馈”的 VLA 闭环

●可微分物理状态输出：每一帧不仅输出像素，还隐含质量、接触力场、惯性张量等物理属性

技术实现：

● 基于 Wan2.1-I2V-14B 主干网络进行全量微调

● 采用 LoRA 低秩适配技术进行高效参数优化

● 并行上下文块实现动作条件的空间注入

架构定位：它不是视频生成器，而是机器人的”物理思维引擎”，能回答”如果这样做，会发生什么？”

流程类型

数据流向

价值

数据流

ABot-3DGS 生成亿级高保真仿真数据 → 输入 ABot-PhysWorld 进行物理对齐训练

从”数据制造”到”物理推演”的无缝衔接

控制流

用户输入指令 → ABot-PhysWorld 推演动作轨迹 → 输出物理合规视频 → 反馈至真实机器人执行

支持实时决策与规划

进化流

真实执行误差 → 回传至 ABot-PhysWorld → 更新模型参数 → 下一轮预测更精准

自生长、自修正、自适应

这是一个自生长、自修正、自适应的具身智能操作系统，每一次执行，都在为世界模型注入新的物理认知。

维度

创新点

数据

结构化采样 + 物理语义标注 → 构建因果理解基础

架构

冻结主干+LoRA+动作注入 → 零样本控制+低显存占用

训练

解耦判别+Diffusion-DPO → 学会物理规律判别

核心能力：基于140亿参数Diffusion Transformer主干架构，通过系统性数据治理 + 物理约束注入 + 闭环评估机制三位一体设计，实现物理一致性、动作可控性、零样本泛化能力的有机统一。

数据来源与规模：整合五大主流开源数据集（AgiBot、RoboCoin、RoboMind、Galaxea、OXE），涵盖多形态机器人与长尾任务场景，累计汇聚近300万条真实操作视频片段，为模型提供丰富的具身交互信号基础。

1、四层分层采样策略：保证多样性与平衡性

层级

目标

实现方式

第一层：内部多样性保留

防止稀有交互模式丢失

保留OXE等聚合数据集中小型子集

第二层：跨机器人重平衡

增强跨平台泛化

对欠代表机器人类型上权重

第三层：任务感知配额分配

抑制头部任务主导

头部任务≤15%，中部任务40–50%，长尾任务全量保留

第四层：宏观规模调控

平衡数据集体量差异

AgiBot/OXE降采样；RoboMind保证最低覆盖率，三轮补充改善长尾

2、物理感知标注系：双阶段+四层级语义结构

采用 VLM + LLM 双阶段协同标注，将每段视频转化为结构化物理语义描述，分为四个层级：

● 宏观层（意图）：自然语言描述整体任务目标，如：“抓取并放置苹果”。

● 中观层（动作序列）：动词-名词短语序列，如：“接近 → 抓握 → 提起 → 移动 → 释放”。

● 微观层（轨迹细节）：记录笛卡尔轨迹、相对运动、夹爪状态，如：“末端沿Z轴下降5cm，夹爪闭合至20mm”。

● 场景层（物理关系）：描述接触、支撑、包含关系及任务结果，如：“苹果与桌面接触，被夹爪稳固抓握，成功放置于袋中”。

3、四级叙事结构：构建因果理解基础

标注流程按四级叙事推进：场景构建 → 动作流程 →最终状态确认 → 镜头总结

不仅回答“发生了什么”，更解释“为什么发生”，为世界模型训练奠定因果推理与物理规律理解的语义基础。

ABot-PhysWorld 的核心是确保生成结果在动力学上合理、在控制上可响应、在训练上可持续。该模型基于 DiT 主干构建，但在训练策略与结构设计上做了关键调整，使其能够内化物理规律并支持动作条件化推演。整个训练分为两个阶段：

● 第一阶段：监督微调。模型学习从当前视觉状态与语言指令出发，预测未来若干帧的演化，建立基础的时序建模能力。

● 第二阶段：偏好优化机制。在冻结主干的前提下，通过轻量级适配器对模型进行定向调整。这一阶段不再依赖像素相似度，而是以“物理合理性”作为优化信号——模型生成多个候选视频，由辅助评估模块判断其是否符合物理常识（如接触是否存在、运动是否受重力影响等），并据此强化合规行为、抑制违规输出。这使模型逐步学会区分“看起来像”和“物理上对”，从而提升在真实任务中的可靠性。

架构上的关键技术支撑体现在两方面：

● 基于 LoRA 的轻量化参数适配机制。在保持主干网络完整性的前提下，仅对部分潜空间参数进行微调，显著降低训练成本与显存占用，同时避免破坏预训练获得的通用视觉先验。这种设计使得模型既能吸收大规模数据中的语义知识，又能专注优化与物理建模相关的局部能力。

● 并行上下文注入机制。模型支持将末端执行器位姿与夹爪状态作为显式输入，通过空间编码方式嵌入到生成过程中。这种机制并非简单叠加特征，而是在Transformer结构中并行引入动作上下文，使每一帧的生成都受到当前控制意图的影响，从而实现“指令即因果”的可控推演。该设计天然支持多形态机器人控制，无需针对不同本体重新训练，具备良好的零样本泛化能力。

ABot-PhysWorld 的架构设计在保证主干模型泛化能力的前提下，通过轻量适配与条件注入机制，实现物理一致性、动作可控性与训练效率的协同优化。其目标是解决机器人世界模型的关键约束：输出需符合物理规律、响应需匹配控制指令、训练需控制资源开销。

传统世界模型采用最大似然估计（MLE）进行训练，其优化目标为最小化生成帧与真实帧之间的像素级差异。该方式在通用视频生成任务中有效，但在机器人操作场景中存在结构性缺陷：它无法区分物理合规与物理违规样本。例如，物体穿透、无接触抓取、反重力运动等行为，只要像素分布接近真实数据，仍可能被模型视为合法输出。这导致生成结果在视觉上合理，但在动力学上不可执行，限制其在真实机器人系统中的可用性。

ABot-PhysWorld 的训练方法引入物理判别机制，将优化目标从“像素相似度”转向“物理一致性”。具体实现路径为：在冻结主干网络的前提下，通过结构化评估体系对候选输出进行物理合规性评分，并基于此构建对比学习信号，驱动模型向更符合物理规律的方向演化。该机制包含两个核心组件：

● proposer module：负责根据初始状态与指令，动态构建该任务下的物理检查清单——即哪些行为是允许的、哪些是致命违规（如穿透、无接触抓取、反重力运动），哪些属于细微但关键的物理保真点（如接触力反馈、摩擦响应）。

● scorer module：对多个候选生成结果进行逐帧评估，不仅判断是否完成任务，更关注其过程是否符合物理常识，并输出结构化推理路径作为反馈信号。

分层物理检查清单

层级

类型

示例

权重

致命违规

物体穿透、反重力

一票否决

微物理保真

接触动力学、摩擦响应

区分合规样本

负面问题强制占比

“红苹果是否变绿？”

30–50%，防捷径学习

训练过程采用扩散空间内的偏好优化（Diffusion-DPO），在潜空间层面对合规样本提升置信度，对违规样本降低置信度。该方法避免了传统MLE对所有误差平等对待的问题，使模型在训练过程中主动规避物理错误，而非被动模仿表面相似性。

为控制计算开销，整个训练在冻结主干网络的基础上进行，仅对轻量适配器模块进行参数更新。同时，在计算参考输出时采用临时关闭适配器的策略，避免维护完整副本，从而显著降低显存占用与计算成本。实测显示，该方案在14B参数规模下可节省60%以上显存，同时保持训练稳定性与收敛效率。

最终，ABot-PhysWorld 的输出视频在视觉上连续、在动力学上合理，支持末端执行器位姿与夹爪状态作为输入进行可控推演，具备跨形态、零样本、高精度的动作响应能力。其训练机制不是为了提升渲染质量，而是为了确保生成结果在物理层面可被机器人系统安全执行。

版权声明：

本博客部分内容为转载文章，旨在分享有价值的信息，版权归原作者所有。

转载仅为个人学习与交流目的，不对文章观点负责，亦不用于任何商业用途。

如涉及版权问题，请联系本人删除。

推荐文章