



Table30 V2将为全球具身智能研究者打造了一个精准的“泛化标尺”与公平、开放的真机竞技场
具身智能正站在一个关键的历史节点上。随着 VLA 与 WMA 模型爆发式增长,行业的核心痛点日益凸显:在单任务精调之外,具身智能模型是否真正具备通用泛化能力,还是仅仅陷入了单一任务的过拟合?
带着这一核心追问,RoboChallenge正式发布Table30 V2,它以“面向下一代模型的大规模真机原生泛化评测”为标准,从任务升级、评测升级到系统升级三个维度深度重构:通过引入更严苛的软体、工具使用及双臂协作任务,支持零样本与域外泛化测试,并实现3倍于往届的系统吞吐量。Table30 V2将为全球具身智能研究者打造了一个精准的“泛化标尺”与公平、开放的真机竞技场,同时其预览版将作为RoboChallenge CVPR 2026 Workshop竞赛的首秀上线发布。
具身智能的终极目标是处理现实世界中不可预知的复杂场景。Table30 V2 的第一个核心改进,就是重构了任务集。我们在原有基础上,新增了 18 个全新的双臂灵巧操作任务,配合保留的 12 个经典任务,构建了一个包含 30 个高难度任务的综合评估体系。为什么要如此扩展任务难度?因为泛化能力的缺失往往源于对“简单任务”的过度拟合。
在具身智能领域,我们经常看到模型在单个任务上表现优异,却在稍换场景后即刻“翻车”。Table30 V2 通过重构学习与测试协议,彻底终结了“为了比赛而调参”的旧模式。
分层次的泛化矩阵(In-Domain vs. Out-of-Domain):从传统的域内评估,升级为包含域外(OOD)的高阶测试。我们不仅测试模型在预期之内的表现,更通过动态调整测试环境(如将桌面换成沙发等不可控变化),挑战模型的边界。这不再是一场简单的分数比拼,而是一次对模型“智能本质”的压力测试。
对于算法迭代而言,速度就是生命线。为了让科研人员不再因为“等待评估结果”而浪费宝贵的算力,我们对整个底层基础设施进行了彻底的扩容与优化。
Table30 V2 的发布,不仅是一个基准测试的诞生,更是一次对未来具身智能方向的指引。我们诚挚邀请全球科研团队、实验室及个人开发者,参与 RoboChallenge CVPR 2026 Workshop 竞赛。本次竞赛将作为 Table30 V2 预览版首秀,参赛者有机会在我们的真实机器人集群上验证自己的模型,与全球顶尖的具身智能算法同台竞技。
竞赛结束后,我们将持续面向全球研究者开放评测基础设施,让每一个有想法的团队都能在真实机器上验证自己的模型。泛化,是具身智能的下一座山峰。Table30 V2,邀你同攀。
详情敬请关注 RoboChallenge 官方渠道:https://robochallenge.cn/competition。
版权声明:
本博客部分内容为转载文章,旨在分享有价值的信息,版权归原作者所有。
转载仅为个人学习与交流目的,不对文章观点负责,亦不用于任何商业用途。
如涉及版权问题,请联系本人删除。








