新浪科技讯 1月30日上午消息,继空间感知模型、具身大模型与世界模型“三连发”后,蚂蚁灵波科技今日宣布开源具身世界模型 LingBot-VA。LingBot-VA 首次提出自回归视频-动作世界建模框架,将大规模视频生成模型与机器人控制深度融合,模型在生成“下一步世界状态”的同时,直接推演并输出对应的动作序列,使机器人能够像人一样“边推演、边行动”。

据悉,在真机评测中,LingBot-VA展现出对复杂物理交互的强适应能力。面对长时序任务(制作早餐、拾取螺丝)、高精度任务(插入试管、拆快递)以及柔性与关节物体操控(叠衣物、叠裤子)这三大类六项高难度挑战,仅需 30~50 条真机演示数据即可完成适配,且任务成功率相较业界强基线 Pi0.5 平均提升20%。

蚂蚁灵波表示,承接前几日开源发布的 LingBot-World(模拟环境)、LingBot-VLA(智能基座)与 LingBot-Depth(空间感知),LingBot-VA 探索出一条“世界模型赋能具身操作”的全新路径。蚂蚁集团将持续依托 InclusionAI 社区开源开放,与行业共建具身智能基础能力,加速构建深度融合开源开放、且服务于真实产业场景的AGI生态。

责任编辑:江钰涵