健康资讯网-中华好医生合作伙伴
当前位置:主页 > 头条新闻

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

时间:2026-02-12 15:47:32 来源:
字号:


 2月12日上午,小米机器人团队在GitHub和Hugging Face上甩下一组链接,像投进平静湖面的石子——开源代码、模型权重、技术文档全量开放。几乎同一时刻,一段真机测试视频开始在技术社区流传:双臂机器人面对桌上散落的彩色积木,抬手、抓取、分离,动作利落得像熟练的装配工;紧接着,它又捏起一条软塌塌的毛巾,对折、再对折,全程没有卡顿,也没有把织物揉成一团。

 这是XiaomiRobotics0的第一次公开亮相。一个拥有47亿参数的视觉语言动作(VLA)模型,以“大脑+小脑”的奇特构造,试图回答具身智能领域最棘手的那个问题:如何让机器人既听得懂人话,又干得利索活。

 大脑与小脑:两种Transformer的协同舞步

 传统VLA模型常陷入两难:要么理解能力出色,但执行起来像患了“反应迟钝症”,动作断断续续;要么动作流畅,却对模糊指令一知半解。XiaomiRobotics0的解法是——拆开。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 团队采用了名为MixtureofTransformers(MoT)的混合架构。一端是视觉语言大模型(VLM),充当“大脑”:它处理类似“请把毛巾叠好”这样语义含混的自然语言指令,从高清摄像头传回的图像里定位毛巾在哪、纹理走向如何、该从哪边开始折。另一端是多层Diffusion Transformer(DiT),充当“动作小脑”:它不输出零散的单步动作,而是打包生成一个连续的“动作块”(Action Chunk),通过流匹配技术让每一步位移都平滑衔接。

 这种分工的效果,在真机测试中一目了然。叠毛巾这类任务对柔性物体的抓取力控制要求极高,传统模型常因推理延迟导致机械臂在空中“思考”半秒,毛巾早已滑落。而搭载XiaomiRobotics0的机器人从头到尾没有明显停顿,手眼协调得像老裁缝。

 两阶段进化:学本领,不忘本

 许多VLA模型在“学动作”的过程中会逐渐丢失原有的视觉理解能力——就像专攻体育特长的学生,文化课成绩一落千丈。小米团队在设计训练方案时,专门为这个痛点打了补丁。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 训练被切成两段。第一阶段叫“跨模态预训练”。团队引入了一个叫Action Proposal的机制:让VLM在理解图像内容的同时,被迫同步预测多种可能的动作分布。这不是让模型立刻做出精确动作,而是强迫它把“看”和“做”的特征空间对齐。好比教人做饭时,不急着下锅,而是先让他看着菜谱比划步骤。

 第二阶段则把VLM“冻结”起来,专项训练DiT如何从噪声中恢复出精准的动作序列。这一阶段去掉了VLM输出的离散Token,完全依赖KV特征进行条件生成。结果是,机器人既没丢掉原先的物体检测、视觉问答能力,又在叠毛巾、拆积木这类精细操作上练出了肌肉记忆。

 异步与掩码:对抗“动作断层”的两把手术刀

 VLA模型上真机,最大的拦路虎是延迟。模型在云端或本地显卡上推理需要时间,而机器人执行器每秒要输出几十帧控制指令——一旦推理跟不上执行,机械臂就会在空中“断片”,像电影卡帧。

 XiaomiRobotics0没有试图把推理速度压榨到极限,而是换了个思路:让推理和运行解除同步约束。模型慢慢算它的,机器人按照最近一包“动作块”继续执行。只要动作块的长度足够覆盖推理间隔,动作就能保持连贯。这套“异步推理”模式,从机制上切断了延迟对流畅性的致命影响。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 在此基础上,团队又加了两道保险。Clean Action Prefix把前一时刻预测的动作作为当前输入,确保轨迹在时间维度上不抖动;Λshape Attention Mask则通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于过去几秒的历史惯性。测试中,当环境突发变化——比如毛巾被碰歪、积木被抽走——搭载该模型的机器人反应明显比对照组更敏捷,像是“醒着”的。

 消费级显卡跑出的SOTA:开源的低门槛野心

 在LIBERO、CALVIN、SimplerEnv三大主流仿真测试集中,XiaomiRobotics0在所有Benchmark上横扫了30个对比模型,拿下当前最优成绩。但比榜单数字更让开发者兴奋的,是它的硬件门槛——普通消费级显卡就能实现实时推理。

小米开源首代机器人VLA大模型 Xiaomi-Robotics-0大模型有什么特点

 此前,顶尖VLA模型往往需要A100乃至H100级别的专业算力卡,把绝大多数中小团队挡在门外。小米此次将47亿参数的模型权重、代码全量托管在GitHub和Hugging Face上,意味着任何一个拥有消费级显卡的研究者,都能下载、微调、部署自己的具身智能机器人。

 有开发者在技术社区留言:“以前VLA是大厂的玩具,现在它成了开源世界的积木。”这或许正是XiaomiRobotics0最鲜明的特点——它不是实验室里仅供瞻仰的奖杯,而是一套已经跑通、愿意分享、且大多数人跑得动的工具箱。从积木拆解到柔性织物折叠,从消费级硬件到全量开源,小米机器人团队迈出的这一步,让“物理智能”从一个炫酷的概念,变成更多人手里可以捏塑的黏土。


关闭此页 (责任编辑:小辉)
健康百科 生活常识 今日热点

热门关键词: | 生活常识 | 健康新闻 | 头条新闻 | 健康百科 | 中医养生 | 饮食健康 | 热门新闻 | 社会新闻 | 今日热点新闻 | 健康养生百科 | 菊花泡水的功效
| 艾草的功效和作用 | 怎么补充蛋白质 | 蓝莓和葡萄的营养 | 板栗的功效和好处 | 中药干姜的药理作用 | 延迟鲜花的保鲜期 | 男生健身减肥的方法
| 瘦腰瘦腹的最快方法 | 网站地图

本站所有建议仅供用户参考,不可代替专业医师诊断、不可代替医师处方,请谨慎参阅,本站不承担由此引起的相关责任。

本站内容如有转载或引用文章涉及版权问题,请速与我们联系予以删除。联系邮箱:1440174575@qq.com

Copyright © 2017 mrkbao.com All Rights Reserved 鄂ICP备19025581号-2

电脑版 | 手机版