2月12日上午,小米机器人团队在GitHub和Hugging Face上甩下一组链接,像投进平静湖面的石子——开源代码、模型权重、技术文档全量开放。几乎同一时刻,一段真机测试视频开始在技术社区流传:双臂机器人面对桌上散落的彩色积木,抬手、抓取、分离,动作利落得像熟练的装配工;紧接着,它又捏起一条软塌塌的毛巾,对折、再对折,全程没有卡顿,也没有把织物揉成一团。
这是XiaomiRobotics0的第一次公开亮相。一个拥有47亿参数的视觉语言动作(VLA)模型,以“大脑+小脑”的奇特构造,试图回答具身智能领域最棘手的那个问题:如何让机器人既听得懂人话,又干得利索活。
大脑与小脑:两种Transformer的协同舞步
传统VLA模型常陷入两难:要么理解能力出色,但执行起来像患了“反应迟钝症”,动作断断续续;要么动作流畅,却对模糊指令一知半解。XiaomiRobotics0的解法是——拆开。

团队采用了名为MixtureofTransformers(MoT)的混合架构。一端是视觉语言大模型(VLM),充当“大脑”:它处理类似“请把毛巾叠好”这样语义含混的自然语言指令,从高清摄像头传回的图像里定位毛巾在哪、纹理走向如何、该从哪边开始折。另一端是多层Diffusion Transformer(DiT),充当“动作小脑”:它不输出零散的单步动作,而是打包生成一个连续的“动作块”(Action Chunk),通过流匹配技术让每一步位移都平滑衔接。
这种分工的效果,在真机测试中一目了然。叠毛巾这类任务对柔性物体的抓取力控制要求极高,传统模型常因推理延迟导致机械臂在空中“思考”半秒,毛巾早已滑落。而搭载XiaomiRobotics0的机器人从头到尾没有明显停顿,手眼协调得像老裁缝。
两阶段进化:学本领,不忘本
许多VLA模型在“学动作”的过程中会逐渐丢失原有的视觉理解能力——就像专攻体育特长的学生,文化课成绩一落千丈。小米团队在设计训练方案时,专门为这个痛点打了补丁。

训练被切成两段。第一阶段叫“跨模态预训练”。团队引入了一个叫Action Proposal的机制:让VLM在理解图像内容的同时,被迫同步预测多种可能的动作分布。这不是让模型立刻做出精确动作,而是强迫它把“看”和“做”的特征空间对齐。好比教人做饭时,不急着下锅,而是先让他看着菜谱比划步骤。
第二阶段则把VLM“冻结”起来,专项训练DiT如何从噪声中恢复出精准的动作序列。这一阶段去掉了VLM输出的离散Token,完全依赖KV特征进行条件生成。结果是,机器人既没丢掉原先的物体检测、视觉问答能力,又在叠毛巾、拆积木这类精细操作上练出了肌肉记忆。
异步与掩码:对抗“动作断层”的两把手术刀
VLA模型上真机,最大的拦路虎是延迟。模型在云端或本地显卡上推理需要时间,而机器人执行器每秒要输出几十帧控制指令——一旦推理跟不上执行,机械臂就会在空中“断片”,像电影卡帧。
XiaomiRobotics0没有试图把推理速度压榨到极限,而是换了个思路:让推理和运行解除同步约束。模型慢慢算它的,机器人按照最近一包“动作块”继续执行。只要动作块的长度足够覆盖推理间隔,动作就能保持连贯。这套“异步推理”模式,从机制上切断了延迟对流畅性的致命影响。

在此基础上,团队又加了两道保险。Clean Action Prefix把前一时刻预测的动作作为当前输入,确保轨迹在时间维度上不抖动;Λshape Attention Mask则通过特殊的注意力掩码,强制模型更关注当前的视觉反馈,而不是沉溺于过去几秒的历史惯性。测试中,当环境突发变化——比如毛巾被碰歪、积木被抽走——搭载该模型的机器人反应明显比对照组更敏捷,像是“醒着”的。
消费级显卡跑出的SOTA:开源的低门槛野心
在LIBERO、CALVIN、SimplerEnv三大主流仿真测试集中,XiaomiRobotics0在所有Benchmark上横扫了30个对比模型,拿下当前最优成绩。但比榜单数字更让开发者兴奋的,是它的硬件门槛——普通消费级显卡就能实现实时推理。

此前,顶尖VLA模型往往需要A100乃至H100级别的专业算力卡,把绝大多数中小团队挡在门外。小米此次将47亿参数的模型权重、代码全量托管在GitHub和Hugging Face上,意味着任何一个拥有消费级显卡的研究者,都能下载、微调、部署自己的具身智能机器人。
有开发者在技术社区留言:“以前VLA是大厂的玩具,现在它成了开源世界的积木。”这或许正是XiaomiRobotics0最鲜明的特点——它不是实验室里仅供瞻仰的奖杯,而是一套已经跑通、愿意分享、且大多数人跑得动的工具箱。从积木拆解到柔性织物折叠,从消费级硬件到全量开源,小米机器人团队迈出的这一步,让“物理智能”从一个炫酷的概念,变成更多人手里可以捏塑的黏土。
预防及治疗新冠腹泻的益生菌,你选对了吗根据国内权威专家最近发表的一篇文章,益生菌在预防和治疗新冠肺炎腹泻方面并不相似。益生菌的应用价值本文指出,肠道菌群的平衡有助于维持宿主免疫功能,为新冠病毒感染者的...
宝宝是抵抗力较差的一个年龄阶段,在这个阶段宝宝经常会得荨麻疹,这令宝妈们头疼不已。下面我就对宝宝荨麻疹怎么治疗(宝宝荨麻疹严重吗该怎么应对)这个问题给出一些建议,希望可以帮助到各位宝妈们。 ...
板栗作为千果之王,板栗有什么功效吗?冬天吃板栗有哪些好处呢?今天小编就来给爱吃板栗的朋友们介绍一下板栗的好处与功效! 板栗有什么功效吗? 板栗含有糖类与碳水化合物,蛋白...
据了解,中美混双跨国组合获世乒赛铜牌,最终以3比1取胜晋级4强!具体情况如何?小编对此整理了以下相关内容: 中美混双跨国组合获世乒赛铜牌,最终以3比1取胜晋级4强! 中...
据了解,南非发现有大量突变的新冠新变种,随后香港2人感染南非新冠新变种病毒!疫情病例究竟是怎么回事儿呢?小编整理了以下相关内容: 南非发现有大量突变的新冠新变种,随后香港2人感染...
春季是流行性感冒的多发季节,甲流测抗原也是阳性吗 抽血可以测甲流吗 甲流测抗原也是阳性吗 甲流抗原阳性也就是甲...
朵唯女性时尚手机是当年风靡全国的时尚手机,那么这款手机现在还能买到吗?下面小编就向大家介绍朵唯女性时尚手机(朵唯女性时尚手机现在还值得购买吗)这些可能我们了解不多的时尚手机新闻。 多维手机还...
据了解,70后张迎春成全国最年轻女省委常委,刷新了最年轻女性省委常委的纪录!具体是怎样的呢?请看以下相关内容: 70后张迎春成全国最年轻女省委常委,刷新了最年轻女性省委常委的纪录...
据了解,市委原书记因甘于被“围猎”被双开 被查次日市民放炮庆祝!具体是什么情况呢?请看以下相关内容: 市委原书记因甘于被“围猎”被双开 被查次日市民放炮庆祝! 11月2...
据了解,中纪委评狗咬人事件:不能止于道歉,作风方面问题,须反思并严肃整改!具体情况如何?请看一下相关内容: 中纪委评狗咬人事件:不能止于道歉,作风方面问题,须反思并严肃整改!&n...
据了解,浪潮集团内部通报加班标语事件:已对相关人员不按程序办事的情况依规作出相应处理!详细内容如何?究竟是怎么回事儿呢?小编整理了以下相关内容: 浪潮集团内部通报加班标语事件:已...
据了解,蜂花“哭穷”式营销爆红:被野性消费的蜂花是下个鸿星尔克吗?究竟是怎么回事儿呢?请看一下相关内容: 蜂花“哭穷”式营销爆红:被野性消费的蜂花是下个鸿星尔克吗? 红...
据了解,浦发银行回应近3亿存款莫名被质押,已向警方以及中国银保监会江苏监管局报案!详细情况如何?以下便是小编整理的相关内容: 浦发银行回应近3亿存款莫名被质押,已向警方以及中国银...
热门关键词:
| 生活常识
| 健康新闻
| 头条新闻
| 健康百科
| 中医养生
| 饮食健康
| 热门新闻
| 社会新闻
| 今日热点新闻
| 健康养生百科
| 菊花泡水的功效
| 艾草的功效和作用
| 怎么补充蛋白质
| 蓝莓和葡萄的营养
| 板栗的功效和好处
| 中药干姜的药理作用
| 延迟鲜花的保鲜期
| 男生健身减肥的方法
| 瘦腰瘦腹的最快方法
| 网站地图
本站所有建议仅供用户参考,不可代替专业医师诊断、不可代替医师处方,请谨慎参阅,本站不承担由此引起的相关责任。
本站内容如有转载或引用文章涉及版权问题,请速与我们联系予以删除。联系邮箱:1440174575@qq.com
Copyright © 2017 mrkbao.com All Rights Reserved 鄂ICP备19025581号-2