小米开源首代机器人VLA大模型 消费级显卡可实时推理

2026-02-12 14:40:01    来源:新经网    作者:冯思韵
很多朋友不知道【小米开源首代机器人VLA大模型 消费级显卡可实时推理】,今天小绿就为大家解答一下。

为兼顾模型的常识理解与实操能力,小米设计了跨模态预训练和后训练的两阶段训练体系。跨模态预训练通过Action Proposal机制对齐VLM特征与动作空间,再冻结VLM专注训练DiT,让模型在学会操作的同时保留物体检测、逻辑推理等能力;后训练则采用异步推理模式解决真机“动作断层”问题,搭配Clean Action Prefix和Λ-shape Attention Mask技术,既保证动作轨迹的连续流畅,又让模型更关注实时视觉反馈,提升对环境变化的响应能力。

小米开源首代机器人VLA大模型 消费级显卡可实时推理

据CNMO了解,现有VLA模型虽凭借大规模参数拥有出色的泛化能力,但庞大的推理延迟让机器人在真实物理世界中反应迟钝。小米此次推出的Xiaomi-Robotics-0从架构设计入手实现突破,其采用MoT混合架构打造“大脑 + 小脑”双核心体系,以多模态VLM大模型为视觉语言大脑,可理解人类模糊指令并捕捉高清视觉中的空间关系;同时嵌入多层DiT作为动作执行小脑,通过生成“动作块”结合流匹配技术,保障机器人动作的高频与精准,实现物理灵活性的大幅提升。

【CNMO科技消息】2月12日,小米正式对外发布并开源首款机器人VLA大模型Xiaomi-Robotics-0。该模型拥有47亿参数,兼具视觉语言理解与高性能实时执行能力,可在消费级显卡上实现实时推理,一举破解传统VLA模型推理延迟的行业痛点,在具身智能领域刷新多项SOTA纪录。

版权所有,未经许可不得转载

目前,小米已正式开源该模型的技术主页、代码及模型权重,秉持开源理念推动具身智能技术的行业发展,同时小米机器人团队也开启人才招募,邀请行业人士共同探索物理智能的边界。


以上问题已经回答了。如果你想了解更多,请关新经网网站 (https://www.xinhuatone.com/)
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。