阿里千问Qwen-Robot系列:三大模型让机器人边走边看边思考,具身智能进入加速度时代

6月16日下午两点,阿里巴巴用一条简短公告,把整个国内具身智能行业震了一下:千问家族一次性放出三款具身智能大模型——Qwen-RobotManip、Qwen-RobotNav、Qwen-RobotWorld,外加一个内部机器人智能体框架 Qwen-RobotClaw。这是千问大模型家族第一份完整的具身智能模型系列,三个模型分别对应机器人的”手”、”脚”和”大脑”,既可单独部署,也能协同运转。

很多人可能还停留在”大模型就是聊天、写文章、画图”的印象里。阿里这次的动作,本质是在回答一个根本问题:大模型的下一个增长点,到底在数字世界,还是在物理世界?答案已经很清楚——千问这次把三款模型同时端上桌,等于明确表态:具身智能不是远期愿景,而是当下就要打的硬仗。

💡 具身智能不是大模型的延伸,是大模型”长出手脚”的拐点。 过去几年,大模型一直在数字世界里打转——写文章、画图、写代码、对话。但所有的”能力”都停留在屏幕上,无法直接改变物理世界。具身智能要做的事,是把大模型的”思考”和真实世界的”动作”接上。这条路一旦跑通,大模型就从”工具”变成了”队友”,从”对话者”变成了”执行者”。

把过去十年大模型的发展拉一条线:2022 年 ChatGPT 开启”对话时代”,2024 年 Claude Code/OpenClaw 开启”Agent 时代”,而 2026 年这一波 Qwen-Robot 的发布,则可能开启”具身时代”——大模型终于从”屏幕”走向”现实”。

一、阿里突然放大招:Qwen-Robot 三大模型同时登场

把时间线拉回到 6 月 16 日下午。阿里官方对外披露,千问具身智能大模型 Qwen-Robot 系列正式发布,共包含三款基础模型:

Qwen-RobotManip:VLA(Vision-Language-Action,视觉-语言-动作)操作模型,负责机器人”灵巧的手”;
Qwen-RobotNav:VLN(Vision-Language Navigation,视觉-语言导航)移动模型,负责机器人”认路的脚”;
Qwen-RobotWorld:世界模型(World Model),负责机器人”会思考的大脑”。

三个模型并非各做各的。它们都提供语言优先的接口,通用 Qwen 模型可以直接把它们当作”物理世界工具”组合调用。同步公布的内部机器人智能体框架 Qwen-RobotClaw,则是让 Qwen VLM 智能体能够调用上述套件模型,完成开放式任务执行、长程操作、失败恢复等更复杂的真实场景。

新京报贝壳财经、东方财富、新浪、百家号等多家媒体同步报道,这次发布被普遍解读为”千问从数字世界迈向物理世界的关键一步”。整个 6 月,国内具身智能赛道已经进入”一周一发布”的密集节奏:6 月 13 日智平方 NeuroVLA、6 月 15 日它石智航 AWE 3.0、6 月 15 日大晓机器人宣布数亿美元融资、6 月 16 日同一天里,既有阿里 Qwen-Robot 三大模型,也有智源大会上的星源智 ω-EVA 世界模型、理想的马赫 VLA——这条赛道,正在以前所未有的速度”卷”起来。

二、Qwen-RobotManip:80 维统一动作表征 + 全开源数据训练

要让机器人在真实场景里”动手”,过去最大的拦路虎有两个:一是不同机器人硬件的”肢体语言”不统一,换一个本体,模型就要重新训练;二是真实操作数据高度依赖各家公司自采,数据集成了护城河,也成了小玩家难以跨越的门槛。

Qwen-RobotManip 的解法,从公开技术细节看,直接针对这两点。

第一,统一动作表征。模型采用一套 80 维的统一动作表征,为不同硬件平台定义了通用的”肢体语言”,让模型学习的是基础物理规律与操作逻辑,而不是对特定动作序列的机械记忆。换言之,不管是单臂、双臂、灵巧手还是移动平台,在 Qwen-RobotManip 眼里都是同一套语言。

第二,相对感知替代绝对坐标。模型不再依赖繁琐的绝对坐标计算,而是直接基于摄像头画面中的相对位置来操作,面对环境变化时响应更快、更准。这意味着同一套模型,搭载到不同硬件上,只需数步反馈即可自动适配,而不是从零微调。

第三,全开源数据训练。模型基于完全由开源数据构建的超过 38100 小时语料库完成预训练。这一步的意义被官方特意强调——区别于行业高度依赖私有自采数据的常规路径,模型全程仅基于开源数据训练,便取得了评测领先成绩。

成绩单也很硬。在横跨 30 项真实世界任务、覆盖 4 个机器人平台的第三方真机测评 RoboChallenge Table30 v1 中,代号”Lira”和”Atlas”的两个版本 Qwen-RobotManip 包揽了榜单前两名,完成的任务包括拧水龙头、插网线、双臂倒薯条等高难度操作。官方给它的评价是”基础任务稳定、高难任务可突破”。

其它关键基准上,Qwen-RobotManip 在 LIBERO-Plus 达到 91.4%,在 RoboTwin-Clean2Rand Hard 达到 69.4%,RoboChallenge Table30 通用赛道以 45% SR 排名第一,较此前的 SOTA 提升 20%。千问团队在公开技术博客中特别提到:”只有具备统一跨本体表示的模型才能展现稳定的数据规模化曲线——对齐是规模化的前提。”

💡 VLA 让机器人从”看到”走向”做到”,但真正的门槛从来不是看到,是做到。 在 VLA 模型出现之前,机器人视觉系统已经能识别物体、定位位置,但要把”看到”转化成”做到”,需要把感知、决策、动作三件事同时对齐到一个统一的表示空间里。Qwen-RobotManip 用的 80 维统一动作表征,本质是在解决”如何用同一套语言,指挥不同身体”的问题。这个看似简单的抽象,过去十年卡住了整个行业。

三、Qwen-RobotNav:让机器人”看图认路”,已上宇树 Go2 真机

文内图3

如果说 VLA 让机器人能动手,那么 VLN(Vision-Language Navigation)模型,就是让机器人能认路、会跑腿。

Qwen-RobotNav 定位为物理智能体的”行动入口”。它通过可控观测编码和工具接口,把视觉语言能力接入移动控制,统一了指令跟随、点/目标导航、目标追踪和自动驾驶四类任务——这是一个相当激进的设定,意味着同一组权重可以同时跑室内导航和室外自动驾驶,不需要为每种场景单独训练模型。

训练数据方面,Qwen-RobotNav 在 1560 万条样本上完成训练。多个第三方基准上它都拿到了 SOTA(State Of The Art,当前最优):

VLN-CE RxR 达到 76.5% SR;
HM3Dv2 目标搜索 75.6% SR,仅用 RGB 模态就超越了所有深度方法;
NAVSIM 拿到 91.4 PDMS。

更值得注意的是,这套模型已经在宇树 Unitree Go2 四足机器人上实现了零样本真实环境部署。零样本意味着,在训练时没有见过 Go2 这个具体平台,但模型拿到新硬件后直接就能跑,不需要重新微调。这背后正是统一动作表征 + 相对感知这套范式在起作用——算法不再绑定硬件。

💡 会认路的机器人,本质是”在脑子里先走一遍”。 VLN 模型的真正价值,不是教机器人避开障碍物,而是让它在执行移动之前,先在内部构建一张”语义地图”——这条路通向哪里、那个房间是什么、这个人是不是目标。这背后的关键能力,是大语言模型的”空间推理”,而不是传统的 SLAM。Qwen-RobotNav 在 NAVSIM 上拿到 91.4 PDMS,意味着它已经能像人类一样,在拿到一个高层指令后,自动规划出”先去 A,再绕 B,最后到 C”的路径。

四、Qwen-RobotWorld:会”预演未来”的世界模型,EWMBench 全球第一

如果说 VLA 和 VLN 是”做事”的两个身体部位,那么世界模型就是机器人的”大脑”——它要解决一个根本问题:在我做出动作之前,世界会怎么变?

Qwen-RobotWorld 通过自然语言动作接口,让同一个世界模型能够跨操作、驾驶和导航场景,预测符合物理规律的未来。支撑它的是:

860 万视频-文本对;
超过 2 亿帧的具身世界知识语料;
60 层双流 MMDiT(Multimodal Diffusion Transformer,多模态扩散 Transformer)架构;
与 Qwen2.5-VL 语义表示深度耦合的视频隐变量建模。

具体到成绩,模型以完整多模态大语言模型作为动作编码器,内化了手臂刚体、液体扩散、物体下落等物理常识。在 EWMBench 上拿下总分第一,其中运动保真度超越亚军 33%。在 WorldModelBench 物理规律遵循维度上,在开源模型中排名第一。

这意味着,机器人在执行每一个动作之前,可以先在内部”预演”一遍未来会发生什么,再决定要不要真的去做——这正是具身智能从”走一步看一步”迈向”想清楚再动手”的关键一步。同一天智源大会上,星源智发布的 ω-EVA 世界模型也走了类似路线,把”预演—验证—行动”作为核心闭环。两家中国公司不约而同选择世界模型,说明业内对”具身大脑”的认知正在收敛。

💡 世界模型的本质不是预测画面,是预测物理。 大众很容易把世界模型等同于”视频生成”——给它一帧画面,让它生成下一帧。但真正的世界模型,需要预测的不是像素级的光流变化,而是物理规律级别的演化:杯子掉下去会碎、液体泼出会扩散、手臂推一下物体它会动。Qwen-RobotWorld 内化了”手臂刚体、液体扩散、物体下落”等常识,正是从”像素生成”升级到”物理推理”的关键一步。这也是为什么它在 EWMBench 运动保真度上能超越亚军 33%——它预测的”未来”更接近真实世界会发生的未来。

五、Qwen-RobotClaw:让 VLM 智能体”指挥”机器人

文内图2

如果说三大模型是机器人的”身体”,那 Qwen-RobotClaw 就是连接”身体”和”大脑指挥官”的神经系统。

按照官方披露,这是一个内部机器人智能体框架,核心功能是让 Qwen VLM(Vision-Language Model,视觉语言模型)智能体能够将 Qwen-Robot Suite 模型作为物理世界工具调用,同时妥善管理长程任务所需的上下文与记忆。这套框架可以完成开放式任务执行、长程操作、失败恢复、智能体导航与具身问答等复杂场景。

用更直白的话讲:过去我们看到的具身智能,常常是”一个机器人 + 一个专用模型”做一件具体的事;而 Qwen-RobotClaw 想做到的是”一个智能体 + 三个通用模型”,让 VLM 智能体去规划,再把不同子任务分派给 Manip、Nav、World 去执行。这和 AI Agent 这两年强调的”工具调用 + 任务分解”是一脉相承的——只不过这次的工具,从 API 换成了物理世界的机器人。

如果这套范式真能跑通,意味着具身智能的部署门槛会被进一步拉低,未来一个团队甚至一个人,只要能写出清晰的 Prompt,就能调度一队形态各异的机器人去完成不同任务。

💡 Qwen-RobotClaw 的真正意义:让 VLM 智能体降维成”机器人调度者”。 过去的 VLM 智能体调用的是数字世界的工具(API、数据库、文档),而 Qwen-RobotClaw 让 VLM 智能体可以调用物理世界的工具(机器人硬件)。这背后是一整套 Agent 范式的扩展:从”调用 API”升级为”调用物理实体”。试想一下,未来你只要对 VLM 智能体说一句”帮我把桌上这杯水拿过来”,它内部就会自动分解成”识别杯子(Qwen2.5-VL)→ 规划移动路径(Qwen-RobotNav)→ 控制机械臂(Qwen-RobotManip)→ 预演抓取动作(Qwen-RobotWorld)”,然后直接执行——这就是一个真正的”具身 Agent”。

六、行业分水岭:具身智能从”实验室”走向”真机落地”

为什么阿里这次发三款模型会让行业震动?因为它踩中的,是整个具身智能赛道最关键的临界点。

新京报在报道中直接点出:当前全球具身智能行业正处于从”实验室研发”向”真实场景商业化”跨越的临界点。能否在陌生环境里听懂指令、稳定执行,是这道门槛的核心。

把过去 30 天的事件放在一起看,这条赛道正在以前所未有的速度被”催熟”:

5 月 19 日:宇树科技发布 WVLA2.0 具身大模型,开源 UnifoLM-VLA-0,搭载该模型的 G1 人形机器人可在真实办公环境中自主完成会议室整理;
5 月底:Physical Intelligence 发布 π*0.6,大幅提升机器人操作成功率和吞吐量;
6 月 4 日:Figure AI 发布 Helix 模型,采用双模块架构(70 亿参数 VLM + 8000 万参数视觉运动控制),在嵌入式低功耗 GPU 上本地运行,训练数据仅为同类模型的 5%;
6 月 13 日:智平方 NeuroVLA 在智源大会首秀,皮层-小脑-脊髓三层架构,机器人运动抖动降低 75% 以上,脊髓层平均功耗仅 0.4 瓦;
6 月 15 日:它石智航披露 AWE 3.0,完成中国具身智能最大单笔融资;
6 月 15 日:大晓机器人宣布数亿美元天使+轮融资,世界模型”开悟 3.0″在 4 项全球具身智能基准测试中取得 SOTA;
6 月 16 日:阿里 Qwen-Robot 三大模型同步发布;星源智 ω-EVA 在智源大会发布;理想发布马赫 VLA 大模型 + 马赫 M100 芯片(单芯片 1280 TOPS)。

从”一周一发布”到”一天三发布”,具身智能已经走到 L2 阶段(具备推理能力)向 L3 阶段(真正意义上的智能体时代)的关键过渡。

💡 一周一发布到一天三发布,具身智能进入”加速度时代”。 把过去 30 天的事件按时间轴排开:5 月中旬宇树 WVLA2.0 → 5 月底 PI π0.6 → 6 月初 Figure Helix → 6 月 13 日智平方 NeuroVLA → 6 月 15 日它石 AWE 3.0 + 大晓融资 → 6 月 16 日阿里 Qwen-Robot 三大模型 + 星源智 ω-EVA + 理想马赫 VLA ——这条赛道过去一年是”月度更新”,现在变成了”日内三个发布”。这种加速度,上一次出现还是在 2023 年的”百模大战”。具身智能的 L3 时代,可能比大多数人预期的更早到来。

七、竞品横评:阿里 vs 智平方 vs 它石 vs 星源智 vs 理想

文内图1

如果把过去一周国内主要玩家摆在一起做对比,可以更清楚地看到阿里这次的位置:

公司/产品	技术路线	核心亮点	评测成绩	发布日期
阿里 Qwen-Robot	VLA + VLN + World 三件套 + Claw 框架	全开源数据训练、统一动作表征、跨 4 机器人平台	RoboChallenge Table30 第一/第二;EWMBench 总分第一	6/16
智平方 NeuroVLA	皮层-小脑-脊髓三层架构	运动抖动降 75%、脊髓层 0.4W	AlphaBrain 平台开源;Video2Act 超硅谷 30%	6/13
它石智航 AWE 3.0	真实人类数据 + 模型 + 灵巧手	中国具身智能最大单笔融资	ICRA 2026 首秀	6/15
星源智 ω-EVA	具身交互世界模型	“预演—验证—行动”闭环	与 RoboChallenge 互补	6/16
理想马赫 VLA	车规级 VLA + 3D ViT + M100 芯片	1280 TOPS 单芯片算力	道路实测	6/16
Figure Helix(美国)	双模块 VLA	嵌入式低功耗、训练数据仅 5%	工业实测	6/4
Physical Intelligence π0.7(美国)	VLA + 世界模型 BAGEL 融合	强化学习提升吞吐	工业实测	5 月底

从对比可以看出,阿里的差异化有两点特别突出:第一,它是国内唯一一家把”VLA + VLN + World”三件套同时放出来的厂商,产品矩阵的完整度最高;第二,它在三大评测中同时拿到了榜单第一,且强调”全开源数据训练”,打破了行业对私有数据的依赖。

八、为什么是”开源数据”?打破行业的私有数据依赖

具身智能过去几年,数据一直是横在所有玩家面前的”老大难”问题。原因是真实的机器人操作数据采集成本极高,一个团队往往要花几个月时间、几百万资金,才能积累几小时高质量数据。这导致头部玩家形成了”数据护城河”,新进入者基本无路可走。

Qwen-RobotManip 这次能在 RoboChallenge Table30 上拿到第一,全程只用了开源数据,且语料规模超过 38100 小时。这件事的意义远不止”模型变强”那么简单——它意味着具身智能的数据飞轮,有可能从”封闭循环”走向”开源循环”。

如果说 2023 年是”百模大战”,2024-2025 年是”Agent 元年”,那么 2026 年的具身智能行业,正在悄然进入”开源数据战”。谁能把高质量的真实机器人操作数据开源出去,谁就能在数据飞轮上跑得更快。阿里这次显然在下一盘更大的棋:用开源数据换开源生态,再用生态反哺模型迭代。

💡 全开源数据训练意味着:具身智能的数据飞轮,正在从”封闭循环”走向”开源循环”。 过去,头部玩家靠自采数据形成护城河;而 Qwen-RobotManip 用 38100 小时开源数据,在 RoboChallenge Table30 上拿到第一,等于向行业宣告:开源数据已经足够训出 SOTA 模型。这件事的连锁反应,会在未来 6-12 个月逐步显现:中小团队可以用更低成本搭出可用的具身方案,真实场景数据会通过开源社区反哺回模型迭代,行业从”数据割据”走向”数据共创”。这是具身智能版的”Linux 时刻”。

九、对普通人和行业的 4 个影响 + 5 个关注点

9.1 四个影响

机器人部署门槛会进一步降低。原本只有大公司才能跑得起的具身智能,后续基于开源 Qwen-Robot 系列可以快速做场景化定制,中小团队甚至个人开发者,都有机会快速搭出可用的机器人方案。

VLM 智能体将开始”接管”机器人。Qwen-RobotClaw 框架的出现,意味着”通用智能体调度专用工具”这一范式,从数字世界正式延伸到物理世界,未来 Prompt 工程将从”对话”变成”调度”。

世界模型成为新的竞争焦点。VLA 和 VLN 已经在 2025 年被卷成红海,2026 年的差异化重点,正从”VLA 谁更强”转向”世界模型谁能更准地预测未来”。

国产具身智能将进入”全栈对标”阶段。从大模型(VLM)、操作模型(VLA)、导航模型(VLN)、世界模型到智能体框架(Claw),阿里这次给了行业一个全栈对标范本,后续国内其他玩家也会加速补齐自己的全栈能力。

💡 机器人部署门槛的降低,本质是”机器人工程师”这个职业的重新定义。 过去做一个具身智能项目,需要懂硬件、懂控制、懂深度学习、懂业务,团队成本极高。Qwen-Robot 系列 + Claw 框架的出现,意味着未来的”机器人工程师”可以更接近”AI 工程师”——核心工作从写底层控制代码,转向写 Prompt、设计任务流、调试智能体。这是行业人才结构的根本变化,也是新的就业窗口。

9.2 五个值得关注的问题

数据开源可持续吗?38100 小时的语料从哪里来?后续如何持续维护?
真机部署成本到底多高?开源模型不等于零成本,硬件适配、长尾场景仍是大头;
跨厂商硬件兼容能不能真的跑通?统一动作表征在实验室里能跑,在工厂里能否稳定?
世界模型的物理规律遵循,评测和真机差多少?EWMBench 第一,在长尾物理场景(液体扩散、柔性物体)能否保持?
生态能不能形成?Claw 框架是否能吸引足够多第三方机器人厂商接入,真正形成”机器人 App Store”?

十、互动话题

你最看好具身智能赛道哪个方向?

A. VLA 操作模型(让机器人能动手)
B. VLN 移动模型(让机器人能跑腿)
C. 世界模型(让机器人能预演)
D. 智能体框架(让 VLM 智能体能调度机器人)

欢迎在评论区说说你的判断。

参考资料

新京报贝壳财经:《阿里连发三款 Qwen-Robot 系列具身大模型》2026-06-16
新浪财经:《阿里发布重磅大模型新品》2026-06-16
东方财富网:《阿里发布首个具身大模型 Qwen-Robot 系列》2026-06-16
百家号(港股解码):《阿里巴巴(09988)发布首个具身 Qwen-Robot 系列大模型打通物理世界行动闭环》2026-06-16
百家号(网易科技):《三连发!阿里发布首个具身大模型 Qwen-Robot 系列》2026-06-16
百家号(IT时代网):《千问发布 Qwen-Robot 具身智能系列》2026-06-16
百家号(智源大会):《星源智推出世界模型 ω-EVA,具身大脑再升级》2026-06-16
百家号(雷峰网):《对话它石智航丁文超:具身智能,如何迈进「2.0 时代」?》2026-06-15
网易科技:《智平方发布类脑式具身智能系统 NeuroVLA》2026-06-15
百家号:《大晓机器人完成数亿美元天使+轮融资》2026-06-16
百家号:《理想把具身智能讲透了!马赫 VLA 大模型 + 马赫 M100 芯片》2026-06-16
官方技术博客(综合):Qwen-Robot Manip/Nav/World 详细技术指标 2026-06-16

阿里千问Qwen-Robot系列:三大模型让机器人边走边看边思考,具身智能进入加速度时代

一、阿里突然放大招:Qwen-Robot 三大模型同时登场

二、Qwen-RobotManip:80 维统一动作表征 + 全开源数据训练

三、Qwen-RobotNav:让机器人”看图认路”,已上宇树 Go2 真机

四、Qwen-RobotWorld:会”预演未来”的世界模型,EWMBench 全球第一

五、Qwen-RobotClaw:让 VLM 智能体”指挥”机器人

六、行业分水岭:具身智能从”实验室”走向”真机落地”

七、竞品横评:阿里 vs 智平方 vs 它石 vs 星源智 vs 理想

八、为什么是”开源数据”?打破行业的私有数据依赖

九、对普通人和行业的 4 个影响 + 5 个关注点

9.1 四个影响

9.2 五个值得关注的问题

十、互动话题

参考资料

龙主编

我要评论

阿里千问Qwen-Robot系列:三大模型让机器人边走边看边思考,具身智能进入加速度时代

一、阿里突然放大招:Qwen-Robot 三大模型同时登场

二、Qwen-RobotManip:80 维统一动作表征 + 全开源数据训练

三、Qwen-RobotNav:让机器人”看图认路”,已上宇树 Go2 真机

四、Qwen-RobotWorld:会”预演未来”的世界模型,EWMBench 全球第一

五、Qwen-RobotClaw:让 VLM 智能体”指挥”机器人

六、行业分水岭:具身智能从”实验室”走向”真机落地”

七、竞品横评:阿里 vs 智平方 vs 它石 vs 星源智 vs 理想

八、为什么是”开源数据”?打破行业的私有数据依赖

九、对普通人和行业的 4 个影响 + 5 个关注点

9.1 四个影响

9.2 五个值得关注的问题

十、互动话题

参考资料

微信分享

龙主编

相关推荐

我要评论

扫码关注