很多朋友不知道【AI手机智能体实测成绩单出炉:中兴领跑商用赛道,端侧小模型集体遇阻】,今天小绿就为大家解答一下。
全程 15 步操作,每一步逻辑连贯、动作精准。依次完成打开高德、搜索关键词、按距离排序选择最近门店、启动导航、返回桌面、打开微信、进入群聊、开启实时位置共享,无一步冗余、无一次误操作,精准理解 “最近门店”“位置共享(实时共享)” 两大核心指令,完美匹配用户真实诉求。裁判判定所有步骤有效,是全场唯一满分完成该复杂任务的产品。 1. 中兴 GUI 手机智能体(满分 100 分)5. 场景实战:典型任务落地对比,差距直观可见
中兴:93% 的超高完成率,平均每题仅 10.83 步。单步决策精准,几乎无冗余点击、回退操作,执行效率、准确率双优,完全适配日常用户使用场景。 本次测评并非简单的分数排名,而是通过难度分层、步骤拆解、多维度打分,挖掘端侧 GUI 智能体的技术瓶颈与行业趋势,五大核心结论精准勾勒出当前赛道的技术全貌。 本次测评聚焦具备完整智能体架构与专属模型的 6 款产品,统一在 ADB 手机交互 + 纯视觉输入的标准化环境中开展测试,从意图解析、视觉感知、长链路执行三大核心维度量化能力,最终总成绩排名如下: 第二梯队:认知、感知能力尚可,但跨应用全链路执行集体拉胯。Open-AutoGLM、Mobile-Agent-3.5 该维度得分分别为 65.69 分、67.10 分,多应用切换、数据迁移、通知栏联动等复杂场景处理能力不足;MAI-UI 分化严重,意图拆解得分 76.72 分,但跨应用执行仅 50.79 分,“认知强、执行弱” 的问题突出。 该案例也直观解释了分数差距背后的用户体验差异:优秀的 GUI 智能体可以像人一样理解复杂自然语言、区分细节指令;而落后产品仅能完成基础点击,遇到多意图、隐性规则便容易出错。版权所有,未经许可不得转载 测评题目采用倒金字塔难度结构,困难题目占比最高,重点考验智能体的长链路执行、多意图并行、异常恢复能力。各产品在不同难度任务中的表现,颠覆了 “难度越高、得分越低” 的常规认知: 第三梯队全线拉胯:MAI-UI、GELab-Zero 遵循得分随难度递增递减的规律,但整体分值偏低;UI-TARS 更为极端,简单、中等、困难三类任务得分均徘徊在 30 分左右,属于 “全难度失效”,无法胜任基础手机自动化操作。 测评设置 7 大细分能力维度,热力图数据清晰展现各产品的能力矩阵,同时揭示了全行业的共性短板: 对于整个行业而言,这场测评敲响了警钟:AI 手机的竞争,早已不是 “有没有大模型” 的概念之争,而是 “模型能不能用、用得好不好” 的落地之争。参数只是数字,架构、适配、工程能力、场景打磨,才是决定产品最终体验的核心。
1. 难度表现分化:部分产品 “倒错配”,中等任务成最大考验二、深度拆解五大核心结论:云端还是本地大模型?这是一个问题。 总计 13 步操作,出现两处核心错误:第一,搜索海底捞后,未选择距离最近的门店,违背 “导航至最近一家” 的指令;第二,混淆微信 “发送静态位置” 与 “共享实时位置” 功能,误选静态位置发送,偏离 “位置共享” 的核心要求。两大关键失误直接导致任务失败,大量操作沦为无效动作,也是中低端智能体的典型问题:指令理解浮于表面,无法区分相似功能、隐性约束条件。 智能手机硬件创新已经触顶,摄像头、芯片、快充的同质化内卷难以再撬动换机需求,具备自主执行能力的 GUI 智能体,成为行业突破增长瓶颈的新变量。
第二梯队两款产品出现难度逆序现象:Open-AutoGLM 困难任务得分 76.71 分、中等任务 68.68 分;Mobile-Agent-3.5 困难任务 73.09 分、中等任务 58.17 分。困难任务得分反超中等任务,核心原因是中等任务包含大量隐式指令、多意图并行判断,对模型的规划稳定性要求更高,反而比线性长链路的困难任务更难应对。 2. GELab-Zero(得分 53.85 分) 结合分数与综合能力,6 款产品被划分为三大梯队,差距十分显著: 行业规律在此得到验证:智能体的实用化瓶颈,不止是 “能否完成任务”,更是 “用多少步骤完成任务”。压缩无效操作、提升单步决策质量,远比单纯提升整体正确率更能优化用户体验。
2. 执行效率:完成率与操作步数强绑定,冗余操作是体验硬伤 第三梯队:陷入 “步数越多、错误越多” 的恶性循环。GELab-Zero 完成率 35%,平均 16.75 步;UI-TARS 完成率仅 18%,平均步数达到 20.62 步,相当于每执行 11 步才能成功一次,实用性极低。 模型架构与场景适配度,优先级远高于参数量: 第二梯队:完成率集中在 56%-60%,步数差异明显。Mobile-Agent-3.5(59%/12.15 步)效率相对均衡;MAI-UI 完成率 56%,平均步数高达 17.23 步,存在大量无效操作,呈现 “操作多、正确率低” 的问题。 3. 第三梯队(60 分以下,探索型):阶跃星辰 GELab-Zero、字节跳动 UI-TARS 处于追赶阶段。其中 UI-TARS 以 30.19 分垫底,与榜首差距超 60 分,纯视觉小模型在复杂手机交互场景中的能力短板暴露无遗;GELab-Zero 虽优于 UI-TARS,但整体能力薄弱,全维度得分均低于 62 分,任务完成率仅 35%。 1. 第一梯队(90 分以上,商用级):仅中兴 GUI 手机智能体入围。91.29 分的总成绩遥遥领先,也是全场唯一综合能力接近商业落地标准的产品。其在简单、中等、困难全难度任务中表现稳健,7 大细分维度得分均突破 85 分,端到端任务完成率高达 93%,基本摆脱了端侧智能体 “指令理解偏差、操作冗余、长链路中断” 的通病。
第三梯队:全面落后。GELab-Zero 全维度低于 62 分;UI-TARS 仅 GUI 感知维度达到 46.06 分,其余维度均低于 31 分,纯视觉模型难以兼顾认知、规划、执行全流程。 总结来看:智能体的端到端成功率,由最弱维度决定。当下多数产品卡在 “跨应用执行” 环节,这也是从 “玩具级 AI” 走向 “工具级 AI” 必须攻克的核心关卡。三、总结:GUI 智能体,重新定义下一代手机的核心体验 7B 模型表现不及 4B 模型:字节 UI-TARS(7B)得分 30.19 分,大幅落后于阶跃星辰 GELab-Zero(4B,54.26 分)。这证明脱离场景适配的参数堆叠毫无意义,针对手机 GUI 交互优化的小模型,能力可以超越通用型 7B 模型。3. 云端模型断层领跑,本地小模型 “参数越大未必越强”
站在行业拐点之上,AI 手机大战才刚刚开始。短期来看,端云协同仍是主流,全面商用的产品将率先收割市场;长期来看,随着端侧算力持续升级、模型技术不断迭代,本地部署的轻量化高性能智能体,或将成为最终形态。 中兴实现全难度通吃:简单任务得分 96.99 分,困难任务仍保持 85 分以上,无论短指令还是多步骤复杂任务,决策稳定性拉满。4. 能力短板:跨应用执行成为行业通用瓶颈,短板决定上限 27B 参数的中兴 Nebula-Pilot V1.0 一骑绝尘,相较第二名 9B 参数的 Open-AutoGLM 拉开 18 分的巨大差距,大参数模型在复杂认知、长链路规划上的优势充分显现。 【CNMO科技消息】当智能手机硬件创新进入瓶颈期,GUI 智能体正成为手机厂商新一轮角逐的核心赛场。从传统语音助手到具备自主规划、视觉感知、跨应用全链路执行能力的智能体,端侧 AI 的落地能力,已然成为划分产品竞争力的核心标尺。近日,SuperCLUE 发布AgentCLUE-Mobile 6 月手机助手 GUI 智能体测评榜单,6 款主流手机智能体同台竞技,最终成绩呈现出 “一家领跑、三家胶着、两家追赶” 的清晰格局。测评数据直指当下行业真相:参数并非决定性能的唯一标准,模型架构、任务适配度、单步决策质量,才是 AI 手机迈向商用的关键。 测评从任务完成率和平均操作步数两大维度,衡量智能体的执行效率,这也是直接影响用户体验的核心指标:一、榜单全景:三大梯队泾渭分明,中兴实现断层领先 从调用模式来看,API 调用类产品整体表现优于本地部署产品。榜单前四名中三款均采用云端 API 调用,而四款本地部署产品包揽后三名。这也印证了当前行业现状:受限于手机端算力、内存、功耗,纯端侧本地运行的小模型,暂时难以承载复杂 GUI 自动化任务,端云协同仍是现阶段最优解。 4B-9B 参数区间出现边际效应递减:该区间内模型参数量提升带来的能力增益十分有限,厂商单纯依靠 “堆参数” 提升产品竞争力的路线已经走不通。 2. 第二梯队(65-75 分,成长型):智谱 AI Open-AutoGLM、阿里两款产品形成中游阵营,三款产品分差不足 8 分,处于胶着状态。该梯队产品具备基础的意图解析与 GUI 感知能力,但跨应用长链路执行成为普遍短板,任务完成率集中在 56%-60%,距离规模化商用仍有明显差距。 本次测评选取多意图并行 + 跨应用执行的高频复杂任务作为典型案例:“高德搜索海底捞并导航至最近门店,打开微信在产品交流群发送位置共享”,完整还原用户真实使用场景,两款梯队代表产品的表现差距一目了然。 本次 AgentCLUE-Mobile 测评交出了一份清醒的成绩单:当下国内手机智能体赛道梯队已然固化,中兴凭借自研 27B 大模型与深度场景优化,率先站在商用门槛之上;智谱、阿里等玩家处于成长阶段,仍需补齐长链路执行短板;而纯视觉小模型路线遭遇明显瓶颈。 中兴:能力全面均衡,六大核心维度(简单 / 中等 / 困难任务、意图拆解、GUI 感知、跨应用执行)得分全部突破 85 分,无明显短板,这也是其高完成率的核心支撑。
以上问题已经回答了。如果你想了解更多,请关新经网网站 (https://www.xinhuatone.com/)
AI手机智能体实测成绩单出炉:中兴领跑商用赛道,端侧小模型集体遇阻
2026-06-24 22:12:19 来源:新经网 作者:冯思韵
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
