金智维登顶ScreenSpot-Pro榜单,多项指标领先全球

2026-03-25 16:56   来源: 互联网

摘要:以小模型实现高精度界面定位,AI执行能力进入新阶段

近日,一项聚焦AI操作能力的全球性基准测试——ScreenSpot-Pro,开始从技术圈走向更广泛的行业视野。

在最新公布的ScreenSpot-Pro榜单中,金智维KV-Ground模型取得全面领先:其中,主流8B模型位列全榜单第一,超越了包括更大参数规模在内的所有模型;4B小模型位列4B参数模型第一,以更小模型实现更高性能。

这一结果也充分反映出,AI 正在从“听得懂指令”向“真正能够操作”迈进了关键一步。

ScreenSpot-Pro 测的是什么?

过去几年,业界常用“多模态能力”来衡量AI进步,例如能否看懂图片、理解页面内容,但在真实企业环境中,这些能力往往只停留在理解层面。真正决定AI能否落地的,是更具体的一环:AI能否在复杂的软件界面中,准确找到并指向应该点击的控件。例如,当财务人员需要在企业ERP系统中“生成上月销售汇总报表”时,AI不仅要理解指令,还必须在满是菜单、工具栏和层层弹窗的完整界面里,精准定位那个可能藏在角落的“导出”按钮。

ScreenSpot-Pro 重点考察的正是这一能力。在真实测试中,它会给模型一句自然语言指令,例如“打开高级筛选”或“导出当前报表”,然后要求模型在一张完整的、高分辨率的真实软件界面截图中,精准定位对应的按钮、菜单或输入框。这种技术能力被称为GUI Grounding,通俗来说,就是AI是否具备“操作电脑”的基础执行力。

ScreenSpot-Pro采用的是整屏、专业软件的高难度场景,覆盖办公、开发、设计、工程分析等23款真实应用,横跨多个行业与操作系统,所有任务均由资深专业人士标注。相比早期许多仅使用简化网页截图的测试,这个基准更接近企业日常工作的真实复杂程度,因此被广泛视为判断智能体能否真正落地的世界级关键标杆。它由多家知名学术机构联合打造,目前已被OmniParser v2、Qwen2.5-VL、UI-TARS等多个主流GUI智能体项目采用,成为行业共识性的重要参考。

金智维KV-Ground在高难度基准上的表现

根据ScreenSpot-Pro官方榜单数据,金智维KV-Ground-8B模型作为一款与智能体策略深度融合的模型,在ScreenSpot-Pro上得分80.5分,位列所有模型第一,成功超越包括更大参数模型在内的多个竞品;KV-Ground-4B模型得分67.0分,摘得4B规模组第一,在全榜单中同样表现突出。

这一成绩已非常接近人类在复杂界面定位任务中的表现水平,标志着金智维KV-Ground不仅能在专业高分辨率GUI场景中精准理解指令,更具备接近人类水准的动手执行能力。

值得关注的是,这一成绩并非单纯依赖更大参数规模。从基础模型到KV-Ground版本的对比实验显示,金智维KV-Ground在界面定位精度上实现了稳定提升,其采用的专项优化方法,能够在不同规模模型上被稳定复现和扩展,而非针对单一榜单的偶然突破。

小模型领先:企业真正需要的落地优势

在企业真实应用场景中,模型参数规模仍是重要指标之一,但并非唯一决定因素。金融机构需要快速处理报表,制造企业要在CAD软件中执行设计调整,研发团队则经常面对MATLAB或SolidWorks等专业工具……这些场景下,部署成本、响应速度和系统兼容性同样关键。在这一背景下,金智维KV-Ground-4B 小模型在复杂专业界面中仍保持较高精度,意味着企业可以在更低算力条件下实现类似能力。

换句话说,原本可能需要较高硬件投入的界面理解与操作能力,如今在更轻量的部署环境中也可以实现,原本中大模型动辄几十万甚至上百万元的服务器,大幅降低到仅需万元左右的设备即可满足,实现更低的时延和更高的性价比。当小模型也能精准完成复杂界面定位时,AI才真正具备大规模进入企业系统的条件,极大降低了企业级智能体的部署门槛。

从“能理解”到“能执行”:智能体落地迈出关键一步

长期以来,企业智能体一直都面临一道难关:大模型可以清晰理解任务,却难以直接完成操作;传统自动化工具可以执行固定流程,却缺乏灵活适应能力。而GUI Grounding能力的突破,填补了这条断层。

这也意味着,系统不需要改变,AI可以主动适应系统,企业因此能够以更低的门槛,将智能体融入日常业务流程,实现从辅助决策到直接执行的跃迁。

此次金智维KV-Ground在ScreenSpot-Pro这一世界级高难度基准上的领先表现,打破了“参数越大越强”的单一认知,展现出一条更注重效率与实用性的优化路径,即在专业GUI操作这一真实难题上,通过针对性优化,小规模模型同样能够达到世界领先水平,这也为行业提供了新的参考思路。

如今,AI的发展正在从拼规模转向拼能力结构,尤其是在企业落地场景中,高效与实用正成为核心竞争力。随着GUI Grounding等底层能力的持续成熟,企业级智能体将进一步走向实用阶段,AI不仅“会想”,更“会做”,真正成为驱动企业生产力的可靠力量。


责任编辑:Linda
分享到:
0
【慎重声明】凡本站未注明来源为"中华财经网"的所有作品,均转载、编译或摘编自其它媒体,转载、编译或摘编的目的在于传递更多信息,并不代表本站赞同其观点和对其真实性负责。如因作品内容、版权和其他问题需要同本网联系的,请在30日内进行!