明略科技(2718.HK)自研大模型Mano再创世界级里程碑!
据OS-WorldE2E官方榜单最新数据(截至2025年10月),明略科技自主研发的GUI智能体大模型Mano以54.0%的任务成功率刷新纪录,在Specialized模型分类中位列全球第一,总榜排名第二,仅次于Anthropic最新发布的Claude 4.5。

在OSWorld-Verified榜单的FoundationE2EGUI评测中,Mano以72B参数规模位列总榜第二;而在Foundation E2E GUI&Specialized Model专项评测中,该模型更以绝对优势登顶榜首。与今年9月首次提交的7B参数版本相比,Mano的参数规模扩展10倍至72B(约720亿),任务完成率从40.1%提升至54.0%,性能提升幅度达34.7%。这一突破标志着专用智能体在真实操作任务中的执行能力迈入新阶段。

OSWorld作为全球最权威的“操作智能”评测体系,涵盖10类应用场景、369个跨应用任务,要求模型在真实桌面和浏览器环境中完成连续操作——例如打开电子表格、搜索信息、整理数据并完成填报。这类任务的复杂度远超传统问答生成,需要模型同时理解界面结构与操作逻辑,并在多步骤交互中保持连贯性。
此前测试显示,顶级通用大模型在OSWorld上的成功率普遍停留在30%-40%区间。而Mano72B以54.0%的端到端任务成功率,不仅刷新中国模型纪录,更让专用智能体首次在该领域跻身世界前列。其技术路线与传统语言模型存在本质差异:明略科技在《ManoTechnicalReport》(报告链接)中披露,模型通过在高保真模拟电脑环境中进行数百万次试错训练,系统掌握移动光标、点击按钮、识别菜单等基础操作,并逐步优化任务完成路径。
Mano的训练体系包含三个核心阶段:
研究团队设计的“Think–Act–Verify”执行闭环进一步强化了模型的容错能力:模型在操作前先分析界面状态(Think),执行动作后立即验证结果(Verify),若出现错误则自动调整步骤重新尝试。这种机制使Mano在处理复杂任务时表现稳定,例如在下载财务报表场景中,模型可自主完成浏览器登录、日期选择、错误重试等全流程操作。
论文数据显示,引入在线强化学习后,Mano的平均任务完成率提升14个百分点,尤其在多步骤任务中表现突出。研究团队强调:“通过环境交互获得反馈的学习方式,是突破操作智能瓶颈的关键——模型不再依赖静态语料库,而是具备‘学习如何行动’的动态能力。”
传统大模型评估侧重语言理解与内容生成,而GUI智能体的崛起将AI边界扩展至真实操作系统。与通用模型相比,专用智能体的核心优势在于聚焦特定任务,通过结构化数据、针对性强化学习和验证机制,在界面识别、动作规划和过程稳定性方面实现深度优化。
OSWorld官方评述指出,Mano的突破“展示了专用智能体在真实任务执行中的潜力,标志着多模态智能体研究进入工程化阶段”。对明略科技而言,Mano不仅是学术成果,更成为企业智能系统的底层技术。公司正探索将该模型嵌入数据分析、营销自动化、合规管理等场景,使其承担“数字助理”角色。未来研发方向包括提升推理效率、缩短交互步长,并推动端侧轻量化部署,使智能体能在普通硬件环境中稳定运行。
从7B到72B的参数扩展,从40.1%到54.0%的性能提升,Mano的进化历程本质上是能力维度的跨越——从语言理解转向操作智能。明略科技技术团队在报告中表示,未来将持续优化推理效率与任务泛化能力,探索端侧部署与行业落地路径,使智能体真正融入企业生产流程。“当模型不再仅输出答案,而是能独立完成任务时,人工智能才具备通往真实世界的执行力。”