根據OS-WorldE2E基準測試官方公佈的最新數據(截至2025年10月),明略科技自主研發的GUI智能體大模型Mano在任務成功率方面取得突破性進展。該模型以54.0%的端到端任務成功率在OSWorld評測中創下新紀錄,位列專用模型類別首位,同時在模型總榜排名第二,僅次於Anthropic公司最新發佈的Claude 4.5模型。
技術參數顯示,Mano模型規模已從今年9月的7B參數擴展至72B參數(約720億),任務完成率相應從40.1%提升至54.0%,顯示出明顯的性能進步。這壹成果標誌著專用智能體模型在真實環境操作任務中的執行能力達到新的水平。
OSWorld作為當前全球公認的操作智能評測體系,涵蓋10類應用場景和369項跨應用任務,要求模型在真實桌面和瀏覽器環境中完成連續操作任務。此類任務相比傳統問答任務更為復雜,需要模型同時具備內容理解、界面結構識別和多步驟邏輯連貫執行能力。
根據明略科技發佈的技術報告《Mano Technical Report》(論文編號:arXiv:2509.17336),該模型採用區別於傳統語言模型的技術路徑。其訓練基於高保真模擬計算機環境,通過監督微調、離線強化學習和在線強化學習三個階段,使模型在虛擬作業系統中學習界面操作技能。研究團隊引入的“推理-執行-驗證”執行閉環機制,使模型具備操作過程中的自我修正能力。
數據顯示,通過引入在線強化學習訓練,Mano模型平均任務完成率提升約14個百分點,在多步驟任務中表現尤為穩定。這壹技術突破體現了專用智能體在特定任務領域的執行深度與穩定性優勢,為人工智能從語言理解向操作執行的能力遷移提供了實證。
新時空聲明: 本內容為新時空原創內容,復制、轉載或以其他任何方式使用本內容,須註明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠,但不保證數據絕對正確。本內容僅供參考,不構成任何投資建議,交易風險自擔。
