720億參數專用智能體突破操作瓶頸，明略科技(02718.HK)Mano登頂OSWorld專項榜單

新時空 · 2025/11/11 11:55 · 孫佳怡

明略科技自研GUI智能體Mano在OSWorld評測中以54.0%任務成功率創下新紀錄，位列專用模型第一、總榜第二。該模型參數規模已達720億，較上月性能顯著提升，標志着AI操作執行能力取得實質性突破。

根據OS-WorldE2E基準測試官方公布的最新數據（截至2025年10月），明略科技自主研發的GUI智能體大模型Mano在任務成功率方面取得突破性進展。該模型以54.0%的端到端任務成功率在OSWorld評測中創下新紀錄，位列專用模型類別首位，同時在模型總榜排名第二，僅次於Anthropic公司最新發布的Claude 4.5模型。

技術參數顯示，Mano模型規模已從今年9月的7B參數擴展至72B參數（約720億），任務完成率相應從40.1%提升至54.0%，顯示出明顯的性能進步。這一成果標志着專用智能體模型在真實環境操作任務中的執行能力達到新的水平。

OSWorld作爲當前全球公認的操作智能評測體系，涵蓋10類應用場景和369項跨應用任務，要求模型在真實桌面和瀏覽器環境中完成連續操作任務。此類任務相比傳統問答任務更爲復雜，需要模型同時具備內容理解、界面結構識別和多步驟邏輯連貫執行能力。

根據明略科技發布的技術報告《Mano Technical Report》（論文編號：arXiv:2509.17336），該模型採用區別於傳統語言模型的技術路徑。其訓練基於高保真模擬計算機環境，通過監督微調、離線強化學習和在線強化學習三個階段，使模型在虛擬操作系統中學習界面操作技能。研究團隊引入的“推理-執行-驗證”執行閉環機制，使模型具備操作過程中的自我修正能力。

數據顯示，通過引入在線強化學習訓練，Mano模型平均任務完成率提升約14個百分點，在多步驟任務中表現尤爲穩定。這一技術突破體現了專用智能體在特定任務領域的執行深度與穩定性優勢，爲人工智能從語言理解向操作執行的能力遷移提供了實證。

新時空聲明： 本內容爲新時空原創內容，復制、轉載或以其他任何方式使用本內容，須注明來源“新時空”或“NewTimeSpace”。新時空及授權的第三方信息提供者竭力確保數據準確可靠，但不保證數據絕對正確。本內容僅供參考，不構成任何投資建議，交易風險自擔。

關鍵詞：