谷歌公司近日正式推出新一代人工智能模型Gemini 3,憑借其突破性的多模態(tài)理解能力和深度推理性能,迅速成為科技領(lǐng)域焦點。該模型被官方定義為"通往通用人工智能(AGI)的關(guān)鍵里程碑",不僅在主流基準測試中全面超越前代產(chǎn)品,更通過創(chuàng)新功能重塑了AI應用邊界。

核心版本包含Gemini 3 Pro與增強推理模式Deep Think。Pro版本在LMArena測評中以1501分刷新紀錄,在Humanity's Last Exam測試中展現(xiàn)博士級推理能力(無工具得分37.5%),數(shù)學領(lǐng)域MathArena Apex得分23.4%確立新標準。多模態(tài)處理方面,MMMU-Pro和Video-MMMU分別取得81%和87.6%的優(yōu)異成績,事實準確性指標SimpleQA Verified達72.1%。

Deep Think模式作為技術(shù)亮點,通過增強推理架構(gòu)進一步突破性能極限。在Humanity's Last Exam測試中提升至41.0%,GPQA Diamond得分93.8%,ARC-AGI-2測試(含代碼執(zhí)行)取得45.1%的突破性成果。該模式將率先向Google AI Ultra訂閱用戶開放,預計未來幾周完成安全評估后逐步推廣。

技術(shù)生態(tài)構(gòu)建方面,谷歌同步推出Agent開發(fā)平臺Antigravity,實現(xiàn)AI智能體與開發(fā)工具的深度整合。該平臺賦予Agent直接操作編輯器、終端和瀏覽器的權(quán)限,支持自主規(guī)劃復雜軟件任務并自我驗證代碼。通過集成Gemini 2.5 Computer Use瀏覽器控制模型和Nano Banana圖像編輯模型,形成覆蓋編程、設計、系統(tǒng)操作的完整工具鏈。

實際應用場景展現(xiàn)強大適應性。在WebDev Arena編碼測試中以1487分登頂,SWE-bench Verified驗證得分76.2%,Terminal-Bench 2.0終端操作測試達54.2%。針對普通用戶,100萬token的上下文窗口支持多模態(tài)信息綜合處理,可解讀手寫食譜生成電子烹飪書,或通過運動視頻分析制定訓練計劃。搜索服務引入生成式UI體驗,能根據(jù)查詢即時創(chuàng)建交互工具和沉浸式視覺布局。

長時程規(guī)劃能力通過Vending-Bench 2測試驗證,Gemini 3 Pro在全年模擬運營中保持決策一致性,實現(xiàn)業(yè)務回報最大化。該特性使其能高效處理預訂管理、郵件分類等現(xiàn)實工作流。谷歌宣布將新一代模型全面接入搜索服務,成為首家在發(fā)布首日即實現(xiàn)搜索集成的科技企業(yè)。

產(chǎn)品部署采取分層策略:普通用戶可通過Gemini App和搜索AI模式(需Pro/Ultra訂閱)立即體驗;開發(fā)者可通過AI Studio、Antigravity平臺及CLI工具訪問;企業(yè)客戶則通過Vertex AI和Gemini Enterprise方案部署。此次發(fā)布標志著谷歌"全棧式AI"戰(zhàn)略進入新階段,將前沿模型深度整合至搜索、辦公、開發(fā)等核心業(yè)務場景。