谷歌公司近日宣布,正式推出其最新一代人工智能模型Gemini 3,標(biāo)志著公司在通用人工智能(AGI)研發(fā)道路上邁出關(guān)鍵一步。這款被定位為全球領(lǐng)先的多模態(tài)理解模型,不僅在推理能力上實(shí)現(xiàn)突破性進(jìn)展,更通過(guò)集成智能體編程和氛圍編程技術(shù),為用戶提供前所未有的交互體驗(yàn)。
據(jù)技術(shù)白皮書披露,Gemini 3 Pro在LMArena排行榜以1501分的Elo評(píng)分刷新紀(jì)錄,在數(shù)學(xué)推理基準(zhǔn)測(cè)試MathArena Apex中取得23.4%的先進(jìn)水平。該模型在處理復(fù)雜科學(xué)問(wèn)題時(shí)展現(xiàn)出博士級(jí)認(rèn)知能力,在未借助外部工具的情況下,于"人類終極考試"中取得37.5%的得分率,GPQA Diamond基準(zhǔn)測(cè)試準(zhǔn)確率更達(dá)到91.9%。特別值得關(guān)注的是,其多模態(tài)處理能力在MMMU-Pro和Video-MMMU測(cè)試中分別獲得81%和87.6%的優(yōu)異成績(jī)。
產(chǎn)品團(tuán)隊(duì)著重介紹了新推出的深度思考模式(Deep Think mode),這項(xiàng)增強(qiáng)功能通過(guò)擴(kuò)展推理鏈路長(zhǎng)度和優(yōu)化多模態(tài)理解機(jī)制,使模型在ARC-AGI-2基準(zhǔn)測(cè)試中取得45.1%的突破性成績(jī)。測(cè)試數(shù)據(jù)顯示,該模式在GPQA Diamond測(cè)試中的表現(xiàn)較基礎(chǔ)版本提升2個(gè)百分點(diǎn),達(dá)到93.8%的準(zhǔn)確率,展現(xiàn)出處理新型認(rèn)知挑戰(zhàn)的顯著優(yōu)勢(shì)。
在應(yīng)用場(chǎng)景拓展方面,Gemini 3實(shí)現(xiàn)了三大核心突破。學(xué)習(xí)領(lǐng)域,模型可自動(dòng)解析手寫菜譜、學(xué)術(shù)論文等跨模態(tài)資料,生成交互式學(xué)習(xí)卡片和可視化圖表。某測(cè)試案例中,系統(tǒng)成功將匹克球比賽視頻轉(zhuǎn)化為技術(shù)分析報(bào)告,并制定個(gè)性化訓(xùn)練方案。構(gòu)建層面,WebDev Arena排行榜顯示,該模型以1487分的ELO值領(lǐng)跑零樣本生成領(lǐng)域,在終端操作測(cè)試Terminal-Bench 2.0中取得54.2%的完成率。
針對(duì)開發(fā)者群體,谷歌同步推出智能體開發(fā)平臺(tái)Antigravity。該平臺(tái)通過(guò)專屬界面賦予AI智能體直接操作編輯器、終端和瀏覽器的權(quán)限,實(shí)現(xiàn)端到端軟件任務(wù)自主規(guī)劃。實(shí)測(cè)案例表明,系統(tǒng)可獨(dú)立完成航班追蹤應(yīng)用的代碼編寫與瀏覽器驗(yàn)證流程。平臺(tái)整合了計(jì)算機(jī)使用模型Gemini 2.5 Computer Use和圖像編輯模型Nano Banana,形成完整的開發(fā)工具鏈。
長(zhǎng)期規(guī)劃能力測(cè)試中,Gemini 3在Vending-Bench 2基準(zhǔn)測(cè)試中展現(xiàn)卓越表現(xiàn)。通過(guò)管理模擬自動(dòng)售貨機(jī)業(yè)務(wù),模型在持續(xù)一年的運(yùn)營(yíng)周期內(nèi)保持工具使用一致性,決策回報(bào)率較前代提升17%。這項(xiàng)突破使得系統(tǒng)能夠協(xié)助用戶完成整理郵箱、規(guī)劃旅行等復(fù)雜多步驟任務(wù),Google AI Ultra訂閱用戶現(xiàn)已可通過(guò)Gemini Agent體驗(yàn)相關(guān)功能。
安全評(píng)估體系方面,新模型接受了業(yè)界最嚴(yán)苛的測(cè)試流程。除內(nèi)部前沿安全框架檢驗(yàn)外,還邀請(qǐng)英國(guó)人工智能安全研究所等第三方機(jī)構(gòu)參與評(píng)估。測(cè)試結(jié)果顯示,模型在抗提示注入攻擊、抵御網(wǎng)絡(luò)濫用等方面表現(xiàn)顯著提升,諂媚性指標(biāo)下降32%。完整的安全評(píng)估報(bào)告已通過(guò)模型卡形式對(duì)外公開。