人工智能領(lǐng)域再迎重要進(jìn)展,DeepSeek團(tuán)隊(duì)近日推出兩款全新模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。這兩款模型在性能表現(xiàn)上直追行業(yè)標(biāo)桿GPT-5和Gemini 3.0 Pro,且采用開(kāi)放權(quán)重模式,引發(fā)全球開(kāi)發(fā)者社區(qū)的廣泛關(guān)注。技術(shù)報(bào)告顯示,新模型在數(shù)學(xué)推理、代碼生成等復(fù)雜任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì),同時(shí)在計(jì)算效率方面取得突破性進(jìn)展。
核心架構(gòu)層面,DeepSeek-V3.2延續(xù)了前代模型的多頭潛在注意力機(jī)制(MLA),該技術(shù)通過(guò)壓縮鍵值張量實(shí)現(xiàn)內(nèi)存占用優(yōu)化。研究團(tuán)隊(duì)在此基礎(chǔ)上創(chuàng)新性地引入稀疏注意力機(jī)制(DSA),構(gòu)建出由閃電索引器(Lightning Indexer)和令牌選擇器組成的雙層結(jié)構(gòu)。閃電索引器利用壓縮表示計(jì)算令牌相關(guān)性分?jǐn)?shù),令牌選擇器則基于分?jǐn)?shù)篩選出最具價(jià)值的上下文片段。這種設(shè)計(jì)使模型在處理長(zhǎng)序列時(shí),計(jì)算復(fù)雜度從平方級(jí)降至線性級(jí),推理速度提升40%以上。
數(shù)學(xué)推理能力是本次升級(jí)的重點(diǎn)突破方向。研發(fā)團(tuán)隊(duì)專(zhuān)門(mén)構(gòu)建了DeepSeekMath V2驗(yàn)證系統(tǒng),該系統(tǒng)包含證明生成器、驗(yàn)證器和元驗(yàn)證器三個(gè)模塊。證明生成器負(fù)責(zé)輸出數(shù)學(xué)證明,驗(yàn)證器通過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練獲得評(píng)分能力,元驗(yàn)證器則對(duì)驗(yàn)證器的判斷進(jìn)行二次校驗(yàn)。這種分層驗(yàn)證機(jī)制有效解決了傳統(tǒng)強(qiáng)化學(xué)習(xí)模型"正確答案錯(cuò)誤推理"的缺陷,在奧數(shù)基準(zhǔn)測(cè)試中達(dá)到金牌水平。自我修正算法的引入使模型能夠通過(guò)多輪迭代持續(xù)優(yōu)化解答,實(shí)驗(yàn)顯示8次迭代后準(zhǔn)確率提升17%。
訓(xùn)練方法論方面,研究團(tuán)隊(duì)對(duì)群體相對(duì)策略?xún)?yōu)化算法(GRPO)進(jìn)行系統(tǒng)性改進(jìn)。針對(duì)數(shù)學(xué)推理任務(wù),模型采用零KL懲罰策略,允許更激進(jìn)的策略更新;在通用任務(wù)中則保留KL正則項(xiàng)以維持訓(xùn)練穩(wěn)定性。異策略序列掩碼技術(shù)通過(guò)過(guò)濾偏離策略的樣本,使梯度更新更加精準(zhǔn)?;旌蠈?zhuān)家路由機(jī)制確保訓(xùn)練階段與推理階段的專(zhuān)家激活模式一致,有效解決模型漂移問(wèn)題。這些優(yōu)化使GRPO在保持原始框架的基礎(chǔ)上,訓(xùn)練效率提升25%。
DeepSeek-V3.2-Speciale作為擴(kuò)展思維變體,在強(qiáng)化學(xué)習(xí)階段僅使用推理數(shù)據(jù)集進(jìn)行訓(xùn)練。通過(guò)取消長(zhǎng)度懲罰項(xiàng),模型生成響應(yīng)的平均長(zhǎng)度增加3倍,在復(fù)雜邏輯推理任務(wù)中展現(xiàn)出更強(qiáng)的解題能力。技術(shù)報(bào)告顯示,該變體在數(shù)學(xué)競(jìng)賽題上的得分率較標(biāo)準(zhǔn)版提升12%,但推理成本增加45%。這種性能與效率的權(quán)衡,為不同應(yīng)用場(chǎng)景提供了靈活選擇。
行業(yè)分析指出,DeepSeek新模型的發(fā)布標(biāo)志著開(kāi)放權(quán)重模型在推理能力上達(dá)到新高度。其創(chuàng)新的稀疏注意力架構(gòu)和分層驗(yàn)證機(jī)制,為解決大模型計(jì)算效率與性能平衡問(wèn)題提供了新思路。特別值得注意的是,研究團(tuán)隊(duì)同步開(kāi)源了模型代碼和訓(xùn)練日志,這種透明化做法將加速技術(shù)迭代進(jìn)程。隨著生態(tài)系統(tǒng)的逐步完善,開(kāi)發(fā)者社區(qū)有望在智能助手、自動(dòng)化編程等領(lǐng)域催生更多創(chuàng)新應(yīng)用。