在人工智能基礎(chǔ)設(shè)施峰會上,歐洲人工智能芯片初創(chuàng)公司 Euclyd 從隱身模式中脫穎而出,提出了雄心勃勃的硬件架構(gòu)的一些細(xì)節(jié),該公司表示,與現(xiàn)有解決方案相比,該架構(gòu)將提供更低的功耗和更低的每個代幣成本。

Euclyd 聯(lián)合創(chuàng)始人兼產(chǎn)品副總裁 Ingolf Held 告訴 EE Times,為世界實(shí)現(xiàn)技術(shù)民主化是這家初創(chuàng)公司雄心壯志的一部分。

“經(jīng)過大量的頭腦風(fēng)暴,我們決定要為大規(guī)模的數(shù)據(jù)中心推理做點(diǎn)什么,但我們有一些基本規(guī)則,”Held 說。“電力是最終的運(yùn)營成本,因此最高的效率應(yīng)該提供最低的運(yùn)營成本,這將使我們能夠?qū)⑵渫茝V到任何地方,而不僅僅是在美國,向擁有數(shù)十億美元的超大規(guī)模企業(yè)推廣。”

Held 說,從一張白紙開始,讓這家初出茅廬的公司能夠從第一性原理考慮問題,從而提供了同時(shí)解決計(jì)算、內(nèi)存帶寬和內(nèi)存容量的機(jī)會。

Euclyd 提出的芯片是一種巨大的多小芯片 SiP 設(shè)計(jì),它稱之為 Craftwerk,將包含 16,384 個 SIMD 處理器,并提供高達(dá) 8 PFLOPS (FP16) 或 32 PFLOPS (FP4)。這些加工元件將由 Euclyd 從頭開始設(shè)計(jì)。赫爾德說,該設(shè)備將使用具有 2.5D 和 3D 元件的最大硅中介層(約 100 x 100 毫米)。

Euclyd 的多小芯片設(shè)計(jì)模型(來源:Euclyd)。

“我們將自己構(gòu)建它——我們不會繼承 Arm 或 RISC-V 的任何東西,它將完全可以使用內(nèi)部編程工具進(jìn)行編程,”他說。“它將支持今天的變壓器,但不僅限于此。”

赫爾德說,該設(shè)計(jì)將保持可編程性,以確保它能夠加速未來發(fā)生的任何情況,無論是多模態(tài)推理、推理、循環(huán)模型、狀態(tài)空間模型還是擴(kuò)散模型。

Euclyd 的定制內(nèi)存和性能

Euclyd 將計(jì)算小芯片與其稱為超帶寬內(nèi)存 (UBM) 的定制內(nèi)存設(shè)計(jì)配對。UBM 將在 Craftwerk SiP 中啟用 1 TB 的 DRAM,帶寬為 8000 TB/s。

赫爾德說,SRAM 速度很快,但市場上依賴它的人工智能加速器被迫在許多芯片上分片模型。

“這是有問題的,因?yàn)樗枰罅客顿Y,點(diǎn)亮了大量硅,但它也迫使你擁有所有這些連接才能在機(jī)架內(nèi)部或跨機(jī)架擴(kuò)展,這是一個大問題,”他說。“我們的想法是讓它盡可能密集。”

HBM 解決了 SRAM 的容量弱點(diǎn),但它的帶寬(盡管它的名字)不足以達(dá)到 Euclyd 想要實(shí)現(xiàn)的目標(biāo)。赫爾德說,定制設(shè)計(jì)可以與使用“相同 HBM”的競爭對手區(qū)分開來,并指出雖然 Euclyd 的 UBM 是定制設(shè)計(jì),但它不需要奇特的工藝技術(shù)。

Held 說,Craftwerk 的規(guī)模將支持在 3 kW TPD 的單片硅片上實(shí)現(xiàn)多代理工作流程。

根據(jù) 5 月份發(fā)布的數(shù)據(jù),Nvidia 的 DGX-B200(八個當(dāng)前一代 Blackwell GPU)可以為 Llama4-Maverick (400B) 的單個用戶每秒實(shí)現(xiàn) 1038 個代幣。根據(jù) Artificial Analysis 的當(dāng)前數(shù)據(jù),Cerebras 為單個用戶每秒提供 2554 個代幣。單個 Craftwerk SiP 將為單個用戶每秒提供 20,000 個代幣。

Euclyd 的機(jī)架將包括 16 個主機(jī) CPU 和 32 個 Craftwerks,位于 TDP 為 125 kW 的液冷機(jī)箱中;根據(jù)該公司的預(yù)測,在典型的多用戶場景中,該系統(tǒng)將為Llama4-Maverick每秒提供768萬個代幣。