98新超碰,人人澡人人爱,麻豆精品传媒国,碰国产久久久,思思99热久在线播放,青青草五月婷婷,日韩国产精品在线,久久亚洲成人,久久88视频网站

熱設(shè)計(jì)網(wǎng)

英偉達(dá)、華為超節(jié)點(diǎn)技術(shù)剖析,引領(lǐng)算力新高度!

熱設(shè)計(jì)

來源:CDCC





01 引言





數(shù)字經(jīng)濟(jì)時(shí)代,算力如同 “新引擎” 對各行業(yè)的關(guān)鍵驅(qū)動(dòng)作用,從互聯(lián)網(wǎng)到制造業(yè),從醫(yī)療到科研等領(lǐng)域,算力需求的增長推動(dòng)了技術(shù)的革新與產(chǎn)業(yè)的升級。作為算力時(shí)代的核心資產(chǎn),算力中心的發(fā)展也日新月異,近期WAIC上多家國產(chǎn)GPU廠商發(fā)布了他們的超節(jié)點(diǎn)產(chǎn)品,掀起了有關(guān)超節(jié)點(diǎn)這一技術(shù)的討論熱潮。


超節(jié)點(diǎn)(SuperPod)并非傳統(tǒng)意義上的單一硬件設(shè)備,而是指具備集中化管理、大規(guī)模資源整合、高性能調(diào)度能力的“邏輯節(jié)點(diǎn)”或“物理節(jié)點(diǎn)集群”。它是數(shù)據(jù)中心為應(yīng)對海量數(shù)據(jù)處理、高并發(fā)業(yè)務(wù)、復(fù)雜集群管理需求而演化出的核心組件,本質(zhì)是通過“資源聚合”和“功能升級”,解決普通節(jié)點(diǎn)(如單一服務(wù)器)在規(guī)模、效率、可靠性上的瓶頸。


本文嘗試從超節(jié)點(diǎn)的視角探討未來算力中心發(fā)展趨勢,借助分析這一行業(yè)走向來看未來算力中心的建設(shè)可能會(huì)出現(xiàn)哪些方面的技術(shù)創(chuàng)新。





02  超節(jié)點(diǎn)技術(shù)剖析





訓(xùn)練側(cè),大模型在Scaling Law的飛輪下,參數(shù)量已經(jīng)突破萬億級別,海量參數(shù)的訓(xùn)練過程中對于顯存的容量和帶寬都提出了更高的要求。此外,TP、EP等多種并行計(jì)算方式的引入帶來了大量All-to-All 通信,訓(xùn)練所需的大集群面臨如何動(dòng)態(tài)地將模型工作中的負(fù)載分配給整個(gè)GPU系統(tǒng),實(shí)現(xiàn)更高的GPU利用率的考驗(yàn)。


而推理側(cè),隨著我們從生成式AI(Generative AI)向代理AI(Agentic AI)時(shí)代演進(jìn),推理產(chǎn)生的token量正以更陡峭的斜率在成倍增加。為了使數(shù)據(jù)中心這個(gè)AI工廠在更大的吞吐量下有更低的時(shí)延,需要從計(jì)算、通信、軟件架構(gòu)等多個(gè)層面共同進(jìn)行優(yōu)化,以追求極致的經(jīng)濟(jì)效益。


image.png


傳統(tǒng)數(shù)據(jù)中心以服務(wù)器為基本單元,通過算力設(shè)備的增加來實(shí)現(xiàn)算力的增長,其通信帶寬及計(jì)算資源協(xié)同發(fā)展面臨瓶頸,已經(jīng)無法滿足這種大規(guī)模、高并發(fā)算力需求,算力的有效利用率較低。


為了在有限的資源下實(shí)現(xiàn)更高效的計(jì)算,超節(jié)點(diǎn)應(yīng)運(yùn)而生,通過對計(jì)算、存儲(chǔ)、通信等要素進(jìn)行系統(tǒng)性的重構(gòu),使得單節(jié)點(diǎn)內(nèi)的算力密度出現(xiàn)成倍的提升,打造出機(jī)架級的超級計(jì)算單元,整個(gè)系統(tǒng)的能耗比得到顯著優(yōu)化。





03 典型的超節(jié)點(diǎn)及其構(gòu)成





1、英偉達(dá)NVL72:高密度柜集大成者


NVL72 在單個(gè)機(jī)柜內(nèi)通過 NVLink 技術(shù)將36個(gè)Grace CPU和72個(gè) Blackwell GPU整合在一起,形成一個(gè)高帶寬、低延遲的統(tǒng)一計(jì)算單元。每顆 B200 GPU支持18條NVLink 5鏈路,每條鏈路雙向帶寬100 GB/s,72顆這樣的GPU通過9個(gè)NVLink Switch Tray形成總帶寬為130TB/s的全mesh網(wǎng)絡(luò),在這個(gè)網(wǎng)絡(luò)里,所有GPU之間實(shí)現(xiàn)了點(diǎn)對點(diǎn)的全互聯(lián),可以任意訪問其他GPU的內(nèi)存空間。


NVLink解決了傳統(tǒng)分布式訓(xùn)練中計(jì)算與通信失衡的根本矛盾,這種全互聯(lián)無阻塞架構(gòu),極大減少大模型訓(xùn)練中的通信瓶頸,消除因通信延遲導(dǎo)致的計(jì)算單元空轉(zhuǎn),使得單機(jī)柜的算力密度極大提升。NVL72是一次AI算力范式的革新,一個(gè)機(jī)柜相當(dāng)于一個(gè)濃縮的傳統(tǒng)集群,將大模型訓(xùn)練從分布式協(xié)作升級為超級單體計(jì)算。


image.png


2、華為CM384:系統(tǒng)級的重構(gòu)


CloudMatrix 384由384顆昇騰910C芯片通過全連接拓?fù)浣Y(jié)構(gòu)互聯(lián)而成。CloudMatrix 384超級節(jié)點(diǎn)橫跨16個(gè)機(jī)架,其中12個(gè)計(jì)算柜共承載48個(gè)昇騰910C服務(wù)器節(jié)點(diǎn)(總計(jì)384個(gè)NPU),以及4個(gè)通信設(shè)備柜(靈衢總線設(shè)備柜);每個(gè)計(jì)算柜包含4個(gè)Atlas 900 A3 SuperPoD計(jì)算節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)包括8個(gè)昇騰910C神經(jīng)網(wǎng)絡(luò)處理單元和4個(gè)鯤鵬中央處理器。


這種設(shè)計(jì)通過規(guī)模效應(yīng)實(shí)現(xiàn)性能躍升,盡管單顆昇騰芯片的性能僅為英偉達(dá)Blackwell GPU的三分之一,但五倍于后者芯片的數(shù)量足以彌補(bǔ)這一差距。完整的CloudMatrix系統(tǒng)現(xiàn)在可以提供300PFLOPs的密集型BF16計(jì)算能力,幾乎是GB200 NVL72的兩倍。其總內(nèi)存容量超過后者的3.6倍,內(nèi)存帶寬提升2.1倍,標(biāo)志著華為及中國AI系統(tǒng)能力已全面躋身國際領(lǐng)先行列。


昇騰384采用對等計(jì)算架構(gòu),打破傳統(tǒng)以CPU為中心的層級架構(gòu)。CPU和NPU在邏輯上地位平等,均可直接通信,無需通過CPU中轉(zhuǎn)。這種設(shè)計(jì)降低了通信延遲,提供了系統(tǒng)整體性能,尤其適用于大規(guī)模分布式計(jì)算場景。


image.png





04 發(fā)展超節(jié)點(diǎn)面臨的挑戰(zhàn)與機(jī)會(huì)





超節(jié)點(diǎn)作為系統(tǒng)級的重構(gòu),涉及到諸多硬件層面的挑戰(zhàn),在算力密度指數(shù)級增加的情況下,電力供應(yīng)及散熱等配套硬件均面臨極限挑戰(zhàn),未來如何在規(guī)模化的部署中去平衡性能與成本并實(shí)現(xiàn)穩(wěn)定的運(yùn)行,將成為下一步行業(yè)實(shí)踐中的主要優(yōu)化方向。


1、芯片集成密度帶來散熱挑戰(zhàn)


算力芯片的性能提升帶來的功耗增長明顯,以英偉達(dá)為例,H100單芯片功耗約為700W,而至B200時(shí)期單芯片的功耗增長至1200W,機(jī)架內(nèi)的高功率密度使得風(fēng)冷幾乎失效,未來服務(wù)器內(nèi)液冷成為標(biāo)配,目前各家廠商發(fā)布的超節(jié)點(diǎn)產(chǎn)品均搭配液冷作為冷卻方案。


液冷作為一種新興的冷卻技術(shù),通過液態(tài)冷卻工質(zhì)流動(dòng)方式替代風(fēng)冷的空氣換熱模式,可以更好地降低芯片核心溫度,延長芯片的使用壽命。目前主流的液冷方式包括冷板式和浸沒式,冷板式液冷通過金屬冷板內(nèi)部冷卻工質(zhì)的流動(dòng)對接觸面進(jìn)行冷卻,浸沒式液冷通過將電子元器件直接浸入冷卻工質(zhì)中進(jìn)行接觸式的散熱。


但是如今液冷在實(shí)際使用中仍面臨諸多工程上的問題,以浸沒式為例,因?yàn)槔鋮s工質(zhì)直接接觸芯片和服務(wù)器內(nèi)其他部件,容易對于高速信號的完整性造成影響,對于材料兼容性也提出較大要求;此外,機(jī)架使用過程中產(chǎn)生的熱點(diǎn)分布較為不均,主要集中在GPU、交換機(jī)芯片等地方,浸沒式液冷在使用中容易因?yàn)闊狳c(diǎn)表面的氣泡而導(dǎo)致冷卻效果受到影響,嚴(yán)重的情況下甚至導(dǎo)致芯片失效。


冷板式液冷憑借其相對低的改造成本以及較為完善的生態(tài)率先在多個(gè)行業(yè)有了典型部署,相比于浸沒式,冷板式在應(yīng)用上更為簡單,用戶的使用習(xí)慣及運(yùn)維模式與風(fēng)冷也基本相同。但是盡管冷板式技術(shù)已取得顯著進(jìn)展,未來其在超節(jié)點(diǎn)中的工程落地仍有較多亟待改進(jìn)的空間。


首先,因?yàn)槔浒迨降睦鋮s的效率主要取決于冷卻工質(zhì)的溫度及流速,冷卻工質(zhì)如果降到較低溫度,容易在實(shí)際使用的過程中在冷板表面形成結(jié)露的現(xiàn)象,未來仍需要探索不同方式對這一現(xiàn)象進(jìn)行改善;其次,液冷設(shè)備的可靠性要求極高,需支持上千次插拔零泄漏,一旦冷卻工質(zhì)泄漏可能會(huì)導(dǎo)致設(shè)備短路燒毀,為了追求更高的可靠性,未來在材料科學(xué)(冷卻液等)和精密制造(冷板結(jié)構(gòu)、機(jī)架結(jié)構(gòu))等方面都有可能持續(xù)的進(jìn)行技術(shù)演進(jìn)。


2、更高功率帶來電能儲(chǔ)備挑戰(zhàn)


超節(jié)點(diǎn)單機(jī)柜功耗普遍突破 100kW(如華為 CM384 達(dá) 172.8kW,英偉達(dá) GB200 NVL72 約 120-140kW),而且計(jì)算密集型任務(wù)的脈沖式負(fù)載可能導(dǎo)致峰值功耗飆升,如何在電力方案上設(shè)置一定冗余以保障機(jī)架內(nèi)硬件的安全成了超節(jié)點(diǎn)發(fā)展必須面臨的挑戰(zhàn)。


機(jī)器學(xué)習(xí)的訓(xùn)練任務(wù)具有強(qiáng)同步性的特點(diǎn),在執(zhí)行矩陣運(yùn)算等計(jì)算密集型任務(wù)時(shí),功率需求瞬間攀升到峰值,而在同步通信或數(shù)據(jù)加載階段,功率則會(huì)驟降,這種瞬時(shí)功率的波動(dòng)幅度極大且頻率高,對于供電網(wǎng)絡(luò)可能會(huì)造成損害,目前為了解決這類的電壓瞬變的問題,各家廠商主要從軟件和硬件層面進(jìn)行優(yōu)化。


硬件層面,傳統(tǒng) UPS 無法快速響應(yīng),需集成超級電容模組(如 Meta 的 Power Capacitance Shelf)平抑波動(dòng)。超級電容憑借微秒級響應(yīng)速度和10 萬次以上循環(huán)壽命,可吸收 Iteration 切換時(shí)的瞬時(shí)功率尖峰。


同時(shí),機(jī)柜級電池備份單元(BBU)也采用鋰電池替代鉛酸電池,能量密度提升 3 倍,響應(yīng)時(shí)間縮短至微秒級,形成超級電毫秒級瞬態(tài)加鋰電池秒級穩(wěn)態(tài)的雙時(shí)間尺度補(bǔ)償機(jī)制。


軟件層面,數(shù)據(jù)中心的供電需要針對性地進(jìn)行優(yōu)化,主要是基于歷史訓(xùn)練時(shí)產(chǎn)生的數(shù)據(jù)去預(yù)測未來的功率曲線,靈活對系統(tǒng)進(jìn)行預(yù)調(diào)度。優(yōu)化后既可以提升能效比,在同樣的能耗下提升系統(tǒng)吞吐量,也能夠提升系統(tǒng)穩(wěn)定性,通過軟硬件協(xié)同的機(jī)制平滑抖動(dòng)。


超節(jié)點(diǎn)技術(shù)推動(dòng)算力中心架構(gòu)從分散走向集成,以高密度設(shè)計(jì)革新布局,未來在超節(jié)點(diǎn)的工程實(shí)現(xiàn)上仍有眾多環(huán)節(jié)的技術(shù)演進(jìn)存在多種可能,如何能夠通過液冷、供電系統(tǒng)等方面的優(yōu)化去提升系統(tǒng)穩(wěn)定性成了推動(dòng)下一代算力中心的核心引擎。


網(wǎng)站末尾圖片.png



標(biāo)簽: 點(diǎn)擊: 評論:

留言與評論(共有 0 條評論)
   
驗(yàn)證碼:
延长县| 长沙市| 峨边| 朔州市| 安平县| 桑日县| 衡阳县| 油尖旺区| 永清县| 锡林郭勒盟| 定远县| 苗栗市| 象山县| 吴川市| 永顺县| 雷山县| 长治市| 虎林市| 成武县| 临潭县| 白水县| 康保县| 黄骅市| 涿鹿县| 略阳县| 桃源县| 宜城市| 通辽市| 元氏县| 夏河县| 霍山县| 图木舒克市| 陇川县| 华蓥市| 阿巴嘎旗| 靖江市| 屏东市| 马鞍山市| 扬中市| 宜良县| 大兴区|