英偉達(dá)、華為超節(jié)點(diǎn)技術(shù)剖析，引領(lǐng)算力新高度！

熱設(shè)計(jì) 2025-09-10

來源：CDCC

01 引言

數(shù)字經(jīng)濟(jì)時(shí)代，算力如同 “新引擎” 對各行業(yè)的關(guān)鍵驅(qū)動(dòng)作用，從互聯(lián)網(wǎng)到制造業(yè)，從醫(yī)療到科研等領(lǐng)域，算力需求的增長推動(dòng)了技術(shù)的革新與產(chǎn)業(yè)的升級。作為算力時(shí)代的核心資產(chǎn)，算力中心的發(fā)展也日新月異，近期WAIC上多家國產(chǎn)GPU廠商發(fā)布了他們的超節(jié)點(diǎn)產(chǎn)品，掀起了有關(guān)超節(jié)點(diǎn)這一技術(shù)的討論熱潮。

超節(jié)點(diǎn)（SuperPod）并非傳統(tǒng)意義上的單一硬件設(shè)備，而是指具備集中化管理、大規(guī)模資源整合、高性能調(diào)度能力的“邏輯節(jié)點(diǎn)”或“物理節(jié)點(diǎn)集群”。它是數(shù)據(jù)中心為應(yīng)對海量數(shù)據(jù)處理、高并發(fā)業(yè)務(wù)、復(fù)雜集群管理需求而演化出的核心組件，本質(zhì)是通過“資源聚合”和“功能升級”，解決普通節(jié)點(diǎn)（如單一服務(wù)器）在規(guī)模、效率、可靠性上的瓶頸。

本文嘗試從超節(jié)點(diǎn)的視角探討未來算力中心發(fā)展趨勢，借助分析這一行業(yè)走向來看未來算力中心的建設(shè)可能會(huì)出現(xiàn)哪些方面的技術(shù)創(chuàng)新。

02 超節(jié)點(diǎn)技術(shù)剖析

訓(xùn)練側(cè)，大模型在Scaling Law的飛輪下，參數(shù)量已經(jīng)突破萬億級別，海量參數(shù)的訓(xùn)練過程中對于顯存的容量和帶寬都提出了更高的要求。此外，TP、EP等多種并行計(jì)算方式的引入帶來了大量All-to-All 通信，訓(xùn)練所需的大集群面臨如何動(dòng)態(tài)地將模型工作中的負(fù)載分配給整個(gè)GPU系統(tǒng)，實(shí)現(xiàn)更高的GPU利用率的考驗(yàn)。

而推理側(cè)，隨著我們從生成式AI（Generative AI）向代理AI（Agentic AI）時(shí)代演進(jìn)，推理產(chǎn)生的token量正以更陡峭的斜率在成倍增加。為了使數(shù)據(jù)中心這個(gè)AI工廠在更大的吞吐量下有更低的時(shí)延，需要從計(jì)算、通信、軟件架構(gòu)等多個(gè)層面共同進(jìn)行優(yōu)化，以追求極致的經(jīng)濟(jì)效益。

傳統(tǒng)數(shù)據(jù)中心以服務(wù)器為基本單元，通過算力設(shè)備的增加來實(shí)現(xiàn)算力的增長，其通信帶寬及計(jì)算資源協(xié)同發(fā)展面臨瓶頸，已經(jīng)無法滿足這種大規(guī)模、高并發(fā)算力需求，算力的有效利用率較低。

為了在有限的資源下實(shí)現(xiàn)更高效的計(jì)算，超節(jié)點(diǎn)應(yīng)運(yùn)而生，通過對計(jì)算、存儲(chǔ)、通信等要素進(jìn)行系統(tǒng)性的重構(gòu)，使得單節(jié)點(diǎn)內(nèi)的算力密度出現(xiàn)成倍的提升，打造出機(jī)架級的超級計(jì)算單元，整個(gè)系統(tǒng)的能耗比得到顯著優(yōu)化。

03 典型的超節(jié)點(diǎn)及其構(gòu)成

1、英偉達(dá)NVL72：高密度柜集大成者

NVL72 在單個(gè)機(jī)柜內(nèi)通過 NVLink 技術(shù)將36個(gè)Grace CPU和72個(gè) Blackwell GPU整合在一起，形成一個(gè)高帶寬、低延遲的統(tǒng)一計(jì)算單元。每顆 B200 GPU支持18條NVLink 5鏈路，每條鏈路雙向帶寬100 GB/s，72顆這樣的GPU通過9個(gè)NVLink Switch Tray形成總帶寬為130TB/s的全mesh網(wǎng)絡(luò)，在這個(gè)網(wǎng)絡(luò)里，所有GPU之間實(shí)現(xiàn)了點(diǎn)對點(diǎn)的全互聯(lián)，可以任意訪問其他GPU的內(nèi)存空間。

NVLink解決了傳統(tǒng)分布式訓(xùn)練中計(jì)算與通信失衡的根本矛盾，這種全互聯(lián)無阻塞架構(gòu)，極大減少大模型訓(xùn)練中的通信瓶頸，消除因通信延遲導(dǎo)致的計(jì)算單元空轉(zhuǎn)，使得單機(jī)柜的算力密度極大提升。NVL72是一次AI算力范式的革新，一個(gè)機(jī)柜相當(dāng)于一個(gè)濃縮的傳統(tǒng)集群，將大模型訓(xùn)練從分布式協(xié)作升級為超級單體計(jì)算。

2、華為CM384：系統(tǒng)級的重構(gòu)

CloudMatrix 384由384顆昇騰910C芯片通過全連接拓?fù)浣Y(jié)構(gòu)互聯(lián)而成。CloudMatrix 384超級節(jié)點(diǎn)橫跨16個(gè)機(jī)架，其中12個(gè)計(jì)算柜共承載48個(gè)昇騰910C服務(wù)器節(jié)點(diǎn)（總計(jì)384個(gè)NPU），以及4個(gè)通信設(shè)備柜（靈衢總線設(shè)備柜）；每個(gè)計(jì)算柜包含4個(gè)Atlas 900 A3 SuperPoD計(jì)算節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)包括8個(gè)昇騰910C神經(jīng)網(wǎng)絡(luò)處理單元和4個(gè)鯤鵬中央處理器。

這種設(shè)計(jì)通過規(guī)模效應(yīng)實(shí)現(xiàn)性能躍升，盡管單顆昇騰芯片的性能僅為英偉達(dá)Blackwell GPU的三分之一，但五倍于后者芯片的數(shù)量足以彌補(bǔ)這一差距。完整的CloudMatrix系統(tǒng)現(xiàn)在可以提供300PFLOPs的密集型BF16計(jì)算能力，幾乎是GB200 NVL72的兩倍。其總內(nèi)存容量超過后者的3.6倍，內(nèi)存帶寬提升2.1倍，標(biāo)志著華為及中國AI系統(tǒng)能力已全面躋身國際領(lǐng)先行列。

昇騰384采用對等計(jì)算架構(gòu)，打破傳統(tǒng)以CPU為中心的層級架構(gòu)。CPU和NPU在邏輯上地位平等，均可直接通信，無需通過CPU中轉(zhuǎn)。這種設(shè)計(jì)降低了通信延遲，提供了系統(tǒng)整體性能，尤其適用于大規(guī)模分布式計(jì)算場景。

04 發(fā)展超節(jié)點(diǎn)面臨的挑戰(zhàn)與機(jī)會(huì)

超節(jié)點(diǎn)作為系統(tǒng)級的重構(gòu)，涉及到諸多硬件層面的挑戰(zhàn)，在算力密度指數(shù)級增加的情況下，電力供應(yīng)及散熱等配套硬件均面臨極限挑戰(zhàn)，未來如何在規(guī)模化的部署中去平衡性能與成本并實(shí)現(xiàn)穩(wěn)定的運(yùn)行，將成為下一步行業(yè)實(shí)踐中的主要優(yōu)化方向。

1、芯片集成密度帶來散熱挑戰(zhàn)

算力芯片的性能提升帶來的功耗增長明顯，以英偉達(dá)為例，H100單芯片功耗約為700W，而至B200時(shí)期單芯片的功耗增長至1200W，機(jī)架內(nèi)的高功率密度使得風(fēng)冷幾乎失效，未來服務(wù)器內(nèi)液冷成為標(biāo)配，目前各家廠商發(fā)布的超節(jié)點(diǎn)產(chǎn)品均搭配液冷作為冷卻方案。

液冷作為一種新興的冷卻技術(shù)，通過液態(tài)冷卻工質(zhì)流動(dòng)方式替代風(fēng)冷的空氣換熱模式，可以更好地降低芯片核心溫度，延長芯片的使用壽命。目前主流的液冷方式包括冷板式和浸沒式，冷板式液冷通過金屬冷板內(nèi)部冷卻工質(zhì)的流動(dòng)對接觸面進(jìn)行冷卻，浸沒式液冷通過將電子元器件直接浸入冷卻工質(zhì)中進(jìn)行接觸式的散熱。

但是如今液冷在實(shí)際使用中仍面臨諸多工程上的問題，以浸沒式為例，因?yàn)槔鋮s工質(zhì)直接接觸芯片和服務(wù)器內(nèi)其他部件，容易對于高速信號的完整性造成影響，對于材料兼容性也提出較大要求；此外，機(jī)架使用過程中產(chǎn)生的熱點(diǎn)分布較為不均，主要集中在GPU、交換機(jī)芯片等地方，浸沒式液冷在使用中容易因?yàn)闊狳c(diǎn)表面的氣泡而導(dǎo)致冷卻效果受到影響，嚴(yán)重的情況下甚至導(dǎo)致芯片失效。

冷板式液冷憑借其相對低的改造成本以及較為完善的生態(tài)率先在多個(gè)行業(yè)有了典型部署，相比于浸沒式，冷板式在應(yīng)用上更為簡單，用戶的使用習(xí)慣及運(yùn)維模式與風(fēng)冷也基本相同。但是盡管冷板式技術(shù)已取得顯著進(jìn)展，未來其在超節(jié)點(diǎn)中的工程落地仍有較多亟待改進(jìn)的空間。

首先，因?yàn)槔浒迨降睦鋮s的效率主要取決于冷卻工質(zhì)的溫度及流速，冷卻工質(zhì)如果降到較低溫度，容易在實(shí)際使用的過程中在冷板表面形成結(jié)露的現(xiàn)象，未來仍需要探索不同方式對這一現(xiàn)象進(jìn)行改善；其次，液冷設(shè)備的可靠性要求極高，需支持上千次插拔零泄漏，一旦冷卻工質(zhì)泄漏可能會(huì)導(dǎo)致設(shè)備短路燒毀，為了追求更高的可靠性，未來在材料科學(xué)（冷卻液等）和精密制造（冷板結(jié)構(gòu)、機(jī)架結(jié)構(gòu)）等方面都有可能持續(xù)的進(jìn)行技術(shù)演進(jìn)。

2、更高功率帶來電能儲(chǔ)備挑戰(zhàn)

超節(jié)點(diǎn)單機(jī)柜功耗普遍突破 100kW（如華為 CM384 達(dá) 172.8kW，英偉達(dá) GB200 NVL72 約 120-140kW），而且計(jì)算密集型任務(wù)的脈沖式負(fù)載可能導(dǎo)致峰值功耗飆升，如何在電力方案上設(shè)置一定冗余以保障機(jī)架內(nèi)硬件的安全成了超節(jié)點(diǎn)發(fā)展必須面臨的挑戰(zhàn)。

機(jī)器學(xué)習(xí)的訓(xùn)練任務(wù)具有強(qiáng)同步性的特點(diǎn)，在執(zhí)行矩陣運(yùn)算等計(jì)算密集型任務(wù)時(shí)，功率需求瞬間攀升到峰值，而在同步通信或數(shù)據(jù)加載階段，功率則會(huì)驟降，這種瞬時(shí)功率的波動(dòng)幅度極大且頻率高，對于供電網(wǎng)絡(luò)可能會(huì)造成損害，目前為了解決這類的電壓瞬變的問題，各家廠商主要從軟件和硬件層面進(jìn)行優(yōu)化。

硬件層面，傳統(tǒng) UPS 無法快速響應(yīng)，需集成超級電容模組（如 Meta 的 Power Capacitance Shelf）平抑波動(dòng)。超級電容憑借微秒級響應(yīng)速度和10 萬次以上循環(huán)壽命，可吸收 Iteration 切換時(shí)的瞬時(shí)功率尖峰。

同時(shí)，機(jī)柜級電池備份單元（BBU）也采用鋰電池替代鉛酸電池，能量密度提升 3 倍，響應(yīng)時(shí)間縮短至微秒級，形成超級電毫秒級瞬態(tài)加鋰電池秒級穩(wěn)態(tài)的雙時(shí)間尺度補(bǔ)償機(jī)制。

軟件層面，數(shù)據(jù)中心的供電需要針對性地進(jìn)行優(yōu)化，主要是基于歷史訓(xùn)練時(shí)產(chǎn)生的數(shù)據(jù)去預(yù)測未來的功率曲線，靈活對系統(tǒng)進(jìn)行預(yù)調(diào)度。優(yōu)化后既可以提升能效比，在同樣的能耗下提升系統(tǒng)吞吐量，也能夠提升系統(tǒng)穩(wěn)定性，通過軟硬件協(xié)同的機(jī)制平滑抖動(dòng)。

超節(jié)點(diǎn)技術(shù)推動(dòng)算力中心架構(gòu)從分散走向集成，以高密度設(shè)計(jì)革新布局，未來在超節(jié)點(diǎn)的工程實(shí)現(xiàn)上仍有眾多環(huán)節(jié)的技術(shù)演進(jìn)存在多種可能，如何能夠通過液冷、供電系統(tǒng)等方面的優(yōu)化去提升系統(tǒng)穩(wěn)定性成了推動(dòng)下一代算力中心的核心引擎。

網(wǎng)站末尾圖片.png