來源:semiengineering

隨著高性能計算(HPC)與人工智能加速器將功率密度推高至 1 千瓦及以上,晶體管高速開關所產(chǎn)生的熱量正變得越來越難以散發(fā)。
工程師們開始采用自適應網(wǎng)格有限元建模,以精確模擬熱傳導分布。而搭載加熱器與溫度傳感器的有源測試晶圓等新型方法,則能打通仿真與實驗環(huán)節(jié),最終優(yōu)化多芯粒封裝的設計與使用壽命。
為了更好地 “攻克散熱難題”,多家機構正研究如何用真實實驗數(shù)據(jù)驗證仿真結果,典型案例包括:
AMD 開發(fā)了封裝級、軟件可編程熱評估平臺,可在芯片研發(fā)同步開展熱分布、導熱界面材料(TIM)與散熱需求評估;
Fraunhofer IIS/EAS 研制出有源熱測試晶圓,可直接測量溫度分布,展示熱量如何傳播、在芯粒間耦合以及冷卻時的耗散過程;
安靠(Amkor) 展示了搭載加熱裸片與傳感器的產(chǎn)品原型如何驗證仿真精度;
IMEC 優(yōu)化了 HBM 堆疊 GPU 架構,通過系統(tǒng)技術協(xié)同優(yōu)化(STCO)將 GPU 峰值溫度從 140℃以上降至 71℃以下。
從“次要問題”變?yōu)椤昂诵膬?yōu)先級”
在單片芯片封裝時代,工程師依靠公式,結合芯片與封裝各部分的熱阻近似估算器件結溫。
安靠技術芯粒 / FCBGA 集成副總裁邁克?凱利表示:“熱仿真對高功率器件向來至關重要,需確保工作時晶體管級最高結溫 Tj 不超過推薦上限,例如 CMOS 器件為 105℃,DRAM 約為 85℃。”
多年來,工程師一直依賴簡化方法計算結溫?!爱攩蝹€ IC 封裝內只有一顆硅裸片(如倒裝 BGA)時,確實有簡便方法估算 IC 可承受的最大功率,同時讓最高結溫符合硅片廠商規(guī)范,” 凱利說,“散熱問題被拆解為基板、頂蓋、裸片、底部填充膠等一系列熱阻,傳導與對流方程可聯(lián)立求解。只要知道單顆裸片總功耗、所有熱阻與環(huán)境溫度,就能算出芯片結溫?!?/span>
而在多裸片封裝時代,熱管理思路已完全改變。通過系統(tǒng)技術協(xié)同優(yōu)化(STCO),熱仿真在設計早期便介入,用于優(yōu)化芯粒布局、最小化芯粒間熱耦合、防止熱失控(芯片升溫→器件需更多功耗→進一步升溫),并降低昂貴散熱方案的依賴。
新思科技半導體事業(yè)部產(chǎn)品營銷總監(jiān)Marc Swinnen表示:“對于 GPU、微處理器這類高端系統(tǒng),我們已逼近現(xiàn)有技術極限。熱仿真已大幅前移至原型設計階段,與傳統(tǒng)設計流程位置完全相反。如今,熱設計已是多芯粒架構的核心環(huán)節(jié)?!?/span>
用 AI 定位熱點
為將 3D 熱仿真融入電子設計自動化(EDA)流程,工程師采用有限元法,將芯片與封裝區(qū)域劃分為不同大小的網(wǎng)格,再根據(jù)硅、介電材料、銅、底部填充膠等介質特性模擬熱流。
“把結構拆成大量微小網(wǎng)格單元,對每個區(qū)域求解熱方程,就能得到溫度分布。難點在于網(wǎng)格劃分,” Swinnen說,“網(wǎng)格生成后,套用熱方程很簡單,但構建網(wǎng)格需要在精度與速度間平衡。網(wǎng)格越密精度越高,但單元更多、計算更慢;網(wǎng)格稀疏速度更快,卻無法捕捉細節(jié)。因此最優(yōu)方案是自適應變網(wǎng)格。當然,這需要預先知道熱點位置,而 AI 恰好能實現(xiàn)這一點 ——AI 可預判熱點分布,讓網(wǎng)格劃分更高效,大幅縮短熱仿真時間?!?/span>
高溫會從多方面損害器件性能與長期可靠性:
溫度越高,芯片功耗越大,極端情況下會引發(fā)熱失控;
熱量會從一顆芯片傳導至相鄰芯片,將芯片級問題升級為系統(tǒng)級問題;
芯片溫度過高可能導致焊料凸點熔化。
芯片發(fā)熱量是動態(tài)的,會隨負載變化。Swinnen指出:“原型階段的早期熱仿真至關重要,可避免先進封裝中芯粒布局出現(xiàn)重大失誤,防止設計返工或額外增加散熱成本。關鍵不僅是平均溫度,更在于峰值溫度?!?/span>
AMD 的Jae-Gyung Ahn解釋道:“網(wǎng)格尺寸越小,熱點越清晰、越集中。但過小網(wǎng)格捕捉到局部峰值溫度后,若用熱梯度(TG)代表整個 IP 模塊溫升,可能會過度悲觀地評估熱風險。從計算量看,200μm 網(wǎng)格求解時間比 1000μm 網(wǎng)格高約 1200%,500μm 網(wǎng)格僅增加 40%。因此必須結合熱點位置與電遷移(EM)風險最壞情況,謹慎確定最優(yōu)網(wǎng)格尺寸。” 在此案例中,AMD 建議在峰值功率密度區(qū)域采用 20μm 或 100μm 網(wǎng)格,平衡計算效率與精度。
Swinnen提出熱仿真另一大挑戰(zhàn):“熱仿真中常被忽視的因素是真實工作負載。芯片發(fā)熱完全源于數(shù)據(jù)處理,活動越多功耗越高。問題在于熱傳導時間常數(shù)遠慢于電學開關速度,這意味著需要極長的工作序列才能模擬熱效應。例如,1GHz 處理器 1 秒活動就需要 10 億條行為向量,遠超功能仿真或時序分析所用數(shù)量。獲取如此長的真實芯片負載只能依靠硬件仿真器在寄存器傳輸級(RTL)長時間仿真,再將負載預處理、整合為熱求解器可用的簡化模式?!?/span>
行業(yè)長期使用被動測試結構驗證建模結果,但這類方法難以適配 AI 加速器中存在的非均勻熱負載與移動熱點。
為此,F(xiàn)raunhofer IIS 自適應系統(tǒng)工程部開發(fā)了熱測試平臺,集成細粒度可編程加熱單元與高分辨率傳感結構。該部門高效電子部門主管Andy Heinig表示,這款實測熱測試晶圓可揭示熱量在不同材料間的傳播與芯粒間耦合,幫助評估散熱方案效果。
其可編程數(shù)字加熱模塊與溫度傳感器可靜態(tài)、動態(tài)模擬真實芯粒負載。該方案以數(shù)字單元基本模塊為可重構熱源,通過調節(jié)模塊數(shù)量、尺寸與布局實現(xiàn)不同功率密度,在晶圓上生成單點或多點細粒度熱點,完成系統(tǒng)級熱測量;隨時間變化的開關模式可模擬熱點移動,溫度傳感器則能高精度捕捉熱梯度。
Heinig表示:“該架構支持細粒度可編程、模塊化擴展與動態(tài)重構,晶圓不局限于單次實驗,可廣泛復用。研究人員能針對特定負載定制加熱模式,調節(jié)熱應力強度與范圍,采集詳細數(shù)據(jù)集用于模型校準與設計評估。該平臺可復現(xiàn)供電網(wǎng)絡、導熱界面材料與異構芯片布局的綜合效應,幫助研究人員確定可靠性極限與安全工作區(qū)間?!?/span>
熱問題另一關鍵誘因是供電。AI 加速器與高性能 GPU 的高電流密度會增大供電網(wǎng)絡損耗,引發(fā)焦耳熱。行業(yè)正通過多種方式應對,包括將供電網(wǎng)絡移至晶圓背面,以及采用功耗感知與布局感知的平面規(guī)劃以降低峰值功率密度。
背面供電網(wǎng)絡、混合鍵合等新工藝解決了互聯(lián)難題,卻加劇了散熱壓力。凱利指出:“兩顆或多顆硅裸片堆疊時,無論采用混合鍵合還是傳統(tǒng)銅柱凸點,都必須在設計早期充分考慮相對裸片的總熱量。這要求在功能模塊平面規(guī)劃階段估算堆疊中所有裸片的結溫,從而制定合理時鐘策略、優(yōu)化堆疊性能并滿足結溫限制。理想情況下,EDA 工具可通過內置熱仿真實現(xiàn)此類優(yōu)化,或在平面規(guī)劃迭代中使用專用熱仿真軟件?!?/span>
至關重要的是,即便最精準的仿真也需要真實實驗驗證。
封裝級熱測試平臺貫穿產(chǎn)品全生命周期
多芯片系統(tǒng)熱行為精準建模對產(chǎn)品全生命周期愈發(fā)重要。AMD 技術骨干蘇雷什?帕拉梅斯瓦蘭在近期文章中表示:“從初始規(guī)劃到客戶板級部署,必須在整個開發(fā)周期評估并管理芯片熱特性?!盇MD 團隊為 2D/3D 封裝開發(fā)了熱評估平臺,可在芯片研發(fā)階段同步評估架構與平面規(guī)劃、交叉驗證 3D 仿真結果與芯片級測量數(shù)據(jù),并提前評估導熱界面材料、散熱方式等封裝方案。該團隊強調,該熱測試平臺具備易實施、軟件可編程、片上溫度測量反饋快等優(yōu)勢。
當前主流方案結合有限元建模與產(chǎn)品原型。安靠的凱利介紹:“行業(yè)常用有限元軟件仿真封裝,或搭建‘加熱裸片’產(chǎn)品復制品 —— 這類特制硅裸片集成片上加熱器,輸入真實產(chǎn)品典型功耗。溫度傳感器通常集成在加熱裸片內,輸入功耗后可在不同位置測量結溫?!?/span>
由于產(chǎn)品復制品成本高昂,通常僅制作一種封裝配置用于驗證有限元分析(FEA)精度,其余大量配置則直接通過軟件估算。
工程師會結合散熱方式進行有限元網(wǎng)格劃分,綜合考慮芯片發(fā)熱、向相鄰芯片與中介層的熱傳導,以及散熱器、風扇、點式液冷或仍在研發(fā)的浸沒式液冷等散熱效果。
力學因素的介入
多裸片堆疊中,材料熱膨脹系數(shù)(CTE)不匹配帶來的機械應力往往極大,因此除熱變化外,還必須建模力學變化。Swinnen表示:“熱效應與力學效應的數(shù)學模型高度相似,我們在 3D-IC 分析工具中整合了兩項能力。只要獲得晶圓廠加密工藝文件中的材料屬性,就能計算每一點的馮?米塞斯力,進而求得應力與翹曲變形。剛度更高的材料翹曲更小,但內應力更大;柔性材料應力更低,卻變形更明顯?!?/span>
GPU 上方堆疊四顆 HBM
IMEC 團隊的研究體現(xiàn)了跨層熱協(xié)同設計的重要性。該團隊通過 STCO 與工藝級緩解方案,將 GPU 上方四顆 12 層 HBM 堆疊 3D 架構的結溫從 140℃以上降至與 2.5D 架構相當?shù)?70.8℃。該 GPU 功耗 414 瓦,AI 負載下每顆 HBM 功耗 40 瓦。
HBM 沿 GPU 短邊堆疊,通過微凸點連接信號層,GPU 采用背面供電網(wǎng)絡。研究人員首先移除四顆 HBM 堆疊中功能冗余的底層邏輯裸片,改善 GPU 與 HBM 間熱耦合,DRAM 間采用混合鍵合;頂蓋側通過微通道或噴射沖擊冷卻,散熱系數(shù) 30kW/m2K;層壓底板側風冷散熱,系數(shù) 200W/m2K,采用新思科技 Icepak 進行熱特性分析。
隨后,將相鄰 DRAM 堆疊間的塑封料替換為熱硅,提升縱向與橫向散熱;同時減薄頂部 DRAM 裸片以縮短垂直熱路徑,并在 GPU 熱點處選擇性放置熱硅。STCO 策略包括雙面冷卻與 GPU 核心頻率減半,將峰值溫度從 120℃降至 99℃;后續(xù)進一步調頻并增加熱硅用量,最終將 GPU 峰值溫度降至 71℃,與 2.5D 架構(69℃)基本持平。
IMEC 團隊表示:“研究結果不僅為嚴苛熱約束管理提供思路,也證明 STCO 可顯著提升未來 3D GPU 架構的熱可行性與性能?!?/span>
結語
隨著行業(yè)加速采用混合鍵合、背面供電網(wǎng)絡、多裸片封裝等先進工藝,將更依賴帶自適應網(wǎng)格的熱仿真軟件,平衡計算時間與模型精度,并可同時建模相互耦合的熱行為與力學行為。
集成加熱與傳感元件的實驗復制品或原型,能為模型結果提供寶貴驗證。通過熱硅塊輔助散熱等系統(tǒng)協(xié)同設計方案,可在常規(guī) AI 負載下顯著降低 HBM/GPU 3D 堆疊的 GPU 峰值溫度。

標簽: 芯片元器件 點擊: 評論: