當英偉達Blackwell Ultra與Rubin架構將單機柜功率推向1兆瓦,當一顆AI芯片的功耗突破1000瓦并向2000瓦邁進,AI算力基礎設施正迎來一場前所未有的“散熱生死戰”。2026年,單柜1兆瓦已從概念走向商用,風冷徹底退場,液冷成為唯一解,一場圍繞散熱效率、成本與可靠性的技術與產業重構全面展開。
一、功率密度爆炸:1兆瓦時代的算力狂奔
過去十年,AI服務器功率密度呈指數級增長,傳統數據中心的散熱設計已完全失效。從時間維度來看,2024年主流AI機柜功率為32kW/柜,大致相當于4戶居民的用電負荷,當時仍以風冷技術為主;2025年主流AI機柜功率躍升至100kW/柜,用電負荷約等于80戶居民,冷板液冷技術開始普及;2026年,主流AI機柜功率正式突破1兆瓦,用電負荷可達約120戶居民,浸沒式液冷進入規模化應用階段;預計到2028年,主流AI機柜功率將進一步提升至1.5兆瓦,對應約180戶居民的用電負荷,屆時兩相浸沒液冷技術將走向成熟。
2026年,英偉達GB200 NVL72整機柜功率達1.2MW,Rubin架構單機柜集成576顆GPU,功率突破1MW,相當于將一座中型工廠的用電負荷塞進一個標準機柜。行業數據顯示,2026年頭部AI企業單園區訓練功率普遍邁入1GW級別,算力耗電已超部分中型城市,散熱成為制約算力擴張的核心瓶頸。
功率密度爆發的背后,是AI模型參數從百億級向萬億級躍遷,以及芯片集成度的持續提升。單柜1兆瓦意味著2800A的超大電流,傳統54V直流母線已難以支撐,英偉達推出的800V HVDC架構將電流降至1500A,銅材用量減少45%,配電損耗從5%降至1.8%,為高功率密度供電提供基礎。
二、散熱技術路線:從風冷到液冷的終極突圍
風冷時代早已觸及物理天花板。空氣的導熱系數僅為0.026W/(m·K),比熱容為1.005kJ/(kg·K),面對單柜1兆瓦的熱通量,風冷的散熱效率已完全不足,服務器宕機風險呈指數級上升。2026年,液冷技術成為唯一可行方案,形成三大主流路線,各有優劣與應用場景。
1. 冷板式液冷:當前最具性價比的主流選擇
冷板式液冷通過定制冷板與CPU/GPU芯片直接接觸,利用冷卻液帶走熱量,是2026年高密AI機柜的標配方案。英維克等龍頭企業市占率超42%,適配英偉達GB300、華為昇騰等主流集群。
核心優勢:改造成本低、標準化高、兼容現有架構,運維接近風冷,熱阻可降至0.05℃/W以下。
典型應用:英偉達GB200 NVL72采用“102kW冷板+25kW風冷”的精準散熱方案,覆蓋核心熱源;新華三液冷整機柜實現75%-80%液冷散熱占比,搭配雙重防泄漏機制保障安全。
局限性:極限散熱密度約750kW/柜,難以支撐1.5MW以上的超高密度場景。
2. 浸沒式液冷:1兆瓦時代的終極方案
浸沒式液冷將服務器整機或關鍵部件完全浸泡在絕緣冷卻液(氟化液、礦物油等)中,通過液體直接接觸實現高效散熱,分為單相浸沒與兩相浸沒(相變)兩類。
兩相浸沒液冷:利用液體沸騰吸收潛熱,散熱效率比單相高30%-40%,能耗降低45%以上,PUE可低至1.05,接近理論極限。中科曙光在雄安數據中心部署的相變浸沒液冷方案,實現單機柜100kW穩定運行,機房布局簡化40%。
單相浸沒液冷:系統結構簡單,維護成本低,適合50-100kW密度場景,是1兆瓦機柜的核心過渡方案。
核心優勢:散熱能力是冷板式的5倍以上,支持單柜1MW+極限密度,無風扇無空調,噪音降低90%。
挑戰:冷卻液成本高、服務器改造難度大、回收系統復雜,目前主要用于超算中心、頭部AI企業的核心訓練集群。
3. 混合液冷方案:存量升級的最優解
混合液冷結合冷板與浸沒式優勢,核心處理器采用冷板冷卻,其余部件采用浸沒式散熱,在保持90%散熱效率的同時,降低30%-40%實施成本,是存量數據中心升級的最佳選擇。超聚變Powershelf全液冷方案采用集成CDU設計,單機柜供電突破120kW,相比傳統浸沒技術重量減少40%+,機器人黑燈維護使運維成本降低50%+。
三、散熱生死戰:1兆瓦時代的核心挑戰
單柜1兆瓦的落地,不僅是技術突破,更是一場涉及材料、工程、運維的系統性挑戰。
1. 材料與密封技術:防泄漏是生命線
1兆瓦級機柜的超大熱通量對冷卻液密封、材料兼容性提出極高要求。液冷系統任何泄漏都可能導致服務器災難性損壞,因此必須實現:
雙重防泄漏設計:單節點機箱疏液導流結構+關鍵部位繩狀泄漏檢測,新華三、超聚變等企業均采用此方案。
高兼容性材料:冷卻液與服務器主板、管路、密封件的長期兼容,新型合成冷卻液的介電強度需達35kV/mm以上,避免短路風險。
碳纖維復合材料應用:輕量化與耐腐蝕性兼具,顯著延長系統使用壽命,降低維護成本。
2. 配電與熱管理:從機柜到數據中心的全局優化
1兆瓦機柜的800V HVDC配電系統與傳統48V架構差異巨大,需重新設計母線、連接器與保護裝置。同時,熱管理需實現全局協同:
機柜級精準控溫:根據芯片負載動態調節冷卻液流量,避免局部過熱。
數據中心級余熱利用:將散熱產生的熱水用于園區供暖、工業生產,提升整體能效,PUE可進一步降至1.03。
集裝箱化部署:20英尺集裝箱可承載過去200柜的算力,實現數據中心從“層”到“箱”的進化,簡化熱管理布局。
3. 成本與產業鏈:從高端到普惠的普及之路
當前浸沒式液冷的冷卻液成本約500-800元/升,單柜冷卻液投入超10萬元,成為普及瓶頸。同時,產業鏈面臨三大痛點:
高端產品短缺:高導熱、低揮發、環保型冷卻液供應不足,高端冷板與密封件依賴進口。
運維門檻高:液冷系統需專業技能,黑燈運維成為趨勢,推動機器人巡檢、AI故障診斷技術發展。
成本下降加速:隨著規模化生產,冷卻液成本預計2027年下降50%,冷板單價降低30%,為1兆瓦機柜普及掃清障礙。
四、行業實踐:1兆瓦散熱的標桿案例
2026年,全球頭部企業與超算中心已率先落地1兆瓦級散熱方案,樹立行業標桿。
英偉達Rubin機柜:集成576顆GPU,單柜功率1MW,采用800V HVDC供電+浸沒式液冷,PUE低至1.04,已在Google Project Deschutes項目中規模化部署。
中科曙光相變浸沒液冷:在國家超算互聯網鄭州核心節點實現單機柜900kW密度,通過氟化液相變技術,散熱效率提升80%,機房噪音降至30分貝以下。
阿里云液核服務器:采用相變浸沒式液冷,支持CPU/GPU持續超頻,PUE低至1.05,在智算中心實現單柜1.2MW穩定運行,算力密度翻倍。
中國聯通超聚變方案:全液冷一體化算力系統,單機柜120kW,集成CDU節省占地40%,建設效率提升10倍,已在互聯網應用創新基地落地