新聞中心

聯系我們

了解更多詳細信息,請致電

020-38815864

地址:廣州市天河區燕嶺路120號823
電話:020-38815864
郵箱:cs@cs003.vip

高密機柜技術升級:兼容 CPO + 液冷,高算力場景穩定運行關鍵


發布時間:2026-01-21


AI大模型訓練、超算中心算力迭代推動單機柜功率從傳統10kW躍升至60kW以上,部分高端智算場景甚至向100kW級突破。傳統風冷與可插拔光模塊架構,已在散熱效率、功耗控制、帶寬密度上觸及物理極限。高密機柜的技術升級核心,正聚焦于光電共封裝(CPO)與液冷技術的深度兼容,二者的協同落地不僅是突破算力瓶頸的關鍵,更成為高負載場景下設備長期穩定運行的核心支撐。


技術協同:CPO與液冷的互補邏輯

高算力場景的核心矛盾的是“算力密度提升與能耗、散熱的失衡”,CPO與液冷技術分別從網絡架構與熱管理維度破局,形成精準互補。CPO技術通過將光引擎與ASIC芯片共封裝,摒棄傳統可插拔光模塊,從源頭解決信號損耗、功耗過高與帶寬擴展難題;而液冷技術則承接CPO集成帶來的局部熱密度激增,構建高效散熱體系,二者缺一不可。
從能耗維度看,傳統128端口400G可插拔光模塊交換機功耗可達3267瓦,而CPO方案可將功耗控制在1626瓦以內,降幅超50%。但這種高密度集成使芯片熱流密度突破1-2 W/mm2,風冷系統根本無法滿足散熱需求,液冷的介入成為強制性條件。實測數據顯示,CPO交換機搭配液冷系統后,不僅能維持芯片工作溫度在85℃安全閾值以下,更能進一步降低設備整體功耗5%,在吉瓦級集群中可釋放顯著算力增量。

在架構適配層面,CPO的封裝設計需與液冷系統深度耦合。無論是2.5D共封裝的基板互聯,還是3D共封裝的硅中介層立體堆疊,都需要液冷系統精準覆蓋核心發熱區域。華為CloudEngine 16800液冷CPO交換機便采用定制化冷板設計,將液冷回路直接延伸至光引擎與芯片結合處,實現熱量的點對點導出,保障51.2Tb/s單機端口速率穩定輸出。


液冷方案選型:適配高密機柜的工程實踐

高密機柜的液冷方案需兼顧散熱效率、運維便捷性與成本可控,當前冷板式與浸沒式成為主流路徑,二者在CPO場景的適配性各有側重。
冷板式液冷作為成熟度最高的方案,憑借“間接散熱、可靠性強”的優勢成為當前CPO機柜的首選。其通過在CPO封裝模塊上方貼合精密微通道冷板,利用去離子水作為冷卻液,通過對流與導熱帶走熱量,無需對電子元件做絕緣處理,運維成本與傳統設備接近。Supermicro的B200液冷服務器配套冷板方案,已在大規模AI集群中驗證,可支持單機柜60kW功率密度,且通過快速接頭設計實現設備熱插拔維護,不影響同機柜其他設備運行。
浸沒式液冷則面向更高熱密度場景,通過將CPO交換機主板浸沒在氟化液等絕緣冷卻液中,實現全域均勻散熱,散熱效率較冷板式提升數倍,適合100kW級機柜或相變散熱需求。但該方案存在成本高、材料兼容性要求苛刻等問題,目前多應用于超算中心等尖端場景。百度智能云已規劃全浸沒無風扇數據中心,預計2027年落地,屆時將實現CPO與浸沒式液冷的全場景適配。

值得注意的是,液冷系統的回路設計直接影響CPO設備穩定性。一級側封閉回路負責帶走CPO模塊熱量,二級側回路通過熱交換器將熱量排至室外,雙回路架構可有效避免冷卻液污染與溫度波動,保障CPO光引擎的激光源穩定性——經實測,該設計可使激光源運行壽命延長至5000萬小時以上,端口波動故障率趨近于零。


CPO集成關鍵:從封裝到運維的全鏈條保障

CPO與高密機柜的兼容,并非簡單的技術疊加,而是從封裝設計、設備適配到運維體系的全鏈條優化。在封裝環節,激光源的分離式設計成為平衡性能與維護性的關鍵——將激光源前置為可插拔模塊,既規避了與ASIC芯片的熱干擾,又解決了傳統CPO維護難度大的痛點,這一設計已通過超大規模用戶400萬小時無故障運行驗證。
設備適配層面,CPO交換機需與液冷機柜的供電、布線體系協同設計。英偉達Quantum-X平臺的Q3450-LD交換機,搭載144個800Gb/s InfiniBand端口,通過板載硅光器件與液冷冷板的一體化設計,支持兩級胖樹無阻塞拓撲,可直接適配高密機柜的高密度布線需求,無需額外占用風道空間,使機柜空間利用率提升3倍。

運維體系的升級同樣不可或缺。Micas與Supermicro聯合構建的L11節點級與L12集群級雙重測試標準,為CPO+液冷方案落地提供了保障:L11級通過30余項自動化檢測驗證組件兼容性,L12級覆蓋56種以上AI工作負載測試,確保系統在ResNet訓練、NCCL通信等實際場景中穩定運行。現場部署階段,通過全流程駐場支持,可將設備運輸與安裝故障率從傳統的5-8%降至接近零,大幅縮短集群上線周期。


落地價值:從成本優化到算力釋放

CPO與液冷的兼容升級,最終通過技術協同實現成本與性能的雙重優化。在資本支出(CAPEX)方面,一個27000個GPU的大規模集群,采用CPO交換機與液冷方案后,可節省物料成本3710萬美元;運營支出(OPEX)層面,僅電費一項,3年累計節省可達250萬美元。對于阿里云智算中心這類場景,部署該方案后PUE從1.6降至1.12,年節省電費6800萬元,投資回收期僅1.8年。

在算力釋放上,液冷帶來的散熱突破使CPO的性能優勢充分發揮。中國移動長三角數據中心采用中興液冷CPO交換機后,單機柜功率從10kW提升至60kW,同等空間算力密度提升6倍,每年減少碳排放1.2萬噸;騰訊天津數據中心則通過該方案將PUE降至1.08,年節電1200萬度,實現綠色算力與運營效率的雙贏。


行業趨勢:技術融合與標準統一

隨著6000W級芯片的逐步落地,CPO與液冷的融合將向更深層次演進。材料層面,石墨烯導熱板的應用可使液冷效率再提升20%;智能控制層面,AI流量預測系統能實現液冷流量的動態調節,進一步降低能耗。標準層面,國內《液冷數據中心技術要求》已實施,CPO相關標準將于2025年底完成報批,OCP組織也發布了液冷接口規范1.1版,行業規范化將加速技術規模化落地。
未來,高密機柜的技術競爭將聚焦于CPO與液冷的協同優化能力,從芯片封裝、液冷回路設計到全生命周期運維,形成一體化解決方案。對于高算力場景而言,這種技術升級不僅是突破物理極限的必然選擇,更將成為企業構建算力競爭壁壘的核心支撐。

返回上一頁
  • 返回頂部
  • 020-38815864
  • 微信咨詢
    關注我們