新聞中心

聯系我們

了解更多詳細信息,請致電

020-38815864

地址:廣州市天河區燕嶺路120號823
電話:020-38815864
郵箱:cs@cs003.vip

國產十萬卡訓推集群:昇騰芯片 + MoE 調度算法,AIDC 支持千億參數模型訓練


發布時間:2025-12-30


當通用人工智能浪潮席卷全球,大模型的參數規模與訓練算力需求呈指數級增長,千億乃至萬億參數模型已成為技術競爭的核心賽道。在此背景下,依賴國外芯片與架構的算力體系始終面臨"卡脖子"風險。如今,國產十萬卡訓推集群的橫空出世,以昇騰芯片為硬件底座、MoE調度算法為智能引擎,依托人工智能數據中心(AIDC)的基礎設施支撐,成功實現千億參數模型的高效訓練,標志著我國在超大規模算力集群領域完成關鍵突破,構建起自主可控的AI算力生態。


硬件底座:昇騰芯片構建規模化算力基石

算力集群的核心競爭力始于硬件芯片,昇騰系列AI芯片以全棧自主創新打破國外壟斷,為十萬卡級集群提供了堅實的硬件支撐。與傳統芯片簡單堆疊不同,昇騰采用創新性的超節點架構設計,其中昇騰384超節點通過高速互聯總線實現384顆NPU的全對等互聯,摒棄了以CPU為中心的傳統架構,使計算單元直接互訪,實現全局TB級內存統一編址,通信能力較傳統架構提升10倍,徹底解決了大規模集群的通信瓶頸。

這種硬件架構的突破帶來了顯著的性能躍升:昇騰384超節點采用全液冷設計與光互聯技術,算力密度較傳統架構提升3倍,能效比優化40%,單節點性能已超越國際同類產品。在此基礎上,通過最佳負載均衡組網方案,可將多個超節點組成數萬卡的Atlas 900 SuperCluster集群,而甘肅慶陽十萬卡國產算力集群的啟動建設,更將這一規模推向新高度,其整體算力突破10萬P,聚焦"訓推一體"能力,可覆蓋大模型從預訓練到推理的全生命周期。實測數據顯示,基于昇騰集群的LLaMA3等千億稠密模型性能較傳統集群提升2.5倍以上,在MoE類模型上性能提升可達3倍,展現出強大的硬件潛力。


智能引擎:MoE調度算法破解規模擴張難題

如果說昇騰芯片是十萬卡集群的"肌肉",那么MoE(混合專家)調度算法就是驅動這副肌肉高效運轉的"智慧大腦"。隨著大模型參數規模邁向千億級,傳統稠密模型的計算成本呈指數級增長,而MoE模型通過動態激活部分專家的稀疏計算特性,成為平衡性能與成本的核心路徑,但隨之而來的專家負載不均、跨節點通信開銷大等問題,成為制約大規模集群應用的關鍵瓶頸。
國產團隊針對這些痛點展開算法創新,構建了多層次的系統優化體系。華為提出的H2P分層混合并行架構,借鑒"專項小組"高效協作模式,對模型不同模塊實施精準并行策略:Attention模塊采用DP2+TP4組合方案減少通信量,Expert模塊設計TP2+EP4模式解決負載均衡,共享專家層采用TP8全芯片并行最大化效率,使Decode階段吞吐性能較傳統方案提升33.1%。在通信優化層面,TopoComm拓撲感知通信方案通過SlimRing算法減少35%的同步次數,結合NHD分級傳輸機制提升21%的鏈路帶寬,將AllGather通信耗時降低39%。而DuoStream通算融合方案則實現計算與通信的細粒度并發,使Expert模塊的通信掩蓋率提升至85%以上,硬件利用率提升40%。

這些算法創新已得到實踐驗證:華為昇騰平臺通過DSSN穩定架構與TinyInit小初始化方法,成功完成7180億參數的盤古Ultra MoE模型全流程訓練,萬卡集群預訓練的MFU(模型計算利用率)從30%提升至41%;Pangu Pro MoE 72B模型在昇騰平臺上實現推理性能6至8倍的跨越式提升,單卡解碼吞吐峰值達321 tokens/s,充分證明了國產MoE調度算法的領先性。


生態支撐:AIDC構建全鏈路訓練保障體系

十萬卡訓推集群的高效運行,離不開人工智能數據中心(AIDC)的基礎設施支撐。國產AIDC通過算力互聯、存儲優化、全鏈路運維等核心能力,為千億參數模型訓練提供了穩定可靠的環境,更實現了算力資源的跨域整合與高效利用。
在算力互聯方面,上海AI實驗室研發的DeepLink技術方案與運營商AINET算力智聯網深度融合,成功將相隔1500公里的上海與濟南智算中心互聯,完成千億參數模型混訓,等效算力達單集群單芯片算力的95%以上。基于中國電信息壤算網,更是在不到10G帶寬的條件下實現北京、上海、貴州三地智算中心互聯,等效算力保持90%以上,這意味著國內任意兩地的AIDC都可通過該方案整合算力,為十萬卡級集群提供彈性擴展能力。

在基礎設施保障上,中國移動哈爾濱智算中心作為標志性工程,部署超1.8萬張國產AI加速卡,通過參數面與數據面分離的RDMA組網技術,實現"萬卡并行訓練 + 分鐘級斷點續訓",其自研的智算管控平臺可實現算力、存儲、網絡的全鏈路可視化運維。北京昇騰人工智能計算中心則基于MindSpore框架與MindFormers套件,實現主流開源模型的快速適配,支持企業用戶通過160張卡集群開展二次預訓練,大幅降低行業開發者的技術門檻。


產業價值:重塑國產AI算力生態格局

國產十萬卡訓推集群的落地,不僅破解了千億參數模型訓練的算力瓶頸,更具有深遠的產業意義。在技術層面,它實現了從芯片、算法到基礎設施的全棧自主創新,打破了國外在超大規模算力領域的壟斷,證明了"非摩爾補摩爾、數學補物理"的系統工程創新路徑的可行性。在產業層面,該集群已開始支撐金融、政務、工業等垂直領域的AI落地:浦發銀行基于昇騰千卡算力集群部署多種主流大模型,實現200多個AI應用場景落地;北京昇騰AIDC已孵化多個金融、政務領域行業大模型,推動AI技術從通用領域向行業深度滲透。
展望未來,隨著Atlas 960 SuperCluster等百萬卡級集群的規劃推進,國產算力規模將實現新的突破。當規模達到當前10倍乃至更大的AI模型出現時,AIDC的跨域算力整合能力將避免天價新建超大型智算中心的成本,通過"低成本組合"滿足未來算力需求。國產十萬卡訓推集群所奠定的技術基礎與生態優勢,將為我國在通用人工智能時代的競爭提供核心算力保障,推動AI產業實現高質量發展。

返回上一頁
  • 返回頂部
  • 020-38815864
  • 微信咨詢
    關注我們