云擎技術-數據中心,算力租賃,大帶寬專線,數據傳輸,云專線,城域網,算法備案,大模型備案,增值電信許可證

新聞中心

新聞中心

聯系我們

了解更多詳細信息，請致電

020-38815864

地址：廣州市天河區燕嶺路120號823

電話：020-38815864

郵箱：cs@cs003.vip

國產十萬卡訓推集群：昇騰芯片 + MoE 調度算法，AIDC 支持千億參數模型訓練

發布時間：2025-12-30

當通用人工智能浪潮席卷全球，大模型的參數規模與訓練算力需求呈指數級增長，千億乃至萬億參數模型已成為技術競爭的核心賽道。在此背景下，依賴國外芯片與架構的算力體系始終面臨"卡脖子"風險。如今，國產十萬卡訓推集群的橫空出世，以昇騰芯片為硬件底座、MoE調度算法為智能引擎，依托人工智能數據中心（AIDC）的基礎設施支撐，成功實現千億參數模型的高效訓練，標志著我國在超大規模算力集群領域完成關鍵突破，構建起自主可控的AI算力生態。

硬件底座：昇騰芯片構建規模化算力基石

算力集群的核心競爭力始于硬件芯片，昇騰系列AI芯片以全棧自主創新打破國外壟斷，為十萬卡級集群提供了堅實的硬件支撐。與傳統芯片簡單堆疊不同，昇騰采用創新性的超節點架構設計，其中昇騰384超節點通過高速互聯總線實現384顆NPU的全對等互聯，摒棄了以CPU為中心的傳統架構，使計算單元直接互訪，實現全局TB級內存統一編址，通信能力較傳統架構提升10倍，徹底解決了大規模集群的通信瓶頸。

這種硬件架構的突破帶來了顯著的性能躍升：昇騰384超節點采用全液冷設計與光互聯技術，算力密度較傳統架構提升3倍，能效比優化40%，單節點性能已超越國際同類產品。在此基礎上，通過最佳負載均衡組網方案，可將多個超節點組成數萬卡的Atlas 900 SuperCluster集群，而甘肅慶陽十萬卡國產算力集群的啟動建設，更將這一規模推向新高度，其整體算力突破10萬P，聚焦"訓推一體"能力，可覆蓋大模型從預訓練到推理的全生命周期。實測數據顯示，基于昇騰集群的LLaMA3等千億稠密模型性能較傳統集群提升2.5倍以上，在MoE類模型上性能提升可達3倍，展現出強大的硬件潛力。

智能引擎：MoE調度算法破解規模擴張難題

如果說昇騰芯片是十萬卡集群的"肌肉"，那么MoE（混合專家）調度算法就是驅動這副肌肉高效運轉的"智慧大腦"。隨著大模型參數規模邁向千億級，傳統稠密模型的計算成本呈指數級增長，而MoE模型通過動態激活部分專家的稀疏計算特性，成為平衡性能與成本的核心路徑，但隨之而來的專家負載不均、跨節點通信開銷大等問題，成為制約大規模集群應用的關鍵瓶頸。

國產團隊針對這些痛點展開算法創新，構建了多層次的系統優化體系。華為提出的H2P分層混合并行架構，借鑒"專項小組"高效協作模式，對模型不同模塊實施精準并行策略：Attention模塊采用DP2+TP4組合方案減少通信量，Expert模塊設計TP2+EP4模式解決負載均衡，共享專家層采用TP8全芯片并行最大化效率，使Decode階段吞吐性能較傳統方案提升33.1%。在通信優化層面，TopoComm拓撲感知通信方案通過SlimRing算法減少35%的同步次數，結合NHD分級傳輸機制提升21%的鏈路帶寬，將AllGather通信耗時降低39%。而DuoStream通算融合方案則實現計算與通信的細粒度并發，使Expert模塊的通信掩蓋率提升至85%以上，硬件利用率提升40%。

這些算法創新已得到實踐驗證：華為昇騰平臺通過DSSN穩定架構與TinyInit小初始化方法，成功完成7180億參數的盤古Ultra MoE模型全流程訓練，萬卡集群預訓練的MFU（模型計算利用率）從30%提升至41%；Pangu Pro MoE 72B模型在昇騰平臺上實現推理性能6至8倍的跨越式提升，單卡解碼吞吐峰值達321 tokens/s，充分證明了國產MoE調度算法的領先性。

生態支撐：AIDC構建全鏈路訓練保障體系

十萬卡訓推集群的高效運行，離不開人工智能數據中心（AIDC）的基礎設施支撐。國產AIDC通過算力互聯、存儲優化、全鏈路運維等核心能力，為千億參數模型訓練提供了穩定可靠的環境，更實現了算力資源的跨域整合與高效利用。

在算力互聯方面，上海AI實驗室研發的DeepLink技術方案與運營商AINET算力智聯網深度融合，成功將相隔1500公里的上海與濟南智算中心互聯，完成千億參數模型混訓，等效算力達單集群單芯片算力的95%以上。基于中國電信息壤算網，更是在不到10G帶寬的條件下實現北京、上海、貴州三地智算中心互聯，等效算力保持90%以上，這意味著國內任意兩地的AIDC都可通過該方案整合算力，為十萬卡級集群提供彈性擴展能力。

在基礎設施保障上，中國移動哈爾濱智算中心作為標志性工程，部署超1.8萬張國產AI加速卡，通過參數面與數據面分離的RDMA組網技術，實現"萬卡并行訓練 + 分鐘級斷點續訓"，其自研的智算管控平臺可實現算力、存儲、網絡的全鏈路可視化運維。北京昇騰人工智能計算中心則基于MindSpore框架與MindFormers套件，實現主流開源模型的快速適配，支持企業用戶通過160張卡集群開展二次預訓練，大幅降低行業開發者的技術門檻。

產業價值：重塑國產AI算力生態格局

國產十萬卡訓推集群的落地，不僅破解了千億參數模型訓練的算力瓶頸，更具有深遠的產業意義。在技術層面，它實現了從芯片、算法到基礎設施的全棧自主創新，打破了國外在超大規模算力領域的壟斷，證明了"非摩爾補摩爾、數學補物理"的系統工程創新路徑的可行性。在產業層面，該集群已開始支撐金融、政務、工業等垂直領域的AI落地：浦發銀行基于昇騰千卡算力集群部署多種主流大模型，實現200多個AI應用場景落地；北京昇騰AIDC已孵化多個金融、政務領域行業大模型，推動AI技術從通用領域向行業深度滲透。

展望未來，隨著Atlas 960 SuperCluster等百萬卡級集群的規劃推進，國產算力規模將實現新的突破。當規模達到當前10倍乃至更大的AI模型出現時，AIDC的跨域算力整合能力將避免天價新建超大型智算中心的成本，通過"低成本組合"滿足未來算力需求。國產十萬卡訓推集群所奠定的技術基礎與生態優勢，將為我國在通用人工智能時代的競爭提供核心算力保障，推動AI產業實現高質量發展。

返回上一頁

返回頂部
020-38815864
微信咨詢