發布時間:2024-03-18
AI算力機房
指基于人工智能芯片構建的人工智能計算機集群的機房,它包括了基建基礎設施(機房基建)、硬件基礎設施和軟件基礎設施的完整系統。
AI算力機房主要應用于人工智能深度學習模型開發、模型訓練關鍵作用
關鍵作用
人工智能計算中心將重點打造“一中心四平臺”,以人工智能計算中心為主體,提供公共算力服務平臺、應用創新孵化平臺、產業聚合發展平臺和科研創新人才培養平臺,以此實現“政產學研用”五位一體打通,形成區域乃至全國的人工智能產業的匯聚。
(一)公共算力服務平臺
將人工智能計算中心算力資源開放給本地軟件開發企業、科研機構和高校,解決高校、科研機構和企業的算力需求問題。
(二)應用創新孵化平臺
結合本地優勢產業特點,編制人工智能應用場景的項目機會清單,面向人工智能企業、高校院所、科研機構進行公開發布,鼓勵開展人工智能競爭性和先導性應用開發和場景試驗,牽引科技創新成果做商用轉化,形成重大產品創新和示范應用。
打造一批有影響力、有實際效果的應用示范項目,進一步帶動本地相關產業智能化升級。
(三)產業聚合發展平臺
依托人工智能計算中心建設配套園區,并聯合AI頭部公司聯合建立人工智能生態創新中心等生態運作組織,進行企業交流、初創孵化、技術賦能、人才培訓、技術方案對接,產業推廣等活動,促進和推動人工智能產業集約集聚發展。
(四)科研創新人才培養平臺
結合本地教育資源情況,鼓勵高校院所聯合行業龍頭企業,采用產學研合作模式,創建一批人工智能重點實驗室、研究院等創新科研組織,基于人工智能計算中心算力資源,圍繞產業技術創新需求,開展人工智能技術研發、科技成果轉化等重點工作,落地一批科技創新成果,培養一批關鍵人才。[2][3]
現狀
人工智能計算中心以人工智能專用芯片為計算算力底座,是當前人工智能快速發展和應用所依托的新型算力基礎設施。具備訓練復雜先進模型和處理海量數據能力的人工智能計算中心屬于投資較大的信息基礎設施,是包含了機房基建、硬件基礎設施和軟件基礎設施的大規模的系統工程,當前的建設模式和現狀主要為政府主導建設和頭部企業自行建設。
政府主導建設
在國家層面,出于保持國家競爭力、帶動產業發展等考量,各國政府紛紛出資或政策引導建設人工智能計算中心。在我國人工智能戰略和深圳“雙區驅動”整體布局下,鵬城實驗室和華為合作,共同研制人工智能大科學裝置——鵬城云腦,打造人工智能計算中心、面向全國的人工智能基礎開源開放平臺和人工智能開源開放創新生態環境。支撐粵港澳大灣區人工智能重大應用需求、提升大灣區人工智能研究基礎地位與創新力和吸引全國人工智能資源、技術與人才。
頭部企業建設
近年來人工智能技術領先的企業已普遍開展人工智能算力平臺建設,部分龍頭企業根據自身的業務特點投資人工智能專用芯片,并依托人工智能芯片建設專有集群。如Google、微軟、華為、科大訊飛、商湯、曠視。
發展趨勢
(一)全棧一體化趨勢:專用人工智能芯片與軟硬件協同優化提升計算效率
各類人工智能加速芯片適應人工智能的算法特征,進行矩陣元操作的并行化加速,或進行針對特定人工智能計算任務的精簡優化,發展方興未艾。我國人工智能芯片起步較晚,但發展較快,當前華為、寒武紀等已推出商用人工智能芯片,還不斷有新的人工智能芯片出現。
(二)技術融合趨勢:云與人工智能融合
云平臺帶來了人工智能計算中心運營模式的改變,通過云上租戶粒度的安全隔離、完善的運維運營系統,人工智能計算中心可以為不同用戶提供安全可靠、按需使用、彈性伸縮、有服務等級保障的自助式服務。云化計算中心提供裸金屬服務器、虛擬機、容器等多樣化的算力資源和人工智能使能平臺服務,人工智能服務與云上大數據、物聯網、邊緣計算等服務的相互協同,滿足新型應用場景綜合復雜多層次的計算需求。
(三)平臺賦能趨勢:人工智能計算中心賦能企業,形成算力生態
具備強大軟硬件能力的核心企業集聚研發能力、生產經驗和產業資源,在人工智能計算中心搭建基礎應用使能能力,對平臺上的小型人工智能企業和欠缺人工智能能力的傳統企業進行賦能。人工智能計算中心將成為人工智能核心企業和大量初創企業能力輸出的主要方式,如通過平臺開放接口的方式輸出龍頭企業的算法能力,資源、數據支撐、運營輔導和模式優化等。[5]
總體架構
人工智能計算中心的總體架構劃分為基建基礎設施(機房基建)層、硬件基礎設施和軟件基礎設施層,在人工智能計算中心之上,是行業應用層。
基建基礎設施層包括土建、電氣等底層設施。為人工智能計算中心提供空間、水電、散熱等基本條件。行業應用層是人工智能產業的核心,將基礎能力轉化成人工智能技術,如計算機視覺、智能語音、自然語言處理等應用算法研發,廣泛應用到多個不同的應用領域。
人工智能計算中心總體架構
關鍵技術
1.硬件基礎設施
由人工智能計算子系統、存儲子系統、網絡互聯子系統組成。人工智能計算子系統主要提供硬件算力,由人工智能芯片、基于人工智能芯片的服務器與芯片間和服務器間互聯網絡構成。存儲子系統、網絡互聯子系統圍繞計算子系統提供數據存儲傳輸、人工智能網絡模型參數傳輸更新等功能。其中,人工智能芯片是人工智能硬件基礎設施中人工智能算力最重要的承載。
2.軟件基礎設施
軟件基礎設施層包含基礎軟件(AI系統軟件包括AI開發框架和芯片使能軟件,以及云平臺)、AI使能軟件、行業算法、AI市場。基礎軟件中,芯片使能軟件驅動AI芯片,提供深度學習軟件加速庫(算子)的集合,AI開發框架封裝了如卷積等基本操作,提供人工智能網絡模型開發環境;基礎軟件還包括云平臺,對計算、存儲、網絡資源進行統一調度和鼓勵,提供統一算力支持。AI使能軟件支持作業的自動調度、大規模分布式訓練,對AI計算子系統的算力資源進行統一管理、調度和實時分配,提供算子開發研究、神經網絡開發研究、全流程AI開發能力,幫助AI開發者和科研人員高效完成算子開發、算法開發、數據處理、模型訓練和模型部署等開發活動。行業算法通過行業知識和積累,預置行業經驗,實現更快更高效的賦能行業。
建設指導
由中國科學技術信息研究所發布的《人工智能計算中心發展白皮書》對人工智能計算中心的概念、發展現狀、總體架構和關鍵技術以及加快發展我國人工智能計算中心的建議作出了解釋與介紹。
建設意義
人工智能計算中心是一個非常重要的基礎設施,旨在讓人工智能“用得起、用得上、用得好”。
“用得上”是指構建一體化方案,通過一個人工智能計算中心,讓各種交叉技術一站式解決;“用得起”是指在不浪費有限的社會資源的條件下,把所有的成本降至最低,統籌規劃解決人工智能算力,使人工智能計算中心作為標桿,解決人工智能基礎研究上的需求和產業發展,滿足中小企業加入人工智能行業中所需要的算法需求;“用得好”則是指未來將推出多個公共服務平臺,并實現平臺迭代升級,讓受益面更廣。