2025 年 5 月 19 日,全球領先的開源解決方案提供商紅帽公司在波士頓舉行的年度峰會上宣布,正式推出紅帽 AI 推理服務器(Red Hat AI Inference Server)。這一創新產品的發布標志著紅帽在混合云環境下推動生成式 AI(GenAI)規模化部署的重要突破,通過開源技術與硬件協同優化,為企業提供高效、靈活且經濟的 AI 基礎設施解決方案。
紅帽 AI 推理服務器基于開源 vLLM 項目開發,并深度整合了其近期收購的 NeuralMagic 技術成果,實現了對訓練后 AI 模型的輕量化與性能優化。通過神經網絡稀疏化技術,該服務器可在不增加硬件成本的前提下,將主流大語言模型(如 GPT 系列、LLaMA、DeepSeek 等)的推理速度提升 30% 以上,同時顯著降低能耗。
值得關注的是,紅帽 AI 推理服務器支持跨多廠商硬件的兼容性,覆蓋 AMD/Nvidia GPU、Intel Gaudi 加速器及 Google TPU 等主流 AI 芯片,真正實現 “任意云環境 + 任意加速器” 的靈活部署。紅帽高級副總裁兼 AI 首席技術官 Brian Stevens 在發布會上表示:“基于 vLLM 的預優化模型可實現 2-4 倍的 Token 產出效率,這一技術突破讓企業從依賴單一廠商的困境中解脫出來。”
作為紅帽 AI 戰略的核心組件,該推理服務器可與紅帽現有技術棧深度融合:
- 操作系統層:與專為 AI 優化的 Red Hat Enterprise Linux AI 版本結合,提供從芯片到應用的全棧性能調優;
- 平臺層:集成至 Red Hat OpenShift AI 平臺,支持容器化部署與 MLOps 全流程管理,實現從邊緣到云端的一致性體驗;
- 生態擴展:通過 Hugging Face 平臺提供經官方驗證的優化模型,并加入新成立的 llm-d 開源社區,推動分布式推理技術的行業標準化。
紅帽混合云平臺副總裁 Mike Barrett 指出:“我們的目標是幫助企業在不顛覆現有 IT 架構的前提下,將 AI 無縫融入核心業務流程。”
根據 IDC 數據,當前 92% 的企業 AI 模型參數量小于 50B,如何平衡性能與成本成為關鍵挑戰。紅帽 AI 推理服務器通過三大創新為行業提供解決方案:
- 成本優化:通過模型壓縮與 GPU 資源復用技術,單臺服務器可同時處理 20 個并發用戶請求,單用戶性能超 20 tokens/s,顯著降低 TCO(總擁有成本);
- 敏捷部署:支持容器化獨立運行或與現有虛擬化環境(如 Red Hat OpenShift Virtualization)無縫集成,自 2024 年以來,該虛擬化方案的部署量已增長 150%;
- 安全合規:結合 Red Hat Enterprise Linux 10 的后量子加密技術,為金融、醫療等敏感行業提供抵御未來攻擊的安全防護。
IDC 全球研究集團副總裁 Rick Villars 評價稱:“紅帽通過軟件定義的方式重新定義了 AI 基礎設施,這將幫助企業最大化現有投資價值,實現從模型訓練到業務嵌入的端到端優化。”
此次發布會上,紅帽還宣布與 Google Cloud、Microsoft Azure 等云廠商合作,在其平臺上推出 Red Hat OpenShift Virtualization 的技術預覽版,進一步拓展混合云場景。同時,計劃于 6 月發布 OpenShift Lightspeed 生成式 AI 助手,為開發者提供自然語言驅動的運維支持。
紅帽公司表示,未來將持續通過開源社區(如 vLLM、NeuralMagic)推動技術迭代,目標在 2026 年前覆蓋 80% 的主流企業級 AI 應用場景。憑借 “軟件定義硬件” 的獨特策略,紅帽正引領行業從硬件依賴向生態驅動的 AI 基礎設施轉型。