如今,AI和云原生類應用已經成為企業(yè)IT基礎設施的重要工作負載,不過這也給在企業(yè)數據中心和混合云中支持這些先進應用的IT團隊帶來了挑戰(zhàn),于是數據中心現代化便成為企業(yè)的重要議題。
在近日舉行的VMworld 2021上,NVIDIA和VMware公布了諸多聯合創(chuàng)新舉措,幫助企業(yè)將現有IT基礎設施進行現代化,更好地承載人工智能和云原生等應用。
云原生環(huán)境中的AI
在VMworld 2021上,VMware發(fā)布了最新版本的VMware Tanzu for vSphere,其使IT團隊能夠在其現有的IT基礎設施上運行容器化Kubernetes工作負載。

結合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企業(yè)能夠在VMware環(huán)境中的Kubernetes容器上運行AI工作負載,充分利用方便IT部門管理的基礎設施。該軟件可在服務器廠商商所提供的主流NVIDIA認證系統(tǒng)上運行,從而提供了一個完整的、專為AI優(yōu)化的集成式軟件堆棧和硬件堆棧。
我們知道NVIDIA AI Enterprise于2021年8月上市,是一套經NVIDIA優(yōu)化、認證和支持的端到端的云原生AI和數據分析軟件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服務器和NVIDIA RAPIDS。這些工具使AI開發(fā)者和數據科學家能夠輕松獲得構建對話式AI、計算機視覺和推薦系統(tǒng)等一系列企業(yè)AI應用所需的工具和框架。
作為NVIDIA和VMware聯合開發(fā)AI-ready企業(yè)平臺,NVIDIA AI Enterprise將全球領先的AI堆棧和經過優(yōu)化的軟件帶入企業(yè)現有使用的IT基礎設施中,幫助企業(yè)縮短AI開發(fā)周期,快速部署、管理和擴展AI工作負載,更快上線應用。
更為重要的是NVIDIA AI Enterprise的云原生架構提供接近裸機水平的AI性能,包括在虛擬化環(huán)境中。在最新的MLPerf基準測試中,戴爾科技EMC PowerEdge R7525服務器用三個NVIDIA A100 Tensor Core GPU運行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸機性能。
目前,NVIDIA AI Enterprise通過全球NVIDIA渠道合作伙伴提供,并得到了包括源訊、戴爾科技、技嘉、新華三、慧與、浪潮、聯想和超微等多家提供NVIDIA認證系統(tǒng)的服務器制造商的支持。
為支持需要即時訪問AI基礎設施的客戶,NVIDIA AI Enterprise預計也將在不久后加入數字基礎設施領導者Equinix提供的NVIDIA AI LaunchPad計劃。
DPU加速數據中心現代化
除了NVIDIA AI Enterprise,NVIDIA擴大與聯想的合作,提供對VMware Monterey項目的搶先體驗計劃支持。通過搶先體驗計劃,企業(yè)可及早探索應用支持VMware的預配置集群,通過聯想ThinkAgile VX和ThinkSystem Ready-Nodes等配備了BlueField的服務器實現加速。

目前,企業(yè)正在對現有應用進行現代化升級,并部署新應用,傳統(tǒng)IT架構不斷擴展,新的挑戰(zhàn)隨之而來,比如服務器CPU上消耗的周期數量越來越多,進而影響性能。
為了解決這些問題,企業(yè)采用帶有GPU、DPU等硬件加速器的專用系統(tǒng),并通過減輕負載來滿足新應用的性能和安全需求。不過加速器可以提高性能,但也會導致團隊孤立、技能專業(yè)化、總體擁有成本增加,并且?guī)砹烁蟮膹碗s性和安全需求。
VMware Monterey項目旨在通過包括NVIDIA BlueField DPU在內的最新網絡技術,提高企業(yè)數據中心的性能、可管理性和安全性。
現代超大規(guī)模云技術推動數據中心利用一種專門針對數據中心基礎架構軟件而設計的新型處理器,來卸載和加速由虛擬化、網絡、存儲、安全和其它云原生AI服務產生的巨大計算負荷。于是NVIDIA于2020年率先提出DPU(數據處理器)的概念,并推出了BlueField系列DPU產品。
最新的NVIDIA BlueField-3 DPU是首款為AI和加速計算而設計的DPU,針對多租戶、云原生環(huán)境進行了優(yōu)化,提供數據中心級的軟件定義和硬件加速的網絡、存儲、安全和管理等服務,通過對數據中心應用的卸載、加速和隔離,實現各種規(guī)模的應用交付,打造安全、高性能的現代企業(yè)數據中心。
通過BlueField-3 DPU的加速引擎,有些場景下的性能可相當于多達300個通用CPU核的性能,從而釋放寶貴的CPU資源來運行關鍵業(yè)務應用。
BlueField-3 DPU可以從業(yè)務應用中將數據中心的基礎設施服務卸載和隔離出來,實現了由傳統(tǒng)基礎設施到現代基于 “零信任” 環(huán)境的轉型,可對數據中心的每個用戶進行身份認證,保障了企業(yè)從云到核心數據中心,再到邊緣的安全性,同時在效率和性能上有了更大的提升。
作為業(yè)內首款400G以太網和NDR InfiniBand DPU,BlueField-3具有出色的網絡性能。相比上一代產品,它具有5倍加速計算能力、4倍的加密速度,并且將CPU核升級到16個Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe總線并提供數據中心時間同步加速的DPU。
結語
不管是AI Enterprise還是DPU,NVIDIA在軟件和硬件層面不斷創(chuàng)新實現AI民主化,而這離不開生態(tài)圈的構建。此次VMworld 2021上NVIDIA和VMware的聯合成果發(fā)布,將會加速人工智能在現代數據中心中的落地,推動企業(yè)的業(yè)務轉型。