日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

一文讀懂:AI時代為什么需要DPU?

一文讀懂:AI時代為什么需要DPU?

文章圖片

一文讀懂:AI時代為什么需要DPU?

文章圖片

一文讀懂:AI時代為什么需要DPU?

文章圖片

【一文讀懂:AI時代為什么需要DPU?】一文讀懂:AI時代為什么需要DPU?

文章圖片

一文讀懂:AI時代為什么需要DPU?

文章圖片

一文讀懂:AI時代為什么需要DPU?

文章圖片


各位小伙伴們大家好哈 , 我是老貓 。
今天跟大家來聊聊DPU 。
我們知道 , AI時代的到來 , 數(shù)據(jù)中心快速發(fā)展 , CPU不僅需要提供強大計算能力 , 還要提供數(shù)據(jù)中心的虛擬化、網絡、存儲以及安全等方面的管理 , 這就讓數(shù)據(jù)中心的CPU不能物盡其用 。
比如 , 你買了100核的CPU , 只能用90個核 ,
其他10個核去哪里了?
跑了一堆數(shù)據(jù)中心的軟件 , 安全 , 存儲 , 管理等等 。
那么這些額外10個核的開銷部分就造成了一些浪費 。 相當于花了100塊錢 , 只有90塊錢被用在了計算上 。
因此 , 那么就需要一個專門干臟活累活的角色——DPU



DPU就是來分擔CPU在數(shù)據(jù)中心中除了計算方面其它工作的 。
今天我們就來聊聊 , 為什么AI時代需要DPU , DPU現(xiàn)在發(fā)展到底怎樣?
▉ 為什么需要DPU?
在傳統(tǒng)的在馮·諾依曼架構體系中 , 網絡一般只是起到數(shù)據(jù)傳輸?shù)淖饔?, 計算都是以CPU或GPU為中心 , 而當ChatGPT和BERT等大型復雜模型將其工作負載分配到數(shù)量眾多的GPU進行并行計算時 , 將產生大量的突發(fā)梯度數(shù)據(jù)傳輸 , 從而容易導致網絡擁塞 。



這是傳統(tǒng)馮·諾依曼架構的一個天然弊端 , 在算力提升的AI時代 , 無論是提升帶寬還是降低延遲都無法解決網絡這一問題 。
那么如何繼續(xù)提升數(shù)據(jù)中心網絡的性能呢?
這個時候 , 就需要DPU出現(xiàn)了 。 簡單來說就是DPU讓網絡不僅能夠提供數(shù)據(jù)傳輸?shù)墓δ?, 還要承擔一些數(shù)據(jù)處理的計算 。
通過這種新的架構方式可以讓CPU或GPU專心做自己擅長的計算任務 , 將一些基礎設施操作工作負載分配到DPU上 , 從而解決網絡傳輸中多打一的瓶頸問題或丟包問題 。 據(jù)了解 , 通過這種方式可以使網絡延時降低10倍以上 。
那么有人就要問了 , 這個DPU到底在網絡中能起到什么作用呢?
我舉個例子來說明一下 。
就像經營餐館一樣 , 以前人手比較少 , 老板一個人承擔采買、洗切、配菜、烹調、傳菜和收銀等全部工作 , 就像CPU一樣 , 不僅要進行數(shù)學和邏輯運算 , 還要管理外部設備 , 在不同的時間執(zhí)行不同的任務 , 并進行任務的切換 , 從而滿足業(yè)務應用程序執(zhí)行的需要 。



但是隨著要服務的就餐客戶數(shù)量的增多 , 就需要將不同的任務由不同的人員分擔 , 有多個店員負責采買、洗切、配菜 , 保障廚師的烹調備料;有多位廚師并行進行烹調 , 提升菜品制作效率;有多位服務員提供服務和傳菜 , 保證多桌客戶的服務質量;而老板就只負責收銀和管理 。
如此一來 , 店員和服務員團隊像是DPU , 對數(shù)據(jù)進行處理和移動;廚師團隊像是GPU , 對數(shù)據(jù)進行并行計算 , 而老板像是CPU , 獲取業(yè)務應用需求并交付結果 。
▉ DPU的發(fā)展史
DPU這個概念是在2020年出現(xiàn)的 , 那一年 , NVIDIA正式推出了兩款 DPU 產品:BlueField-2 DPU 和 BlueField-2X DPU。



其實在推出這兩款產品之前 , 與DPU類似的功能產品就已經在數(shù)據(jù)中心中開始逐漸被使用 。
我們從智能網卡說起 。
當時 , 為了降低CPU在數(shù)據(jù)中心的額外消耗 , 來自以色列的Mellanox公司提出了 Smart NIC (智能網卡)的概念 。
這個智能網卡除了能完成標準網卡所具有的網絡傳輸功能之外 , 還提供內置的可編程、可配置的硬件加速引擎 , 在提升應用的性能和大幅降低CPU在通信中的消耗 。
例如 , 在虛擬化的環(huán)境中 , CPU需要運行OVS(Open Virtual Switch)相關任務 , 同時還要處理存儲、數(shù)據(jù)包的在線加解密或離線加解密、數(shù)據(jù)包深度檢查、防火墻、復雜路由等操作 , 這些操作導致CPU性能不能發(fā)揮到最佳 。
智能網卡的出現(xiàn) , 為解決額外消耗問題提供了新的思路 。
我們可以通過智能網卡來將OVS操作從CPU卸載下來 , 并完成存儲加速、數(shù)據(jù)加密、深度包檢測和復雜路由等各種功能 , 將花費在處理這些工作負載上的大量的CPU周期返回給主機CPU , 同時解決了不同業(yè)務之間的沖突問題 , 大幅提升了各項業(yè)務的性能 , 也確保了服務器CPU能為應用提供最大的處理能力或者提供更多的虛擬機(VM)服務 , 創(chuàng)造更大的價值 。



正是看到了智能網卡的巨大商業(yè)價值 , 2019年3月 , 英偉達花費69億美元收購了以色列芯片公司 Mellanox。 并在2020年推出了DPU產品 , 從此 ,DPU 這個概念正式進入了公眾視野 。
▉ DPU有哪些應用?
從上文中虛擬化中的應用我們可以看到 , DPU將基礎設施任務從CPU轉移至DPU , 釋放CPU的資源 , 使更多的服務器CPU核可用于運行應用程序 , 完成業(yè)務計算 , 從而提高服務器和數(shù)據(jù)中心的效率 。
那么還有哪些地方可以用到DPU呢?
1. 將服務從主機卸載到DPU
目前 , DPU還可以針對云原生環(huán)境進行優(yōu)化 , 加速的網絡、存儲、安全和管理等服務 。



如下圖所示 , 紅帽Red Hat的容器化云平臺即服務(PaaS)OpenShift上 , 借助DPU優(yōu)化數(shù)據(jù)中心資源利用率 , 將網絡相關的數(shù)據(jù)處理(如VxLan和IPSec等)卸載到DPU加速執(zhí)行 , 在25Gb/s網絡條件下 , OpenShift部署DPU用來加速 , 可以只用1/3的CPU占用了來達到25Gb/s性能 , 而在100Gb/s網絡條件下 , 未部署DPU的場景將達不到100Gb/s網絡線速 , DPU可以帶來10倍的性能優(yōu)勢 。
2. 提供零信任安全保護
零信任(Zero Trust)是一種以安全性為中心的模型 , 其基于以下思想:企業(yè)不應對其內外的任何事物授予默認信任選項 。 零信任可以減少數(shù)據(jù)泄露、拒絕未授權的訪問 , 因此在數(shù)據(jù)安全方面價值巨大 。 DPU可以為企業(yè)提供零信任保護 , 通過將控制平面由主機下放到了DPU , 實現(xiàn)主機業(yè)務和控制平面的完全隔離 , 數(shù)據(jù)將無法進行穿透 , 保證安全性 。
DPU的出現(xiàn)相當于為每個服務器配備了一臺\"計算機前的計算機\"以提供獨立、安全的基礎設施服務 , 并與服務器應用域安全隔離 。 如果主機遭受入侵 , 安全控制代理與被入侵主機之間的DPU隔離層可防止攻擊擴散至整個數(shù)據(jù)中心 。
這樣DPU就解決了企業(yè)不愿直接在計算平臺上部署安全代理的情況 。 通過在完全隔離于應用程序域的DPU上部署安全代理 , 企業(yè)不僅能獲得對應用程序工作負載的可見性 , 還能在其基礎設施中執(zhí)行一致的安全策略 。
3. 助力實現(xiàn)\"算存分離\"
通過在服務器系統(tǒng)的數(shù)據(jù)入口處引入計算資源 , 在DPU上獨立實現(xiàn)面對應用需求的存儲方案 , 幫助存儲廠商在數(shù)據(jù)中心中低成本地靈活部署、升級高級存儲協(xié)議 , 而完全不需要對現(xiàn)有軟件棧進行任何更改 。
存儲廠商可以把自家團隊為各行業(yè)應用開發(fā)的開放系統(tǒng)的直連式存儲(DAS)、縱向擴展(Scale-UP)、橫向擴展(Scale-OUT)、超融合架構(Hyperconverged)等存儲解決方案 , 零開銷地推廣到各個應用領域的現(xiàn)有業(yè)務處理平臺和數(shù)據(jù)中心基礎架構中 , 而所有的安全加密、數(shù)據(jù)壓縮、負載均衡等復雜又必須的功能則完全由DPU透明地卸載 。
存儲行業(yè)的革新算法和實現(xiàn) , 可以在DPU架構中 , 獨立于服務器操作系統(tǒng)進行部署 。 DPU技術幫助存儲廠商實現(xiàn)真正的\"算存分離\" , 完全發(fā)揮自家產品的技術優(yōu)勢 , 打通最高效服務應用需求的通路 。
如今數(shù)據(jù)中心中的各項操作主要都在CPU上完成 , 包括計算任務和各項基礎設施任務等 , 而面對數(shù)據(jù)處理需求的增長 , CPU的算力已經達到瓶頸 , 摩爾定律逐漸失效 , GPU的出現(xiàn)解決了CPU的算力問題 , 數(shù)據(jù)中心的瓶頸轉向基礎設施任務 , 如數(shù)據(jù)存儲、數(shù)據(jù)驗證、網絡安全等 。
DPU的出現(xiàn)滿足了這樣的通用的基礎設施任務加速的需求 。 由DPU構建強大的基礎設施層 , 上層的CPU和GPU來完成計算任務 。 DPU具有的特性為:
1)行業(yè)標準、高性能、軟件可編程的多核CPU , 通常基于廣泛使用的ARM架構 , 與其它SoC組件緊密耦合 。
2)高性能網絡接口 , 能夠以線速或網絡其余部分的速度解析、處理和有效地將數(shù)據(jù)傳輸?shù)紾PU和CPU 。
3)豐富的靈活可編程加速引擎 , 可為AI和機器學習、安全、電信、存儲和虛擬化等執(zhí)行卸載并提高應用程序性能 。
▉ 目前市場有哪些DPU產品?
NVIDIA是DPU領域的全球先行者 。 2020 年上半年 , NVIDIA以69 億美元的對價收購以色列網絡芯片公司Mellanox Technologies , 并于同年推出BlueField-2 DPU , 將其定義為繼CPU和GPU之后“第三顆主力芯片” , 正式拉開DPU大發(fā)展的序幕 。

2021年4月 , NVIDIA對外發(fā)布了新一代數(shù)據(jù)處理器-NVIDIA BlueField-3 DPU 。

BlueField-3是首款為AI和加速計算而設計的DPU 。 據(jù)了解 , BlueField-3 DPU可以很好的實現(xiàn)數(shù)據(jù)中心基礎設施工作負載的卸載、加速和隔離 , 從而釋放寶貴的CPU資源來運行關鍵業(yè)務應用 。



現(xiàn)代超大規(guī)模云技術推動數(shù)據(jù)中心從基礎上走向了新的架構 ,利用一種專門針對數(shù)據(jù)中心基礎架構軟件而設計的新型處理器 ,來卸載和加速由虛擬化、網絡、存儲、安全和其它云原生AI服務產生的巨大計算負荷 。 BlueField DPU正是為此而生 。
作為業(yè)內首款400G以太網和NDR InfiniBand DPU , BlueField-3具有出色的網絡性能 。 可為要求苛刻的工作負載提供軟件定義、硬件加速的數(shù)據(jù)中心基礎設施解決方案 , 加速AI到混合云和高性能計算 , 再到5G無線網絡 , BlueField-3 DPU重新定義了各種可能性 。
發(fā)布了BlueField-3 DPU后 , NVIDIA仍然沒有停下探索的腳步 。 NVIDIA發(fā)現(xiàn) , 隨著大模型的出現(xiàn)和流行 , 如何提升GPU集群的分布式計算性能和效率、提高GPU集群的橫向擴展能力、實現(xiàn)在生成式AI云上的業(yè)務性能隔離 , 成為了所有大模型廠商和AI服務供應商共同關注的問題 。



為此 , 在2023年底 , NVIDIA推出BlueField-3 SuperNIC , 從而面向東西向流量進行性能優(yōu)化 , 它源于BlueField DPU , 用了DPU相同的架構 , 但是有別于DPU 。 DPU專注于對于基礎設施操作的卸載 , 是對南北向流量進行加速和優(yōu)化 。 BlueField SuperNIC則借鑒了InfiniBand網絡上的動態(tài)路由、擁塞控制和性能隔離等技術 , 又兼容了以太網標準在云上的便利性 , 從而滿足了生成式AI云對于性能、擴展性和多租戶的需求 。



總結來說 , 目前NVIDIA BlueField-3網絡平臺包含兩款產品 , 分別為實現(xiàn)限速處理軟件定義、網絡、存儲和網絡安全任務的BlueField-3 DPU和專為強力支持超大規(guī)模AI云而設計的BlueField SuperNIC 。
在國內市場 , 針對DPU的研發(fā)也在積極進行 。 中科馭數(shù)的首顆國產DPU芯片K2于2022年成功上市 , 緊接著在今年6月發(fā)布的全功能三代DPU芯片K2Pro , 已經在超低延遲網絡、云和數(shù)據(jù)中心、金融計算、大數(shù)據(jù)處理及高性能計算等多個領域得到了廣泛應用 。
這些芯片不僅在性能上滿足了市場的高標準 , 同時實現(xiàn)了量產 , 使中科馭數(shù)在國內市場的占有率連續(xù)兩年位列第一 。 這一成就的取得 , 得益于中科馭數(shù)在技術研發(fā)上的持續(xù)投入與創(chuàng)新能力 。
▉ 談談DPU的未來趨勢?
目前DPU以數(shù)據(jù)為中心作為計算架構 , 能針對數(shù)據(jù)中心的安全、網絡、存儲、AI、HPC等業(yè)務進行加速 。
從DPU概念的提出者NVIDIA的現(xiàn)有技術發(fā)展趨勢來看 , 未來的技術發(fā)展趨勢將會是高度集成化的片上數(shù)據(jù)中心的模式(Data Center Infrastructure on a chip) , 即一個GPU、CPU、DPU共存的時代 。 NVIDIA布局的數(shù)據(jù)中心從核心到邊緣(Edge)都采用了統(tǒng)一的一個計算架構--CPU、GPU、DPU , 如圖所示 , 形成了\"3U\"一體架構 。



3U一體的統(tǒng)一計算單元架構將會讓管理程序、調度程序都會變得非常容易 。 通過CPU、GPU、DPU之間的協(xié)調計算 , 可以在數(shù)據(jù)中心和邊緣端都可以達到高性能與高安全性 。
可以說 , NVIDIA非??春肈PU的發(fā)展 , 將DPU跟CPU和GPU放在一個地位來看待 。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示:\"現(xiàn)代超大規(guī)模云正在推動數(shù)據(jù)中心的新架構 。 需要一種旨在處理數(shù)據(jù)中心基礎設施軟件的新型處理器來卸載和加速虛擬化、網絡、存儲、安全和其它云原生AI服務的巨大計算負載 。 DPU的時代已經到來 。 \"



除了NVIDIA , 目前Intel、Marvell、NVIDIA成為最有潛力的產業(yè)先驅 。 大多數(shù)DPU方案是從基本的網絡控制器開始擴展至SoC 。 就Intel而言 , 其產品采取處理器配合FPGA , 外加加速引擎的方式;Marvell則采取使用最新處26理器內核配合加速引擎的方式;NVIDIA則采用了處理器配合ASIC , 外加加速引擎的方式 。 這三種方式代表著DPU產業(yè)的未來主流的發(fā)展方向 。
目前 , 中國DPU產業(yè)處于起步階段 , 從中國國內市場需求側來看 , 中國擁有世界最強的互聯(lián)網產業(yè)、規(guī)模最大的網民和線上生態(tài) , 正是因為數(shù)據(jù)的大爆發(fā) , 推動了對算力的需求 , 同時 , 中國愈加重視網絡安全 , DPU在確保網絡安全方向有得天獨厚的優(yōu)勢 , 從數(shù)據(jù)安全到數(shù)據(jù)中心安全皆全方面覆蓋 , 從而具備較好的發(fā)展?jié)摿?, 這是DPU發(fā)展的前提 。
DPU將致力于解決\"網絡協(xié)議處理、數(shù)據(jù)安全、算法加速\"等問題 , 而這些問題有著\"CPU做不好 , GPU做不了\"的特點 。 數(shù)據(jù)中心與云計算領域是中國DPU最大的應用市場 , DPU可為終端政企用戶提供較為成熟的安全的軟件定義及硬件加速解決方案 。

    推薦閱讀