日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

國家超算中心排名 超算排行榜2023最新排名( 二 )


走向DSA化的超算
從多款產(chǎn)品的發(fā)展情況來看 , 集合CPU和GPU的力量在單一芯片上 , 并且擁有諸如統(tǒng)一內(nèi)存尋址這樣的特性成為趨勢 。相比傳統(tǒng)的PCIe總線連接CPU和GPU而言 , 采用Chiplet技術(shù)或者其他的總線連接技術(shù) , 能夠極大地緩解數(shù)據(jù)傳輸中的帶寬瓶頸 。
當(dāng)然 , 數(shù)據(jù)在超算中的不斷搬運(yùn)、存儲帶來的能耗或者對效能的影響是行業(yè)所關(guān)注的一個(gè)方面 , AMD、英偉達(dá)和英特爾正在這方面持續(xù)努力 。而另一方面的問題 , 可能更值得我們?nèi)ニ伎?nbsp;, 那就是為什么三大廠商都開始利用Chiplet技術(shù)(或者類似的設(shè)計(jì))將CPU和GPU集成在一起?在CPU向多核形態(tài)發(fā)展之后 , 下一步是什么?
這樣的趨勢在桌面PC上可能剛剛開始出現(xiàn) , 比如我們的CPU核心才剛開始有最多32個(gè) , 即使線程撕裂者這樣本來面向給服務(wù)器市場的處理器 , 其核心數(shù)量也多在64~96個(gè) 。而在異構(gòu)類型的超級計(jì)算機(jī)沒有廣泛普及之前 , 一整套超算往往會有數(shù)萬到數(shù)十萬個(gè)CPU 。如此多的CPU在很大程度上極大地提升了超算的性能 , 但是隨著CPU數(shù)量不斷提升 , 新的問題出現(xiàn)了 。
一方面是CPU數(shù)量上升到一定程度后 , 邊際效應(yīng)開始顯現(xiàn) , 繼續(xù)增加CPU數(shù)量帶來的性能提升不再是線性提升 。這涉及很多問題 , 比如CPU中計(jì)算單元數(shù)量相對較少、超多的CPU核心在編程上存在困難等 。
另一方面 , 更多的CPU帶來了性能功耗比的下降 , 從而導(dǎo)致超算功耗變得越來越大 , 甚至難以控制 。與之相應(yīng)的是超算本身的功耗、散熱所需功耗等疊加起來 , 使得相應(yīng)產(chǎn)品的制造難度和使用成本變得難以控制 。因此從超多核心CPU到異構(gòu)超算 , 再到超算下一步的發(fā)展方向 , 我們恐怕需要從三個(gè)定律來了解一二 。
三大定律解讀
首先是摩爾定律 。很難否認(rèn) , 摩爾定律帶來了幾乎規(guī)律增長和看似無限的晶體管資源 , 使得人們對晶體管資源的使用效率開始逐漸降低 。麻省理工團(tuán)隊(duì)做過一個(gè)有關(guān)現(xiàn)在集成電路效率的實(shí)驗(yàn) , 發(fā)現(xiàn)在Python這樣的人們經(jīng)常能接觸到的高級語言上運(yùn)行矩陣乘法 , 性能是1的話 , 用C語言重寫后 , 性能可以提升到50 。如果充分挖掘整個(gè)處理器微架構(gòu)的內(nèi)容 , 比如循環(huán)并行化、訪存優(yōu)化 , 使用SIMD等 , 性能可以提升到最高63000 。這意味著 , 隨著微架構(gòu)越來越復(fù)雜 , 人們在應(yīng)用端出了很多問題 , 很難使用如此復(fù)雜和有深度的微架構(gòu)的全部資源 。
在這種情況下 , 人們開始使用定制的硬件來執(zhí)行那些經(jīng)常使用 , 又對性能影響很大的計(jì)算 , 這就是我們多次提到的DSA 。通用架構(gòu)和領(lǐng)域內(nèi)專屬微架構(gòu)的差別在于 , 通用架構(gòu)往往比較龐大 , 整體效率在計(jì)算不同類型操作的時(shí)候 , 相對來說以高效率且可完成不同類型的任務(wù)和計(jì)算為目的 。而DSA則不考慮非領(lǐng)域內(nèi)的其他操作 , 整體設(shè)計(jì)以提高領(lǐng)域內(nèi)某項(xiàng)專屬計(jì)算的效率為主 。這就造成了DSA硬件相對通用計(jì)算硬件幾十倍乃至上萬倍的性能提升 。
對CPU而言 , 在超算中加入GPU也是一種類型的DSA化 。從設(shè)計(jì)CPU的角度來說 , 1個(gè)CPU微架構(gòu)中 , 用于真正計(jì)算的ALU、FPU等單元所占用的晶體管數(shù)量是非常少的 , 大部分晶體管都用于邏輯處理、緩存等部分 。因此 , CPU在計(jì)算能力方面 , 如果增加CPU數(shù)量的話 , 增加的更多是緩存和邏輯控制部分 , 實(shí)際的計(jì)算部分增加并非很多 。因此 , 在這種情況下 , 人們使用計(jì)算部分較多、但是邏輯部分較弱的GPU加入其中 , 對大量并行的數(shù)據(jù)進(jìn)行處理 , 就獲得了非常不錯(cuò)的加速效能 。

推薦閱讀