日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

文章圖片

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

文章圖片

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

文章圖片

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

文章圖片

宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?

一、前言
這兩年人工智能(AI)風(fēng)靡全球科技界 , 雖然還不完全成熟 , 但是它已經(jīng)開(kāi)始深刻地融入、改變?nèi)祟?lèi)的日常工作生活 。
提起人工智能 , 可能有很多朋友有這樣一種困惑:為什么現(xiàn)在主導(dǎo)人工智能計(jì)算的是顯卡(GPU) , 是英偉達(dá) , 而不是大家所熟悉的處理器(CPU) , 英特爾或者AMD?
這是一個(gè)非?!坝腥ぁ钡膯?wèn)題 , 下面小編將用淺顯的語(yǔ)言來(lái)解答 , 簡(jiǎn)而言之 , 產(chǎn)生這種困惑的主要原因是部分朋友的認(rèn)知存在著兩個(gè)偏見(jiàn)和誤解 。
這兩個(gè)偏見(jiàn)和誤解分別是:對(duì)CPU的計(jì)算性能認(rèn)識(shí)不全面和對(duì)GPU(顯卡)的認(rèn)識(shí)過(guò)于膚淺、陳舊 , 下面小編將逐一解釋 。

二、CPU的計(jì)算性能的局限性
一提起處理器(主要指消費(fèi)級(jí)) , 很多朋友首先就會(huì)聯(lián)想到跑分 , 提起跑分馬上就會(huì)聯(lián)想到Core i9-14900KS和Ryzen 9 9950X等等型號(hào) 。 這兩款處理器的跑分目前是最高的 , 性能也是最高的 , 很多朋友在潛意識(shí)里會(huì)認(rèn)為它們?cè)谒械挠?jì)算領(lǐng)域性能都是最高的 。
這種認(rèn)知是非常片面、錯(cuò)誤的 , 因?yàn)橥瑯邮恰坝?jì)算” , 具體的計(jì)算類(lèi)型也分很多種 , 比如說(shuō)最常見(jiàn)的加減乘除 , 平方、立方和開(kāi)方等等 。
普通消費(fèi)級(jí)處理器的設(shè)計(jì)目標(biāo)主要是為了滿足通用計(jì)算的需求 , 擅長(zhǎng)處理復(fù)雜的邏輯控制和串行任務(wù) , 高效地執(zhí)行各種不同類(lèi)型的指令 , 包括算術(shù)運(yùn)算、邏輯判斷、數(shù)據(jù)存取等 , 其中主要是整型計(jì)算 。

而人工智能類(lèi)計(jì)算 , 主要是進(jìn)行模型的訓(xùn)練和推理 , 主要涉及矩陣運(yùn)算和張量運(yùn)算 , 主要考驗(yàn)的是處理器的浮點(diǎn)運(yùn)算性能 , 而這些正是CPU的短板 , GPU的優(yōu)勢(shì) 。 而GPU則不同 , 其多計(jì)算單元是專(zhuān)為處理圖像和視頻等高密度浮點(diǎn)運(yùn)算而設(shè)計(jì)的 , CPU雖然也能執(zhí)行浮點(diǎn)運(yùn)算 , 但其浮點(diǎn)運(yùn)算性能遠(yuǎn)不如GPU 。
簡(jiǎn)而言之 , 同樣是“計(jì)算” , 對(duì)于不同的應(yīng)用場(chǎng)景 , 所要求、考驗(yàn)的具體的計(jì)算類(lèi)型是不同的 , 各有側(cè)重 , 人工智能計(jì)算領(lǐng)域的計(jì)算任務(wù)類(lèi)型和CPU所擅長(zhǎng)的計(jì)算類(lèi)型是不同的 , 差異很大 , 大家必須首先客觀、正確地理解這一點(diǎn) 。

三、對(duì)顯卡認(rèn)識(shí)過(guò)于“膚淺”
看到這個(gè)小標(biāo)題 , 可能有些朋友非常不服氣 , 認(rèn)為自己是老玩家 , 是資深的游戲和顯卡愛(ài)好者 , 對(duì)顯卡楞為了如指掌 , 根本不存在“認(rèn)識(shí)過(guò)于膚淺”的情況 。
不過(guò) , 小編的話雖然有點(diǎn)難聽(tīng) , 但基本上是事實(shí) 。 很多朋友一提到顯卡 , 首先就會(huì)想到游戲 , 畫(huà)質(zhì)、光線追蹤、平均幀速和幀時(shí)間 , 視頻編解碼和圖形渲染等等 , “顯卡”顧名思義 , 那就是負(fù)責(zé)和“顯示”有關(guān)的任務(wù)(計(jì)算) 。

對(duì)此 , 小編要鄭重指出、強(qiáng)調(diào)的是:這種認(rèn)知現(xiàn)在是非常片面、落后的 , 已經(jīng)嚴(yán)重過(guò)時(shí)了 , 還停留在AMD的認(rèn)知檔次上 。 在顯卡誕生和之后的很長(zhǎng)一段時(shí)間里 , 這種認(rèn)知是正確的 , 但自從英偉達(dá)在2006年推出了CUDA架構(gòu)后 , 這種認(rèn)知就已經(jīng)不再適用 。
CUDA是一個(gè)集編程模型、編譯器、API、庫(kù)和工具于一體的并行計(jì)算架構(gòu) , 它解鎖了GPU的通用計(jì)算潛能 , 使開(kāi)發(fā)者能夠高效利用GPU的并行處理能力解決復(fù)雜計(jì)算問(wèn)題 。 在這種背景下 , 原來(lái)隸屬于圖形計(jì)算領(lǐng)域的這部分傳統(tǒng)的顯卡任務(wù) , 已經(jīng)被劃歸為CUDA架構(gòu)和解決方案下的一個(gè)子領(lǐng)域和子任務(wù) 。
【宗熙先生:為什么人工智能類(lèi)計(jì)算主要依賴(lài)顯卡,而非處理器?】
所以 , 大家就不要再埋怨RTX 40系列顯卡性能提升不高了 。 因?yàn)閳D形性能(計(jì)算)只是RTX 40系列顯卡整體性能提升的一部分 , 還有很多性能是在傳統(tǒng)的游戲應(yīng)用場(chǎng)景下所發(fā)揮、表現(xiàn)不出來(lái)的 , 比如在關(guān)閉DLSS的情況下 。
換句話也就是說(shuō) , 顯卡發(fā)展到今天 , 再用“顯卡”這個(gè)名字來(lái)稱(chēng)呼它 , 嚴(yán)格來(lái)說(shuō)是不嚴(yán)謹(jǐn)?shù)摹⒉豢陀^和不科學(xué)的 , 甚至有嚴(yán)重的誤導(dǎo)性 。 現(xiàn)在它(GPU)已經(jīng)發(fā)展成為一種通用的計(jì)算處理器 , 原來(lái)負(fù)責(zé)游戲性能、視頻編解碼和圖形渲染等任務(wù) , 只是其現(xiàn)在整體功能的一部分 。

談到這里 , 小編順便說(shuō)一個(gè)題外話:AMD現(xiàn)在終于后知后覺(jué) , 認(rèn)識(shí)到自己以前所采用的打法的弊端和英偉達(dá)CUDA統(tǒng)一架構(gòu)的優(yōu)勢(shì) 。 近期也決定將其負(fù)責(zé)商業(yè)計(jì)算的領(lǐng)域CDNA架構(gòu)和負(fù)責(zé)消費(fèi)級(jí)顯卡的RDNA架構(gòu)合并、統(tǒng)一為UDNA架構(gòu) , 不得不說(shuō) , AMD在認(rèn)知、決策方面落后太多了 。
四、CUDA架構(gòu)和采用該架構(gòu)顯卡的優(yōu)勢(shì)
1、浮點(diǎn)計(jì)算性能高
GPU的計(jì)算單元是專(zhuān)為處理圖像和視頻等高密度浮點(diǎn)運(yùn)算而設(shè)計(jì)的 , 這種設(shè)計(jì)使得GPU在執(zhí)行浮點(diǎn)運(yùn)算時(shí)具有極高的效率 , 遠(yuǎn)超CPU 。
2、核心數(shù)量多
GPU通常擁有數(shù)百個(gè)甚至數(shù)千個(gè)小型處理核心 , 這些核心能夠同時(shí)執(zhí)行大量的并行計(jì)算任務(wù) 。 相比之下 , CPU大多數(shù)只有幾個(gè)到幾十個(gè)核心 , 因此在處理大規(guī)模并行計(jì)算時(shí)可能會(huì)遇到性能瓶頸 , GPU在這方面的優(yōu)勢(shì)巨大 。

3、并行計(jì)算性能強(qiáng)
CUDA的核心原理是將復(fù)雜的計(jì)算任務(wù)分解為多個(gè)簡(jiǎn)單的子任務(wù) , 并在GPU的多個(gè)核心上并行執(zhí)行這些子任務(wù) 。 GPU內(nèi)部包含多個(gè)流處理器(SM) , 每個(gè)SM包含多個(gè)CUDA核心 , 這些核心能夠同時(shí)處理多個(gè)線程 。
采用CUDA方案 , 在深度學(xué)習(xí)的訓(xùn)練過(guò)程中 , 開(kāi)發(fā)者可以將計(jì)算任務(wù)劃分為多個(gè)小的子任務(wù) , 然后分配到GPU的多個(gè)核心上并行執(zhí)行讓 GPU 的不同核心同時(shí)處理這些小份數(shù)據(jù)的計(jì)算 , 從而大大提高訓(xùn)練速度 。
4、內(nèi)存帶寬高
GPU的內(nèi)存帶寬通常比CPU高得多 , 這使得GPU在處理大規(guī)模數(shù)據(jù)時(shí)能夠更快地訪問(wèn)和傳輸數(shù)據(jù) 。 在深度學(xué)習(xí)模型的訓(xùn)練中 , 大量的數(shù)據(jù)需要被頻繁地讀取和寫(xiě)入內(nèi)存 , 因此 , 高內(nèi)存帶寬對(duì)于提高訓(xùn)練效率至關(guān)重要 。
五、小編總結(jié)

綜上所述 , 人工智能計(jì)算主要依賴(lài)GPU而非CPU的原因主要在于GPU在并行計(jì)算能力、浮點(diǎn)運(yùn)算速度、內(nèi)存帶寬等方面具有顯著優(yōu)勢(shì) , 這些優(yōu)勢(shì)使得GPU在處理大規(guī)模數(shù)據(jù)和復(fù)雜計(jì)算任務(wù)時(shí)能夠提供更高的計(jì)算效率和性能 。
由于英偉達(dá)推出CUDA架構(gòu)較早 , 而且深耕多年 , 目前已經(jīng)得到了業(yè)界的普遍支持 , 客觀來(lái)說(shuō) , 這種優(yōu)勢(shì)是英特爾和AMD等其他競(jìng)爭(zhēng)對(duì)手短期內(nèi)很難撼動(dòng)、超越的 , 但是未來(lái)也仍然存在諸多變數(shù) 。

    推薦閱讀