日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

RISC-V架構CPU的微架構設計分析

RISC-V架構CPU的微架構設計分析

文章圖片

RISC-V架構CPU的微架構設計分析

文章圖片

RISC-V架構CPU的微架構設計分析

【RISC-V架構CPU的微架構設計分析】
RISC-V架構CPU的先進微架構設計簡介RISC-V架構是一種開源的指令集架構 , 近年來發(fā)展迅猛 。 盡管因為生問題 , RISC-V應用方向主要是單片機級的 , 高端應用方向發(fā)展速度緩慢 , 但是依然有不少公司推出了基于RISC-V指令集的高端應用場景的處理器 。 例如 , 躍昉科技、賽昉科技和阿里平頭哥相繼發(fā)布CPU主頻超過1.5GHz的基于RISC-V的高端應用處理器 , 實現(xiàn)了RISC-V從IoT領域向邊緣計算領域的跨越。
本文概述了具有代表性的RISC-V公司推出的先進CPU微架構 , 其主要市場目標為服務器和PC端等高端應用 。 有分析認為 , 相較于ARMRISC-V陣營CPU微架構設計能力尚不足2年 。
SIFIVE P870P870是當前SiFive公司推出的最先進的RV處理器 , 遵循RVA23 profile 。 6 decode亂序處理器 , 具有128b向量長度 , Hypervisor 拓展 , Vector Crypto , IOMMU/AIA等特性 。 微架構核心參數(shù)對標ARM公司的N2處理器(服務器端) 。 相比較于ARM , SIFIVE的CPU流水線做的相對較深 , 這對預測器考驗比較大 , 目前業(yè)內最先進的預測器提升比較緩慢了 , 更深的流水線對預測錯誤更加敏感 , 這幾年ARM有些系列的流水線深度基本維持在較低的狀態(tài)(ARM N2流水線從N1的11降到10 , 頻率依然保持較高的水準) , 從預測器相對瓶頸角度考慮 , 降低流水線深度是不錯的提升方式 , 這對各模塊的并行設計以及解耦設計要求比較高 。
對于RISC而言 , 亦安個人覺得合理的微架構設計將流水線維持在較低水平是不錯的微架構方案 。 并且要在較低流水線下保持時序上的高水平 。


整體的微架構參數(shù) , 常規(guī)參數(shù)基本和arm的N2/V2系列對標:IFUP870是一款性能卓越的處理器 , 擁有32個一級指令緩存(ITLB)、64KB的高速指令緩存(ICache)和64條指令的隨機訪問存儲器(RAS) 。 此外 , 它還配備了16K的TAGE預測器和2.5K的間接預測器 , 以提高處理效率 。 與ARM N2相比 , P870在單周期處理分支數(shù)方面略遜一籌 , N2支持2個分支預測 , 而P870目前尚無相關描述 , 預計只能預測一個分支 。 需要注意的是 , N2還具備MOp Cache功能 。
DecodeP870處理器擁有6個decode寬度的解碼器 , 與ARM的V2架構保持一致 , 且超過了N2處理器的5個decode寬度 。 它支持32位指令和壓縮指令 , 具有228條整數(shù)運算、240條浮點運算、128條向量運算以及6個寬度的Dispatch調度單元 。 這些參數(shù)與ARM的N2/V2系列相差無幾 , 展現(xiàn)了P870的強大性能 。
Execute\"96 int型數(shù)組 , 4 ALU操作 , 1 分支執(zhí)行單元 。 這些元素暗示著P870更可能是多周期的2分支處理器 , 而非單周期設計 。 \"
LSU\"64KB DeCache2 LS pipesLoad/Store buffer均配置為48 entries確保高效的數(shù)據(jù)傳輸 。 同時 , 64entries的DTLB設計保證了高性能的指令調度 。 \"
總結當前 , P870與ARM參數(shù)差距主要體現(xiàn)在IFU側的能力 , 例如單周期處理的分支數(shù)量 。 由于細節(jié)性能難以評估 , 網(wǎng)絡上關于P870的詳細參數(shù)并不多 。 然而 , 根據(jù)N2流水線深度為10的設計 , ARM在微架構解耦性和并行性方面仍領先 。
盡管在參數(shù)上與ARM前一代旗艦相當 , 但考慮到各種因素 , 2.5年的微架構設計差距仍然被認為是合理的 。
Veyron V1簡介這款處理器專為服務器、汽車等高端領域設計 , 具備RISC-V的高端特性 , 如IOMMU/AIA、Hypervisor拓展以及支持48VA-52PA 。 其流水線深度較大 , 設計獨特 , 無需分模塊描述 。

微架構
匯總一下比較特色的微架構設計 , 64KB的Dcache為VIVT結構 。 512KB的L1/L2的指令Cache , 這里從官方描述來看 , 不是L1+L2 ICache有512KB , 而是就一塊超大的ICache 。 512 KB Instruction L2 with power-efficient L0 cache/loop buffer , 官方PPT又說有個L0的Cache , 這里應該就是個buffer 。 至少2個cycle 的Icache和ITLB的訪問延遲 , 在overlap的情況下 。
也有個單獨的512KB的Dcache , 這里在L2區(qū)分指令和數(shù)據(jù)還是比較有意思的 , 并且大小設置的還一致 。 官方還表示這種設計有利于優(yōu)化延遲和功耗 。
L2 TLB區(qū)分指令與數(shù)據(jù) , 其大小約為3K相較于P870有了顯著提升 。 作為單級ITLB它與常規(guī)的2級TLB有所不同 。 這主要歸功于大容量的ICache由于其延遲較高 , 因此無需DFF單周期出結果 。
總結指令與數(shù)據(jù)分離是微架構的關鍵 , ARM架構的優(yōu)勢在于巨大的指令緩存和低延遲 。 然而 , 這也導致流水線深度增加 , 可能帶來一些負面影響 。 其他特色設計尚無詳細細節(jié)來解釋其潛在的負面效果 。
-對此 , 您有什么看法見解?-
-歡迎在評論區(qū)留言探討和分享 。 -

    推薦閱讀