日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響

文章圖片

三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響
前言憑借與當(dāng)前最先進(jìn)閉源模型不分伯仲的綜合能力 , 以及極有競爭力的訓(xùn)練和推理成本 , 國內(nèi)開源大模型深度求索DeepSeek迅速崛起 。 360納米AI搜索、騰訊元寶、知乎紛紛接入DeepSeek , 本地部署DeepSeek也成為近期的熱門話題 。

端側(cè)AI在保護(hù)隱私、脫機(jī)可用等方面具備獨(dú)特優(yōu)勢 , 同時也能告別“服務(wù)器繁忙” , 暢享DeepSeek自由 。 不過完整版的DeepSeek具備6710億個參數(shù) , 家用電腦的配置無法直接部署 。 DeepSeek在開源DeepSeek-R1的同時 , 蒸餾6個小模型開源給社區(qū) , 給在PC上部署創(chuàng)造了可能 。
STEP1:選擇合適的模型要把大象裝冰箱 , 除了把冰箱門打開 , 還得選擇“合適”的大象 。 理論上參數(shù)越多的模型能力也越強(qiáng) 。 但是選擇適合自己的最重要 。 為了滿足PC端側(cè)部署的需要 , 還需要通過量化降低對顯存的占用 。

以ollama上提供的DeepSeek-R1模型為例 , 入門版的DeepSeek-R1-1.5B無需獨(dú)顯就能運(yùn)行(純CPU推理) , 模型文件只有1.1GB左右 。 中等的DeepSeek-R1-7B需要大約8GB顯存 , 模型文件體積4.7GB 。 大型的DeepSeek-R1-14B需要大約16GB顯存 , 模型文件體積9GB 。 DeepSeek-R1-32B需要頂級個人電腦來運(yùn)行 , 顯存需求大約24GB , 模型文件體積20GB 。
STEP2:部署模型和性能分析通過ollama可以非常方便地部署DeepSeek大模型 , 安裝ollama后首先pull選定的蒸餾模型 。 相關(guān)網(wǎng)上的教程已經(jīng)有很多 , 不過仍需注意了解每一步的具體含義 。 比如很多教程中提到建立OLLAMA_HOST用戶變量并設(shè)置為0.0.0.0 , 這樣一來會將11434端口暴露到互聯(lián)網(wǎng)上 , 存在一定安全隱患 。 如果只是本地使用 , 不要設(shè)置這個用戶變量 。

OLLAMA_MODELS用戶變量用于手動指定模型數(shù)據(jù)的存儲位置 , 對于我們接下來的測試會很有幫助 。

在命令行中輸入ollama run deepseek-r1:14b , 完成加載后就可以和DeepSeek對話了 。 推理性能毫無疑問是跟顯卡直接相關(guān) , 在這里我們主要關(guān)注顯存容量和SSD對使用性能的影響 。 在純凈系統(tǒng)中不運(yùn)行其他程序的情況下 , RTX 3060的12GB顯存基本能夠滿足14b模型的需要 。 推理過程中的正常表現(xiàn)是GPU滿負(fù)荷 , CPU只有很小負(fù)荷 , 推理速度較快:

如果錯誤選擇了超過顯存容量的模型 , 在模型加載后除了顯存基本用滿之外 , 內(nèi)存占用也會大幅增加 , 推理過程中GPU利用率低 , CPU負(fù)荷較高 , 推理速度緩慢:

如果顯存容量不夠用 , 就需要CPU和GPU同時工作 , 增加CPU和內(nèi)存占用 , 并且性能也會下降 。 模型文件體積則影響加載時間 , 由于個人電腦的使用性質(zhì) , ollama默認(rèn)會在5分鐘空閑后釋放顯存 , 下次使用需要重新加載 , 而每一次加載都會影響到使用體驗 。 接下來我們就測試幾款不同的SSD加載DeepSeek-R1:32b的用時 。

通過HWiNFO64每秒記錄模型加載過程中的SSD活動 。

PCIe 3.0接口的致態(tài)TiPlus5000 2TB用時10秒 。 PCIe 4.0接口的致態(tài)TiPlus7100 2TB用時6秒 , 相比PCIe 3.0節(jié)省40% 。 PCIe 5.0接口的致態(tài)TiPro9000 2TB加載用時4秒 , 相比PCIe 4.0節(jié)省33% , 相比PCIe 3.0節(jié)省60% 。

考慮到模型加載后顯存占用的問題 , 超時自動釋放和使用時重新加載是不可避免的 。 PCIe 5.0旗艦級致態(tài)TiPro9000對于端側(cè)AI的使用體驗會有非常明顯的提升作用 。 對于想在本地安裝Deepseek這類語言大模型的PC用戶 , 存儲方案顯然首選PCIE5.0滿速的固態(tài)硬盤 。
STEP3:搭建本地知識庫DeepSeek能夠為我們的工作和學(xué)習(xí)效率帶來很多幫助 , 不過作為離線大模型 , 它的知識是存在截止時間的 。 對于2024年7月之后出現(xiàn)的新事物 , DeepSeek-R1就無法準(zhǔn)確地給出回答 , 譬如我們讓它介紹一下今年上市的致態(tài)TiPro9000 , 回答的內(nèi)容中會有不少錯誤 。

我們可以通過本地知識庫來加深DeepSeek對TiPro9000的了解 。 首先下載安裝Cherry Studio , 在設(shè)置中加入deepseek模型 , 以及將文本數(shù)據(jù)轉(zhuǎn)換為向量標(biāo)識的bge-m3嵌入模型 。

【三步把DeepSeek裝進(jìn)PC,及存儲對端側(cè)AI體驗影響】接下來在知識庫中導(dǎo)入PCEVA評測室之前對致態(tài)TiPro9000的評測內(nèi)容:

現(xiàn)在同DeepSeek對話 , 它會參考我們在知識庫中提供的信息進(jìn)行回答 , 準(zhǔn)確性得到大幅提升 。

以上我們在個人電腦上部署了DeepSeek-R1大模型 , 通過實際測試驗證了不同蒸餾模型對顯存的需求 , 并考察了SSD對于大模型加載性能以及用戶體驗的影響 。 最后 , 通過搭建本地知識庫 , 讓本地部署的端側(cè)大模型能夠更好地為我們服務(wù) 。
除了顯卡規(guī)格直接影響推理速度之外 , 測試中可以看到SSD性能對端側(cè)大模型的影響也是非常明顯的 , 采用致態(tài)TiPro9000這樣的滿速PCIe 5.0 SSD可有效減少加載時長 , 提高用戶體驗 。

    推薦閱讀