忘記訓練，在AI推理階段尋找殺手級應用

2026-02-21 人工智能 ai gpu

大多數組織永遠不會訓練自己的AI模型。相反，大多數客戶在AI領域的關鍵挑戰在于將其應用到生產應用程序和推理中，微調和數據管理是核心任務。
關鍵在于使用檢索增強生成（RAG）和向量數據庫、重復使用AI提示詞的能力，以及允許用戶用自然語言查詢企業信息的協作助手功能。
這些是Pure Storage高管本周在倫敦公司Accelerate活動上對Computerweekly.com所表達的觀點。
自然地，這些確定的關鍵任務與Pure存儲硬件產品最近增加的功能領域完全吻合，包括其最近推出的鍵值加速器，以及其提供按需容量的能力。
但它們也說明了在AI成熟度的現階段（被稱為\"后訓練階段\"）組織處理AI面臨的關鍵挑戰。
在本文中，我們將探討客戶在AI生產階段對存儲的需求，以及持續的數據攝取和推理過程。
不要購買GPU ，它們變化太快
大多數組織不會訓練自己的AI模型，因為目前這樣做成本太高。這是因為GPU硬件的購買成本極其昂貴，而且它的發展速度如此之快，以至于很快就會過時。
因此，大多數組織現在傾向于在云端購買GPU容量用于訓練階段。
當GPU硬件可能在一兩代內就過時時，試圖構建內部AI訓練場毫無意義。
這是Pure Storage創始人兼首席愿景官John \"Coz\" Colgrove的觀點。
\"大多數組織會說， '哦，我想買這個設備，我會用它五年，我會在五到七年內折舊， '\"他說。 \"但現在你不能對GPU這樣做。 \"
\"我認為當事物以驚人的速度改進時，你最好租賃而不是購買。這就像買車一樣， \"Colgrove說。 \"如果你要保留它六、七、八年或更長時間，你就買它，但如果你要保留它兩年然后換成更新的，你就租賃它。 \"
尋找你的AI殺手級應用
對于大多數組織來說， AI的實際利用不會發生在建模階段。相反，它將出現在他們可以用它為自己的業務構建殺手級應用的地方。
Colgrove舉了一個銀行的例子。 \"對于銀行，我們知道殺手級應用將是面向客戶的東西， \"他說。 \"但AI現在是如何工作的？我從與客戶交互的任何數據庫中取出所有數據。我把它吸入其他系統。我像舊的ETL批處理過程一樣轉換它，花費數周時間訓練它，然后得到結果。 \"
\"那永遠不會是殺手級應用， \"Colgrove說。 \"殺手級應用將涉及我可以做的某種推理。但如果它是面向客戶的，那么推理必須應用于常規系統中。 \"
\"這意味著當你真正應用AI從中獲得價值時，你會想要將其應用于你已經擁有的數據，你已經與客戶在做的事情。 \"
換句話說，對于大多數客戶來說， AI的挑戰在于生產階段，更準確地說是（快速）策劃和添加數據的能力，并對其運行推理以微調現有AI模型。然后當你有下一個進一步改進事物的想法時，能夠再次做到這一切。
Pure Storage EMEA現場首席技術官Fred Lherault總結道：\"所以這真的是關于我如何將模型連接到我的數據？首先意味著，我是否做了正確水平的發現我的數據是什么，策劃我的數據，讓它準備好用于AI ，并將其放入可以被模型訪問的架構中？\"
敏捷AI的關鍵技術基礎
因此，推理階段已成為大多數AI客戶的關鍵焦點。在這里，挑戰是能夠策劃和管理數據，以在其生產生命周期內構建和重新迭代AI模型。這意味著客戶以敏捷的方式連接他們自己的數據。
這意味著使用包括向量數據庫、RAG管道、協作助手功能以及提示詞緩存和重用在內的技術。
存儲與這些相關的關鍵挑戰是雙重的。這意味著能夠連接到RAG數據源和向量數據庫。這也意味著能夠處理存儲容量的大幅跳躍，并減少這樣做的需要。這兩者通常是相互關聯的。
\"當你將數據放入向量數據庫時，會發生一件有趣的事情， \"Lherault說。 \"需要一些計算，但然后數據會用可以搜索的向量進行增強。這是向量數據庫的整個目標，這種增強有時會導致數據的10倍放大。 \"
\"如果你有一TB的源數據想要與AI模型一起使用，這意味著你需要一個10TB的數據庫來運行它， \"他說。 \"當許多組織想要將其數據與AI模型一起使用時，所有這些過程對他們來說都是新的。 \"
處理對存儲容量的需求
這種容量跳躍也可能在檢查點等任務中發生，這些任務可能看到大量數據作為快照式點創建，以在AI處理中回滾。
Pure旨在通過其Evergreen即服務模型來解決這些問題，該模型允許客戶快速增加容量。
該公司還建議減少存儲量過快增長的方法，以及提高性能。
其最近推出的鍵值加速器允許客戶存儲AI提示詞，以便可以重復使用。通常，大語言模型會訪問代表先前響應的緩存Token ，但GPU緩存是有限的，所以答案通常需要重新計算。 Pure的KV加速器允許Token以文件或對象格式保存在其存儲中。
這可以將響應速度提高20倍， Lherault說。 \"你開始有更多用戶問不同問題時，你的緩存用盡得更快， \"他補充道。 \"如果你有兩個用戶同時問同樣的問題，并在兩個GPU上這樣做，他們都必須做同樣的計算。這不是很高效。 \"
\"我們允許它實際上將那些預計算的鍵值存儲在我們的存儲上，所以下次有人問一個已經被問過的問題或需要相同Token時，如果我們這邊有它， GPU就不需要做計算， \"Lherault說。
\"它有助于減少你需要的GPU數量，而且在一些生成數千個Token的復雜問題上，我們有時看到答案速度快了20倍。 \"
Q&A
Q1：什么是檢索增強生成（RAG）技術？
A：檢索增強生成（RAG）是一種AI技術，它結合了信息檢索和生成能力，允許AI模型在生成回答時從外部數據源檢索相關信息，從而提供更準確和實時的回答。
Q2：為什么大多數組織不應該購買GPU來訓練AI模型？
A：因為GPU硬件成本極其昂貴，而且技術發展速度非常快，設備很容易在一兩代內就過時。相比購買，在云端租賃GPU容量進行訓練更加經濟實用。
Q3：Pure Storage的鍵值加速器如何提升AI性能？
A：鍵值加速器允許存儲AI提示詞和預計算的Token ，避免重復計算。當用戶詢問相似問題時，系統可以直接從存儲中獲取答案，響應速度可提升20倍，同時減少對GPU資源的需求。
【忘記訓練，在AI推理階段尋找殺手級應用】

推薦閱讀

上一篇：ChatGPT變身AI操作系統，才是AI的“iPhone時刻”

下一篇：Canva收購Leonardo.ai 加強生成式AI技術布局