忘記訓練,在AI推理階段尋找殺手級應用

忘記訓練,在AI推理階段尋找殺手級應用

大多數組織永遠不會訓練自己的AI模型 。 相反 , 大多數客戶在AI領域的關鍵挑戰在于將其應用到生產應用程序和推理中 , 微調和數據管理是核心任務 。
關鍵在于使用檢索增強生成(RAG)和向量數據庫、重復使用AI提示詞的能力 , 以及允許用戶用自然語言查詢企業信息的協作助手功能 。
這些是Pure Storage高管本周在倫敦公司Accelerate活動上對Computerweekly.com所表達的觀點 。
自然地 , 這些確定的關鍵任務與Pure存儲硬件產品最近增加的功能領域完全吻合 , 包括其最近推出的鍵值加速器 , 以及其提供按需容量的能力 。
但它們也說明了在AI成熟度的現階段(被稱為\"后訓練階段\")組織處理AI面臨的關鍵挑戰 。
在本文中 , 我們將探討客戶在AI生產階段對存儲的需求 , 以及持續的數據攝取和推理過程 。
不要購買GPU , 它們變化太快
大多數組織不會訓練自己的AI模型 , 因為目前這樣做成本太高 。 這是因為GPU硬件的購買成本極其昂貴 , 而且它的發展速度如此之快 , 以至于很快就會過時 。
因此 , 大多數組織現在傾向于在云端購買GPU容量用于訓練階段 。
當GPU硬件可能在一兩代內就過時時 , 試圖構建內部AI訓練場毫無意義 。
這是Pure Storage創始人兼首席愿景官John \"Coz\" Colgrove的觀點 。
\"大多數組織會說 , '哦 , 我想買這個設備 , 我會用它五年 , 我會在五到七年內折舊 , '\"他說 。 \"但現在你不能對GPU這樣做 。 \"
\"我認為當事物以驚人的速度改進時 , 你最好租賃而不是購買 。 這就像買車一樣 , \"Colgrove說 。 \"如果你要保留它六、七、八年或更長時間 , 你就買它 , 但如果你要保留它兩年然后換成更新的 , 你就租賃它 。 \"
尋找你的AI殺手級應用
對于大多數組織來說 , AI的實際利用不會發生在建模階段 。 相反 , 它將出現在他們可以用它為自己的業務構建殺手級應用的地方 。
Colgrove舉了一個銀行的例子 。 \"對于銀行 , 我們知道殺手級應用將是面向客戶的東西 , \"他說 。 \"但AI現在是如何工作的?我從與客戶交互的任何數據庫中取出所有數據 。 我把它吸入其他系統 。 我像舊的ETL批處理過程一樣轉換它 , 花費數周時間訓練它 , 然后得到結果 。 \"
\"那永遠不會是殺手級應用 , \"Colgrove說 。 \"殺手級應用將涉及我可以做的某種推理 。 但如果它是面向客戶的 , 那么推理必須應用于常規系統中 。 \"
\"這意味著當你真正應用AI從中獲得價值時 , 你會想要將其應用于你已經擁有的數據 , 你已經與客戶在做的事情 。 \"
換句話說 , 對于大多數客戶來說 , AI的挑戰在于生產階段 , 更準確地說是(快速)策劃和添加數據的能力 , 并對其運行推理以微調現有AI模型 。 然后當你有下一個進一步改進事物的想法時 , 能夠再次做到這一切 。
Pure Storage EMEA現場首席技術官Fred Lherault總結道:\"所以這真的是關于我如何將模型連接到我的數據?首先意味著 , 我是否做了正確水平的發現我的數據是什么 , 策劃我的數據 , 讓它準備好用于AI , 并將其放入可以被模型訪問的架構中?\"
敏捷AI的關鍵技術基礎
因此 , 推理階段已成為大多數AI客戶的關鍵焦點 。 在這里 , 挑戰是能夠策劃和管理數據 , 以在其生產生命周期內構建和重新迭代AI模型 。 這意味著客戶以敏捷的方式連接他們自己的數據 。
這意味著使用包括向量數據庫、RAG管道、協作助手功能以及提示詞緩存和重用在內的技術 。
存儲與這些相關的關鍵挑戰是雙重的 。 這意味著能夠連接到RAG數據源和向量數據庫 。 這也意味著能夠處理存儲容量的大幅跳躍 , 并減少這樣做的需要 。 這兩者通常是相互關聯的 。
\"當你將數據放入向量數據庫時 , 會發生一件有趣的事情 , \"Lherault說 。 \"需要一些計算 , 但然后數據會用可以搜索的向量進行增強 。 這是向量數據庫的整個目標 , 這種增強有時會導致數據的10倍放大 。 \"
\"如果你有一TB的源數據想要與AI模型一起使用 , 這意味著你需要一個10TB的數據庫來運行它 , \"他說 。 \"當許多組織想要將其數據與AI模型一起使用時 , 所有這些過程對他們來說都是新的 。 \"
處理對存儲容量的需求
這種容量跳躍也可能在檢查點等任務中發生 , 這些任務可能看到大量數據作為快照式點創建 , 以在AI處理中回滾 。
Pure旨在通過其Evergreen即服務模型來解決這些問題 , 該模型允許客戶快速增加容量 。
該公司還建議減少存儲量過快增長的方法 , 以及提高性能 。
其最近推出的鍵值加速器允許客戶存儲AI提示詞 , 以便可以重復使用 。 通常 , 大語言模型會訪問代表先前響應的緩存Token , 但GPU緩存是有限的 , 所以答案通常需要重新計算 。 Pure的KV加速器允許Token以文件或對象格式保存在其存儲中 。
這可以將響應速度提高20倍 , Lherault說 。 \"你開始有更多用戶問不同問題時 , 你的緩存用盡得更快 , \"他補充道 。 \"如果你有兩個用戶同時問同樣的問題 , 并在兩個GPU上這樣做 , 他們都必須做同樣的計算 。 這不是很高效 。 \"
\"我們允許它實際上將那些預計算的鍵值存儲在我們的存儲上 , 所以下次有人問一個已經被問過的問題或需要相同Token時 , 如果我們這邊有它 , GPU就不需要做計算 , \"Lherault說 。
\"它有助于減少你需要的GPU數量 , 而且在一些生成數千個Token的復雜問題上 , 我們有時看到答案速度快了20倍 。 \"
Q&A
Q1:什么是檢索增強生成(RAG)技術?
A:檢索增強生成(RAG)是一種AI技術 , 它結合了信息檢索和生成能力 , 允許AI模型在生成回答時從外部數據源檢索相關信息 , 從而提供更準確和實時的回答 。
Q2:為什么大多數組織不應該購買GPU來訓練AI模型?
A:因為GPU硬件成本極其昂貴 , 而且技術發展速度非常快 , 設備很容易在一兩代內就過時 。 相比購買 , 在云端租賃GPU容量進行訓練更加經濟實用 。
Q3:Pure Storage的鍵值加速器如何提升AI性能?
A:鍵值加速器允許存儲AI提示詞和預計算的Token , 避免重復計算 。 當用戶詢問相似問題時 , 系統可以直接從存儲中獲取答案 , 響應速度可提升20倍 , 同時減少對GPU資源的需求 。
【忘記訓練,在AI推理階段尋找殺手級應用】

    推薦閱讀