Token,這個藏在AI背后的計價單位,終于有人說清了

Token,這個藏在AI背后的計價單位,終于有人說清了

文章圖片

Token,這個藏在AI背后的計價單位,終于有人說清了

文章圖片


今日金價 , 一克1000.06元;
95號汽油 , 每升8塊5毛7;
電費是階梯計價 , 家庭用電最多每千瓦時8毛9;
……
克、升、千瓦時——單位一旦確定 , 便可以被標注價格 , 而價格決定了消費 , 也潛移默化地塑造著每個人的生活 。 大多數時候 , 我們并不關心這些單位本身 , 只要它們足夠穩定 , 穩定到可以比較、可以結算 , 它們就會默默隱藏自己 , 退回到繳費單和購物小票背后 。
但現在 , 一種全新的、陌生的計量單位 , 正浮出水面 , 走入更多人的生活 。
它叫Token 。
如果你最近玩過、聽說過 , 甚至自己試著調用過各種 AI 助手或“智能體”(比如近期流行起來的 Openclaw “小龍蝦”) , 那么你應該已經和它打過照面了 。 你與 AI 的每一次對話 , 無論是讓它回答一個問題、寫一封郵件 , 還是總結一篇論文 , 后臺那個默默跳動的計價數字 , 單位就是Token 。
Token , 就是AI世界的“克”“升”和“千瓦時” 。
Token到底在計量什么?
在OpenAI的官方頁面上 , 用一句話簡單地概括了Token:Token是自然語言的數學表示 。
在中文里 , Token常被翻譯為“詞元” , 你可以將它理解成為大模型用來處理自然語言的基本單位 , 或大模型處理信息的最小信息單元 。 一段話、一個問題在進入 AI 模型被計算機處理前 , 首先要被“分詞器(Tokenizer)”拆分成一個個Token 。
一個Token可能是一個標點、一個漢字、一個英文單詞 , 或者一個常見的詞組——這取決于不同 AI 模型分詞器的設計 。 比如“朋友買了西瓜手機!”可能被拆為“朋友”“買”“了”“西瓜”“手機”“!” , “Transformer”可能被拆成“Trans”“former” 。
這些被拆分好的Token , 對于你我來說是有意義的文字 , 但對于大模型而言 , 它并不認識 , 更不理解 。 為了讓AI“理解” , 大模型會先給每個Token分配一個數字編號 , 然后將這個編號轉化為一組數字坐標(向量) 。 這個坐標決定了AI如何“理解”這個詞 。
更重要的是 , AI理解任何一個詞 , 都要看它和其他詞的關系 。 比如“西瓜”這個詞 , AI在訓練中既見過它和“手機”“汽車”“公司”“發布會”一起出現 , 也見過它和“吃”“食物”“好吃”一起出現 。 當AI看到“西瓜手機”這個組合時 , 它會通過“汽車”這個詞的坐標 , 來調整“西瓜”在當前這句話里的含義——讓它的坐標更接近“品牌” , 遠離“食物” 。
AI的整個“思考”過程 , 就是計算一整句話里所有Token坐標之間的復雜關系 。 它不會死記硬背“小米=品牌”或“小米=食物” , 而是根據上下文動態計算 。
圖源:用AI生成的
聊到這里 , 你還會以為 , Token的消耗就是你輸入和輸出的字數簡單相加嗎?接下來 , 我們通過一次普通對話 , 看看Token到底是如何被消耗掉的 。
我們讓AI寫一封信給十年后的自己:
圖片來源:自己截取的
指令輸入十幾個字 , AI回復四五百字 , 看起來不過幾百個Token , 但事實上消耗的Token遠不止屏幕上那幾行字:
系統預設指令(System Prompt):在你開口之前 , AI已經被輸入了一段看不見的指令 , 被用來規定和你聊天的AI的身份 , 語氣 , 回復用詞特征和安全邊界 。 很多人會感覺不同公司的AI產品有不同的性格特征 , 秘密就在這里 。 這段指令不會顯示在對話中 , 但是也參與了模型的計算 , 會消耗掉一部分Token 。
對話的歷史上下文(Context):如果你不是第一次提問 , 模型通常就需要考慮之前的上下文信息 , 才能知道整個對話在聊什么 , 保證對話的連續性 。 所以之前的提問與它之前的回答 , 都會進入最新這輪對話的計算 。 也就是說 , 對話越長 , 對話的輪次越多 , 最新的單輪請求消耗的Token也就越多 。
思考過程(Reasoning):這是更隱蔽的消耗 , 很多具備深度推理模式的模型 , 在回答之前 , 它會進行一輪內部計算去比較推演不同的回答 , 最終將它認為最優的回答呈現出來 。 這些不展示出來的“思考步驟” , 同樣消耗資源 。
總之 , Token計量的 , 并不只是你看到AI模型給出的答案 , 而是生成這個答案所需的全部計算資源 。 而進入以Openclaw為代表的agent場景 , 這種Token的消耗會被指數級擴大 。
比如讓一只小龍蝦替你干活 , 把“幫我整理一下文件夾”這句話甩給它之后 , 它可能需要先讀懂這個要求 , 然后拆解成十幾個子任務 , 每個子任務分別調用一次AI , 每次調用都帶著完整的系統指令和上下文 , 必要的時候還要反復檢查有沒有做對 , 是否需要修正 。
這背后可能是幾十輪對話、幾萬個 Token 的連鎖消耗 , 這也是它看起來只干了點普通的活 , 但卻格外消耗 Token 的原因 。
為什么“輸出Token”
比“輸入Token”貴6倍?
關于Token的價格 , 很多人可能沒什么感知 , 畢竟無論和哪個AI聊天 , 對話Token的消耗都打包在了免費額度或者訂閱制里 , 很難直接感受到 。
我們以OpenAI為例 , 來研究一下它的價格表:
可以看出 , 模型越強大 , Token越貴 , 從Nano到標準版 , 每百萬Token價格差距高達十倍 。 這很容易理解:參數規模越大、模型能力越強 , 越能解決越復雜問題的模型 , Token的價格當然越貴 。
而對比起不同公司 , 同為目前頂級的AI模型 , 每百萬TokenGPT-5.4 的報價是15美元 , Claude Opus 4.6 是25美元 , Gemini 3.1 Pro的報價則根據prompt長度不同列出了12美元和18美元兩個價格 。 差距依然存在 , 這里的定價策略就比較復雜了 , 公司的定位與商業模式 , 模型的成本、受眾、能力都會有所影響 。
這些道理都很容易理解 , 但真正的謎題還不是這個 。 仔細看看 , 同一個模型的“輸入Token”和“輸出 Token”竟然也存在6倍的定價差距 , 這是怎么回事?
輸入(prefill)的時候 , AI 要理解你的全部問題 , 每個詞都要和其他所有詞做關聯計算(即“自注意力機制” , 計算量會隨著文本長度的增加急劇增長);而輸出(decode)時 , 模型已經將輸入的內容分析計算完畢 , 只需要把結果一個字一個字“吐”出來即可 , 似乎應該更輕松才對 。
其實 , 答案并不在計算量 , 而在計算效率上 。
處理輸入時 , 所有的Token都是同時送入處理器的 , 成千上萬個計算核心并行運行 , 這是大規模的矩陣乘矩陣運算 , GPU本來就是為了這種大規模并行計算而設計的 。 所以在應對這類任務時 , 計算效率極高 , 甚至可以說在允許范圍內 , Token輸入越長 , 越容易讓GPU的計算核心接近滿載工作狀態 。
但輸出的時候 , 情況截然相反了 。 模型必須一個Token 一個Token生成回答 , 每一個都需要依賴上一個生成的結果 , 無法并行展開 。 每次生成 , 模型都需要從顯存中讀取一次參數 , 同時結合已經生成的上下文進行計算 , 整體更接近矩陣乘向量的運算 。
這個過程的瓶頸取決于內存帶寬 , 也就是說 , GPU絕大多數時間沒有在計算 , 而是在等待數據從顯存被傳過來 , 真正做計算的時間占比僅有1%~5% , 計算效率驟降 。
用更準確的話說 , 處理輸入是計算密集型(compute-intensive)工作 , GPU在做它最擅長的事 , 生成輸出是內存帶寬密集型(memory-bound)工作 , GPU的計算核心大部分時間在空轉等數據 。
所以 , 輸出Token的高昂價格 , 本質上是在為一塊每小時租金幾美元的芯片 , 以不到百分之一的效率運轉而被迫等待的時長付費 。
這也就是為什么即使是同一種模型 , 輸出Token的價格會比輸入Token貴那么多 , 這是算力和內存帶寬之間根深蒂固的不對稱不匹配 。
GPU的計算能力在飛速增長 , 但是顯存的傳輸速度卻跟不上 , 這種矛盾由來已久 。 它源于馮·諾依曼架構中計算與存儲分離帶來的瓶頸問題 , 而幾乎所有現代計算機都沒能徹底繞開它 。
算力每一代翻倍 , 內存帶寬的進步速度大約只有它的一半 , 這意味著每一代新芯片出來 , 處理輸入會變得更快更便宜 , 但生成輸出的改善幅度要小得多 。
業界當然有在試圖緩解這個問題 。 例如投機采樣(Speculative Decoding)讓一個小模型先快速猜出幾個詞 , 再讓大模型一次性驗證 , 把串行計算的一部分變成并行計算 。 又或者 MoE 架構讓每個Token只激活一小部分參數 , 減少每次需要搬運的數據量 。
這些技術都在緩解癥狀 , 但沒有一種能根治病因 , 只要計算和存儲還是物理上分開的兩個東西 , 數據搬運的瓶頸就會一直存在 。 這也就是為什么Groq、Cerebras、Etched這些推理芯片創業公司 , 本質上都在賭自己能繞開這個七十多年前的設計遺產 。
Token價格到底由什么決定?
為什么近幾年一直暴跌?
在聊這個問題之前 , 我們要先理清楚Token的成本由什么決定 。
我們可以用一個簡單的思路來分析 , 以目前數據中心主流使用的Nvidia H100 為例 , 云租賃的價格大約在每小時2.5~3.5美元之間 。 這筆錢里 , 電費的花銷占10%~20% , 水冷、網絡、運維這些加在一起也沒有多少 , 大頭還是在芯片本身的采購成本、硬件折舊以及服務商的利潤上 。
一度電能產出多少Token , 和電本身的關系不大 , 主要取決于這度電供給了什么芯片、跑的是什么架構、優化做到了什么程度 。 同樣一度電 , 喂給一塊在處理輸入時滿載運行的GPU , 和一塊在生成輸出時空轉百分之九十九的GPU , 處理的Token數就可以差出數量級 。
所以當我們問“Token的價格由什么決定”時 , 最準確的回答是:由一塊芯片在單位時間內能處理多少 Token 決定 。
問題來了:既然Token的價格不是被某一個因素單獨決定的 , 而是由芯片物理結構、能源成本、模型架構甚至是市場競爭共同作用的結果 。 那它的價格按說應該相對穩定 , 畢竟電費不會一年跌十倍 , 芯片也不會每個季度降價一半 。
那么 , 為什么這幾年Token的價格在暴跌?
2023年初 , 要達到GPT-4 水平的性能 , 每百萬Token大約要20美元 。 到2026年 , 同等性能已經降到了 0.4美元附近 , 五十倍的差距是怎么來的?
這并非來自某一項技術的突破 , 而是幾個因素在同時影響 , 其影響結果是以乘法體現的 。
首先是硬件在更新換代 , GPU更快更便宜了 , H100的云租賃價格也從2023年峰值的接近8美元/小時降到了2.5~3.5美元 。
然后是軟件的優化 , 連續批處理和 PagedAttention 這類改進 , 提高了 KV cache 的利用率和并發能力 , 在合適的負載下 , 吞吐提升可達數倍 。
接下來 , 模型架構也在變聰明 , 混合專家架構(MoE)讓模型不用為處理每個 Token 動用所有參數 , 這一項又能將推理成本顯著降低 。
單獨每一項看都不算太驚人 , 乘起來效果就很明顯 , 硬件一層、系統一層、架構一層 , 再加上開源帶來的價格競爭 , 推理成本就被一層層壓了下去 。
同時 , 模型本身在用更少的參數做到更多的事 。 過去的模型往往依賴不斷擴大參數規模來提升能力 , 但近兩年 , 更多數據、更好的訓練方法以及更成熟的架構設計 , 使得較小規模的模型也能逼近甚至在部分任務上超過上一代更大的模型 。
這意味著 , 同樣的能力不再需要同樣規模的計算資源 。 模型變小 , 帶來的不僅是顯存占用下降 , 更重要的是每一步推理所需的數據搬運和計算開銷都隨之降低了 。
所以Token便宜了 。
便宜了多少?
或許可以拿我們更熟悉的手機流量來對比 。 從 2014 年到現在 , 中國的手機流量價格降了幾十倍甚至幾百倍 。 雖然大家的話費賬單差距不大 , 但流量便宜后催生的各色使用方式 , 網絡應用、短視頻、手機游戲 , 已經完全改變了我們的生活 。
盡管 Token 并不算一個完美的計量單位 , 價格細節繁復 , 變化太多 , 大多數用戶對它無比陌生 , 但它也應該也會和流量走上同一條路 , 可能速度更快 , 可能帶來的變化更大 。
【Token,這個藏在AI背后的計價單位,終于有人說清了】克、升、千瓦時 , 從現在開始 , 你或許需要多認識一個計量單位——Token 。

    推薦閱讀