日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文

文章圖片

GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文


作者 | 程茜
編輯 | 云鵬
智東西4月15日報道 , 剛剛 , OpenAI一口氣掏出了GPT-4.1系列的三款模型 , 并稱這是其有史以來最小、最快、最便宜的模型系列 , 且新模型的整體性能表現(xiàn)要優(yōu)于GPT-4o和GPT-4o mini 。
GPT-4.1系列模型包含三個模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano , 上下文窗口均達到100萬個token , 輸出token數(shù)達到32768個 , 知識截止日期為2024年6月 。 OpenAI的基準測試顯示 , 其在編碼、指令遵循、長文本理解方面的得分均超過了GPT-4o和GPT-4o mini 。

GPT-4.1系列模型僅通過API提供 , 現(xiàn)已對所有開發(fā)者開放 。 OpenAI將開始在API中棄用GPT-4.5預(yù)覽版 , 因為GPT-4.1系列模型在許多關(guān)鍵能力上提供了相似性能 , 同時成本和延遲更低 。 GPT-4.5預(yù)覽版將在今年7月14日關(guān)閉 。
具體的性能優(yōu)化集中于編碼、指令遵循、長文本理解上:
編碼:GPT-4.1在SWE-bench驗證測試中得分54.6% , 較GPT-4o提升了21.4% , 較GPT-4.5提升了26.6% 。
指令遵循:在Scale的衡量指令遵循能力指標的MultiChallenge基準測試中 , GPT-4.1得分38.3% , 較GPT-4o提升了10.5% 。
長文本理解:在多模態(tài)長文本理解的Video-MME基準測試中 , GPT-4.1在無字幕的長文本類別中得分72.0% , 較GPT-4o提升了6.7% 。
對于對延遲較為敏感的場景 , OpenAI重點提到了GPT-4.1 nano , 并稱這是其最快、最經(jīng)濟的模型 。 GPT-4.1 nano基準測試MMLU得分為80.1% , GPQA得分為50.3% , Aider多語言編碼得分為9.8% , 均高于GPT-4o mini 。

GPT-4.1系列模型僅通過API提供 , 現(xiàn)已對所有開發(fā)者開放 。 OpenAI將開始在API中棄用GPT-4.5預(yù)覽版 , 因為GPT-4.1系列模型在許多關(guān)鍵能力上提供了相似性能 , 同時成本和延遲更低 。 GPT-4.5預(yù)覽版將在今年7月14日關(guān)閉 。
OpenAI在博客中提到 , 性能表現(xiàn)更好、更經(jīng)濟的GPT-4.1系列模型將為開發(fā)者構(gòu)建智能系統(tǒng)和復(fù)雜的智能體應(yīng)用開辟新的可能性 。
價格方面 , 對于中等規(guī)模的查詢 , GPT-4.1的價格比GPT-4o低26% , 對于重復(fù)使用相同上下文的查詢 , OpenAI將提示緩存折扣從之前的50%提高到了75% 。 最后 , 除了標準的每token費用之外 , OpenAI不會對長上下文請求額外收費 。

一、編碼能力:表現(xiàn)優(yōu)于GPT-4o , 超80%用戶喜歡GPT-4.1的應(yīng)用GPT-4.1在多種編碼任務(wù)上的表現(xiàn)優(yōu)于GPT-4o , 包括主動解決編碼任務(wù)、前端編碼、減少不必要的編輯、遵循diff格式、確保工具使用的一致性等 。
相比于GPT-4o , GPT-4.1可以創(chuàng)建功能更強大、美觀度更高的Web應(yīng)用 , 如下圖所示的“閃卡”應(yīng)用:

在衡量現(xiàn)實世界軟件工程技能的指標SWE-bench Verified上 , GPT-4.1完成了54.6%的任務(wù) , GPT-4o為33.2% , 這說明GPT-4.1在探索代碼庫、完成任務(wù)以及生成既可運行又可通過測試的代碼方面的能力提升 。

▲該測試中 , 模型會收到一個代碼庫和問題描述 , 然后其需要生成補丁來解決該問題 , 模型的表現(xiàn)會高度依賴于所使用的提示和工具 。
對于希望編輯大文件的API開發(fā)者來說 , GPT-4.1在多種格式下的代碼差異方面更加可靠 。 GPT-4.1在多語言差異基準測試Aider中的得分 , 是GPT-4o的兩倍 , 比GPT-4.5高出8% 。
這項評估既考察模型對各種編程語言編碼的能力 , 還有對模型在整體和差異格式下產(chǎn)生變化的能力 。 OpenAI專門訓練了GPT-4.1以遵循差異格式 , 這使得開發(fā)者可以通過模型僅輸出更改的行來節(jié)省成本和延遲 , 而不是重寫整個文件 。
此外 , OpenAI將GPT-4.1的輸出token限制增加到32768個 , GPT-4o為16384個token , 其還建議使用預(yù)測輸出以減少完整文件重寫的延遲 。

▲在Aider中 , 模型通過編輯源文件來解決Exercism的編碼練習 , 允許重試一次 。
前端編碼方面 , GPT-4.1能夠創(chuàng)建功能更強大、美觀度更高的Web應(yīng)用 。 在OpenAI的對比測試中 , 人工評分員在80%的情況下更青睞GPT-4.1生成的網(wǎng)站 , 而非GPT-4o生成的網(wǎng)站 。
在上述基準測試之外 , GPT-4.1可以減少不必要的編輯 。 在OpenAI的內(nèi)部評估中 , 代碼中的不必要的編輯從GPT-4o的9%降至GPT-4.1的2% 。
二、遵循指令:評估6大關(guān)鍵指令性能 , 多輪自然對話效果比GPT-4o提高10.5%OpenAI開發(fā)了一個內(nèi)部評估系統(tǒng) , 用于跟蹤模型在多個維度和幾個關(guān)鍵指令遵循類別中的性能 , 包括:
Format following:提供指定模型響應(yīng)自定義格式的指令 , 例如XML、YAML、Markdown等;
Negative instructions:指定模型應(yīng)避免的行為 , 例如“不要要求用戶聯(lián)系支持”;
Ordered instructions:為模型提供一組必須按給定順序執(zhí)行的指令 , 例如“首先詢問用戶的姓名 , 然后詢問他們的電子郵件”;
Content requirements:輸出包含某些信息的內(nèi)容 , 例如“撰寫營養(yǎng)計劃時 , 始終包含蛋白質(zhì)含量”;
Ranking:以特定方式排序輸出 , 例如“按人口數(shù)量排序” 。
Overconfidence:如果請求的信息不可用或請求不屬于給定類別 , 則指導(dǎo)模型說“我不知道”或類似的話 。 例如:“如果你不知道答案 , 請?zhí)峁┲С致?lián)系郵箱 。 ”
OpenAI的博客中提到 , 這些類別是根據(jù)開發(fā)者反饋得出的 。 在每個類別中 , OpenAI將簡單、中等和困難提示進行了細分 , GPT-4.1在困難提示方面相對于GPT-4o有顯著提升 。

▲GPT-4.1在困難提示方面表現(xiàn)
多輪指令遵循對開發(fā)者的重要性在于 , 模型需要保持對話的連貫性 , 并跟蹤用戶之前告訴它的內(nèi)容 。 OpenAI訓練GPT-4.1 , 以使得其能更好地從過去的對話信息中提取信息 , 從而實現(xiàn)更自然的對話 。 在Scale的MultiChallenge基準中 , GPT-4.1比GPT-4o提高了10.5% 。

▲GPT-4.1在MultiChallenge中測試結(jié)果
在IFEval測試中 , 其使用具有可驗證指令的提示 , 例如 , 指定內(nèi)容長度或避免某些術(shù)語或格式 。 GPT-4.1得分達到87.4% , GPT-4o為81.0% 。

▲GPT-4.1在IFEval中測試結(jié)果
早期測試者指出 , GPT-4.1可能更容易理解字面意思 , 因此OpenAI建議開發(fā)者可以在提示中明確具體的指令 。
三、長文本理解:適合處理大型代碼庫、長文檔 , “大海撈針”也不在話下GPT-4.1系列模型可以處理100萬個token上下文 , 此前GPT-4o的上下文窗口為128000個 。 100萬個token已經(jīng)是整個React代碼庫的超過8倍之多 , 因此長上下文適合處理大型代碼庫或大量長文檔 。
OpenAI還對GPT-4.1模型進行了訓練 , 使其能在長和短上下文長度中忽略干擾信息 , 這也是法律、編碼、客戶支持等多個領(lǐng)域的企業(yè)應(yīng)用的關(guān)鍵能力 。
博客中 , OpenAI展示了GPT-4.1在上下文窗口內(nèi)不同位置檢索一條隱藏的少量信息(即一根 “針”)的能力 , 也就是“大海撈針”的能力 。

▲OpenAI內(nèi)部針對GPT-4.1模型的“大海撈針”評估
其結(jié)果顯示 , GPT-4.1能夠在所有位置以及各種上下文長度(直至長達100萬個token)的情況下準確檢索到這條關(guān)鍵信息(“針”) 。 無論相關(guān)細節(jié)在輸入內(nèi)容中的位置如何 , 它都能提取出與當前任務(wù)相關(guān)的細節(jié) 。
在實際使用中 , 用戶經(jīng)常需要模型理解、檢索多個信息片段 , 并理解這些片段之間的關(guān)系 。 為了評估這一能力 , OpenAI正在開源新的評估工具:OpenAI-MRCR(多輪核心詞識別) 。
OpenAI-MRCR可以用來測試模型在上下文中找到和區(qū)分多個隱藏得關(guān)鍵信息的能力 。 評估包括用戶和助手之間的多輪合成對話 , 用戶要求模型寫一篇關(guān)于某個主題的文章 , 例如或“寫一篇關(guān)于巖石的博客文章” 。 隨后 , 其會在整個對話上下文中插入2、4或8次相同的請求 , 模型需要據(jù)此檢索出對應(yīng)特定請求實例的回復(fù) 。
在OpenAI-MRCR?中 , 模型回答的問題 , 會擁有2個、4個或8個分散在上下文中的相似提示詞干擾項 , 模型需要在這些問題和用戶提示之間進行消歧 。

▲在OpenAI-MRCR?中 , 模型回答問題被添加2個干擾項的評估結(jié)果

▲在OpenAI-MRCR?中 , 模型回答問題被添加4個干擾項的評估結(jié)果

▲在OpenAI-MRCR?中 , 模型回答問題被添加8個干擾項的評估結(jié)果
這之中的挑戰(zhàn)就是 , 這些請求與上下文其余部分很相似 , 模型容易被細微的差異所誤導(dǎo) 。 OpenAI發(fā)現(xiàn) , GPT-4.1在上下文長度達到128K個token時優(yōu)于GPT-4o 。
OpenAI還發(fā)布了用于評估多跳長上下文推理的數(shù)據(jù)集Graphwalks 。 這是因為 , 許多需要長上下文的開發(fā)者用例需要在上下文中進行多個邏輯跳躍 , 例如在編寫代碼時在多個文件之間跳轉(zhuǎn) , 或者在回答復(fù)雜的法律問題時交叉引用文檔等 。
Graphwalks需要模型跨上下文多個位置進行推理 , 其使用由十六進制散列組成的定向圖填充上下文窗口 , 然后要求模型從圖中的一個隨機節(jié)點開始進行廣度優(yōu)先搜索(BFS) , 然后要求它返回一定深度的所有節(jié)點 。

▲Graphwalks評估結(jié)果
GPT-4.1在這個基準測試中達到了61.7%的準確率 , 與o1的表現(xiàn)相當 , 并且擊敗了GPT-4o 。
除了模型性能和準確性之外 , 開發(fā)者還需要能夠快速響應(yīng)以滿足用戶需求的模型 。 OpenAI改進了推理堆棧 , 以減少首次token的時間 , 并且通過提示緩存進一步降低延遲、節(jié)省成本 。
OpenAI的初步測試顯示 , GPT-4.1的p95首次token延遲大約為十五秒 , 在128000個上下文token的情況下 , 100萬個上下文token為半分鐘 。 GPT-4.1 mini和nano更快 , 如GPT-4.1 nano對于128000個輸入token的查詢 , 通常在五秒內(nèi)返回第一個token 。
四、多模態(tài)理解:無字幕視頻答題、看圖解數(shù)學題 , 表現(xiàn)均超GPT-4o在圖像理解方面 , GPT-4.1 mini在圖像基準測試中優(yōu)于GPT-4o 。
對于多模態(tài)用例 , 如處理長視頻 , 長上下文性能也很重要 。 在Video-MME(長無字幕)中 , 模型根據(jù)30-60分鐘長的無字幕視頻回答多項選擇題 , GPT-4.1得分72.0% , 高于GPT-4o的65.3% 。

模型回答包含圖表、圖表、地圖等問題的MMMU測試結(jié)果:

模型解決視覺數(shù)學任務(wù)的MathVista測試結(jié)果:

模型回答關(guān)于科學論文圖表問題的CharXiv-Reasoning測試結(jié)果:

結(jié)語:為構(gòu)建復(fù)雜智能體開辟可能性GPT-4.1的提升與開發(fā)者日常開發(fā)的真實需求相關(guān) , 從編碼、指令遵循到長上下文理解 , 而性能表現(xiàn)更好、更經(jīng)濟的GPT-4.1系列模型為構(gòu)建智能系統(tǒng)和復(fù)雜的智能體應(yīng)用開辟了新的可能性 。
【GPT-4.1深夜偷襲!OpenAI掏出史上最小、最快、最便宜三大模型,百萬token上下文】未來 , 這或許會使得開發(fā)者將其與各類API結(jié)合使用 , 構(gòu)建出更有用、更可靠的智能體 , 這些智能體可以在現(xiàn)實世界的軟件工程、從大量文檔中提取見解、以最小的人工干預(yù)解決客戶請求以及其他復(fù)雜任務(wù)方面有應(yīng)用的潛力 。

    推薦閱讀