谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味

文章圖片

機器之心編輯部
深夜 , 兩大科技巨頭谷歌和 OpenAI 硬剛起來 , 相繼推出了新版本大模型 , 分別是 Gemini 3.1 Flash-Lite、GPT?5.3 Instant 。
谷歌稱 , Gemini 3.1 Flash-Lite 專為大規模智能設計 , 是目前為止最具性價比的 Gemini 3 系列模型 , 定價為輸入 0.25 美元 / 百萬 tokens , 輸出 1.50 美元 / 百萬 tokens , 而在遠低于更大模型成本的情況下 , 仍能提供顯著增強的性能 。
Artificial Analysis 的基準測試結果顯示 , 在保持同等甚至更高質量的前提下 , 與 Gemini 2.5 Flash 相比 , 3.1 Flash-Lite 的首 token 響應時間(TTFT)要快 2.5 倍 , 且輸出速度提升了 45% 。

GPT?5.3 Instant 則在語氣、相關性和對話性方面都有所提升 , 并且拒絕率更低 。 與前代產品相比 , 幻覺減少高達 26.8% , 并且 ChatGPT 和 API 都支持此模型 。

有意思的是 , 在宣布 GPT-5.3 Instant 后 , OpenAI 隨即暗示這個新模型也可能即將退役 。 OpenAI 在 X 上發表的一篇文章中表示 , GPT-5.4 的到來比你想象的要快 。

Gemini 3.1 Flash-Lite:專為大規模智能而打造
谷歌今日推出的 Gemini 3.1 Flash-Lite , 是 Gemini 3 系列中速度最快、成本效率最高的模型 。 該模型專為大規模開發者工作負載而設計 , 在其價格和模型級別上提供了出色的性能表現 。
官方稱 , 從今天起 , 3.1 Flash-Lite 已通過 Gemini API 向開發者開放預覽 , 可在 Google AI Studio 中使用 , 同時企業用戶也可通過 Vertex AI 訪問 。
極致性價比 , 性能不妥協
目前 , 3.1 Flash-Lite 的官方定價是:輸入為 0.25 美元 / 百萬 tokens;輸出為 1.50 美元 / 百萬 tokens 。
在遠低于更大模型成本的情況下 , 仍能提供顯著增強的性能 。
根據 Artificial Analysis 的基準測試 , 在保持同等甚至更高質量的前提下 , 與 Gemini 2.5 Flash 相比 , 3.1 Flash-Lite 的首 token 響應時間(TTFT)要快 2.5 倍 , 且輸出速度提升了 45% 。
這種低延遲對于高頻工作流至關重要 , 使其成為開發者構建實時響應型應用體驗的理想模型 。


Gemini 3.1 Flash-Lite 在速度和質量上均超越了 2.5 Flash 。
在 Arena.ai 排行榜上 , 3.1 Flash-Lite 獲得了高達 1432 的 Elo 評分 。 在推理能力和多模態理解等基準測試中 , 它的表現也要優于同級別的其他模型 , 包括 GPQA Diamond(86.9%)和 MMMU Pro(76.8%) , 甚至超過了上一代更大規模的 Gemini 模型 , 如 2.5Flash 。

面向開發者的大規模自適應智能
除了性能之外 , Gemini 3.1 Flash-Lite 在 AI Studio 和 Vertex AI 中默認支持可調節的「思考等級」(thinking levels) 。 這意味著 , 開發者可以靈活控制模型在任務中「思考」的深度 , 從而在成本、速度和推理能力之間取得平衡 , 而這一點對于高頻任務尤為關鍵 。

  • 大規模任務:3.1 Flash-Lite 可以處理成本敏感的大批量任務 , 如大規模翻譯和內容審核;
  • 復雜工作流:3.1 Flash-Lite 也能處理需要深入推理的任務 , 例如生成用戶界面和儀表盤、創建模擬環境或遵循復雜指令 。
下面可以來看一下具體的例子 。
比如 , 3.1 Flash-Lite 可以自動為一個電商線框頁面填充數百個不同類別的商品:

3.1 Flash-Lite 能夠利用實時預報和歷史數據 , 實時生成動態天氣儀表盤:

3.1 Flash-Lite 還可以創建 SaaS 智能體 , 能夠為企業執行多種復雜的、多步驟的任務:

3.1 Flash-Lite 還能夠快速分析并分類海量內容 , 如圖像:

行業應用與開發者反饋
目前 , 通過 AI Studio 和 Vertex AI 獲得早期訪問權限的開發者 , 以及 Latitude、Cartwheel 和 Whering 等公司 , 已經開始使用 3.1 Flash-Lite 來解決大規模復雜問題 。

早期測試者表示 , 該模型在效率與推理能力之間取得了良好平衡:能像更大型模型一樣精確處理復雜輸入 , 并能穩定遵循指令并保持輸出一致性 。
GPT?5.3 Instant:提供更順暢、更實用的日常對話體驗
【谷歌、OpenAI同日發布模型,一個最快最具性價比,一個主打人情味】作為 ChatGPT 最新版本 , GPT?5.3 Instant 讓日常對話更加穩定、實用且流暢 。
具體而言 , GPT-5.3 Instant 提供了更準確的回答 , 在進行網頁搜索時能夠給出更豐富、語境更充分的結果 , 同時減少那些打斷對話節奏的無謂死胡同、過多的免責聲明 , 以及過于武斷的表述方式 。
它不是在拼基準分數 , 而是優化日常使用體驗 , 語氣更舒服、內容更相關、對話更流暢 。 簡單說 , 就是讓 ChatGPT 更像一個真正順暢的對話助手 , 而不是一臺生硬的問答機器 。
在是否拒絕回答方面判斷更合理 , 同時減少不必要的免責聲明
之前 GPT-5.2 Instant 的回答有時會太謹慎 , 明明可以安全回答的問題 , 卻選擇拒絕 , 或者在回答前加很多防御性、說教式的免責聲明 , 尤其是在涉及敏感話題時 。
GPT-5.3 Instant 顯著減少了不必要的拒答 , 同時弱化了那些在回答問題前顯得過度防御或道德化的開場說明 。 當問題本身適合提供有用答案時 , 模型現在會更直接地給出回應 , 而不是附加多余的免責聲明 。
在使用聯網功能時 , 提供更有用、整合得更好的答案
GPT-5.3 Instant 還提升了在使用網絡信息時的回答質量 。 它能更好地將在網上獲取的信息與自身已有的知識和推理能力之間取得平衡 , 例如 , 在解讀最新新聞時 , 會結合自身理解進行背景說明 , 而不是簡單地羅列或總結搜索結果 。
更廣泛來說 , GPT-5.3 Instant 不再像之前那樣過度依賴網頁結果 , 避免出現冗長的鏈接列表或信息拼接松散的問題 。 它更善于理解問題的潛臺詞 , 并優先呈現最重要的信息 , 尤其是在回答開頭部分 , 使得答案更加相關、更加易用 , 同時不會犧牲響應速度或對話語氣 。
舉例來說:2025-26 賽季美國職業棒球大聯盟(MLB)休賽期最大的一筆簽約是哪一筆?它為什么會對棒球的長期發展格局產生影響?


兩者相比 , 可以看出 GPT-5.3 Instant 的回答顯得更有時效性 , 也更貼合用戶的真實意圖:它準確識別出人們正在討論的、來自最近一個休賽期且具有長期影響的一筆簽約 , 并將這筆簽約放在聯盟更宏觀的趨勢背景下進行解讀(例如人才集中化和薪資差距擴大的趨勢) , 同時將其與即將到來的勞資協議(CBA)談判 / 可能的停擺風險聯系起來 。 相比之下 , 答案 1 則顯得有些陳舊 , 更像是在解釋上一個休賽期的一筆創紀錄合同 , 并沒有那么精準地回應用戶的問題 , 也缺乏足夠的相關性 。
更流暢、更直截了當的對話風格
GPT-5.2 Instant 的語氣有時會讓人覺得有些尷尬 , 顯得過于強勢 , 或者對用戶的意圖和情緒做出未經依據的假設 。
5.3 Instant 帶來了更加專注且自然的對話風格 , 減少了不必要的宣告式表達 , 以及諸如停一下 , 深呼吸之類的語句 。
和往常一樣 , 在 GPT-5.3 Instant 中 , 你仍然可以在設置中調整模型的語氣風格 , 比如溫暖程度或表達熱情的程度 。
舉例來說 , 用戶提問:為什么我在舊金山找不到愛情?


比較分析:GPT-5.3 Instant 直接進入問題的核心進行回答 , 而沒有加入那種不必要、也并無實質幫助的「你沒有問題 , 這也不只是你的原因」之類的安慰性開場白 。
更可靠、更準確的回答
與之前的模型相比 , GPT-5.3 Instant 提供了更加準確的事實性回答 , 顯著減少了幻覺 。
在高風險領域評估中 , 與此前模型相比 , GPT-5.3 Instant 在使用聯網功能時將幻覺率降低了 26.8%;僅依賴內部知識時 , 幻覺率降低了 19.7% 。
在基于用戶反饋的評估中 , 使用聯網功能時幻覺率下降了 22.5%;未使用聯網功能時 , 下降了 9.6% 。
更強的寫作能力 , 更豐富的表達層次
GPT-5.3 Instant 寫作能力也非常出色 。 無論你是在創作小說、潤色段落 , 還是探索新的想法 , 它都更擅長幫助你寫出有感染力、富有想象力且沉浸感強的文字 。
舉個例子:寫一首具有情感沖擊力的短詩:一位費城的郵遞員在退休那天完成他最后一輪投遞 。


結果比較:GPT-5.3 的詩更有生活氣息 , 更具體 , 也更有結構上的控制感 。 結尾的情緒收束更加自然 , 而不是直接去解釋情感 。 相比之下 , GPT-5.2 的作品依然不錯 , 但略微更依賴抒情和抽象表達;而 GPT-5.3 則通過對細節的觀察來構建情緒 。
局限性
盡管 GPT-5.3 Instant 在日常使用體驗方面取得了實質性進步 , 但仍有改進空間:
  • 非英語語言:在某些語言(如日語和韓語)中 , ChatGPT 的回答風格可能仍顯得生硬或過于直譯 。 提升多語言語氣的自然度與表達流暢性 , 仍是持續優化的重點 。
  • 語氣:雖然 GPT-5.3 Instant 的整體語氣更加順滑自然 , OpenAI 表示仍會持續收集反饋 , 在改進模型表現的同時 , 進一步擴展個性化語氣定制選項 。
可用性
GPT-5.3 Instant 從今天起向所有 ChatGPT 用戶開放 , 同時也向開發者在 API 中以 gpt-5.3-chat-latest 的名稱提供 。 Thinking 和 Pro 版本的更新也將在近期推出 。
GPT-5.2 Instant 將在接下來的三個月內繼續向付費用戶提供 , 可在模型選擇器的 Legacy Models(舊版模型)分類中找到;之后將于 2026 年 6 月 3 日正式下線 。
參考鏈接:
https://openai.com/zh-Hans-CN/index/gpt-5-3-instant/
https://x.com/GoogleDeepMind/status/2028872381477929185
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-lite/

    推薦閱讀