為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

文章圖片

為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

文章圖片

為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

文章圖片

為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

文章圖片

為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新

文章圖片


作者| 湯一濤
編輯| 靖宇
GPT-5 的發布 , 可以看作是一個分水嶺 。 練習時長兩年半的 GPT-5 , 并沒有展現出和 GPT-4 本質上的差別 , 甚至因為模型的預設人格引發了用戶的反感情緒 。
這基本宣告了一個事實 , 過去兩年 , 大模型的能力躍進并沒有本質突破 。 各家模型即使在跑分榜上有差距 , 這種差距也很難傳遞給用戶 。 單純的模型參數與能力的「軍備競賽」已非戰場的全部 。
所以站在這樣一個時間點 , 在模型能力趨于同質化、所有 AI 公司都用「一句話生成 xxx」作為標準宣傳語的時候 , 真正的分野在于如何將技術落地 , 為用戶創造真正的價值 。
帶著這樣的觀察視角 , 我體驗了 MiniMax Agent 。

欄目作者召集極客公園的新欄目「AI 上新」 , 將帶大家體驗最新的 AI 應用和硬件 , 讓你成為 AI 時代「最靚的仔」!
現在 , 我們也向所有喜歡嘗鮮和體驗 AI 的同 學發出召集 , 只要你發現并體驗了新 的 AI 應用或者功能 , 按照格式(參考案例 : 「一句話生成爆款視頻」 , 這款 AI 流量神器有點東西|AI 上新 )向欄目投稿 , 在極 客公園公眾號發布 , 不僅能獲得相應稿費 , 且會為你「報銷」AI 應用的訂 閱費用 。
同時 ,優秀作者還有機會進入極客公園 AI 體驗群, 獲得最新 AI 應用和工具的內測資格 , 參加極客公園專屬相關 AI 活動 , 和 AI 應用創始人一對一溝通 。

01社區化的創新:Gallery 和 Remix
大多數 Agent 產品都面臨一個共同的用戶體驗障礙——一個輸入框 , 和無限的可能性 。
這對于缺乏經驗的創作者而言 , 無疑是一塊令人望而生畏的「空白畫布」 。 正如喬布斯所言 , 用戶常常不知道自己想要什么 , 直到你把成品擺在他們面前 。
MiniMax Agent 通過一個類似「應用商店」的 Gallery(作品廊)區域 , 直面了這個問題 。 圖庫中既有「交互式統計學教程」這類教育應用 , 也有「橫版冒險游戲」這樣的輕娛樂 , 還有「全球演唱會指南」等實用信息工具 。 這種設計 , 實際上把用戶的思考從「我該怎么做?」引導向了「我能做什么?」 。
在輸入框下方 , 是 MiniMax 的 Gallery 區域 , 其它用戶已經完成的作品會在此展示
不止如此 , MiniMax 還引入了「Remix」機制 。 如果你對某個作品感興趣 , 你可以花上 100 積分修改這個作品 , 讓它成為你自己的版本 。 而這 100 積分 , 也會作為一種激勵全部返回給原作者 。
這是一個 三方 共贏的 措施:
新用戶可以用一個較小的代價獲得一個比較確定的產出 老用戶可以用作品獲得激勵 而對于 MiniMax 來說 ,這不光是促進了創作者生態的繁榮;更為實際的 , 他們所消耗的算力成本也更少了 。我們從 Gallery 里選了一個「OpenAI 新聞網頁」案例 。 它的原始需求很明確:「用 Serper API 每分鐘更新 OpenAI 新聞 , UI 貼近 OpenAI 官網的油畫質感」 。 基于這個基礎 , 我們提出了定制需求:「除了 OpenAI , 還要看谷歌、Anthropic、微軟、Meta 的 AI 新聞 , UI 改成蘋果官網的簡潔風格」 。
隨后 , Agent 就給出了清晰的升級計劃:自動任務分解、制定執行步驟 , 并在獲得用戶同意后開始執行 , 還會主動問「是否符合預期」——整個過程不用自己寫一行代碼 , 只需要確認需求就行 。
MiniMax Agent 拆解任務
值得注意的是 , 在開發過程中 , Agent 還主動要求了需要的 API 權限(Serper API 用于搜新聞 , Supabase 用于存數據) , 這意味著它具備了處理數據存儲和管理的全棧開發能力 , 而不只是一個「前端皮膚」生成器 。
Minimax Agent 要求后端數據庫授權
經過十幾分鐘的開發周期 , 一個定制化的新聞聚合器就基本完成了 。 不過初始版本只有 Anthropic 的新聞成功獲取 , 其他公司的新聞出現了缺失 。 好在 Agent 很快識別出問題 , 又花了十幾分鐘迭代修復 。 最終成品不僅能按公司篩選新聞(比如只看微軟 AI 動態) , 還能手動搜索關鍵詞、每分鐘自動更新 。
?https://r8jzmyahyxr7.space.minimax.io/
這個過程的亮點在于 , 在 Agent 的協助下 , 如果后續有迭代需求(如添加更多訂閱源、更換 UI 風格等) , 在 Agent 的協助下都能快速完成 。 同時 , 所有工程文件都經過規范化整理打包 , 為有經驗的開發者提供了精細化手動修改的空間 。
任務完成后 , MiniMax Agent 還給出了規范打包的工程文件|圖片來源:極客公園
對于 MiniMax VIP 用戶 , 還提供了個性化域名服務 。 完成作品之后 , 用戶可以直接發布 , 交付使用 。
也就是說 , 從開發、測試、部署到發布 , MiniMax 提供了一個完整的產品交付閉環 , 這和早先只是靜態網頁式 Agent 產品還是有本質區別 。
?MiniMax 還提供了個性化域名服務(付費)

02復雜場景應用:創造一個創意美食 App
為了進一步測試 MiniMax 的能力邊界 , 我設計了一個更具挑戰性的任務:開發一個基于 AI 的美食探索 App 。 但它的核心功能不是推薦餐廳或菜譜 , 而是通過分析用戶的感官描述和喜好 , 來反向推導出他們可能喜歡的特定美食或飲品 。
例如 , 用戶不再輸入「上海小籠包」或「日式拉面」 , 而是輸入一系列感官關鍵詞 , 比如:「有嚼勁的」、「微辣的」、「帶有煙熏味的」 , AI 會根據這些關鍵詞推薦符合描述的美食 , 有點類似「猜你喜歡」的食物版本 。
這對于 agent 的挑戰在于 , 它需要:
跨模態理解:將抽象的感官描述轉化為具體的食物 強大的推理能力:從少量線索中推導出準確結論 深厚的美食知識庫:涵蓋全球各地的美食文化和特色面對這個復雜度顯著提升的任務 , 開發時間從之前的十幾分鐘延長到了半小時 。
最終的成品長這個樣子 , 因為我沒有提出 UI 方面的特殊要求 , 成品比較簡單 , 但也達到了及格線 。 App 具備了應有的基本元素:恰當的應用命名、清晰的用戶引導界面 , 甚至還有富有文學色彩的 slogan 。
最終成品的訪問地址:https://47upjztctd5b.space.minimax.io|圖片來源:極客公園
在測試中 , 對于「童年」這類具象關聯性強的關鍵詞 , App 能返回「香草布丁」、「冰淇淋圣代」等匹配度較高的結果 。
?「味覺偵探」界面
當但當面對「在人間」、「我的大學」這類更抽象的關鍵詞時 , 系統便難以提供有效匹配 。 這其實暴露了底層數據庫的局限性 。 但就功能實現來說 , 作為一個半小時內完成的作品 , 表現已經很不錯 。 如果匹配上更專業的開發者和更豐富的數據庫 , 味覺偵探其實可以很快就成為一個成熟的產品 。

03給自己造一個文保地圖
最后 , 我基于自己的需求 , 讓 MiniMax 給我做了一個文保地圖 。
市面上已有的產品 , 如華夏古跡圖、文保在身邊等 , 都無法滿足我的需求 。 他們要么是性能拙劣、UI 粗糙 , 要么收錄的文保單位數量有限 , 且夾雜了許多我不需要的增值服務 。
此前我曾嘗試過將文保數據導入蘋果地圖、谷歌地圖 。 蘋果的問題在于并不支持數據導入 , 每一個文保單位都需要手動創建 。 谷歌地圖支持數據導入 , 但是很難滿足一些我的個性化需求 , 例如將各個層級的文保單位(國保、省保、市保)分層顯示 。 此外 , 它對數據行數有限制 , 最大只支持 2000 行 , 同時且對網絡環境也有要求 。
?在谷歌地圖中 , 所有目的地都混雜在一起|圖片來源:極客公園
【為什么說現在所有的 AI Agent,都像 3D 打印機?|AI 上新】在 Minimax 的幫助下 , 我自己做了一個文保地圖 。 成品最終如下圖所示 。 相比谷歌地圖而言 , 界面更加友好 , 有更詳細的背景介紹 。 點擊導航鍵之后也可以跳轉至高德地圖導航 。 對我來說 , 這款應用的最大優勢是高度可定制化 。 即使不懂編程 , 我也可以隨時要求 MiniMax 按照我的想法進行后續的迭代和改進 。
用 MiniMax 制作的文保地圖產品|圖片來源:極客公園
然而 , 目前這款應用的數據庫僅僅收錄了 12 個文保單位的信息 。 主要原因是 , 要獲取包含經緯度的專業地理數據 , 通常需要特定的賬號權限才能登錄某些專業數據庫 , 這超出了當前 AI Agent 的能力范圍 。
這讓我意識到一個現實:以 MVP(最小化可行產品)的標準而言 , 這個文保地圖是合格的 。 但是「一句話生成 App」還只是一個宣傳口號 , 實際上在創建一個真正可用 App 的過程中還需要大量的人工介入 , 無論是前期的產品文檔撰寫還是之后數據庫支持、運營維護等等 。
總結一下 MiniMax Agent 的優點 。
Gallery 和 Remix 功能算是還不錯的功能點 , 它可以引導新用戶創作、促進老用戶的創作動力 , 并且在更低的算力成本下加大了社區的活躍度 。
全棧開發能力是一個貼近實際生產環境的功能 。 MiniMax 集成了后端數據庫、一鍵測試、部署等完整的開發鏈路 , 產出的產品具備真正的可用性和交互性 。
至于缺點 , 坦率地說 , MiniMax 本身并沒有明顯的產品缺陷 , 它所表現出的問題主要來自兩個層面:
AI 技術的內在約束 :包括模型幻覺現象、對真實世界理解的局限性等 , 這些是當前 AI 技術發展階段的共性問題 。
人類認知的投射 :AI 技術的華麗前景往往折射出人類復雜的情感訴求 , 而這種期待本身就承載著人類認知的局限性 。
對于現在的 AI 產品 , 我觀察到身邊的朋友有一種矛盾的復雜情感 。
一方面是厭煩 。 AI 產品層出不窮 , \"逆天\"、\"炸裂\"等夸大詞匯充斥著信息流 , 讓人產生審美疲勞 。
另一方面又是恐懼——萬一呢?萬一真有他們說的那么好?那我的工作是不是會被淘汰?
雖然 Agent 在特定任務上展現了強大的能力 , 但在實際生產環境中 , 它還遠未達到可以完全自主運行的水平 。
將 agent 想象成一臺 3D 打印機會更恰當。
就像 3D 打印機能夠將數字模型轉化為物理物體 , 滿足小規模、定制化的生產需求 , 現在的 agent 也擅長處理特定、界限清晰的任務 。 它們可以根據明確的指令生成代碼片段、撰寫特定主題的文章或自動化重復性強的流程 。 這些應用場景通常是針對個人用戶或小規模團隊 , 用于實現個性化、快速迭代的目標 。
然而 , 3D 打印機無法替代大規模的工業化生產線 。 同樣 , 現在的 agent 也無法直接進入復雜的生產環境 。 大規模生產需要的是高度可預測、可靠且經過嚴格質量控制的系統 , 而當前的 agent 缺乏這種穩定性 。 它們可能會產生「幻覺」 , 出現無法預料的錯誤 , 或者在面對復雜、多變的實際場景時表現出脆弱性 。
客觀地說 , AI 的能力其實處在一個中間態 。 確實展現了前所未有的強大能力 , 卻又存在著明顯的缺陷 。 與其說它有多么地強大 , 更準確的描述是 ,它承諾了一個充滿可能性的未來。
實際上 , 只要再深入了解一下 , 就可以輕易發現 AI 的脆弱 。 正如楊立昆所說 , 現在大語言模型本質上是一種「統計機器」 , 它通過在海量的文本數據中學習詞語之間的統計關聯性 , 來預測下一個最有可能出現的詞 。
換句話說 , AI 并不理解世界 , 本質上是猜測 , 是一種對人類的模擬 。 一個模型可以學會「火很熱」和「水能滅火」的詞語關聯 , 但它不知道為什么火是熱的 , 也不知道水如何從物理層面撲滅火焰 , 它只是在復述訓練數據中已有的模式 。
就像你教小狗做出「恭喜發財」的動作一樣 。 小狗當然不懂什么是恭喜發財 , 但是這么做之后 , 就會有零食獎勵 。
AI 也是如此 。

    推薦閱讀