Google 深夜狙擊 OpenAI:新 Agent 功能可以自己打開瀏覽器查資料了

Google 深夜狙擊 OpenAI:新 Agent 功能可以自己打開瀏覽器查資料了

文章圖片

Google 深夜狙擊 OpenAI:新 Agent 功能可以自己打開瀏覽器查資料了

文章圖片


作者 | Li Yuan
2024 年走到年底 , 似乎 AI 大廠們集體又決定搞點事情了 。
在 OpenAI 宣布連發 12 天更新后 , Google 選擇 12 月 11 日深夜(在 OpenAI 發布更新之前) , 發布新模型 Gemini 2.0 。
在多次發布被 OpenAI 精準狙擊后 , Google 今夜扳回一局 , 發布了 Gemini 2.0 , 直指 Agent 使用 , 一個 OpenAI 至今沒有明確公開布局的領域——之前有消息稱 , OpenAI 將在明年推出使用電腦的 Agent 。
Agent 功能 , 也稱為智能體功能 , 通常指的是 AI 能夠感知環境、執行任務并在一定程度上獨立做出決策的能力 , 也就是能更自動化完成任務的功能 。
此次 Google 似乎賭對了 。 OpenAI 凌晨兩點的發布 , 主要宣布了和 Apple Intelligence 的合作 , 一個普遍被期待能與 Agent 能力強相關的合作 。 不過今夜最終的發布 , 主要仍然集中于文字生成和視覺智能方面 , 并沒有 Agent 相關的內容 。
而 Google , 則一次性發布了四個 Agent 相關的功能:
Project Astra , 能夠在 Gemini 應用中直接調用 Google Lens 和地圖功能幫用戶解決問題;
Project Mariner(海員項目) , Chrome 瀏覽器的實驗性功能 , 可以通過 提示詞直接幫用戶瀏覽網頁做任務;
Jules , 可以嵌入 GitHub 的編程 Agent , 使用自然語言描述問題 , 就能直接生成可以合并到 GitHub 項目中的代碼;
游戲 Agent , 能夠實時解讀屏幕畫面 , 直接在你打游戲的時候通過和你語音交流 , 給你 AI 打法提示 。
雖然此次 Google 發布的功能仍然屬于期貨范疇 , 但是仍然十分令人興奮 。 我們似乎已經可以洞見 Agent 真正到來的時代 , 人類生活的一角了 。
01
炸裂新 Agent 功能:自己查資料、寫代碼 , 教你玩游戲
Google 的新功能建立在新模型 Gemini 2.0 能力之上 。
和大部分大模型選擇的路線不一樣 , Google 最早就選擇了使用原生多模態的的方式訓練模型——OpenAI 到了 GPT-4o 模型才變成原生多模態的模型 。
原生多模態模型 , 是在訓練階段 , 就將圖像、文字、語音甚至視頻等多種編碼 , 統一輸入給一個模型進行學習 。
這樣 , 模型可以在理解了一個「事物」后 , 更加靈活地利用進行不同模態的生成 。
此次 Gemini 2.0 , 進一步升級了原生多模態能力 。 模型目前直接擁有了原生的圖像生成能力、音頻輸出能力和原生的工具應用能力 。
原生的工具應用能力就和 Agent 的能力高度相關 。 Google 介紹 , 除此之外 , 新體驗還來自于多模態推理、長上下文理解、復雜指令遵循和規劃、組合函數調用、本地工具使用和降低延遲等方向的改進 。
看一下 Google 提出的新功能演示:
Project Mariner 是這個系列中 , 筆者看起來最驚喜的演示 。
主要原因可能是因為相對于其他功能 , Google 的 Chrome 瀏覽器是筆者每天都要使用的工具 , 也是對工作效率影響最高的工具 。 而 Google 的這項試驗性功能 , 看起來也不需要對瀏覽器進行過多的額外配置——只需要用到擴展程序 。
Google 很懂地選了一個生產力場景 , 讓 Chrome 打開一個表格(演示里里用的是 Google Docs , 不知道這與最終的成功識別是不是有相關性) 。
表格里有幾個公司的名字 。 演示者打開 Chrome 的這項試驗功能 , 讓 Chrome 自己記住這幾個公司名字 , 去網上查找這些公司的郵箱 。 (同樣的 , 查找使用的是 Google 搜索 , 不知道是不是與最后的演示成功相關 。 )
瀏覽器自己打開了網頁 , 自己點開每個公司的官網 , 在找到郵箱地址后 , 自動記住郵箱地址 , 關掉網頁開始查找下一個公司的郵箱地址 。
全程 , 用戶可以在右邊欄輸入提示詞的位置 , 看到模型目前在如何思考 , 隨時停止自動操作 。 同時模型只會在前臺運行 , 不會在用戶看不到的標簽頁中運行 。
雖然前臺運行似乎對用戶的時間是一種消耗 , 但同時也保證了安全性 。 在這個案例中 , 也確實提升了生產效率——挨個查找郵箱確實是一件非常沒有創造力的工作 。
Jules , 則讓自然語言寫代碼似乎更近了一步 。
在演示中 , 用戶輸入了一段非常詳細的編程問題的提示詞 , 包括在哪個文件中遇到什么問題 , 希望做怎樣的修改 。 (Google 提到 Jules 可以直接嵌入 GitHub 中 。 )
Jules 對問題進行分析 , 給出了一個三步的編程解決方案 , 當用戶點擊同意后 , 模型開始自動編程 , 生成代碼文件 , 這些代碼可以一鍵被合并至用戶原有的代碼中 。
游戲 Agent , 則是看起來最有趣的一個演示 。
Google 特意提到 , Gemini 2.0 可以理解 Android 手機的屏幕分享和用戶的語音 , 直接做到演示中的內容 , 不需要額外的后訓練 。
演示中 , 用戶分享正在玩的手機屏 , 并用語音和 Agent 溝通 , 游戲 Agent 直接給出了接下來的最佳策略 。
Google 表示目前正在和《部落沖突》、《海島奇兵》等游戲做合作 , 幫助 Agent 理解游戲規則 。 同時 Agent 也會自己實時上網查找 , 來理解游戲規則給出最好的策略 。
這個功能也可以說很炸裂了 。 對于純策略型游戲 , 這個外掛可有點太厲害了——隨著 AI 的進展 , 人腦對策略的理解恐怕沒有辦法和 AI 抗衡 。 或者說 , 或許只有最頂尖的大腦可以和 AI 相抗衡 。
Gemini2.0 目前并沒有對全部用戶開放 , Google 表示目前正在將 2.0 開放給開發者以及受信任的測試人員 。 這意味著以上的 Agent 功能 , 到用戶真正能夠使用 , 仍然有一段時間 。 不過此次演示仍然令人興奮 。
未來 Gemini 2.0 上線 , Google 大概率也不會首發上述的 Agent 功能 , 而是將先將其融入 Gemini 和搜索功能 。
Google 之前已經在探索將 AI 引入其搜索功能中 。 10 月 , Google 曾經宣布 , 其搜索中的 AI 概述功能每月獲得了 10 億用戶的使用 。 未來 Google 計劃把 Gemini 2.0 的高級推理能力引入 AI 概述 , 以應對更復雜的話題和多步驟問題 , 包括高級數學方程式、多模態查詢和編碼 。
此外 , 除了探索虛擬世界的智能體能力外 , Google 還打算將 Gemini 2.0 的空間推理能力應用于機器人領域 , 嘗試讓 Agent 在現實世界中提供幫助 。
02
Gemini Flash 常規更新
那么用戶實際上能夠馬上使用的模型是什么?
答案是 Gemini 2.0 Flash 。
作為 Google 大號模型蒸餾而來的小號模型 , Gemini 2.0 Flash(對話優化版本)將成為 Google Gemini 中的默認使用模型 。
Google 還推出了一項名為「深度研究」的新功能 , 該功能利用高級推理和長上下文能力作為研究助手 , 可以探索復雜主題并編制報告 , 今天在 Gemini 高級版中可用 。
Gemini 2.0 Flash 的能力較上一代有明顯提升 , 相當于上一代模型的 Pro 版本的能力 。
同時作為 2.0 模型家族的一員 , Gemini 2.0 Flash 也支持支持圖片、視頻和音頻等多模態輸入 , 2.0 Flash 現在還可以支持多模態輸出 , 例如可以直接生成圖像與文本混合的內容 , 以及原生生成可控的多語言文本轉語音 (TTS) 音頻 。 它還可以原生調用 Google Search、代碼執行以及第三方用戶定義的函數等工具 。
03
Project Astra:為 Google Glasses 準備的模型 , 擁有無限記憶?
Google 此次還重點介紹了 Project Astra , 為其推出了以下改進:
·更流暢的對話:Project Astra 現在可以在多種語言和混合語言之間進行對話 , 并且能夠更好地理解不同口音和生僻單詞 。
·新工具的使用:借助 Gemini 2.0 , Project Astra 可以使用 Google Search、Google Lens 和 Google Maps , 從而在日常生活中更好地發揮助手作用 。
·更強的記憶力:我們增強了 Project Astra 的記憶能力 , 同時確保你可以掌控對話 。 現在 , 它最多可以記住長達 10 分鐘的會話內容 , 并且可以回憶起過去與它進行的更多對話 , 以便為您提供更好的個性化服務 。
·更低的延遲:借助新的流式處理技術和原生音頻理解能力 , 該智能體能夠以近于人類對話的延遲來理解語言 。
Google Astra 是 Google 為了眼鏡項目所做的前瞻項目 。
從 Meta 和 Ray-ban 的合作眼鏡開始 , 國內外的不少公司 , 已經又在重新探索眼鏡作為新一代智能硬件的潛力 。
此次 Google 重大更新之一 , 是記憶能力 。 在外網采訪中 , DeepMind 的 CEO Demis Hassabis 表示 , 在 Gemini 1.5 時代 , 內部測試中 , 已經將其上下文窗口擴展到了 1000 萬個 token 以上 。 目前已經模型幾乎可以做到無限記憶 。
但是代價就是速度 。 記憶越長 , 搜索相關記憶的成本越高 , 速度越低 。 不過 Demis Hassabis 認為 , 接下來相當短的時間內 , 我們將真正擁有無限長的上下文 。
而這對于 Google 真正想做的助手而言是極其重要的 。 Demis Hassabis 形容未來世界:「你在電腦上使用這一助手 , 然后你走出家門 , 戴上眼鏡 , 或者使用手機 , 它一直都在 。 它能夠記住會話以及你想要做什么 , 真正個性化 。 我們人類無法記住所有事情 , 而AIvu u會記住所有事情 , 來給你以靈感和新的規劃 。 」
04
Agent 時代已來?
從去年開始 , 就陸續有人指出 Agent 是 AI 發展的未來 。
不過 , 在過去一年中 , Agent 這個詞的使用相對比較沉寂 , 甚至有時候被偷換概念當成 AI 應用來使用 。
但是在今年年末 , 我們終于開始看到了相對可喜的進展 。
首先是 Anthropic , 推出電腦使用的 Agent 模式 。
國內的智譜 AI , 也推出了一個手機 Agent 替用戶操作微信等 App 的的演示視頻 。
明年的 OpenAI 與蘋果合作的 Apple Intelligence , 目前仍然不確定全貌 。 很多人期待它將讓許多用戶第一次在手機上體會到簡單的 Agent 功能到底能如何幫助我們提升生產力 。
而現在我們又看到 Google 推出的瀏覽器 Agent 和安卓手機上的 Agent 使用演示 。
Agent 技術依然面臨諸多挑戰 。 人們會擔憂誤操作可能帶來的安全隱患 , 會擔心隱私 , 會擔心一系列風險 。
但同時 , 對于普通用戶而言 , Agent 才是最具「AI 感」的技術 。 全自動的任務完成 , 像魔法一般 , 不需要任何技術背景 , 直接就能提升工作效率和使用體驗 。
Agent 能力的提升 , 也為一個新的智能硬件真正進入人們生活打下了基礎——只有發出語音指令 , 眼鏡能直接自動完成部分任務的時候 , 許多任務才會逐漸從手機轉移至新的智能硬件終端 。
【Google 深夜狙擊 OpenAI:新 Agent 功能可以自己打開瀏覽器查資料了】或許真的如 Google AI Studio 的產品負責人 Logan Kilpatrick 今天早些時候所言:未來 , 是 Agent 的時代 。

    推薦閱讀