看1100萬小時錄像學會操作電腦,四人團隊打造通用計算機行為模型

看1100萬小時錄像學會操作電腦,四人團隊打造通用計算機行為模型

文章圖片

看1100萬小時錄像學會操作電腦,四人團隊打造通用計算機行為模型

文章圖片

看1100萬小時錄像學會操作電腦,四人團隊打造通用計算機行為模型

2026 年 2 月 23 日 , 一家名為 Standard Intelligence 的舊金山初創公司發布了 FDM-1(Forward Dynamics Model , 前向動力學模型) , 并稱其為“首個完全通用的計算機行為模型” 。

這個模型在一個包含 1100 萬小時屏幕錄制視頻的數據集上進行訓練 , 能夠以每秒 30 幀的速率直接處理視頻流 , 在 CAD 建模、網站安全測試甚至真實世界的自動駕駛場景中展示出令人意外的泛化能力 。


圖丨相關推文(來源:X)

當前主流的計算機使用代理(computer-use agent)走的是另一條路線 。 Anthropic 在 2024 年 10 月推出了 Claude 的 Computer Use 功能 , 讓 AI 通過截屏、識別界面元素、模擬點擊和鍵入來操作計算機 , 到 2026 年 2 月 Claude Sonnet 4.6 在 OSWorld 基準上已達到 72.5% 的得分 。

OpenAI 在 2025 年 1 月發布了名為 Operator 的 Computer Using Agent(CUA , 計算機使用代理) , 基于 GPT-4o 的視覺能力加上強化學習實現網頁操控 。 Google DeepMind 也有 Project Mariner 和 Gemini 2.5 Computer Use 在布局同一賽道 。

這三家巨頭的做法有一個共同特征:都是在已有的視覺語言模型(VLM , Vision-Language Model)基礎上疊加工具調用能力 , 依賴截屏分析和像素級定位來理解界面 , 本質上仍然是“看圖說話”的思路 。

Standard Intelligence 認為 , 這條路走不遠 。

他們的核心論點是:要造出真正通用的計算機操作智能體 , 需要的不是在截屏上做分類和推理 , 而是直接從大規模視頻中學習人類操作計算機的行為模式 。 就像 GPT-3 需要互聯網規模的文本語料庫才能涌現出語言能力 , 通用的計算機行為模型需要互聯網規模的視頻語料庫 。

目前最大的公開計算機操作數據集還不到 20 小時的 30 FPS 視頻 , 而互聯網上累積了數以百萬計小時的剪輯制作、編程直播、游戲實況和各類軟件操作錄像 , 這些數據從未被系統性地利用過 。 FDM-1 正是瞄準這個缺口 。

Standard Intelligence 的路線 , 更接近 2022 年 OpenAI 發布的 VPT(Video PreTraining , 視頻預訓練)方法 。 VPT 的核心思路是:互聯網上有海量人類玩 Minecraft 的游戲錄像 , 但這些視頻只記錄了畫面 , 沒有標注每一幀對應的鍵盤鼠標操作 。

OpenAI 當時的解決辦法是 , 先花錢請承包商標注少量帶操作標簽的數據 , 用這些數據訓練一個 IDM(Inverse Dynamics Model , 逆向動力學模型) 。 IDM 能從前后幀的變化中反推出中間發生了什么操作——比如屏幕上多出來一個字母“K” , 那大概率就是按下了 K 鍵 。 然后用訓練好的 IDM 去給約 7 萬小時的 YouTube 游戲視頻自動打上操作標簽 , 再用這些帶標簽的數據做行為克隆訓練 。

VPT 最終甚至學會了合成鉆石鎬這種需要連續 24000 步操作、人類熟手也要花 20 分鐘以上的任務 。 這在當時是一項突破 , 但它有兩個顯著局限:一是只適用于 Minecraft 這個特定環境 , 二是上下文窗口極短 , 只有大約六秒 。 真正的計算機工作 , 比如 CAD 設計、金融交易、文檔編輯 , 動輒需要數分鐘到數小時的連貫操作上下文 。 六秒遠遠不夠 。

Standard Intelligence 的 FDM-1 試圖在兩個維度上同時突破:數據規模和上下文長度 。

在數據規模上 , 他們先是在 4 萬小時的標注員錄屏數據上訓練了一個 IDM , 然后用這個 IDM 對 1100 萬小時的互聯網視頻語料庫進行自動標注 。 IDM 的工作原理比較直觀:屏幕上突然出現了一個字母“K” , 那大概率是有人按了 K 鍵;光標從屏幕左側移動到了右側 , 那一定發生了相應方向和距離的鼠標位移 。 通過觀察前后幀的變化來反推操作動作 , 這在技術上是可行的 , 雖然存在噪聲和歧義 。


圖丨逆動力學模型(IDM)架構(來源:Standard Intelligence)

他們在 IDM 的架構選擇上做了一個有意思的決策:采用了掩碼擴散(masked diffusion)架構 。 原因在于 , 給視頻標注動作這件事天然是非因果(non-causal)的 。 比如你看到有人按了 Cmd+C , 單看這一幀是無法確認的 , 你得看到后面出現了粘貼的內容才能確認之前確實發生了復制操作 。 掩碼擴散模型可以同時參照所有幀來推斷每個時間步的動作 , 先標注高置信度的簡單動作 , 再把計算資源集中在模糊的難例上 。

按他們的說法 , 這種方法比純因果模型過擬合更慢 , 數據效率更高 , 且 IDM 標注數據訓練出的模型在鼠標移動和界面操作等任務上甚至超過了人工標注數據的效果 。

在上下文長度上 , 突破來自他們自研的視頻編碼器 。 現有 VLM 處理屏幕錄制視頻的方式極度浪費 token:一分鐘的 30 FPS 視頻就要消耗大約 100 萬個 token 。 這意味著在 200k token 的上下文窗口里 , GPT 大約只能裝下 240 幀 , Gemini 約 775 幀 , Claude 約 162 幀——連幾秒鐘的視頻都看不完 。


圖丨對比 FDM-1 的分詞器在 20 萬 token 上下文窗口內可容納幀數的圖表 。 (來源:Standard Intelligence)

Standard Intelligence 的視頻編碼器聲稱能把近兩小時(約 36000 ?。 ┑?30 FPS 視頻壓縮進同樣的 token 預算 , 比此前最優方案高效 50 倍 , 比 OpenAI 的編碼器高效 100 倍(需要注意的是 , 博客中提到的 36000 ?。 ?00k token 是“屏幕錄制”場景下的數字 , 而用來對比的 GPT、Gemini、Claude 的?。 痶oken 比是通用視覺接口的數字 。

兩者的任務和優化目標不同 , 直接放在同一張圖表里對比有些不完全對等 。 不過 , 即使打個折扣 , 這個壓縮能力也是相當可觀的) 。

他們在 200k token 上下文中能裝入約 20 分鐘視頻 , 1M token 中則能裝入約一小時 40 分鐘 。 這個壓縮比是通過在屏幕錄制數據上訓練掩碼壓縮目標來實現的 。

他們觀察到 , 屏幕錄制與自然視頻有本質不同:信息密度的波動劇烈 。 鼠標劃過空白桌面時幾乎沒有信息量 , 而滾動瀏覽密集文本時信息量極大 。 固定大小的嵌入空間必然在語義細節和壓縮比之間取舍 。 他們的編碼器在一個文本轉錄基準測試上 , 相比標準 ViT(Vision Transformer , 視覺變換器)收斂速度快約 100 倍 。

有了大規模的 IDM 標注數據和高效的視頻編碼器 , 他們就可以訓練 FDM 本身了 。 FDM 是一個標準的自回歸模型 , 接收此前的視頻幀和動作序列 , 預測下一個動作 token 。 輸出空間由鍵盤按鍵和鼠標移動增量組成 。

由于鼠標每幀可以移動任意數量的像素 , 直接離散化會導致狀態空間過于龐大 。 因此他們將鼠標位移分解為 X 和 Y 分量 , 用屏幕寬高進行歸一化 , 然后使用指數分箱(exponential binning)將其映射到 49 個指數尺寸遞增的箱中 。 小而頻繁的移動分入細粒度箱 , 大而稀少的移動分入粗粒度箱 。 同時 , 每個鼠標移動 token 還附帶預測下一個點擊位置 , 幫助生成更精確的軌跡 。


圖丨FDM-1 訓練方法的示意圖(來源:Standard Intelligence)

與 VLM 路線形成對比的是 , FDM 完全不使用鏈式思維推理、字節對編碼或工具調用 。 它直接在視頻和動作 token 上運作 , 這使得推理延遲很低 , 也使模型能夠處理滾動、3D 建模、游戲操控等 VLM 框架難以建模的連續性任務 。

評估基礎設施方面 , 團隊建了一套可運行 8 萬臺分叉虛擬機的系統 , 每小時能跑超過 100 萬次 rollout 。 每臺 VM 是一個最小化的 Ubuntu 桌面環境 , 配 1 個 vCPU 和 8 GB 內存;一塊 H100 GPU 能同時控制 42 臺 。 分叉機制允許他們對操作系統狀態做完整內存快照并復制到新的 VM 上 , 從而在同一個起始狀態上并行跑數千次評估 。

這基本上是在把測試時計算(test-time compute)的思路用到了行為模型評估上 。 他們還把 GPU 和 VM 放在同一云區域、使用低延遲 VNC 配置和自定義 Rust 輸入綁定 , 把從屏幕截取到動作執行的往返延遲壓縮到 11 毫秒 。

他們公布的初步評測結果顯示 , IDM 標注數據在鼠標操作、目標點擊、符號記憶和 UI 操控等方面的表現已經超過了人工標注的承包商數據 。 不過在打字和語言理解任務上 , IDM 數據上的進步速度慢于承包商數據 , 團隊認為這是 IDM 標注噪聲造成的 , 未來計劃混合使用兩種數據 。


圖丨承包商數據與 IDM 標注數據集的早期評估趨勢 。 (來源:Standard Intelligence)

在自動駕駛的微調實驗中 , FDM-1 在不到 1 小時的駕駛數據上微調后 , 就能用方向鍵控制汽車在舊金山繞街區轉彎 , 起始準確率為 50%(在“無操作/左轉/右轉”三選一中) , 明顯高于僅有視頻編碼器而沒有互聯網視頻預訓練的基線模型 。

關于這支團隊 。 Standard Intelligence 于 2024 年 3 月在舊金山注冊成立 , 自我定位為“對齊的 AGI 實驗室” 。 研究團隊的核心作者是 Neel Redkar、Yudhister Kumar、Devansh Pandey 和 Galen Mead 。 Neel Redkar 來自 UCLA , 曾在高中時期就憑借用于碳捕獲的金屬有機框架神經網絡獲得 ISEF 大獎 , 在 Notion 的 AI 團隊實習過 , 2023 年底還在 NeurIPS 上展示過文本與材料生成的跨模態研究 。

Yudhister Kumar 的個人網站顯示他曾參與過 MATS(ML Alignment Theory Scholars , 機器學習對齊理論學者)5.0 項目 , 研究過“預言機在合作 AI 中的應用”以及 Ramsey 理論中的非標準方法 。 這是一個背景相當年輕但研究嗅覺敏銳的團隊 。

在 FDM-1 之前 , Standard Intelligence 已經有過兩個引起關注的項目 。 一個是 2024 年中在舊金山市中心建造的 30 PB 存儲集群 , 專門用來存放 9000 萬小時的視頻數據 。 他們在博客中算過一筆賬:如果用 AWS 存儲 , 每年要花 1200 萬美元;通過租用舊金山的托管機房 , 包含折舊在內的成本降到了每年約 35.4 萬美元 , 低了大約 40 倍 。

另一個是 2024 年 11 月開源的 hertz-dev , 一個 85 億參數的全雙工音頻基礎模型 , 在單張 RTX 4090 上實現了約 120 毫秒的實際對話延遲 。 這兩個項目分別對應了 FDM-1 所需要的兩個關鍵能力:大規模數據基礎設施和跨模態學習 。

回到此次推出的 FDM-1 , 其最大的價值或在于提出了一條與當前行業主流截然不同的技術路徑 。 Anthropic、OpenAI、Google 的計算機操控代理本質上是“大腦外接手臂” , 用已經訓練好的強大語言/視覺推理模型去截圖、識別 UI 元素、再生成點擊指令 。

這種方法的優點是可以利用現有模型的通用推理能力 , 缺點是操作頻率低(每步都要截圖-推理-動作) , 無法處理需要高幀率連續控制的任務 , 且受限于截屏分辨率下的 UI 理解 。

FDM-1 則更接近端到端的行為克隆路線:直接從視頻到動作 , 不經過語言中介 。 這讓它天然擅長連續控制任務(比如 3D 建模中的連續拖拽、滾輪操作) , 但也意味著它可能缺乏 VLM 方案所擁有的抽象推理和自然語言理解能力 。

【看1100萬小時錄像學會操作電腦,四人團隊打造通用計算機行為模型】目前 , FDM-1 現在還遠不是一個可用的產品 。 它沒有指令跟隨能力 , 所有演示都是模型自主探索或執行預設行為 , 沒有任何自然語言驅動的展示 。 你沒法用中文或英文告訴它“請打開瀏覽器搜索某個關鍵詞” 。

它也沒有在任何公開標準化基準(如 OSWorld 或 CUB)上報告結果 , 所有評測都基于內部任務套件 , 缺乏與 Anthropic、OpenAI、Google 等主流方案的直接可比性 。 不使用任何語言模型能力遷移 , 意味著 FDM-1 可能在 CAD 建模、游戲操控、連續滾動瀏覽這些 VLM 完全做不了的任務上有獨特優勢 , 但也意味著產品化落地時需要解決指令理解、任務規劃等一系列問題 。

未來 , FDM-1 代表的路線和 VLM 代理路線最終可能會趨于融合 。 一個能在 30 FPS 下連續操控 3D 建模軟件的模型 , 如果加上語言條件化(language conditioning)和高級規劃模塊 , 有機會兼得兩種路線的優點 。

這個判斷是不是成立暫且不論 。 但可以更加明確的是:在計算機行為建模這個賽道上 , 數據規模和上下文長度的重要性被嚴重低估了 , 而 Standard Intelligence 可能是第一個認真把這兩個要素推向極致的團隊 。 至于這條路最終能走多遠 , 還需要更多定量驗證、更多場景泛化、以及與 VLM 路線在真實生產任務上的正面比較 。

參考資料:
1.https://si.inc/posts/fdm1/

運營/排版:何晨龍

    推薦閱讀