硅谷投資人對話Scale AI創始人:大模型競爭進入第三階段

硅谷投資人對話Scale AI創始人:大模型競爭進入第三階段

文章圖片


編者按:當地時間9月25日 ,硅谷頂級風投a16z合伙人David George對話Scale AI創始人兼首席執行官Alexandr Wang(左) , 就大模型競爭、數據扮演的關鍵作用等話題進行了討論 。
Alexandr Wang在訪談中表示 , 模型競爭正進入第三個新階段 , 研究將再次變得至關重要 。 同時 , 這一階段的一個標志將是數據生產 。 “每個實驗室將使用什么方法來生成所需的數據 , 以達到下一階段的智能水平 , 并如何實現數據的豐富性 。 “
Alexandr Wang還認為 , 模型推理價格在兩年內下降了兩個數量級 , 是一件非常令人震驚的事情 , 這可能表明單純租賃模型業務可能不會是一個非常優質的長期業務 。
PS:如果不了解Scale AI, 可以先看背景材料 , 如果了解 , 請直接略過看下面的訪談內容 , enjoy:
Scale AI及其創始人背景材料
Scale AI是一家成立于2016年的人工智能公司 , 專注于為AI模型提供訓練數據的數據標注服務 。 公司的創始人是年僅19歲就從麻省理工學院(MIT)輟學的華裔天才少年 Alexandr Wang 。

《福布斯》雜志報道稱 , Alexandr Wang生于1997年1月19日 , 出生在新墨西哥州的洛斯阿拉莫斯 。 他的父母是中國移民 , 在新墨西哥州的洛斯阿拉莫斯國家實驗室擔任物理學家 。
Wang 在高中時期就展現出了非凡的編程天賦 , 于18歲考入麻省理工學院 , 主攻機器學習 。 然而 , 正當他在MIT及其光輝的學術前景中徘徊時 , 他做出了一個大膽的決定:輟學創業 。 2016年 , 他與合伙人Lucy Guo聯合創辦了ScaleAI , 力求解決人工智能數據標注的難題 。
Scale AI 的業務主要是利用軟件和人工為創建機器學習算法的公司處理和標注圖像、激光雷達和地圖數據 , 服務于自動駕駛汽車技術研發公司 , 以及Airbnb、Pinterest 和 OpenAI 等 。
Scale AI 在2021年的估值約為73億美元 , 并在2024年5月完成了新一輪10億美元融資 , 估值飆升至138億美元 。 投資機構除了亞馬遜、Meta、英偉達、老虎全球管理、Coatue、Y Combinator Index Ventures、Founders Fund等原有投資者外 , 最新輪次的融資還吸引了新的投資者 , 如思科、英特爾和AMD等企業的風投機構 。
Wang 認為數據是AI模型成功的關鍵 , 并且隨著模型的增大 , 對數據的需求也呈現指數級增長 。 他創辦Scale AI的初衷是為了解決人工智能中的數據問題 。 Scale AI 通過構建“數據鑄造廠” , 推動了L4級自動駕駛的發展 , 并為前沿的LLM(大型語言模型)提供數據支持 。
日前 , 媒體報道稱 , Scale 今年上半年的銷售額幾乎翻了兩番 , 達到近 4 億美元 。 Wang 在 X 上發帖稱 , Scale的年化收入已達到 “近10億美元” 。
根據福布斯統計 , Wang目前身價約為 20 億美元 。
以下是a16z合伙人David George與Scale AI 創始人兼首席執行官Alexandr Wang的訪談內容節?。 ?
David George:我們今天非常高興能邀請到 Scale AI 的創始人兼 CEO Alex Wang 與我們一同討論 。 Alex , 謝謝你能來 。
Alexandr Wang:謝謝你們的邀請 。
David George:我總是很喜歡和你交談 , 每次都能學到很多 。 那么 , 不如先從你正在 Scale AI 做的事情開始談起 , 然后我們再深入討論 。
Alexandr Wang:好的 。 在 Scale , 我們正在為AI構建數據工廠 。 退一步講 , AI 發展可以歸結為三個支柱:計算、數據和算法 , 所有進步都是在這三大支柱上取得的 。 計算由像 NVIDIA 這樣的人推動 , 算法的進步則由 OpenAI 等大型實驗室引領 , 而數據則由 Scale 提供 。 我們的目標是生產前沿數據 , 支持前沿 AI 進步 , 并與所有大型實驗室合作 , 還要讓每個企業和政府都能利用他們自己的專有數據 , 推動他們的前沿 AI 開發 。
David George:那關于前沿數據 , 實際操作中你們是如何獲取這些數據的?
Alexandr Wang:我認為 , 這可能是我們這個時代最偉大的人類工程之一 。 如果這樣說可以理解的話 。 我覺得 , 世界上唯一可以為我們提供想要創造的這種智能模型的參考 , 是人類 。 所以 , 前沿數據的生產看起來像是人類專家與技術和算法模型之間的一種結合 , 生產出大量這樣的數據 。 順便說一句 , 至今為止我們生成的所有數據 , 互聯網的運作也類似 。 互聯網在很多方面都是機器與人類的合作 , 產生了大量內容和數據 。 如果把互聯網不僅僅作為一種人類娛樂工具 , 而是一個大規模的數據生成實驗 , 那將會怎樣?
David George:你對行業現狀有一個非常獨特的視角 。 你會如何描述當前語言模型的狀態呢?我很想談談市場結構之類的話題 , 但我們先聊聊行業現狀吧 。
Alexandr Wang:是的 , 我認為我們正接近語言模型開發的第二階段的結束 。 第一階段是幾乎純研究的早期階段 。 這一階段的標志性事件是原始的Transformer 論文和 GPT 的小規模實驗 , 直到 GPT-3 的出現 , 都是這一階段的成果 , 全是研究 , 專注于小規模的試驗和算法進步 。
接下來 , GPT-3 到現在的第二階段 , 實際上是初步擴展階段 。 我們看到了 GPT-3 的良好效果 , 然后 OpenAI 開始擴展這些模型 , 推出了 GPT-4 及更高版本 。 許多公司如谷歌、Anthropic、Meta 和 XAI 也加入了這一擴展競賽 , 將這些模型的能力提升到令人難以置信的水平 。 所以在過去的兩年多時間里 , 或者說大約三年時間 , 這幾乎都是在執行層面上的工作:如何使大規模訓練順利進行?如何確保代碼中沒有奇怪的 bug?如何設置更大的集群?基本上是執行性的工作 , 最終達到了我們今天所擁有的高級模型 。
然后 , 我認為 , 我們正進入一個階段 , 研究將再次變得至關重要 。 我認為 , 各個實驗室在選擇研究方向上會出現更多的分化 , 并且不同時間段會出現各種突破 。 這是一個令人興奮的交替階段 , 可能是純粹的執行和創新推動周期的交替 。
David George:他們已經達到一個階段 , 不能說計算資源是充裕的 , 但已經有足夠的計算資源來訓練這些模型 , 計算資源已經不再是限制條件了 。 他們已經用盡了所有可用的公開數據 。 所以接下來將會是數據方面的突破 , 是這樣嗎?
Alexandr Wang:是的 , 基本上如果你看看支柱 , 計算方面我們顯然正在繼續擴展訓練集群 , 所以這個方向很明確 。 在算法方面 , 我認為需要進行大量創新 。 坦率地說 , 我認為很多實驗室正在努力推進這一點的純研究工作 。 至于數據 , 你提到了 , 我們已經用盡了所有易于獲取和可用的數據 。
David George:是的 , Common Crawl(公共爬蟲數據)都已經被利用完了 , 大家都能訪問這些數據 。
Alexandr Wang:沒錯 。 所以現在很多人在討論所謂的數據墻 , 我們已經利用了所有公開可用的數據 。 這一階段的一個標志將是數據生產 。 每個實驗室將使用什么方法來生成所需的數據 , 以達到下一階段的智能水平 , 并如何實現數據的豐富性 。
我認為這需要幾個領域的高級研究和工作 。 我認為首先是推進數據的復雜性 , 向前沿數據邁進 。 我們希望在模型中構建的許多能力 , 其最大障礙實際上是缺乏數據 。 例如 , 過去兩年一直流行的關鍵詞是“代理”(agents) , 但實際上沒有哪個代理真正起作用 。 事實證明 , 互聯網上根本沒有代理數據的聚合池 , 幾乎沒有有價值的代理數據儲存在任何地方 。 所以我們必須想辦法生產出非常高質量的數據 。
David George:你能舉個例子說明你們需要生成什么樣的數據嗎?
Alexandr Wang:是的 , 我們即將發布一些相關的研究成果 , 目前來看 , 所有前沿模型在組合工具方面表現不佳 。 如果它們需要使用一個工具 , 然后再使用另一個工具 , 比如查找信息、編寫一個小的 Python 腳本 , 再繪制圖表 , 它們在連續使用多個工具時表現非常糟糕 。 而這是人類自然就能做到的事情 。
David George:但是這樣的行為并沒有被記錄下來 , 對嗎?這是你的觀點嗎?所以你無法捕捉到某人從一個窗口切換到另一個窗口、再到另一個應用程序的過程 , 并將這些數據輸入到模型中進行學習 。
Alexandr Wang:正是如此 。 這些推理鏈 , 通過人類在解決復雜問題時 , 自然會使用多個工具 , 思考問題 , 推理出接下來需要做什么 , 遇到錯誤和失敗后 , 我們會重新審視和考慮 。 這種推理鏈、代理鏈 , 今天的數據并不存在 。 這就是一個需要生產的數據例子 。 但如果回到數據問題的大局上來 , 首先是增加數據的復雜性 , 向前沿數據邁進 。 其次是數據的豐富性 。
David George:增加數據的生產量 , 因此需要捕捉更多人類在實際工作中的行為數據 。
Alexandr Wang:是的 , 捕捉更多人類的行為 , 同時我認為也需要投資于合成數據 , 比如混合數據 , 利用合成數據 , 同時讓人類參與其中 , 以便能夠生成更多高質量的數據 。 我們基本上需要像對待芯片一樣 , 討論芯片工廠 , 確保我們有足夠的芯片生產能力 。 同樣的道理也適用于數據 。 我們需要數據工廠 , 能夠生成大量數據 , 推動模型的訓練 。
我認為 , 最后一個往往被低估的支柱是模型的測量 , 確保我們有一個科學的評估方式 。 在過去的一段時間里 , 整個行業幾乎是在“添加更多數據 , 看看模型有多好”的模式下運作 , 但我們將不得不變得更科學一些 , 明確模型現在哪些方面不夠好 , 因此需要添加哪些特定類型的數據來提升模型的性能 。
David George:那么 , 科技巨頭公司在他們龐大的數據資產方面 , 相對于獨立實驗室有多大優勢?
Alexandr Wang:嗯 , 他們在利用現有數據資產方面有很多監管問題 , 比如你可以看到 , 這在生成式 AI 之前就已經顯現出來了 。 曾經有一段時間 , Meta 利用幾乎所有的 Instagram公共照片及其標簽來訓練非常優秀的圖像識別算法 。
但這在歐洲遇到了巨大的監管問題 , 最終成了一件非常麻煩的事情 。 所以我認為 , 在監管層面 , 尤其是在歐洲 , 科技巨頭是否能有效利用他們的數據優勢 , 這仍是一個待定的問題 。
我認為 , 許多大型實驗室擁有顯著優勢的真正原因在于 , 他們擁有非常盈利的業務 , 能夠為這些 AI 計劃提供近乎無限的資本資源 。 我對此非常感興趣 , 想看看未來的情況會如何發展 。
David George:目前整個行業有一個問題:這些公司是否在過度投資?但如果你聽這些科技巨頭的財報電話會議 , 他們的說法是:“我們的風險是投資不足 , 而不是投資過度 。 ”你對此有何看法?
Alexandr Wang:是的 , 如果你從這些公司的CEO角度來思考 , 比如你站在Sundar Pichai、Mark Zuckerberg 或者 Satya Nadella 的立場上 , 你會發現 , 如果他們能夠真正抓住這次 AI 機遇 , 他們很可能會非常輕松地再創造出一萬億市值 。
如果他們領先于競爭對手 , 并將 AI 技術很好地產品化 , 實現一萬億市值并不難 。 如果他們不投資每年額外的 200 億或 300 億美元的資本支出 , 錯過了這次機會 , 那么對于這些大型科技公司而言 , 會面臨真正的生存風險 。
他們的業務都有可能被技術深刻顛覆 。 所以從風險收益角度來看 , 對他們來說 , 投入是顯而易見的 。 而且我認為 , 從更實際的層面來說 , 最壞的情況之下 , 這些公司都能夠通過改進核心業務輕松收回他們的資本投資 。
David George:舉個例子 , Facebook 的廣告系統 GPU 利用率 。
Alexandr Wang:是的 , Facebook 和 Google 如果能稍微改進他們的廣告系統 , 就能通過性能的提高收回數十億美元 。 Apple 如果能推動一次設備升級周期 , 也能輕松收回這些投資 。 所以這些都是相當明確的 。
David George:總的來說 , 這對整個行業都是好事 , 因為這些大公司投入了大量資本 , 他們也會將這些計算資源租給其他企業 , 至少谷歌和微軟是這樣做的 。
Alexandr Wang:這些模型逐漸公開 , 比如 LAMA 3.1 是開源的 , 因此 , 這些投資的成果變得更加廣泛可及 。 開源模型帶來的剩余價值簡直令人驚訝 。
David George:沒錯 , 非常驚人 。 那么 , 這正好引出我們下一個話題 , 即模型層面的市場結構 。 你認為未來的市場格局會怎樣?是我們已經識別出的少數幾家公司在競爭嗎?你認為這是一個盈利的業務嗎?開源對這些業務的質量有什么影響?帶我們展望未來幾年 , 分享你的預測吧 。
Alexandr Wang:在過去的一年半時間里 , 我們看到模型推理的價格大幅下降 , 下降的速度令人震驚 。 在兩年內下降了兩個數量級 。 所以這是一件非常令人震驚的事情 , 表明智能可能會變成一種商品 。 但實際上 , 這種巨大的價格壓力 , 尤其是在純模型層面 , 確實表明單純租賃模型業務可能不會是一個非常優質的長期業務 。 我認為這很可能只是一個相對平庸的業務 。
David George:我猜這也取決于某些突破的實現 , 是嗎?這是你之前提到的關鍵點吧?如果某些實驗室真的實現了持久的技術突破 , 或者多家實驗室實現了類似的突破 , 市場結構可能會改變 。
Alexandr Wang:是的 , 有兩件事 。 一 , 如果 Meta 繼續開源模型 , 這對模型層面業務的價值設定了一個很高的上限 。 其次 , 如果至少有一些實驗室能夠在性能上長期保持一致 , 那也會顯著改變定價結構 。 所以我們認為 , 雖然不是百分百確定 , 但可能性很大的是 , 單純依賴模型租賃的業務不會是最優質的業務 。
但在模型層之下和之上卻有著更高質量的業務 。模型之下 , 比如 NVIDIA 是一家非常出色的公司 , 而云服務提供商的業務也很棒 , 因為事實上要搭建大規模 GPU 集群的后勤工作相當困難 , 所以云服務提供商在出租這些資源時有很高的利潤率
David George:是的 , 傳統的數據中心業務也是規模經濟的游戲 。
Alexandr Wang:對 , 沒錯 。 所以在模型層之下 , 如果你提供“鎬子和鏟子”(即基礎設施) , 那就會是很好的生意 。 而在模型層之上 , 如果你構建應用程序 , 比如 ChatGPT 這類產品 , 那也是非常出色的業務 。 許多初創公司也做得不錯 , 雖然沒有哪家公司的規模像 ChatGPT 那么大 , 但如果它們在早期產品市場契合度 PMF上表現得好 , 依然能成為很棒的公司 , 因為它們為客戶創造的價值遠遠超過了模型推理的成本 。
這里有一些很有趣的趨勢 , 比如 Anthropic 最近推出的 Artifact 是第一個標志 , 顯示所有的實驗室都將推動更深層的產品集成 , 以建立更高質量的業務 。 我認為我們將會看到更多的產品層面的迭代和創新 。 所謂的“無聊的聊天機器人”并不會是最終的產品形態 。
David George:對 , 那會是一個令人失望的結果 。
Alexandr Wang:是的 , 完全正確 。 所以我認為產品的迭代和創新周期是非常難以預測的 。 比如 OpenAI 的 ChatGPT 剛推出時效果非常好 , 這一點讓我感到驚訝 。 我認為整個行業 , 甚至業內人士都不確定哪些產品會成功 , 以及哪些產品會推動下一階段的增長 。 但你必須相信 , 像 OpenAI 或 Anthropic 這樣的公司能夠建立起很好的應用型業務 , 才能讓它們在長期內保持獨立并實現可持續發展 。
David George:是的 , 確實如此 。 然后問題就變成了什么驅動了競爭優勢 。 顯然 , 模型是一個關鍵 , 但與其緊密集成的產品層 , 及其在工作流、集成等方面的優勢 , 仍然是重要的競爭壁壘 。
Alexandr Wang:從他們的行為中可以明顯看出 , 他們已經意識到這一點 , 比如 OpenAI 和 Anthropic 都在幾個月前聘請了首席產品官 。
David George:是的 , 他們正在尋找解決方案 。 而且他們的語氣也發生了變化 , 最初非常專注于技術 , 現在逐漸意識到產品也是關鍵 。 我覺得這個認知已經到位了 。
Alexandr Wang:完全正確 , 很有道理 。
David George:你自己也有一個應用型業務 , 并且擁有一些非常有趣的客戶 。 你聽到的企業在實踐中是如何實施這些 AI 技術的呢?
Alexandr Wang:我們觀察到的是 , 企業對 AI 充滿了巨大的熱情 。 許多企業覺得自己必須迅速行動 , 必須趕在潮流之前 , 開始實驗 AI 。 我認為這導致了一個快速的概念驗證(POC)周期 , 他們會去嘗試所有低垂的果實 , 看看能用 AI 做什么 。
David George:是的 , 買一些 AI 產品回來看看效果如何 。
Alexandr Wang:對 , 他們會去嘗試所有的東西 。 有些確實不錯 , 有些則不盡如人意 。 但無論如何 , 整個行業都經歷了一場狂熱 。 然而 , 進入生產環境的 POC 數量遠遠少于預期 。 很多企業現在回過頭來看 , 發現原本擔心的末日情景并沒有發生——AI 并沒有完全改造和重塑大多數行業 。
David George:是的 , AI 的影響更像是邊際效益 , 提升了效率 , 尤其是在支持和一些創意任務方面 。
Alexandr Wang:沒錯 , 正是如此 。 我們思考很多的問題是:我們正在進行的哪些 AI 改進和轉型 , 能夠真正顯著提升客戶公司的股價?
David George:哦 , 這個問題很有趣 。
Alexandr Wang:是的 , 這是我們鼓勵客戶考慮的核心問題 。 因為歸根結底 , 每個企業都有潛力通過實施 AI 來提升其股價 。
David George:這種提升大部分來自于成本節約 , 是嗎?
Alexandr Wang:目前來說 , 確實大部分都是通過成本節約實現的 , 但未來也會提升客戶體驗 。 我認為在一些需要大量人工與客戶互動的行業中 , 如果能夠實現更標準化的服務和更多的自動化 , 你可以顯著提升客戶體驗 , 這最終會轉化為市場份額的增加 。 我們就是在引導客戶朝這個方向發展 。
我見過我們合作的一些CEO , 他們對此完全贊同 , 并明白這是一項長期投資 。 他們可能不會在下個季度就看到回報 , 但如果堅持下去 , 他們將看到巨大的轉型 。
我認為 , 圍繞小規模用例和邊際用例的熱潮是好的 , 令人興奮 , 我認為他們應該去做 。 但對我來說 , 這不是我們最終的目標 。
David George:是的 , 目前應用層面更像是第一階段 , 主要是一些自動化任務 , 像聊天機器人之類的東西 。 我作為一家初創公司的投資者 , 期待的是 , 隨著時間推移 , 產品創新將為初創公司贏得勝利 , 并擊敗那些大公司 。 我合伙人有一句話 , 他說的是:“初創公司能否在大公司找到創新之前 , 率先實現分銷?”我覺得這個機會是存在的 , 但目前技術還太早 。 你同意這個觀點嗎?你覺得技術還太早 , 難以實現這種轉型嗎?
Alexandr Wang:我同意 , 現在技術主要是在節省成本上有幫助 。 如果大部分的好處來自于成本節約 , 那還不足以顛覆已經通過巨大的分銷成本建立起來的市場領導者 。
David George:你認為企業內部的數據有多大價值?比如 , 像摩根大通可能擁有15PB 的數據 , 我不知道確切數字是多少 。 你覺得這是否被高估了?這些數據中有多少是真正有用的?因為到目前為止 , 這些數據還沒有為它們帶來顯著的競爭優勢 。 你認為這種情況會有所改變嗎?
Alexandr Wang:我認為AI可能是第一次讓這種情況發生變化的機會 。 因為過去的大數據浪潮 , 本質上是為了更好的分析 , 這確實對業務決策有所幫助 , 但只是在邊際上有用 , 而不是深刻地改變了產品的運作方式 。
David George:是的 , 它并沒有大幅改變產品的工作方式 。
Alexandr Wang:沒錯 。 而現在 , 你可以想象到產品工作方式的巨大轉變 。 舉個例子 , 像任何一家大型銀行 , 用戶與銀行之間的許多重要互動都是由人來推動的 。 這些銀行盡力確?;拥母哔|量 , 但顯然 , 在任何大規模流程中 , 始終有局限 。 所以 , 我認為 , 所有的過往客戶互動和你公司業務的歷史運作方式是唯一可以用來訓練模型的數據 , 來幫助這些模型在特定任務上表現得更好 。 比如財富管理這樣的領域 , 在互聯網上幾乎沒有相關的公開數據可以用來訓練模型 , 對吧?
David George:是的 , 確實如此 。 很多這類領域的數據其實都被“鎖”在企業內部 , 這些數據非常豐富 。
Alexandr Wang:是的 , 數據量龐大 。 我認為 , 企業中大部分數據可能并不直接對業務轉型有用 , 但其中一些數據是非常有價值的 。 但問題是 , 企業很難有效利用它們的任何數據 。數據通常組織不善 , 分散各處 。 企業花費數千萬甚至上億美元請咨詢公司來做數據遷移 , 但即便遷移完成后 , 結果往往并沒有什么實質性的變化 。
David George:是的 , 確實沒有改變 。
【硅谷投資人對話Scale AI創始人:大模型競爭進入第三階段】Alexandr Wang:所以我認為 , 企業一直在這個領域面臨著巨大的挑戰和困難 。 這某種程度上也成了一場競賽:他們能否比某些初創公司更快找到利用和發揮數據的辦法 , 或者某些初創公司能否通過一小部分數據創造出完全不同的東西 。

    推薦閱讀