馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

文章圖片

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

文章圖片

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

文章圖片

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

文章圖片

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天

文章圖片

馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天
編輯:定慧 桃子
【新智元導讀】谷歌TPU也要上空了!「登月計劃」Project Suncatcher推出 , 預計在2027年發射兩顆原型衛星 , 用太陽能驅動AI 。


繼英偉達之后 , 谷歌也要把TPU送上太空了!
今天 , 谷歌官宣「Project Suncatcher」(捕日者計劃) , 要在太空建設可擴展的AI計算系統 。

它將利用幾乎無限的太陽能量 , 相當于人類總發電量100萬億倍 , 為下一代機器學習注入動力 。
谷歌CEO劈柴稱之為 , 「全新的登月計劃」 。

預計2027年 , 谷歌與Planet將把兩顆原型衛星送入軌道 , 一個全新里程碑即將實現 。
不過 , AI算力上空之前 , 還有許多亟待解決的工程難題 。
好在 , 谷歌新一代Trillium架構TPU , 在模擬近地軌輻射水平的粒子加速器測試中 , 「扛住了」太空輻射 。
除此之外 , 熱管理、在軌系統可靠性等 , 仍是需要攻克的工程挑戰 。



太陽直接給AI充能


谷歌最新的論文叫做《邁向未來基于太空的、高度可擴展的人工智能基礎設施系統設計》 。
看名字似乎有些長 , 但是這篇論文 , 還有一個簡單的文件名 , Suncatcher , 太陽捕捉者、捕日計劃 。

AI對算力的需求正在催生一個難以想象的需求 , 一個地球目前也無法滿足的需求:電量不夠了 。
于是 , 這些AI巨頭開始把目光投向天空 , 投向太陽 。
在太陽系中 , 太陽的能量輸出為3.86 × 10^26瓦 , 發出的能量超過人類總電力產量的100萬億倍以上 。
處于合適軌道時 , 太陽能板的產能可比地球上高出多達8倍 , 并且幾乎可以持續發電 , 從而減少對電池的依賴 。
在未來的某個時候 , 為AI供能的最佳方式很可能就是直接利用太陽能!
谷歌提出一種替代方案:不是從太空向地球傳輸電力 , 再供給AI數據中心 。
而是直接建立基于太空的機器學習「數據中心」 , 由許多太陽能供電的衛星通過自由空間光學星間鏈路聯網構成 。

一個自由下落(無推力)星座在地球引力作用下的演化過程 , 其建模細節足以推算出太陽同步軌道 。 該模型位于一個非旋轉坐標系中 , 并以中心參考衛星S0為參照 。 箭頭指向地心 。 品紅色:衛星S0的最近鄰衛星 。 橙色:示例「外圍」衛星S1 。 橙色虛線:S1 相對于集群中心的位置(在非旋轉坐標系中) 。



系統設計與關鍵挑戰


谷歌提出的系統由一個「網絡化的衛星星座」構成 , 可能會運行在晨昏太陽同步低地球軌道上 。
在該軌道上 , 衛星能夠近乎持續地接收到陽光照射 。
這種軌道選擇最大化了太陽能的收集 , 并減少了對重型星載電池的需求 。 為使該系統成為可能 , 必須克服以下幾項技術挑戰:
1. 打造數據中心級別的星間鏈路
大規模機器學習工作負載要求將任務分布在眾多加速器上 , 并通過高帶寬、低延遲的連接進行通信 。
為了提供堪比地面數據中心的性能 , 衛星之間的鏈路需要支持每秒數十太比特(Tbps)的傳輸速率 。
谷歌分析表明 , 采用「多通道密集波分復用」(DWDM)收發器和空間復用技術 , 這一目標有望實現 。

然而 , 要達到如此高的帶寬 , 所需的接收功率水平要比傳統遠程部署高出數千倍 。
由于接收功率與距離的平方成反比 , 可以讓衛星以非常緊密的編隊(間距在公里級或更?。 ┓尚欣從Χ哉庖惶粽?, 從而滿足鏈路預算的要求 , 即通信系統中端到端信號功率損耗的核算 。
谷歌團隊已通過一個實驗平臺驗證系統著手驗證此方法 , 該系統使用一對收發器成功實現了單向800Gbps(總計1.6Tbps)的傳輸速率 。
2. 控制大型、緊密集群的衛星編隊
高帶寬星間鏈路要求衛星以遠比現有任何系統都更緊湊的編隊飛行 。
為此 , 谷歌團隊開發了數值和解析物理模型 , 來分析此類星座的軌道動力學 。
他們從希爾-克洛赫西-威爾特方程(Hill-Clohessy-Wiltshire equations)出發 , 采用一種近似方法 , 并利用一個基于JAX的可微分模型進行數值優化 , 以計入更多的攝動因素 。

希爾-克洛赫西-威爾特方程組在開普勒近似下 , 描述了衛星相對于圓形參考軌道的運動
在谷歌規劃的星座高度上 , 地球引力場的非球形特性以及潛在的大氣阻力 , 是影響衛星軌道動力學最主要的非開普勒效應 。
下圖標示了一個包含81顆衛星的示例星座在一個完整軌道周期內的軌跡 , 該星座位于軌道平面內 , 平均集群高度為650公里 。
集群半徑R=1公里 , 在地球引力影響下 , 次近鄰衛星間的距離在約100-200米的范圍內振蕩 。
模型表明 , 在衛星間距僅數百米的情況下 , 或許只需進行適度的軌道保持機動 , 即可在預期的太陽同步軌道上維持星座的穩定 。
3. TPU 的抗輻射能力
為了讓機器學習加速器在太空中有效運行 , 它們必須能夠承受低地球軌道的嚴苛環境 。
谷歌在67MeV的質子束中對谷歌的v6e云TPU——Trillium進行了測試 , 以評估總電離劑量(TID)和單粒子效應(SEE)對其造成的影響 。
測試結果十分喜人 。

盡管高帶寬內存(HBM)子系統是最敏感的組件 , 但它們直到累積輻射劑量達到2 krad(Si) 時才開始出現異常——這幾乎是預期的(有屏蔽防護下)五年任務總劑量750 rad(Si)的三倍 。
在對單個芯片高達15 krad(Si)的極限劑量測試中 , 沒有出現任何可歸因于總電離劑量的硬故障 。
這表明 , Trillium TPU 對于太空應用而言 , 表現出驚人的抗輻射能力 。
4. 經濟可行性與發射成本
歷史上 , 高昂的發射成本一直是部署大規模天基系統的主要障礙 。
然而 , 谷歌對歷史及預測的發射價格數據分析表明 , 只要(成本)學習率能持續下去 , 到2030年代中期 , 發射價格有望降至每公斤200美元以下 。
在這一價格水平上 , 以「每千瓦/年」為單位計算 , 一個天基數據中心的發射和運營成本 , 或將與公開報道的同等規模地面數據中心的能源成本大致相當 。



解讀谷歌星間鏈路


大規模地面機器學習(ML)集群的網絡需求遠遠超出現有衛星間鏈路(ISL)技術的能力 。
例如 , 谷歌的TPU超級計算機采用兩層網絡架構 。 高速數據中心網絡一種定制的低延遲光學芯片間互連(ICI)每芯片吞吐量達數百吉比特每秒 。
相比之下 , 商業可用的光學ISL提供的速率僅在1–100Gbps范圍內 。

圖中X軸(距離 , 單位:km):表示光學星間鏈路(OISL)中數據傳輸的距離 , 范圍從不到1公里到超過10000公里 。 Y軸(帶寬 , 單位:Gbps):表示不同光學系統在對應距離下所能實現的帶寬 。
可以看到 , 距離和帶寬之間呈現出典型的反比關系 , 即隨著距離增加 , 帶寬會下降 , 這在光通信中是常見的現象 , 因為光信號在傳播過程中會衰減 。
像8x8空間復用這種系統 , 適用于非常短的通信距離 , 能夠提供較高的帶寬;而像Starlink和24路DWDM這種系統則適用于較長距離的通信 , 能夠在更遠的距離上傳輸大量數據 。
谷歌提出的星間通信方案主要是:

  • 飛行衛星群處于近距離編隊(距離在「數百米至幾公里」量級)以大幅降低鏈路路徑損耗 , 從而獲得高接收功率 。

  • 利用自由空間光通信結合多通道密集波分復用(DWDM)技術(類似或采用于地面數據中心的商用DWDM收發器)來實現每鏈路10?Tbps級別的帶寬目標 。
  • 在距離極短的時候 , 還考慮「空間復用」多個光束共傳以進一步提升容量 。


參考資料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/
【馬斯克造星鏈,劈柴造算鏈!英偉達卷到宇宙,谷歌也要上天】https://x.com/sundarpichai/status/1985754323813605423

    推薦閱讀