AWS網絡工程副總裁談空芯光纖、AI與數據中心創新

AWS網絡工程副總裁談空芯光纖、AI與數據中心創新

AWS 并非靠保守策略成為全球領先的云服務提供商 。 該公司正在加倍投資其 AI 基礎設施 , 計劃在 2026 年投入 2000 億美元資本支出 , 其中大部分將投入到網絡服務組合中 。

AWS 投入這 2000 億美元并非盲目投資 , 而是在重寫其網絡物理特性 , 以控制延遲并避免潛在的瓶頸 。 通過空芯光纖等新興技術、持續專注于內部硬件開發以及重新設計的控制平面 , 該公司旨在為未來的多云標準樹立標桿 。
AWS 已構建了分層網絡生態系統 , 并正在提升數據中心功率容量 。 在 2025 年第三季度財報電話會議中 , 亞馬遜 CEO 安迪·賈西表示 , AWS 僅在 2025 年就增加了 3.8 GW 的數據中心容量 。 該公司有充分理由將所有精力集中在 AI 基礎設施上 。
公司的網絡服務組合已經看到了企業的巨大需求 , 實現了強勁的同比增長 。 據北極星市場研究預測 , 全球多云網絡市場預計到 2034 年將增長至 365 億美元 , 這反映了企業 IT 架構為滿足 AI 競賽需求而發生的轉變 。
AWS 網絡工程副總裁馬特·雷德接受了廣泛訪談 。 他指出 , 公司正在采取大膽措施 , 包括啟用空芯光纖——傳統光纖的新興挑戰者——來擴展其在都市區的網絡軍械庫 。
數據中心知識:AWS 已為 2026 年制定了重大資本支出計劃 , 網絡將大幅受益 。 空芯光纖等新興技術如何適應這種規模的支出?
馬特·雷德:我們看到的情況是 , 由生成式 AI 和傳統云工作負載驅動 , 客戶全面加速增長 , 這直接轉化為對更多帶寬的需求 。
【AWS網絡工程副總裁談空芯光纖、AI與數據中心創新】這種需求以兩種方式體現 。 首先 , 我們部署的每臺服務器都需要連接到網絡 , 每臺服務器的帶寬需求隨時間持續增長 。 其次 , 我們所有的數據中心必須互連——在可用區內、跨區域、區域間以及對外連接 。 這種持續的帶寬增長是我們多年來一直看到的 , 但 AI 顯然加速了這一進程 。
我們的優先級是可用性、可靠性和彈性 。 如果網絡不工作 , 其他一切都無關緊要 。 核心目標是無約束擴展 。 我們絕不希望網絡阻礙業務發展 。 這意味著擁有足夠的端口、足夠的帶寬和足夠的彈性 , 讓客戶完全不用考慮網絡問題 。
數據中心知識:空芯光纖長期以來因成本和供應問題被認為不實用 。 什么發生了變化 , AWS 目前實際在哪里部署它?
馬特·雷德:在我 25 年的職業生涯中 , 空芯光纖一直被討論 , 通常作為理論概念 。 我們一直知道它在物理上是可能的 , 但無法大規模制造 。
這種情況在四五年前開始改變 , 學術研究改進了生產技術 。 即使現在 , 它仍然是一項新興技術 。 兩個難題是可制造性——你能生產長距離、可靠的光纖跨度嗎?——和成本 。
對我們來說 , 主要用例是長距離互連 。 AWS 可用區由多個數據中心組成 , 客戶將其視為一個邏輯設施 。 要實現這一點 , 我們需要大約半毫秒以下的延遲 。 這一約束限制了設施之間的距離 。
空芯光纖讓我們能夠擴大這個半徑 。 當土地或電力無法足夠靠近時 , 它為我們提供了更多靈活性 。 目前 , 它比傳統光纖貴得多 , 但如果它能夠在我們原本無法建設的地方實現擴展 , 仍然可能是正確的權衡 。
我們在非常少的地點使用它——大約 5 到 10 個地點——特別是存在地理約束的地方 。 長期來看 , 如果成本下降 , 我預計空芯光纖將變得更加普遍 。 除了延遲 , 它還具有更低的信號損失 , 可以支持更高的帶寬或減少放大需求 。
數據中心知識:在數據中心內部 , AI 工作負載已經改變了游戲規則 。 您在規?;锌吹搅四男┬碌木W絡瓶頸?
馬特·雷德:有兩個突出問題 。 首先是控制平面可擴展性 。 機器學習服務器需要的每服務器帶寬是傳統基于 CPU 系統的兩到三倍 。 當我們擴展網絡以滿足這種需求時 , 設備和光鏈路數量急劇增長 。
此時 , 傳統控制平面方法就不再好用了 。 恢復時間增加 , 收斂變慢 , 你會遇到算法限制 。 大約在 2020 年 , 我們構建了專門為機器學習網絡設計的新控制平面 。 它能夠實現故障的亞秒級恢復、跨數千設備的一致編程 , 以及擴展到數十萬鏈路而不遇到瓶頸 。
這個系統現在正成為我們所有網絡的基礎 , 不僅僅是機器學習 , 因為它根本上更好 。
第二個挑戰是布線 。 在超大規模下 , 單個數據中心可能有數十萬條物理鏈路 。 這在重量、路由、部署速度和長期維護方面造成問題 。
我們在更好的跟蹤系統、改進的電纜設計和將多根光纖聚合到單個連接的新連接器技術方面進行了投資 。 這減少了部署時間并提高了規模化可靠性 。
數據中心知識:AWS 設計了大部分自己的網絡硬件 。 這種垂直整合提供了什么優勢?
馬特·雷德:我們大約 15 年前開始開發自己的網絡硬件 , 最初只是為了服務器連接 。 今天 , 我們幾乎整個網絡——從機架頂部交換機到骨干網和互聯網邊緣——都運行在我們自己的設備上 。
最大的優勢是一致性 。 我們在任何地方都使用相同的基本構建塊:相同的 ASIC、外形因子和操作系統 。 這簡化了供應鏈 , 讓我們能夠一次性在整個網絡中應用軟件改進 。
它還支持我們無法以其他方式構建的功能 。 例如 , 我們的控制平面部分運行在設備本身上 。 這在現成設備上是不可能的 。
在操作上 , 它改善了配置、監控和維修 。 我們可以自動化測試 , 準確獲取我們想要的遙測數據 , 并自動觸發修復 。 每一個漸進式改進都能擴展到整個網絡 。
數據中心知識:AWS 還構建了高精度時間服務 。 為什么這是必要的 , 它釋放了什么能力?
馬特·雷德:大約在 2019 年 , 我們開始專注于時間精度 。 NTP 等標準方法可能相差幾秒 , 這在大型分布式系統中造成真正的問題 , 特別是在一致性和排序方面 。
純軟件解決方案無法克服網絡變化性 , 因此我們構建了與數據網絡并行運行的基于硬件的時間網絡 。 每個數據中心都有通過 GPS 同步的原子鐘 。 專門設備分發時序脈沖 , 每臺服務器上的硬件——使用我們的 Nitro 平臺——以納秒級精度接收該脈沖 。
這在軟件中實現了微秒級精度 。 它釋放了高度一致的分布式數據庫等新功能 , 并使金融交易所等工作負載在云中變得可行 。 納斯達克已經演示了交易所如何在這種架構上運行 。 這在十年前是不可能的 。
數據中心知識:隨著功率和冷卻約束加劇 , 能源限制在多大程度上影響您的網絡路線圖?
雷德:能源不會限制我們的路線圖 , 但效率是一個主要焦點 。 我們密切關注每比特瓦數——移動數據所需的功率 。
因為我們控制自己的硬件 , 我們可以在非常精細的層面進行優化:風扇算法、組件選擇 , 以及基于負載的動態功率縮放 。 每個設備的收益可能很小 , 但在數千臺交換機和許多數據中心中 , 它們累積成總功耗的顯著減少 。
這對環境、客戶和我們的成本結構都有好處 。
數據中心知識:展望三到五年 , 今天常見的哪些網絡假設到本十年末將過時?
馬特·雷德:兩個主要轉變突出 。 首先 , 液體冷卻將成為網絡設備的標準 , 不僅僅是服務器 。 將液冷服務器與風冷網絡混合增加了復雜性 , 液冷提供效率優勢 。
其次 , 光學集成將發生變化 。 今天的可插拔光學器件提供靈活性和可維護性 , 這在規模化中很有價值 。 完全共封裝光學器件長期以來一直被討論 , 但在可靠性和操作權衡方面存在困難 。
我認為行業將轉向共封裝連接器——將連接器更靠近 ASIC 集成 , 同時保持光引擎模塊化 。 這在不犧牲供應商多樣性的情況下實現效率收益 , 這對 AWS 規模至關重要 。
數據中心知識:最后 , AWS 客戶在 2026 年網絡方面應該期待什么?
馬特·雷德:理想情況下 , 更多的透明性 。 更多容量、更多帶寬、更低延遲、更少丟包和更少抖動 。
客戶應該看到持續的容量擴展、改進的性能 , 以及與計算、存儲和加速實例更緊密的集成 。 我們的目標很簡單:確保網絡永遠不會阻礙客戶想要構建的東西 。
Q&A
Q1:空芯光纖技術相比傳統光纖有什么優勢?
A:空芯光纖的主要優勢是延遲更低和信號損失更小 。 它能讓AWS擴大數據中心之間的連接半徑 , 在土地或電力資源無法足夠靠近的地方提供更多建設靈活性 。 此外 , 它還能支持更高的帶寬或減少信號放大需求 。 雖然目前成本比傳統光纖高得多 , 但在某些地理約束條件下仍然是正確的技術選擇 。
Q2:AWS為什么要開發自己的網絡硬件而不使用現成產品?
A:AWS自主開發網絡硬件的最大優勢是一致性 。 他們在所有地方使用相同的基本構建塊 , 包括相同的ASIC、外形因子和操作系統 。 這簡化了供應鏈 , 讓他們能夠一次性在整個網絡中應用軟件改進 。 同時 , 這種垂直整合還支持他們構建現成設備無法實現的功能 , 比如部分運行在設備本身上的控制平面 。
Q3:AWS的高精度時間服務解決了什么問題?
A:傳統的時間同步方法如NTP可能相差幾秒 , 這在大型分布式系統中會造成一致性和排序問題 。 AWS構建了基于硬件的時間網絡 , 每個數據中心都有通過GPS同步的原子鐘 , 能夠在軟件中實現微秒級精度 。 這使得高度一致的分布式數據庫和金融交易所等對時間要求極高的工作負載在云中變得可行 。

    推薦閱讀