Google揭十年矽光子佈局 Ironwood成AI推論時代秘密武器
Google Cloud全球晶片科技與製造副總裁Rehan Sheikh。

|即時

Google揭十年矽光子佈局 Ironwood成AI推論時代秘密武器

mirror-daily-logo

2025/09/08 12:53:00

記者:

謝承學

攝影:

謝承學

SEMICON TAIWAN 2025今日以矽光子國際論壇打頭陣,第一個登場的是Google Cloud全球晶片科技與製造副總裁Rehan Sheikh,他深入剖析了Google應對AI算力需求呈指數級增長的佈局。他表示,Google在AI領域的領導地位不僅源於其先進的Gemini模型,更根植於長達十年的客製化硬體創新,其中,「矽光子(Silicon Photonics)」技術扮演著連接數萬顆晶片、打造巨型超級計算機的神經系統,成為其在這場算力競賽中的「秘密武器」。
「我們無疑正處於推論時代(Age of Inference)」Rehan Sheikh強調,傳統的摩爾定律已無法滿足AI的需求 。根據Google內部數據,其產品處理的Tokens數量在短短一年內就實現了驚人的50倍增長,且在近兩個月內,這個龐大的基數又再次翻倍。
這背後的驅動力是AI模型的規模已從數十億(billions)參數,快速演進至兆級(trillions)參數。為了支撐如此龐大的模型和海量的用戶請求,他認為,必須建立一個從晶片到數據中心的端到端(end-to-end)整合解決方案。為實現將數萬顆TPU晶片連接成單一巨型超級計算機的目標,Google將賭注壓在了光學技術上。
Rehan Sheikh表示,Google的光學互聯技術在不到十年的時間內,將單通道速度(per lane speed)提升了8倍,從六年前的50 Gb/s,目標在未來一兩年內達到400 Gb/s。這套光學技術被應用於兩種關鍵場景。
首先是Scale-up(垂直擴展):在單一的超級計算集群(Pod)內部,透過高帶寬、低延遲的光纖連接,確保數千顆晶片能緊密協作。
接著是Scale-out(水平擴展):用於連接數據中心內的多個Pods,提供長距離、高冗餘的連接,建構更大規模的計算網絡。
當系統規模擴展至數千個節點時,單一部件很容易故障。為此,Google引入了「光學電路交換(Optical Circuit Switching, OCS)」技術,作為整個集群的動態可重構網絡。
Rehan Sheikh解釋,當系統中某個晶片節點失效時,OCS可以「即時且動態地」重新配置光路,隔離故障節點,並從檢查點無縫恢復工作負載。這種深度的系統級韌性,是讓運行長週期、關鍵任務的大規模AI訓練和推論成為可能的基石。
Google最新一代的TPU系統「Ironwood」正是這十年光子技術與系統創新的集大成者。它被明確定義為Google首款專為「推論」設計的TPU。一個完整的Ironwood Pod包含超過9,000顆TPU晶片,共同存取高達1.77 Petabytes的HBM高帶寬記憶體,並提供42.5 FP8 Exaflops的驚人算力。這一切的實現,都離不開作為底層支撐的光學互聯技術。

延伸閱讀