在人工智慧(AI)和高效能運算(HPC)快速發展的背景下,對高輸送量、低延遲網路的需求比以往任何時候都更加迫切。本文深入探討了對AI基礎設施至關重要的網路協定、交換機技術和資料中心架構的複雜性,探索從傳統TCP/IP到更先進的解決方案(如RDMA)的轉變。

什麼是網路協定?

網路協定是為電腦網路中的資料交換而建立的一套規則、標準或慣例。從法律角度來看,OSI(開放系統互連)七層模型是網路協定的國際標準。這個模型在20世紀80年代被提出,旨在標準化電腦之間的通訊並滿足開放網路的需求,它由七層組成:

  1. 實體層:定義通訊的硬體標準,實現位元流傳輸。
  2. 資料連結層:處理框架編碼和錯誤糾正,將實體層的資料打包成框架。
  3. 網路層:在節點之間建立邏輯電路,使用IP進行定址。
  4. 傳輸層:監控資料傳輸品質,管理遺失資料包的重傳。
  5. 會話層:管理網路設備會話連接。
  6. 表現層:處理資料格式轉換和加密。
  7. 應用層:為各種網路服務提供應用介面。

雖然OSI模型提供了一個全面的框架,但在實踐中更常用的是TCP/IP協定套件,它可以被視為OSI模型的優化版本。它將OSI層合併為四層:應用層、傳輸層、網際網路層和網路介面層。

TCP/IP在AI環境中的局限性

儘管使用廣泛,但TCP/IP在以AI為中心的資料中心中存在幾個挑戰:

  • 延遲問題:由於多次上下文切換和依賴CPU的資料包封裝,TCP/IP引入了數十微秒的延遲。
  • CPU開銷:協定堆疊嚴重依賴主機CPU進行記憶體複製,導致與網路頻寬相關的顯著CPU負載。

RDMA:AI網路的遊戲規則改變者

RDMA(遠端直接記憶體存取)技術允許透過網路介面直接存取記憶體資料,而無需作業系統核心參與。這種方法實現了:

  • 高輸送量通訊
  • 超低延遲
  • 降低CPU開銷

RDMA包括多種實現方式,包括:

  • InfiniBand:專為RDMA設計,具有硬體級可靠傳輸,但成本較高。
  • RoCE(基於融合乙太網的RDMA):基於乙太網的RDMA,平衡了效能和成本效益。
  • iWARP:另一種基於乙太網的RDMA解決方案,與現有網路基礎設施相容。

交換機在資料中心架構中的角色是什麼?

交換機在AI資料中心架構中扮演著關鍵角色,主要在OSI模型的資料連結層(第2層)運作。它們基於MAC位址促進設備之間的通訊,實現同一網段內資料包的高效轉發。相比之下,路由器工作在網路層(第3層),使用基於IP的路由連接不同的子網。

交換機在資料中心架構中的主要功能包括:

  • 資料包交換:在連接的設備之間快速轉發資料包。
  • 流量分段:為每個連接埠建立獨立的碰撞域,提高網路效率。
  • VLAN支援:實現虛擬LAN的建立,進行邏輯網路分段。
  • 服務品質(QoS):優先處理某些類型的流量,確保關鍵應用的最佳效能。
  • 連結聚合:將多個實體連結組合成一個邏輯連結,增加頻寬和冗餘。

資料中心網路拓撲的演進

傳統的三層資料中心架構(接取層、匯聚層和核心層)正在讓位給更高效的設計,這些設計針對AI工作負載進行了優化。傳統方法的局限性包括:

  • 由於STP(生成樹協定)導致的頻寬效率低下
  • 大範圍故障域
  • 東西向流量延遲增加

葉脊架構:優化AI網路

葉脊拓撲已成為AI資料中心的首選架構,提供:

  • 扁平化網路設計
  • 降低延遲
  • 提高頻寬利用率
  • 改善容錯能力

在這種架構中,葉交換機充當接取層設備,而脊交換機的功能類似於核心交換機。葉交換機和脊交換機之間使用ECMP(等價多路徑)路由,實現動態路徑選擇和接近無損的效能。

在AI網路基礎設施中實施RDMA

要在AI網路中有效利用RDMA,請考慮以下實施步驟:

  1. 評估當前網路基礎設施並識別瓶頸。
  2. 根據效能要求和預算限制,選擇適當的RDMA技術(InfiniBand、RoCE或iWARP)。
  3. 將網路介面卡(NIC)升級為支援RDMA的型號。
  4. 在葉脊架構中實施支援RDMA的交換機。
  5. 在作業系統和應用程式級別配置和優化RDMA設定。

程式碼範例:在Linux中啟用RDMA

以下是在Linux系統中啟用和配置RDMA的基本範例:


# Install RDMA packages
sudo apt-get install rdma-core

# Load RDMA modules
sudo modprobe rdma_ucm
sudo modprobe ib_uverbs

# Configure IP over InfiniBand (IPoIB) interface
sudo ip link set ib0 up
sudo ip addr add 192.168.1.100/24 dev ib0

# Verify RDMA configuration
ibstat
    

結論:AI網路基礎設施的未來

隨著AI工作負載不斷推動網路效能的邊界,採用支援RDMA的交換機和優化的資料中心架構將變得越來越重要。透過在葉脊拓撲中利用InfiniBand和RoCE等技術,組織可以構建能夠滿足下一代AI應用嚴苛要求的AI網路。

AI網路的格局正在快速發展,交換機技術和網路協定的進步正在為更高效、更強大的AI基礎設施鋪平道路。展望未來,AI優化交換機和RDMA的整合無疑將在塑造下一代高效能運算環境中發揮關鍵作用,推動人工智慧和機器學習可能性的邊界。