Sztuczna inteligencja wprowadza jakościową zmianę w sposobie działania centrów danych. Modele AI – szczególnie te wykorzystywane do analizy dużych zbiorów danych, trenowania sieci neuronowych czy generatywnych systemów językowych – wymagają równoległych obliczeń na bardzo dużą skalę.

W praktyce oznacza to, że:

  • rośnie zapotrzebowanie na przepustowość,
  • krytyczne stają się opóźnienia,
  • infrastruktura sieciowa musi obsłużyć znacznie większą liczbę portów i połączeń światłowodowych,
  • klasyczne podejście do projektowania sieci przestaje być wystarczające.

Przepustowość sieci pod AI: 400G, 800G i dalej

W środowiskach AI standardowe dziś są prędkości:

  • 200 Gb/s – traktowane jako minimum,
  • 400 Gb/s – szeroko wdrażane,
  • 800 Gb/s – dynamicznie rosnące,
  • 1,6 Tb/s – przewidywane jako kolejny etap rozwoju.

Wyższe prędkości osiąga się przez:

  • zwiększanie szybkości pojedynczych linii transmisyjnych,
  • wykorzystanie wielu równoległych torów światłowodowych,
  • techniki WDM (wielokrotne długości fali) lub transmisję równoległą.

Oznacza to więc większą liczbę włókien na jedno połączenie logiczne.

Skala połączeń: setki i tysiące włókien

W klastrach AI liczba połączeń światłowodowych rośnie.
Dla przykładowej konfiguracji serwerów GPU:

  • pojedynczy serwer AI może wykorzystywać do kilkudziesięciu włókien,
  • pełny rack to setki włókien światłowodowych,
  • większe jednostki obliczeniowe (kilka racków) wymagają kilku tysięcy włókien prowadzących do infrastruktury przełączającej.

Tak duża gęstość połączeń zmienia wymagania wobec:

  • tras kablowych,
  • szaf rackowych,
  • organizacji patchowania,
  • dokumentacji i oznaczeń.

Złącza i interfejsy stosowane w sieci pod AI

Wysokie przepustowości wymuszają stosowanie konkretnych standardów złączy:

  • MPO-12 – popularne przy 400G (SR4, DR4),
  • MPO-16 – coraz częściej stosowane przy 800G,
  • LC duplex – dla połączeń typu FR4,
  • VSFF (Very Small Form Factor) – np. CS®, SN®, MDC, stosowane tam, gdzie liczy się ekstremalna gęstość portów.

W modułach 800G stosuje się także układ tzw. „belly-to-belly”, w którym dwa porty MPO pracują równolegle w jednej obudowie transceivera.

Protokoły sieciowe: Ethernet, InfiniBand i RoCE

AI jest wyjątkowo wrażliwe na opóźnienia.
Obliczenia wykonywane są równolegle, a czas całego procesu zależy od najwolniejszego elementu.

Dlatego w sieciach pod AI stosuje się:

InfiniBand

  • bardzo niskie opóźnienia,
  • wysoka wydajność w komunikacji GPU–GPU,
  • szeroko wykorzystywany w superkomputerach i klastrach AI.

Ethernet

  • większa elastyczność i interoperacyjność,
  • szeroki ekosystem producentów,
  • wymaga dodatkowych mechanizmów optymalizacji opóźnień.

RoCE (RDMA over Converged Ethernet)

  • umożliwia przesyłanie pakietów InfiniBand przez sieć Ethernet,
  • łączy niskie opóźnienia z elastycznością Ethernetu.

Okablowanie bezpośrednie a okablowanie strukturalne

Przy dużej liczbie połączeń pojawia się kluczowe pytanie o sposób prowadzenia kabli.

Połączenia bezpośrednie (Direct Attach)

  • każde urządzenie łączone jest bezpośrednio z przełącznikiem,
  • prowadzi to do dużej liczby długich kabli,
  • z czasem utrudnia zarządzanie, chłodzenie i rozbudowę,
  • czas instalacji rośnie wraz z liczbą portów.

Okablowanie strukturalne

  • wykorzystuje panele krosowe i trunki wielowłóknowe,
  • znacząco redukuje liczbę kabli w trasach,
  • ułatwia organizację i identyfikację połączeń,
  • umożliwia wcześniejszą instalację infrastruktury pasywnej,
  • skraca czas uruchamiania systemu.

Testy pokazują, że liczba połączeń pośrednich nie wpływa istotnie na opóźnienia, o ile całkowita długość kanału pozostaje taka sama.

Projektowanie sieci pod AI – kluczowe założenia

Dobrze zaprojektowana sieć dla AI powinna uwzględniać:

  • zapas przepustowości na przyszłe generacje transceiverów,
  • skalowalność liczby włókien,
  • standaryzację złączy (MPO, LC, VSFF),
  • minimalizację długości torów transmisyjnych,
  • uporządkowane trasy kablowe wspierające chłodzenie,
  • bardzo dokładną dokumentację i oznaczenia.

AI nie toleruje przypadkowości ani „prowizorycznych” rozwiązań.

 

Sieć pod AI to nie ewolucja klasycznej serwerowni, lecz zmiana paradygmatu.
Wysokie przepustowości, ogromna liczba połączeń światłowodowych i wymóg minimalnych opóźnień sprawiają, że architektura sieci, dobór złączy i sposób okablowania stają się kluczowe dla wydajności całego systemu.

Projektowanie infrastruktury pod AI wymaga myślenia długoterminowego – z uwzględnieniem przyszłych standardów, rozbudowy i dalszego wzrostu mocy obliczeniowej.

 

Źródło:

AI Infusion: The Next Wave of Data Center Networking, Leviton Network Solutions (white paper)

Leviton-White-Paper-AI-Infusion-Data-Center-Networking (1)

 

Powiązany artykuł