Optical Circuit Switching in disaggregierten Cloud- und HPC-Infrastrukturen


Verfasst von 

Dr. Michael Enrico

Architekt für Netzwerk-Lösungen  

Disaggregation von Netzwerken, unterstützt durch eine optisch geschaltete Verbindungsstruktur, kann einen entscheidenden Beitrag zu neuen Netzwerk-Designs leisten, die zur Unterstützung von KI und maschinellem Lernen entwickelt werden.

Die Hyperscaler im Bereich Cloud Computing und andere Anbieter von High-Performance-Computing-Diensten (HPC) müssen ihre Computing-Plattformen so gestalten und skalieren, dass sie die Anforderungen ihrer Kunden an KI-Anwendungen bedienen und gleichzeitig die Investitionen kontrollieren sowie den Energiebedarf senken. Vor allem die benötigte Rechenleistung ist um ganze Größenordnungen gestiegen.

Die Disaggregation von Ressourcen ist der Schlüssel zu niedrigeren Kosten und einer Verringerung des Energieverbrauchs


Anstatt die Bausteine dieser Plattformen eng und unflexibel in einer relativ monolithischen Plattform wie einem Standard-Servergehäuse zu bündeln, vermeidet der Prozess der "Disaggregation" der erforderlichen Komponenten oder Subsysteme das Risiko erhöhter Ineffizienz und unzureichender Nutzung einiger der wichtigsten zugrundeliegenden Ressourcen und vor allem eines übermäßigen Stromverbrauchs, der unvermeidlich ist, wenn einfach mehr Server "aufgestellt und gestapelt" werden. 


In einer disaggregierten Architektur werden diese Ressourcen (CPU, Arbeitsspeicher, Speicher, Beschleunigungs-Hardware in ihren verschiedenen Ausprägungen) flexibel kombiniert, indem sie über integrierte digitale Highspeed-Transceiver und eine spezielle Verbindungsstruktur auf der Grundlage von geeigneten Transportmedien und Switching-Technologien miteinander vernetzt werden. Diese können dann unabhängig voneinander kombiniert und entsprechend skaliert werden, um die Anforderungen der zu erwartenden Workloads zu erfüllen.



Flexible Nutzung von Ressourcen


Das Prinzip der Disaggregation ist im obigen Diagramm dargestellt. Die erforderlichen Ressourcen werden in maßgeschneiderten Anteilen gebündelt, um flexibel proportionierte "Bare Metal"-Hardware-Hosts zu bilden, die spontan "zusammengestellt" werden, wobei ein gemeinsamer Pool zugrundeliegender feinkörniger Ressourcen verwendet wird. Die wichtigsten Bausteine sind in diesem Fall die Ressourcenelemente der unteren Ebene selbst wie CPUs, Arbeitsspeicher, Speichermedien sowie verschiedene Arten von Beschleunigern (GPUs, TPUs, FPGAs).


Je nach dem Grad der Granularität, mit dem auf die Ressourcenblöcke zugegriffen werden kann, lassen sich mehrere Disaggregationsstufen definieren. 


Bei der am stärksten granularen Form der Disaggregation verfügt jeder Ressourcenblock (z. B. eine DRAM-Bank, eine CPU oder ein Beschleuniger) über integrierte Hardware, um die erforderliche Highspeed-Verbindung mit geringer Latenz zwischen seinen Ressourcen und einer Verbindungsplattform zu ermöglichen. 


Weniger granular ausgelegte Formen der Disaggregation von Ressourcen, die mit den derzeitigen Hardware-Implementierungen besser kompatibel sind, können als eine Möglichkeit angesehen werden, einen schrittweisen Übergang zu vollständig disaggregierten Plattformen zu erleichtern. Dazu gehören: optische Verbindungen, die über eine Packet-Switching-Struktur gelegt werden, und die Umwidmung herkömmlicher Server.


Optische Verbindung überlagert auf Packet-Switching-Struktur 


Eine Anwendung, bei der die dynamisch miteinander verbundenen Komponenten der Rechenressourcen nur auf die Beschleuniger-Hardware beschränkt sind. Durch den Einbau optischer Singlemode-Transceiver können sie flexibel und direkt mit Transceivern anderer Hosts verbunden werden, wobei eine dedizierte Optical-Switching-Struktur verwendet wird, die als Overlay zu einer Packet-Switching-Struktur fungiert, die bereits für den Großteil der Verbindungen zwischen den Hosts im Cluster verwendet wird.


Umwidmung konventioneller Server


Eine dedizierte PCIe-Verbindungskarte, die mit spezieller SerDes-Verarbeitungs-Hardware und -Firmware sowie optischen Highspeed-Transceivern mit hoher Dichte ausgestattet ist, fungiert als Hochleistungs-Gateway zwischen den über PCIe angebundenen Rechenressourcen in diesem Gehäuse und der optischen Verbindungsstruktur und geht damit über die reine Verbindung von Beschleunigerkarten hinaus, um auf mehr Ressourcen zuzugreifen, die bereits in Flotten herkömmlicher Server vorhanden sind. 


Das Verbindungsstruktur 


Eine optische Verbindungsstruktur mit transparentem Optical Circuit Switching bietet deterministische, Circuit-Switched-Datenpfade mit fester Bandbreite, die sich gut für die Verbindung von Hardware-Ressourcenelementen eignen, die ansonsten direkt und deterministisch auf niedriger Ebene über dedizierte Leiterbahnen auf einer Server-Hauptplatine oder über eine spezielle Bustechnologie wie PCI Express miteinander verbunden wären. 


Sie verspricht auch eine erhebliche Verringerung des Stromverbrauchs der Struktur an sich im Vergleich zu einer elektrischen Struktur, wesentlich geringere Latenzzeiten bei den Datenpfaden durch die Struktur und eine bessere Möglichkeit, die Struktur physisch horizontal und vertikal zu skalieren. Dank der systemeigenen Transparenz der Struktur in Bezug auf die Formate und Leitungsgeschwindigkeiten des seriellen Datenverkehrs zwischen den optischen Transceivern, die mit den disaggregierten Ressourcenelementen verbunden sind, ist sie auch wesentlich zukunftssicherer. 


Die verlustärmsten Optical Switches, z. B. POLATIS® DirectLight™ Switches, ermöglichen den Aufbau von Strukturen mit bis zu vier oder mehr Switching-Stufen, wobei das Budget für optische Verluste typischer Transceiver, die mit disaggregierten Ressourcenelementen verwendet werden, eingehalten wird. 


Die Vorteile von disaggregiertem Computing

  • Hardware-Computing-Plattformen lassen sich spontan zusammenstellen.
  • Plattformen können auf jede beliebige Größe und jedes beliebige Verhältnis der verfügbaren Ressourcentypen skaliert werden, die für die auf der Hardware ausgeführte Art der Workloads geeignet sind. 
  • Die Größe der Plattformen kann während der Ausführung einer bestimmten Workload angepasst werden, wenn sich die Anforderungen an den Ressourcenverbrauch ändern.
  • Nicht benötigte Ressourcen können vorübergehend abgeschaltet werden, was zu Einsparungen bei den Betriebskosten führt.


Durch Disaggregation sind Betreiber in der Lage:

  • die jeweiligen Best-of-Breed-Anbieter für die verschiedenen Komponentenbausteine auszuwählen.
  •  jene Ressourcen zu nutzen, die nur die spezifischen Funktionen unterstützen, die sie benötigen.
  • unterschiedliche Typen und/oder Blöcke von Ressourcenelementen je nach Bedarf zu aktualisieren.