So funktioniert das neue Ultra Ethernet
UEC hat die Spezifikation Ultra Ethernet 1.0 veröffentlicht. Der neue Standard ist explizit für KI-Cluster und den HPC-Bereich gedacht.
(Bild: asharkyu/Shutterstock.com)
- Benjamin Pfister
Das Ultra Ethernet Consortium (UEC) hat die Spezifikation 1.0 veröffentlicht und damit einen Meilenstein für Hochleistungs- und KI-optimierte Netzwerkinfrastrukturen gesetzt. Die neue Spezifikation macht das klassische Ethernet-Protokoll für Hochgeschwindigkeitsnetze fit und soll einen skalierbaren und interoperablen Kommunikationsstack über alle Schichten des Netzwerks bereitstellen, der speziell für bandbreitenhungrige, sowie latenz- und paketverlustsensitive Anwendungszwecke, wie KI-Cluster und High-Performance Computing (HPC) ausgelegt ist.
Hintergrund
Zwar wurde bereits in den letzten Jahren Ethernet fĂĽr KI-Cluster verwendet, aber die UEC-Mitglieder wollten dessen Eigenschaften besser auf diesen Anwendungsfall auslegen. Mehr als 100 Firmen und 1000 Teilnehmer haben an Ultra Ethernet 1.0 mitgearbeitet. Das entsprechende 562-seitige Dokument steht unter Creative Commons Lizenz (CC BY-ND 4.0) auf den Seiten des UEC bereit.
Kennen Sie schon den kostenlosen iX-Newsletter? Jetzt anmelden und monatlich zum Erscheinungsdatum nichts verpassen: heise.de/s/NY1E In der nächsten Ausgabe geht's ums Titelthema der Juli-iX: Warum ist KI so ein teures Vergügen?
In einem Video erklärt Hugh Holbrook, Chair of the Technical Advisory Committee des Ultra Ethernet Consortiums und Vice President Software Engineering bei Arista Networks, die Hintergründe: Warum soll Ethernet überhaupt adaptiert werden? Er nennt die Multi-Vendor-Unterstützung, die breite Unterstützung in Switches, NICs, Hosts, Test-Equipment und ein breites Verständnis des Protokolls als Basis. Ultra Ethernet setzt grundsätzlich auf Ethernet auf. Es gibt keine Änderungen des Kernprotokolls, da es lediglich um die bessere Eignung für HPC/KI in der Zukunft geht.
Im Kern von Ultra Ethernet 1.0 steckt nicht eine Revolution auf der klassischen Ethernetschicht, sondern die Einführung eines neuen Transportprotokolls. Es heißt Ultra Ethernet Transport (UET). UET erlaubt es, Daten direkt aus dem Netz in den Anwendungsspeicher und umgekehrt zu übergeben – ganz ohne aufwendige Software-Intervention. Diese Fähigkeit gibt es bereits unter dem Schlagwort RDMA (Remote Direct Memory Access), doch UET soll es auf ein neues Niveau heben.
Ein charakteristisches Merkmal von UET ist Multipath-RDMA mit Relaxed Delivery Ordering: Sowohl geordnete als auch ungeordnete Zustellung sind möglich, was die Lastverteilung flexibler gestaltet. Dank moderner Congestion Control und Rapid Loss Recovery soll UET über Ethernet und IP hinweg Engpässe besser erkennen und bei festgestellten Paketverlusten schnell reagieren können. Innerhalb einer einzigen Round-Trip-Time soll die Datenübertragung die volle Datenrate auf dem Übertragungsmedium (Wirerate) erreichen und sich bei Bedarf schnell anpassen, also auch wieder herunterregeln. Das soll entscheidende Vorteile gegenüber TCP mit seinem Slow-Start-Verhalten.
(Bild:Â UEC)
Durch Packet Spraying werden alle verfügbaren Pfade zum Ziel genutzt. Hot-Spot-Avoidance sorgt dabei für eine optimale Verteilung sehr großer Flows: Es wird gerade so viel Entropie erzeugt, dass Engpässe auf einzelnen Links vermieden werden, ohne die Reaktionsgeschwindigkeit durch zu viel Entropie unnötig zu beeinträchtigen.
Ein besonders interessantes Detail ist die Loss-Detection in Kombination mit Packet Trimming. Kommt ein Paket an einem überlasteten Switch an, wird es nicht einfach verworfen, sondern auf kleine Fragmente mit einem 64tel der eigentlichen Größe gekürzt und in eine High-Priority-Queue verschoben. Der Empfänger erkennt so Paketverluste nahezu in Echtzeit und kann gezielt ausschließlich die fehlenden Daten nachfordern, ohne eine aufwendige Retransmission ganzer Frames.
Die Überlastungskontrolle selbst lässt sich wahlweise sender- oder empfängerbasiert betreiben. Im Default-Modus erfolgt sie auf Sendeseite. Das bringt einen schnellen Anstieg und eine schnelle Verlangsamung der Flows. Als Indikatoren für Überlastung werden dabei Verzögerung, Markierungen und Trimming genutzt.
Optional kann der Empfänger über ein Credit-System zusätzlichen Einfluss nehmen. Dabei kommt es zu optimistischer Übertragung, noch bevor alle Credits bestätigt sind, und er passt das Tempo an, sobald neue Kapazitätsinfos eintreffen.
Schließlich ermöglicht UET mit Zero-RTT-Connection-Setup einen Verbindungsaufbau ohne den klassischen Drei-Wege-Handshake von TCP, also ähnlich wie bei QUIC. Somit lassen sich Verbindungen schneller aufbauen und direkt im ersten Paket Nutzdaten übertragen.
Sicherheitsfunktionen in UE
Jede UET-Verbindung wird standardmäßig Ende-zu-Ende mit AES-GCM (Galois/Counter Mode) verschlüsselt. Die Schlüsselableitung erfolgt über KDF (Key Derivation Function) und es stehen auch Anti-Replay-Funktionen bereit. Zudem arbeitet UET mit Gruppenschlüsseln, wobei ein Gruppenschlüssel für eine Sicherheits-Domäne gilt. Jedes Mitglied einer Gruppe vertraut allen anderen in der gleichen Gruppe.
Ultra Ethernet integriert sich nahtlos in das Software-Ă–kosystem moderner High-Performance-Netzwerke, indem es direkt unterhalb der libfabric-2.0-API der OpenFabric Alliance als Provider agiert. libfabric stellt eine einheitliche Schnittstelle zur Bereitstellung von High-Performance-Netzwerkdiensten an Applikationen zur VerfĂĽgung.
Auch an den unteren Schichten gab es Änderungen. Konkret geht es um Link-Layer Reliability (LLR) und Credit based Flow-Control. Datenflüsse von HPC/KI-Umgebungen sind latenzempfindlich. So kann ein einzelner Link mit suboptimaler Leistung, beispielsweise aufgrund zeitweise höherer Bitfehlerraten (BER), die gesamte parallele Anwendung verlangsamen. LLR bietet eine schnelle hardwarebasierte Reaktion, die Probleme mit der Verbindungsleistung abmildert. Die Credit-Based Flusskontrolle ist ein Mechanismus, der in Netzwerken verwendet wird, um die Datenübertragung zu steuern, indem die Rate, mit der ein Sender Daten übertragen kann, basierend auf der Verfügbarkeit von Paketpuffern beim Empfänger reguliert wird.
Ausblick
Schon heute kristallisieren sich mehrere vielversprechende Weiterentwicklungen heraus, die die Spezifikationen in kommenden Versionen noch leistungsfähiger machen sollen. Es gibt schon Ideen für verbesserte Telemetrie, Überlastungskontrolle, Bindungen für Storage Protokolle und In-Network Compute. Alle Informationen zu Ultra Ethernet 1.0 finden sich hier.
()