Zurück zum Blog

Wie Echtzeit-Simulationen Stromausfälle in KI-Rechenzentren verhindern

Simulation

05.11.2026

Wie Echtzeit-Simulationen Stromausfälle in KI-Rechenzentren verhindern

Wichtigste Erkenntnisse

  • Stromausfälle in KI-Rechenzentren sind in der Regel eher auf zeitliche Interaktionen zwischen Lasten, Steuerungen und Schutzvorrichtungen zurückzuführen als auf einfache Kapazitätsengpässe.
  • Die Validierung im Zeitbereich liefert Ihnen Erkenntnisse über das Verhalten der Zuleitungen, die Selektivität der Schutzvorrichtungen, das Verhalten der USV sowie die Reihenfolge der Notstromversorgung, bevor durch die Beschaffung und Inbetriebnahme Risiken entstehen.
  • Erweiterungsarbeiten erfordern eine erneute Validierung, da jede hinzugefügte Halle oder jede zusätzliche Reserveanlage das Fehlerverhalten und die Überlappung beim Neustart im gesamten elektrischen System beeinflussen kann.

 

Um Stromausfälle in KI-Rechenzentren zu verhindern, ist eine elektrische Überprüfung in Echtzeit vor dem Ausbau erforderlich, insbesondere da der weltweite Stromverbrauch von Rechenzentren von etwa 460 TWh im Jahr 2022 auf über 1.000 TWh im Jahr 2026 steigen wird.

Statische Studien sind nach wie vor wichtig, doch sie erfassen nicht die Schwankungen im Millisekundenbereich, die auftreten, wenn große GPU-Cluster hochfahren, im Leerlauf sind, Checkpoints erstellen und sich nach Störungen wiederherstellen. Diese Schwankungen wirken sich auf Leistungsschalter, Übertragungslogik, USV-Steuerungen, Batteriegrenzen und die Generatorwiederherstellung in einer Weise aus, die bei der Nennleistungsplanung nicht berücksichtigt wird. Sie benötigen ein Modell, das zeitabhängig läuft, und keine Tabellenkalkulation, die auf die Spitzenlast eingefroren ist. Das ist der Unterschied zwischen einem Stromversorgungssystem, das auf dem Papier ausreichend erscheint, und einem, das unter Belastung stabil bleibt.

 

„Man benötigt Zeitbereichsmodelle, die die Burstform, die Impulsbreite und das Erholungsintervall erfassen.“

 

Die Vermeidung von Stromausfällen beginnt mit einer geschlossenen elektrischen Validierung

Die elektrische Validierung im geschlossenen Regelkreis verhindert Stromausfälle, da dabei die Stromversorgungskette, die Steuerungslogik und die Reaktion der Schutzvorrichtungen als ein zusammenhängendes System getestet werden. So lässt sich bereits vor der Verkabelung durch die Bauarbeiter erkennen, wie die Anlagen bei Störungen, Umschaltungen und abrupten Lastsprüngen zusammenwirken – zu einem Zeitpunkt, zu dem Korrekturen noch ohne großen Aufwand möglich sind.

Ein anschauliches Beispiel ist eine neue Halle, die für 60-kW-Racks mit Sammelschienen, USV-Modulen und Notstromaggregaten gebaut wurde, deren Dimensionierung auf den Spitzenlastdaten basierte. Die Auslegung erscheint solide, bis ein simulierter Netzspannungsabfall eine Umschaltung erzwingt, während Hunderte von Beschleunigern gleichzeitig ihre Lüfter und Spannungsregler neu starten. Ein Stromüberschwingen löst einen nachgeschalteten Leistungsschalter aus, der eigentlich geschlossen bleiben sollte. Dieser einzelne Fehler zeigt, dass das Problem nie nur in der Kapazität lag.

Tests im geschlossenen Regelkreis Tests , da jedes Gerät auf lokale Messwerte und Zeitgeber reagiert. Eine Auslösekurve, eine Verzögerung in der USV-Firmware und die Reaktion eines Generatorreglers können zusammen einen Ausfallpfad bilden, den kein Modell eines einzelnen Anbieters für sich allein aufzeigen würde. Sie überprüfen Wechselwirkungen, selektiven Schutz und die Reihenfolge der Wiederherstellung unter denselben zeitlichen Bedingungen, denen das installierte System ausgesetzt sein wird. Dieser Ansatz macht die Energieplanung zu einer elektrischen Nachweise statt zu einer bloßen Annahme.

KI-GPU-Cluster erzeugen Lastverläufe, die statische Modelle nicht erfassen

KI-GPU-Cluster erzeugen starke, kurzzeitige Lastschwankungen, die in statischen Untersuchungen geglättet werden. Eine generative KI-Abfrage kann etwa 10-mal so viel Strom verbrauchen wie eine herkömmliche Suche, und geclusterte Trainingsaufträge summieren diese Schwankungen über Racks, Zuleitungen und Kühlanlagen hinweg.

Stellen Sie sich einen Trainingscluster vor, in dem Hunderte von Beschleunigern gleichzeitig auf einen neuen Batch zugreifen. Die Stromaufnahme des Racks steigt sprunghaft an, die Netzteile reagieren darauf, und die Lüfter springen einen Moment später an. Die vorgelagerten Geräte registrieren eher einen schrittweisen Anstieg als einen plötzlichen Sprung. Statische Spitzenwerte können nicht aufzeigen, welche Schutzvorrichtungen während dieses Ablaufs zu Fehlauslösungen führen werden.

Dies ist bei der Planung von Bedeutung, da die KI-Lasten durch software , Checkpoint-Wiederherstellung und Orchestrierungsrichtlinien synchronisiert werden. Zwei Hallen mit derselben durchschnittlichen Nennleistung in Megawatt können sich sehr unterschiedlich verhalten, wenn in einer davon eng aufeinander abgestimmte Rechenaufträge ausgeführt werden. Sie benötigen Zeitbereichsmodelle, die die Form der Lastspitzen, die Impulsbreite und das Erholungsintervall erfassen. Ohne diese Details kann die auf dem Papier vorhandene Reservekapazität schwache Margen im Betrieb verschleiern.

Die Planung der Energieinfrastruktur muss beim transienten Verhalten ansetzen

Bei der Planung der Stromversorgungsinfrastruktur sollte man mit dem transienten Verhalten beginnen, da Schaltanlagen, USV-Module, Batterien und Generatoren nicht nur auf die Dauerlast, sondern vor allem auf kurze Ereignisse ausgelegt und aufeinander abgestimmt sind. Wenn Sie bei Ihrem ersten Entwurfsdurchgang Anstiegsgeschwindigkeit, Fehlerstrom und Wiederherstellungszeit ignorieren, werden sich spätere Korrekturen auf alle Ebenen des Schaltraums auswirken.

Ein häufiger Fall tritt auf, wenn ein Team die Leistung der Generatoren anhand der durchschnittlichen Last zuzüglich der Reserve bemisst. Die Anlagen scheinen ausreichend zu sein, bis eine Schwarzstartsequenz unter der simulierten schrittweisen Wiederherstellung von Kühlung, Pumpen und Rechenreihen getestet wird. Die Frequenz sinkt lange genug, um eine weitere Lastumschaltung zu erzwingen, was die Störung verschärft, anstatt sie zu beheben. Die Planung beginnt mit den schwierigsten Sekunden. Die ruhigste Stunde sagt weit weniger aus.

Die „Transient-First“-Planung verändert auch, wofür Sie Ihre Entwicklungszeit aufwenden. Zuleitungen mit moderater durchschnittlicher Belastung können dennoch als Erste ausfallen, wenn sie hinter einer trägen Schutzvorrichtung liegen oder die Last mit einem dicht bestückten GPU-Block teilen. Der folgende Checkpoint zeigt, welche Fragen sich durch Steady-State-Analysen beantworten lassen und welchen Mehrwert eine zeitbasierte Validierung bietet, bevor die Einstellungen und Nennleistungen der Geräte durch die Beschaffung festgelegt werden.

Frage zur Planung Was eine statische Untersuchung aussagt Was eine Echtzeit-Simulation Ihnen verrät
Laden des Feeder während der Hochlaufphase der KI-Berechnungen Eine statische Untersuchung zeigt die zu erwartende Belastung an ausgewählten stationären Betriebspunkten. Eine Echtzeit-Simulation zeigt, wie sich der Speisestromkreis bei kurzen Stromspitzen und während der Erholungsphase verhält.
UPS Autonome Systeme einer Übergabe Eine statische Untersuchung schätzt die Batterielaufzeit bei konstanter Belastung. Eine Echtzeit-Simulation zeigt die Belastung der Batterie bei Übertragungen und gestaffelten Neustarts.
Ausreichende Generatorleistung nach Ausfall der Stromversorgung In einer statischen Untersuchung wird die Nennleistung des Generators mit der geplanten Megawatt-Last verglichen. Eine Echtzeit-Simulation zeigt Frequenz- und Spannungseinbrüche beim Anlaufen des Motors und der IT-Anlage.
Koordination des Schutzes an Störungsabschnitten Bei einer statischen Untersuchung werden die Zeit-Strom-Kurven bei ausgewählten Fehlerpegelwerten überprüft. Eine Echtzeit-Simulation zeigt, welches Gerät bei belasteten Betriebszuständen zuerst auslöst.
Auswirkungen der Erweiterung nach dem Bau einer neuen Halle Eine statische Analyse aktualisiert die Gesamtbelastung nach Topologieänderungen. Eine Echtzeit-Simulation zeigt, wie alte und neue Abschnitte bei derselben Störung miteinander interagieren.

Echtzeit-Simulationstests prüfen Steuerungen bei Lastschwankungen im Millisekundenbereich

Bei Echtzeit-Simulationstests werden Steuerungssysteme unter Lastschwankungen im Millisekundenbereich getestet, indem das Leistungsmodell und hardware derselben Taktfrequenz betrieben werden. Diese Konfiguration ermöglicht es Ingenieur:innen , Netzspannungsabfälle, Leitungsfehler und Neustartimpulse Ingenieur:innen , während Schutzrelais, USV-Steuerungen und Überwachungslogik so reagieren, wie sie es im Betrieb tun würden.

Stellen Sie sich einen Laboraufbau vor, bei dem I/O, Schalterstatus und Generatorsteuerungen an einen Echtzeit-Simulator angeschlossen sind. Ingenieur:innen einen Busfehler auslösen, diesen beheben und anschließend einen inszenierten Server-Neustart mit präzisem Timing nachstellen. So lässt sich feststellen, ob ein Relais zu früh auslöst oder ob die Umschaltlogik lange genug wartet, bis sich die Spannung stabilisiert hat. Das lässt sich allein mit Offline-Dateien und Herstellerangaben nur schwer nachweisen.

Teams, die OPAL-RT für diese Art der Validierung nutzen, können Timer, Droop-Einstellungen und die Schutzkoordination bereits vor der Inbetriebnahme vor Ort optimieren. Sie müssen nicht raten, wie die Firmware verschiedener Anbieter unter Last zusammenwirkt, da der geschlossene Regelkreis diese Zusammenhänge offenlegt. Der Hauptvorteil liegt in der Schnelligkeit bei gleichzeitiger Nachvollziehbarkeit. Fehlerhafte Annahmen werden im Labor aufgedeckt, wo Anpassungen nur wenige Stunden dauern, statt erst vor Ort, wo sich Verzögerungen über Wochen hinziehen können.

Die elektrische Validierung sollte die Selektivität des Schutzes unter Belastungsbedingungen bestätigen

Die elektrische Validierung sollte die Selektivität des Schutzes unter Lastbedingungen bestätigen, da AI-Anlagen ausfallen, wenn das falsche Gerät zuerst auslöst. Schutzstudien müssen zeigen, dass Fehler bei Lastspitzen, Spannungseinbrüchen und Umschaltvorgängen auf den kleinstmöglichen Bereich beschränkt bleiben; andernfalls breitet sich ein lokales Problem auf das vorgelagerte Verteilungsnetz aus.

Ein realistisches Szenario ist ein Fehler in der Zuleitung in der Nähe einer GPU-Reihe bei hoher Rechenlast. Wenn der nachgeschaltete Leistungsschalter innerhalb seiner Auslösecharakteristik auslöst und das vorgeschaltete Gerät geschlossen bleibt, bleibt der Ausfall lokal begrenzt und die Wiederherstellung verläuft geordnet. Wenn beide auslösen, fällt ein viel größerer Bereich aus, und die Einschaltströme verstärken die Störung. Die Selektivität muss auch unter Lastbedingungen gewährleistet sein, nicht nur bei Nennstrom.

Sie sollten fünf Prüfungen durchführen, bevor die Schutzkonfigurationen fixiert werden. Jede einzelne davon steht in direktem Zusammenhang mit der Störungsbegrenzung und der Neustartstabilität. Das Überspringen einer dieser Prüfungen hinterlässt eine Lücke, die in einer einfachen Koordinationsdarstellung nicht erkennbar ist. Diese Prüfungen stellen sicher, dass die Schutzuntersuchungen auf das Betriebsverhalten abgestimmt bleiben.

  • Jeder größere Fehler wird an der nächstgelegenen Schutzvorrichtung abgeschaltet.
  • Die vorgeschalteten Leistungsschalter bleiben bei nachgeschalteten Fehlern und Wiedereinschaltstößen geschlossen.
  • Die Relais-Einstellungen stimmen auch dann noch überein, wenn sich der Status der USV und des Generators ändert und ein Fehlerstrom auftritt.
  • Die Umschaltlogik überschneidet sich nicht mit den Auslösefenstern der Leistungsschalter.
  • Neustartgruppen begrenzen den Einschaltstrom, sodass die Sicherheitsreserven erhalten bleiben.

Die Energieverwaltung hängt vom zeitlichen Ablauf über die Backup-Pfade hinweg ab

Das Energiemanagement im Rechenzentrum hängt vom zeitlichen Ablauf der Abläufe über die Ausfallschutzpfade hinweg ab, da die Ausfallschutzkapazität nur dann funktioniert, wenn die Geräte in der richtigen Reihenfolge umschalten. Der Ausfall der öffentlichen Stromversorgung, die Entladung der USV, der Batterieschutz, der Start des Generators, die Umschaltung der Leistungsschalter und die schrittweise Wiederherstellung der IT-Systeme müssen innerhalb enger Zeitfenster aufeinander abgestimmt sein; andernfalls kommt es auch bei stabilen Anlagen zu Lastabwürfen.

Stellen Sie sich einen kurzen Stromausfall vor, auf den der Einsatz eines Generators folgt. Die Batterien übernehmen die Last, die Generatoren erreichen ihre Betriebsdrehzahl, und die Umschalter bereiten sich auf das Einschalten vor. Probleme treten auf, wenn die Kühlung erst spät wieder einsetzt, während die Serverreihen schon früh wieder ans Netz gehen. Die Temperatur am Rack-Einlass steigt, die Serverlüfter laufen auf Hochtouren, und der Stromkreis verzeichnet während der ohnehin schon heiklen Wiederherstellung einen zweiten Spannungsspitzenwert.

Beim Sequenz-Timing verlagert sich der Schwerpunkt des Energiemanagements im Rechenzentrum von der Geräteauswahl hin zur Betriebsdisziplin. Sie sollten Neustartgruppen, Lastabwurfregeln und Überwachungsschwellenwerte nicht als isolierte Einstellungen betrachten, sondern im Zusammenspiel miteinander testen. Schon wenige hundert Millisekunden können den Unterschied zwischen einem reibungslosen Durchlauf und einer umfassenden Abschaltung ausmachen. Durch Echtzeit-Validierung erhalten Sie diese zeitlichen Genauigkeiten, bevor die Betreiber damit leben müssen.

 

„Ein paar hundert Millisekunden können den Unterschied zwischen einem reibungslosen Durchlauf und einem großen Ausfall ausmachen.“

 

Statische Untersuchungen lassen bei einer schrittweisen Erweiterung Lücken auf

Statische Untersuchungen lassen bei schrittweisen Erweiterungen Lücken auf, da jede neue Halle, jeder neue Batterieblock oder jeder neue Generator neue Wechselwirkungen in ein System einbringt, das bereits mit knappen zeitlichen Spielräumen arbeitet. Bei Erweiterungsplänen müssen das transiente Verhalten, die Selektivität der Schutzvorrichtungen und die Wiederherstellungsreihenfolge jedes Mal neu überprüft werden, wenn sich die elektrische Topologie ändert.

Eine Anlage, die mit einer AI-Halle in Betrieb genommen wurde, kann monatelang störungsfrei laufen, zeigt dann aber Instabilität, wenn eine zweite Halle an denselben Mittelspannungssammler angeschlossen wird. Im Einliniendiagramm sieht nichts überlastet aus. Das Problem tritt auf, wenn sich beide Hallen von einem kurzen Netzausfall erholen und sich ihre Wiederanlaufprofile überschneiden. Deshalb müssen bei Erweiterungsprüfungen die Betriebsabläufe nachgestellt werden und nicht nur die Lastsummensätze aktualisiert werden.

Hier kommt es mehr auf fundierte Technik als auf optimistische Kapazitätspuffer an. Statische Studien haben nach wie vor ihren Platz im Prozess, doch sie liefern keine Antworten auf die Fragen, die zu Ausfällen in dicht besetzten KI-Rechenzentren führen. OPAL-RT ist genau die richtige Lösung für diesen abschließenden Schritt, wenn Teams nachweisen müssen, wie sich Steuerung, Schutz und Stromversorgungsanlagen als ein System verhalten. Das Ergebnis sind weniger Überraschungen, eine straffere Inbetriebnahme und ein Stromversorgungsdesign, auf das Sie sich auch unter Belastung verlassen können.

Echtzeitlösungen für alle Branchen

Entdecken Sie, wie OPAL-RT die weltweit fortschrittlichsten Branchen verändert.

Alle Branchen anzeigen