Schwankungen bei KI-Workloads und ihre Auswirkungen auf die Stromversorgungsstabilität im Rechenzentrum
Industrieanwendungen, Energiesysteme
03.02.2026

Wichtigste Erkenntnisse
- Die Stabilität eines KI-Rechenzentrums hängt davon ab, wie schnell die Lasten schwanken, und nicht nur von der Spitzenkapazität.
- Training, Feinabstimmung und Inferenz erfordern separate elektrische Darstellungen, da sich ihre Leistungssignaturen unterscheiden.
- Durch eine konverterorientierte Validierung in Echtzeit wird die Schwankungsbreite der Arbeitslast zu einem lösbaren technischen Problem.
KI-Workloads werden die Stromversorgungsstabilität in Rechenzentren von einem Kapazitätsproblem zu einem Steuerungsproblem machen. Die Hauptfrage ist nicht mehr nur, wie viel Strom ein Standort benötigt, sondern wie schnell sich dieser Strom bewegt, wenn Cluster-Beschleuniger zwischen Rechen-, Kommunikations-, Checkpoint- und Leerlaufzuständen wechseln. Das ist von Bedeutung, da Rechenzentren im Jahr 2024 bereits etwa 415 TWh Strom verbraucht haben, was etwa 1,5 % des weltweiten Verbrauchs, und KI ist die treibende Kraft hinter der nächsten Wachstumswelle.
Sie benötigen Modelle und Testverfahren, die KI-Anlagen als schnelle elektrische Lasten mit umrichterintensiven Schnittstellen, Rückkopplungen im Kühlungsbereich und Auswirkungen auf die Arbeitslastplanung behandeln. Ein stabiler Betrieb lässt sich durch eine konsequente Abbildung dieser Verhaltensweisen erreichen, gefolgt von einer Überprüfung unter kurzzeitigen Störungen, bevor ein Projekt in Betrieb genommen wird. Fortschrittliche Umrichter-Simulationsplattformen können komplexe Topologien wie Halbleitertransformatoren und hochdichte Spannungsquellenwandler mit einer Auflösung im Nanosekundenbereich darstellen und Dutzende von Wandlern innerhalb eines einzigen FPGA unterstützen.
KI-Workloads verursachen schnelle und unvorhersehbare Stromschwankungen im Rechenzentrum

KI-Workloads verursachen kurzfristige Schwankungen im Stromverbrauch, da der Rechenstack die Energie während eines Auftrags nicht gleichmäßig bezieht. Trainingscluster wechseln zwischen Matrixoperationen, Kommunikationsbarrieren, Speicheraktivitäten und Checkpoint-Schreibvorgängen, sodass die elektrische Last in Schüben ansteigt und abfällt, anstatt konstant zu bleiben.
Ein GPU-Cluster, der ein großes Sprachmodell trainiert, ist ein anschauliches Beispiel dafür. Bei intensiven Rechenvorgängen steigen die Anforderungen an die Serverleistung und die Kühlung gleichzeitig an. Sobald der Job an eine Synchronisations- oder Datenübertragungsphase gelangt, kann der Stromverbrauch vorübergehend sinken, um dann beim Start des nächsten Batches wieder anzusteigen. Diese Übergänge sind wichtiger als die durchschnittliche Tageslast, da Schaltanlagen, USV-Steuerungen, Anlagensteuerungen und netzseitige Analysen nicht nur den stationären Zustand, sondern auch diese Lastsprünge berücksichtigen müssen.
Sie sollten Schwankungen als eine Eigenschaft der Anlage betrachten und nicht als ein software . Planungsrichtlinien, Losgrößen, Checkpoint-Intervalle und die Reaktion der Kühlung beeinflussen alle das elektrische Signal, das am gemeinsamen Kopplungspunkt gemessen wird. Eine Anlage kann auf einem Ein-Minuten-Trend normal erscheinen, während sie dennoch schädliche Belastungen im Subsekundenbereich auf interne Busse und vorgelagerte Geräte ausübt.
Warum herkömmliche Lastmodelle das Verhalten von KI-Rechenzentren nicht angemessen abbilden
Herkömmliche Lastmodelle können das Verhalten von KI-Rechenzentren nicht erfassen, da sie für langsamere, gleichmäßigere Verbrauchsverläufe konzipiert wurden. Lastblöcke mit konstanter Leistung, statische ZIP-Lasten oder Lastverläufe mit groben Zeitschritten verschleiern die Steuerung der Stromrichter, die Synchronisation auf Rack-Ebene und die Wechselwirkungen im Kühlsystem, die das tatsächliche Verhalten eines KI-Standorts bei Störungen bestimmen.
Bei einem herkömmlichen Unternehmensserverraum kommen Planer oft mit durchschnittlichen Lastannahmen durch. Bei einem mit Beschleunigern vollgestopften KI-Raum ist das nicht der Fall. Der Strompfad umfasst nun Gleichrichter, Gleichstrombusse, Spannungsregelung, schnelle Lüfter oder Komponenten für die Flüssigkeitskühlung sowie eine Workload-Orchestrierung, die Tausende von Geräten gleichzeitig koordinieren kann. Wenn ein Modell diese Vorgänge zu einem pauschalen Megawattwert glättet, verschwinden Spannungsschwankungen, Oberschwingungseffekte und das Wiederherstellungsverhalten aus der Untersuchung.
Zudem geht die Transparenz hinsichtlich möglicher Ausfälle verloren. Ein vereinfachtes Modell zeigt nicht, wie ein Regler auf einen kurzen Spannungseinbruch reagiert, wie die Kühlleistung hinter der Wärmeabgabe des Servers zurückbleibt oder wie mehrere leistungselektronische Stufen miteinander interagieren. Dieser blinde Fleck führt zu Studien, die auf dem Papier einwandfrei aussehen, aber versagen, wenn der Standort mit einem Netzausfall, einer Umschaltsequenz oder einer abrupten Verschiebung der Arbeitslast konfrontiert wird.
Wichtige elektrische Kennwerte, die die Lastdynamik von KI-Rechenzentren bestimmen
Die Lastdynamik von KI-Rechenzentren wird durch leistungselektronische Schnittstellen, eine hohe Rack-Dichte, kurze Reaktionszeiten und Kühlsysteme bestimmt, die die von der IT erzeugte Wärme über eigene Regelkreise nachverfolgen. Diese Funktionen sich der Standort eher wie ein eng gekoppeltes elektrothermisches System verhält als wie eine passive geschäftliche .
Der deutlichste Indikator ist die Leistungsdichte des Racks. Herkömmliche Racks liegen oft bei 7 bis 10 kW, während KI-Racks üblicherweise 30 bis über 100 kW erreichen, was sowohl die elektrische Belastung als auch die thermische Kopplung im Raum erhöht.
Diese Veränderung hat praktische Auswirkungen auf Ihre Modelle. Eine höhere Dichte verringert den Spielraum für Abweichungen bei der Busspannung, Verzögerungen bei der Kühlung und die Abstimmung der Leistungsschalter. Außerdem bedeutet dies, dass lokale Steuerungsmaßnahmen schneller durch die Anlage geleitet werden. Eine geringe zeitliche Diskrepanz zwischen dem Anstieg der IT-Last und der Unterstützung durch mechanische oder Flüssigkeitskühlung kann zu einer kurzen, aber erheblichen Diskrepanz beim Gesamtbedarf der Anlage führen. Genau diese Wechselwirkungen sind der Grund dafür, dass KI-Laststudien detaillierter sein müssen als herkömmliche Planungsansätze.
Wie KI-Trainings- und Inferenz-Workloads unterschiedliche Stromverbrauchsverläufe erzeugen
Training und Inferenz erzeugen unterschiedliche Lastmuster, daher sollten Sie diese nicht als eine einzige, zusammengefasste KI-Last betrachten. Beim Training ist in der Regel eine hohe Grundlast zu beobachten, die mit periodischen Schwankungen in Verbindung mit Rechen- und Kommunikationsphasen einhergeht, während bei der Inferenz häufig kürzere Spitzen auftreten, die mit dem Nutzer- oder Anwendungsdatenverkehr zusammenhängen.
Ein Trainingscluster, auf dem ein mehrtägiger Modelllauf ausgeführt wird, kann stundenlang eine hohe Auslastung aufweisen und dann bei Synchronisations- und Speicheraktivitäten sprunghaft ansteigen. Ein Inferenzcluster, der Unternehmens-Copilots oder Sucherweiterungen bereitstellt, wirkt im Durchschnitt oft ruhiger, kann jedoch starke sprunghafte Veränderungen verursachen, wenn sich das Anforderungsvolumen über viele GPUs hinweg häuft. Das Fine-Tuning liegt zwischen diesen beiden Modi, mit kürzeren Läufen und eher sporadischen Spitzen.
„KI-Workloads verursachen kurzfristige Leistungsschwankungen, da der Rechenstack die Leistung nicht gleichmäßig über einen gesamten Job verteilt.“
| Lastmodus | Wie das Leistungsprofil normalerweise aussieht |
| Vorbereitung | Die Leistungsaufnahme bleibt über längere Zeiträume hinweg hoch und schwankt, wenn Rechenphasen an Kommunikations- oder Checkpoint-Aufgaben übergeben werden. |
| Feinabstimmung | Der durchschnittliche Speicherbedarf ist geringer, doch wiederholte Tests Parameteraktualisierungen führen zu ungleichmäßigen Spitzenwerten während des Durchlaufs. |
| Schlussfolgerung | Die Last folgt dem Datenverkehr, sodass die gebündelte Benutzeraktivität zu schnellen Sprüngen führt, anstatt einen langen, flachen Verlauf zu ergeben. |
| Kühlverhalten | Wärmesysteme erfassen die von IT-Geräten abgegebene Wärme mit einer gewissen Verzögerung, was bedeutet, dass der Gesamtwärmebedarf der Anlage auch nach einem Rückgang der Serverleistung hoch bleiben kann. |
| Auswirkung auf das Stromnetz | Das Versorgungs- und Verbundmodell berücksichtigt die kombinierte Reaktion von Stromversorgung und Kühlung, nicht nur den Server-Trace. |
Sobald diese Betriebsarten voneinander getrennt sind, stehen Ihnen bessere Planungsoptionen zur Verfügung. Die Übertragungslogik, die Dimensionierung der USV, die Zuleitungsberechnungen und die Lastverteilung vor Ort können dann anhand des tatsächlichen Betriebsmusters jeder Halle überprüft werden, anstatt anhand eines Durchschnittsprofils, das keiner von ihnen entspricht.
Risiken für die Stromversorgungsstabilität aufgrund großer synchronisierter Änderungen bei KI-Workloads

Große, synchronisierte Änderungen bei KI-Workloads bergen Risiken hinsichtlich Spannung, Frequenz und Netzqualität, da viele Geräte nahezu gleichzeitig in Betrieb genommen werden. Das Problem liegt in der Koordination in großem Maßstab. Selbst ein Standort mit einwandfrei funktionierenden Einzelracks kann eine unruhige Reaktion auf Systemebene hervorrufen, wenn durch die Orchestrierung Tausende von Beschleunigern und Kühlkomponenten aufeinander abgestimmt werden.
Ein Lastplaner, der eine neue Trainingsphase über mehrere Hallen hinweg startet, veranschaulicht das Problem. Zunächst steigt die Serverleistung sprunghaft an, gefolgt von Kühl- und Hilfssystemen, und der Gesamtanstieg wirkt sich als ein einziges Ereignis auf die interne Verteilung und das vorgelagerte Netz aus. Dies kann das Verhalten der Transformator-Stufenschalter belasten, Regelkreise auf Anlagenebene stören und bei einem Spannungsabfall in der Nähe Schwachstellen in den Durchhalteeinstellungen aufdecken.
Sie sollten auch das Konzentrationsrisiko im Auge behalten. KI-Rechenzentren konzentrieren sich häufig auf dieselben regionalen Märkte, sodass lokale Netzschwächen Probleme verstärken können, die bei einer isolierten Standortanalyse noch überschaubar erscheinen würden. Eine stabile Stromversorgung wird dadurch gewährleistet, dass die Steuerungsmechanismen der Anlagen, die Planungsgrenzen und die Annahmen zur Netzanbindung auf denselben Störungsbereich abgestimmt werden.
Modellierung der KI-gesteuerten Lastschwankungen in Studien zum Stromnetz
Um die Schwankungen der KI-Auslastung realistisch abzubilden, müssen die Zustände der Arbeitslast mit den elektrischen Zuständen verknüpft werden. Eine aussagekräftige Studie stellt Rechenphasen, Umrichtersteuerungen, Kühlreaktionen und die Stromversorgungsarchitektur des Standorts in einer Kette dar, sodass eine Verschiebung der Arbeitslast zu einem elektrischen Ereignis mit messbaren Folgen wird.
Ein praxisnahes Modell geht von mehreren Betriebszuständen aus, anstatt von einem einzigen Block mit gemittelter Last. Sie können Ereignisse wie Leerlauf, Inferenz-Spitzenlast, Feinabstimmungs-Spitzenlast, kontinuierliches Training und Transfer bestimmten Leistungssignaturen zuordnen und diese Signaturen dann der Topologie der Anlage zuweisen. Mit diesem Ansatz können Sie testen, was passiert, wenn ein Bereich von mäßiger Auslastung auf volles Training umschaltet, während ein anderer Bereich weiterhin im Inferenzbetrieb bleibt.
Hier kommt es auf die Details der Ausführung an. Moderne Konverter-Simulationsplattformen unterstützen Halbbrücken-, Vollbrücken-, Dual-Active-Bridge- und Multiple-Active-Bridge-Topologien und führen gleichzeitig eine große Anzahl von Wandlern innerhalb eines einzigen FPGA aus, um schnelle elektromagnetische Transientenanalysen zu ermöglichen. Eine solche Konfiguration ermöglicht EMT-konforme Untersuchungen für Stromversorgungswege in Rechenzentren, anstatt die Analyse auf langsame Durchschnittswerte zu beschränken.
Warum ist eine Echtzeit-Simulation für KI Tests in Rechenzentren erforderlich?
„Eine Echtzeitsimulation ist erforderlich, wenn die Fragestellung der Untersuchung vom Steuerungszeitpunkt, der Wechselrichterinteraktion oder der Reaktion auf Störungen innerhalb eines Teilzyklus abhängt.“
Offline-Durchschnittswerte können den Energieverbrauch abschätzen, zeigen jedoch nicht, wie ein Schutzkonzept, eine Anlagensteuerung oder hardware bei einem schnellen Wechsel der KI-Last reagiert.
Ein Wechsel von der Netzversorgung auf die Notstromversorgung vor Ort veranschaulicht dies. Der Ablauf umfasst Schaltvorgänge, Reaktionen der Umrichter und Regelverzögerungen, die in zeitlicher Reihenfolge überprüft werden müssen. Dasselbe gilt für einen Spannungseinbruch auf der Zuleitung, während die AI-Hallen stark ausgelastet sind. Man muss beobachten, ob die Anlage diese Situation reibungslos übersteht, wie schnell sich die Lage wieder normalisiert und welche Regelkomponenten unter Last schlecht zusammenwirken.
Hier Tests hardware Tests ins Spiel. OPAL-RT-Plattformen können elektrische Modelle mit zahlreichen Wandlern in Zeitschritten von nur 40 ns ausführen und unterstützen gleichzeitig eine Flexibel über Hochgeschwindigkeits-Kommunikationsverbindungen. Dadurch eignen sie sich zur Überprüfung des schnellen Lastverhaltens mit der Genauigkeit, die die Strompfade in KI-Rechenzentren heute erfordern.
Technische Verfahren zur Überprüfung der Leistungsstabilität bei KI-Workloads
Die Leistungsstabilität unter KI-Lasten wird durch kontrollierte Tests, eine umfassende Abdeckung der Betriebszustände und eine strenge Modellkalibrierung validiert. Sie benötigen den Nachweis, dass das Modell das gemessene Verhalten der Anlage reproduziert, bevor Sie ihm bei Netzkopplungs- oder Schutzentscheidungen vertrauen können.
Ein solider Validierungsplan umfasst die folgenden 5 Prüfschritte:
- Die gemessenen Stromverläufe im Rack und in der Halle werden mit den simulierten Verläufen für denselben Auslastungszustand verglichen.
- Spannungsabfälle, Netzumschaltungen und Lastsprungereignisse werden bei verschiedenen Laststufen getestet.
- Kühl- und Hilfslasten werden berücksichtigt, damit der Bedarf der Anlage der Gesamtleistung des Standorts entspricht.
- Es wird überprüft, ob durch den Scheduler verursachte Zufälle auftreten, damit mehrere Hallen einen schädlichen Gesamtanstieg nicht überdecken.
- Die Einstellungen für Schutz und Laststeuerung sind auf kurzfristige Ereignisse und nicht auf den Durchschnittsbedarf abgestimmt.
Dieser Prozess ist entscheidend, denn eine stabile Leistung wird durch wiederholbare Ausführung erreicht. Ein Modell, das zwar die Megawattleistung im stationären Zustand abbildet, aber den zeitlichen Ablauf vernachlässigt, führt dennoch zu ungenauen Einstellungen und falschen Annahmen hinsichtlich der Ausrüstung. Zuverlässige Ergebnisse erzielen jene Teams, die Messungen, EMT-Modellierung und hardware Tests einem einheitlichen Regelkreis zusammenführen. OPAL-RT fügt sich nahtlos in diesen abschließenden Schritt ein, da die Plattform auf Echtzeitvalidierung ausgelegt ist und nicht nur auf Offline-Darstellung.
EXata CPS wurde speziell für die Echtzeit-Performance entwickelt, um Studien von Cyberangriffen auf Energiesysteme über die Kommunikationsnetzwerkschicht beliebiger Größe und mit einer beliebigen Anzahl von Geräten für HIL- und PHIL-Simulationen zu ermöglichen. Es handelt sich um ein Toolkit für die diskrete Ereignissimulation, das alle inhärenten physikalischen Eigenschaften berücksichtigt, die sich auf das Verhalten des (drahtgebundenen oder drahtlosen) Netzwerks auswirken werden.


