Zurück zum Blog

Validierung von Energiemanagementsystemen für Rechenzentren mithilfe von Echtzeit-HIL

Industrieanwendungen, Simulation, Energie

29. März 2026

Validierung von Energiemanagementsystemen für Rechenzentren mithilfe von Echtzeit-HIL

Wichtigste Erkenntnisse

  • Die Schwankungen bei KI-Workloads werden zu einem Problem für die Stromversorgungsstabilität, wenn kurze Lastschwankungen durch Umrichter, USV-Anlagen, Speichersysteme und netzseitige Steuerungen laufen.
  • Software ist zwar nützlich, doch nur Tests im geschlossenen Regelkreis Tests , wie sich die EMS-Logik bei Zeitfehlern, bei Schwachnetzbedingungen und in Wiederherstellungssequenzen verhält.
  • Eine zuverlässige Validierung basiert auf wiederholten Tests realistischen elektrischen Betriebsbedingungen und nicht auf Modellen mit durchschnittlicher Last oder einmaligen Testergebnissen.

 

Die Schwankungen bei KI-Workloads werden Energiesysteme von Rechenzentren belasten, Energiesysteme bevor die jährlichen Energiebilanzzahlen Aufschluss darüber geben, was tatsächlich vor sich geht. Das Hauptproblem für die Stabilität ist nicht der Durchschnittsverbrauch. Es sind vielmehr die Geschwindigkeit, das Ausmaß und die Koordination von Lastverschiebungen zwischen Servern, Leistungselektronik, Kühlanlagen und Standortsteuerungen, wenn umfangreiche Trainings- und Inferenz-Jobs hochgefahren werden oder zwischen Clustern wechseln. Auf Rechenzentren entfielen im Jahr 2024 etwa 1,5 % des weltweiten Stromverbrauchs im Jahr 2024, was 415 TWh entspricht, und diese Größenordnung macht die lokale Stromqualität und die Netzinteraktion zu einem dringenden technischen Problem und nicht nur zu einer Randnotiz in der Planung.

Sie benötigen Validierungsmethoden, die das elektrische Verhalten, das Timing der Steuerung und das Regelkreisverhalten gleichzeitig erfassen. Statische Planungsmodelle lassen die kurzen Transienten außer Acht, die entscheidend sind, wenn KI-Server den Zustand wechseln, Batterien reagieren, USV-Steuerungen umschalten oder die Bedingungen an den Stromleitungen nachlassen. Aus diesem Grund Tests im Mittelpunkt der Validierung von Rechenzentrumssteuerungen für KI-intensive Einrichtungen.

Energiemanagementsysteme für Rechenzentren müssen im Hinblick auf ihr elektrisches Verhalten auf Netzebene validiert werden

Ein EMS für Rechenzentren muss unter den tatsächlichen netzseitigen elektrischen Bedingungen getestet werden, nicht nur anhand der internen Steuerlogik. Die durch KI verursachten Lastschwankungen gelangen über Umrichter, USV-Anlagen, Zuleitungen und Schutzvorrichtungen bis zur Netzschnittstelle. Die Stabilität hängt von der gesamten Kette ab. Selbst wenn die lokale Steuerung einwandfrei funktioniert, kommt es dennoch zu einem Ausfall des Standorts, wenn Spannung, Frequenz oder das Durchhalteverhalten an der Netzschnittstelle versagen.

Stellen Sie sich vor, ein umfangreicher Rechenauftrag startet über mehrere Racks hinweg, nachdem ein Scheduler reservierte Rechenleistung freigegeben hat. Die Leistungsaufnahme der Server steigt an, die Kühlung reagiert erst einige Augenblicke später, und der Anlagenbus verzeichnet einen abrupten Sprung statt einer gleichmäßigen Kurve. Dieser Ablauf kann die Batteriesteuerung belasten, den Blindleistungsbedarf verschieben und Schwachstellen in der Koordination zwischen EMS, USV und Schaltanlage offenbaren, bevor das Betriebspersonal Zeit hat, einzugreifen.

Die Validierung auf Netzebene ist wichtig, da das Rechenzentrum keine isolierte Last darstellt. Es wirkt über Leistungselektronik, Schutzschwellen und Kommunikationsverzögerungen, die beeinflussen, was das vorgelagerte Netz wahrnimmt. Standorte mit Schwerpunkt auf KI sind zudem geografisch gebündelt, sodass sich wiederholte Lastanstiege auf die ohnehin schon knappe lokale Kapazität auswirken können und es kostspieliger machen, kurzzeitige Störungen zu ignorieren.

WarumTests software Tests nicht ausreichen, um die Leistungsfähigkeit der EMS-Steuerung zu überprüfen

Software Tests , dass die Steuerungslogik den Regeln entspricht, beweisen jedoch nicht, dass das EMS auch bei schnellen Änderungen der elektrischen Bedingungen stabil bleibt. Zeitfehler, Messverzögerungen, Sättigung der Stellglieder und Schnittstelleninkompatibilitäten treten erst dann zutage, wenn der Regler an ein reales Anlagenmodell gekoppelt ist. KI-Workloads decken diese Schwachstellen auf, da sie kurze, unregelmäßige Datenströme erzeugen, die sich vom Datenverkehr in Büros oder Unternehmen unterscheiden.

Ein Disponent kann das EMS anweisen, den Einspeisefluss während eines Netzereignisses zu begrenzen, doch der Befehlspfad verläuft weiterhin über Zähler, Kommunikationssysteme, Wechselrichtersteuerungen und Batterie-Einsatzgrenzen. Wenn jeder Block mit einer anderen Reaktionszeit reagiert, kann die endgültige Reaktion der Anlage zu stark ausfallen, schwanken oder zu spät eintreten. Software werten diese Abfolge oft als erfolgreich, da der Befehl an sich gültig war.

Sie müssen auch berücksichtigen, wie Rechen- und Anlagensteuerungen zusammenwirken. Eine Verzögerung bei der Kühlung kann einen kurzen Serverausfall zu einer längeren Störung am Standort ausweiten, während ein Schutzschwellenwert in einer USV durch eine Transiente ausgelöst werden kann, die in einer Tabellenkalkulation harmlos erschien. Das sind Ausführungsprobleme, keine Programmierfehler, und sie liegen außerhalb software reinen software .

Wie hardware -Simulationen die Steuerungen von Rechenzentrums-Energiemanagementsystemen validieren

Bei Hardware wird die tatsächliche EMS- oder hardware einer Echtzeitsimulation der elektrischen Anlage verbunden. Dieser Aufbau zeigt, wie sich der Regler verhält, wenn unter realistischen Netzbedingungen Lastschwankungen durch KI-Anwendungen auftreten. So wird die Regelungslogik in messbares Verhalten umgesetzt.

Ein sinnvolles HIL-Setup modelliert die eingehende Netzstromquelle, die Mittelspannungsverteilung, die USV-Pfade, die Batterien, die Wandler, die kühlungsbezogenen Hilfslasten sowie repräsentative AI-Rack-Profile. Der Controller empfängt dann Echtzeitmesswerte und sendet Befehle über dieselben I/O , die auch vor Ort verwendet werden. Eine öffentliche Testplattform modellierte ein 70-MW-Rechenzentrum mit Netzanbindung in einemhardware-Framework, was genau die Größenordnung ist, die eine Closed-Loop-Validierung für netzgebundene Einrichtungen sinnvoll macht.

Dies ist von Bedeutung, da HIL aufzeigt, wie sich die Steuerung unter elektrischer Belastung verhält – und nicht nur unter idealen Annahmen. Sie können die Belastungsgrenzen der Zuleitungen, USV-Umschaltungen, die Batterieabgabe, die Abschaltung von Rechenblöcken und Wiederherstellungsabläufe testen, ohne auf ein riskantes Echtzeit-Ereignis warten zu müssen. Das Ergebnis ist kein schöneres Modell, sondern eine zuverlässigere Steuerungssequenz.

Elektrisches Verhalten und Betriebsszenarien, die bei der EMS-Validierung nachgebildet werden müssen

Bei der EMS-Validierung müssen die elektrischen Ereignisse nachgestellt werden, die bei Schwankungen der KI-Last ein Instabilitätsrisiko darstellen. Im Vordergrund steht nicht eine lange Liste seltener Fehlerfälle, sondern jene wenigen Standortbedingungen, die darüber entscheiden, ob das Rechenzentrum stabil, konform und wiederherstellungsfähig bleibt.

Ein Campus mit hohem KI-Anteil sollte zumindest folgende Betriebsszenarien testen:

  • Plötzlicher sprunghafter Anstieg der Serverauslastung nach dem Start eines geplanten Jobs
  • Schnelle Lastabnahme nach Abschluss eines Auftrags oder nach einer Cluster-Migration
  • Spannungsabfälle im Schwachstromnetz bei hoher Rechenauslastung
  • Wechsel zwischen USV und Batterie bei starker Belastung der Zuleitung
  • Wiederherstellungsabläufe nach der Wiederaufnahme des Betriebs nach reduzierter Auslastung

Jeder Fall deckt eine andere Schwachstelle auf. Ein steiler Lastanstieg testet die Rampentoleranz und die Koordination der Batterien. Ein starker Abfall testet die Stabilität der Steuerung, wenn die Steuerbefehle weiterhin aktiv bleiben, nachdem der Strombedarf bereits abgeklungen ist. Fälle mit einem instabilen Netz zeigen, ob die Anlage Störungen ruhig auffängt oder sie über Umrichter und Steuerungen zurückwirft. Fälle der Wiederherstellung sind ebenso wichtig, da viele Anlagen während des Vorfalls stabil bleiben, aber ins Straucheln geraten, sobald der volle Rechenbetrieb wieder aufgenommen wird.

Erstellung eines Echtzeit-Simulationsmodells für die Stromversorgungsinfrastruktur eines Rechenzentrums

Ein brauchbares Echtzeitmodell muss den Strompfad vom Netzanschluss bis zur Rechenlast so genau abbilden, dass das Verhalten des Umrichters, die Steuerungsabläufe und die Schalteffekte erfasst werden. Blöcke mit durchschnittlicher Last sind für KI-bezogene Tests zu grob. Sie benötigen ein Komponentenverhalten, das dem entspricht, was der Regler tatsächlich vorfindet.

Das bedeutet, dass die Stromquelle, Transformatoren, Schaltanlagen, USV-Systeme, Batterien, Sammelschienenabschnitte sowie Lastgruppen auf Rack- oder Cluster-Ebene mit zeitabhängigen Lastprofilen modelliert werden müssen. In einigen Anlagen sind zudem detaillierte Umrichterdarstellungen für Halbleitertransformator-Konzepte oder modulare Stromversorgungsarchitekturen erforderlich. Die FPGA-basierte Modellierung von OPAL-RT kann fortschrittliche Wandlertopologien abbilden, die in Energiesysteme von Rechenzentren zum Einsatz kommen, darunter Halbleitertransformatoren und modulare Wandlerarchitekturen. Diese Modelle unterstützen die Simulation von Wandlern mit hoher Dichte,I/O Flexibel I/O sowie das für Tests erforderliche hochauflösende elektrische Verhalten.

 

„Statische Planungsmodelle lassen die kurzen Transienten außer Acht, die entscheidend sind, wenn KI-Server den Zustand wechseln, Batterien reagieren, USV-Steuerungen umschalten oder die Bedingungen an den Zuleitungen sich verschlechtern.“

 

Die folgende Tabelle dient als Checkliste für die Punkte, die das Modell erfassen muss, bevor Sie den Testergebnissen vertrauen können.

Modellschwerpunkt Warum das wichtig ist
Netzspannung und Zuleitungsimpedanz Dies zeigt, wie empfindlich die Anlage auf Spannungsschwankungen während steiler Lastanstiegsphasen der KI reagieren wird.
Reaktionsverhalten von USV und Batteriesteuerung Dies zeigt, ob die Reservebestände das Geschehen stabilisieren oder eine weitere Schwankungsebene hinzufügen.
Verhalten auf Konverterebene Dadurch wird die schnelle elektrische Reaktion erfasst, die bei Modellen mit durchschnittlicher Last nicht zum Vorschein kommt.
Lastverteilung nach Cluster oder Rack-Gruppe Dies zeigt, dass die Entwicklung der KI-Arbeitsplätze eher in Phasen verläuft und nicht als eine gleichmäßige Kurve.
Kommunikation und I/O Dies zeigt, ob Steuerungsverzögerungen dazu führen, dass eine gültige Strategie zu spät oder instabil ausgeführt wird.

Tests der Reglerschnittstelle Tests Echtzeit I/O Rückkopplung

Tests der Controller-Schnittstelle Tests , dass Messwerte, Befehle und Zeitabläufe unter realen Betriebsbedingungen konsistent bleiben. Selbst eine robuste Regelungsstrategie versagt, wenn der I/O Verzögerungen verursacht, Signale verliert oder Werte falsch zuordnet. Im Regelkreis werden diese Fehler sichtbar.

Ein Standortcontroller kann die Leistung der Einspeiseleitung, den Ladezustand der Batterie und die Busspannung erfassen und dann während einer KI-Lastschwankung Sollwerte an die USV oder die Speicheranlagen senden. Wird ein Messwert zu stark gefiltert, reagiert der Controller auf veraltete Zustände. Ist die Befehlsskala falsch, reagiert die Batterie zu schwach, und die Einspeiseleitung muss die Last stattdessen auffangen. Diese Fehler sind zwar gewöhnliche Integrationsprobleme, werden jedoch zu einem ernsthaften Problem, wenn die Lastsprünge groß und häufig sind.

Tests können SieTests das Fallback-Verhalten überprüfen. Wenn die Kommunikation während einer Störung im Stromnetz unterbrochen wird, müssen Sie wissen, welches Gerät den letzten Wert beibehält, welches in einen sicheren Modus wechselt und wie der Rest des Systems diesen Zustand interpretiert. Auf diesen Details beruhen stabile Rechenzentren.

Häufige Lücken bei der EMS-Validierung, die nach der Bereitstellung zu einer Instabilität der Steuerung führen

Die meisten Steuerungsprobleme nach der Inbetriebnahme sind auf nicht berücksichtigte Wechselwirkungen zurückzuführen, nicht auf ungewöhnliche Ausfälle. Teams überprüfen häufig den stationären Betrieb, einige wenige schwerwiegende Störungen und nominale Lastfallkonstellationen, übersehen dabei jedoch die gemischten Betriebszustände, die durch KI-Workloads täglich entstehen. Dadurch ist das EMS gewöhnlichen, aber dennoch anspruchsvollen Übergangsphasen ausgesetzt.

Eine häufige Lücke besteht darin, die Rechenlast als homogenes Ganzes zu betrachten. Eine weitere besteht darin, Batterien und USV-Anlagen unabhängig voneinander zu überprüfen, anstatt sie als koordinierte Reaktionskette zu betrachten. Eine dritte Lücke entsteht, wenn die Kühlungsreaktion außer Acht gelassen wird, obwohl eine verzögerte Temperaturregelung einen kurzen Serverausfall zu einem längeren Anlagenausfall ausweiten kann. Auch die Schutzeinstellungen werden leicht übersehen, doch Fehlauslösungen sind oft eher auf die Abstimmung der Schwellenwerte zurückzuführen als auf einen schwerwiegenden Geräteausfall.

Die Probleme bei der Inbetriebnahme verschärfen sich, wenn die Wiederherstellung nicht getestet wird. Die Teams überprüfen die anfängliche Störung, stellen sicher, dass der Standort online bleibt, und belassen es dabei. Die schwierigere Frage ist, was passiert, wenn die zuvor eingeschränkten KI-Aufträge wieder aufgenommen werden, der Speicher sich wieder auflädt und das Netz noch immer instabil ist. Diese Abfolge entscheidet darüber, ob sich der Standort stabilisiert oder in einen zweiten Instabilitätszyklus gerät. 

Einsatz von Echtzeit-Simulationsplattformen zur Skalierung der EMS-Validierung über verschiedene Szenarien hinweg

Mit Echtzeit-Simulationsplattformen können Sie schwierige Fälle so lange wiederholen, bis die Steuerungsabfolge zuverlässig ist – und genau das ist der einzige Maßstab, der für KI-intensive Rechenzentren zählt

 

„Eine gute Validierung hängt nicht von einem einzigen erfolgreichen Test ab. Sie hängt von einer konsequenten Wiederholung unter realistischen elektrischen und betrieblichen Bedingungen ab.“

 

Diese Vorgehensweise bietet Ihnen eine praktische Möglichkeit, die Betriebsbereitschaft zu beurteilen. Sie können dasselbe KI-Lastmuster unter schwachen und starken Netzbedingungen ausführen, die Batterieverfügbarkeit variieren, die Einspeisegrenzen ändern und testen, wie das EMS mit Unterbrechungen, Leistungsbegrenzungen und der Wiederherstellung umgeht, ohne den laufenden Rechendienst zu gefährden. Die nützlichsten Plattformen unterstützen zudem eine detaillierte Umrichtermodellierung und Flexibel I/O, was wichtig ist, wenn die Standortarchitektur auf Leistungselektronik statt auf langsamen mechanischen Komponenten basiert.

OPAL-RT fügt sich nahtlos in diesen Ausführungskontext ein, da der Mehrwert nicht in einer einzelnen Funktion oder einem einzelnen Gerät liegt. Der Mehrwert besteht vielmehr in der Möglichkeit, das Verhalten im Regelkreis mit ausreichender Geschwindigkeit und elektrischer Detailgenauigkeit zu testen, sodass Entscheidungen zur Steuerung auf fundierten technischen Einschätzungen beruhen und nicht auf vagen Annahmen. Auf diese Weise verhindert man, dass die Schwankungen bei KI-Workloads ein eigentlich überschaubares Lastproblem zu einem Problem der Stromversorgungsstabilität werden lassen.

Echtzeitlösungen für alle Branchen

Entdecken Sie, wie OPAL-RT die weltweit fortschrittlichsten Branchen verändert.

Alle Branchen anzeigen