
核心要点
- AI数据中心的稳定性取决于负载变化的速度,而不仅仅取决于峰值容量。
- 训练、微调和推理需要各自独立的电学表示,因为它们的功率特征各不相同。
- 正是这种实时且考虑转换器的验证机制,将工作负载的波动性转化为一个可控的工程问题。
人工智能工作负载将使数据中心的电力稳定性问题从容量问题转变为控制问题。主要问题不再仅仅是站点需要多少电力,而是随着集群加速器在计算、通信、检查点和空闲状态之间切换,电力流动的速度有多快。这一点至关重要,因为2024年数据中心已消耗约415太瓦时(TWh)的电力,约占 全球用电量的1.5%,而人工智能正是推动下一轮增长的最大驱动力。
您需要能够将人工智能设施视为具有大量变流器接口、冷却反馈以及工作负载调度效应的高速电气负载的模型和测试方法。只有通过严谨地建模这些行为,并在项目投入运行前对其进行短时扰动测试,才能确保系统稳定运行。 先进的换流器仿真 能够换流器 纳秒级精度模拟固态变压器和高密度电压源换流器 等复杂拓扑结构,并支持换流器 单个FPGA换流器 集成数十个换流器 。
人工智能工作负载会导致数据中心电力出现快速且难以预测的波动

AI 工作负载会产生短时标功率波动,因为计算堆栈在整个任务过程中无法均匀地消耗电力。训练集群在矩阵运算、通信屏障、内存活动和检查点写入之间切换,因此电力负载呈突发式波动,而非保持平稳。
一个用于训练大型语言模型的 GPU 集群便是一个鲜明的例子。在高强度计算期间,服务器的功耗和散热需求会同步上升。一旦任务进入同步或数据传输阶段,用电量可能会短暂下降,随后在下一批任务开始时再次激增。这些过渡阶段比日均负荷更为关键,因为开关设备、UPS 控制系统、厂区控制器以及面向电网的研究都必须能够应对这些负荷波动,而不仅仅是稳态运行。
应将波动性视为设施特性,而非软件细节。调度策略、批次规模、检查点间隔以及冷却响应都会影响在公共耦合点观察到的电力特征。一个站点在一分钟趋势图上可能表现良好,但仍会在内部母线和上游设备上产生有害的亚秒级应力。
为什么传统负载模型无法准确反映人工智能数据中心的行为
传统负荷模型无法准确反映人工智能数据中心的运行行为,因为这些模型是为速度较慢、波动较小的用电模式设计的。恒功率块、静态ZIP负荷或粗略的时间步长需求曲线,掩盖了那些在扰动期间实际支配人工智能站点运行行为的转换器控制、机架级同步以及冷却交互作用。
在传统的企业级服务器机房中,规划人员通常可以仅基于平均负载进行假设。但对于配备大量加速器的AI机房而言,情况则不然。如今的供电路径包括整流器、直流母线、电压调节、高速风扇或液体冷却辅助设备,以及能够同时调度数千台设备的工作负载编排。当模型将这些操作简化为一个平滑的兆瓦数值时,电压波动、谐波效应和恢复行为便从研究中消失了。
此外,您还将失去对故障情况的可见性。简化的模型无法展示控制器如何应对短暂的电压骤降、制冷能力如何滞后于服务器散热,以及多个电力电子级之间如何相互作用。这种盲点会导致一些研究在纸面上看似完美,但当现场遇到馈线事件、切换序列或工作负载突然变化时,却会失败。
定义人工智能数据中心负载动态的关键电气特性
AI 数据中心的负载动态特征主要体现在:电力电子接口、高机架密度、短响应时间,以及通过独立控制回路追踪 IT 热负荷的冷却系统。这些特征使得该场所的行为更像是一个紧密耦合的电热系统,而非被动的商业负载。
最直观的指标是机架功率密度。传统机架的功率密度通常在 7 至 10 千瓦,而AI机架通常可达30至100多千瓦,这不仅增加了机房内的电力负荷,也加剧了热耦合效应。
这种转变对您的模型产生了实际影响。更高密度会压缩总线电压偏差、冷却滞后以及断路器协调的容错空间。这也意味着本地控制指令在场内传播的速度更快。IT 负载接入与机械或液体冷却支持之间哪怕是微小的时序偏差,都可能导致设施总需求出现短暂但重大的不匹配。正是这些相互作用,使得 AI 负载研究比传统的规划方法需要更详细的数据。
AI 训练和推理工作负载如何形成不同的功耗模式
训练和推理会产生不同的功耗模式,因此不应将它们视为单一的混合 AI 负载进行分析。训练通常保持较高的基线功耗,并伴随与计算和通信阶段相关的周期性波动,而推理则往往表现出与用户或应用 相关的短时功耗峰值。
运行多日模型任务的训练集群可能在数小时内保持较高利用率,随后在同步和存储操作期间出现利用率激增。而为企业级辅助系统或搜索增强功能提供服务的推理集群,平均来看通常较为平稳,但在请求量集中涌向多块 GPU 时,其利用率会出现剧烈的阶跃变化。微调任务则介于这两种模式之间,运行时间较短,且会出现更多间歇性的突发峰值。
“AI 工作负载会引发短时功率波动,因为计算堆栈在整个任务过程中无法均匀地消耗电力。”
| 工作负载模式 | 功耗曲线通常是什么样子的 |
| 预训练 | 功耗在较长时间内保持较高水平,并在计算阶段切换至通信或检查点任务时出现波动。 |
| 微调 | 平均电流较低,但反复测试和参数更新会在运行过程中产生不均匀的电流峰值。 |
| 推论 | 负载随请求流量变化,因此用户活动的聚集会导致负载出现快速突变,而非长期平稳的平稳状态。 |
| 冷却响应 | 热管理系统对IT设备产生的热量存在滞后,这意味着即使服务器功耗降低后,整个设施的总需求仍可能保持在较高水平。 |
| 网面效果 | 该公用事业与互连模型不仅关注服务器轨迹,还关注电力与制冷的综合响应。 |
一旦将这些模式分开,您将获得更优的设计方案。届时,输电逻辑、UPS容量选型、馈线研究以及现场储能调度,均可根据各展厅的实际运行模式进行核对,而非参照一个与任何展厅都不符的平均运行曲线。
大规模同步AI工作负载变化引发的供电稳定性风险

大规模的同步AI工作负载变化会引发电压、频率和电能质量风险,因为许多设备几乎在同一时间发生变化。问题在于大规模协调。即使某个站点内的单个机架运行状况良好,当协调机制将数千个加速器和制冷设备进行统筹调度时,系统级响应仍可能出现波动。
一个在多个机房启动新培训阶段的工作负载调度器,很好地说明了这个问题。服务器功率首先激增,随后是制冷和辅助系统,而这种总负荷的上升会作为一个整体事件冲击内部配电 上游电网。这可能会对变压器分接头的工作状态造成压力,干扰厂级控制回路,并在附近发生电压骤降时暴露持续供电设置中的薄弱环节。
此外,还应关注集中风险。人工智能数据中心往往集中在同一区域市场,因此当地网络的薄弱环节可能会放大那些在孤立设施研究中看似可控的问题。要确保供电稳定,需将设施控制措施、调度限制及互联假设与同一扰动包络线相匹配。
在电力系统研究中对人工智能驱动的负荷波动进行建模
要准确建模 AI 负载的波动性,就必须将工作负载状态与电气状态建立关联。一项有价值的研究应将计算阶段、转换器控制、冷却响应以及站点电力架构整合到一条链中,从而使工作负载的变化转化为具有可测量后果的电气事件。
一个实用的模型应从多种运行状态入手,而非仅基于一个平均需求块。您可以将空闲、推理突发、微调突发、持续训练和市场活动 映射市场活动 不同的功耗特征,然后将这些特征与设施拓扑结构关联起来。这种方法使您能够测试当一个机房从中等负载状态切换到全负荷训练时,而另一部分机房仍保持在推理服务状态下,系统会发生什么变化。
此处的执行细节至关重要。 现代变流器仿真 支持半桥、全桥、双有源桥及多有源桥拓扑结构,同时换流器 单个换流器 运行大量换流器 ,以进行快速的电磁瞬态研究。此类配置能够支持针对数据中心供电路径的EMT级研究,而非将研究局限于缓慢的平均行为分析。
为什么人工智能数据中心的负载测试仿真 实时仿真
“当研究问题涉及控制时序、变流器交互或亚周期扰动响应时,仿真 。”
离线平均值可以估算能耗,但无法显示保护方案、机组控制器或硬件接口在快速AI负荷转换期间的响应情况。
以从公用电源切换至现场备用电源为例,即可说明这一点。该过程包含切换操作、变流器响应以及控制延迟,必须按时间顺序逐一检查。当AI Hall设备处于高负载运行状态时,馈线发生电压骤降的情况也是如此。您需要观察现场系统能否平稳度过该过程、恢复速度如何,以及在压力下哪些控制系统会出现交互故障。
这就是硬件关联测试发挥作用的地方。 OPAL-RT 平台 能够以小至 40 纳秒的时间步长运行包含大量转换器的电气模型,同时通过高速通信链路支持灵活的输入/输出扩展。这使得它们能够以当前 AI 数据中心供电路径所要求的精度,对快速负载行为进行验证。
用于验证人工智能工作负载下电源稳定性的工程实践
通过受控扰动测试、运行状态覆盖以及严格的模型校准,验证了在人工智能工作负载下的功率稳定性。在将该模型用于并网或保护决策之前,您需要确信该模型能够再现实际设施的运行行为。
一份完善的验证计划应包含以下5项检查:
- 将机架和机房的实测功率曲线与相同工作负载状态下的模拟曲线进行了对比。
- 在多个负载水平下,市场活动 电压下陷、电源切换和负载阶跃等市场活动 测试。
- 已将制冷和辅助负荷纳入计算,以确保设施负荷与场地总响应相匹配。
- 会检查调度器引起的巧合现象,以确保多个霍尔效应不会掩盖有害的聚合斜坡。
- 保护和生产控制设置是针对快速市场活动 平均需求进行调整的。
这一过程至关重要,因为稳定的性能必须通过可重复的执行才能实现。如果模型虽然能匹配稳态兆瓦数,却未能准确把握时序,最终仍会导致参数设置不合理和设备假设失准。能够获得可靠结果的团队,正是那些将测量、EMT建模和硬件关联测试纳入同一闭环流程的团队。OPAL-RT自然契合这一收尾环节,因为该平台是以实时验证为核心构建的,而不仅仅局限于离线建模。
EXata CPS 专为实时性能而设计,可通过任何规模的通信网络层和连接任何数量的设备进行 HIL 和 PHIL 仿真,从而对电力系统的网络攻击进行研究。这是一个离散事件仿真 工具包,考虑了所有会影响网络(有线或无线)行为的固有物理属性。


