返回博客

何时为现有实时仿真器添加FPGA加速

仿真

2026年3月4日

何时为现有实时仿真器添加FPGA加速

核心要点

  • 仅当时序数据表明存在阻塞所需时间步长、端到端延迟或抖动限制的确定性瓶颈时,才添加FPGA加速。
  • 将FPGA工作定位于无法在CPU上可靠调度的最小高吞吐量片段,特别是紧凑的I/O服务和可重复的低延迟反馈路径。
  • 通过固定接口合同、用于验证的CPU参考以及验证数值匹配与稳定闭环时序的验收测试,有效控制成本与风险。

 

当您的实时仿真器无法在所需精度下满足确定性时限要求时,请添加FPGA加速。

当时间控制失效时,测试就不再检验控制质量,而是开始考验调度运气。这种缺口会表现为闭环行为不稳定、虚假故障,以及诸如降采样之类的权宜之计——这些手段恰恰掩盖了HIL本应揭示的问题。软件缺陷每年给美国经济造成约 595亿美元——这警示着:即便不计硬件损坏风险和实验室停工损失,延迟发现缺陷的代价已然高昂。

 

实用立场很简单:当FPGA工作能够消除阻碍所需时间步长、延迟或I/O确定性的特定、可量化的瓶颈时,其应用便是合理的。

 

若无法明确识别瓶颈并通过时序数据验证,则尚未达到升级条件。若能做到,FPGA通常是实现稳定、可重复HIL结果的最直接途径,且无需降低模型精度。

CPU 基于 HIL 模型未满足时限的迹象

基于CPU的硬件在环仿真(HIL)在以下情况会失效:仿真器错过固定时间步长、出现影响I/O的时序抖动,或被迫进行改变控制结果的模型简化。此时会出现超时现象、求解器间歇性延迟,以及I/O时间戳与预期采样时钟不再同步。这些症状表明确定性已然受损。

从测量开始,而非凭直觉。首要检查项是溢出计数器,以及模型最坏情况执行时间加上I/O服务时间。若最坏情况接近步长值,实验室将看似"正常运行",直到罕见的调度峰值打破循环平衡。此时工程师往往开始添加缓冲延迟、降低采样率或关闭部分设备,这些补救措施悄然改变了验证对象的本质。

还需警惕仅在闭环压力下显现的问题。未连接硬件时能正常运行的模型,一旦中断、设备驱动程序和高频率I/O加入环路,仍可能失效。当需要确定性响应时,关键不在于平均CPU负载,而在于控制器与实际系统交换数据的精确节点上,其最坏情况下的延迟和抖动表现。

在仿真中,最能受益于FPGA加速的工作负载

当瓶颈是CPU无法以目标速率确定性调度的并行、时间敏感型工作时,FPGA加速便能发挥价值。这包括紧凑的I/O服务、亚周期时间戳以及可并行流水线执行的数学运算。若任务在每个步骤中重复且必须准时完成,FPGA便是理想之选。

单线程CPU性能仅提升 2011至2018年间年均提升率仅为2.9%,因此等待"明年处理器"也无法拯救过载的固定步长模型。这对HIL至关重要,因为最严苛的场景不仅需要高强度计算,更要求每次计算都必须在硬性时限内完成,且每次延迟必须完全一致。

一个具体案例是电动汽车牵引逆变器的硬件在环测试台,该系统需要同时处理多个PWM信号,在几微秒内计算开关相关的被控对象行为,并快速返回电流和电压反馈以维持高带宽控制器的稳定性。 CPU虽能处理大部分被控对象逻辑,但PWM信号捕获、死区时间管理及超低延迟反馈路径常成为性能瓶颈。此时FPGA逻辑可接管该确定性片段,而CPU则继续处理较慢的动态响应与监督逻辑。

延迟、I/O和抖动目标,这些指标证明了采用FPGA的合理性

当延迟预算比CPU及其I/O栈所能保证的更严格时,即使平均性能看似良好,FPGA方案也具有合理性。最明显的触发条件是无法满足所需的固定时间步长余量,或抖动导致控制器感知到的有效采样时间发生变化。这会使可重复测试变成不可靠的测试。

设定目标时应基于正在验证的控制回路,而非泛泛追求"速度越快越好"。若控制器要求每50微秒获取反馈,端到端延迟的稳定性与步进幅度的大小同等重要。即使仅导致少量周期延迟的抖动,其危害可能大于稍慢但稳定的回路——因为它会向控制算法注入时序噪声,甚至触发保护机制。

 

跑步时你测量什么 通常指的是什么 首先该改变什么
最坏情况下的执行时间接近固定时间步长 在压力条件下,硬性截止日期将无法按时完成。 对模型进行剖析,然后卸载确定性热路径
超额发生时呈爆发式,而非持续性 调度和I/O服务抖动是主导行为 将时间敏感的I/O处理移入FPGA逻辑
I/O相对于仿真 表现出可变延迟 控制器检测到采样时间不一致 定义端到端延迟预算并在硬件中强制执行
为保持实时性,必须降低模型保真度。 验证范围正在被悄然缩小 将快速切换或高速数据块划分到FPGA上
即使计算负载看似较低,添加通道也会破坏时序 I/O带宽和中断负载是限制因素 在FPGA上使用并行I/O路径和确定性调度
每次运行相同输入时,结果各不相同 非决定论正渗入封闭回路 锁定时钟源,然后通过硬件执行降低抖动

 

如何在升级前评估工作量、成本和风险

 

“稳定可靠的HIL行为,每次运行都值得信赖。”

 

工作量和成本更多取决于能否清晰隔离必须确定性的部分,而非FPGA硬件本身。合理的估算应基于时序预算、明确的分区边界,以及能验证FPGA路径与CPU模型匹配的验证方案。当需求模糊或FPGA范围持续扩大时,风险便随之攀升。

在投入工程时间之前,先收集少量事实依据。这些输入能让你清楚区分需要修复的问题与单纯的调整操作。

 

  • 您要求的固定时间步长和最小稳定延迟预算
  • 在负载条件下测得的最坏情况执行时间和溢出频率
  • 您必须保持的I/O计数、更新速率和时间戳精度
  • 必须在每个周期内稳定运行的模型方程子集
  • 能够检测数值和时间不匹配的验证方法

 

预算不仅用于开发,还需涵盖验证与维护。FPGA数学运算常采用定点或受限精度,而最大的成本意外往往源于追逐仅在边界条件下显现的微小数值差异。通过控制范围、明确验收测试及制定回滚方案,可避免升级演变为无止境的重写工程。

从CPU求解器到FPGA内核的实用迁移路径

最可靠的升级路径是保持CPU模型不变,仅将时序关键部分迁移至FPGA内核。这种方案既能保护现有工厂和测试资产,又能在关键环节提供确定性I/O和低延迟计算。应将FPGA视为具有严格契约的协处理器,而非完整求解器的替代品。

从具有明确边界的分区开始:输入数据到达,执行有限计算集,输出返回,所有操作均在已知时间预算内完成。尽早冻结接口参数(包括缩放比例、单位和更新速率),随后构建位精确测试框架,通过代表性刺激信号将FPGA输出与CPU基准进行比对。当内核匹配后,收紧时序要求,并重新运行闭环测试以确认稳定性提升源于确定性增强,而非动态特性改变。

当工具链支持混合CPU和FPGA工作流并具备一致的时序测量功能时,执行过程将更为简便。采用OPAL-RT平台的团队通常将主模型保留在CPU上,并将特定的高速I/O和计算内核映射到FPGA资源上,从而使实验室在不降低装置保真度的前提下按时完成任务。

在现有仿真器中添加FPGA时的常见陷阱

最常见的失败模式是将FPGA加速视为速度提升而非确定性提升。在缺乏严格时序契约的情况下将模型大块迁移至FPGA,会产生新的集成工作、新的数值行为以及新的调试摩擦。成功的关键在于隔离已测量的瓶颈,并仅针对该瓶颈进行优化。

范围蔓延是潜伏的杀手。原本为解决I/O抖动而进行的小规模卸载,一旦团队开始盲目追求性能"冗余空间"却未确认控制器是否真正需要,便可能演变为全面重构。另一个常见陷阱是跳过端到端时序验证——这会导致内核运行虽快,但信号在CPU与FPGA域间传递时,循环延迟却变得不稳定。

优秀的工程判断在此看似乏味。设定截止期限,衡量偏差,卸载最小确定性片段以消除偏差,再通过可重复测试和文档化扩展方案将其固化。当团队咨询FPGA加速方案,OPAL-RT始终倡导这种严谨性——因为真正的价值不在于原始速度,而在于每次运行都能信赖的稳定HIL行为。

全行业实时仿真解决方案

探索 OPAL-RT 如何为全球前沿行业带来变革

全部行业应用