ZHCAFH5 July 2025 TMS570LC4357-SEP
尽管我们一直在努力尽可能降低随机硬件故障的可能性或避免出现系统故障,但仍有发生漏检故障的可能性。快速检测此类故障并控制其影响非常重要。元件越复杂,集成此类故障的检测和控制功能就越重要。
强大的自监控功能允许在目标失效率方面做出很小的妥协,但只能在非常有限的范围内。如果随机失效过于频繁,系统需要同时处理多个故障,否则可能最终导致永久重新启动,从而导致可用性问题。通常,系统一次只能处理一个故障。发生故障的概率必须保持在非常低的水平,才能满足整体可靠性目标。
自监控和故障管理功能在各个行业之间仅实现部分重叠。
例如,汽车和航天领域确实都存在来自宇宙辐射的单比特和多比特干扰。但是,如果检测到此类故障,汽车系统通常会通过命令立即停止运行,然后立即检查(这可能包括调用牵引车)来寻求保持安全状态。卫星系统必须超越此类安全状态,必须在没有任何实际操作交互的情况下,在轨道上自主寻求系统的完全恢复。
快速可靠的故障检测是各个行业面临的一个常见挑战。图 5-1 显示了风险缓解的链接。
图 5-1 缓解风险以实现“避免不可接受的风险”的三个链路