关于软错误率的常见问题解答

关于软错误率的常见问题解答

查找有关软错误率 (SER) 的基本问题(包括可能的原因、SER 的影响因素以及如何估算 SER)的答案。

什么是 SER?

SER 是指软错误率。软错误影响存储器和时序元件的数据状态,由陆地环境自然发生的随机辐射事件所引起。 不同于由缺陷机制或可靠性劣化机制引起的硬错误,软错误通常不会损坏电路本身(因此号称“软”错误),但会损坏所存储的数据或所涉电路的状态(在数字电路中,相当于将“一”数据状态错误地翻转为“零”数据状态,或者相反)。

一旦新数据被写入到存储位置,数据错误会被覆盖,因此系统将正常工作。软错误引起的故障率(即 SER)将以 FIT 或 FIT/兆位(侧重于存储器时)报告。就发生率而言,SER 将比所有其他机制总共的硬故障率高出许多倍。软错误也称为单粒子翻转 (SEU),这种称谓可更好地体现单个辐射粒子导致数据损坏的思想。

什么会导致 SER?

虽然 SER 有许多潜在原因,如短时脉冲波干扰、噪声、电磁干扰,但在一个合格制造过程中的设计良好的电路中,SER 的主要原因是粒子辐射。

在陆地环境中,主要键辐射问题来自于芯片材料本身的微量杂质发射的 α 粒子(α 粒子无法远距离游走,因此到达器件的任何 α 粒子通常都是芯片本身内的材料所发射的),此外还有无时不在的宇宙背景中子通量:我们在海平面的接触密度大约为 13n/hr-cm2,并在飞行高度的密度可高达 26,000n/hr-cm2。 

通过采用超低 α (ULA) 材料可最大限度降低 α 粒子 SERE,但极具穿透力的中子不容易被屏蔽,因此我们不得不接受一定水平的 SER。如需进一步减小 SER,只能通过减少由辐射粒子收集的电荷量(例如绝缘体硅片)或更常见的是通过使用冗余电路(例如存储器中的纠错)来实现。

什么因素影响 SER?

产品技术在某种程度上影响 SER,但更重要的因素是 SRAM 的大小和器件中的时序逻辑。通常具有未受保护大容量存储器的器件具有最高的 SER。

采用更低电压来实现低功耗的技术往往具有更高的 SER,这是由于数据状态由电压定义,因此更低的电压意味着更低的信号电荷,进而该器件对由辐射造成的电荷瞬变将变得更加敏感。使用存储器纠错可大幅降低 SER。使用 ULA 材料可减小 SER 中的 α 粒子因素。

我们对于屏蔽造成其余 SER 的中子几乎无能为力,而事实上在航空电子应用中,中子通量的密度比地面应用高出数百到数千倍,因此 SER 也会高得多。

是否有某种可接受的 SER 水平?

没有。SER 没有标准或“可接受的水平”可言。这是因为“可接受的”SER 取决于应用、有多大的存储器、存储器是否受到保护、器件在何处运行(例如,地面高度、飞行高度等)

由于许多此类因素都会影响到可接受的位故障水平,因此我们无法对给定的通用部件(如 DSP、MSP 等)使用单一的 SER 度量标准。可接受的故障级别应由客户根据产品应用、软件和各种应用详情加以确定。

回答该具体问题的第一步是,我们对于软故障率的上限应该有一定的概念,从而判断是否需要采取进一步的措施。

SER 是如何确定的?

TI 是推动采用业界 JEDEC JESD89A“测量和报告 α 粒子与地面宇宙射线在半导体器件中引起的软错误”测试标准作为 α 粒子和中子辐射测试的基础的企业之一。

我们一般不测试产品,而是设计测试芯片,在这些芯片中采用生产 SRAM 阵列和时序逻辑阵列来实现 SER 的精确建模。所有这些相结合形成一种在线 SER 估算计算器,可用于在采用 CMOS 技术(350nm 至 20nm)制成的任何 TI 产品中衡量 SER 的上限。该计算器要求外部客户签订保密协议。