ZHCACI1 白皮书 | 德州仪器 TI.com.cn

ZHCACI1 march 2023 AM62A1-Q1 , AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1

4.1 深度学习加速器

TI 的处理器采用先进的深度学习加速器设计。TI 在数字信号处理器 (DSP) 领域拥有悠久历史，这些处理器已与 TI 的其他 SoC 日益紧密地集成；但是，只有 DSP 并不足以支持大多数视觉深度学习模型。我们的深度学习加速器紧密耦合了 C7x DSP 和自定义矩阵乘法加速器 (MMA)，可大幅提高神经网络 (NN) 的性能，尤其是视觉 AI 中常见的卷积神经网络 (CNN)。

AM62A 的深度学习加速器使用 256 位 C7x DSP，以及能够在单个时钟周期内对 8 位整数值执行 32x32 矩阵乘法的 MMA。当以高达 1GHz 的频率运行时，将提供 2TOPS 的最大计算能力，因为 32x32 矩阵运算是 1024 乘法累加运算（MAC，其中每个 MAC 均视为两次运算）。为了确保 MMA 始终有要计算的值，该架构包含多个流引擎，在每个时钟周期可将 256 位数据从单个输出矩阵移动到两个输入矩阵。MMA 的输出可能通过 C7x 发送，以计算层内的任何非线性函数，具体取决于构成神经网络架构的层。开发人员无需亲自对此进行编程；Arm 内核的 API 调用可降低加速器编程的复杂性，如边缘 AI 软件部分所述。

虽然 TOPS 是量化 TPU、VPU、NPU 和 GPU 等加速器的机器学习性能的通用指标，但一种加速器架构的性能可能优于另一种架构，尽管其理论计算能力较低。TI 的架构旨在使用单个大型计算单元 MMA 来优化功耗和性能，而不是并行使用许多较小的计算单元。如果使用许多小单元，由于相同数据在后续执行周期中的重复使用较少，因此需要更多地传输到存储器。更多的传输意味着更高的功率消耗。专门设计的数据流引擎可使加速器内的 256 位缓冲器始终保留必要的数据。经过良好优化的应用使用的模型，其每层的尺寸可完全填充 MMA。

图 4-1 AI 加速器架构