ZHCACI1 march   2023 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1

 

  1.   摘要
  2.   商标
  3. 1更智能的边缘摄像头
  4. 2AM6xA 可扩展产品系列和 AM62A
  5. 3智能摄像头应用场景
    1. 3.1 安防摄像头示例
  6. 4AM62A 的深度学习
    1. 4.1 深度学习加速器
    2. 4.2 边缘 AI 软件
  7. 5VPAC 视觉加速器和 ISP
  8. 6低功耗性能
  9. 7行动口号
  10. 8参考文献

深度学习加速器

TI 的处理器采用先进的深度学习加速器设计。TI 在数字信号处理器 (DSP) 领域拥有悠久历史,这些处理器已与 TI 的其他 SoC 日益紧密地集成;但是,只有 DSP 并不足以支持大多数视觉深度学习模型。我们的深度学习加速器紧密耦合了 C7x DSP 和自定义矩阵乘法加速器 (MMA),可大幅提高神经网络 (NN) 的性能,尤其是视觉 AI 中常见的卷积神经网络 (CNN)。

AM62A 的深度学习加速器使用 256 位 C7x DSP,以及能够在单个时钟周期内对 8 位整数值执行 32x32 矩阵乘法的 MMA。当以高达 1GHz 的频率运行时,将提供 2TOPS 的最大计算能力,因为 32x32 矩阵运算是 1024 乘法累加运算(MAC,其中每个 MAC 均视为两次运算)。为了确保 MMA 始终有要计算的值,该架构包含多个流引擎,在每个时钟周期可将 256 位数据从单个输出矩阵移动到两个输入矩阵。MMA 的输出可能通过 C7x 发送,以计算层内的任何非线性函数,具体取决于构成神经网络架构的层。开发人员无需亲自对此进行编程;Arm 内核的 API 调用可降低加速器编程的复杂性,如边缘 AI 软件部分所述。

虽然 TOPS 是量化 TPU、VPU、NPU 和 GPU 等加速器的机器学习性能的通用指标,但一种加速器架构的性能可能优于另一种架构,尽管其理论计算能力较低。TI 的架构旨在使用单个大型计算单元 MMA 来优化功耗和性能,而不是并行使用许多较小的计算单元。如果使用许多小单元,由于相同数据在后续执行周期中的重复使用较少,因此需要更多地传输到存储器。更多的传输意味着更高的功率消耗。专门设计的数据流引擎可使加速器内的 256 位缓冲器始终保留必要的数据。经过良好优化的应用使用的模型,其每层的尺寸可完全填充 MMA。

GUID-20230118-SS0I-4DCJ-L3LF-SB57FKLRZ6V2-low.svg图 4-1 AI 加速器架构