ZHCAFY6 November 2025 AM62A3 , AM62A7 , AM67A , TDA4VM
目前能够进行 AI 模型推理的 SoC 通常采用以下两种架构之一:集成通用 GPU 的架构和包含专用 AI 推理加速器(通常称为 NPU)的架构。TI TDA4x 和 AM6xA 产品系列中的 AI 加速型 SoC 采用后一种方法,其 NPU 通常称为 C7xMMA。该名称来源于 NPU 的两个组成部分:C7000 系列浮点数字信号处理器和矩阵乘法加速器 (MMA)。C7x 系列 DSP 内核会运行 RTOS,在模型内负责数据调度和非线性处理。MMA 与 C7x 深度耦合,负责线性代数运算(如矩阵乘法和 2D 卷积),这些运算占大多数神经网络计算要求的 99% 以上。
TI 提供了 TI 深度学习 (TIDL) 推理框架,TIDL 架提供了统一的接口,便于高级操作系统(例如 Linux、QNX)轻松调用。具体调用方法不在本文讨论范围内,我们默认读者已熟悉相关接口,我们将重点关注模型优化技术。用户可以利用 TIDL 工具为特定处理器编译模型。然后,TIDL 将量化编译模型部署到 NPU 上,允许用户使用 TIDL 运行时 (TIDL-RT)、tivxTIDLNode 或开源运行时框架 (OSRT)(如 ONNX Runtime、Tensorflow-Lite)来调用推理。
TIDL 内存读取/写入带宽是指 DDR 接口上的负载。例如,如果单个推理帧需要从 DDR 读取 100MB(包括模型权重、输入和中间层特征映射)并向 DDR 写入 50MB(包括模型输出和中间特征映射),则实现 30fps 帧率需要 4.5GB/s 的总 DDR 读取/写入带宽。由于单通道 DDR4 可能提供大约 8GB/s 的实际带宽,TIDL 模型推理会消耗大量带宽。
AM67A 和 TDA4VH 等器件包括多个 C7x 实例。尽管 TDA4VH 等处理器将包括多个 DDR 接口,但在并行加速器上运行的并行推理任务将进一步影响 DDR 的利用率和争用情况。查看系统级性能时,应考虑系统级 DDR 争用情况,但本文中的优化仍然有利于首先降低 DDR 利用率,以提高模型性能。
为了优化 DDR 带宽,需要对 C7xMMA 高速缓存结构有一定的了解,从而有效地利用 TIDL 工具,并可能需要对模型进行修改。