ZHCAFY6 November 2025 AM62A3 , AM62A7 , AM67A , TDA4VM
DDR 带宽优化要从了解 TI C7xMMA 的内存层次结构开始,如下图简化版结构所示。
图 2-1 C7xMMA 三级高速缓存结构C7xMMA 采用三级高速缓存结构。除外部 DDR 之外,它还整合了内部 L1D、L2 和 L3/MSMC 高速缓存。L1D 最小,最接近计算内核(典型大小为 16KB)。L2 相对远一点(典型大小为 224KB、448KB),但与 MMA 的数据移动机制紧密耦合。TDA4x 上的 L3 是多核共享内存控制器 (MSMC),而在其他 SoC 上,它是由每个 C7xMMA 单独管理的 SRAM。注意:此处的 L1D、L2、L3 术语对应于 TIDL 框架中的说明;芯片数据表中可能称为 L1P、L1D、L2;在某些 SoC 中,也可能指 L3(即 TDA4VM 上的 MSMC)。L2 和 L3 区域的大小可在 tidl 工具包含的 device_config.cfg 文件中找到
下图显示了典型层的推理过程中(涉及四个操作)缓存的使用情况。操作 1 是 DMA 将数据直接从 DDR 传输到 L2。操作 2 将数据从 L3 移动到 L2。操作 3 将数据从 L2 传输到 L3。操作 4 将数据从 L3 移动到 DDR。操作 2 和 3 的效率比操作 1 和 4 高十倍以上。利用前一层的特征映射可能导致三种情况:只有操作 1(如果输入层和前一层输出完全位于 DDR 中);只有操作 2(如果前一个特征映射完全适合 L3/MSMC);或操作 1 和 2(如果前一个输出对于 L3 太大,部分存储在 DDR 中)。计算出当前层的特征映射后,操作 3 会优先将数据移动到 L3。如果超过 L3 容量,操作 4 会将多余的数据存储在 DDR 中。权重值始终存储在 DDR 中,并在需要时直接提取到 L2。
图 2-2 C7xMMA 高速缓存操作这种三级高速缓存架构避免了计算周期内缓慢的 DDR 读取/写入操作并节省了 DDR 带宽,从而显著提高了推理效率。提高效率和节省带宽的关键在于最大限度地提高 L3 利用率,从而防止在 DDR 中存储特征映射。下一节将介绍如何分析模型的内存使用情况。