ZHCAFY6 November 2025 AM62A3 , AM62A7 , AM67A , TDA4VM

2 C7xMMA 高速缓存结构

DDR 带宽优化要从了解 TI C7xMMA 的内存层次结构开始，如下图简化版结构所示。

图 2-1 C7xMMA 三级高速缓存结构

C7xMMA 采用三级高速缓存结构。除外部 DDR 之外，它还整合了内部 L1D、L2 和 L3/MSMC 高速缓存。L1D 最小，最接近计算内核（典型大小为 16KB）。L2 相对远一点（典型大小为 224KB、448KB），但与 MMA 的数据移动机制紧密耦合。TDA4x 上的 L3 是多核共享内存控制器 (MSMC)，而在其他 SoC 上，它是由每个 C7xMMA 单独管理的 SRAM。注意：此处的 L1D、L2、L3 术语对应于 TIDL 框架中的说明；芯片数据表中可能称为 L1P、L1D、L2；在某些 SoC 中，也可能指 L3（即 TDA4VM 上的 MSMC）。L2 和 L3 区域的大小可在 tidl 工具包含的 device_config.cfg 文件中找到

下图显示了典型层的推理过程中（涉及四个操作）缓存的使用情况。操作 1 是 DMA 将数据直接从 DDR 传输到 L2。操作 2 将数据从 L3 移动到 L2。操作 3 将数据从 L2 传输到 L3。操作 4 将数据从 L3 移动到 DDR。操作 2 和 3 的效率比操作 1 和 4 高十倍以上。利用前一层的特征映射可能导致三种情况：只有操作 1（如果输入层和前一层输出完全位于 DDR 中）；只有操作 2（如果前一个特征映射完全适合 L3/MSMC）；或操作 1 和 2（如果前一个输出对于 L3 太大，部分存储在 DDR 中）。计算出当前层的特征映射后，操作 3 会优先将数据移动到 L3。如果超过 L3 容量，操作 4 会将多余的数据存储在 DDR 中。权重值始终存储在 DDR 中，并在需要时直接提取到 L2。

图 2-2 C7xMMA 高速缓存操作

这种三级高速缓存架构避免了计算周期内缓慢的 DDR 读取/写入操作并节省了 DDR 带宽，从而显著提高了推理效率。提高效率和节省带宽的关键在于最大限度地提高 L3 利用率，从而防止在 DDR 中存储特征映射。下一节将介绍如何分析模型的内存使用情况。