ZHCAFY6 November   2025 AM62A3 , AM62A7 , AM67A , TDA4VM

 

  1.   1
  2.   摘要
  3.   商标
  4. 1简介
  5. 2C7xMMA 高速缓存结构
  6. 3为编译的 TIDL 模型进行 DDR 读取/写入分析建模
  7. 4模型优化
    1. 4.1 简单结构模型
    2. 4.2 复杂结构
      1. 4.2.1 残留结构
      2. 4.2.2 并行分支合并
  8. 5总结
  9. 6参考资料

残留结构

许多骨干架构使用如图所示的残留结构,创建称为“残差”的本地化并行路径,在训练过程中非常有用。残差可避免梯度消失问题。

在编译期间,TIDL 会针对不同的计算顺序(左分支优先、右分支优先、交错)模拟 DDR 带宽,并选择其中最高效的。它还会决定第一个 Conv 层的输出是保持在 L3/MSMC 中直到出现添加操作,还是立即写入 DDR。存储在 DDR 中会导致直接带宽成本,而保留在 L3 中可能会在左分支计算期间占用内存,从而可能强制左分支的部分使用 DDR。

TIDL 将选择一种能够更大限度地增加 L3 占用的策略,但大型中间特征映射可能需要使用 DDR。在这种情况下,建议优先优化较长路径(图中的左侧)的大小,以避免多个特征映射进入 DDR,而跳跃连接仅涉及单个特征映射。

 神经网络中的残留结构。右侧路径的“跳跃”连接具必须存储特征映射,直到左侧路径完成图 4-2 神经网络中的残留结构。右侧路径的“跳跃”连接具必须存储特征映射,直到左侧路径完成