ZHCAFY6 November   2025 AM62A3 , AM62A7 , AM67A , TDA4VM

 

  1.   1
  2.   摘要
  3.   商标
  4. 1简介
  5. 2C7xMMA 高速缓存结构
  6. 3为编译的 TIDL 模型进行 DDR 读取/写入分析建模
  7. 4模型优化
    1. 4.1 简单结构模型
    2. 4.2 复杂结构
      1. 4.2.1 残留结构
      2. 4.2.2 并行分支合并
  8. 5总结
  9. 6参考资料

并行分支合并

应用通常涉及将多个深度并行分支合并到一个分支中,或将一个分支拆分为多个深度并行路径。这对于多输入神经网络尤其常见。图中展示了经典四输入 BEV 网络在 gridsample 算子合并路径后的部分结构。

由于路径在合并之前比较深,因此必须将特征映射放置在 DDR 中的合并点,而这不可避免地需要 DDR 带宽消耗。此类架构应仅在需要时使用,以避免超出 DDR 带宽并由此产生瓶颈。但是,可以降低由权重引起的 DDR 读取带宽。可以修改模型架构以合并多个输入头,并将某些模型层的批次维度设置为大于 1 的值,这样权重只需加载一次。

 合并多个并行分支的复杂结构图 4-3 合并多个并行分支的复杂结构

例如,在上图中,相同的骨干架构在 GridSample 层之前,此骨干架构每一层的特征映射相对较小。四个分支可以合并为两个甚至一个分支,并相应调整批次大小。然后是相应的层或数据整形层,以再次分离批次,从而可以通过所示的添加层重新组合这些批次。这种方法可以减少甚至防止相同权重的重复加载,从而降低 DDR 读取带宽开销。这种方法需要注意合并的骨干架构中的特征映射的大小。