ZHCAFY6 应用手册 | 德州仪器 TI.com.cn

ZHCAFY6 November 2025 AM62A3 , AM62A7 , AM67A , TDA4VM

4.2.2 并行分支合并

应用通常涉及将多个深度并行分支合并到一个分支中，或将一个分支拆分为多个深度并行路径。这对于多输入神经网络尤其常见。图中展示了经典四输入 BEV 网络在 gridsample 算子合并路径后的部分结构。

由于路径在合并之前比较深，因此必须将特征映射放置在 DDR 中的合并点，而这不可避免地需要 DDR 带宽消耗。此类架构应仅在需要时使用，以避免超出 DDR 带宽并由此产生瓶颈。但是，可以降低由权重引起的 DDR 读取带宽。可以修改模型架构以合并多个输入头，并将某些模型层的批次维度设置为大于 1 的值，这样权重只需加载一次。

图 4-3 合并多个并行分支的复杂结构

例如，在上图中，相同的骨干架构在 GridSample 层之前，此骨干架构每一层的特征映射相对较小。四个分支可以合并为两个甚至一个分支，并相应调整批次大小。然后是相应的层或数据整形层，以再次分离批次，从而可以通过所示的添加层重新组合这些批次。这种方法可以减少甚至防止相同权重的重复加载，从而降低 DDR 读取带宽开销。这种方法需要注意合并的骨干架构中的特征映射的大小。