ZHCAFY6 November 2025 AM62A3 , AM62A7 , AM67A , TDA4VM
应用通常涉及将多个深度并行分支合并到一个分支中,或将一个分支拆分为多个深度并行路径。这对于多输入神经网络尤其常见。图中展示了经典四输入 BEV 网络在 gridsample 算子合并路径后的部分结构。
由于路径在合并之前比较深,因此必须将特征映射放置在 DDR 中的合并点,而这不可避免地需要 DDR 带宽消耗。此类架构应仅在需要时使用,以避免超出 DDR 带宽并由此产生瓶颈。但是,可以降低由权重引起的 DDR 读取带宽。可以修改模型架构以合并多个输入头,并将某些模型层的批次维度设置为大于 1 的值,这样权重只需加载一次。
图 4-3 合并多个并行分支的复杂结构例如,在上图中,相同的骨干架构在 GridSample 层之前,此骨干架构每一层的特征映射相对较小。四个分支可以合并为两个甚至一个分支,并相应调整批次大小。然后是相应的层或数据整形层,以再次分离批次,从而可以通过所示的添加层重新组合这些批次。这种方法可以减少甚至防止相同权重的重复加载,从而降低 DDR 读取带宽开销。这种方法需要注意合并的骨干架构中的特征映射的大小。