ZHCAAX5 April 2021 TDA4VM , TDA4VM-Q1

6 算法流程：TDA4VM 上基于 SFM 的 OG 映射

TDA4VM SoC 是围绕 ADAS 和机器人必需执行的 SFM 和其他常见计算机视觉任务而设计的，毫无疑问，它非常适用于 SFM 算法。图 6-1 显示了 TDA4VM 器件，图 6-2 显示了图 5-1 中映射到 TDA4VM 的算法流程。此处提到的视觉预处理加速器 (VPAC) 包含一些模块，可加速不同的图像预处理子任务，如色调映射、噪声滤波、镜头失真校正等。深度和运动处理加速器 (DMPAC) 包含两个模块，分别是加速立体深度估算的立体视差引擎 (SDE) 和加速 DOF 的密集光流引擎（DOF 引擎）。更多有关 TDA4VM 器件的信息，请参阅 https://www.ti.com.cn/product/cn/TDA4VM。

图 6-1 TDA4VM 方框图

图 6-2 TDA4VM 上基于 SFM 的占位栅格映射算法流程

表 6-1 显示了 SFM OG 映射算法地图的子任务在列表中对应的 TDA4VM SoC 中的不同处理器。

表 6-1 SFM OG 映射算法，子任务到 TDA4VM 的映射

步骤	TI 处理器器件 IP
原始图像捕获	图像传感器
图像发送到处理器	CSI-2 端口
图像处理成 Luma 图像	视觉预处理加速器 (VPAC)
图像锥体形成	视觉预处理加速器 (VPAC)
密集光流计算	深度和运动处理加速器 (DMPAC)
极线修剪	C7x DSP
基础矩阵计算	C7x DSP
三角测量	C7x DSP
索引 OG 地图更新	C7x DSP

如果不通过专用 HWA 加速，其中某些步骤的计算量会大得惊人。例如，算法中的 DOF 部分。对于 2MP 摄像头输入，C7x DSP 消耗量为每秒 2000 兆周 (MCPS) 以生成 2000 个关键点。而 DOF HWA 仅消耗 394 个 MCPS。表 6-2 汇总了结果。

表 6-2 2MP 摄像头输入 C7x DSP 与 DOF HWA 的 DOF 计算比较

TI 处理器器件 IP	每秒兆周 (MCPS)
DMPAC 上的 DOF HWA	394
C7x DSP	2000

此外，此算法中的所有子任务都可以使用 DSP 和 HWA 来执行，因此 TDA4VM 器件中的通用 ARM 内核和深度学习加速器可以预留给其他应用。

接下来介绍 SFM OG 映射的两个实施示例。这两个应用都包含在 TDA4x 器件附带的 SDK 中。第一个适用于道路上行驶的车辆，因此使用由安装在车辆前方的摄像头提供的输入数据。第二个适用于自动泊车，因此使用由安装在车辆侧面的摄像头提供的输入数据。