ZHCACW1 白皮书 | 德州仪器 TI.com.cn

ZHCACW1 june 2023 AM69A , TDA4VH-Q1

3.1 AI 盒

使用 AI 盒向零售店、交通道路、工厂和楼宇中的现有非分析型摄像头增加智能功能，是一种具有成本效益的方法。相比于使用具备 AI 功能的智能 AI 摄像头替换传统摄像头，AI 盒性价比更高，更受欢迎。此类系统接收来自多个摄像头的实时视频流，对其进行解码并在边缘进行智能视频分析，从而减轻了将大型视频流传输回云进行分析的负担。视频分析输出在流式传输和保存到存储之前进行编码。AI 盒的典型应用包括：

安全监控系统，用于检测远程摄像头监控区域中的事件和异常活动。
智能交通管理系统，AI 盒在其中运行深度学习网络来实现车辆计数、车辆类型分类和移动方向预测，以用于交通流量测量。
工作场所安全系统，该系统监控工作场所，以确保符合所有强制执行的安全标准，例如，员工要穿戴个人防护装备 (PPE)。

图 3-1 AM69A 上的 AI 盒数据流方框图

图 3-1 显示了 AM69A 上的 AI 盒数据流，其中 12 个 2MP 位流通道以 30fps 的速率通过以太网传输。硬件加速的 H.264 或 H.265 解码器对位流进行解码，并通过 MSC 将解码的帧缩放到更小的分辨率。深度学习网络在这些较小的分辨率帧上以较低的帧速率（例如，12fps）运行。在深度学习预处理过程，将 YUV 格式的较小分辨率帧转换为 RGB 格式，作为深度学习网络的输入格式。MMA 加快了深度学习推理。在深度学习后处理过程中，网络输出叠加在输入帧上。然后，来自 12 个通道的输出帧拼接在一起，形成单个 2MP 帧和 13 个通道（即 12 个通道加 1 个复合通道），通过硬件加速的 H.264 或 H.265 编码器以较低的帧速率（例如，6fps）进行编码，然后流式传输或保存到存储。

表 3-1 汇总了 12 通道和 16 通道位流的资源利用率和估算功耗。但是，由于视频编解码器的最大吞吐量有限，所以 16 通道位流的输入帧速率和输出帧速率需要分别降至 24fps 和 4fps。此处假设每个通道需要 1TOPS 进行推理。仍然有两个 C7x 内核可用于额外的视觉处理和 JPEG 图像编码，以便创建快照。在本例中，虽然深度学习预处理和后处理都在 A72 内核上运行，但它们也可以在可用的 C7x 内核上运行，其中的功耗略有不同。

表 3-1 AI 盒用例的 AM69A 资源利用率和功耗估算

主 IP	利用率 (12 × 2MP (30fps))	利用率 (16 × 2MP (24fps))
解码器	12 × 2MP (30fps) = 720MP/s (75%)	16 × 2MP (24fps) = 768MP/s (80%)
编码器	12 × 2MP (6fps) + 1 个复合通道 × 2MP (6fps) = 156MP/s (17%)	16 × 2MP (4fps) + 1 个复合通道 × 2MP (4fps) = 136MP/s (15%)
编码器 + 解码器	720MP/s + 156MP/s = 876MP/s (92%)	768MP/s + 136MP/s = 908MP/s (95%)
GPU	20%	20%
VPAC (MSC)	12 × 2MP (30fps) = 720MP/s (60%)	16 × 2MP (24fps) = 768MP/s (64%)
MMA	12 × 1TOPS/通道 = 12TOPS (38%)	16 × 1TOPS/通道 = 16TOPS (50%)
8 × A72	深度学习预处理和后处理、拆包、JPEG 编码等 (50%)	深度学习预处理和后处理、拆包、JPEG 编码等 (40%)
DDR 带宽	9.49GBps (14%)	11.95GBps (18%)
功耗 (85°C)	18W	18W