ZHCACW1 june 2023 AM69A , TDA4VH-Q1
使用 AI 盒向零售店、交通道路、工厂和楼宇中的现有非分析型摄像头增加智能功能,是一种具有成本效益的方法。相比于使用具备 AI 功能的智能 AI 摄像头替换传统摄像头,AI 盒性价比更高,更受欢迎。此类系统接收来自多个摄像头的实时视频流,对其进行解码并在边缘进行智能视频分析,从而减轻了将大型视频流传输回云进行分析的负担。视频分析输出在流式传输和保存到存储之前进行编码。AI 盒的典型应用包括:
图 3-1 显示了 AM69A 上的 AI 盒数据流,其中 12 个 2MP 位流通道以 30fps 的速率通过以太网传输。硬件加速的 H.264 或 H.265 解码器对位流进行解码,并通过 MSC 将解码的帧缩放到更小的分辨率。深度学习网络在这些较小的分辨率帧上以较低的帧速率(例如,12fps)运行。在深度学习预处理过程,将 YUV 格式的较小分辨率帧转换为 RGB 格式,作为深度学习网络的输入格式。MMA 加快了深度学习推理。在深度学习后处理过程中,网络输出叠加在输入帧上。然后,来自 12 个通道的输出帧拼接在一起,形成单个 2MP 帧和 13 个通道(即 12 个通道加 1 个复合通道),通过硬件加速的 H.264 或 H.265 编码器以较低的帧速率(例如,6fps)进行编码,然后流式传输或保存到存储。
表 3-1 汇总了 12 通道和 16 通道位流的资源利用率和估算功耗。但是,由于视频编解码器的最大吞吐量有限,所以 16 通道位流的输入帧速率和输出帧速率需要分别降至 24fps 和 4fps。此处假设每个通道需要 1TOPS 进行推理。仍然有两个 C7x 内核可用于额外的视觉处理和 JPEG 图像编码,以便创建快照。在本例中,虽然深度学习预处理和后处理都在 A72 内核上运行,但它们也可以在可用的 C7x 内核上运行,其中的功耗略有不同。
主 IP | 利用率 (12 × 2MP (30fps)) | 利用率 (16 × 2MP (24fps)) |
---|---|---|
解码器 | 12 × 2MP (30fps) = 720MP/s (75%) | 16 × 2MP (24fps) = 768MP/s (80%) |
编码器 | 12 × 2MP (6fps) + 1 个复合通道 × 2MP (6fps) = 156MP/s (17%) | 16 × 2MP (4fps) + 1 个复合通道 × 2MP (4fps) = 136MP/s (15%) |
编码器 + 解码器 | 720MP/s + 156MP/s = 876MP/s (92%) | 768MP/s + 136MP/s = 908MP/s (95%) |
GPU | 20% | 20% |
VPAC (MSC) | 12 × 2MP (30fps) = 720MP/s (60%) | 16 × 2MP (24fps) = 768MP/s (64%) |
MMA | 12 × 1TOPS/通道 = 12TOPS (38%) | 16 × 1TOPS/通道 = 16TOPS (50%) |
8 × A72 | 深度学习预处理和后处理、拆包、JPEG 编码等 (50%) | 深度学习预处理和后处理、拆包、JPEG 编码等 (40%) |
DDR 带宽 | 9.49GBps (14%) | 11.95GBps (18%) |
功耗 (85°C) | 18W | 18W |