ZHCACW1 june   2023 AM69A , TDA4VH-Q1

 

  1.   1
  2.   摘要
  3.   商标
  4. 1引言
  5. 2AM69 处理器
  6. 3运行在 AM69A 上的边缘 AI 用例
    1. 3.1 AI 盒
    2. 3.2 机器视觉
    3. 3.3 多摄像头 AI
    4. 3.4 其他用例
  7. 4软件工具和支持
  8. 5结论
  9. 6参考文献

AI 盒

使用 AI 盒向零售店、交通道路、工厂和楼宇中的现有非分析型摄像头增加智能功能,是一种具有成本效益的方法。相比于使用具备 AI 功能的智能 AI 摄像头替换传统摄像头,AI 盒性价比更高,更受欢迎。此类系统接收来自多个摄像头的实时视频流,对其进行解码并在边缘进行智能视频分析,从而减轻了将大型视频流传输回云进行分析的负担。视频分析输出在流式传输和保存到存储之前进行编码。AI 盒的典型应用包括:

  • 安全监控系统,用于检测远程摄像头监控区域中的事件和异常活动。
  • 智能交通管理系统,AI 盒在其中运行深度学习网络来实现车辆计数、车辆类型分类和移动方向预测,以用于交通流量测量。
  • 工作场所安全系统,该系统监控工作场所,以确保符合所有强制执行的安全标准,例如,员工要穿戴个人防护装备 (PPE)。
GUID-20230517-SS0I-LMMX-BRSN-2D5WPPKSD8LR-low.svg图 3-1 AM69A 上的 AI 盒数据流方框图

图 3-1 显示了 AM69A 上的 AI 盒数据流,其中 12 个 2MP 位流通道以 30fps 的速率通过以太网传输。硬件加速的 H.264 或 H.265 解码器对位流进行解码,并通过 MSC 将解码的帧缩放到更小的分辨率。深度学习网络在这些较小的分辨率帧上以较低的帧速率(例如,12fps)运行。在深度学习预处理过程,将 YUV 格式的较小分辨率帧转换为 RGB 格式,作为深度学习网络的输入格式。MMA 加快了深度学习推理。在深度学习后处理过程中,网络输出叠加在输入帧上。然后,来自 12 个通道的输出帧拼接在一起,形成单个 2MP 帧和 13 个通道(即 12 个通道加 1 个复合通道),通过硬件加速的 H.264 或 H.265 编码器以较低的帧速率(例如,6fps)进行编码,然后流式传输或保存到存储。

表 3-1 汇总了 12 通道和 16 通道位流的资源利用率和估算功耗。但是,由于视频编解码器的最大吞吐量有限,所以 16 通道位流的输入帧速率和输出帧速率需要分别降至 24fps 和 4fps。此处假设每个通道需要 1TOPS 进行推理。仍然有两个 C7x 内核可用于额外的视觉处理和 JPEG 图像编码,以便创建快照。在本例中,虽然深度学习预处理和后处理都在 A72 内核上运行,但它们也可以在可用的 C7x 内核上运行,其中的功耗略有不同。

表 3-1 AI 盒用例的 AM69A 资源利用率和功耗估算
主 IP利用率 (12 × 2MP (30fps))利用率 (16 × 2MP (24fps))
解码器12 × 2MP (30fps) = 720MP/s (75%)16 × 2MP (24fps) = 768MP/s (80%)
编码器12 × 2MP (6fps) + 1 个复合通道 × 2MP (6fps) = 156MP/s (17%)16 × 2MP (4fps) + 1 个复合通道 × 2MP (4fps) = 136MP/s (15%)
编码器 + 解码器720MP/s + 156MP/s = 876MP/s (92%)768MP/s + 136MP/s = 908MP/s (95%)
GPU20%20%
VPAC (MSC)12 × 2MP (30fps) = 720MP/s (60%)16 × 2MP (24fps) = 768MP/s (64%)
MMA12 × 1TOPS/通道 = 12TOPS (38%)16 × 1TOPS/通道 = 16TOPS (50%)
8 × A72深度学习预处理和后处理、拆包、JPEG 编码等 (50%)深度学习预处理和后处理、拆包、JPEG 编码等 (40%)
DDR 带宽9.49GBps (14%)11.95GBps (18%)
功耗 (85°C)18W18W