ZHCACW1 june   2023 AM69A , TDA4VH-Q1

 

  1.   1
  2.   摘要
  3.   商标
  4. 1引言
  5. 2AM69 处理器
  6. 3运行在 AM69A 上的边缘 AI 用例
    1. 3.1 AI 盒
    2. 3.2 机器视觉
    3. 3.3 多摄像头 AI
    4. 3.4 其他用例
  7. 4软件工具和支持
  8. 5结论
  9. 6参考文献

AM69 处理器

AM69A 处理器是 AM6xA 可扩展嵌入式处理器系列中的高性能器件。除了八核 Arm® Cortex® A72 微处理器之外,AM69A 还具备更高水平的处理能力、图像和视频处理以及图形功能。AM62A(1) 和 AM68A(2) 分别适用于 1 – 2 个摄像头和 4 – 8 个摄像头的应用,与之相比,AM69A 能够实时处理 12 个摄像头,并提高了 AI 性能。如图 2-1 所示,AM69A 处理器基于异构架构,包含多个子系统,具体如下:

  • 一个主频为 2GHz 的八核 Arm Cortex-A72 微处理器,提供高达每秒 100K Dhrystone DMIPS 的性能。
  • 视觉处理加速器 V3 (VPAC3) 在视觉成像子系统 (VISS) 中执行图像处理,以便通过去马赛克、缺陷像素校正、自动曝光、自动白平衡、色差校正 (CAC) 等功能来支持原始图像传感器。此外,VPAC3 包括镜头失真校正 (LDC)、多标量 (MSC) 和双边噪声滤波 (BNF) 硬件加速器 (HWA) 功能,可加速校正失真的图像,将图像调低为多个分辨率以及进行噪声滤除。AM69A 有两个 VPAC3 实例,假设系统开销为 20%,这些实例每秒可以处理 1,200 MP (MP/s) 的图像。
  • 数字信号处理 (DSP) 和矩阵乘法加速器 (MMA) 集成在一起,用于深度学习加速和传统的计算机视觉任务。AM69A 处理器有四个以 1GHz 频率运行的 512 位 C7x DSP。每个 DSP 与四个 MMA 之一紧密耦合,每个周期可以进行 4K (64 × 64) 8 位固定乘法累加。当以 1GHz 频率运行时,四个 MMA 可提供 32 万亿次运算/秒 (TOPS) 的最大计算速度。
  • H.264、H.265 编解码器可以同时对多个通道进行编码和解码。H.264、H.265 编解码器支持 5.2 级 H.264 基线/主/高配置文件,以及 5.1 级 H.265 主配置文件。有两个视频编解码器实例,所以 H.264、H.265 编码器和解码器处理速度为 960MP/s,例如,16 个速度为 30 帧/秒 (fps) 的 2MP 通道。
  • AM69A 配备了 3 个 4 通道移动行业处理器接口 (MIPI) CIS-2 RX 端口。可以将三个高分辨率(例如,12MP)摄像头直接连接到 CSI-2 RX 端口,并由两个 VPAC3 实例进行捕获和预处理。可通过 MIPI CSI-2 4:1 聚合器捕获十二个 2MP 摄像头。
  • BXS-4-64 GPU 每秒可执行高达 500 亿次浮点运算 (50 GFLOPS),为增强视觉应用实现动态 2D 和 3D 渲染。
  • 显示子系统 (DSS) 支持多个显示器,可灵活地连接不同类型的面板,例如 eDP、DSI 和 DPI。
  • 改进的存储器架构和高速接口让内核和 HWA 实现高利用率,从而提高了系统吞吐量和能效。AM69A 支持高达 64 千兆字节/秒 (GBps) 的 DDR 存储器带宽。
GUID-20230517-SS0I-QCBB-FKDZ-JVM7M7CMRHQH-low.svg图 2-1 AM69A 子系统方框图

深度学习推理效率对于边缘 AI 系统的性能至关重要。如 TDA4 边缘 AI 处理器性能和效率基准测试 应用手册所示,与基于 GPU 的推理相比,基于 MMA 的深度学习推理在 FPS 和 TOPS 方面的效率提高了 60%。TI Model Zoo 也提供了针对 C7xMMA 进行优化的网络模型 (3),这是针对 C7xMMA 进行了优化且适用于各种计算机视觉任务的 DNN 模型集合。这些模型包括常用的图像分类、2D 和 3D 物体检测、语义分割和 6D 姿态估计模型。对于 TI Model Zoo 中的几个模型,包括 AM69A 在内的 TI 嵌入式处理器上的 8 位定点推理性能可通过 TI 的 Edge AI Studio 进行评估。

AM6xA 的多核异构架构可为特定任务使用合适的可编程内核或 HWA,从而可以灵活地为各种应用优化边缘 AI 系统的性能。例如,在 AM69A 上,计算密集型深度学习 (DL) 推理任务可以在四个使用优化深度学习模型的 MMA 实例上运行,而视觉处理、视频编码和解码可转移到两个 VPAC3 和硬件加速视频编解码器实例,以便获得卓越性能。其他功能块可编程到八个 A72 内核或可用的 C7x 内核中。节 3介绍了如何在 AM69A 上构建边缘 AI 系统,以满足几种工业应用场景的需求。