ZHCY189 白皮书 | 德州仪器 TI.com.cn

ZHCY189A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1

内容概览
Authors
引言
定义边缘 AI
什么是高效的边缘 AI 系统？
1. 选择 SoC 架构
2. 可编程内核类型和加速器
使用 TI 视觉处理器设计边缘 AI 系统
1. 深度学习加速器
2. 成像和计算机视觉硬件加速器
3. 智能内部总线和存储器架构
4. 优化的系统 BOM
5. 易于使用的软件开发环境
结论

深度学习加速器

虽然 CPU 和 GPU 适用于其他任务，但它们并不是最适合加速深度学习任务的内核。CPU 的吞吐量有限且功耗高，而 GPU 则是所有内核中功耗最大的，并且内存占用量大。

TI 视觉 AI 处理器集成了一个深度学习加速器，其中包含 ASIC 中的矩阵乘法加速器 (MMA)，并固定在可编程 C71 DSP 上。MMA 支持高性能（每个周期可以进行 4K 8 位固定乘法累加）和低功耗传感器加速，而 C71 DSP 负责加速矢量和标量运算并管理 MMA。

由于将 MMA 和 C71 DSP 结合起来，该加速器能够提供非常出色的性能（每秒推理次数）和能效（每瓦推理次数）。C71 内核的编程灵活性可以满足边缘 AI 创新的需求。当不用于深度学习时，该内核能以低功耗处理其他计算密集型任务。

智能存储器架构实现了加速器的高效利用。该加速器配置了内置的存储器子系统，用于数据传输的专用 4D 可编程直接存储器存取 (DMA) 引擎，以及专用的流硬件。这些流硬件可以将数据直接从外部存储器传输到 C71 内核和 MMA 的功能单元，而绕过高速缓存。平铺和超平铺功能可更大限度地减少与外部存储器之间的数据传输。

表 2 显示了 AM68A 和集成 8TOPS 加速器的 TDA4VM 上的 8 位固定推理性能。报告的性能采用批次 1 和单个 32 位 LPDD4。

表 2 MLPerf 推荐模型的推理基准测试

网络	图像分辨率	每秒帧数 (fps)
MobileNet_v1	224 × 224	741
Resnet-50 V1.5	224 × 224	162
SSD-MobileNets-V1	300 × 300	385

免责声明：TI 使用 MLPerf 建议的模型和准则进行了边缘 AI 推理基准测试。TI 尚未将结果提交给 MLcommons 组织。