ZHCY189 白皮书 | 德州仪器 TI.com.cn

ZHCY189A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1

内容概览
Authors
引言
定义边缘 AI
什么是高效的边缘 AI 系统？
1. 选择 SoC 架构
2. 可编程内核类型和加速器
使用 TI 视觉处理器设计边缘 AI 系统
1. 深度学习加速器
2. 成像和计算机视觉硬件加速器
3. 智能内部总线和存储器架构
4. 优化的系统 BOM
5. 易于使用的软件开发环境
结论

可编程内核类型和加速器

下面我们来了解一下边缘 AI 系统中可能的内核类型：

CPU

中央处理单元 (CPU) 是可处理连续工作负载的通用处理单元。它们具有很高的编程灵活性，并可从庞大的现有代码库中受益。通常，大多数边缘 AI 系统具有 2 到 8 个 CPU 内核，用于管理平台和功能丰富的应用。但是，仅含 CPU 的系统不适合像素级成像、计算机视觉和卷积神经网络 (CNN) 处理等高度专业化的任务。CPU 还具有高功耗，但吞吐量却是不同内核类型中最低的。单核 CPU 系统与 AI 加速、图像处理等专用硬件模块配合使用，可以满足低成本应用的功率预算要求。

GPU

图形处理单元 (GPU) 具有数百到数千个小型内核，非常适合并行处理任务。GPU 最初设计用于实现一系列图形操作，但现在已经广泛应用于深度学习应用中，尤其是在训练 DNN 时特别有用。然而，由于内核数量众多，GPU 功耗很大并具有更高的片上存储器要求，这是其主要缺点之一。

DSP

数字信号处理器 (DSP) 是高能效的专用内核，通常用于解决多个复杂的数学问题。DSP 能够以低功耗处理来自现实世界中视觉、音频、语音、雷达和声纳传感器的实时数据，并有助于更大程度地提高每个时钟周期的处理能力。然而，由于其编程难度较大，需要熟悉 DSP 硬件的特性、编程环境和 DSP 软件优化，才能实现最佳性能。

ASIC

专用集成电路 (ASIC) 和加速器能够为系统应用提供最高的性能和最低的功耗。当您确定要加速的功能所属的核心内核时，通常会使用它们。例如，CNN 的核心计算通常涉及矩阵乘法。对于传统的计算机视觉任务，专用硬件加速器能够计算图像缩放、镜头失真校正和噪声滤波等操作。

FPGA

现场可编程门阵列 (FPGA) 是一类集成电路，可以对硬件模块进行重新编程并将其用于特定应用。它们的功耗低于 GPU 和 CPU，但高于 ASIC。不过，硬件编程比较难，并且需要掌握硬件描述符语言方面的专业知识，比如 Verilog 或超高速 IC 硬件描述语言等。