ZHCY189A january 2022 – march 2023 TDA4VM , TDA4VM-Q1
下面我们来了解一下边缘 AI 系统中可能的内核类型:
CPU
中央处理单元 (CPU) 是可处理连续工作负载的通用处理单元。它们具有很高的编程灵活性,并可从庞大的现有代码库中受益。通常,大多数边缘 AI 系统具有 2 到 8 个 CPU 内核,用于管理平台和功能丰富的应用。但是,仅含 CPU 的系统不适合像素级成像、计算机视觉和卷积神经网络 (CNN) 处理等高度专业化的任务。CPU 还具有高功耗,但吞吐量却是不同内核类型中最低的。单核 CPU 系统与 AI 加速、图像处理等专用硬件模块配合使用,可以满足低成本应用的功率预算要求。
GPU
图形处理单元 (GPU) 具有数百到数千个小型内核,非常适合并行处理任务。GPU 最初设计用于实现一系列图形操作,但现在已经广泛应用于深度学习应用中,尤其是在训练 DNN 时特别有用。然而,由于内核数量众多,GPU 功耗很大并具有更高的片上存储器要求,这是其主要缺点之一。
DSP
数字信号处理器 (DSP) 是高能效的专用内核,通常用于解决多个复杂的数学问题。DSP 能够以低功耗处理来自现实世界中视觉、音频、语音、雷达和声纳传感器的实时数据,并有助于更大程度地提高每个时钟周期的处理能力。然而,由于其编程难度较大,需要熟悉 DSP 硬件的特性、编程环境和 DSP 软件优化,才能实现最佳性能。
ASIC
专用集成电路 (ASIC) 和加速器能够为系统应用提供最高的性能和最低的功耗。当您确定要加速的功能所属的核心内核时,通常会使用它们。例如,CNN 的核心计算通常涉及矩阵乘法。对于传统的计算机视觉任务,专用硬件加速器能够计算图像缩放、镜头失真校正和噪声滤波等操作。
FPGA
现场可编程门阵列 (FPGA) 是一类集成电路,可以对硬件模块进行重新编程并将其用于特定应用。它们的功耗低于 GPU 和 CPU,但高于 ASIC。不过,硬件编程比较难,并且需要掌握硬件描述符语言方面的专业知识,比如 Verilog 或超高速 IC 硬件描述语言等。