ZHCAF23 应用手册 | 德州仪器 TI.com.cn

ZHCAF23A February 2025 – March 2025 AM62A3 , AM62A3-Q1 , AM62A7 , AM62A7-Q1 , AM67A , TDA4AEN-Q1

2.4 德州仪器 (TI) 深度学习加速技术

深度学习与神经网络正日益成为从图像与其他数据中提取含义与信息的热门策略。德州仪器 (TI) 的 AM6xA 与 TDA4x SoC 采用内部开发的硬件 IP——C7xMMA，并借助德州仪器深度学习 (TIDL) 软件，加速神经网络推理。

C7xMMA 是一款紧密耦合的 C7x SIMD DSP 与矩阵乘法器加速器 (MMA)。卷积神经网络 (CNN) 是一种用于视觉处理的常见神经网络类型。对于该等神经网络，该架构非常有效。在大多数 CNN 中，矩阵乘法与类似运算至少占到总运算的 98%。因此，MMA 对适用于视觉任务（例如：物体检测、像素级分割以及关键点检测）的神经网络加速的计算效率有着很大影响。

图 2-3 展示了适用于 AM6xA 与 TDA4x 处理器搭载的 TIDL 的一般开发流程。可以从多个点进入该开发流程。德州仪器 (TI) 提供了基于 GUI 与基于命令行的工具，用户能够：

引入数据 (BYOD)，训练德州仪器 (TI) 模型
引入定制架构的预训练模型 (BYOM)
评估来自德州仪器 (TI) Model Zoo 的预训练与预优化模型。

每个开发步骤都会为下一步提供支持。开发人员能够为目标 SoC 编译模型，并在部署到目标以前，在 PC 上测试精度。编译工具与加速器可通过 Tensorflow Lite、ONNX Runtime 或 TVM 等开源运行时框架调用。该等运行时框架提供了熟悉的 API，允许未加速层在 Arm® A 核心上运行，从而为广泛的模型提供便捷的使用体验。该等开源运行时框架 (OSRT) 在底层利用了 TIDL 运行时框架 (TIDL_RT)。

图 2-3 德州仪器 (TI) 深度学习开发流程