ZHDA053 应用手册 | 德州仪器 TI.com.cn

ZHDA053 February 2026

13.2.2 CPU 与 NPU 性能对比

CPU 与 NPU 执行之间的比较为实施决策提供重要指导依据：

复杂模型的 NPU 优势：对较大模型，NPU 可提供显著性能提升。128 神经元模型在 NPU 上的运行速度比在 CPU 上快 29.7%（延迟从 1.012ms 缩减至 0.7116ms），而 64 神经元模型则显示延迟缩减 20.7%。这一优势源于 NPU 专为神经网络并行计算设计的专用架构。

CPU 对于简单模型的优势：有趣的是，对于像 16 神经元这类极小模型，CPU 的性能实际上优于 NPU。相较于 NPU 的 39,557 个样本/秒，CPU 达到 44,643 个样本/秒，性能领先 12.9%。这种不合常理的结果源于与 NPU 之间的数据传输开销。16 神经元模型的计算工作量极少，以至于 CPU 可以直接在其原生执行环境中进行处理，避免了多个数据传输步骤。借助这样的小型模型，CPU 可以在单一执行上下文中完成整个推理，而不会产生 NPU 所需的内存传输开销。每次 NPU 推理都需要设置 DMA 传输、配置加速器、等待完成并检索结果 — 对于这种轻量级模型，这些操作总共消耗的时间超过了实际的神经网络计算时间。本质上，当模型如此之小时，专用硬件的使用“成本”超过其计算收益。