ZHDA053 February 2026
CPU 与 NPU 执行之间的比较为实施决策提供重要指导依据:
复杂模型的 NPU 优势:对较大模型,NPU 可提供显著性能提升。128 神经元模型在 NPU 上的运行速度比在 CPU 上快 29.7%(延迟从 1.012ms 缩减至 0.7116ms),而 64 神经元模型则显示延迟缩减 20.7%。这一优势源于 NPU 专为神经网络并行计算设计的专用架构。
CPU 对于简单模型的优势:有趣的是,对于像 16 神经元这类极小模型,CPU 的性能实际上优于 NPU。相较于 NPU 的 39,557 个样本/秒,CPU 达到 44,643 个样本/秒,性能领先 12.9%。这种不合常理的结果源于与 NPU 之间的数据传输开销。16 神经元模型的计算工作量极少,以至于 CPU 可以直接在其原生执行环境中进行处理,避免了多个数据传输步骤。借助这样的小型模型,CPU 可以在单一执行上下文中完成整个推理,而不会产生 NPU 所需的内存传输开销。每次 NPU 推理都需要设置 DMA 传输、配置加速器、等待完成并检索结果 — 对于这种轻量级模型,这些操作总共消耗的时间超过了实际的神经网络计算时间。本质上,当模型如此之小时,专用硬件的使用“成本”超过其计算收益。