ZHDA053 February 2026
该 NPU 提供硬件加速的神经网络执行能力,性能显著优于主 CPU 上的软件实现方案,针对大型模型可带来 20-30% 的性能提升。这款基于整数运算的引擎可实现具有确定性行为的实时处理,同时与其他 C2000 外设保持无缝集成。
但这些能力也伴随重要约束,包括内存有限导致模型复杂度受限、架构对特定网络拓扑有偏好、量化带来精度折损。我们的基准测试表明,尽管 NPU 在大模型上性能优势显著,但极小神经网络
诸如 16 神经元模型等小型模型,因来往 NPU 的数据传输开销,在 CPU 上运行效率反而更高。