为保持性能评估的客观性,验证过程采用了一套简单的方法:
- 验证数据集:从生成数据中抽取 20% 不参与训练。
- 多维指标:采用互补的评估指标进行全面评估。
- 量化仿真:采用与目标硬件一致的量化方案开展验证。
经过量化感知训练的 Sine_64 模型达到了良好性能指标,符合简单 ML 模型的预期,并证明了其在 NPU 部署中的有效性:
- 验证损失通过均方误差 (MSE) 进行衡量。均方误差衡量的是预测值 (ŷi) 与实际值 (yi) 之间差值平方的平均值。数值越低,模型性能越好。
方程式 1.
- 平均绝对误差衡量的是预测值与实际值之间绝对差值的平均值。与 MSE 不同,该指标不会对误差求平方,对异常值不敏感。
方程式 2.
- R² 表示模型相对于使用均值作为预测器,对数据方差的解释程度。值范围为 0 到 1,其中 1 表示完美预测。验证 R² 分数反映了模型对给定数据方差的解释能力。
方程式 3.
Variables:
- yi = 第 i 个样本的实际(真实)正弦值
- ŷi = 神经网络对第 i 个样本的正弦预测值
- ȳ = 验证数据集中所有实际正弦值的均值
表 5-2 训练验证指标| Metric | Metric | 技术意义 |
|---|
| 验证损失 | 0.00038 | 均方误差极低,表明预测精度高 |
| 验证 MAE | 0.01305 | 整个正弦范围(-1 至 +1)内的平均绝对误差约 1.3% |
| 验证 R² 分数 | 0.9993 | 决定系数接近完美,表明模型可解释 99.93% 的正弦值方差 |
上述指标验证了以下核心成果:
- 高精度:虽受量化约束,但该模型仍实现了百分之一以内的精度。
- 稳定的性能:优异的 R² 分数表明模型在全输入范围内预测结果可靠。
- 量化鲁棒性:纯整数运算下,模型性能几乎无衰减。
- 部署就绪性:指标验证模型对于 NPU 实施的适用性。