ZHCAF33 March   2025 AM62L

 

  1.   1
  2.   摘要
  3.   商标
  4. 1引言
  5. 2处理器内核和计算基准测试
    1. 2.1 Dhrystone
    2. 2.2 Whetstone
    3. 2.3 Linpack
    4. 2.4 NBench
    5. 2.5 CoreMark-Pro
    6. 2.6 快速傅里叶变换
    7. 2.7 加密基准测试
  6. 3存储器系统基准测试
    1. 3.1 存储器带宽和延迟
      1. 3.1.1 LMBench
      2. 3.1.2 STREAM
    2. 3.2 临界存储器访问延迟
    3. 3.3 UDMA:DDR 至 DDR 数据复制
  7. 4总结
  8. 5参考资料

STREAM

STREAM 是测量数据存储器系统性能的微基准测试,无需重复使用任何数据。STREAM 旨在不命中高速缓存,执行数据预取和推测性存取。STREAM 使用双精度浮点(64 位),但在大多数现代处理器中,存储器访问是瓶颈。四个单项分数包括 copy(复制)、scale(乘常数)、add(数字相加)及 triad(乘法累加)。

  • Copy:在不进行算术运算的情况下测量存储器传输速率,a[i] = b[i]
  • Scale:包括一个简单的算术运算,a[i] = k × b[i]
  • Add:除算术运算之外,还包含三个存储器存取,a[i] = b[i] + c[i]
  • Triad:将 scale 和 add 组合到一个运算中,a[i] = b[i] + k × c[i]

对于带宽,每读取一个字节计数为 1,每写入一个字节计数为 1,得到的分数是 LMBench 带宽的两倍。表 3-3 展示了相对于理论线速测得的带宽和效率。使用的线速是 LPDDR4 MT/s 与宽度的乘积。为了获得总体最大吞吐量,使用命令 stream -M 16M -P 2 -N 10,这意味着两个并行线程和 10 次迭代。在此测试中,Arm-Cortex-A53 时钟频率设置为 1.25GHz。

root@am62lxx-evm:~# stream -M 16M -P 2 -N 10
STREAM copy latency: 13.64 nanoseconds
STREAM copy bandwidth: 2346.27 MB/sec
STREAM scale latency: 13.59 nanoseconds
STREAM scale bandwidth: 2354.55 MB/sec
STREAM add latency: 21.72 nanoseconds
STREAM add bandwidth: 2209.49 MB/sec
STREAM triad latency: 22.20 nanoseconds
STREAM triad bandwidth: 2162.58 MB/sec

表 3-3 流基准测试
LPDDR4-1600MT/s-16位延迟 [ns]LPDDR4-1600MT/s-16 位带宽 [MB/s]

LPDDR4-1600MT/s-16 位效率 [%]

copy

13.64

2,346

73

scale

13.59

2,354

73

add

21.72

2,209

69

triad

22.20

2,162

67