ZHCAEV9 December   2024 AM62D-Q1

 

  1.   1
  2.   摘要
  3.   商标
  4. 1引言
    1. 1.1 将二进制文件加载到 AM62D
  5. 2处理器内核基准测试
    1. 2.1 C7x DSP 基准测试
      1. 2.1.1 快速傅里叶变换
      2. 2.1.2 数字信号处理
        1. 2.1.2.1 FIR
        2. 2.1.2.2 级联双二阶滤波器
        3. 2.1.2.3 点积
      3. 2.1.3 数学运算
    2. 2.2 在 A53 内核中执行的 Dhrystone
  6. 3存储器系统基准测试
    1. 3.1 临界存储器访问延迟
    2. 3.2 UDMA:DDR 至 DDR 数据复制
    3. 3.3 C7x DRU 性能:通过 DMA 进行块复制
  7. 4应用特定的基准测试
    1. 4.1 SBL 引导时间
    2. 4.2 IPC 性能
    3. 4.3 闪存
    4. 4.4 应用特定延迟
  8. 5总结
  9. 6参考资料

C7x DRU 性能:通过 DMA 进行块复制

C7x 内提供的数据路由单元 (DRU) 用于在 C7x 的 DDR 和 L2SRAM 之间传输数据,从而有效地支持 DMA。德州仪器 (TI) 信号处理 (TISP) 中间件库提供了几个示例,说明如何使用 DMA 对 C7x 的 DSPLIB 和 FFTLIB 中的各种内核进行打包。AM62D 的 FreeRTOS-SDK 中包括 TISP,并随附用于构建和运行示例的文档。TISP 中的 TISP_blockCopy 示例提供了在 C7x 的 DDR 和 L2SRAM 之间移动数据时的性能结果。在 TISP_blockCopy 示例中,我们将数据从 DDR 读取到 C7x 的 L2SRAM,同时将数据从 L2SRAM 写入 DDR。有一个块复制内核将相同的数据(通过 DRU 读取到 L2SRAM)从 L2SRAM 中的一个位置复制到 L2SRAM 中的另一个位置。块复制内核利用流引擎 (SE) 从 L2SRAM 读取数据。要写入通过 SE 读取的相同数据,内核会将 C7x 的写入路径应用到 L2SRAM,同时通过流地址 (SA) 生成器生成写入的地址偏移。下面列出了有关此示例的一些注释:

  • DDR 规格:3200MT/s,每个事务 32 位,因此理论上的 DDR 带宽峰值为 12.8GB/s (4B x 3200MT/s)。
  • DRU 传输属性设置为 4D。
  • 一个通道将数据从 DDR 读取到 L2SRAM,同时另一个通道将数据从 L2SRAM 写入 DDR。图 3-1 展示了 TISP_blockCopy 示例的详细信息。在该示例中,我们通过 DMA 同时将 16MB 的数据写入到 DDR 并从 DDR 读取 16MB 的数据。总数据移动量为 32MB。
  • 请注意,这里不涉及计算。
 DRU、SE 和 SA 数据移动示例图 3-1 DRU、SE 和 SA 数据移动示例

表 3-4 展示了移动 16MB 数据的性能测量,实现 10.4GB/s 的带宽,效率为总 DDR 带宽的 81%。

表 3-4 DRU 性能:从 DDR 到 C7x 和从 Bmoack 到 DDR 的数据移动

数据类型

数据大小

EVM 周期数

数据传输

效率

浮点

2048x2048x4=16MB

3185174

5.2x2 = 10.4GB/s

10.4/12.8 = 81%