C7x DSP 内核是一款由德州仪器 (TI) 开发的高性能数字信号处理器 (DSP),作为其定点和浮点 DSP 平台的一员。它代表了 DSP 技术的前沿,旨在快速高效地处理复杂的数学运算和大型数据处理任务。它采用超长指令字 (VLIW) 架构,可以通过宽矢量指令和多个功能单元提供重要的数学处理能力。利用其矢量 (SIMD) 指令和完全流水线型计算指令,C7x DSP 内核可在每个周期执行大量计算,因此成为了需要实时处理的应用的理想选择。
- 64 位架构:C7x 内核是真正的 64 位机器,具有 64 位存储器寻址功能和执行单周期 64 位基本算术运算的能力。
- 定点和浮点运算:该内核支持定点和浮点矢量指令。它拥有 13 个完全流水线型功能单元,允许每个时钟周期开始执行最多 13 条指令。
- 完全流水线型功能单元:支持在每个时钟周期启动独立指令,从而显著提高计算吞吐量。
- 单周期 L2 存储器存取:C7x 的流引擎允许对多达 6 维数据模式进行单周期 L2 存储器存取,从而绕过高速缓存。
- 性能提升:与上一代 C66x DSP 内核相比,C7x 内核的 DSP 处理能力提高了 4 至 8 倍,甚至更多。
AM62D 器件采用 C7x 内核的 C7504 版本,具有 256 位宽矢量内核。这种稳健可靠的内核能够高效处理各种运算
- 每周期运算量:每周期最多能够执行 40 次 FLOPS(浮点运算),其中包括:
- 2 次具有 256 位宽度的算术/逻辑运算(不包括乘法指令)
- 2 次具有 256 位宽度的乘法运算
- 1 次相关运算或具有 256 位宽度的标准算术运算
- 1 次矢量谓词操作运算
- 1 次非对齐 256 位加载或存储操作
- 每周期 MAC:C7x-256bV DSP 内核可在每个周期实现可观的 MAC(乘法累加)速率:
- Int16:高达 64 MAC/周期。
- Int32:高达 16 MAC/周期。
- 浮点:高达 16 MAC/周期。
- 矩阵乘法加速器 (MMA):MMA 协处理器可增强 C7x 架构的标量和矢量功能。在 AM62D 器件上,MMA 与 C7x 内核紧密集成。通过流引擎 (SE),它可提供多种 MAC 操作、矩阵优化存储和数据移动。这些特性对于视觉(CNN、SfM、滤波等)、语音 (xNN)、音频(卷积)、雷达 (FFT) 和控制(强化学习、状态更新)等应用中普遍存在的密集线性代数运算尤其有用。
- 单周期 L2 存储器大小:1.25MB。