处理器

数字信号处理器 – 内核基准测试

下表中是针对单核的基准测试。如需了解多核性能,请参阅器件基准测试

使用位于 L2 SRAM 的数据测量所有基准测试。
1 经过基准测试的 C66x FFT 代码是来自 FFTLIB(使用 L2 内存)的优化版本 FFT 内核代码。
2 使用 OCMC RAM 中的数据的 A15 基准测试。启用了数据和程序高速缓存。用于 ARM Neon 优化的编译器标记为 -mfpu = vfpv4 –mfloat-abi = hard -03。未验证 A15 输出的准确度和精度。代码中未使用手动编写的固有函数

处理器内核C66x DSP 内核C674x DSP 内核ARM® Cortex®-A15 
实用的硬件平台C6657 EVMC6748 LCDKAM5728 EVM 
采用进行基准测试的内核的器件 C66x DSP
66AK2x DSP
Sitara AM57x SoC
OMAP-L138
C6748
66AK2x DSP
Sitara AM57x SoC
 
进行基准测试的功能C66x 执行时间C674x 执行时间ARM Cortex-A15 执行时间2关联的 TI 库
C66x 周期数C66x μS (1GHz)C674x 周期数C674x μS (456Mhz)Cortex-A15 周期数Cortex-A15 μS (1GHz)2
复数 FFT(256 点)- SP 浮点117821.7824015.2786448.64用于 C66x 的 FFTLIB
用于 C674x 的 DSPLIB
复数 FFT(1k 点)- SP 浮点162696.271095024.014391643.92
实数块 FIR - 定点 128 个样本,16 个系数2620.263860.852152 2.15DSPLIB
实数块 FIR - SP 浮点 128 个样本,16 个系数13451.3514063.086971 6.97DSPLIB
实数块 FIR - SP 浮点 256 个样本,16 个系数26252.63273561387913.88DSPLIB
复数块 FIR - SP 浮点 64 个样本,16 个系数13341.3322214.871303913.04DSPLIB
复数块 FIR - SP 浮点 128 个样本,16 个系数26462.6543979.642607226.07DSPLIB
实数矩阵 SGEMM 16x1624052.4135057.691466214.66DSPLIB
复数矩阵 SGEMM 16x1641134.111088423.872638826.39DSPLIB
基本数学 DGEMM 16x1650615.06----1466914.67DSPLIB
自相关 - 定点 N=32,IMG_corr_3x3_i16s_c16s1400.141890.419460.95IMGLIB
ArcTan2 - SP 浮点240.02310.07490.05MATHLIB
Log10 - 单精度140.01180.04560.06MATHLIB
平方根 - 单精度浮点60.0160.0150.01MATHLIB

下载 TI DSP 基准测试应用手册,以了解如何在 TI 硬件上重现这些基准测试。

这些图表显示了根据上面的基准测试信息针对所选例程的相对内核性能。

针对下面用于比较 C66x DSP 内核与 C674x DSP 内核性能的图表,已将 C674x 的性能标准化为 1。显示的是 C66x 内核相对于 C674x 的性能。该比较考虑了处理器速度。

C66x DSP 内核与 C674x DSP 内核的性能比较

* 复数 FFT,1k 分,单精度,浮点。
** 复数块 FIR,单精度,浮点,128 个样本,16 个系数。
*** 复矩阵 SGEMM 16x16。

针对下面用于比较 C66x DSP 内核、C674x DSP 内核和 ARM Cortex-A15 内核性能的图表,已将 Cortex-A15 的性能标准化为 1。显示的是 C66x 内核和 C674x 内核相对于 Cortex-A15 的性能。该比较考虑了处理器速度。

C66x DSP 内核、C674x DSP 内核和 ARM Cortex-A15 内核的性能比较

* 复数 FFT,1k 分,单精度,浮点。
** 复数块 FIR,单精度,浮点,128 个样本,16 个系数。
*** 复矩阵 SGEMM 16x16。