ZHCABF0A December   2021  – April 2022 PCM6120-Q1 , TLV320ADC5120 , TLV320ADC6120

 

  1.   使用 TLV320ADC5120_PCM5120-Q1 和 TLV320ADC6120_PCM6120-Q1 中的语音活动检测器 (VAD)
  2.   商标
  3. 1引言
  4. 2语音活动检测器
    1. 2.1 VAD 配置
    2. 2.2 VAD 参数
  5. 3VAD 结果
  6. 4示例
  7. 5相关文档
  8. 6修订历史记录

VAD 结果

本节介绍 VAD 结果。算法性能由 ROC 曲线显示,该曲线说明了不同工作阈值(–12dB 至 –3dB)下的检测性能。以下 ROC 图显示的是来自 Aurora 噪声数据库的噪声场景(图 3-1 表示汽车噪声,图 3-2 表示餐厅噪声,图 3-3 表示地铁噪声)和来自 NOIZEUS 语音数据库的语音信号。测试向量是通过以所需的 12、18 和 24dB SNR(SNR 是语音功率级别和噪声信号功率级别之间的差值)混合噪声和语音信号来生成的(例如,12dB SNR 意味着噪声功率级别比语音功率级别低 12dB)。工作点对于 12dB 阈值而言位于最左上角,并随着阈值的增加而向右移动,对于语音命中率和非语音命中率,图 3-4(–7dB 阈值)指示更高的性能。

GUID-20211207-SS0I-XFTJ-384T-5ZLTZ9XTQBT1-low.gif图 3-1 针对汽车噪声的非语音命中率与语音命中率
GUID-20211207-SS0I-Z43F-2CKW-PNKMRTMRMZMS-low.gif图 3-2 针对餐厅噪声的非语音命中率与语音命中率
GUID-20211207-SS0I-VT2K-LWJN-8B4TWCSFHPBZ-low.gif图 3-3 针对地铁噪声的非语音命中率与语音命中率

在分析收集到的数据之后,选择了–7dB 阈值,以在不同噪声类型下提供最佳语音命中率和非语音命中率。针对不同噪声类型,在–7dB 阈值下的 ROC 曲线如图所示。

GUID-20211207-SS0I-JHDK-8QWP-S4FGVXDBBXBX-low.gif图 3-4 针对 12dB SNR 在–7dB 阈值下的非语音命中率与语音命中率