ZHCAEK6 October 2024 TAC5212
本节讨论 VAD 性能。算法性能由受试者工作特征 (ROC) 曲线显示,该曲线说明了不同工作阈值(–12dB 至 –3dB)下的检测性能。以下 ROC 图显示的是来自 Aurora 噪声数据库的噪声场景(图 3-1 表示汽车噪声,图 3-2 表示餐厅噪声,图 3-3 表示火车噪声)和来自 NOIZEUS 语音数据库的语音信号。测试向量是通过以所需的 12dB、18dB 和 24dB SNR(SNR 是语音功率级别和噪声信号功率级别之间的差值)混合噪声和语音信号来生成的(例如,12dB SNR 意味着噪声功率级别比语音功率级别低 12dB)。根据麦克风的常见输出值而选择了这些 SNR 值。这些数据也是以 8kHz 的采样率获取,以实现出色的预期性能。
ROC 图从最左上角的 -12dB 阈值开始,并随着阈值的增加而向右移动。语音命中率是当 VAD 出现在输入信号中时,VAD 正确检测语音的精度。非语音命中率是 VAD 正确忽略噪声信号中动态移动的精度。语音和非语音的高命中率表明该算法能够在有语音时正确检测语音,在没有语音时防止误报。
图 3-1 针对汽车噪声的非语音命中率与语音命中率
图 3-2 针对餐厅噪声的非语音命中率与语音命中率
图 3-3 针对火车噪声的非语音命中率与语音命中率在分析收集到的数据之后,选择了 –5dB 阈值,以在不同噪声类型下提供合适的语音命中率和非语音命中率。针对不同噪声类型(6dB、12dB、18dB 和 24dB SNR)在 –5dB 阈值下的 ROC 曲线如图所示。
图 3-4 针对 6dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率
图 3-6 针对 18dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率
图 3-5 针对 12dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率
图 3-7 针对 24dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率