ZHCAEK6 October 2024 TAC5212

3 VAD 性能结果

本节讨论 VAD 性能。算法性能由受试者工作特征 (ROC) 曲线显示，该曲线说明了不同工作阈值（–12dB 至 –3dB）下的检测性能。以下 ROC 图显示的是来自 Aurora 噪声数据库的噪声场景（图 3-1 表示汽车噪声，图 3-2 表示餐厅噪声，图 3-3 表示火车噪声）和来自 NOIZEUS 语音数据库的语音信号。测试向量是通过以所需的 12dB、18dB 和 24dB SNR（SNR 是语音功率级别和噪声信号功率级别之间的差值）混合噪声和语音信号来生成的（例如，12dB SNR 意味着噪声功率级别比语音功率级别低 12dB）。根据麦克风的常见输出值而选择了这些 SNR 值。这些数据也是以 8kHz 的采样率获取，以实现出色的预期性能。

ROC 图从最左上角的 -12dB 阈值开始，并随着阈值的增加而向右移动。语音命中率是当 VAD 出现在输入信号中时，VAD 正确检测语音的精度。非语音命中率是 VAD 正确忽略噪声信号中动态移动的精度。语音和非语音的高命中率表明该算法能够在有语音时正确检测语音，在没有语音时防止误报。

图 3-1 针对汽车噪声的非语音命中率与语音命中率

图 3-2 针对餐厅噪声的非语音命中率与语音命中率

图 3-3 针对火车噪声的非语音命中率与语音命中率

在分析收集到的数据之后，选择了 –5dB 阈值，以在不同噪声类型下提供合适的语音命中率和非语音命中率。针对不同噪声类型（6dB、12dB、18dB 和 24dB SNR）在 –5dB 阈值下的 ROC 曲线如图所示。

图 3-4 针对 6dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率

图 3-6 针对 18dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率

图 3-5 针对 12dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率

图 3-7 针对 24dB SNR 在 –5dB 阈值下的非语音命中率与语音命中率