不同條件下語音識別系統(tǒng)的質量測量
在語音識別系統(tǒng)發(fā)展過程中,所面臨的挑戰(zhàn)是揚聲器的語音信號變化。本文探討了發(fā)聲持續(xù)時間對具有概率線性判別分析系統(tǒng)(PLDA)模型的現(xiàn)代語音識別系統(tǒng)建模的影響。提出基于質量測量功能(QMFs)來處理上述影響因素的校準方法,包括持續(xù)時間在內的校準。進行了大量的試驗來評估所提出的穩(wěn)定性校準方法。采用最新的NIST語料庫進行評價,并考慮持續(xù)校準自動揚聲器的分數識別系統(tǒng)質量指標。
通過增加一個可以校準持續(xù)時間的質量測量功能,使用一個簡單的修正線性分數變換算法,以提高語音識別系統(tǒng)的校準性能,這是從推薦的校準性能持續(xù)時間質量測量方法及其它線性校正方法的對比中得到的。本文共提出4種持續(xù)質量測量方法并提出評價函數,這些方法在對抗時間的變化方面有其自身的優(yōu)勢。研究表明,持續(xù)質量測度的外推試驗對解決校準問題起到很大作用。QMFs技術的研究方向主要包括背景噪聲信噪比(SNR)。而QMFs評價計劃將使用不同的數據庫在持續(xù)時間條件下獲得更多的變化。由于QMFs技術提供了良好的校準性能,因此對語言變化這一研究領域起到了推動作用。
刊名:IEEE Transactions on Audio Speech& Language Processing(英)
刊期:2013年第11期
作者:Miranti Indar Mandasari
編譯:張?zhí)K鐵