羅光圣 黎文偉
摘 要:本文首先討論了語音識別的應用研究狀況,以及介紹了語音識別的應用流程。在此基礎上討論了少量樣本的基本概念,分析了少量樣本的研究狀況,然后分析了凸優(yōu)化的基本原理和算法。 其中重點討論凸優(yōu)化算法。最后總結了少量樣本語音識別的工作和展望。
關鍵詞:語音識別 少量樣本 凸優(yōu)化
中圖分類號:TP181文獻標識碼:A文章編號:1003-9082(2020)02-0-01
一、語音識別
語音識別通過運用語言學、計算機科學、電子工程、模式識別、概率論、信息論以及人工智能等領域的方法和技術,使計算機設備能夠精準識別和翻譯語音信息,也被稱為自動語音識別(ASR)或者語音到文本(STT)。
語音識別的流程如下:
二、少量樣本
對圖像識別的機器學習少量樣本目前大致可分為 模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。
在專業(yè)領域語音識別樣本不會很多,如銀行的電子渠道手機銀行語音導航,樣本數(shù)有賬戶管理,我的賬戶,交易明細等類別很少,可以從訓練訓練50個類,每個類100個樣本。
訓練過程中,從訓練集(50 個類,每類 100 個樣本)中隨機采樣 5 個類,每個類 5 個樣本,構成支撐集,去學習 learner;然后從訓練集的樣本(采出的 5 個類,每類剩下的樣本)中采樣構成 Batch 集,集合中每類有 15 個樣本,用來獲得 learner 的 loss,去學習 meta leaner
具體地,它顯式的定義一個基于支撐集 S的分類器,對于一個新的數(shù)據(jù)X ,其分類概率由X與支撐集 S之間的距離度量得出:
其中 a 是基于距離度量的 attention score:
三、凸優(yōu)化
如果一個最優(yōu)化問題的可行域是凸集,并且目標函數(shù)是凸函數(shù),則該問題為凸優(yōu)化問題。凸優(yōu)化問題可以形式化的寫成
其中x為優(yōu)化變量;f為凸目標函數(shù);C是優(yōu)化變量的可行域,是一個凸集。這個定義給了我們證明一個問題是凸優(yōu)化問題的思路,即證明目標函數(shù)是凸函數(shù)(一般是證明它的Hessian矩陣半正定),可行域是凸集。
凸優(yōu)化的證明如下:
1.目標函數(shù)
2. 目標函數(shù)展開之后為
3. 二階偏導數(shù)為
4. Hessian矩陣為
Hessian矩陣是半正定矩陣,上面的優(yōu)化問題是一個不帶約束條件的凸優(yōu)化問題。可以用梯度下降法或牛頓法求解。
訓練一個語音識別的神經(jīng)網(wǎng)絡模型,來預測梯度,用一次二次方程的回歸問題來訓練,采用凸優(yōu)化的方法進行優(yōu)化,到的神經(jīng)網(wǎng)絡優(yōu)化器比Adam,RMSProp還要好。
結語
在這邊文章中,我們基于專業(yè)語音識別應用領域中,樣本少的實際情況,提出了少量樣本與優(yōu)化器凸優(yōu)化結合的分類模型。
未來的工作,將少量樣本的語音,擴展到有噪音環(huán)境下的語音識別,同時遷移到其他專業(yè)應用領域中如醫(yī)療等,或者在此基礎上遷移到其他少量語種中去,經(jīng)過簡單的微調而不用太多數(shù)據(jù)就是準確的實現(xiàn)語音識別功能。實驗驗證一下基于凸優(yōu)化的少量樣本語音識別模型和其他優(yōu)化器的模型性能進行比較。
參考文獻
[1] G. Dahl, D. Yu, L. Deng, A. Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing. 2012.
[2] H. Sak, A. Senior, F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling. INTERSPEECH 2014.