• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于凸優(yōu)化的少量樣本語音識別

      2020-02-10 10:52羅光圣黎文偉
      中文信息 2020年2期
      關鍵詞:語音識別

      羅光圣 黎文偉

      摘 要:本文首先討論了語音識別的應用研究狀況,以及介紹了語音識別的應用流程。在此基礎上討論了少量樣本的基本概念,分析了少量樣本的研究狀況,然后分析了凸優(yōu)化的基本原理和算法。 其中重點討論凸優(yōu)化算法。最后總結了少量樣本語音識別的工作和展望。

      關鍵詞:語音識別 少量樣本 凸優(yōu)化

      中圖分類號:TP181文獻標識碼:A文章編號:1003-9082(2020)02-0-01

      一、語音識別

      語音識別通過運用語言學、計算機科學、電子工程、模式識別、概率論、信息論以及人工智能等領域的方法和技術,使計算機設備能夠精準識別和翻譯語音信息,也被稱為自動語音識別(ASR)或者語音到文本(STT)。

      語音識別的流程如下:

      二、少量樣本

      對圖像識別的機器學習少量樣本目前大致可分為 模型大致可分為三類:Mode Based,Metric Based 和 Optimization Based。

      在專業(yè)領域語音識別樣本不會很多,如銀行的電子渠道手機銀行語音導航,樣本數(shù)有賬戶管理,我的賬戶,交易明細等類別很少,可以從訓練訓練50個類,每個類100個樣本。

      訓練過程中,從訓練集(50 個類,每類 100 個樣本)中隨機采樣 5 個類,每個類 5 個樣本,構成支撐集,去學習 learner;然后從訓練集的樣本(采出的 5 個類,每類剩下的樣本)中采樣構成 Batch 集,集合中每類有 15 個樣本,用來獲得 learner 的 loss,去學習 meta leaner

      具體地,它顯式的定義一個基于支撐集 S的分類器,對于一個新的數(shù)據(jù)X ,其分類概率由X與支撐集 S之間的距離度量得出:

      其中 a 是基于距離度量的 attention score:

      三、凸優(yōu)化

      如果一個最優(yōu)化問題的可行域是凸集,并且目標函數(shù)是凸函數(shù),則該問題為凸優(yōu)化問題。凸優(yōu)化問題可以形式化的寫成

      其中x為優(yōu)化變量;f為凸目標函數(shù);C是優(yōu)化變量的可行域,是一個凸集。這個定義給了我們證明一個問題是凸優(yōu)化問題的思路,即證明目標函數(shù)是凸函數(shù)(一般是證明它的Hessian矩陣半正定),可行域是凸集。

      凸優(yōu)化的證明如下:

      1.目標函數(shù)

      2. 目標函數(shù)展開之后為

      3. 二階偏導數(shù)為

      4. Hessian矩陣為

      Hessian矩陣是半正定矩陣,上面的優(yōu)化問題是一個不帶約束條件的凸優(yōu)化問題。可以用梯度下降法或牛頓法求解。

      訓練一個語音識別的神經(jīng)網(wǎng)絡模型,來預測梯度,用一次二次方程的回歸問題來訓練,采用凸優(yōu)化的方法進行優(yōu)化,到的神經(jīng)網(wǎng)絡優(yōu)化器比Adam,RMSProp還要好。

      結語

      在這邊文章中,我們基于專業(yè)語音識別應用領域中,樣本少的實際情況,提出了少量樣本與優(yōu)化器凸優(yōu)化結合的分類模型。

      未來的工作,將少量樣本的語音,擴展到有噪音環(huán)境下的語音識別,同時遷移到其他專業(yè)應用領域中如醫(yī)療等,或者在此基礎上遷移到其他少量語種中去,經(jīng)過簡單的微調而不用太多數(shù)據(jù)就是準確的實現(xiàn)語音識別功能。實驗驗證一下基于凸優(yōu)化的少量樣本語音識別模型和其他優(yōu)化器的模型性能進行比較。

      參考文獻

      [1] G. Dahl, D. Yu, L. Deng, A. Acero. Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition. IEEE Transactions on Audio, Speech, and Language Processing. 2012.

      [2] H. Sak, A. Senior, F. Beaufays. Long Short-term Memory Recurrent Neural Network Architectures for Large Scale Acoustic Modeling. INTERSPEECH 2014.

      猜你喜歡
      語音識別
      空管陸空通話英語發(fā)音模板設計與應用
      通話中的語音識別技術
      基于LD3320的非特定人識別聲控燈系統(tǒng)設計
      航天三維可視化系統(tǒng)中語音控制技術的研究與應用
      康定县| 田林县| 云霄县| 呼图壁县| 济源市| 汝州市| 玉田县| 师宗县| 隆尧县| 长沙县| 水城县| 连平县| 皮山县| 舟山市| 元谋县| 贵港市| 呼图壁县| 武夷山市| 那坡县| 荥经县| 炎陵县| 景德镇市| 双峰县| 涟源市| 保定市| 东莞市| 镇雄县| 京山县| 万全县| 黄冈市| 永丰县| 平陆县| 抚顺县| 上饶市| 卫辉市| 隆昌县| 离岛区| 霞浦县| 沈丘县| 南昌县| 泗阳县|