王赫楠+燕燕+王甜宇+王和禹
摘 要:現代社會的各個領域對語音識別系統的要求不同,使得該系統特性的差異性非常的大,所以該系統的開發(fā)需要針對一定的指標。該文就相關的語音識別系統進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統中的應用。
關鍵詞:語音識別系統 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關于嵌入式系統的軟件和硬件技術的進步,語音識別系統得到了全面的應用[1]。由于嵌入式系統受到各種軟硬件的約束,該系統通常運行的是特定的任務[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統,其準確率與HMM等復雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結合起來的一種非線性規(guī)整技術。設:
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預先分配大小一定的內存。最后一步是將每一個單元的運算結果輸入到決策模塊,得到最終結論。
算法框圖如圖1所示,按照時間順序將計算出的未知語音特征矢量輸入到各個DTW流水線。然后由決策模塊依據各個流水線的計算結果以及其他信息得出結論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設置一個完成標志位Pi(1≤i≤N),依據這些完成標志,決策模塊對已經完成計算的流水線結果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數為n,參考模式的總長度為p,局部判決函數的水平跨度為w,流水線條數為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數據類型所占的字節(jié)數,則OP-DTW算法所需的內存為wnt/p Byte。當b≥n時,算法所需時間為經典DTW的1/n;當b 3 結語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數據引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數據的匹配問題。 參考文獻 [1] 林常志.基于統計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現[J].電子技術應用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現[J].計算機工程與設計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數提取[J].通信技術,2008,41(6):153-154,157.
摘 要:現代社會的各個領域對語音識別系統的要求不同,使得該系統特性的差異性非常的大,所以該系統的開發(fā)需要針對一定的指標。該文就相關的語音識別系統進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統中的應用。
關鍵詞:語音識別系統 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關于嵌入式系統的軟件和硬件技術的進步,語音識別系統得到了全面的應用[1]。由于嵌入式系統受到各種軟硬件的約束,該系統通常運行的是特定的任務[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統,其準確率與HMM等復雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結合起來的一種非線性規(guī)整技術。設:
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預先分配大小一定的內存。最后一步是將每一個單元的運算結果輸入到決策模塊,得到最終結論。
算法框圖如圖1所示,按照時間順序將計算出的未知語音特征矢量輸入到各個DTW流水線。然后由決策模塊依據各個流水線的計算結果以及其他信息得出結論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設置一個完成標志位Pi(1≤i≤N),依據這些完成標志,決策模塊對已經完成計算的流水線結果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數為n,參考模式的總長度為p,局部判決函數的水平跨度為w,流水線條數為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數據類型所占的字節(jié)數,則OP-DTW算法所需的內存為wnt/p Byte。當b≥n時,算法所需時間為經典DTW的1/n;當b 3 結語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數據引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數據的匹配問題。 參考文獻 [1] 林常志.基于統計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現[J].電子技術應用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現[J].計算機工程與設計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數提取[J].通信技術,2008,41(6):153-154,157.
摘 要:現代社會的各個領域對語音識別系統的要求不同,使得該系統特性的差異性非常的大,所以該系統的開發(fā)需要針對一定的指標。該文就相關的語音識別系統進行了簡要的分析,特別分析了動態(tài)時間規(guī)整算法(DTW)在嵌入式語音識別系統中的應用。
關鍵詞:語音識別系統 動態(tài)時間規(guī)整 嵌入式
中圖分類號:TP3 文獻標識碼:A 文章編號:1674-098X(2014)03(b)-0071-01
隨著有關于嵌入式系統的軟件和硬件技術的進步,語音識別系統得到了全面的應用[1]。由于嵌入式系統受到各種軟硬件的約束,該系統通常運行的是特定的任務[2,3]。所以開發(fā)者可以優(yōu)化軟硬件資源、減小規(guī)模、降低成本。但這對于語音識別系統的效率和準確度有了更高的要求[4]。DTW算法與HMM等算法相比較而言,針對小詞匯量語音識別系統,其準確率與HMM等復雜算法幾乎相同。
1 DTW算法
動態(tài)時間彎曲(Dynamic Time Warping,簡稱DTW)是把時間規(guī)整和距離測度結合起來的一種非線性規(guī)整技術。設:
(1)參考模板特征矢量序列為:c0,c1,…,cp;
(2)輸入語音特征矢量序列為:d0,d1,...,,dq p≠q。
那么,DTW就是要計算函數D,從而使c和d之間的差別最小。
2 DTW在線并行算法
2.1 算法描述
DTW在線并行算法對于并行性的小詞匯語音識別系統特別適用。此方法第一步對問題分解,然后在多個運算單元中單獨的計算已知模式和未知模式之間的距離,并且對每個運算單元進行的計算分解。在DTW運算時要預先分配大小一定的內存。最后一步是將每一個單元的運算結果輸入到決策模塊,得到最終結論。
算法框圖如圖1所示,按照時間順序將計算出的未知語音特征矢量輸入到各個DTW流水線。然后由決策模塊依據各個流水線的計算結果以及其他信息得出結論。但由于每個參考模式的長度不同,各條流水線的計算時間是不同的,因此每條DTW流水線會設置一個完成標志位Pi(1≤i≤N),依據這些完成標志,決策模塊對已經完成計算的流水線結果進行處理。同時該算法還可以通過識別歷史來提前終止沒有完成的計算步驟。
2.2 算法分析
令特征矢量的維度為l,未知模式的長度為k,參考模式的個數為n,參考模式的總長度為p,局部判決函數的水平跨度為w,流水線條數為b。流水線的距離矩陣A的窗口平均大小為wn/p,令t為特征向量的數據類型所占的字節(jié)數,則OP-DTW算法所需的內存為wnt/p Byte。當b≥n時,算法所需時間為經典DTW的1/n;當b 3 結語 該文對一種DTW在線并行算法進行了分析,該算法相對減少了由于數據引起的等待時間;提高了DTW的并行度,并充分挖掘出硬件的計算功能,減少處理的時間。由于DTW的適用性,該算法適合一維非線性數據的匹配問題。 參考文獻 [1] 林常志.基于統計的語音識別方法分析報告[R/OL].(2003-12-26)[2009-06-13].http://icrc.hitsz.edu.cn/data/林常志語音識技術報告.net. [2] 李昱,林志謀,黃云鷹,等.基于短時能量和短時過零率的VAD算法及其FPGA實現[J].電子技術應用,2006,32(9):110-113. [3] 謝秋云,肖鐵軍.語音MFCC特征提取的FPGA實現[J].計算機工程與設計,2008,29(21):5474-5475,5493. [4] 高謙,張國杰,張樹才.基于FPGA的高性能MFCC特征參數提取[J].通信技術,2008,41(6):153-154,157.