毛躍輝 文皓
珠海格力電器股份有限公司 廣東珠海 519070
隨著人工智能技術(shù)的逐漸成熟,“語音識別”將會是人與機(jī)器最自然的交互方式,語音控制的空調(diào)產(chǎn)品化將有助于提升空調(diào)產(chǎn)品的競爭力,形成技術(shù)制高點(diǎn),領(lǐng)先市場競品。通過調(diào)研目前市場上已經(jīng)在售的語音智能單品,發(fā)現(xiàn)目前行業(yè)普遍采用的語音識別方案是基于通用主控芯片并搭載Linux系統(tǒng)、Wi-Fi模塊,解決方案硬件成本高并且自主可控性差,制約著未來千億量級物聯(lián)網(wǎng)終端的規(guī)模化應(yīng)用。為了實(shí)現(xiàn)語音方案低成本、低功耗、數(shù)據(jù)可靠、高性能的目標(biāo),本文提出一種基于國產(chǎn)物聯(lián)網(wǎng)操作系統(tǒng)的專用國產(chǎn)芯片和國產(chǎn)Wi-Fi芯片的輕量級語音異構(gòu)AI計(jì)算平臺。完全國產(chǎn)化的產(chǎn)品,將來能夠支持語音模組在物聯(lián)網(wǎng)設(shè)備中的大規(guī)模應(yīng)用,此次在語音空調(diào)中成功應(yīng)用,具有重大意義。
本文設(shè)計(jì)一款基于國產(chǎn)專用語音芯片搭載國產(chǎn)物聯(lián)網(wǎng)系統(tǒng)的語音模組,包括模組硬件設(shè)計(jì)和軟件設(shè)計(jì)[1]。硬件設(shè)計(jì)上實(shí)現(xiàn)語音信號采集、語音信號處理、語音識別結(jié)果控制的功能。軟件設(shè)計(jì)上優(yōu)化回聲消除和自然語言處理過程,使得語音識別性能能夠滿足工程應(yīng)用需求。
本模組主要由國產(chǎn)專用語音芯片、國產(chǎn)Wi-Fi輕量級芯片、采樣電路、FLASH、接口電路等組成,使語音模組兼具配網(wǎng)、IoT控制、通訊、語音處理等功能,最遠(yuǎn)可支持5米的高精度識別,實(shí)現(xiàn)智能控制全套語音化操控。根據(jù)整體系統(tǒng)功能特性,考慮性能、功耗、穩(wěn)定性等方面的平衡,最大程度上做到語音系統(tǒng)低成本、低功耗、高性能。模組硬件框圖如圖1所示。語音系統(tǒng)整體啟動時(shí)間在4 s左右,工作電壓12 V左右。詳細(xì)參數(shù)如表1所示。
圖1 模組硬件框圖
表1 系統(tǒng)參數(shù)
語音專用芯片基于Cortex-A5處理器,頻率最高1 GHz;其中封裝32 M RAM、1個(gè)DSP模塊和1個(gè)10通道的DMA控制器;芯片內(nèi)置音頻ADC和DAC,最多支持6路音頻輸入,2路音頻輸出。整個(gè)芯片能夠支持低功耗和自適應(yīng)動態(tài)電源管理架構(gòu),能夠滿足國產(chǎn)物聯(lián)網(wǎng)操作系統(tǒng)[2]的運(yùn)行要求和語音前端降噪及離線識別的運(yùn)行要求。語音專用芯片架構(gòu)框圖如圖2所示。
圖2 語音專用芯片架構(gòu)框圖
Wi-Fi芯片選型主要關(guān)注點(diǎn):支持工作模式、PA(功率放大器)和LNA(低噪聲放大器)是否內(nèi)置、數(shù)據(jù)接口、天線端口個(gè)數(shù)、射頻校準(zhǔn)和產(chǎn)測方案、射頻性能、方案穩(wěn)定性等等。在充分考慮整體語音系統(tǒng)框架、功能、功耗、成本等要求,決定采用國產(chǎn)Wi-Fi SoC方案。本方案是輕量級OS系統(tǒng),具有啟動快、功耗低的特點(diǎn),且Wi-Fi芯片最終經(jīng)過相應(yīng)測試,性能能夠滿足項(xiàng)目需求。芯片具體規(guī)格如表2所示。
表2 Wi-Fi芯片選型規(guī)格參數(shù)
設(shè)計(jì)時(shí)需注意要點(diǎn):
(1)PCB板厚需要大于等于1 mm;
(2)為減小信號干擾,信號走線,信號線和電源線走TOP層;
(3)為減小信號反射,信號線盡量短,信號線不要穿越電源和地分割區(qū)域,保持完整的電源地參考平面;
(4)合理設(shè)計(jì)結(jié)構(gòu),保證產(chǎn)品內(nèi)部與外界有熱交換途徑。單板上大功率且易產(chǎn)生熱量器件要均勻分布,避免局部過熱,影響器件可靠性和散熱效率。
采樣電路采用差分輸入電路和外圍保護(hù)元器件,起到抑制共模信號、抑制尖峰電流、通交隔直的作用。采用麥克風(fēng)偏置電壓源,對麥克風(fēng)輸入提供一個(gè)電壓參考。其中一路麥克風(fēng)采樣原理圖如圖3所示。
圖3 麥克風(fēng)采樣電路
語音識別主要作用就是把一段語音信號轉(zhuǎn)換成相對應(yīng)的文本信息,然后通過各控制模塊間的通訊把識別到的信息進(jìn)行落實(shí)。該系統(tǒng)主要采用國產(chǎn)物聯(lián)網(wǎng)操作系統(tǒng)雙SoC的方式,主要由前端降噪、語音識別、語義理解、控制處理、語音合成、Wi-Fi聯(lián)網(wǎng)通訊等部分組成的遠(yuǎn)場語音識別系統(tǒng)[3]。用戶的語音指令通過麥克風(fēng)的拾音,經(jīng)過云端音頻轉(zhuǎn)文本和語義理解的處理,最后用戶的意圖被轉(zhuǎn)化成空調(diào)能夠識別的文字、格式,通過URAT跟空調(diào)主板進(jìn)行通訊,并實(shí)現(xiàn)用戶意圖的控制。通過Wi-Fi連接云端資源服務(wù)器,從云端獲取在線資源,便于實(shí)現(xiàn)用戶的非空調(diào)控制意圖。語音系統(tǒng)框架主要如圖4所示。
圖4 語音系統(tǒng)流程框架圖
ASR(Automatic Speech Recognition)自動語音識別系統(tǒng)主要由聲學(xué)特征提取、語言模型、聲學(xué)模型和解碼器等組成。訓(xùn)練識別的過程是從原始波形語音數(shù)據(jù)中提取的聲學(xué)特征,經(jīng)過訓(xùn)練得到聲學(xué)模型與發(fā)聲詞典、語言模型組成網(wǎng)絡(luò),對新來的語音提取特征,經(jīng)過聲學(xué)模型表示,通過解碼得出識別結(jié)果,語音前端識別流程如圖5所示。
圖5 前端識別流程圖
為了盡可能地提高語音系統(tǒng)的識別率,在語音拾音前端就需要開始進(jìn)行優(yōu)化設(shè)計(jì)。對麥克風(fēng)拾音在設(shè)計(jì)麥克風(fēng)陣列時(shí),注意保證麥克風(fēng)陣列的一致性和密封性,在拾音端優(yōu)化回聲消除。麥克風(fēng)陣列設(shè)計(jì)需滿足以下3點(diǎn):1)實(shí)現(xiàn)聲音到達(dá)麥克風(fēng)的路徑盡可能短、寬;2)聲音路徑內(nèi)不要存在任何空腔;3)麥克風(fēng)需要有橡膠套和固體表面隔絕,起到降低殼體震動傳聲以及密封性的作用。
通過前端降噪陣列的設(shè)計(jì),配合融合深度學(xué)習(xí)的自適應(yīng)遠(yuǎn)場語音降噪技術(shù),解決前端信號因遠(yuǎn)場環(huán)境復(fù)雜,夾雜噪音、混響、自噪聲等識別困難問題,實(shí)現(xiàn)可靠遠(yuǎn)場降噪。降噪前后音頻錄音曲線對比如圖6所示,從圖6中可知,在采用自適應(yīng)遠(yuǎn)場降噪技術(shù)后,人聲得到放大,噪音被抑制,最終獲取純凈的識別人聲。
圖6 降噪前后音頻對比圖
由于模組內(nèi)部存儲資源有限,在本地音頻資源存儲上做了優(yōu)化。本地音頻文件由先前的PCM(Pulse Code Modulation,脈沖編碼調(diào)制)文件格式更改為占內(nèi)存更小的ADPCM(Adaptive Differential Pulse Code Modulation,自適應(yīng)差分脈沖編碼調(diào)制)音頻文件格式。同時(shí)通過修改音頻使用邏輯代碼,離線播報(bào)的回復(fù)內(nèi)容,更多采用多個(gè)ADPCM文件組合的方式,從而減少文件數(shù)量,減少離線播報(bào)應(yīng)用對于系統(tǒng)資源的占用,達(dá)到提高系統(tǒng)資源綜合利用的效果。
其次,針對現(xiàn)實(shí)復(fù)雜場景下的語音識別的困難,想要有效地提高系統(tǒng)性能,如何獲得大量的優(yōu)質(zhì)標(biāo)注數(shù)據(jù)至關(guān)重要。本文設(shè)計(jì)基于異構(gòu)神經(jīng)網(wǎng)絡(luò)的主動學(xué)習(xí)技術(shù)來選擇訓(xùn)練數(shù)據(jù),從海量數(shù)據(jù)中挖掘出有效的數(shù)據(jù),降低獲取高質(zhì)量數(shù)據(jù)的成本,有效提高復(fù)雜環(huán)境下語音識別性能。
模型結(jié)構(gòu)采用基于MMI準(zhǔn)則[4](最大互信息量準(zhǔn)則)的包括Highway跨層連接的CNN+LSTM+TDNN[5]級聯(lián)模型,云端采用基于LF-MMI(Lattice Free Maximum Mutual Information)準(zhǔn)則的CNN+LSTM+TDNN級聯(lián)模型,利用云端采集、海量數(shù)據(jù)模擬等方法獲得超過10萬小時(shí)的數(shù)據(jù),增強(qiáng)復(fù)雜環(huán)境的語音覆蓋度,提高建模效果。
設(shè)計(jì)中提出的主動學(xué)習(xí)系統(tǒng)[6],采用多種子模型并行解碼的策略,從多個(gè)不同角度學(xué)習(xí)到海量無標(biāo)注數(shù)據(jù)的特性,從而使得從無標(biāo)注數(shù)據(jù)中挑選出來的可用數(shù)據(jù)與人工標(biāo)注數(shù)據(jù)之間存在強(qiáng)互補(bǔ)特性,且因異構(gòu)神經(jīng)網(wǎng)絡(luò)中子模型與目標(biāo)CLTDNN模型不同,減小挑選出來的數(shù)據(jù)與原始的標(biāo)注數(shù)據(jù)之間的同質(zhì)性。
另外,研發(fā)中采用基于Highway跨層連接的聲學(xué)模型訓(xùn)練方法,可以進(jìn)一步有效地從聲學(xué)模型角度提高模型性能,并結(jié)合特殊的數(shù)據(jù)挑選標(biāo)準(zhǔn),使得選擇出來的數(shù)據(jù)更加貼合實(shí)際的真實(shí)場景,以此綜合進(jìn)行模型訓(xùn)練,有效提高綜合語音識別的性能。
由表3可知,主動學(xué)習(xí)技術(shù)選擇數(shù)據(jù)和模型訓(xùn)練,只需要1200小時(shí)的數(shù)據(jù),對系統(tǒng)性能的提升好于用4000小時(shí)的基線系統(tǒng),由此可知,本文提出的主動學(xué)習(xí)技術(shù)數(shù)據(jù)選擇方法對訓(xùn)練模型性能非常有效,極大的改善了聲學(xué)模型效果。
表3 不同數(shù)據(jù)選擇方法訓(xùn)練模型的性能比較
根據(jù)語音系統(tǒng)對Wi-Fi芯片的選型需求,以下針對RF性能(射頻性能)、無源和吞吐量進(jìn)行試驗(yàn)驗(yàn)證測試。
(1)RF性能測試,測試數(shù)據(jù)如表4所示。結(jié)論:參考“Wi-Fi規(guī)格書傳導(dǎo)數(shù)據(jù)標(biāo)準(zhǔn)”,發(fā)射功率和接收靈敏度能滿足標(biāo)準(zhǔn)要求。
表4 PCBA單板傳導(dǎo)測試數(shù)據(jù)
(2)無源測試,測試數(shù)據(jù)如表5所示。結(jié)論:由于音頻常使用128 kbps、192 kbps、256 kbps、320 kbps共4種固定碼率的音樂文件,速率要求不高,并且整機(jī)吞吐測試的TX和RX的平均速率均大于2 Mbits/sec,目前的測試數(shù)據(jù)滿足實(shí)際使用需求。
表5 2400~2500 Hz頻率下(整機(jī))測試數(shù)據(jù)
(3)吞吐測試,測試數(shù)據(jù)如表6所示。結(jié)論:使用某品牌路由器測試整機(jī)吞吐量,測試數(shù)據(jù)中TX的平均值為7.54 Mbits/sec,RX的平均值為9.48 Mbits/sec,滿足系統(tǒng)需求。
本次語音性能測試標(biāo)準(zhǔn)參照中家院的HCT-JSGF-062-2019家用房間空氣調(diào)節(jié)器語音控制功能測評規(guī)范[7],本規(guī)范規(guī)定了智能家用房間空氣調(diào)節(jié)器產(chǎn)品的語音控制功能的測評方法,與GB/T 28219-2018《智能家用電器的智能化技術(shù)通則》[8]配合使用。
表6 吞吐量測試21米穿墻(墻厚45 cm)測試數(shù)據(jù)
語音空調(diào)識別性能需滿足如下要求:
(1)語音空調(diào)應(yīng)支持離線、在線雙模語音識別;
(2)語音控制功能應(yīng)能夠支持5 m范圍內(nèi)的有效喚醒和識別;
(3)語音空調(diào)在不同環(huán)境條件下的識別率要求,滿足如表7所示標(biāo)準(zhǔn)。前期已經(jīng)量產(chǎn)的RK3308主控芯片搭載Linux系統(tǒng)的語音空調(diào)識別測試數(shù)據(jù)如表8所示,本文中國產(chǎn)專用語音芯片搭載國產(chǎn)物聯(lián)網(wǎng)系統(tǒng)的語音空調(diào)識別測試數(shù)據(jù)如表9所示。
表7 不同信噪比、距離要求達(dá)到的識別率
經(jīng)對比測試(測試數(shù)據(jù)如表8和表9所示),基于國產(chǎn)物聯(lián)網(wǎng)系統(tǒng)專用語音芯片的語音空調(diào)識別效果和搭載Linux系統(tǒng)前期量產(chǎn)語音空調(diào)識別效果在不同的信噪比、不同的測試距離條件下測試結(jié)果相當(dāng),均符合第三方識別性能測試標(biāo)準(zhǔn)要求,搭載本語音模組的語音空調(diào)可滿足產(chǎn)業(yè)化推廣應(yīng)用要求。
(1)該語音系統(tǒng)不僅啟動快、功耗低,而且實(shí)現(xiàn)了離線和在線雙模式語音控制。
(2)本地音頻文件由PCM格式改為ADPCM格式,占用內(nèi)存小,減少離線播報(bào)音頻對于系統(tǒng)資源的過大占用,降低硬件成本。
(3)設(shè)計(jì)基于異構(gòu)神經(jīng)網(wǎng)絡(luò)的主動學(xué)習(xí)方法,用此方法來高效選擇數(shù)據(jù),從海量數(shù)據(jù)中挖掘出有效的數(shù)據(jù),降低獲取高質(zhì)量數(shù)據(jù)成本,有效提高復(fù)雜環(huán)境下語音識別的準(zhǔn)確性,經(jīng)第三方機(jī)構(gòu)性能測試,語音識別性能指標(biāo)滿足語音工程應(yīng)用要求。
綜上所述,新研制的語音識別模組因其低成本、高性能的特性(噪聲環(huán)境下,識別率90%,連續(xù)運(yùn)行72 h,誤喚醒≤3次),在家電領(lǐng)域具有廣泛推廣的價(jià)值。
表8 搭載Linux系統(tǒng)的RK3308芯片語音識別測試數(shù)據(jù)
表9 搭載國產(chǎn)物聯(lián)網(wǎng)系統(tǒng)的國產(chǎn)專用語音芯片識別測試數(shù)據(jù)