毛躍輝
珠海格力電器股份有限公司 廣東珠海 519070
語音是人類交流最自然、最便捷的方式,因而也必然成為人機交互最自然的手段之一。常規(guī)空調搭載傳聲器陣列、語音模組、音箱等器件,并組成語音控制系統(tǒng),用于空調控制和人機交互,此類空調稱之為語音空調。語音空調人機交互技術包括前端聲學處理、語音識別(ASR)、語義理解(NLU)和語音合成(TTS)等,其中前端聲學處理尤為重要,是語音識別的先決條件。語音空調聲學處理主要包括前端聲學件(傳聲器陣列)設計及前端識別降噪處理(語音模組),聲學件設計的好壞,直接影響前端降噪效果,進而影響語音音頻轉文本效果。
本文重點論述前端聲學件傳聲器陣列的設計選型方法、布放位置及相關整機工程應用設計注意要點,便于后續(xù)指導相應語音產品開發(fā)。
消費級傳聲器陣列應用,主要面臨環(huán)境噪聲、房間混響、人聲疊加、模型噪聲、陣列結構等問題,若應用到語音識別場景,需要考慮陣列結構與整機匹配、密封性,陣列與音箱的相對位置、空調內部振動,以及避免振動對傳聲器陣列干擾等問題。良好的聲學設計能保證傳聲器陣列采音質量,有利于降噪算法處理。
圖1 語音信號處理流程圖
前端信號處理流程如圖1所示,從圖中可知,傳聲器陣列聲學處理處于十分重要的位置,其采音效果好壞,直接影響信號處理中回聲以及混響消除結果;其次,音箱發(fā)聲時,信號通過空調內部腔體傳播后直接傳輸?shù)絺髀暺麝嚵刑?,其與通過外部傳輸?shù)膫鬏斣肼暣嬖陲@著差異,影響回聲消除效果;另外,空調內部振動傳聲,也會影響語音空調喚醒與識別效果,且很難通過后期信號處理算法進行消除,此點在設計時需做規(guī)避。
空調中主要運動部件包括壓縮機、電機、導風板等,該部件在運轉過程中會產生各種機械振動及噪聲,空調上的傳聲器陣列在采集聲信號過程中,同時會采集這些干擾噪聲,將對信號處理、語音識別等過程帶來不利影響。為減弱這些干擾,需要綜合考慮傳聲器陣列拓撲結構設計、音箱布放位置對陣列影響、陣列與整機密封性匹配、內部振動影響陣列等多種因素。合理的聲學結構設計能有效改善陣列陣元采音質量,從源頭上降低噪聲干擾,從而降低降噪算法信號處理復雜度。
陣列選型設計時需注意:
(1)避免大音量時語音失真和回采音箱音量時被截幅,傳聲器最大錄音聲壓需要相應提高。
(2)總諧波失真要盡量小,可參照工程經驗值:100 Hz~200 Hz,總諧波失真<10%;200 Hz~350 Hz,總諧波失真<5%;350 Hz以上,總諧波失真<3%。
(3)傳聲器本身引入噪聲對信號質量有影響,必須保證高信噪比,一般選擇SNR≥67 dB。
(4)有效采樣比特位數(shù)優(yōu)先考慮選擇不小于16 bit陣元為宜。
(5)同一傳聲器陣列中選用的陣元均需采用同一檔位靈敏度及其公差,保證陣元電性能參數(shù)一致性。
(6)設計中要求拾音孔深度≤1.5 mm,拾音孔直徑盡可能大,最小要求2 mm;均勻線性陣列采用緊貼面板安裝方式,參照如圖2所示。
圖2 掛式空調線性陣列設計示意圖
(7)振動對傳聲器陣列陣元拾音影響。當音箱播放音量超出其線性發(fā)聲區(qū)域而引起結構上振動,或由于內部隔聲效果不佳導致振音由內部結構被陣列陣元采集,而不是通過外部聲學路徑傳輸,此時會導致傳聲器陣列采音質量明顯受到影響,對后續(xù)信號處理、語音識別等過程造成嚴重干擾。
以AEC處理為例,內部直接傳導振音強、弱對其處理效果影響是十分明顯的。如圖3、圖4所示,在同樣信號回聲比情形下,較強和較弱振動直接傳導的算法前后處理效果對比。從圖3分析,振動殘余會對AEC算法造成影響,有若干頻帶振動分量的明顯殘余(人耳聽會有明顯的刺拉聲),進而影響后端各項處理,此時,需要在結構設計時加以規(guī)避,圖4為經過減振優(yōu)化后效果。
人為因子 是指人類在對植物資源的利用、改造和破壞過程中給植物帶來的有利或有害影響。這是一類特殊的因子,因為人類對植物的作用是有意識的和有目的的,所以具有無限的支配力。
圖3 較強振動直接傳導AEC算法處理前后效果對比
圖4 較弱振動直接傳導AEC算法處理前后效果對比
對于振動的影響,采用膠套進行減振密封處理,一般采用硅材質,硅膠軟硬程度可根據(jù)實際結構契合度進行匹配調整,要求盡可能軟,便于起到良好的減振作用。
(8)陣列拓撲結構外聲音能以接近自由場方式直接到達每一個陣元,避免出現(xiàn)掩蔽效應。陣元外表面要充分透聲,不能有聲反射區(qū)形成,可用阻尼布等材料覆蓋表面設計,防水透聲同時可避免反射形成。
(9)陣列設計時要考慮陣元各拾音孔腔之間的獨立性,確保每個陣元孔腔是唯一進聲孔。開發(fā)中可以采用簡易方法進行定性驗證,即用手按住陣元拾音孔,拾音音量減小值≥10 dB。圖5為雙傳聲器陣列安裝時聲腔內部與陣元之間結構配合示意圖。
圖5 均勻線陣雙傳聲器陣列陣元與面板安裝方式結構示意圖
(10)陣列與安裝位置面板間密封性匹配。傳聲器陣列陣元采用全向,空調運行中將無法避免產生各種自噪聲,且被傳聲器陣列所采集,此類噪聲要加以規(guī)避。為此,需要進一步對傳聲器拾音孔以外的部位進行密封,保證人聲拾音僅由拾音孔通道進入,而不去采集空調內部的聲音,降低結構內部傳聲帶來的強干擾。
傳聲器陣列通常安裝于室內機殼體內部,并在表面開孔以進行拾音。針對特定空調結構,需確定其主要噪聲(如蒸發(fā)器液流聲、電機運轉聲等)和振動異響(如面殼接合處不嚴所造成的摩擦等)的來源,并將傳聲器陣列布放在遠離這些干擾源位置,同時輔以相應隔音措施。圖6為掛式空調傳聲器陣列布放位置選擇示意圖。
圖6中示例的幾種陣列布放方式共同遵循原則:遠離出風口、振動噪聲源以及音箱位置,便于獲得較高信號回聲比和良好聲學回聲抵消效果。
圖6 掛式空調傳聲器陣列安裝位置
圖6中左圖所示結構相對遠離空調內機最大干擾源(出風口),同時距離音箱(音箱位于左上角)擺放位置較遠,其拾音信噪比和信號回聲比相對較高,是一個較好的傳聲器陣列布放位置??紤]外觀效果,傳聲器陣列拾音需要在面板開孔,且開孔難以很好隱蔽,從而導致空調整體造型會受到影響。因而,在實施過程中,需要同步考慮將傳聲器陣列放置在出風口底殼附近且出風口下部(中圖方框示意)或底殼最底部(右圖方框示意)位置。
圖7 立式空調傳聲器陣列與音箱典型布放位置示意圖
如圖8,通過對傳聲器陣列和音箱在空調內部模擬聲音泄露路徑分析,兩者布放設計要點總結如下:
(1)音箱結構設計要避免引發(fā)失真,安裝及周圍關聯(lián)位置要進行減振、隔聲處理,避免振動對陣列造成影響;
(2)避免結構內聲音傳播,即音箱聲音不能在結構內直接泄露到陣列陣元處,只能通過結構外空氣傳播至陣元。音箱和陣列布放在不同腔體,選用較好密封材料,單獨對傳聲器陣列進行密封隔離;
(3)150 Hz~7 kHz頻率范圍的THD優(yōu)先考慮在1%以下,具體可結合工程應用做實際調整。
圖8 空調內部模擬聲音泄露傳播路徑圖
目前空調頭部基本為弧面結構,導致陣列適應結構設計也呈弧面形式,易出現(xiàn)某些邊界角度喚醒、識別明顯弱于說話人正面水平識別,主要原因有:
(1)傳聲器陣列安裝時與面板弧面拾音孔契合度不好,漏音,導致拾音不集中;
(2)傳聲器陣列各陣元間靈敏度存在較大差異,一致性不夠;
(3)結構本身限制,對傳聲器陣列形成了遮擋或拾音孔位置偏離,影響陣元整體拾音。
對于上述影響因素,在陣列設計之初,注意陣元參數(shù)一致性,陣列拓撲結構選型以及裝配時與結構契合度等多種保障措施協(xié)調配合。
以某款掛式語音空調為例進行整機聲學工程試驗驗證,關鍵試驗項有:①設備自身MIC錄音,REF信號幅值,REF信道底噪試驗;②REF和MIC錄音通道延時試驗;③MIC頻響曲線試驗;④MIC的總諧波失真(THD)試驗;⑤音箱總諧波失真(THD)試驗。通過上述試驗,并結合實際語音識別性能(喚醒率、識別率、誤喚醒)測試,驗證本文提出設計方法和關鍵技術要點可行性,試驗效果如下(以下序號分別對應上述試驗項):
(1)不播放任何聲音,空調自身MIC錄音,REF信號幅值應該為0 smpl,REF信道的底噪設計要求<100 Hz,相應測試結果如圖9所示,基本趨于無信號。
(2)REF和MIC錄音通道延時設計要求<10 ms,如圖10所示,驗證結果為2 ms。
(3)傳聲器頻響曲線(FR)測試,在200 Hz~1 kHz時,測試差值為±1.7和±2.3;在1 kHz-8 kHz時,測試差值為±4.4和±4.6,如圖11所示。
(4)傳聲器的總諧波失真(THD),設計要求在200 Hz~8 kHz時,小于0.5%,目前測試結果分別為0.6%和0.52%,如圖12所示,略微超出設計要求,后續(xù)需要結合實際語音識別性能進行綜合判斷。
圖9 空調MIC錄音時REF信號幅值
圖10 REF和MIC錄音通道延時
(5)音箱總諧波失真(THD),設計要求在100 Hz~200 Hz時,THD<10%;在200 Hz~350 Hz時,THD<5%;350 Hz以上時,THD<3%,測試結果僅在4 kHz處有超標,測試結果為8.4%,如圖13所示,后續(xù)結合實際識別性能進行綜合判斷。
通過對語音空調傳聲器陣列設計研究分析,提出設計方法和關鍵技術注意要點,并在項目實施中經過一系列工程試驗驗證,得到較好效果,總結傳聲器陣列設計和確認步驟如下:
針對傳聲器陣列進行設計選型評價。主要對傳聲器陣列、音箱聲學結構設計評估,便于確認陣元選型和陣列拓撲構型,明確陣列與聲腔及安裝結構間匹配度,確認陣列拾音孔深度和直徑大??;其次,確認音箱選型、音箱構型、出聲孔直徑和數(shù)量,確認陣列與音箱布放相對位置。
進行首次快速摸底測試評價。計算陣元和帶聲腔結構傳聲器陣列之間錄音的諧波程度、密封性驗證情況等,根據(jù)分析結果確定是否通過摸底測試。
系統(tǒng)性試驗最終驗收評價。針對試制機子進行綜合指標測試,包含陣元和陣列密封性、REF信號幅值、REF信道底噪、REF和陣元錄音通道延時、陣元頻響曲線、陣元總諧波失真(THD)、音箱總諧波失真(THD)試驗,確認最終設計評價是否通過。
通過上述評價并結合語音識別性能試驗測試,整體識別率達到95%以上,最終通過產品應用確認,所設計的傳聲器陣列符合產品要求,可保證產品性能可靠性,滿足用戶使用要求。
圖11 傳聲器頻響曲線(FR)測試曲線
圖12 傳聲器總諧波失真(THD)測試曲線
圖13 音箱總諧波失真(THD)測試曲線