陳悅勤 錢小毅
(上海申通地鐵集團(tuán)有限公司, 201103, 上?!蔚谝蛔髡?, 工程師)
發(fā)展城市軌道交通是建設(shè)綠色城市、智慧城市的有效途徑。智慧車站基于全面的智能感知、深度的數(shù)據(jù)融合、高效的數(shù)據(jù)治理理念,利用多種智能化手段,實(shí)現(xiàn)豐富乘客乘車體驗(yàn)、提升乘客滿意度、提高設(shè)備設(shè)施可靠性及實(shí)用性等目標(biāo)[1]。
簡(jiǎn)便購(gòu)票流程、提高購(gòu)票效率能夠有效提升乘客滿意度。傳統(tǒng)的乘客購(gòu)票方式主要有人工窗口購(gòu)票和自動(dòng)售票機(jī)(TVM)購(gòu)票兩種。自動(dòng)售票機(jī)能夠快速實(shí)現(xiàn)線路查詢、車票發(fā)售、找零等功能,相較于人工窗口購(gòu)票,其能夠有效提高乘客的購(gòu)票效率,節(jié)約乘客購(gòu)票時(shí)間。但當(dāng)乘客不熟悉操作流程或不識(shí)字時(shí),可能造成購(gòu)票耗時(shí)的增加,甚至可能因操作不當(dāng)引起設(shè)備故障以及增加人工窗口的負(fù)擔(dān)[2]。
智能語(yǔ)音售票機(jī)引入了語(yǔ)音識(shí)別功能,能夠幫助不熟悉的乘客完成購(gòu)票全部流程,以避免發(fā)生上述問題。乘客購(gòu)票時(shí),可通過觸發(fā)語(yǔ)音切換按鈕將手動(dòng)操作轉(zhuǎn)化為單純語(yǔ)音輸入操作,高效便捷地實(shí)現(xiàn)票價(jià)咨詢、站點(diǎn)信息查詢、換乘信息查詢、嘈雜環(huán)境下語(yǔ)音正確識(shí)別、車票購(gòu)買等功能[3]。僅需通過口述目的站點(diǎn)及車票張數(shù)等信息即可實(shí)現(xiàn)正確購(gòu)票,大大簡(jiǎn)化了購(gòu)票流程,提高了購(gòu)票效率,也減輕了票務(wù)人員人工操作壓力。
智能語(yǔ)音售票機(jī)需具備嘈雜環(huán)境語(yǔ)音識(shí)別能力。公眾空間混合強(qiáng)噪聲環(huán)境中的多人人聲、車輛行駛轟鳴聲、廣播播報(bào)聲、大封閉空間產(chǎn)生的混響等多種因素會(huì)嚴(yán)重影響語(yǔ)音識(shí)別的效果,因此該技術(shù)的關(guān)鍵及難點(diǎn)在于噪聲處理[4]。此外,在該環(huán)境下售票機(jī)的喚醒方式不宜采用語(yǔ)音喚醒,人臉識(shí)別技術(shù)能夠更加有效地保證設(shè)備喚醒效率[5]。
目前,智能語(yǔ)音輔助購(gòu)票技術(shù)已應(yīng)用于上海軌道交通部分車站的自動(dòng)售票機(jī),在乘客購(gòu)票的關(guān)鍵步驟中提供“因人而宜”的個(gè)性化語(yǔ)音提示,使乘客在購(gòu)票準(zhǔn)確度、購(gòu)票服務(wù)支持等方面的體驗(yàn)有了較為明顯的提高[6]。
本文針對(duì)地鐵車站嘈雜環(huán)境和實(shí)際用戶需求,探討新型智能語(yǔ)音售票機(jī)系統(tǒng)的線性麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、基于視頻的人臉識(shí)別技術(shù)和多模態(tài)信息融合技術(shù)應(yīng)用,該系統(tǒng)可實(shí)現(xiàn)售票機(jī)“免喚醒”,以及高效的智能語(yǔ)音購(gòu)票和地點(diǎn)查詢功能,可有效提升乘客購(gòu)票效率。
為了應(yīng)對(duì)嘈雜環(huán)境對(duì)智能售票機(jī)語(yǔ)音識(shí)別能力的影響,智能語(yǔ)音售票機(jī)系統(tǒng)采用了線性麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、基于視頻的人臉識(shí)別技術(shù)和多模態(tài)信息融合技術(shù)。
圖1為麥克風(fēng)陣列拾音示意圖。
常見的單麥克風(fēng)前端語(yǔ)音增強(qiáng)方法雖然能實(shí)現(xiàn)大量降噪,但對(duì)非平穩(wěn)噪聲抑制能力較弱,同時(shí)會(huì)使引入的語(yǔ)音信號(hào)失真,導(dǎo)致在地鐵車站等噪聲動(dòng)態(tài)范圍大、噪聲模式多樣的場(chǎng)景下難以獲得較高的語(yǔ)音信號(hào)信噪比,無法滿足語(yǔ)音識(shí)別的要求。
均勻線性陣列示意圖如圖2所示。圖2中,M個(gè)麥克風(fēng)以δ為間隔,接收由聲源發(fā)出的聲音信號(hào)X(f)(f為頻率),聲波入射角度為θd,第i個(gè)麥克風(fēng)接收信號(hào)為Yi(f),Vi(f)為第i個(gè)麥克風(fēng)的加性高斯白噪聲。
麥克風(fēng)接受信號(hào)組成的矢量Y(f)為:
Y(f)=d(f,cosθd)X(f)+V(f)
(1)
式中:
d(f,cosθd)——陣列的導(dǎo)向矢量;
X(f)——由聲源發(fā)出的聲音信號(hào)矢量;
V(f)——麥克風(fēng)的加性高斯白噪聲矢量。
d(f,cosθd)=[1 e-j2πfτ0cos θd…
e-j(M-1)2πfτ0cos θd]T
(2)
式中:
j——虛數(shù);
τ0——聲波入射角度θd=0時(shí)相鄰兩個(gè)麥克風(fēng)之間的時(shí)間延遲。
麥克風(fēng)陣列的主要性能指標(biāo)包括波束圖和白噪聲增益。波束圖可表述陣列在特定頻率f對(duì)不同入射角信號(hào)的增益B(f,θd),應(yīng)用延遲求和波束成形算法的波束增益公式為:
B(f,θd)=dH(f,cosθd)h(f)
(3)
其中:h(f)=[H1(f)H2(f) …HM(f)],Hi(f)表示第i個(gè)麥克風(fēng)在頻率f上的響應(yīng);dH表示對(duì)向量d作共軛轉(zhuǎn)置。
白噪聲增益為空間非相干白噪聲場(chǎng)下的陣列增益,即指向方向的增益與平均噪聲功率之比。當(dāng)采用延遲求和算法時(shí),其陣列增益W(f)表達(dá)式為:
W(f)=M
(4)
可見,白噪聲增益與麥克風(fēng)數(shù)量M成正比,麥克風(fēng)數(shù)量越多,指向方向獲得越好的抗噪性能。
地鐵環(huán)境聲音嘈雜,也無法對(duì)乘客提前進(jìn)行語(yǔ)音購(gòu)票機(jī)使用培訓(xùn),采用“喚醒詞+命令句式”實(shí)現(xiàn)語(yǔ)音購(gòu)票功能喚醒不適用于地鐵車站環(huán)境。智能語(yǔ)音售票機(jī)系統(tǒng)采用視頻攝像頭檢測(cè)人臉,確定人員正在購(gòu)票,從而喚醒語(yǔ)音購(gòu)票功能。
地鐵車站環(huán)境視頻檢測(cè)復(fù)雜性較高,存在大量背景雜物,人臉姿態(tài)角度不一,光照和遮擋也會(huì)對(duì)檢測(cè)造成影響,進(jìn)行快速準(zhǔn)確的人臉檢測(cè)難度較大。
本文基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)架構(gòu)設(shè)計(jì)了一種人臉匹配算法,對(duì)人臉特征進(jìn)行多重檢測(cè)后提取人臉信息。其網(wǎng)絡(luò)構(gòu)架(見圖3)主要包含PNet(Proposal Network,候選網(wǎng)絡(luò))、RNet(Refine Network,修正網(wǎng)絡(luò))和ONet(Output Network,輸出網(wǎng)絡(luò)),分別負(fù)責(zé)人臉的初步檢測(cè)、位置修正、復(fù)雜樣本分類,最終輸出人臉位置和關(guān)鍵點(diǎn)信息。
多模態(tài)信息融合是指整合或融合兩種及兩種以上信息來源,利用不同信息媒介的優(yōu)勢(shì),使得識(shí)別或信息處理更加精準(zhǔn)。在智能語(yǔ)音售票機(jī)系統(tǒng)中,多模態(tài)體現(xiàn)在以下兩個(gè)方面:
1) 音視頻協(xié)同處理:可同時(shí)采集高清視頻流、麥克風(fēng)陣列信號(hào)和用戶操作信息,通過用戶點(diǎn)擊“語(yǔ)音購(gòu)票”按鈕或攝像頭檢測(cè)到有人走到售票機(jī)屏幕前,語(yǔ)音模塊自動(dòng)喚起。其采用免喚醒語(yǔ)音輸入,不需要輸入其他同類產(chǎn)品的喚醒詞,免去了用戶培訓(xùn)過程。此后,攝像頭通過用戶臉部關(guān)鍵點(diǎn)來定位用戶聲源位置,麥克風(fēng)陣列通過8個(gè)麥克風(fēng)孔來進(jìn)行波束成形,將主瓣對(duì)準(zhǔn)用戶,結(jié)合攝像頭和麥克風(fēng)陣列來判斷當(dāng)前說話用戶的位置是否一致,一致則用戶語(yǔ)音有效,不一致則用戶語(yǔ)音無效。即通過視頻識(shí)別與聲音識(shí)別進(jìn)行多模態(tài)信息融合判斷。
2) 地圖知識(shí)庫(kù)支撐的地鐵站點(diǎn)查詢:一般語(yǔ)義識(shí)別方案僅支持查詢特定地鐵站名作為購(gòu)票起止點(diǎn),不具備模糊查詢功能,如根據(jù)地標(biāo)設(shè)定附近車站。智能語(yǔ)音售票機(jī)系統(tǒng)采用外部地圖的成熟技術(shù)數(shù)據(jù),協(xié)同語(yǔ)義識(shí)別的起止點(diǎn)信息,自動(dòng)反推最近的地鐵站,大大提高了語(yǔ)音售票機(jī)服務(wù)的便捷性和易用性,更適應(yīng)乘客常用的起止點(diǎn)表達(dá)方式。
基于上文所述的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、人臉檢測(cè)算法和多模態(tài)信息融合技術(shù),在傳統(tǒng)TVM基礎(chǔ)上增加了智能語(yǔ)音模塊,使其具備車站復(fù)雜環(huán)境下的語(yǔ)音購(gòu)票功能。本節(jié)重點(diǎn)介紹具體硬件架構(gòu)和購(gòu)票業(yè)務(wù)流程。
智能語(yǔ)音售票機(jī)系統(tǒng)硬件架構(gòu)(見圖4)包含以下主要模塊:
1) TVM主控:地鐵站現(xiàn)有的售票機(jī)箱體機(jī)器通過串口與智能處理工控機(jī)進(jìn)行數(shù)據(jù)交互。
2) 智能處理工控機(jī):負(fù)責(zé)麥克風(fēng)陣列語(yǔ)音增強(qiáng)處理和視頻人臉檢測(cè)處理。
3) 語(yǔ)音處理云服務(wù)器:部署在地鐵運(yùn)營(yíng)公司數(shù)據(jù)中心,是一臺(tái)專有云語(yǔ)音識(shí)別和自然語(yǔ)言理解服務(wù)器,由地鐵專網(wǎng)保障其網(wǎng)絡(luò)信息安全。
4) 第三方地圖信息服務(wù)器:部署在地鐵運(yùn)營(yíng)公司數(shù)據(jù)中心,是一臺(tái)專有云第三方地圖服務(wù)器,為語(yǔ)音購(gòu)票技術(shù)提供地理位置查詢功能。
5) 高清攝像頭和麥克風(fēng)陣列:工業(yè)級(jí)別的攝像頭和麥克風(fēng)陣列,需要在TVM機(jī)器上打洞安裝,通過USB與信號(hào)處理工控機(jī)通信。
6) 數(shù)據(jù)回傳模塊:由無線或有線網(wǎng)絡(luò)連接至AFC(自動(dòng)售檢票)專網(wǎng),將語(yǔ)音和視頻信息經(jīng)過數(shù)據(jù)安全性增強(qiáng)后接入專有云服務(wù)器。
語(yǔ)音購(gòu)票過程中的典型人機(jī)交互流程如圖5所示。
當(dāng)工控機(jī)通過高清攝像頭檢測(cè)到用戶靠近時(shí),會(huì)主動(dòng)發(fā)送OnWakeup(喚醒指令)請(qǐng)求給TVM主控。TVM主控需返回確認(rèn)喚醒ACK(確認(rèn)喚醒),并顯示語(yǔ)音提示窗口。
隨著用戶說話的過程,工控機(jī)會(huì)多次發(fā)送ASR,逐字返回用戶語(yǔ)音內(nèi)容。TVM主控需要多次刷新語(yǔ)音提示窗口中的語(yǔ)音內(nèi)容。當(dāng)用戶說完以后,工控機(jī)查詢到結(jié)果,則會(huì)發(fā)送路徑請(qǐng)求給TVM主控,直接跳轉(zhuǎn)路徑導(dǎo)航頁(yè)面。如果有超過一個(gè)候選項(xiàng),則顯示多個(gè)候選項(xiàng)。
在語(yǔ)音提示窗口狀態(tài)下,用戶點(diǎn)擊屏幕其他區(qū)域或者點(diǎn)擊返回按鈕,則TVM主控發(fā)送睡眠請(qǐng)求,并關(guān)閉語(yǔ)音提示窗口。
1) 語(yǔ)音問詢:乘客在問詢時(shí),可以直接通過語(yǔ)音說出要去的地點(diǎn),問詢機(jī)會(huì)推薦附近的地鐵站和引導(dǎo)相關(guān)購(gòu)票流程。
2) 免喚醒啟動(dòng):監(jiān)測(cè)到用戶走到問詢機(jī)器前時(shí),語(yǔ)音模塊會(huì)自動(dòng)喚起,隨即進(jìn)入問詢初始化界面,乘客從而可以直接進(jìn)行語(yǔ)音問詢。
3) 地點(diǎn)確認(rèn):用戶每說完一句話,經(jīng)過語(yǔ)音轉(zhuǎn)文本、語(yǔ)義分析后,結(jié)合第三方地圖信息查詢到最近站點(diǎn),給出出行建議。如果有存在多個(gè)地點(diǎn)或者多個(gè)地鐵站的情況,將備選項(xiàng)(包含地點(diǎn)、附近地鐵站推薦)顯示在界面上供用戶選擇,最多顯示5個(gè)。
智能語(yǔ)音售票機(jī)需具有良好的實(shí)時(shí)響應(yīng)性能和準(zhǔn)確的乘客語(yǔ)音識(shí)別能力。因此,需能夠?qū)崟r(shí)監(jiān)測(cè)乘客靠近、高抗擾語(yǔ)音識(shí)別和提供無延遲綜合服務(wù)。
本文從麥克風(fēng)陣列的抗噪性能、智能TVM總體技術(shù)性能和用戶體驗(yàn)3個(gè)角度分析應(yīng)用效果。
通過仿真計(jì)算得到基于8個(gè)麥克風(fēng)的線性陣列和語(yǔ)音增強(qiáng)技術(shù)的波束圖,如圖6~7所示。圖6中,兩側(cè)旁瓣相對(duì)于正前方主瓣至少弱18 dB,圖7中的也至少弱13 dB。可見,該語(yǔ)音增強(qiáng)技術(shù)可有效提升正前方聲音增益,屏蔽側(cè)方其他TVM的乘客語(yǔ)音。結(jié)合人臉識(shí)別和關(guān)鍵點(diǎn)定位,可進(jìn)一步在時(shí)域或空間域處理目標(biāo)語(yǔ)音,消除其他方向的干擾。
在實(shí)際應(yīng)用中,通過測(cè)試驗(yàn)證,該智能語(yǔ)音售票機(jī)可滿足以下性能指標(biāo):
1) 在80~90 dB的強(qiáng)噪聲環(huán)境下仍然可以正常工作;
2) 滿足人距離設(shè)備1 m以內(nèi)的語(yǔ)音交互場(chǎng)景;
3) 支持免喚醒語(yǔ)音輸入、拼音首字母輸入和模糊地點(diǎn)查詢功能;
4) 設(shè)置地鐵車站名詞415個(gè)(涵蓋所有地鐵站名),導(dǎo)入上海地標(biāo)、景區(qū)、地鐵周邊設(shè)施、小區(qū)等名詞近3 000個(gè)(幾乎涵蓋所有地點(diǎn));
5) 地址名詞正確率>90%;
6) 網(wǎng)絡(luò)通暢時(shí),時(shí)延≤0.5 s;
7) 支持地址模糊查詢;
8) 滿足IP54(防塵防水等級(jí))、部署、長(zhǎng)期維護(hù)和檢測(cè)、數(shù)據(jù)統(tǒng)計(jì)等各類其他要求。
在上海軌道交通漢中路站進(jìn)行了傳統(tǒng)售票機(jī)和智能語(yǔ)音售票機(jī)的購(gòu)票測(cè)試。共采集兩種售票機(jī)的購(gòu)票時(shí)間數(shù)據(jù)樣本89個(gè)。購(gòu)票時(shí)間是指用戶開始與TVM交互,至購(gòu)票結(jié)束為止所用時(shí)間。傳統(tǒng)售票機(jī)用戶平均購(gòu)票時(shí)間為30.64 s,而智能語(yǔ)音售票機(jī)的僅需11.85 s,大大提升了售票效率。
本文探討了智能語(yǔ)音售票機(jī)系統(tǒng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、人臉關(guān)鍵點(diǎn)識(shí)別技術(shù)及多模態(tài)信息融合技術(shù),介紹了具體硬件架構(gòu)和業(yè)務(wù)流程。智能語(yǔ)音售票機(jī)系統(tǒng)可實(shí)現(xiàn)乘客智能語(yǔ)音購(gòu)票、縮短乘客購(gòu)票時(shí)間、減少購(gòu)票排隊(duì)壓力,同時(shí)也能有效降低設(shè)備故障率及維修人力、物力的投入,提升服務(wù)質(zhì)量。