城市軌道交通智能語(yǔ)音售票機(jī)關(guān)鍵技術(shù)及應(yīng)用研究

2022-12-13 03:32:14陳悅勤錢小毅

城市軌道交通研究 2022年10期

陳悅勤錢小毅

(上海申通地鐵集團(tuán)有限公司， 201103，上?！蔚谝蛔髡?，工程師)

0 引言

發(fā)展城市軌道交通是建設(shè)綠色城市、智慧城市的有效途徑。智慧車站基于全面的智能感知、深度的數(shù)據(jù)融合、高效的數(shù)據(jù)治理理念，利用多種智能化手段，實(shí)現(xiàn)豐富乘客乘車體驗(yàn)、提升乘客滿意度、提高設(shè)備設(shè)施可靠性及實(shí)用性等目標(biāo)[1]。

簡(jiǎn)便購(gòu)票流程、提高購(gòu)票效率能夠有效提升乘客滿意度。傳統(tǒng)的乘客購(gòu)票方式主要有人工窗口購(gòu)票和自動(dòng)售票機(jī)(TVM)購(gòu)票兩種。自動(dòng)售票機(jī)能夠快速實(shí)現(xiàn)線路查詢、車票發(fā)售、找零等功能，相較于人工窗口購(gòu)票，其能夠有效提高乘客的購(gòu)票效率，節(jié)約乘客購(gòu)票時(shí)間。但當(dāng)乘客不熟悉操作流程或不識(shí)字時(shí)，可能造成購(gòu)票耗時(shí)的增加，甚至可能因操作不當(dāng)引起設(shè)備故障以及增加人工窗口的負(fù)擔(dān)[2]。

智能語(yǔ)音售票機(jī)引入了語(yǔ)音識(shí)別功能，能夠幫助不熟悉的乘客完成購(gòu)票全部流程，以避免發(fā)生上述問題。乘客購(gòu)票時(shí)，可通過觸發(fā)語(yǔ)音切換按鈕將手動(dòng)操作轉(zhuǎn)化為單純語(yǔ)音輸入操作，高效便捷地實(shí)現(xiàn)票價(jià)咨詢、站點(diǎn)信息查詢、換乘信息查詢、嘈雜環(huán)境下語(yǔ)音正確識(shí)別、車票購(gòu)買等功能[3]。僅需通過口述目的站點(diǎn)及車票張數(shù)等信息即可實(shí)現(xiàn)正確購(gòu)票，大大簡(jiǎn)化了購(gòu)票流程，提高了購(gòu)票效率，也減輕了票務(wù)人員人工操作壓力。

智能語(yǔ)音售票機(jī)需具備嘈雜環(huán)境語(yǔ)音識(shí)別能力。公眾空間混合強(qiáng)噪聲環(huán)境中的多人人聲、車輛行駛轟鳴聲、廣播播報(bào)聲、大封閉空間產(chǎn)生的混響等多種因素會(huì)嚴(yán)重影響語(yǔ)音識(shí)別的效果，因此該技術(shù)的關(guān)鍵及難點(diǎn)在于噪聲處理[4]。此外，在該環(huán)境下售票機(jī)的喚醒方式不宜采用語(yǔ)音喚醒，人臉識(shí)別技術(shù)能夠更加有效地保證設(shè)備喚醒效率[5]。

目前，智能語(yǔ)音輔助購(gòu)票技術(shù)已應(yīng)用于上海軌道交通部分車站的自動(dòng)售票機(jī)，在乘客購(gòu)票的關(guān)鍵步驟中提供“因人而宜”的個(gè)性化語(yǔ)音提示，使乘客在購(gòu)票準(zhǔn)確度、購(gòu)票服務(wù)支持等方面的體驗(yàn)有了較為明顯的提高[6]。

本文針對(duì)地鐵車站嘈雜環(huán)境和實(shí)際用戶需求，探討新型智能語(yǔ)音售票機(jī)系統(tǒng)的線性麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、基于視頻的人臉識(shí)別技術(shù)和多模態(tài)信息融合技術(shù)應(yīng)用，該系統(tǒng)可實(shí)現(xiàn)售票機(jī)“免喚醒”，以及高效的智能語(yǔ)音購(gòu)票和地點(diǎn)查詢功能，可有效提升乘客購(gòu)票效率。

1 智能語(yǔ)音售票機(jī)關(guān)鍵技術(shù)

為了應(yīng)對(duì)嘈雜環(huán)境對(duì)智能售票機(jī)語(yǔ)音識(shí)別能力的影響，智能語(yǔ)音售票機(jī)系統(tǒng)采用了線性麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、基于視頻的人臉識(shí)別技術(shù)和多模態(tài)信息融合技術(shù)。

1.1 麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)

圖1為麥克風(fēng)陣列拾音示意圖。

常見的單麥克風(fēng)前端語(yǔ)音增強(qiáng)方法雖然能實(shí)現(xiàn)大量降噪，但對(duì)非平穩(wěn)噪聲抑制能力較弱，同時(shí)會(huì)使引入的語(yǔ)音信號(hào)失真，導(dǎo)致在地鐵車站等噪聲動(dòng)態(tài)范圍大、噪聲模式多樣的場(chǎng)景下難以獲得較高的語(yǔ)音信號(hào)信噪比，無法滿足語(yǔ)音識(shí)別的要求。

均勻線性陣列示意圖如圖2所示。圖2中，M個(gè)麥克風(fēng)以δ為間隔，接收由聲源發(fā)出的聲音信號(hào)X(f)(f為頻率)，聲波入射角度為θd，第i個(gè)麥克風(fēng)接收信號(hào)為Yi(f)，Vi(f)為第i個(gè)麥克風(fēng)的加性高斯白噪聲。

麥克風(fēng)接受信號(hào)組成的矢量Y(f)為：

Y(f)=d(f,cosθd)X(f)+V(f)

(1)

式中：

d(f,cosθd)——陣列的導(dǎo)向矢量；

X(f)——由聲源發(fā)出的聲音信號(hào)矢量；

V(f)——麥克風(fēng)的加性高斯白噪聲矢量。

d(f,cosθd)=[1 e-j2πfτ0cos θd…

e-j(M-1)2πfτ0cos θd]T

(2)

式中：

j——虛數(shù)；

τ0——聲波入射角度θd=0時(shí)相鄰兩個(gè)麥克風(fēng)之間的時(shí)間延遲。

麥克風(fēng)陣列的主要性能指標(biāo)包括波束圖和白噪聲增益。波束圖可表述陣列在特定頻率f對(duì)不同入射角信號(hào)的增益B(f,θd)，應(yīng)用延遲求和波束成形算法的波束增益公式為：

B(f,θd)=dH(f,cosθd)h(f)

(3)

其中：h(f)=[H1(f)H2(f) …HM(f)]，Hi(f)表示第i個(gè)麥克風(fēng)在頻率f上的響應(yīng)；dH表示對(duì)向量d作共軛轉(zhuǎn)置。

白噪聲增益為空間非相干白噪聲場(chǎng)下的陣列增益，即指向方向的增益與平均噪聲功率之比。當(dāng)采用延遲求和算法時(shí)，其陣列增益W(f)表達(dá)式為：

W(f)=M

(4)

可見，白噪聲增益與麥克風(fēng)數(shù)量M成正比，麥克風(fēng)數(shù)量越多，指向方向獲得越好的抗噪性能。

1.2 基于視頻的人臉識(shí)別技術(shù)

地鐵環(huán)境聲音嘈雜，也無法對(duì)乘客提前進(jìn)行語(yǔ)音購(gòu)票機(jī)使用培訓(xùn)，采用“喚醒詞+命令句式”實(shí)現(xiàn)語(yǔ)音購(gòu)票功能喚醒不適用于地鐵車站環(huán)境。智能語(yǔ)音售票機(jī)系統(tǒng)采用視頻攝像頭檢測(cè)人臉，確定人員正在購(gòu)票，從而喚醒語(yǔ)音購(gòu)票功能。

地鐵車站環(huán)境視頻檢測(cè)復(fù)雜性較高，存在大量背景雜物，人臉姿態(tài)角度不一，光照和遮擋也會(huì)對(duì)檢測(cè)造成影響，進(jìn)行快速準(zhǔn)確的人臉檢測(cè)難度較大。

本文基于多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(MTCNN)架構(gòu)設(shè)計(jì)了一種人臉匹配算法，對(duì)人臉特征進(jìn)行多重檢測(cè)后提取人臉信息。其網(wǎng)絡(luò)構(gòu)架(見圖3)主要包含PNet(Proposal Network，候選網(wǎng)絡(luò))、RNet(Refine Network，修正網(wǎng)絡(luò))和ONet(Output Network，輸出網(wǎng)絡(luò))，分別負(fù)責(zé)人臉的初步檢測(cè)、位置修正、復(fù)雜樣本分類，最終輸出人臉位置和關(guān)鍵點(diǎn)信息。

1.3 多模態(tài)信息融合技術(shù)

多模態(tài)信息融合是指整合或融合兩種及兩種以上信息來源，利用不同信息媒介的優(yōu)勢(shì)，使得識(shí)別或信息處理更加精準(zhǔn)。在智能語(yǔ)音售票機(jī)系統(tǒng)中，多模態(tài)體現(xiàn)在以下兩個(gè)方面：

1) 音視頻協(xié)同處理：可同時(shí)采集高清視頻流、麥克風(fēng)陣列信號(hào)和用戶操作信息，通過用戶點(diǎn)擊“語(yǔ)音購(gòu)票”按鈕或攝像頭檢測(cè)到有人走到售票機(jī)屏幕前，語(yǔ)音模塊自動(dòng)喚起。其采用免喚醒語(yǔ)音輸入，不需要輸入其他同類產(chǎn)品的喚醒詞，免去了用戶培訓(xùn)過程。此后，攝像頭通過用戶臉部關(guān)鍵點(diǎn)來定位用戶聲源位置，麥克風(fēng)陣列通過8個(gè)麥克風(fēng)孔來進(jìn)行波束成形，將主瓣對(duì)準(zhǔn)用戶，結(jié)合攝像頭和麥克風(fēng)陣列來判斷當(dāng)前說話用戶的位置是否一致，一致則用戶語(yǔ)音有效，不一致則用戶語(yǔ)音無效。即通過視頻識(shí)別與聲音識(shí)別進(jìn)行多模態(tài)信息融合判斷。

2) 地圖知識(shí)庫(kù)支撐的地鐵站點(diǎn)查詢：一般語(yǔ)義識(shí)別方案僅支持查詢特定地鐵站名作為購(gòu)票起止點(diǎn)，不具備模糊查詢功能，如根據(jù)地標(biāo)設(shè)定附近車站。智能語(yǔ)音售票機(jī)系統(tǒng)采用外部地圖的成熟技術(shù)數(shù)據(jù)，協(xié)同語(yǔ)義識(shí)別的起止點(diǎn)信息，自動(dòng)反推最近的地鐵站，大大提高了語(yǔ)音售票機(jī)服務(wù)的便捷性和易用性，更適應(yīng)乘客常用的起止點(diǎn)表達(dá)方式。

2 智能語(yǔ)音售票機(jī)系統(tǒng)

基于上文所述的麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、人臉檢測(cè)算法和多模態(tài)信息融合技術(shù)，在傳統(tǒng)TVM基礎(chǔ)上增加了智能語(yǔ)音模塊，使其具備車站復(fù)雜環(huán)境下的語(yǔ)音購(gòu)票功能。本節(jié)重點(diǎn)介紹具體硬件架構(gòu)和購(gòu)票業(yè)務(wù)流程。

2.1 硬件架構(gòu)

智能語(yǔ)音售票機(jī)系統(tǒng)硬件架構(gòu)(見圖4)包含以下主要模塊：

1) TVM主控：地鐵站現(xiàn)有的售票機(jī)箱體機(jī)器通過串口與智能處理工控機(jī)進(jìn)行數(shù)據(jù)交互。

2) 智能處理工控機(jī)：負(fù)責(zé)麥克風(fēng)陣列語(yǔ)音增強(qiáng)處理和視頻人臉檢測(cè)處理。

3) 語(yǔ)音處理云服務(wù)器：部署在地鐵運(yùn)營(yíng)公司數(shù)據(jù)中心，是一臺(tái)專有云語(yǔ)音識(shí)別和自然語(yǔ)言理解服務(wù)器，由地鐵專網(wǎng)保障其網(wǎng)絡(luò)信息安全。

4) 第三方地圖信息服務(wù)器：部署在地鐵運(yùn)營(yíng)公司數(shù)據(jù)中心，是一臺(tái)專有云第三方地圖服務(wù)器，為語(yǔ)音購(gòu)票技術(shù)提供地理位置查詢功能。

5) 高清攝像頭和麥克風(fēng)陣列：工業(yè)級(jí)別的攝像頭和麥克風(fēng)陣列，需要在TVM機(jī)器上打洞安裝，通過USB與信號(hào)處理工控機(jī)通信。

6) 數(shù)據(jù)回傳模塊：由無線或有線網(wǎng)絡(luò)連接至AFC(自動(dòng)售檢票)專網(wǎng)，將語(yǔ)音和視頻信息經(jīng)過數(shù)據(jù)安全性增強(qiáng)后接入專有云服務(wù)器。

2.2 典型交互流程

語(yǔ)音購(gòu)票過程中的典型人機(jī)交互流程如圖5所示。

當(dāng)工控機(jī)通過高清攝像頭檢測(cè)到用戶靠近時(shí)，會(huì)主動(dòng)發(fā)送OnWakeup(喚醒指令)請(qǐng)求給TVM主控。TVM主控需返回確認(rèn)喚醒ACK(確認(rèn)喚醒)，并顯示語(yǔ)音提示窗口。

隨著用戶說話的過程，工控機(jī)會(huì)多次發(fā)送ASR，逐字返回用戶語(yǔ)音內(nèi)容。TVM主控需要多次刷新語(yǔ)音提示窗口中的語(yǔ)音內(nèi)容。當(dāng)用戶說完以后，工控機(jī)查詢到結(jié)果，則會(huì)發(fā)送路徑請(qǐng)求給TVM主控，直接跳轉(zhuǎn)路徑導(dǎo)航頁(yè)面。如果有超過一個(gè)候選項(xiàng)，則顯示多個(gè)候選項(xiàng)。

在語(yǔ)音提示窗口狀態(tài)下，用戶點(diǎn)擊屏幕其他區(qū)域或者點(diǎn)擊返回按鈕，則TVM主控發(fā)送睡眠請(qǐng)求，并關(guān)閉語(yǔ)音提示窗口。

2.3 主要功能

1) 語(yǔ)音問詢：乘客在問詢時(shí)，可以直接通過語(yǔ)音說出要去的地點(diǎn)，問詢機(jī)會(huì)推薦附近的地鐵站和引導(dǎo)相關(guān)購(gòu)票流程。

2) 免喚醒啟動(dòng)：監(jiān)測(cè)到用戶走到問詢機(jī)器前時(shí)，語(yǔ)音模塊會(huì)自動(dòng)喚起，隨即進(jìn)入問詢初始化界面，乘客從而可以直接進(jìn)行語(yǔ)音問詢。

3) 地點(diǎn)確認(rèn)：用戶每說完一句話，經(jīng)過語(yǔ)音轉(zhuǎn)文本、語(yǔ)義分析后，結(jié)合第三方地圖信息查詢到最近站點(diǎn)，給出出行建議。如果有存在多個(gè)地點(diǎn)或者多個(gè)地鐵站的情況，將備選項(xiàng)(包含地點(diǎn)、附近地鐵站推薦)顯示在界面上供用戶選擇，最多顯示5個(gè)。

3 應(yīng)用效果

智能語(yǔ)音售票機(jī)需具有良好的實(shí)時(shí)響應(yīng)性能和準(zhǔn)確的乘客語(yǔ)音識(shí)別能力。因此，需能夠?qū)崟r(shí)監(jiān)測(cè)乘客靠近、高抗擾語(yǔ)音識(shí)別和提供無延遲綜合服務(wù)。

本文從麥克風(fēng)陣列的抗噪性能、智能TVM總體技術(shù)性能和用戶體驗(yàn)3個(gè)角度分析應(yīng)用效果。

3.1 麥克風(fēng)陣列語(yǔ)音抗噪性能

通過仿真計(jì)算得到基于8個(gè)麥克風(fēng)的線性陣列和語(yǔ)音增強(qiáng)技術(shù)的波束圖，如圖6～7所示。圖6中，兩側(cè)旁瓣相對(duì)于正前方主瓣至少弱18 dB，圖7中的也至少弱13 dB。可見，該語(yǔ)音增強(qiáng)技術(shù)可有效提升正前方聲音增益，屏蔽側(cè)方其他TVM的乘客語(yǔ)音。結(jié)合人臉識(shí)別和關(guān)鍵點(diǎn)定位，可進(jìn)一步在時(shí)域或空間域處理目標(biāo)語(yǔ)音，消除其他方向的干擾。

3.2 TVM總體技術(shù)性能

在實(shí)際應(yīng)用中，通過測(cè)試驗(yàn)證，該智能語(yǔ)音售票機(jī)可滿足以下性能指標(biāo)：

1) 在80～90 dB的強(qiáng)噪聲環(huán)境下仍然可以正常工作；

2) 滿足人距離設(shè)備1 m以內(nèi)的語(yǔ)音交互場(chǎng)景；

3) 支持免喚醒語(yǔ)音輸入、拼音首字母輸入和模糊地點(diǎn)查詢功能；

4) 設(shè)置地鐵車站名詞415個(gè)(涵蓋所有地鐵站名)，導(dǎo)入上海地標(biāo)、景區(qū)、地鐵周邊設(shè)施、小區(qū)等名詞近3 000個(gè)(幾乎涵蓋所有地點(diǎn))；

5) 地址名詞正確率>90%；

6) 網(wǎng)絡(luò)通暢時(shí)，時(shí)延≤0.5 s；

7) 支持地址模糊查詢；

8) 滿足IP54(防塵防水等級(jí))、部署、長(zhǎng)期維護(hù)和檢測(cè)、數(shù)據(jù)統(tǒng)計(jì)等各類其他要求。

3.3 用戶體驗(yàn)

在上海軌道交通漢中路站進(jìn)行了傳統(tǒng)售票機(jī)和智能語(yǔ)音售票機(jī)的購(gòu)票測(cè)試。共采集兩種售票機(jī)的購(gòu)票時(shí)間數(shù)據(jù)樣本89個(gè)。購(gòu)票時(shí)間是指用戶開始與TVM交互，至購(gòu)票結(jié)束為止所用時(shí)間。傳統(tǒng)售票機(jī)用戶平均購(gòu)票時(shí)間為30.64 s，而智能語(yǔ)音售票機(jī)的僅需11.85 s，大大提升了售票效率。

4 結(jié)語(yǔ)

本文探討了智能語(yǔ)音售票機(jī)系統(tǒng)麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)、人臉關(guān)鍵點(diǎn)識(shí)別技術(shù)及多模態(tài)信息融合技術(shù)，介紹了具體硬件架構(gòu)和業(yè)務(wù)流程。智能語(yǔ)音售票機(jī)系統(tǒng)可實(shí)現(xiàn)乘客智能語(yǔ)音購(gòu)票、縮短乘客購(gòu)票時(shí)間、減少購(gòu)票排隊(duì)壓力，同時(shí)也能有效降低設(shè)備故障率及維修人力、物力的投入，提升服務(wù)質(zhì)量。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看