周妙林,凌飛,信欣,粟駿龍,3
(1. 廣東數(shù)字生態(tài)科技有限責(zé)任公司,廣東 韶關(guān) 512026;2. 廣東云舜綜合能源科技有限公司,廣東 韶關(guān) 512029;3.武漢大學(xué),湖北 武漢 430079)
人機(jī)交互技術(shù)一直屬于研究熱點(diǎn),人類不斷挖掘其中各類信息傳遞所依賴的有效載體及其對應(yīng)識(shí)別手段。標(biāo)繪業(yè)務(wù)對于人機(jī)交互技術(shù)有著較強(qiáng)的依賴性,其繪制成果通?;诘乩硇畔⑵脚_(tái)進(jìn)行二三維可視化展示。由于計(jì)算機(jī)多模態(tài)識(shí)別技術(shù)的發(fā)展,用戶對于標(biāo)繪渠道的擴(kuò)展有著潛在的現(xiàn)實(shí)需求,希望突破單一的鼠標(biāo)鍵盤標(biāo)繪模式的局限,引入更多標(biāo)繪模態(tài)。通過融合處理多種模態(tài)輸入信息,從中提取各種形態(tài)的用戶交互命令,結(jié)合多模態(tài)語義理解技術(shù),最終讓計(jì)算機(jī)捕捉和識(shí)別用戶的交互意圖,充分發(fā)揮不同模態(tài)的數(shù)據(jù)處理優(yōu)勢,幫助用戶更快捷、更方便的進(jìn)行高效的標(biāo)繪工作。
語音識(shí)別和觸控等技術(shù)的進(jìn)步豐富了傳統(tǒng)標(biāo)繪的手段,廣泛應(yīng)用于各類業(yè)務(wù)系統(tǒng),部分研究也探討了文本標(biāo)繪的策略與方法。
何麗明[1],楊若鵬[2]等人在軍標(biāo)通用標(biāo)繪算法和組件化封裝方面做了一些研究。
Guangsen Wang[3]、朱鴻展[4]、趙騫[5]、魏麗[6]等人在語音、手勢、文件導(dǎo)入標(biāo)繪等方面做了一些探索。
劉銘崴[7]、倪金生[8]、張利娟[9]、柳楊[10]分別在動(dòng)態(tài)異構(gòu)數(shù)據(jù)標(biāo)繪、多源共享標(biāo)繪等場景進(jìn)行了研究和嘗試。
分析發(fā)現(xiàn),這些研究要么聚焦于某一單模態(tài)的標(biāo)繪技術(shù)探索;要么實(shí)現(xiàn)多模態(tài)信息的簡單集成,未涉及到信息融合的層次;或者融合特定兩種模態(tài)的交互標(biāo)繪,但是這類多模態(tài)信息融合是基于一種緊耦合的模型設(shè)計(jì),即識(shí)別模型采用一種端到端的方式,將觸控操作、語音等不同模態(tài)指令同時(shí)輸入到一個(gè)通用處理模型中進(jìn)行訓(xùn)練和識(shí)別處理,借助模態(tài)自適應(yīng)轉(zhuǎn)化和命令參數(shù)對齊技術(shù),其標(biāo)繪命令粒度可以細(xì)化到單一模態(tài)輸入提供標(biāo)繪命令內(nèi)部參數(shù)級,兩種模態(tài)交替輸入融合的結(jié)果作為命令級的輸出,但這種模型針對指令內(nèi)部參數(shù)進(jìn)行多模態(tài)的融合,導(dǎo)致處理難度較大,可靠性有待提高[11]。
所以,基于現(xiàn)有技術(shù)條件和標(biāo)繪的特性,本文拓展多種可靠標(biāo)繪渠道,設(shè)計(jì)了一種松耦合的多模態(tài)標(biāo)繪引擎模型,通過對多模態(tài)輸入采用松耦合的方式,即單獨(dú)處理各個(gè)模態(tài),包括語音數(shù)據(jù)、觸控手勢、格式化文書與傳統(tǒng)的鼠標(biāo)鍵盤等操作方式,識(shí)別粒度為標(biāo)繪命令級,基于各個(gè)模態(tài)識(shí)別處理結(jié)果生成標(biāo)繪定義文件,來實(shí)現(xiàn)多模態(tài)輸入的可靠融合。
基于松耦合的多模態(tài)標(biāo)繪引擎可以接收格式化的文書、語音、觸屏動(dòng)作及鼠標(biāo)鍵盤操作等內(nèi)容,經(jīng)命令解析處理和數(shù)據(jù)融合后,將對應(yīng)的標(biāo)記要素顯示在態(tài)勢圖上,并且支持多個(gè)用戶協(xié)同對要圖進(jìn)行統(tǒng)一繪制,為用戶及時(shí)、準(zhǔn)確的了解業(yè)務(wù)場景及有關(guān)部署提供支撐。
根據(jù)上述業(yè)務(wù)需求,標(biāo)繪業(yè)務(wù)流程設(shè)計(jì)如下圖所示,多模態(tài)標(biāo)繪引擎由交互式語音識(shí)別引擎、文書識(shí)別引擎、觸控識(shí)別引擎、鼠標(biāo)鍵盤識(shí)別引擎組成,分別用于接收音頻設(shè)備、文書、觸控屏及鼠標(biāo)鍵盤等渠道采集的輸入信息,并將這些形態(tài)各異的外部指令解析成標(biāo)記對象的具體繪制命令,以圖元繪制命令為最小融合粒度,將各類識(shí)別引擎產(chǎn)生的圖元繪制列表融合成統(tǒng)一的標(biāo)繪定義文件,并提交給標(biāo)繪服務(wù)器端處理。標(biāo)繪服務(wù)器端協(xié)同處理多用戶的分布式標(biāo)繪請求,在用戶組范圍內(nèi)同步所有協(xié)作用戶的標(biāo)繪信息并消除繪制沖突,最終標(biāo)繪服務(wù)器及時(shí)以標(biāo)繪定義文件的形式分發(fā)給各標(biāo)繪協(xié)作臺(tái)位,借助地理信息平臺(tái)進(jìn)行對應(yīng)的標(biāo)繪二三維渲染展示(如圖1所示)。
圖1 標(biāo)繪流程
由于多模態(tài)標(biāo)繪命令歷經(jīng)輸入、識(shí)別、融合、多用戶管理及展示等環(huán)節(jié),本文將標(biāo)繪模型設(shè)計(jì)為輸入層、多模態(tài)繪制識(shí)別層、數(shù)據(jù)耦合層、分布式協(xié)同層及應(yīng)用展示層等模塊,對應(yīng)的模型結(jié)構(gòu)如圖2所示。
圖2 標(biāo)繪模型結(jié)構(gòu)設(shè)計(jì)圖
其中,輸入層包括音頻設(shè)備、觸控設(shè)備、格式化文書及鼠標(biāo)鍵盤等多種信息采集渠道,方便用戶根據(jù)任務(wù)需要選擇合適的輸入方式。
多模態(tài)繪制識(shí)別層分別設(shè)計(jì)了語音識(shí)別、觸控識(shí)別、文書指令識(shí)別、鼠標(biāo)指令識(shí)別功能模塊,將差異化的用戶指令通過對應(yīng)的識(shí)別引擎進(jìn)行形態(tài)轉(zhuǎn)化,生成標(biāo)繪對象的文本類型描述。
數(shù)據(jù)融合層使用自定義的標(biāo)繪定義文件來融合各模態(tài)標(biāo)繪指令。
分布式協(xié)同層用于協(xié)調(diào)處理多臺(tái)位用戶協(xié)作標(biāo)繪所涉及到的管理機(jī)制。
應(yīng)用展示層實(shí)現(xiàn)標(biāo)繪成果可視化及文書生成等功能。
通過語音渠道輸入的標(biāo)繪命令,通過語音識(shí)別引擎準(zhǔn)確識(shí)別并轉(zhuǎn)化為文本信息,形成對標(biāo)繪對象命令詞的文本描述形態(tài),以便融合成統(tǒng)一的標(biāo)繪定義文件。由于戰(zhàn)場指揮環(huán)境的復(fù)雜性,需要考慮語音輸入過程中的噪音干擾,音頻采樣可能存在失真以及漢語多音字及生僻字識(shí)別難度高等現(xiàn)實(shí)因素,使得語音識(shí)別達(dá)不到絕對的精準(zhǔn),所以在語音匹配過程中需要采用模糊識(shí)別的方式。語音標(biāo)繪的原理如圖3所示。
圖3 語音標(biāo)繪原理
通過觸摸屏動(dòng)作產(chǎn)生系統(tǒng)觸控事件,由對應(yīng)的觸控標(biāo)繪引擎將單點(diǎn)或多點(diǎn)觸控事件,通過用戶定義的動(dòng)作與功能模式映射,解析成該動(dòng)作對應(yīng)的繪制命令,以文本形態(tài)進(jìn)行描述,以便進(jìn)行標(biāo)繪定義文件的融合。觸控標(biāo)繪的原理如圖4所示。
圖4 觸控標(biāo)繪原理
在各類業(yè)務(wù)領(lǐng)域,常常需要將格式化文書或預(yù)定義的格式化數(shù)據(jù)等文本信息作為標(biāo)繪數(shù)據(jù)源。格式化文書經(jīng)過DOC格式解析/文本提取來過濾掉干擾數(shù)據(jù),方便自然語言處理引擎(NLP)分析并提取標(biāo)繪關(guān)鍵詞,形成標(biāo)繪命令的文本描述,以便格式化為標(biāo)繪定義文件。格式化文書標(biāo)繪原理如圖5所示。
圖5 格式化文書標(biāo)繪原理
本方式屬于最傳統(tǒng)的標(biāo)繪手段。通過鼠標(biāo)點(diǎn)擊的窗體事件觸發(fā)捕捉機(jī)制,進(jìn)而對標(biāo)繪動(dòng)作進(jìn)行事件識(shí)別,分析當(dāng)前鼠標(biāo)點(diǎn)擊或鍵盤操作,影響了哪一類的對象、產(chǎn)生了哪一種命令或者修改了哪一列屬性,從而提取對應(yīng)的指令信息及參數(shù),如操作對象、對應(yīng)的命令描述、設(shè)置或修改的屬性信息等,以文本形態(tài)進(jìn)行描述,以便生成標(biāo)繪定義文件。鼠標(biāo)鍵盤標(biāo)繪原理如圖6所示。
圖6 鼠標(biāo)鍵盤標(biāo)繪原理
如前文所述,數(shù)據(jù)融合層融合無差異的多模態(tài)標(biāo)繪文本命令,將命令融合成命令流的集合,以標(biāo)繪定義文件為單位向標(biāo)繪服務(wù)器提交標(biāo)繪請求,從而優(yōu)化多標(biāo)繪臺(tái)位與標(biāo)繪服務(wù)器的信息傳遞機(jī)制。標(biāo)繪模式管理用于切換多模態(tài)標(biāo)繪輸入渠道,并將識(shí)別后的結(jié)果融入到當(dāng)前標(biāo)繪定義文件。同時(shí),本模塊設(shè)計(jì)了標(biāo)繪對象與其內(nèi)部編號的索引服務(wù),通過關(guān)聯(lián)匹配表,建立標(biāo)識(shí)對象與相應(yīng)標(biāo)號的對應(yīng)關(guān)系,為標(biāo)繪操作提供快速查詢功能(如圖7所示)。
圖7 數(shù)據(jù)融合流程
標(biāo)繪定義文件以列表的形式存儲(chǔ)需要在地圖上需要標(biāo)繪的圖元,該列表依據(jù)最后操作時(shí)間倒序排列。為滿足分布式標(biāo)繪的需要,每個(gè)標(biāo)繪圖元除了包含命令基本屬性外,還包括創(chuàng)建時(shí)間、最后操作時(shí)間、是否鎖定、鎖定機(jī)位、是否顯示等屬性。其中,基本屬性即通用的GIS屬性,如圖元大小、圖元種類等,依據(jù)不同的地理信息平臺(tái)而不同。在此基礎(chǔ)之上,附加設(shè)計(jì)了其他用于多機(jī)位協(xié)作的額外的屬性(如圖8所示)。
圖8 標(biāo)繪定義文件
分布式協(xié)同層處理多臺(tái)位標(biāo)繪客戶端與標(biāo)繪服務(wù)器之間數(shù)據(jù)的交互,客服端向服務(wù)器提交繪制請求,服務(wù)器端檢測多臺(tái)位繪制的沖突并消融沖突,將消融后的無沖突繪制命令分發(fā)給各繪制臺(tái)位進(jìn)行同步顯示。這些標(biāo)繪請求或命令都是基于標(biāo)繪定義文件的形式傳遞。
歷史操作列表存儲(chǔ)在協(xié)同標(biāo)繪時(shí)所有的有效操作,包括操作圖元、操作時(shí)間、操作機(jī)位、操作內(nèi)容等屬性。當(dāng)前操作列表存儲(chǔ)在當(dāng)前時(shí)刻中所有標(biāo)繪臺(tái)位的操作請求,根據(jù)沖突臺(tái)位優(yōu)先級對互斥操作進(jìn)行消融,保證并發(fā)操作的正確性(如圖9所示)。
圖9 沖突消融機(jī)制
本層次用于實(shí)現(xiàn)標(biāo)繪客戶端的展示功能及有關(guān)實(shí)用工具。最終的信息表達(dá)階段,標(biāo)繪定義文件可以映射為標(biāo)繪符號,并與標(biāo)繪模板進(jìn)行匹配,調(diào)用標(biāo)繪組件的繪圖接口,實(shí)現(xiàn)標(biāo)繪的成果展示。根據(jù)具體業(yè)務(wù)部門的標(biāo)繪標(biāo)準(zhǔn)與需求,基于特定維地理信息平臺(tái)二次開發(fā)設(shè)計(jì)的標(biāo)繪展示組件,加載所需的標(biāo)繪接口的標(biāo)繪定義文件,實(shí)現(xiàn)點(diǎn)、線、面等標(biāo)記的綜合態(tài)勢展現(xiàn)。
本文設(shè)計(jì)了一種多模態(tài)標(biāo)繪引擎來適配各種標(biāo)繪需求,融合語音,觸控、文書以及傳統(tǒng)的鼠標(biāo)鍵盤等多種途徑,方便用戶根據(jù)使用場景選擇合適的標(biāo)繪手段。語音標(biāo)繪可以避免在繁瑣的標(biāo)繪圖標(biāo)面板中尋找繪制元素的環(huán)節(jié),觸控標(biāo)繪也讓適應(yīng)了智能手機(jī)的用戶擁有良好的交互體驗(yàn),格式化文書標(biāo)繪利用了現(xiàn)有文本成果直接生成標(biāo)繪要圖。對多模態(tài)輸入采用松耦合的方式,可以降低數(shù)據(jù)融合的難度,提高系統(tǒng)的可靠性和實(shí)用性,同時(shí)多源輸入采集模塊便于擴(kuò)展,方便集成更多的標(biāo)繪渠道。目前標(biāo)繪定義文件基于數(shù)據(jù)融合的需要,命令格式稍顯簡單,后續(xù)需要優(yōu)化標(biāo)繪定義文件對于復(fù)雜指令的描述設(shè)計(jì)。