鄺展鵬
摘要:隨著人工智能技術(shù)不斷取得突破,人機(jī)交互的模式逐漸從傳統(tǒng)的鼠標(biāo)鍵盤(pán)交互和觸屏交互向自然交互發(fā)展。在這種大環(huán)境下,為了提高現(xiàn)有三維繪圖軟件的工作效率,提出了一種利用開(kāi)放平臺(tái)的語(yǔ)音識(shí)別技術(shù)輔助繪圖的方法。在保留三維繪圖軟件原有的鼠標(biāo)鍵盤(pán)操作模式下,增加了語(yǔ)音指令輔助設(shè)計(jì)的方式。
關(guān)鍵詞:語(yǔ)音識(shí)別;語(yǔ)音繪圖;智能語(yǔ)音
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2019)12-0168-02
1概述
隨著語(yǔ)音識(shí)別技術(shù)和自然語(yǔ)言處理技術(shù)的發(fā)展,科大訊飛、云知聲和百度智能等開(kāi)放平臺(tái)日趨成熟,這為當(dāng)前開(kāi)發(fā)應(yīng)用級(jí)別的語(yǔ)音輔助系統(tǒng)提供了良好的技術(shù)支持。無(wú)論是在移動(dòng)智能手機(jī)上的語(yǔ)音助手,還是風(fēng)靡各個(gè)家庭的智能音箱,都代表著語(yǔ)言交互這一種我們?nèi)粘I钪惺褂米顝V泛也是最重要的交互方式融入到人機(jī)交互中是不可避免的趨勢(shì)。Solidworks是一款專(zhuān)門(mén)用于工程制圖的三維繪圖軟件,在國(guó)內(nèi)廣泛應(yīng)用于機(jī)械設(shè)計(jì)與評(píng)估。其內(nèi)置應(yīng)用程序編程接口(API),便于開(kāi)發(fā)者進(jìn)行二次開(kāi)發(fā)。百度智能語(yǔ)音平臺(tái)為開(kāi)發(fā)者提供的軟件開(kāi)發(fā)工具包(SDK)具有強(qiáng)大且完善的功能,包括語(yǔ)音識(shí)別、詞法分析、語(yǔ)音合成等圈。這兩者的結(jié)合讓語(yǔ)音識(shí)別技術(shù)應(yīng)用于現(xiàn)有的三維繪圖軟件,從而提高設(shè)計(jì)師的工作效率成為可能。
2語(yǔ)音識(shí)別和語(yǔ)義理解
語(yǔ)音識(shí)別技術(shù)是以人的語(yǔ)音信號(hào)為研究對(duì)象,能通過(guò)模式識(shí)別或深度學(xué)習(xí)的方法將語(yǔ)音信號(hào)轉(zhuǎn)換成文字信息。目前國(guó)外的開(kāi)源語(yǔ)音識(shí)別引擎(ASR)有CMU Sphinx、HTK、Kaldi等,國(guó)內(nèi)有訊飛語(yǔ)音、百度智能等開(kāi)放平臺(tái)提供語(yǔ)音識(shí)別服務(wù)。其中,國(guó)內(nèi)的大型開(kāi)放平臺(tái)在中文語(yǔ)音識(shí)別的準(zhǔn)確率已經(jīng)達(dá)到了95%以上。然而語(yǔ)音識(shí)別技術(shù)只能將語(yǔ)音信息轉(zhuǎn)換成文字,進(jìn)行語(yǔ)音識(shí)別后獲得的文本信息還需要讓計(jì)算機(jī)理解后才能轉(zhuǎn)化成具體的指令,從而執(zhí)行相應(yīng)的任務(wù)以滿(mǎn)足我們的需要。
語(yǔ)義理解是在自然語(yǔ)言處理(NLP)技術(shù)的基礎(chǔ)上,針對(duì)文本信息中人的意圖進(jìn)行識(shí)別并讓計(jì)算機(jī)理解的過(guò)程。首先需要使用NLP中的詞法分析對(duì)文本信息進(jìn)行處理。詞法分析是一種能夠?qū)ξ谋拘畔⑦M(jìn)行分詞、詞性識(shí)別和專(zhuān)名識(shí)別的技術(shù),其處理過(guò)程如圖1所示。
進(jìn)行詞法分析后,計(jì)算機(jī)就可以對(duì)結(jié)果所得的詞匯進(jìn)行檢索,并使用匹配模型匹配對(duì)應(yīng)的用戶(hù)意圖。匹配模型包括一個(gè)喚醒關(guān)鍵字和數(shù)目不等的參數(shù),例如“繪制圓柱”這個(gè)意圖對(duì)應(yīng)的匹配模型包括了喚醒關(guān)鍵字“繪制”、參數(shù)“圓柱”、還有圓柱對(duì)應(yīng)的高度和直徑尺寸。計(jì)算機(jī)只有獲取到滿(mǎn)足匹配模型的所有參數(shù)才能準(zhǔn)確按照用戶(hù)的意圖進(jìn)行操作。語(yǔ)義理解的結(jié)構(gòu)如圖2所示。
3SolidWorks動(dòng)作宏
要實(shí)現(xiàn)語(yǔ)音控制繪圖軟件進(jìn)行工作,就需要繪圖軟件能夠通過(guò)除了鼠標(biāo)鍵盤(pán)輸入指令之外的方式進(jìn)行繪圖。SolidWorks自帶宏工具,用戶(hù)可以通過(guò)錄制/編輯/執(zhí)行宏提高工作效率。錄制并保存的宏文件可以保存為C#、VB.NE3F等格式。因此,使用動(dòng)作宏進(jìn)行繪圖是該繪圖軟件的第三種輸入方式。由于宏文件使用了C#、VB.NET等高級(jí)語(yǔ)言進(jìn)行編輯和運(yùn)行,因此可以通過(guò)讀取XML等外部文件進(jìn)行信息傳遞,從而根據(jù)外部指令控制繪圖軟件進(jìn)行不同的操作,如圖3所示。
Solidworks的動(dòng)作宏具有強(qiáng)大的功能,例如捕捉繪圖空間中的焦點(diǎn)、調(diào)用任意繪圖工具、移動(dòng)窗口鏡頭等,完全能夠滿(mǎn)足開(kāi)發(fā)者需求。因此宏文件的編寫(xiě)關(guān)鍵是對(duì)各個(gè)繪圖工具的使用進(jìn)行結(jié)構(gòu)化設(shè)計(jì),通過(guò)讀取外部文件的信息得知滿(mǎn)足用戶(hù)的意圖需要調(diào)用哪個(gè)繪圖工具,以及具體的繪制參數(shù)是什么。
4系統(tǒng)設(shè)計(jì)
通過(guò)前文對(duì)于當(dāng)前語(yǔ)音識(shí)別、語(yǔ)義理解技術(shù)的探索以及Solidworks軟件本身研究,可知在理論上能夠?qū)⒄Z(yǔ)音識(shí)別技術(shù)運(yùn)用于三維繪圖軟件的輔助繪制上。整個(gè)系統(tǒng)的結(jié)果框圖如圖4所示。
用戶(hù)可以通過(guò)原有的鼠標(biāo)鍵盤(pán)使用繪圖軟件進(jìn)行圖形繪制,也可以通過(guò)麥克風(fēng)使用語(yǔ)言進(jìn)行指令輸入。使用語(yǔ)音輸入時(shí),語(yǔ)音識(shí)別程序先將語(yǔ)音信號(hào)轉(zhuǎn)化成計(jì)算機(jī)指令并保存在信息文件中,用戶(hù)執(zhí)行動(dòng)作宏讀取信息文件中的指令并執(zhí)行,達(dá)到語(yǔ)音輔助制圖的效果。
5用戶(hù)與系統(tǒng)的語(yǔ)音交互方式
用戶(hù)通過(guò)語(yǔ)音向系統(tǒng)發(fā)出指令以及系統(tǒng)回應(yīng)用戶(hù)的交互過(guò)程關(guān)乎到用戶(hù)的使用體驗(yàn)。也就是說(shuō),系統(tǒng)需要知道用戶(hù)什么時(shí)候開(kāi)始說(shuō)話(huà),用戶(hù)需要知道系統(tǒng)有沒(méi)有聽(tīng)到自己說(shuō)話(huà)。這樣才能讓用戶(hù)更好的說(shuō)出自己的操作意圖,讓系統(tǒng)便于分析理解并執(zhí)行。用戶(hù)與系統(tǒng)的語(yǔ)音交互方式如圖5所示。
在握手階段內(nèi)用戶(hù)通過(guò)語(yǔ)音喚醒激活識(shí)別系統(tǒng),系統(tǒng)通過(guò)鈴聲等方式進(jìn)行回應(yīng)并開(kāi)始聆聽(tīng)用戶(hù)說(shuō)話(huà)。語(yǔ)音喚醒是指系統(tǒng)通過(guò)麥克風(fēng)持續(xù)監(jiān)聽(tīng)周?chē)穆曇簦?dāng)用戶(hù)說(shuō)出設(shè)定好的詞語(yǔ)后就激活系統(tǒng),而對(duì)喚醒詞語(yǔ)以外的聲音不作任何反應(yīng)。當(dāng)前的智能音箱和手機(jī)上的語(yǔ)音助手廣泛采用這種激活系統(tǒng)的模式。
6結(jié)束語(yǔ)
本文通過(guò)分析當(dāng)前基于云端開(kāi)放平臺(tái)的智能語(yǔ)音技術(shù)以及繪圖軟件本身所提供的動(dòng)作宏模塊得出了能通過(guò)語(yǔ)音識(shí)別技術(shù)控制繪圖軟件進(jìn)行工作的結(jié)論。并設(shè)計(jì)了一種系統(tǒng)結(jié)構(gòu),可以在保留原有的鼠標(biāo)鍵盤(pán)輸入命令的繪圖方式的基礎(chǔ)上,增加語(yǔ)音輔助繪圖的功能。不僅能減少繪圖繁瑣的操作步驟,更為用戶(hù)提供了新的操作體驗(yàn),具有廣泛的應(yīng)用前景。