殷建立 馮一龍
摘? ?要:本文將利用人工智能技術(shù),介紹中文語音文本智能編輯系統(tǒng)的設(shè)計思路,并對其中的語言識別以及系統(tǒng)的運行流程進行了分析??傮w而言,本文所介紹的基于人工智能的中文語音文本編輯系統(tǒng)能夠滿足語音文本處理的要求,具有先進性。
關(guān)鍵詞:人工智能? 中文語音文本? 文本智能編輯
中圖分類號:TP183? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ?文章編號:1674-098X(2020)01(b)-0138-02
1? 人工智能技術(shù)在中文語音文本智能編輯中的應(yīng)用
1.1 人工智能技術(shù)分析
本文所使用的人工智能算法為維特比算法,該技術(shù)解決了傳統(tǒng)數(shù)學(xué)領(lǐng)域中隱馬爾可夫模型中的問題,能夠有效觀察序列在隱馬爾可夫模型中下任何有可能隱藏的序列。在人工智能的支持下,維特比算法能能夠利用后向指向遞歸計算來獲得不同路徑中最優(yōu)的路徑。
在該方法下,人工智能數(shù)據(jù)處理的核心就是將動態(tài)規(guī)劃算法的做簡化,其中的關(guān)鍵數(shù)據(jù)步驟可以具體為:(1)在分析問題特征的基礎(chǔ)上,構(gòu)建狀態(tài)轉(zhuǎn)移方程;(2)以空間換時間。
維特比算法屬于動態(tài)規(guī)劃算法中一種常見的技術(shù),目前已經(jīng)被廣泛的應(yīng)用在語音識別、計算機語言等科學(xué)中。在技術(shù)應(yīng)用階段,可以在建立計算模型后,依靠該模型提高系統(tǒng)應(yīng)用的時效性;在語音文本處理過程中,該方法通過構(gòu)建語音與對應(yīng)文本之間的關(guān)系,將采集到的文本字符串看作為時間序列,所以在數(shù)據(jù)處理環(huán)節(jié)能夠快速定位對應(yīng)的聲音信號最有可能的文本字符串,具有技術(shù)先進性。
1.2 單位選擇語音轉(zhuǎn)換方法
在語音合成技術(shù)與人工智能技術(shù)發(fā)展的情況下,部分新技術(shù)的出現(xiàn)為語音合成提供了新的方向,其中的的代表技術(shù)具有單位選擇語言轉(zhuǎn)換方法,該方法以維特比算法為基礎(chǔ),通過對源語音作為查詢、搜索的目標,盡可能多的將類似語音片段結(jié)合在一起,并在邊界位置匹配。在余韻數(shù)據(jù)處理環(huán)節(jié),首先選擇將原音頻與目標音頻分隔成為相同幀的窗口,再尋找目標語音幀的最佳排列組合。該方法最顯著的優(yōu)勢可以降低成本,包括所選目標與源幀之間的匹配成本以及相鄰幀之間的連接成本。
1.3 范圍選擇算法的應(yīng)用
在人工智能技術(shù)中,為了能夠更有效的識別語音文本數(shù)據(jù),可以在單位選擇算法匹配過程中,預(yù)選三因素被轉(zhuǎn)換成相應(yīng)的幀。因此在本次研究中,本文基于維特比算法提出了一個新的范圍選擇方法,該算法的主要特征就是不再使用單獨的框架,而是范圍選擇起始與結(jié)束的邊界,獲得連續(xù)幀的范圍資料[1]。與傳統(tǒng)技術(shù)相比,范圍選擇算法的優(yōu)勢為:(1)允許更精準的序列上把握各項數(shù)據(jù)的相似性;(2)以每個因素為核心,這種處理方法下的語音文本數(shù)據(jù)處理要比單詞更加細膩,系統(tǒng)可以將元音與輔音直接拆分開來;(3)在算法處理期間直接將發(fā)音的持續(xù)時間作為評價成本函數(shù)的重要組成部分,因此可以選擇更加符合不同常見的語音文本。
2? 系統(tǒng)軟件的實現(xiàn)
2.1 系統(tǒng)軟件流程
本文所介紹的系統(tǒng)軟件能夠?qū)Ω鱾€語音表達過程進行模擬識別,通過基于人工智能算法的維特比算法做處理,期間的各項語音命令以及語音文本資料都采用“幀”的形式進行封裝后再傳輸,其中幀結(jié)構(gòu)主要包括幀頭、語音區(qū)長度與數(shù)據(jù)區(qū)三方面組成。其中幀頭占據(jù)一個字節(jié),本文將其定義為十六進制的“0xFD”模式;數(shù)據(jù)區(qū)的長度采用兩個字節(jié)表示,其中高字節(jié)在前,低字節(jié)在后;數(shù)據(jù)區(qū)的規(guī)格小于四個字節(jié),有命令參數(shù)與命令字兩方面構(gòu)成,其中常見的發(fā)送數(shù)據(jù)包括:0x01、0x02、0x03、0x04,相對應(yīng)的功能就是:語音的合成命令、停止語音合成命令,無參數(shù)、暫停語音合成命令,無參數(shù)、恢復(fù)語音合成命令,無參數(shù)。這種語音識別方法可以完成對整個語音數(shù)據(jù)的分析處理。
2.2 對語音文本數(shù)據(jù)的處理
在上述系統(tǒng)結(jié)構(gòu)的基礎(chǔ)上,根據(jù)系統(tǒng)功能設(shè)計要求,將語音素材做統(tǒng)計之后,將文本稿件直接在系統(tǒng)中形成文字稿;在這個數(shù)據(jù)處理環(huán)節(jié),可以根據(jù)不同的命令字來控制語音數(shù)據(jù)識別的開始、暫停與結(jié)束,而在這個過程中,考慮到語音樣本中可能會出現(xiàn)多種環(huán)境噪音,而為了能夠有效提取其中的有效文本資料,則可以先通過機器將聲音轉(zhuǎn)變?yōu)槲淖郑陂g機器具有獨立的文本轉(zhuǎn)換能力,工作人員也有文本編輯能力[2]。在此基礎(chǔ)上,在聲音轉(zhuǎn)變文字過程中,依靠維特比算法,在系統(tǒng)內(nèi)核開始的基礎(chǔ)上同步建立相應(yīng)的文字與語音同步轉(zhuǎn)換機制,這種轉(zhuǎn)換就是“時間戳”,其中的技術(shù)要點就是要根據(jù)不同時間節(jié)點上的文本編輯截面做語音數(shù)據(jù)處理,并且按照語音文本的數(shù)據(jù)處理要求,由系統(tǒng)對語音做建模與語義識別,因此可以節(jié)省系統(tǒng)的運行時間。
而在對語音文本數(shù)據(jù)處理過程中,首先需要建立文本與音頻的同步機制,只有在確保兩者數(shù)據(jù)精準同步的基礎(chǔ)上,才能在文字剪輯的同時同步處理音頻資料。在這個過程中,按照數(shù)據(jù)區(qū)命令參數(shù)與命令字的數(shù)據(jù)要求,可以根據(jù)語音數(shù)據(jù)的起始與截止時間基礎(chǔ)上自然過渡,并增加淡入淡出與靜音時間的語音過渡數(shù)據(jù)處理要求。
最后為確保語音文本數(shù)據(jù)處理的要求,可以多音頻做音軌剪切、復(fù)制和粘貼操作。這個操作可以和文字同步進行——也就是“雙窗口”同步操作。而剪切文字對應(yīng)的音頻點位和語感處理,則需要由人工智能算法判斷,以達到通過最少的時間操作實現(xiàn)過渡自然、語氣自然的目的。
2.3 對語音文本的進一步編輯
從當(dāng)前工作來看,對語音文本的進一步編輯能夠更好的滿足工作要求,所以需要在該系統(tǒng)基礎(chǔ)上來增設(shè)語音文本編輯功能。以記者的日常采訪文本為例,記者在將問題詳細傳輸給受訪者之后,受訪者會根據(jù)問題闡述自己的觀點,但是其中存在一個問題,那就是受訪者可能闡述大量的信息,甚至信息跑題。針對這種情況,在音頻編輯過程中需要戴上耳機逐字聽受訪者的回答,并裁剪掉其中出錯或者冗余的語音資料。這個過程的工作效率低,甚至工作人員因為長時間工作出現(xiàn)差錯。
而在本文所介紹的系統(tǒng)中,工作人員不需要逐字聽音頻內(nèi)容,而是在系統(tǒng)支持下能夠?qū)⒉稍L內(nèi)容轉(zhuǎn)變?yōu)槲淖?,這樣工作人員可以在工作界面上直接編輯。例如有一段60s的音頻,在音頻數(shù)據(jù)文字轉(zhuǎn)換期間,工作人員以20s為界限,輸入“0x01”、“0x03”指令暫停語音文本,此時系統(tǒng)停止識別文字,工作人員能夠針對20s內(nèi)的語音文本信息進行編輯;在該階段文本編輯結(jié)束后,再啟動系統(tǒng),由系統(tǒng)識別20秒的數(shù)據(jù),以此反復(fù),最終完成了對整個文本數(shù)據(jù)的處理。從效果來看,這種數(shù)據(jù)處理方法進一步減少了工作量,使工作人員能夠更好的完成語音文本處理,提高了音頻資料的數(shù)據(jù)能力。
從效果來看,本文所介紹的系統(tǒng)充分發(fā)揮了人工智能技術(shù)的優(yōu)勢,不僅能夠直接識別語音數(shù)據(jù)參數(shù),也能在不同人說話特征的基礎(chǔ)上進一步識別其中的關(guān)鍵數(shù)據(jù),系統(tǒng)對語音與文本的契合度很高,這是傳統(tǒng)技術(shù)所無法實現(xiàn)的。
3? 結(jié)語
本文所介紹的系統(tǒng)能夠識別人工語音資料,通過該系統(tǒng)會進一步提高語音數(shù)據(jù)處理效率,該系統(tǒng)通過將語音資料轉(zhuǎn)變?yōu)槲淖仲Y料,使工作人員可以更好的識別其中關(guān)鍵數(shù)據(jù),具有可行性。但是該系統(tǒng)目前正處于初步發(fā)展階段,如何更有效的識別長篇幅的音頻資料也存在很大的難度,值得關(guān)注。
參考文獻
[1] 李寶祥.語音關(guān)鍵詞檢索若干問題的研究[D].北京郵電大學(xué),2013.
[2] 鄧正良,許偉彪,楊潿潔,等.電視天氣預(yù)報文本轉(zhuǎn)語音編輯制作系統(tǒng)設(shè)計方案[J].科技風(fēng),2011(20):51-52.