• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)1DCNN的英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)設(shè)計(jì)

      2024-10-09 00:00:00王錦
      電子產(chǎn)品世界 2024年9期

      關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語(yǔ)音識(shí)別;人機(jī)交互系統(tǒng)

      中圖分類號(hào):TP273 文獻(xiàn)標(biāo)識(shí)碼:A

      0 引言

      在互聯(lián)網(wǎng)時(shí)代背景下,機(jī)器人技術(shù)應(yīng)運(yùn)而生,并且在人機(jī)交互領(lǐng)域中發(fā)揮了重要應(yīng)用優(yōu)勢(shì),使人機(jī)交互系統(tǒng)得到廣泛的推廣和普及[1]。但是,市面上的語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)處理過程復(fù)雜,受到口音、語(yǔ)速、語(yǔ)調(diào)以及背景噪聲等多種因素的影響,增加了語(yǔ)音識(shí)別的難度。此外,當(dāng)前技術(shù)尚未完全成熟,無(wú)法完全準(zhǔn)確地捕捉和解讀所有語(yǔ)音信息 ,為解決以上問題,保證語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)交互能力,本文應(yīng)用基于改進(jìn)一維向量卷積神經(jīng)網(wǎng)絡(luò)(1-dimensional convolution neural network,1DCNN)的英語(yǔ)語(yǔ)音識(shí)別技術(shù),對(duì)新型英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)進(jìn)行設(shè)計(jì),有效提高了英語(yǔ)語(yǔ)音識(shí)別的精確度,滿足了用戶精確識(shí)別和處理英語(yǔ)語(yǔ)音的需求。

      1 基于改進(jìn)1DCNN的英語(yǔ)語(yǔ)音識(shí)別技術(shù)概述

      在信息時(shí)代背景下,隨著機(jī)器人不斷推廣和普及,市面上出現(xiàn)多種多樣的語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)。現(xiàn)階段,語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)主要采用對(duì)話交流的方式,為用戶提供人機(jī)交流互動(dòng)服務(wù),為幫助機(jī)器人智能化回復(fù)和應(yīng)答用戶英語(yǔ)語(yǔ)音信息相關(guān)問題,本文應(yīng)用基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別技術(shù),研發(fā)和設(shè)計(jì)相應(yīng)的英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)。在圖像處理領(lǐng)域中,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用廣泛,因此該系統(tǒng)主要運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)來(lái)保證系統(tǒng)語(yǔ)音識(shí)別功能的實(shí)現(xiàn)效果。在提取英語(yǔ)語(yǔ)音信號(hào)時(shí),技術(shù)人員需借助本文系統(tǒng)提取的圖像參數(shù),但這種操作容易增大最終提取結(jié)果的誤差。為避免這些問題的出現(xiàn),技術(shù)人員在保留一維語(yǔ)音信號(hào)特征的基礎(chǔ)上,提出一種基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別技術(shù)。該語(yǔ)音識(shí)別技術(shù)應(yīng)用流程如下:首先,技術(shù)人員借助話筒等語(yǔ)音采集設(shè)備,對(duì)所需要的英語(yǔ)語(yǔ)音信號(hào)進(jìn)行采集和轉(zhuǎn)換,使其轉(zhuǎn)換為相應(yīng)的電信號(hào),并將該電信號(hào)直接發(fā)送和存儲(chǔ)至特定的識(shí)別系統(tǒng)中,由該識(shí)別系統(tǒng)運(yùn)用前端處理技術(shù)對(duì)所接收的電信號(hào)進(jìn)行統(tǒng)一化處理。其次,在前端處理結(jié)束之后,技術(shù)人員精確化提取所需要的語(yǔ)音信號(hào)特征,并且采用測(cè)度估計(jì)方法,估計(jì)和匯總相關(guān)特征參數(shù),并結(jié)合最終特征參數(shù)結(jié)果來(lái)提出一種新模式。利用該新模式和用戶最終主觀估計(jì)結(jié)果,完成測(cè)度估計(jì)。最后,結(jié)合制定的識(shí)別方案,針對(duì)不同的新模式,計(jì)算和獲取最終的識(shí)別結(jié)果。基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別技術(shù)應(yīng)用流程如圖1 所示。在本文系統(tǒng)對(duì)語(yǔ)音信號(hào)進(jìn)行離散變換處理期間,通常會(huì)涉及語(yǔ)音信號(hào)取樣環(huán)節(jié),通過執(zhí)行該環(huán)節(jié),可以為用戶提供完整、真實(shí)、可靠的語(yǔ)音信號(hào),從而達(dá)到再現(xiàn)和還原真實(shí)信號(hào)的目的。在語(yǔ)音信號(hào)取樣處理結(jié)束后,技術(shù)人員需在降低語(yǔ)言信號(hào)幅值的基礎(chǔ)上,對(duì)原始信號(hào)進(jìn)行預(yù)處理,使整個(gè)音頻具有較高的高頻分量值。

      2 基于改進(jìn)1DCNN的英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)設(shè)計(jì)

      人機(jī)交互系統(tǒng)同時(shí)含有人臉、表情、文本、語(yǔ)音等多種模態(tài)信息。為提高人機(jī)交互系統(tǒng)的交互能力,本文基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別技術(shù),以英語(yǔ)語(yǔ)音為輸入內(nèi)容,以視頻、音頻為輸出結(jié)果,設(shè)計(jì)了一個(gè)英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)[2]。系統(tǒng)架構(gòu)設(shè)計(jì)圖如圖2 所示。

      從圖2 中可以看出,系統(tǒng)主要包含以下模塊:①語(yǔ)音識(shí)別模塊。該模塊在具體設(shè)計(jì)時(shí),需輸入用戶語(yǔ)音等數(shù)據(jù),運(yùn)用卷積神經(jīng)網(wǎng)絡(luò),對(duì)所需要的語(yǔ)音數(shù)據(jù)進(jìn)行精確化提取、分幀等一系列預(yù)處理操作。②語(yǔ)音對(duì)話模塊。該模塊主要用于系統(tǒng)音頻模態(tài)的智能化采集和輸出。該模塊在具體設(shè)計(jì)時(shí),主要應(yīng)用語(yǔ)音合成技術(shù)對(duì)所需要的文本數(shù)據(jù)進(jìn)行采集,并結(jié)合最終采集數(shù)據(jù)結(jié)果,生成相應(yīng)的音頻。③視頻展示模塊。該模塊主要用于系統(tǒng)視頻模態(tài)的智能化輸出[3]。該模塊在具體設(shè)計(jì)時(shí),需采用人臉表情動(dòng)畫技術(shù),精確化采集和輸出相關(guān)視頻信息,同時(shí),從所生成的視頻信息中采集和整理人臉表情參數(shù),完成對(duì)3D人臉網(wǎng)絡(luò)體系的構(gòu)建[4]。④語(yǔ)音處理模塊。該模塊負(fù)責(zé)接收用戶的英語(yǔ)語(yǔ)音輸入,并對(duì)其進(jìn)行預(yù)處理和特征提取,通過基于改進(jìn)的1DCNN 模型進(jìn)行語(yǔ)音識(shí)別,最終將識(shí)別結(jié)果轉(zhuǎn)換為文本輸出。

      系統(tǒng)具體實(shí)現(xiàn)流程如下:首先,技術(shù)人員應(yīng)用基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別技術(shù),對(duì)特定用戶的關(guān)鍵語(yǔ)音信息進(jìn)行智能化采集和獲取,并結(jié)合最終采集數(shù)據(jù)結(jié)果,強(qiáng)化對(duì)語(yǔ)音信息中聲學(xué)特征信息的提取。其次,為提高系統(tǒng)的運(yùn)行性能,技術(shù)人員對(duì)所需要的音頻數(shù)據(jù)進(jìn)行合成處理。最后,應(yīng)用3D 動(dòng)畫技術(shù),結(jié)合所采集的語(yǔ)音情緒信息,有針對(duì)性地設(shè)計(jì)不同人臉表情,從而完成對(duì)人臉3D 模型的構(gòu)建。借助人臉3D 模型,為用戶提供良好的視頻交互、音頻交互體驗(yàn)。在設(shè)計(jì)系統(tǒng)時(shí),環(huán)境變化會(huì)對(duì)語(yǔ)音數(shù)據(jù)最終采集結(jié)果產(chǎn)生直接影響,為保證語(yǔ)音數(shù)據(jù)采集的全面性和完整性,技術(shù)人員需結(jié)合用戶個(gè)性化使用需求,有針對(duì)性地設(shè)計(jì)一種功能強(qiáng)大的語(yǔ)音處理模塊,從而避免因環(huán)境引發(fā)的信號(hào)噪聲污染現(xiàn)象[5]。同時(shí),技術(shù)人員運(yùn)用小波變換方法,對(duì)語(yǔ)音信息進(jìn)行采集、歸類和降噪處理,以保證語(yǔ)音效果。

      3 基于改進(jìn)1DCNN的英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)測(cè)試

      為研究和測(cè)試本文系統(tǒng)語(yǔ)音識(shí)別性能,并且驗(yàn)證其有效性和可行性,技術(shù)人員重點(diǎn)分析和評(píng)價(jià)了系統(tǒng)的語(yǔ)音數(shù)據(jù)處理效果。系統(tǒng)語(yǔ)音數(shù)據(jù)處理效果圖如圖3 所示。從圖3a 中可以看出,在本次測(cè)試研究中,所選擇的原始信號(hào)呈現(xiàn)出明顯的變化狀態(tài)。同時(shí),整個(gè)信號(hào)曲線中出現(xiàn)大量的毛刺信號(hào),這說(shuō)明原始信號(hào)存在嚴(yán)重的噪聲污染現(xiàn)象。圖3b中的波形圖存在少量的毛刺信號(hào),曲線較為光滑,能夠?yàn)橛脩舫尸F(xiàn)出清晰、全面的語(yǔ)音信息。這說(shuō)明本文系統(tǒng)在精確識(shí)別語(yǔ)音信息的基礎(chǔ)上,可以保證降噪處理的質(zhì)量和效率。

      此外,運(yùn)用混合語(yǔ)音法對(duì)本文系統(tǒng)的識(shí)別能力進(jìn)行測(cè)試。系統(tǒng)語(yǔ)音識(shí)別能力測(cè)試結(jié)果如圖4所示。從圖4a 中可以看出,本文系統(tǒng)可以精確判斷和識(shí)別用戶語(yǔ)音中的喜、怒、哀、樂等多種情緒。圖4b中的1、0 分別代表識(shí)別成功、識(shí)別失敗,結(jié)合最終混合語(yǔ)音識(shí)別結(jié)果,可以發(fā)現(xiàn),在30次系統(tǒng)測(cè)試中,當(dāng)混合語(yǔ)音數(shù)量為1 時(shí),本文系統(tǒng)識(shí)別成功率高達(dá)100%;當(dāng)混合語(yǔ)音數(shù)量為2~4時(shí),本文系統(tǒng)識(shí)別成功率達(dá)到93.33%;當(dāng)混合語(yǔ)音數(shù)量為5時(shí),本文系統(tǒng)識(shí)別成功率達(dá)到90.00%。由此可知,本文系統(tǒng)在識(shí)別用戶語(yǔ)音情緒方面具有較高的識(shí)別成功率,識(shí)別成功率高達(dá)90.00% 以上,滿足用戶精確識(shí)別和判斷多種語(yǔ)音信息的需求,有效提高了用戶的人機(jī)交互體驗(yàn)。

      4 結(jié)語(yǔ)

      在人工智能背景下,英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng)的研發(fā)和應(yīng)用雖然給人們的日常生活和工作提供了便利,但部分人機(jī)交互系統(tǒng)存在語(yǔ)音識(shí)別成功率低等問題。因此,本文研發(fā)和設(shè)計(jì)了一種基于改進(jìn)1DCNN 的英語(yǔ)語(yǔ)音識(shí)別人機(jī)交互系統(tǒng),并對(duì)該系統(tǒng)的性能進(jìn)行測(cè)試。結(jié)果表明,該系統(tǒng)具有語(yǔ)音處理能力強(qiáng)、語(yǔ)音識(shí)別成功率高等特點(diǎn),方便用戶將噪聲信號(hào)快速處理和轉(zhuǎn)換為具有高識(shí)別度的光滑信號(hào)。

      股票| 武穴市| 丰顺县| 石首市| 怀仁县| 铜梁县| 恭城| 深泽县| 大名县| 沙田区| 安陆市| 尼勒克县| 萝北县| 昭觉县| 临西县| 镇平县| 澎湖县| 台前县| 开封市| 庄河市| 富阳市| 罗田县| 闽清县| 新巴尔虎左旗| 德兴市| 壤塘县| 德昌县| 永善县| 雷波县| 松滋市| 白山市| 克什克腾旗| 吉安市| 扬中市| 乌审旗| 广河县| 炉霍县| 安图县| 壶关县| 泗水县| 新余市|