• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語音交互在智能照明控制系統(tǒng)中的應用

      2022-11-22 07:24:12邱海燕
      物聯(lián)網(wǎng)技術 2022年11期
      關鍵詞:藍牙音頻語音

      邱海燕

      (上海交通大學 電子信息與電氣工程學院,上海 200030)

      0 引 言

      隨著語音識別技術的發(fā)展,從銀行電話答錄服務,到智能手機的語音助手,再到小愛同學、天貓精靈、小度小度、亞馬遜ECHO等智能音箱,人們逐漸體會到語音交互帶來的便利性及科技感。

      智能家居照明是物聯(lián)網(wǎng)智能家居的一部分,主要功能包括語音交互、照明場景控制、遠程控制。傳統(tǒng)的家居照明只能通過墻壁開關實現(xiàn)燈亮和燈滅,而連接物聯(lián)網(wǎng)的智能家居控制系統(tǒng)將家中各種智能設備形成一個閉環(huán)系統(tǒng),人體紅外傳感器、煙霧傳感器、溫濕度傳感器將檢測數(shù)據(jù)傳輸給智能網(wǎng)關,并將控制指令發(fā)送給智能燈具實現(xiàn)場景控制、定時開關燈;智能空調能夠恒定室內的溫濕度;智能攝像頭能夠遠程實時了解家中狀況[1-5]。本文設計的是一款具有語音交互功能的智能照明控制系統(tǒng),語音模塊負責與用戶的互動,藍牙組網(wǎng)模塊負責短距離燈組間的通信,WiFi模塊負責與路由器建立連接,將不同廠家的智能設備通過APP實現(xiàn)統(tǒng)一管理和遠程控制。

      1 智能照明控制系統(tǒng)的總體框架

      本文的語音交互智能照明控制系統(tǒng)的總體架構如圖1所示。本系統(tǒng)中以智能網(wǎng)關作為主控單元,筒燈、吊燈、吸頂燈等作為被控單元接收并執(zhí)行命令。智能網(wǎng)關主要由嵌入式芯片模組、語音模塊、驅動電路組成。嵌入式芯片模組ESP32-WROVER采用芯片ESP32-D0WDQ6,其內置兩個低功耗 Xtensa?32-bit LX6 MCU,該芯片使用范圍廣,既能連接手機藍牙并廣播Beacon實現(xiàn)短距離通信,也能通過路由器直接連接到互聯(lián)網(wǎng),實現(xiàn)遠程信號傳輸。語音模塊主要由音頻編解碼芯片ES8388將采集的語音信號通過I2S串口發(fā)給嵌入式控制芯片。

      圖1 語音交互智能照明控制系統(tǒng)的總體架構

      通過麥克風采集喚醒詞和命令詞,音頻信號經采樣量化編碼,轉變成數(shù)字信號發(fā)送給控制單元;經過深度學習的算法處理,主控芯片讀取相應指令,將系統(tǒng)從休眠狀態(tài)喚醒,并調取系統(tǒng)中存儲的離線語料庫,計算查找對應的命令行,隨即給出相應的答復;再將數(shù)字信號轉換成音頻信號輸出,同時藍牙組網(wǎng)內燈具通過藍牙信號實現(xiàn)控制。離線式語料庫是通過電腦上的深度學習庫Tensor flow在深度學習工具Pycharm中對聲學模型進行編譯訓練收集所得,將訓練集存儲在FLASH芯片中,便于嵌入式控制芯片調用。

      2 循環(huán)神經網(wǎng)絡語音識別原理

      循環(huán)神經網(wǎng)絡(RNN)[5]是一個具有記憶功能的神經網(wǎng)絡,通過大量的樣本序列學習,查找樣本間的規(guī)律,并記錄和存儲下來,用于下一次學習。每一次的學習過程都是一個循環(huán)查找和比較的過程,并計算求解出樣本序列間的匹配概率。

      雙向RNN是正反兩個方向相結合的具有共同學習序列特征的神經網(wǎng)絡。在處理連續(xù)數(shù)據(jù)方面,相比單向傳輸,雙向傳輸?shù)腞NN會多一個隱藏層,正向傳播時的隱藏層放置的是過去的信息,而反向誤差傳遞時的隱藏層放置的是未來的信息,所以沿著時間展開的雙向循環(huán)神經網(wǎng)絡具備更完整的信息量。進行正向傳播和反向誤差傳播的BiRNN神經網(wǎng)絡,相當于單向神經網(wǎng)絡從前往后又從后往前地來回跑了兩次。當正向傳播時,t時刻輸入的x和0一起作為輸入,并通過隱藏層輸出一個y和一個傳給t+1時刻的h,這個h存儲的是上一時刻的記憶單元,使得每次輸出的y都與上一次有關。反向誤差傳播是沿著與正向傳播相反的路徑傳遞的,若正向傳播沒有計算到,可以通過反向傳播進行補漏,通過計算傳播誤差來調整參數(shù),提高識別準確率[6]。

      本文中神經網(wǎng)絡的損失函數(shù)使用的是語音識別常用的基于連續(xù)時間序列分類CTC Loss,要求神經網(wǎng)絡的輸入和輸出序列必須具有相同的時間長度,若時間長度不同,必須用0補齊,便于預測的輸出值和給定的標簽值相減,得到具體的損失值Loss后才能對聲學模型參數(shù)做及時調整[7-8]。

      3 聲學模型訓練過程

      聲學模型訓練的前期準備工作是:在PC端安裝Pycharm,在Pycharm中安裝深度學習庫Tensor flow、用于快速開發(fā)的編程語言Python3.7、數(shù)學函數(shù)庫Numpy等相關被調用的庫函數(shù)。

      自定義6條喚醒詞和命令詞,自制音頻文件“.wav”及其對應的音素文件“.trn”,放在語音數(shù)據(jù)庫data_thchs30路徑下進行訓練測試。自定義喚醒詞和命令詞見表1所列。

      表1 自定義喚醒詞和命令詞

      3.1 語音樣本采集與預處理

      喚醒詞和簡單的聊天對話的語音樣本是通過PC端麥克風,利用音頻軟件Cool Edit Pro錄制音頻文件,存儲為wav格式,波形采樣率為16 kHz,單聲道,采樣精度是16位,樣本時長為3 s。

      利用Python工具python_speech_features 將音頻數(shù)據(jù)從時域轉換為頻域,計算并提取26維不同倒譜特征的梅爾倒頻譜系數(shù)MFCC。根據(jù)香農采樣定律,將采樣的離散信號經零階保持器變成階梯信號,并量化處理音頻噪聲;然后利用快速傅里葉變化(FFT)將數(shù)據(jù)從時域轉換到頻域,在極坐標下呈現(xiàn)不同頻率的幅值和相位,再進行頻域的特征提取[9-10]。

      3.2 搭建并訓練聲學模型

      深層聲學模型使用LSTM+BiRNN架構,如圖2所示,先從左下角開始,將輸入向量input轉成時間序列優(yōu)先的二維數(shù)組傳入全連接層第一層fc1,經過3個1 024節(jié)點的全連接層fc1、fc2、fc3,并將正反向誤差傳播的BiRNN計算結果傳遞給LSTM節(jié)點;最后再連接2個全連接層fc5、fc6,并將輸出轉換成三維的張量形式。

      圖2 RNN循環(huán)神經網(wǎng)絡結構

      語音識別是一個時序分類問題,對輸入的每個時序對應的結果進行轉換,輸出至全連接層,再用softmax 分類器獲得為1值。全連接層中激活函數(shù)使用的是截斷值設為20的ReLU函數(shù),即輸出限制在0~20之間。從正態(tài)分布中輸出隨機值,將random_normal的初始化標準差設為0.046 875。為減少不必要的訓練時間以及防止訓練過擬合,設置隨機丟棄率為0.95。利用CTC_Loss計算損失值以及Adam優(yōu)化器進行訓練,學習率設為0.001。總樣本迭代100次,每一批次選取5條數(shù)據(jù)進行訓練。

      3.3 模型分析結果

      本文的項目框架是離線語音喚醒+語音識別,喚醒詞和命令詞是連續(xù)的,中間沒有停頓。語音喚醒是針對以喚醒詞開頭的一句話,通過語言模型識別音素并查找相對應的文本,再將音頻文本映射到數(shù)字序列,用于機器識別的過程。語音答復是通過數(shù)字序列查找對應的文本,再根據(jù)文本指令輸出音頻的答復過程。

      如圖3所示,經過5次整體循環(huán)訓練,訓練集和驗證集的損失率都呈現(xiàn)下降趨勢,說明模型的學習率和梯度下降算法都是合理的,輸出的預測值和給定標簽值趨于接近,模型預測的準確率在逐漸提高。

      圖3 模型訓練集/驗證集的損失值

      4 控制系統(tǒng)的程序設計

      智能照明控制系統(tǒng)的程序流程如圖4所示,主要功能是語音喚醒識別和低功耗藍牙信號傳輸控制。當系統(tǒng)接收到語音喚醒詞后,整個系統(tǒng)從低功耗的待機狀態(tài)被喚醒,根據(jù)命令詞的解析執(zhí)行相應的代碼,主控芯片接收到語音識別信號后,通過藍牙協(xié)議給BLE Mesh 網(wǎng)絡內的群組發(fā)送指令,控制LED驅動器,實現(xiàn)場景燈光的變化。

      圖4 照明控制系統(tǒng)程序流程

      5 結 語

      本文設計的智能照明控制系統(tǒng)的語音交互所用的離線數(shù)據(jù)庫是將經過LSTM+BiRNN神經網(wǎng)絡模型訓練后的數(shù)據(jù)植入到嵌入式平臺實現(xiàn)的,系統(tǒng)內群組的通信是通過BLE Mesh 組網(wǎng)實現(xiàn)的。系統(tǒng)可以將智能網(wǎng)關從低功耗休眠待機狀態(tài)中立即喚醒,并將控制命令實時傳輸給BLE Mesh群組內的燈。相比于傳統(tǒng)燈具,這款具有語音控制+藍牙控制的燈組更加智能和生活化,不必再四處尋找墻壁開關或遙控器;相比于單層神經網(wǎng)絡訓練的語音控制燈具,采用經過深層神經網(wǎng)絡訓練過的數(shù)據(jù)庫實現(xiàn)語音交互具有更好的語音喚醒率和識別率;利用BLE Mesh建立的群組,通過藍牙廣播Beacon檢測定位藍牙燈具,相比于WiFi能夠更快地進行通信;離線式語音識別也不會因為斷網(wǎng)或網(wǎng)絡不穩(wěn)定造成語音不受控、沒反應等失效性問題。

      猜你喜歡
      藍牙音頻語音
      藍牙音箱的直線之美
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      簡單、易用,可玩性強Q AcousticsBT3藍牙音箱
      適合自己的才是最好的 德生(TECSUN) BT-50藍牙耳機放大器
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      榆树市| 眉山市| 佳木斯市| 长葛市| 桂林市| 西华县| 周至县| 黔东| 德保县| 博乐市| 澎湖县| 鄂托克前旗| 江北区| 张家川| 酉阳| 宕昌县| 阜康市| 仙桃市| 揭阳市| 拉孜县| 习水县| 安丘市| 清徐县| 安塞县| 邛崃市| 时尚| 株洲县| 建瓯市| 古交市| 海安县| 安顺市| 灵璧县| 昌图县| 拉孜县| 深水埗区| 怀集县| 明溪县| 屏边| 宜昌市| 垣曲县| 即墨市|