基于ESP32的實(shí)驗(yàn)材料存儲(chǔ)柜人臉識(shí)別系統(tǒng)設(shè)計(jì)

2019-03-24 01:23:02陳文敏陳庭軒

安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年6期

郎磊，曹霞，胡元，陳文敏，陳庭軒

(1.華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院，湖北武漢 430079；2.武漢晴川學(xué)院電子信息工程系，湖北武漢 430000)

實(shí)驗(yàn)材料科學(xué)、規(guī)范的管理是高校實(shí)驗(yàn)室教學(xué)與科研工作順利開展的保障，其中對(duì)實(shí)驗(yàn)材料的儲(chǔ)存和取用控制是實(shí)驗(yàn)材料管理工作的重要環(huán)節(jié)[1-3]。目前，大多存儲(chǔ)柜或門禁系統(tǒng)采用IC卡[4-5]、密碼鎖[5]、指紋[6]等解鎖方式，對(duì)穿戴防護(hù)裝備的實(shí)驗(yàn)人員來說較為繁瑣，同時(shí)接觸式的開鎖方式存在取用不便、易丟失、易竊取、管理不便等缺陷，而使用傳統(tǒng)人臉識(shí)別功能的門禁或監(jiān)控系統(tǒng)[7-8]存在造價(jià)高、需要網(wǎng)絡(luò)接入、操作復(fù)雜等問題，已經(jīng)無法滿足實(shí)驗(yàn)室材料的安全管理需求。

針對(duì)以上問題，本文提出了一種基于人臉識(shí)別和語音喚醒功能的實(shí)驗(yàn)材料存儲(chǔ)柜系統(tǒng)。系統(tǒng)通過比對(duì)語音信息中的關(guān)鍵字喚醒設(shè)備，隨后進(jìn)入人臉識(shí)別程序解鎖材料柜，同時(shí)柜門的狀態(tài)信息也會(huì)隨著設(shè)備的喚醒或識(shí)別發(fā)送至服務(wù)器中以便于管理人員查看設(shè)備使用情況，設(shè)備在無網(wǎng)絡(luò)狀態(tài)下也能正常進(jìn)行工作，需上傳信息則在網(wǎng)絡(luò)恢復(fù)后進(jìn)行。最終實(shí)現(xiàn)對(duì)實(shí)驗(yàn)材料存儲(chǔ)柜的安全管理。

1 系統(tǒng)的硬件組成

本系統(tǒng)的硬件主要包括物聯(lián)網(wǎng)模塊ESP32、圖像采集模塊OV2640攝像頭模塊、語音采集模塊、電源模塊和電磁鎖。其中ESP32為系統(tǒng)的控制器，負(fù)責(zé)接收語音模塊與攝像頭采集的語音信息和人臉圖像信息，并運(yùn)行語音比對(duì)和人臉識(shí)別程序，根據(jù)程序處理結(jié)果控制儲(chǔ)物柜門鎖的開關(guān)。同時(shí)，ESP32利用其內(nèi)部集成的WIFI模塊自動(dòng)配網(wǎng)，實(shí)現(xiàn)與服務(wù)器的通信。

當(dāng)語音模塊采集到語音信息后，通過I2S接口傳送給ESP32進(jìn)行比對(duì)，比對(duì)成功喚醒系統(tǒng)，隨后啟動(dòng)OV2640攝像頭拍照，圖像信息經(jīng)數(shù)據(jù)總線傳送到ESP32后進(jìn)入圖像識(shí)別程序，將采集到的圖片與用戶預(yù)先存儲(chǔ)的人臉圖像進(jìn)行識(shí)別和匹配，ESP32根據(jù)匹配結(jié)果控制儲(chǔ)物柜門鎖的開合，最后將當(dāng)前柜門操作過程中的信息通過WIFI上傳至服務(wù)器。

1.1 ESP32芯片的最小系統(tǒng)

ESP32芯片是樂鑫公司推出的一塊2.4GHz WIFI加藍(lán)牙雙模雙核MCU芯片，支持高達(dá)240MHz的時(shí)鐘頻率，擁有34個(gè)GPIO端口，外部內(nèi)存方面最多支持4個(gè)16MB的外部QSPI flash和SRAM，其采用臺(tái)積電超低功耗的40nm工藝，電源供電僅需3.3V供電即[9]。相對(duì)市面上多數(shù)單片機(jī)而言，ESP32具有運(yùn)算能力強(qiáng)、射頻性能高、開發(fā)簡單、功耗低和高度集成的優(yōu)勢[10]。

以往人臉識(shí)別系統(tǒng)中，人臉識(shí)別的程序由服務(wù)器來運(yùn)行完成，單片機(jī)與WIFI模塊為兩個(gè)獨(dú)立的模塊，其工作流程是首先外部攝像頭采集圖像信息后發(fā)送給單片機(jī)，單片機(jī)通過WIFI模塊將圖像信息上傳至服務(wù)器；服務(wù)器接收到的圖像信息識(shí)別后，將識(shí)別結(jié)果再由WIFI傳輸至單片機(jī)進(jìn)行處理[11-13]。采用這樣的方法，系統(tǒng)成本高、體積大、速度慢并且人臉識(shí)別的效率低，在硬件選型和使用時(shí)還需要考慮WIFI模塊的波特率和單片機(jī)的波特率的匹配問題。

本系統(tǒng)采用樂鑫ESP32芯片作為主控芯片，利用其較高的頻率和豐富的內(nèi)部資源能夠有效的進(jìn)行語音喚醒和人臉圖像識(shí)別的計(jì)算，通過內(nèi)部集成的WIFI和藍(lán)牙模塊在與服務(wù)器進(jìn)行數(shù)據(jù)交互時(shí)，通訊速度更快，同時(shí)也節(jié)省了外部接口的資源。ESP32芯片豐富的外設(shè)和高擴(kuò)展性，使實(shí)驗(yàn)材料存儲(chǔ)柜的設(shè)計(jì)擁有多種管理方案和豐富的變化空間，ESP32最小系統(tǒng)電路圖如圖1所示。

圖1 ESP32最小系統(tǒng)電路圖

1.2 OV2640攝像頭模塊

系統(tǒng)中的圖像采集模塊OV2640 是一款1/4 寸的 CMOS UXGA圖像傳感器，其輸出圖像最高像素可達(dá)1 600×1 200，用戶也可以根據(jù)需求調(diào)整像素規(guī)格[14]。使用該模塊不但滿足本系統(tǒng)進(jìn)行人臉圖像信息識(shí)別的分辨率要求，并且符合電路系統(tǒng)高集成度和低功耗的發(fā)展趨勢。

OV2640通過SCCB總線選擇輸出圖像格式和圖像數(shù)據(jù)幀的位數(shù)，輸出圖像數(shù)據(jù)格式有RGB565 和 JPEG兩種，輸出數(shù)據(jù)幀的位數(shù)有8位和10位[15]。綜合系統(tǒng)的功能需求和相關(guān)硬件的數(shù)據(jù)處理工作量，本模塊輸出圖像設(shè)置為320×240像素，采用JPEG輸出圖像格式和8位數(shù)據(jù)輸出接口。

2 人臉識(shí)別材料存儲(chǔ)柜軟件程序設(shè)計(jì)

樂鑫公司為ESP32提供了一套名為ESP-WHO的開發(fā)框架，在ESP-WHO中可以方便的添加自己所需的庫或者其他功能，能夠幫助用戶快速開發(fā)物聯(lián)網(wǎng)應(yīng)用。開發(fā)框架中集成了FreeRTOS實(shí)時(shí)操作系統(tǒng)，方便了用戶對(duì)程序的移植。使用ESP-WHO開發(fā)框架，可以快速構(gòu)建面部檢測與識(shí)別功能。在ESP-WHO中，檢測、識(shí)別和圖像處理單元是該平臺(tái)的核心。

設(shè)備上電后進(jìn)入主程序，主程序流程圖如圖2所示。設(shè)備主要工作在以下5個(gè)階段。首先進(jìn)入到初始化階段，該階段會(huì)將設(shè)備需要的外設(shè)進(jìn)行簡單快速的初始化。隨后進(jìn)入到語音喚醒階段，當(dāng)數(shù)字麥克風(fēng)接收到的音頻信息中含有用戶所配置的喚醒關(guān)鍵詞時(shí)，設(shè)備將退出此階段進(jìn)入到聯(lián)網(wǎng)配置階段。聯(lián)網(wǎng)配置階段的設(shè)備將載入之前所保存WIFI信息，自動(dòng)連接該網(wǎng)路；若網(wǎng)絡(luò)連接失敗，用戶可使用手機(jī)APP通過ESP32的SmartConfig模式進(jìn)行一鍵配網(wǎng)，并在配置完成后自動(dòng)連接。網(wǎng)絡(luò)連接成功后，設(shè)備進(jìn)入到人臉檢測與識(shí)別階段，ESP32對(duì)圖片信息進(jìn)行人臉檢測和人臉識(shí)別。最終根據(jù)識(shí)別結(jié)果進(jìn)行柜門開關(guān)，操作完成后，不論結(jié)果如何，設(shè)備都會(huì)將識(shí)別到的人臉圖像發(fā)送至服務(wù)器，便于負(fù)責(zé)人員的查看與管理。在每個(gè)階段中都會(huì)有指示燈顯示出設(shè)備當(dāng)前所處階段，以及該階段的進(jìn)行狀況。

圖2 主程序流程圖

2.1 語音喚醒模塊的程序設(shè)計(jì)

音頻模塊初始化完成后，檢測音頻輸入，將由數(shù)字麥克風(fēng)錄入的音頻數(shù)據(jù)儲(chǔ)存于一組16位帶符號(hào)的數(shù)組中，通過隊(duì)列傳輸?shù)教幚磉M(jìn)程中。音頻處理進(jìn)程檢測到隊(duì)列有數(shù)組輸入，將傳入的音頻流樣本提供給語音識(shí)別模型，并檢測是否找到喚醒關(guān)鍵詞。若檢測到喚醒字，則喚醒設(shè)備；否則，返回0。

2.2 人臉識(shí)別模塊的程序設(shè)計(jì)

人臉識(shí)別模塊程序主要由人臉檢測程序和人臉識(shí)別程序兩部分組成。ESP32會(huì)將接收到的圖像信息，通過算法完成對(duì)人臉信息的檢測與識(shí)別，進(jìn)而根據(jù)不同結(jié)果完成具體的工作。

人臉檢測程序主要用于檢測輸入圖像中是否存在人臉，若存在，則截取面部圖像信息；否則，進(jìn)行新一輪的檢測。人臉檢測程序使用一種輕量級(jí)人臉檢測模型，該模型是基于輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)(MobileNet V2)[16]和多任務(wù)學(xué)習(xí)級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(Multi-task Cascaded Convolutional Net-works，MTCNN)[17]的新型人臉檢測模型，它將MTCNN網(wǎng)絡(luò)中卷積神經(jīng)網(wǎng)絡(luò)部分替換成MobileNetV2。這種檢測模型的網(wǎng)絡(luò)架構(gòu)極大的減少了運(yùn)算量和內(nèi)存，同時(shí)保持較高的精度，為在嵌入式設(shè)備運(yùn)算人臉檢測程序提供可能。

本系統(tǒng)所用輕量級(jí)人臉檢測模型由提案網(wǎng)絡(luò)(P-Net)、精煉網(wǎng)絡(luò)(R-Net)、輸出網(wǎng)絡(luò)(O-Net)三個(gè)主要部分組成。P-Net是一個(gè)全卷積網(wǎng)絡(luò)，用來生成候選窗和邊界框，并將其發(fā)送到R-Net；R-Net用來改善和篩選候選窗；最后由O-Net輸出精確的邊界框和5個(gè)特征值位置。

人臉識(shí)別程序主要用于檢測輸入面部圖像信息是否與設(shè)備錄入面部圖像信息相匹配，若匹配，則輸出匹配的人員信息，否則輸出0。人臉識(shí)別程序使用一種輕量級(jí)人臉識(shí)別模型，該模型基于MobileNet V2和ArcFace算法構(gòu)建的新型人臉識(shí)別模型，它既保證了人臉識(shí)別模型較小，又保證模型具有較高的精確度和較快的識(shí)別速度。

人臉檢測與識(shí)別流程圖如圖3所示，首先根據(jù)圖像信息中人臉面部特征截取面部圖像；然后通過面部識(shí)別算法生成面部圖像ID；最后將新生成的面部ID與現(xiàn)有面部ID進(jìn)行比對(duì)，獲取它們之間的差值并與設(shè)置閾值比較，判斷該人員是否在設(shè)備注冊(cè)。

圖3 人臉檢測與識(shí)別流程圖

3 系統(tǒng)測試與實(shí)現(xiàn)

為了檢驗(yàn)本系統(tǒng)的性能，分別對(duì)語音喚醒、人臉識(shí)別范圍和準(zhǔn)確率進(jìn)行了測試。

在確保環(huán)境安靜的前提下，對(duì)設(shè)備在0～10m的范圍內(nèi)進(jìn)行語音喚醒成功率的測試，每隔1m對(duì)設(shè)備發(fā)出100次以上的喚醒指令，通過打印出設(shè)備喚醒的次數(shù)來計(jì)算設(shè)備喚醒的成功率。測試結(jié)果如圖4所示，語音喚醒指令在0～3m時(shí)識(shí)別成功率很高。距離較遠(yuǎn)時(shí)，需要音量提高，才能保證設(shè)備正常喚醒。

圖4 語音喚醒成功率

人臉識(shí)別模型中訓(xùn)練圖片尺寸多為56×56像素以上，本系統(tǒng)將人臉識(shí)別網(wǎng)絡(luò)中可檢測面部的最小尺寸設(shè)置為80×80像素、輸入圖像的漸變縮放比例設(shè)置為0.7。設(shè)備在1m內(nèi)的識(shí)別效果較好，可檢測人臉范圍如圖5所示，此圖為設(shè)備檢測人臉的最大范圍圖，超出范圍時(shí)，設(shè)備不能準(zhǔn)確識(shí)別。

圖5 設(shè)備可檢測人臉范圍

為了驗(yàn)證系統(tǒng)人臉識(shí)別的準(zhǔn)確率，關(guān)閉音頻喚醒功能，僅開啟面部檢測與識(shí)別功能。每隔1s進(jìn)行面部檢測，若在5s內(nèi)未能檢測到人臉，則默認(rèn)為檢測識(shí)別失敗。人臉識(shí)別輸入圖像尺寸為56×56像素，臉部識(shí)別域值設(shè)置為0.75。提前將被測人員的FaceID錄入設(shè)備之中，每位成員錄入人像次數(shù)為3次。測試環(huán)境在實(shí)驗(yàn)室中進(jìn)行，光照足夠充足，測試人員坐于攝像頭正前方0.5m的位置，此位置為人臉檢測與識(shí)別最佳位置。為了模擬設(shè)備在真正使用時(shí)的情況，被測人員在測試期間可微微改變面部朝向，每位成員測試100次以上。

人臉識(shí)別準(zhǔn)確率測試結(jié)果如表1所示，其中識(shí)別準(zhǔn)確率指實(shí)驗(yàn)中準(zhǔn)確檢測人臉并識(shí)別為正確ID的實(shí)驗(yàn)次數(shù)與總實(shí)驗(yàn)次數(shù)的比值；識(shí)別平均時(shí)間指開始人臉檢測程序、檢測后由人臉識(shí)別程序得出結(jié)論所花總時(shí)長。測試表明，單次識(shí)別時(shí)間在1.5s左右，最高不超過2s；識(shí)別成功率平均為80.54%。由于ESP32設(shè)備內(nèi)存有限，每個(gè)FaceID錄入樣本數(shù)為3個(gè)，而人臉識(shí)別程序中使用512-d vector代表一個(gè)FaceID的面部特征，輸入特征參數(shù)較少，導(dǎo)致該面部特征不能較完美的表示當(dāng)前測試人員的面部特征情況，至此識(shí)別精度不如理論中測試結(jié)果那么完美。若對(duì)安全性有較高要求，可增加臉部識(shí)別域值大小，降低錯(cuò)誤識(shí)別率；反之降低該值，可提高識(shí)別率成功率；此值設(shè)置為0.75為測試效果最佳值。在不提高錯(cuò)誤識(shí)別率的情況下，提高人臉識(shí)別正確率，設(shè)備可選用更大的PSRAM內(nèi)存，提高FaceID錄入樣本的數(shù)量，從而更好地?cái)M合被測人員的人臉特征。圖6為人臉檢測識(shí)別結(jié)果。

表1 人臉識(shí)別準(zhǔn)確率結(jié)果

圖6 識(shí)別結(jié)果

4 結(jié)語

通過測試表明，設(shè)備可以通過語音快速且準(zhǔn)確的喚醒設(shè)備，已錄入系統(tǒng)的用戶可通過語音人臉識(shí)別實(shí)現(xiàn)開柜功能，管理員可通過服務(wù)器向設(shè)備發(fā)送刪除用戶、添加用戶等功能，隨時(shí)隨地查看設(shè)備使用情況。系統(tǒng)使用數(shù)字麥克風(fēng)和OV2640攝像頭模塊輸入音頻信息和圖像信息，語音喚醒功能和人臉識(shí)別與檢測功能完全通過本地設(shè)備進(jìn)行計(jì)算和比對(duì)，與傳統(tǒng)人臉識(shí)別設(shè)備相比，極大的節(jié)省了數(shù)據(jù)與服務(wù)器傳輸所消耗的時(shí)間和服務(wù)器搭建的成本[18]。整個(gè)系統(tǒng)電路簡潔、兼容性高、移植性強(qiáng)、集成度高。使用該存儲(chǔ)柜系統(tǒng)時(shí)，只需對(duì)普通的儲(chǔ)物柜的機(jī)械部分進(jìn)行簡單改裝，因此具有較高的實(shí)用價(jià)值。

安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版)2019年6期

安徽理工大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 基于XPS對(duì)不同密度級(jí)煉焦煤表面碳氧結(jié)構(gòu)的分析; 酯化大單體酸醇比對(duì)聚羧酸減水劑性能影響; 補(bǔ)充維生素D對(duì)慢性阻塞性肺疾病患者的影響; 主理想環(huán)上一類矩陣對(duì)可同時(shí)三角化探討; 車載偽距單點(diǎn)定位的卡爾曼濾波算法研究; 鄂北丘陵崗地區(qū)淺埋隧洞劣質(zhì)圍巖支護(hù)數(shù)值模擬研究

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看