張菊莉,馬 鐘,賀占莊,周革強(qiáng),何雙亮
(1.西安微電子技術(shù)研究所,西安710065;2.中國航天員科研訓(xùn)練中心,北京100094)
出艙活動(Extravehicular Activity,EVA)是一種由航天員著艙外服在遠(yuǎn)離地球大氣層的艙外完成的活動[1]。它是載人航天三大關(guān)鍵技術(shù)之一,是載人航天工程在軌安裝設(shè)備、檢查和維修航天器的重要手段。
出艙活動通常意味著更具挑戰(zhàn)、困難和危險的任務(wù)。因此提高出艙活動任務(wù)的工效,對出艙活動的成功執(zhí)行,以及未來執(zhí)行更復(fù)雜的出艙任務(wù)有著重要的意義。而影響出艙活動工效的一個重要因素是航天員出艙后能否快速地識別與定位要操作的物體。為提高出艙活動的工效,將能夠自動識別艙外物體的智能化視覺感知系統(tǒng)集成到航天員的艙外航天服中,是未來智能化、信息化載人航天技術(shù)的一個趨勢。而智能化、信息化的視覺感知系統(tǒng)如何進(jìn)行艙外物體的識別也是一個極具挑戰(zhàn)性的問題。
傳統(tǒng)的物體識別方法首先對圖像進(jìn)行疑似物體區(qū)域的一般對象估計,然后根據(jù)估計結(jié)果進(jìn)行相應(yīng)的類別分類與識別。通常一般對象估計多采用滑動窗口等方法來提取相應(yīng)的魯棒性特征,該方法過程繁瑣,計算量大。程明明等[2]提出對象估計領(lǐng)域的一種高效的檢測方法,并被應(yīng)用在相關(guān)領(lǐng)域中[3?4],且取得了較好的分類結(jié)果。 趙旦峰等[3]采用高斯差分方法對圖像邊緣特征進(jìn)行增強(qiáng),并級聯(lián)Boost方法進(jìn)行得分策略優(yōu)化,取得了較好的分類結(jié)果,但其在一定程度上也增加了原方法的時間復(fù)雜度。 當(dāng)前卷積神經(jīng)網(wǎng)絡(luò)方法 R?CNN[5]、FastR?CNN[6]和 Faster R?CNN[7]使用選擇性搜索而非滑動窗口來提取圖像特征。但即使在快速模式下,選擇性搜索大約需要2 s來提取特征區(qū)域,時間上難以容忍。針對宇航員艙外活動的時間性要求,在對要識別區(qū)域的圖像進(jìn)行特征提取時,須選擇耗時小、效率高的方法。
眾所周知,人類視覺感知系統(tǒng)可以從復(fù)雜的背景中快速而準(zhǔn)確地識別出物體種類及位置。在出艙活動時,復(fù)雜的太空環(huán)境,如強(qiáng)光照等都會增加物體識別的難度。因此,為排除復(fù)雜環(huán)境中的干擾,快速識別并定位物體,本文提出一種基于航天員視覺感知的物體識別方法。方法為加快識別速度,加入了航天員的視覺觀察,即直接以宇航員的視覺注視點一定范圍內(nèi)的圖像區(qū)域作為感興趣區(qū)域,采用耗時小、效率高的二值化賦范梯度方法對感興趣區(qū)域進(jìn)行特征提取,然后由具有強(qiáng)大分類能力的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合提取到的特征進(jìn)行識別與精定位。
為提高航天員出艙活動的工效及智能化、信息化水平,在航天員的頭盔中集成眼動追蹤設(shè)備、圖像采集設(shè)備及綜合信息推送顯示設(shè)備等,算法的處理單元作為綜合信息處理單元的一部分集成在航天服的中央處理單元中。頭盔原型設(shè)計如圖1所示。
圖1 航天員頭盔原型Fig.1 Prototype of astronaut helmet
應(yīng)用時,首先由頭盔中的眼動追蹤設(shè)備對航天員眼部活動進(jìn)行掃描,獲取目光注視點,由綜合信息處理單元開啟圖像采集設(shè)備對注視時間超過100 ms的一定范圍的區(qū)域進(jìn)行圖像采集,然后調(diào)用識別算法對采集到的圖像進(jìn)行識別。
識別算法首先對采集到的圖像進(jìn)行二值化賦范梯度特征提取,由于圖像采集的角度及距離等因素,通常對于一個較大的物體,采集的圖像往往不能完全覆蓋物體的全部或者絕大部分,從而對物體識別的準(zhǔn)確率存在一定的影響。因此在這里考慮選取比提取的特征區(qū)域大的圖像區(qū)域輸入到深度神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類識別與精定位,最后將識別結(jié)果推送到航天員頭盔中的顯示設(shè)備上。總體的識別方案流程如圖2所示。
圖2 基于視覺感知的物體識別算法流程Fig.2 Flowchart of object detection inspired by visu?al perception
人類視覺感知系統(tǒng)只需對物體的整體輪廓進(jìn)行判斷,就可以分辨物體的類別。程明明等[2]分析發(fā)現(xiàn),在一幅圖像中,一般物體都會有定義完好的封閉輪廓,從而與背景區(qū)域相區(qū)別。受此啟發(fā),將圖像縮小到一定大小,并計算圖像的二值化賦范梯度,對梯度進(jìn)行分析發(fā)現(xiàn),圖像中物體的賦范梯度幅度變化很小,而背景的變化幅度比較大,從而通過對抽象圖的分析就可以判斷出哪是物體。在設(shè)計算法時,將采集到的圖像窗口重置為固定大小,并計算二值化賦范梯度,并將梯度幅值轉(zhuǎn)化為64維的特征向量,利用64位數(shù)據(jù)類型存儲,在一定程度上壓縮了數(shù)據(jù)量,同時達(dá)到快速處理的目的。然后通過兩次支持向量機(jī)(Support Vector Machine,SVM)訓(xùn)練賦范梯度特征,得到目標(biāo)和背景的區(qū)分模型。第一次SVM訓(xùn)練獲得整體的物體模型后,用匹配算法及非極大值抑制算法預(yù)測所有可能包含真實物體的候選窗口,再針對這些候選窗口進(jìn)行第二次SVM訓(xùn)練,獲得候選特征窗口的得分,選擇得分最高的窗口作為物體特征窗口。每個窗口可通過一個訓(xùn)練好的線性模型w∈RR64獲得得分,如式(1)、(2)所示:
其中,sl代表窗口得分,gl代表賦范梯度特征,公式(1)表示窗口的得分可以通過訓(xùn)練好的線性模型w∈R R64與賦范梯度特征gl的向量內(nèi)積獲得,得分越高,越接近目標(biāo)。公式(2)中l(wèi)表示窗口坐標(biāo)及其尺度,i表示尺度大小,(x,y)表示窗口位置。再運用非極大抑制方法,為每個尺度提供一些建議特征,過濾掉包含物體可能性很小的特征窗口,選取得分最高的窗口作為物體特征窗口。算法流程圖如圖3所示。
近年來,深度卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取能力[5?8]使得物體識別似乎變得更簡單了。但神經(jīng)網(wǎng)絡(luò)計算量大、參數(shù)多等問題也導(dǎo)致要實現(xiàn)實時的物體識別并不容易。Redmon等[9]作者將物體識別問題看作回歸問題,采用卷積神經(jīng)網(wǎng)絡(luò)直接進(jìn)行特征提取、識別與定位,可實現(xiàn)快速的物體識別。
圖3 基于二值化賦范梯度的物體特征提取流程Fig.3 Flowchart of object feature extractionbased on binarized normed gradient
受此啟示,基于視覺感知的物體識別方法借鑒了其將識別問題當(dāng)作回歸問題的思想,直接將二值化賦范梯度提取的特征圖輸入到深度神經(jīng)網(wǎng)絡(luò)中,由其計算相應(yīng)類別概率及位置的置信度。
識別時,卷積神經(jīng)網(wǎng)絡(luò)將輸入圖像縮放為418×418,并分割成3×3的網(wǎng)格,每個網(wǎng)格負(fù)責(zé)預(yù)測2個矩形框,每一個預(yù)測的矩形框包括5個預(yù)測值:x、y、w、h、confidence。 其中(x,y)表示框的中心坐標(biāo),w和h分別代表矩形框的寬和高。卷積神經(jīng)網(wǎng)絡(luò)提取到的特征區(qū)域與二值化賦范梯度提取的特征區(qū)域進(jìn)行重疊率的比較,選擇重疊率最大的區(qū)域作為識別出的物體的最終位置。
同時,每個網(wǎng)格還預(yù)測物體相對于所有類別的條件概率,即該網(wǎng)格包含某物體的可能性。算法選擇概率值最大的類別作為物體的類別。
圖4 基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識別與精定位Fig.4 Object detection and accurate location by deep CNN
算法的識別與精定位過程如圖4所示。圖中第四幅圖中綠色有標(biāo)簽的矩形框為物體的最終位置,標(biāo)簽為類別名。
神經(jīng)網(wǎng)絡(luò)訓(xùn)練時采用的損失函數(shù)如式(3):
式中:p1、p2是坐標(biāo)預(yù)測,p3預(yù)測含有物體的矩形框的置信度,p4預(yù)測不含物體的矩形框的置信度,p5是類別預(yù)測,如式(4) ~(8):
上述公式中,S為網(wǎng)格數(shù),B為每個網(wǎng)格要預(yù)測的矩形框數(shù)量,C為要預(yù)測的種類數(shù),λcoord為坐標(biāo)預(yù)測時的損失權(quán)值,λnoobj為沒有物體時的損失權(quán)值,為第i個網(wǎng)絡(luò)中的第j個矩形框不含物體的概率,用于判斷第i個網(wǎng)絡(luò)中的第j個矩形框是否負(fù)責(zé)預(yù)測這個物體,classes為全部可預(yù)測物體。
在損失函數(shù)中,當(dāng)網(wǎng)格中有物體時,但分類預(yù)測錯誤時,則加大分類錯誤的損失。而當(dāng)網(wǎng)格預(yù)測的矩形框與實際標(biāo)注的矩形框重疊率越小,損失越大。在訓(xùn)練過程中,通過損失函數(shù)不斷調(diào)整權(quán)重參數(shù),最終學(xué)習(xí)到最適合本數(shù)據(jù)集的神經(jīng)網(wǎng)絡(luò)模型,以供在物體識別時使用。
提出的識別算法中的二值化賦范梯度特征提取及深度卷積神經(jīng)網(wǎng)絡(luò)識別都需要預(yù)先在數(shù)據(jù)集上進(jìn)行訓(xùn)練得到相應(yīng)的模型,以在航天員出艙時實時地進(jìn)行物體識別。為模擬航天員在艙外看到的部分物體,建立了包含7個類別的數(shù)據(jù)集,包括天宮一號、神舟八號載人飛船、國際空間站、Apol?lo三維模型圖片等,原始圖像共517幅,通過標(biāo)注軟件進(jìn)行人工標(biāo)注,標(biāo)注信息包括物體類別和物體位置等,最后生成“.xml”格式的標(biāo)注文件。由于有標(biāo)注的數(shù)據(jù)較少,為了增強(qiáng)現(xiàn)有方法對目標(biāo)旋轉(zhuǎn)的魯棒性,對數(shù)據(jù)進(jìn)行了增殖。具體方法為:首先對原圖水平鏡像,得到一幅新圖,然后對原圖及新圖分別進(jìn)行3次旋轉(zhuǎn),每次旋轉(zhuǎn)90°,共計得到7幅新圖。整個處理方法的流程如圖5所示。
圖5 數(shù)據(jù)擴(kuò)增方法Fig.5 Data augment
經(jīng)數(shù)據(jù)擴(kuò)增之后,原始數(shù)據(jù)集由517幅圖像增加到4136幅,其中60%作為訓(xùn)練集,其余作為測試驗證數(shù)據(jù)集。
3.2.1 基于二值化賦范梯度算法的模型訓(xùn)練
訓(xùn)練時,利用一款針對SVM的開源的集成開發(fā)庫LIBLINEAR庫[10]來增強(qiáng)算法的處理速度。算法首先加載圖像標(biāo)注信息,然后再進(jìn)行兩個階段的SVM的訓(xùn)練,訓(xùn)練過程如下:
首先,對每張訓(xùn)練圖像進(jìn)行不同的尺度變換,在每個尺度下計算梯度,根據(jù)預(yù)測得分機(jī)制,計算每個尺度下的二值化賦范梯度特征及得分,排序后利用非極大抑制方法消除掉最高分附近的得分值;然后,在原始圖像上找到對應(yīng)得分點對應(yīng)的矩形框并保存;最后,將所有預(yù)測的矩形框與原始圖像中所有有效正樣本做重疊率比對,一旦有一個正樣本框與該預(yù)測矩形框重疊率大于50%,則將該可能矩形框作為正樣本,否則為負(fù)樣本。在第二級訓(xùn)練時,針對每個尺度訓(xùn)練一次,訓(xùn)練結(jié)束后,生成新的權(quán)值模型供測試使用。
3.2.2 基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練
基于深度卷積神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練采用Im?ageNet模型作為預(yù)訓(xùn)練模型以加快模型的收斂速度。訓(xùn)練樣本同為上述樣本。訓(xùn)練采用基于反向傳播的隨機(jī)梯度下降算法進(jìn)行學(xué)習(xí),訓(xùn)練迭代次數(shù)預(yù)設(shè)為100 000次,訓(xùn)練過程中可以隨時停止,每1000次保存一次模型參數(shù),學(xué)習(xí)率為0.000 05,動量為0.9。迭代次數(shù)大概為20 000次時,模型收斂,錯誤率在0.09。
為驗證算法的識別效率,搭建硬件平臺及實現(xiàn)測試軟件對識別算法進(jìn)行模擬驗證。
為模擬捕獲航天員眼動信息的場景,將TO?BII眼動儀連接在計算機(jī)USB端口采集人眼信息。首先由人眼注視計算機(jī)屏幕顯示的圖片,將目光停留時間大于100 ms時的區(qū)域視為感興趣區(qū)域,然后測試軟件以人眼注視點為中心選取一定范圍的圖像區(qū)域,由識別算法進(jìn)行處理,最后輸出識別結(jié)果。驗證環(huán)境搭建如圖6所示。
圖6 驗證平臺Fig.6 Verification platform
圖6 中,由眼動儀獲取人眼信息,藍(lán)色圓型區(qū)域代表人眼的注視點,紅色和綠色有標(biāo)簽的矩形框分別表示注視點移動到不同對象上時的物體識別結(jié)果,不同顏色的矩形框代表不同的物體類別。
算法為模擬航天員出艙活動中視覺運動,采用眼動儀追蹤人眼的眼動軌跡。眼動儀放置在計算機(jī)屏幕下方能夠采集到眼動數(shù)據(jù)的位置,并進(jìn)行固定。實驗時人眼注視計算機(jī)屏幕,眼動儀進(jìn)行眼動掃描,軟件選取目光停留時間100 ms以上的一定范圍的圖像輸入到識別算法中進(jìn)行識別。識別算法首先將采樣的人眼感興趣區(qū)域圖片進(jìn)行二值化賦范梯度的特征提取,以判斷人眼注視點為背景還是物體。有物體時,提取物體的矩形框,輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行分類識別與精定位。驗證軟件實現(xiàn)的流程如圖7所示。
在對眼睛注視點進(jìn)行選取及物體特征區(qū)域的預(yù)測之后,如果有物體則確定物體的矩形框,選取比物體框擴(kuò)大α(擴(kuò)大因子,0<α<1)的圖片作為深度卷積神經(jīng)網(wǎng)絡(luò)物體識別算法的輸入。算法將整幅圖像直接輸入到卷積神經(jīng)網(wǎng)絡(luò)中,進(jìn)行識別與精定位。圖8為基于視覺感知的物體識別算法輸出結(jié)果。
圖7 軟件流程Fig.7 Flowchart of software
圖8 物體識別輸出結(jié)果Fig.8 Output of the object detection
圖8 中的每一幅圖中不同顏色的矩形框代表不同的物體種類,每一個矩形框左上角的字符代表物體所屬的類別名稱。
軟件在實現(xiàn)時,只顯示人眼的感興趣區(qū)域圖片,然后輸出最終的識別結(jié)果,如果未識別到感興趣區(qū)域的物體時,只顯示感興趣區(qū)域的圖片。圖8為識別到物體及精定位的最終結(jié)果。
3.5.1 評估準(zhǔn)則
評估識別算法的類別準(zhǔn)確性有四個標(biāo)準(zhǔn)[11]:召回率(Recall)、準(zhǔn)確率(Precision)、平均準(zhǔn)確率(Average Precision,AP)和均值準(zhǔn)確率(Mean Av?erage Precision,mAP)。
而評估位置的準(zhǔn)確性,則通過矩形框A與標(biāo)注矩形框B之間的IoU(Intersection of Union)重疊率來計算。算法的實時性,則通過每秒處理幀數(shù)(FPS)來評估。
在面向出艙活動的物體識別算法中,主要評估了算法的IOU、召回率和平均準(zhǔn)確率及時間。以下將自建數(shù)據(jù)集簡稱為EVA數(shù)據(jù)集。
3.5.2 實驗結(jié)果與分析
表1是算法驗證得到的IoU和召回率,表2為驗證得到的mAP,表3是本文算法與目前主要卷積神經(jīng)網(wǎng)絡(luò)方法的mAP與處理時間的對比,驗證樣本集有1655幅圖片。
表1 IoU和召回率Table 1 IoU and recall rate
表2 各類別mAP和平均mAPTable 2 mAP of each class and average mAP
表3 算法與目前主要算法的比較Table 3 Comparison of the algorithm with other main algorithms
從表1和表2中可看出,算法的平均IoU值為87.1%,而召回率則為91.2%,mAP為88.2%。算法在每幅圖像平均耗時約0.047 s,可以達(dá)到實時識別的結(jié)果。表3中,算法的mAP在VOC2007及在EVA數(shù)據(jù)集上的測試結(jié)果表明,該算法比當(dāng)前主要的基于卷積神經(jīng)網(wǎng)絡(luò)的識別算法的mAP還要高一些,分析主要原因在于:一方面算法中加入了人眼對感興趣區(qū)域的選??;另一方面,卷積神經(jīng)網(wǎng)絡(luò)直接對二值化賦范梯度算法提取的特征區(qū)域進(jìn)行識別與精定位,因此識別時,輸入的圖像中已經(jīng)確定有物體,且特征區(qū)域已經(jīng)被提取,卷積神經(jīng)網(wǎng)絡(luò)只需要在此基礎(chǔ)上進(jìn)行分類和定位即可,置信度提高,從而最終的識別準(zhǔn)確率也有明顯的提高。
在對采集到的圖像進(jìn)行了二值化賦范梯度的特征提取之后,將特征區(qū)域回歸到原圖像中,并在原圖中選取比特征區(qū)域面積大α的區(qū)域,α分別選取5%、10%、15%、20%、25%、30%,觀察其對最終檢測準(zhǔn)確率的影響。影響曲線如圖9所示。
圖9 α對mAP的影響Fig.9 The influence of α on mAP
從圖中可以看出,擴(kuò)大因子α在一定范圍內(nèi)可以提高mAP。當(dāng)α取5%時,由于其擴(kuò)大非常小,對準(zhǔn)確率的影響也很有限,而當(dāng)擴(kuò)大至10%時,其有比較明顯的準(zhǔn)確率提升,但是隨著面積的擴(kuò)大,準(zhǔn)確率并不再明顯上升。分析原因在于提取特征時,已經(jīng)基本獲取了所采集圖像中物體區(qū)域,擴(kuò)大到一定程度時,物體的信息并不會被增強(qiáng),因而也并不會因為擴(kuò)大而提升準(zhǔn)確率,反而會因為擴(kuò)大太多,提供了太多干擾信息,造成準(zhǔn)確率的下降。
表3展示了本文算法在EVA數(shù)據(jù)上的靜態(tài)圖片平均識別時間為0.047 s。應(yīng)用時,總耗時應(yīng)包括:眼動信息采集時間、圖像采集時間、在線識別耗時等。在本模擬實驗中,眼動信息采集時間包括:眼動儀獲取眼動軌跡信息、選擇注視點信息。根據(jù)眼動儀手冊,眼動儀獲取眼動信息的時間大約40 ms,注視時間為100 ms,選擇注視點時間約為50 ms,因此眼動信息采集信息大約為190 ms。根據(jù)相機(jī)的性能,采集時間不等,普通相機(jī)大約一幀圖像30 ms,加上在線識別耗時大約為47 ms以上,因此總體理論時間大約為267 ms。而在模擬實驗中,因采用靜態(tài)圖片,即獲取眼動信息后,直接采集注視點圖片,測試的總體耗時為300 ms。在實用性和準(zhǔn)確率方面,基本可以滿足工程應(yīng)用需求。
本文針對航天員出艙活動所面對的特殊環(huán)境,提出了一種基于視覺感知啟發(fā)的物體識別方法。方法以人眼注視點區(qū)域作為感興趣區(qū)域輸入到識別算法中進(jìn)行處理,將人的視覺選擇性與主動性特性引入算法,提高了算法的識別效率。實驗結(jié)果證明該方法可以實時而準(zhǔn)確地進(jìn)行艙外物體的識別。但是方法仍然存在一些局限性,需要在后續(xù)工作中改進(jìn)。
在驗證方法的準(zhǔn)確性時,僅使用眼動儀和通用計算機(jī)來測試原理,測試圖像只是一些關(guān)于航天器和航天員的靜態(tài)自然圖片,實驗條件與真實航天服及應(yīng)用環(huán)境差異較大。同時,由于該方法采用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行最終的識別與定位,而卷積神經(jīng)網(wǎng)絡(luò)需要大量存儲空間且計算復(fù)雜度很高,因此在模擬驗證時用到了GPU來加速神經(jīng)網(wǎng)絡(luò)的處理。在實際的航天服中,高存儲和復(fù)雜計算都較難實現(xiàn)。
針對神經(jīng)網(wǎng)絡(luò)模型大、參數(shù)多,可通過二值化方法實現(xiàn)CNN模型壓縮,降低存儲要求和計算復(fù)雜度,最終將其整合到航天員的艙外服中。同時,需要設(shè)計人機(jī)交互軟件來顯示識別信息及其他信息,并推送到綜合信息顯示系統(tǒng)中進(jìn)行顯示。更重要的是,針對真實太空環(huán)境中的強(qiáng)光照、顏色及紋理的巨大變化,為進(jìn)一步提高算法的魯棒性,考慮先對采集圖像進(jìn)行物體邊界增強(qiáng),再采用二值化賦范梯度提取特征,以進(jìn)一步適應(yīng)EVA的真實環(huán)境。
(
)
[1] Freni P,Botta E M,Randazzo L,et al.Innovative Hand Ex?oskeleton Design for Extravehicular Activities in Space[M].Berlin: Springer International Publishing, 2014: 3?4.
[2] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]//IEEE Conference on Computer Vision and Pattern Recogni?tion, Columbus, 2014:3286?3293.
[3] Zhao D,Hu Y,Gan Z,et al.A novel improved binarized normed gradients based objectness measure through the multi?feature learning[C] //International Conference on Image and Graphics, Tianjin, 2015:307?320.
[ 4 ] Li X, Hao J, Qin H, et al.Real?time fish localization with binarized normed gradients[C] //Oceans, IEEE, Shanghai,2016:1?5.
[5 ] Girshick R,Donahue J,Darrell T,et al.Rich feature hierar?chies for accurate object detection and semantic segmentation[C] //IEEE Conference on Computer Vision and Pattern Rec?ognition, Columbus,2014: 580?587.
[ 6 ] Girshick, Ross B.Fast R?CNN[C] //IEEE international con?ference on computer vision (ICCV), Santiago, 2015:1440?1448.
[7] Ren S, Girshick R, Girshick R, et al.Faster R?CNN: To?wards real?time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis& Machine Intel?ligence, 2017, 39(6): 1137?1149.
[8] Matthew D,Zeiler,Rob Fergus.Visualizing and understand?ing convolutional networks[C]//European Conference on Computer Vision, Zurich, 2014: 818?833.
[9 ] Redmon J, Divvala S, Girshick R, et al.You only look once: Unified, real?time object detection[C] //Proceedings of the IEEE Conference on Computer Vision and Pattern Rec?ognition, 2016: 779?788.
[10] Fan R E, Chang K W, Hsieh C J, et al.LIBLINEAR: a li?brary for large linear classification[J].Journal of Machine Learning Research, 2008, 9(8): 1871?1874.
[11] Mao H, Yao S, Tang T, et al.Towards real?time object de?tection on embedded systems[J].IEEE Transactions on E?merging Topics in Computing, 2016, pp(99): 1.
[12] Yan J, Lei Z, Wen L, et al.The fastest deformable part mod?el for object detection[C]//Computer Vision and Pattern Recognition, Columbus, 2014:2497?2504.
[13] Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multi?box detector[C] //European Conference on Computer Vision,Amsterdam, 2016: 21?37.