徐存亮+王孝通
摘 要:圖像數(shù)據(jù)是艦船VDR(Voyage Data Recorder)記錄的關(guān)鍵數(shù)據(jù)之一,其高效檢索為艦船情景復(fù)現(xiàn)奠定了基礎(chǔ)。文章首先分析了圖像數(shù)據(jù)檢索的發(fā)展,以視覺(jué)詞袋模型為研究對(duì)象,以空間相似度為依據(jù),按照尺度不變的原則對(duì)圖像進(jìn)行矢量處理,并根據(jù)倒排索引的方法進(jìn)行檢索。最后,通過(guò)仿真從準(zhǔn)確率和效率兩個(gè)方面驗(yàn)證該方法的有效性。
關(guān)鍵詞:空間相似度;VDR;圖像檢索;研究
中圖分類(lèi)號(hào):U665.26 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2017)24-0008-03
VDR(Voyage Data Recorder),即船舶航行數(shù)據(jù)記錄系統(tǒng),也稱(chēng)船用黑匣子[1]。它以一種安全、可恢復(fù)的方式,實(shí)時(shí)記錄并保存每隔一定時(shí)間和每發(fā)生某件事件的相關(guān)信息,包括時(shí)間、位置、航向、航速、通信、雷達(dá)圖像等,重點(diǎn)提供包括船舶靜、動(dòng)態(tài)信息和船舶操作等信息。如果出現(xiàn)海上事故,可借助VDR記錄的上述數(shù)據(jù),再現(xiàn)事故相關(guān)場(chǎng)景,從而有利于了解船舶當(dāng)時(shí)相關(guān)狀態(tài)及指揮流程,便于科學(xué)地分析事故發(fā)生的原因,客觀公正地判明責(zé)任。
當(dāng)前對(duì)VDR的判讀工作主要是依靠人工來(lái)完成,由于VDR系統(tǒng)配置了大容量的存儲(chǔ)介質(zhì),依靠人工對(duì)這些海量數(shù)據(jù)進(jìn)行判讀效率低下且難于全面準(zhǔn)確。因此,有必要通過(guò)技術(shù)手段對(duì)VDR數(shù)據(jù)進(jìn)行準(zhǔn)確的判讀??傮w看來(lái),VDR系統(tǒng)存儲(chǔ)體記錄的數(shù)據(jù)主要有四大類(lèi),即:艦船設(shè)備狀態(tài)數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、日志數(shù)據(jù)。而對(duì)于視頻數(shù)據(jù)(包括部分靜態(tài)圖像)來(lái)說(shuō),由于其復(fù)雜性,難以迅速對(duì)其進(jìn)行全面高效的檢索與關(guān)聯(lián)分析,因此,如何更加合理、高效地檢索VDR的相關(guān)圖像數(shù)據(jù),將直接影響最終的船舶事故分析結(jié)果及效率。
1 圖像檢索的發(fā)展
圖像檢索技術(shù)始于上世紀(jì)70年代。早期的方法本質(zhì)上屬于基于文本的圖像檢索(Text-Based Image Retrieval, TBIR)[2],借助相對(duì)成熟的文本檢索技術(shù),首先從圖像尺寸、名稱(chēng)、作者等方面描述圖像的相關(guān)信息,然后采用關(guān)鍵詞進(jìn)行精確查詢(xún)。由于該方法的前提是人工對(duì)圖像的注釋?zhuān)斯ぷ⑨寱r(shí)的主觀性、經(jīng)驗(yàn)性和非全面性將給圖像檢索帶來(lái)不確定性,此外,由于圖像數(shù)據(jù)的數(shù)量越來(lái)越大,單純依靠人工進(jìn)行注釋已無(wú)法勝任。上世紀(jì)90年代后,基于內(nèi)容的圖像檢索技術(shù)(Content-Based Image Retrieval, CBIR)[3]逐步得到大力發(fā)展。該技術(shù)專(zhuān)注于圖像內(nèi)容本身,無(wú)需人工注釋?zhuān)苯訌膱D像中提取諸如顏色、形狀、紋理等視覺(jué)特征,通過(guò)這些客觀的參數(shù),進(jìn)行匹配以檢索圖像。該檢索方式將傳統(tǒng)的“以字找圖”轉(zhuǎn)化為“以圖找圖”,將關(guān)鍵詞的匹配轉(zhuǎn)變?yōu)橐曈X(jué)特征間的匹配。
基于內(nèi)容的檢索方法專(zhuān)注于圖像本身,對(duì)圖像提取視覺(jué)特征并建立相應(yīng)的索引結(jié)構(gòu),這些都由計(jì)算機(jī)自動(dòng)完成,從而克服了人工注釋帶來(lái)的不確定性,增加了檢索結(jié)果的可信度,但由于成像的差異使得具有相同內(nèi)容的圖像可能有不同的表現(xiàn)形式,因此,基于內(nèi)容的檢索方法與文本檢索時(shí)的精確匹配不同,基于內(nèi)容的檢索往往屬于近似匹配,即滿(mǎn)足一定相似度的概要匹配,而無(wú)法實(shí)現(xiàn)精確匹配。目前,以圖像為代表的數(shù)據(jù)檢索是信號(hào)處理領(lǐng)域的熱點(diǎn)之一,已有很多付諸實(shí)用的成果,但大都具備一定的針對(duì)性。同樣由于VDR設(shè)備中存儲(chǔ)的圖像數(shù)據(jù)較為敏感,甚至具有一定的保密性,因此有必要結(jié)合VDR設(shè)備數(shù)據(jù)的特點(diǎn)與屬性,針對(duì)VDR圖像數(shù)據(jù)的相關(guān)特征,對(duì)其檢索問(wèn)題進(jìn)行針對(duì)性研究,為實(shí)現(xiàn)VDR圖像數(shù)據(jù)的準(zhǔn)確、快速檢索提供合理有效的解決方案,為VDR數(shù)據(jù)判讀奠定技術(shù)基礎(chǔ)。
2 基于空間相似度的基本思路
當(dāng)前,基于內(nèi)容的圖像檢索方法大多沿用視覺(jué)詞袋模型的框架,即將圖像進(jìn)行矢量化表示,然后利用圖像矢量進(jìn)行相似性度量。該模型雖簡(jiǎn)單有效,但未能考慮局部特征的空間關(guān)系,從而在一定意義上影響了檢索的準(zhǔn)確率。為此,在視覺(jué)詞袋模型給出圖像檢索結(jié)果后,可結(jié)合空間相似度對(duì)待檢結(jié)果進(jìn)行二次驗(yàn)證,從而增強(qiáng)檢索的準(zhǔn)確率。對(duì)于VDR記錄的圖像數(shù)據(jù)而言,雖然數(shù)據(jù)量較為龐大,但是由于設(shè)置記錄圖像數(shù)據(jù)的部位有限且相對(duì)固定,該類(lèi)數(shù)據(jù)在很大程度上有一定的空間關(guān)聯(lián)度,因此,在沿用視覺(jué)詞袋模型這個(gè)方向研究VDR圖像數(shù)據(jù)檢索時(shí)適合考慮該屬性。
目前,包括幾何驗(yàn)證法[4]、金字塔匹配法[5]等均在考慮空間對(duì)應(yīng)關(guān)系的基礎(chǔ)上對(duì)圖像檢索進(jìn)行分析,利用空間關(guān)系度量待檢索圖像和數(shù)據(jù)庫(kù)圖像的相似度,對(duì)圖像檢索準(zhǔn)確率有一定提高,但上述方法也存在一定問(wèn)題。比如幾何驗(yàn)證法計(jì)算量較大,不適合對(duì)全體檢索結(jié)果進(jìn)行二次檢索;金字塔匹配法通過(guò)劃分網(wǎng)格捕捉圖像中的空間信息,但該信息不能進(jìn)行幾何變換??傮w看,現(xiàn)有圖像檢索方法大多在檢測(cè)局部特征后才形成局部特征的空間關(guān)系。從而導(dǎo)致大多數(shù)檢索方法形成的空間關(guān)系難以完全保證尺度不變性。為此,文章考慮基于尺度不變的思路來(lái)構(gòu)建新的空間相似度圖像檢索方法,并驗(yàn)證其有效性。
視覺(jué)詞組的概念是在視覺(jué)單詞基礎(chǔ)上,根據(jù)各單詞在圖像中的不同屬性,定義不同方法來(lái)提取和形成視覺(jué)詞組,比如視覺(jué)單詞出現(xiàn)的頻率、出現(xiàn)的網(wǎng)格空間等特征。但上述方法大都聚焦與圖像特征本身,而未考慮空間關(guān)系的尺度變化問(wèn)題,使得圖像間的相似度檢測(cè)因成像的變化而受影響并降低檢索準(zhǔn)確率。本文的基本思路框圖如圖1所示。首先對(duì)數(shù)據(jù)庫(kù)圖像進(jìn)行預(yù)處理,主要工作是結(jié)合尺度不變性和空間相似度特征,構(gòu)建圖像對(duì)應(yīng)的視覺(jué)詞組,然后按照倒排檢索的方法進(jìn)行相關(guān)排序。圖像檢索處理時(shí),對(duì)于待檢的圖像作同等處理,然后依照倒排索引的方法,進(jìn)行相似度比較,并最終得到檢索結(jié)果。本文的核心是要針對(duì)圖像合理構(gòu)建尺度不變的視覺(jué)詞組,使得空間關(guān)系能夠容納一定程度的幾何變換,從而為后續(xù)的有效檢索提供更多的支撐?;谠撃康模疚脑趫D像檢測(cè)過(guò)程中構(gòu)建了相應(yīng)特征間的局部空間關(guān)系。檢索圖像時(shí),結(jié)合這種空間關(guān)系和視覺(jué)詞組,找出相似度最大的圖像作為檢索的結(jié)果。實(shí)際操作中,將圖像特征分為主特征和次特征兩部分,將這兩部分經(jīng)過(guò)視覺(jué)詞組統(tǒng)一量化處理后,作為圖像的空間關(guān)系。endprint
傳統(tǒng)的視覺(jué)詞袋模型僅將圖像表示為圖像矢量,并通過(guò)該矢量的簡(jiǎn)單計(jì)算來(lái)比較圖像的相似度,并未考慮圖像局部特征的空間關(guān)系。此外,本算法在考慮空間關(guān)系的基礎(chǔ)上,兼顧了空間尺度不變性,從而對(duì)圖像的空間變化提供了兼容,使得圖像檢索能在理論上保持更高的準(zhǔn)確率及效率。實(shí)際處理過(guò)程中,如果在檢索時(shí)將待檢圖像與數(shù)據(jù)庫(kù)中的每幅圖像逐一進(jìn)行計(jì)算和比較,計(jì)算成本將極大,為此我們借助預(yù)處理對(duì)數(shù)據(jù)庫(kù)進(jìn)行先期處理,并結(jié)合倒排索引的方法組織數(shù)據(jù)庫(kù)圖像,檢索時(shí),只需計(jì)算和比較圖像間對(duì)應(yīng)特征及空間相似度的情況,從而判斷圖像的相似度并給出檢索結(jié)果。
3 實(shí)驗(yàn)結(jié)果與分析
本實(shí)驗(yàn)主要針對(duì)傳統(tǒng)的視覺(jué)詞袋模型進(jìn)行比較,實(shí)驗(yàn)借助Matlab平臺(tái),采用ImageNet數(shù)據(jù)庫(kù)作為數(shù)據(jù)源[6]。檢索性能主要包括檢索準(zhǔn)確率和檢索效率兩個(gè)關(guān)鍵參數(shù)。對(duì)于準(zhǔn)確率,采用均值平均準(zhǔn)確率進(jìn)行評(píng)估;對(duì)于檢索效率,主要采用檢索所耗費(fèi)的時(shí)間來(lái)表征。在對(duì)數(shù)據(jù)庫(kù)的圖像進(jìn)行預(yù)處理的過(guò)程中,首先采用快速Hessian檢測(cè)法檢測(cè)圖像的主要特征,該算法具有較好的計(jì)算效率;圖像特征中的主特征及次特征分別用64維向量表示。算法中采用k-means算法對(duì)數(shù)據(jù)庫(kù)中的特征進(jìn)行聚類(lèi),并根據(jù)聚類(lèi)結(jié)果創(chuàng)建詞典,最后通過(guò)詞典中的視覺(jué)單詞量化數(shù)據(jù)庫(kù)中的圖像,并生成尺度不變視距詞組。
通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),由于傳統(tǒng)的視覺(jué)詞袋模型僅關(guān)注了圖像的矢量化,而沒(méi)有考慮圖像的空間信息,因此,同樣采用倒排索引的方法時(shí),傳統(tǒng)的視覺(jué)詞袋模型檢索準(zhǔn)確率顯然低于本文的方法。如圖1所示,在采用不同數(shù)量的數(shù)據(jù)庫(kù)圖像檢索過(guò)程中,本文的方法均優(yōu)于傳統(tǒng)的視覺(jué)詞袋模型,尤其在數(shù)據(jù)庫(kù)圖像數(shù)量增大時(shí),兩者之間的差異更加明顯。
對(duì)于檢索效率來(lái)說(shuō),主要衡量標(biāo)準(zhǔn)是針對(duì)同等容量的數(shù)據(jù)庫(kù)圖像,兩種不同方法所花費(fèi)的時(shí)間。如圖3所示,從實(shí)驗(yàn)數(shù)據(jù)來(lái)看,基于尺度不變的方法優(yōu)于傳統(tǒng)的視覺(jué)詞袋模型。顯然,隨著數(shù)據(jù)庫(kù)圖像數(shù)量的增加,兩種方法檢索花費(fèi)的時(shí)間均相應(yīng)增長(zhǎng),盡管如此,實(shí)驗(yàn)結(jié)果表明,采用本文方法檢索時(shí)的效率要高于傳統(tǒng)方法,且隨著圖像數(shù)據(jù)庫(kù)的增大,本文方法檢索時(shí)間的增長(zhǎng)比傳統(tǒng)方法趨緩。
綜上,不難看出,在結(jié)合了尺度不變性及空間相似度的前提下,對(duì)于圖像的檢索而言,無(wú)論從檢索的正確性還是檢索的基本效率,本文的方法較傳統(tǒng)視覺(jué)詞袋模型均有了明顯的提高。本方法在對(duì)圖像數(shù)據(jù)矢量化的基礎(chǔ)上,基于尺度不變的原則確定圖像之間的空間對(duì)應(yīng)關(guān)系,并將該關(guān)系用于判斷檢索圖像與數(shù)據(jù)庫(kù)圖像的空間相似性,同時(shí)采用了倒排檢索的基本方法進(jìn)行圖像檢索,實(shí)驗(yàn)結(jié)果表明了該方法的有效性。
4 結(jié)束語(yǔ)
圖像數(shù)據(jù)由于攜帶信息更加直觀豐富,已逐漸成為獲取和交換信息的重要載體。一方面,圖像數(shù)據(jù)的大量增長(zhǎng)給信息的傳遞帶來(lái)了便利;與此同時(shí),如何快速準(zhǔn)確地從大量圖像中獲取感興趣的部分卻變得相對(duì)困難。也就是說(shuō),如何高效地檢索出滿(mǎn)足需求的圖像,成為圖像檢索領(lǐng)域亟待研究的問(wèn)題。
VDR作為現(xiàn)代艦船的關(guān)鍵設(shè)備之一,實(shí)時(shí)記錄了艦船運(yùn)行的多類(lèi)關(guān)鍵數(shù)據(jù),其中圖像數(shù)據(jù)占比較大,類(lèi)型也比較豐富,因此,對(duì)于VDR圖像數(shù)據(jù)的梳理及檢索對(duì)于判斷VDR數(shù)據(jù)來(lái)說(shuō)至關(guān)重要。但總體來(lái)說(shuō),對(duì)于VDR記錄的圖像數(shù)據(jù)而言,由于圖像采集的各部位相對(duì)明確,因此,可以借助圖像數(shù)據(jù)間的空間相似度來(lái)為圖像數(shù)據(jù)的檢索提供幫助,本文在基于內(nèi)容檢索的框架下,借助視覺(jué)詞組的基本思路,利用尺度不變性對(duì)圖像進(jìn)行預(yù)處理,并結(jié)合倒排檢索的方法對(duì)待檢圖像進(jìn)行檢索,從仿真結(jié)果看,該算法無(wú)論從檢索的準(zhǔn)確率和效率來(lái)說(shuō),都比傳統(tǒng)的視覺(jué)詞袋模型更加有效,可以作為一個(gè)可行方法對(duì)VDR圖像數(shù)據(jù)進(jìn)行檢索。
參考文獻(xiàn):
[1]徐存亮,等.VDR數(shù)據(jù)判讀關(guān)鍵技術(shù)綜述[A].第十二屆軍事海洋戰(zhàn)略與發(fā)展論壇論文集[C].2015:960-963.
[2]Rui Y., Huang T.S., Chang S.F., Image retrieval: current techniques, promising directions, and open issues, Journal of Visual Communication and Image Representation, 1999,10:39-62.
[3]陳秀新,邢素霞.圖像/視頻檢索與圖像融合[M].機(jī)械工業(yè)出版社, 2012.
[4]Philbin J., Chum O., Isard M., et al., Object retrieval with large vocabulary and fast spatial matching, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Minnesota, USA, 2007:1-8.
[5]Lazebnik S., Schmid C., Ponce J., Beyond bag of features: spatial pyramid matching for recognizing natural scence categories, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, New York, USA, 2006:2169-2178.
[6]Deng J., Dong W., Socher R., et al., ImageNet: A large-scale hierarchical image database, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, Florida,USA,2009:248-255.endprint