• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      “以圖搜圖”技術在照片檔案管理中的應用研究

      2018-09-10 18:42:43江媛媛
      檔案與建設 2018年6期
      關鍵詞:數(shù)碼照片館藏檔案館

      江媛媛

      [摘要]讀圖時代,照片檔案的重要性和需求度日益提升。然而,傳統(tǒng)的照片檔案檢索方式已無法滿足用戶對信息的獲取需求,也給照片檔案管理帶來了不便。論文試圖將“以圖搜圖”技術引入照片檔案管理中,從管理系統(tǒng)框架、收集模塊、整理模塊、查詢模塊幾方面闡述其優(yōu)越性。論文分析了應用過程中可能出現(xiàn)的難點,并提出了相應的解決辦法。

      [關鍵詞]圖像識別照片檔案檔案檢索系統(tǒng)

      [分類號]G271

      Research on Application of Similar Image Search Technology in Management of Photos Archives

      Jiang Yuanyuan

      (Archives of Southeast University, Nanjing, Jiangsu, 211189)

      Abstract: In era of reading pictures, the importance and demand of photo archives is becoming increasingly obvious. However, the traditional method of photo archives retrieval could not meet the users demand of information acquisition, and brings inconvenience to the management of photo archives. This article explores introducing“Similar Image Search”into photo archives management, and expounds the superiority from the aspects of management system framework, collection module, organizing module and query module. Finally, it analyzes the difficulties that may arise in the application process ,and then proposes corresponding solutions.

      Keywords: ImageRecognition;PhotoArchives;ArchiveRetrievalSystem

      隨著“眼球經(jīng)濟”的興起,圖像因其能夠以最少的閱讀時間提供最大信息量,成為信息傳播和獲取的主要方式。與文字相比,圖像直觀、形象,視覺沖擊力大,內(nèi)容吸引力強,可以突破語言的障礙,打破種種隔閡。以圖像方式傳播信息,內(nèi)容簡潔明了,易于被理解和接受,閱讀輕松快速,更能滿足現(xiàn)代人快節(jié)奏生活的需求?!坝跋駲n案”是聲像檔案對“讀圖時代”適應后的產(chǎn)物:報紙、雜志、電影、電視、錄像、網(wǎng)絡中各式圖片鋪天蓋地呈現(xiàn)在人們眼前,讀圖已經(jīng)成為時代的一種風尚[1]。

      照片是檔案的一種重要記錄形式。新型照片檔案依賴數(shù)碼技術與計算機技術而形成,屬于電子檔案,其形成、傳輸、存儲和利用都離不開計算機等現(xiàn)代化技術和設備。照片檔案比文字檔案更生動、豐富,歷史憑證作用更為明顯?!坝跋駲n案”為書寫史學提供“一個鮮活的影像注腳”,提供了另一種記錄和表述歷史的方式[2]。

      用戶需求催生新技術和新產(chǎn)品,面對多媒體信息的急劇增加,信息可視化的發(fā)展,使用文本搜索獲取照片檔案的方式已不能滿足用戶的需求,引用“以圖搜圖”新型的照片檢索技術顯得日趨重要。

      1“以圖搜圖”應用于照片檔案管理的必要性

      1.1“以圖搜圖”技術簡介

      “以圖搜圖”也稱相似圖片搜索引擎,是以用戶提供的圖像為基礎,搜索與之相似或相關的圖像等信息。其原理與文本搜索相似,通過為網(wǎng)上的圖片信息建立索引,使搜索引擎能夠識別這些索引,然后將能夠代表圖片信息的索引組建成一個數(shù)據(jù)庫。在給定查詢圖像的前提下,無需人工對圖像進行注釋,依據(jù)圖像本身包含的像素信息、顏色、紋理、形狀、空間關系等客觀視覺特征,在圖像數(shù)據(jù)庫中搜索并查找出符合查詢條件的相應圖像[3]。

      目前,“以圖搜圖”技術在電子商務領域得到了廣泛應用,各大電商及搜索引擎網(wǎng)站都在進行著相應的開發(fā),如谷歌、微軟、百度、淘寶等。用戶購買目標商品時,可使用圖片搜索功能對比同款產(chǎn)品的市場價格,也能找到更多相似款,充分享用電子商務帶來的便捷體驗。

      “以圖搜圖”作為圖像搜索引擎的擴展,是當前多媒體領域的一個重要研究方向,被認為是未來互聯(lián)網(wǎng)圖片信息查尋創(chuàng)新應用的一種發(fā)展趨勢。

      1.2數(shù)字時代照片檔案管理存在的問題

      隨著數(shù)碼照片檔案的替代性普及以及紙質(zhì)照片檔案數(shù)字化的推進,電子照片已經(jīng)逐步取代紙質(zhì)照片,成為館藏照片檔案的主體。海量、多渠道的照片擴充了檔案館館藏資源的同時,也給照片檔案的編目、利用等帶來了困擾。目前照片檔案管理普遍存在一些問題。

      (1)照片檔案六要素模糊。照片檔案的來源是相關業(yè)務部門,而這些部門普遍對照片信息描述不重視,照片常以數(shù)碼相機默認名保存,未進行規(guī)范化整理與著錄。且照片歸檔到檔案館的過程中,往往經(jīng)手人較多,攝影者不是照片的歸檔者,歸檔者也不清楚照片的詳細內(nèi)容。多數(shù)照片未整理或者是被簡單標注后即被交予檔案館。因此,檔案館員在整理著錄時,很難保證照片檔案的時間、地點、人物、事由、背景、攝影者六要素的完整與準確。

      (2)照片檔案內(nèi)容孤島。目前,照片檔案的架構偏重于大量存儲、長期保存、快速存取、數(shù)據(jù)安全及數(shù)據(jù)庫穩(wěn)定等方面,對其內(nèi)容關聯(lián)的關注較少。檔案館員面對數(shù)量激增的數(shù)碼照片,僅實施較完善的編目就很困難,已沒有精力再研究照片間的內(nèi)容聯(lián)系,管理系統(tǒng)也不具備查重能力,每份照片檔案孤立存放,產(chǎn)生了內(nèi)容孤島。對于歸檔的照片,幾乎“照單全收”,沒有和館藏照片檔案做對比,出現(xiàn)了重復歸檔的情況,加重了檔案館以及管理人員的負擔。

      (3)查詢利用有局限。目前,照片檔案的主要檢索方式是文本檢索。用戶可通過檔號、題名、關鍵詞、歸檔單位等字段組合檢索,查找目標照片。然而,聲像檔案是非結構化的數(shù)據(jù),無法采用數(shù)據(jù)庫操作數(shù)據(jù)的方式進行管理,因此,基于關鍵詞檢索方法進行聲像檔案檢索效果不理想。聲像檔案所包含的信息進行語義識別和劃分往往是主觀的,因為它不能像文本數(shù)據(jù)一樣,使用詞法分析等較成熟的方法進行準確的劃分和識別[4]。同時,由于部分照片檔案本身六要素著錄不完備,也影響了查詢結果的查全率與查準率。

      設想將“以圖搜圖”技術應用到照片檔案管理中:若想找出與某個場景類似的照片,只需將此場景的照片作為“檢索詞”輸入,系統(tǒng)將用戶輸入的內(nèi)容與檔案庫中的內(nèi)容逐一比較,輸出檢索結果。理論上,此種方式不會存在由于標注不準確而造成檢索結果丟失或錯誤,勢必可以大大地緩解館員負擔,便于發(fā)現(xiàn)照片檔案間的關聯(lián)與網(wǎng)絡組織,有助于利用好重復的信息資源。

      2基于“以圖搜圖”技術的照片檔案管理系統(tǒng)

      照片檔案管理系統(tǒng)由檢索、管理、用戶、權限等模塊構成。“以圖搜圖”的照片檔案管理系統(tǒng)突出檢索功能,故在現(xiàn)有系統(tǒng)的基礎上,嵌入“以圖搜圖”搜索模塊,建立圖片特征索引和多重維度的檢索入口,將檢索功能貫穿照片檔案從收集鑒定到查詢利用整個管理流程,使得照片檔案管理更加智能化、便捷化。

      檢索系統(tǒng)有兩件重要工作:一是“翻譯”用戶的需求,讓系統(tǒng)理解用戶的目的;二是進行檢索并輸出所需信息?!耙詧D搜圖”照片檔案檢索系統(tǒng)的框架如下:(1)將館藏量巨大的電子照片檔案資源集合,形成圖像集,并分析圖像的內(nèi)容信息,提取圖像的顏色特征、空間關系特征、紋理特征等,形成特征庫。對于有人物的圖片,采用人臉識別技術進行人臉識別切分,并對識別出來的人物做標注。(2)根據(jù)提供的示例圖像,分析圖像信息,得到圖像相應特征。(3)對圖像特征的相似度進行匹配,最終將匹配結果返回給用戶。如圖1所示[5]。

      2.1收集模塊——網(wǎng)絡歸檔,初次鑒定

      在檔案的收集階段,兼職檔案員不必再通過物理方式拷貝歸檔,只需登錄系統(tǒng),將歸檔的照片上傳至檔案館服務器即可。利用“以圖搜圖”的照片檔案管理系統(tǒng)可迅速了解照片檔案的主題內(nèi)容與元數(shù)據(jù)信息。通過照片屬性中的時間、地點、相機型號等信息,結合照片主題內(nèi)容多維度地篩選歸類,輔助兼職檔案員快速挑選需要歸檔的照片,批量上傳。在上傳的同時,對照片檔案進行初次鑒定,剔除重復、清晰度不高、內(nèi)容表達不清晰的照片,選擇高質(zhì)量與代表性的照片歸檔,有效地提高了歸檔效率和質(zhì)量。

      2.2整理模塊——智能著錄,擇優(yōu)發(fā)布

      檔案館員在收到上傳歸檔的照片檔案后,即可對其進行整理編目。系統(tǒng)支持相似率的選擇,可快速從照片檔案數(shù)據(jù)庫里找到與歸檔相同或相似的照片,還可利用人臉識別技術對有人物的照片進行識別及標注。對已識別或標注信息的照片,可以把識別的圖像內(nèi)容及標注內(nèi)容關聯(lián),滿足圖像與文字的雙重檢索需求,同時將新增的相同或相似內(nèi)容的照片自動關聯(lián)?!耙詧D搜圖”的照片檔案管理系統(tǒng)能夠輔助明確照片檔案的六要素,檔案館員在整理著錄照片檔案時,只需要對系統(tǒng)智能著錄的條目進行審核,確認后即可編目,正式歸入檔案數(shù)據(jù)庫,同時可根據(jù)推薦,選擇非涉密的優(yōu)秀照片檔案對外發(fā)布。

      2.3查詢模塊——支持“以圖搜圖”功能,多種檢索途徑結合

      查詢模塊是照片檔案使用效率和質(zhì)量保證的核心所在。當用戶登錄系統(tǒng),進入檢索界面后,可以看到文本檢索與圖像檢索等多種檢索界面。如用戶想獲取“六朝松”的相關照片,可以將“六朝松”作為關鍵詞,通過文本方式進行檢索。但是這種方式檢索到的結果較多,比如“XXX在六朝松下留影”也會作為檢索結果顯示出來。在本系統(tǒng)中,用戶可以用一幅“六朝松”的圖像作為檢索詞,系統(tǒng)將用戶所選圖像與館藏照片檔案特征庫進行相似度匹配,按照相似度高低排序返回檢索結果。用戶可根據(jù)自身需求,選擇適當?shù)牟樵兎绞?,也可多種檢索途徑組合查詢,以獲取所需要的照片檔案信息。

      3存在的難點及解決方案

      “以圖搜圖”檢索起步不久,在檔案管理領域更是鮮有涉及,因此,“以圖搜圖”技術在照片檔案管理應用中難免會遇到一些難題。

      3.1存在的難點

      (1)照片檔案真實性難以判別

      影像材料拷貝件的法律地位(縮微品除外)一直處于爭議之中,在檔案界,聲像檔案的易復制性給聲像檔案鑒定帶來了難度[6]?!稊?shù)碼照片歸檔與管理規(guī)范》中雖然規(guī)定:“歸檔的數(shù)碼照片應是用數(shù)字成像設備直接拍攝形成的原始圖像文件,不能對數(shù)碼照片的內(nèi)容和EXIF信息進行修改和處理”[7],但市場上出現(xiàn)了大量的功能強大的圖像處理軟件,給照片的后期處理帶來了便利,也給照片的真實性鑒定帶來了挑戰(zhàn)。此外,數(shù)碼照片檔案的真實與否,不但取決于圖像是否被修改,還取決于其元數(shù)據(jù)是否真實、準確。操作不當、相機參數(shù)設置錯誤等都可能造成照片檔案原始參數(shù)信息的更改。這些因素常導致數(shù)碼照片的偽裝性加大,為鑒定工作帶來困擾。

      (2)館藏照片檔案標引不完備。

      “以圖搜圖”檢索的實施需要龐大的館藏照片檔案庫,即將館藏電子照片檔案形成圖像集,提取特征,形成特征庫,且館藏數(shù)據(jù)庫本身的建設需要元數(shù)據(jù)完備、標引清晰。但在實際工作中,館藏照片檔案常由于各種原因沒有較為完備的標引信息,有的照片檔案甚至不是原始照片。館藏目標庫的標引不清晰,給圖像識別工作帶來了很大的困擾,即便系統(tǒng)通過特征識別與人臉識別技術檢索出來了目標照片,也會因為目標照片本身標引不清晰,并未有更好的提示作用而被迫放棄。

      (3)技術不成熟

      目前,“以圖搜圖”的搜索技術和數(shù)據(jù)儲備還不太成熟,對于圖像特征描述沒有統(tǒng)一的標準。傳統(tǒng)的特征表示往往需要根據(jù)先驗知識手工來提取,工作量大,效果不盡如人意,同時也不符合智能化的要求。此外,一個關鍵原因在于可被計算機識別的低水平的圖像像素和人類感知的高水平語義概念之間存在語義鴻溝[8]。同時由于數(shù)據(jù)量過大,每次檢索時間較長,加重了服務器的負擔,影響了檢索效率和準確率。

      3.2解決方案初探

      (1)運用前端控制及全程管理思想

      我國照片檔案館的館藏資源權威性不容置疑,主要是“新華社”新聞發(fā)稿照片,占總數(shù)95%以上。目前,館藏照片的檔案性受到質(zhì)疑的主要原因并不是其載體的特殊性,而是其來源不具有新華社這種正式組織機構的權威性。

      因此,有必要借鑒電子文件管理中前端控制與全程管理的理念,檔案館加強對照片檔案質(zhì)量控制和源頭干預,建立照片從拍攝、收集、歸檔直至整理、利用全過程的真實保障平臺。從形成部門和人員入手,強調(diào)“部門歸檔”:形成者就是歸檔者。做好數(shù)碼照片檔案歸檔、編目等內(nèi)容的指導,培養(yǎng)移交原始數(shù)碼照片的意識,保證照片檔案的原始性。

      (2)標準化制定

      照片檔案具有無聲無字的特殊性,如果脫離了主題背景,其信息獲取和輸出完全依賴于人們直觀的自我解讀。檔案部門需結合實際,制定照片檔案文字說明的填寫標準,從源頭上規(guī)范文字說明填寫,在照片生成后第一時間做好標注。歸檔后,檔案館員還需對文字說明進行審核和更正。照片檔案著錄信息的完備需要各部門站在維護檔案真實性、完整性的基礎上合作完成。

      此外,查全率和查準率是評價檔案檢索系統(tǒng)的兩大指標,但由于圖像內(nèi)容本身的復雜性以及人們認知圖像內(nèi)容的主觀性,很難定義出一個客觀的標準,因而系統(tǒng)評價指標體系方面未來還需要進一步完善。

      (3)技術改進

      開發(fā)數(shù)碼照片真實性鑒定系統(tǒng),在建立標準數(shù)碼照片數(shù)據(jù)庫的基礎上,分別對其中的原始照片數(shù)據(jù)和偽造圖像數(shù)據(jù)進行采樣,建立像素點間關聯(lián)的數(shù)學模型,通過對比原始照片和偽造圖像的數(shù)據(jù)特征,根據(jù)經(jīng)驗值,在人工干預下給定相關參數(shù)值、閾值,藉此對給定的目標數(shù)碼照片進行真實性分析[10]。

      由開發(fā)基于內(nèi)容的圖像檢索方法向基于深度學習特征的圖像檢索方法轉變?;谏疃葘W習特征表示在圖像處理領域是通過卷積神經(jīng)網(wǎng)絡(CNN)提取的,CNN的設計是受大腦工作模式的啟發(fā),將多個神經(jīng)元組織成一層層的神經(jīng)網(wǎng)絡,通過組合低層單一的特征形成抽象的高層特征,模仿人腦的機制來解釋數(shù)據(jù)[11]。

      近年來,很多研究開始尋找視覺特征的中層表示,以彌補底層特征和高層語義間的差距。這些中間層表示往往是由底層特征組合而成,通過引入局部特征點的位置信息以反映局部結構,或是采用機器學習的方法從數(shù)據(jù)中學習出在語義上比較一致并具有一定的結構信息的視覺模式,這成為近年來圖像檢索、計算機視覺和機器學習的關鍵問題之一[12]。

      隨著信息可視化的發(fā)展,圖片作為信息的載體,更加便捷,效率更高。照片檔案作為主要的可視化信息載體愈發(fā)被重視,其查詢需求也逐步增加。從用戶體驗的角度來說,“以圖搜圖”搜索引擎的出現(xiàn),使得用戶搜索照片的操作流程更為簡化,搜索體驗也更加愉悅。雖然相關技術條件還不成熟,但是這種搜索模式已經(jīng)可以滿足用戶的大多數(shù)需求。可以預見,讀圖時代,“以圖搜圖”搜索將是繼文字搜索后信息搜索領域的又一重要發(fā)展,“以圖搜圖”技術應用于照片檔案管理的需求也會日益迫切,且潛力巨大。

      *本文系江蘇省檔案局科技項目計劃“圖像識別在檔案信息化中的應用研究”(項目批準號:2017-20)的階段性成果。

      參考文獻

      [1]彭亞非.讀圖時代[M].北京:中國社會科學出版社,2011:前言.

      [2]宋嘉偉.視覺檔案的再構:作為“公眾史”的獨立影像書寫[J].國際新聞界,2015(9):157-176.

      [3][8][11]任夏荔,陳光喜,曹建收,蔡天任.基于深度學習特征的圖像檢索方法[J],計算機工程與設計,2018(2):503-510.

      [4]顧偉.論聲像檔案檢索方法[J].檔案與建設,2017(11):36-50.

      [5]張恒博.基于內(nèi)容的圖像數(shù)據(jù)庫檢索的技術研究[D].大連:大連理工大學,2008:86.

      [6]何小菁,徐欣云.“影像檔案”現(xiàn)象及與聲像檔案關系的研究[J].檔案學通訊,2017(2):86-90.

      [7]國家檔案局.DA/T50—2014,數(shù)碼照片歸檔與管理規(guī)范[S].2014.

      [9]蔡毅.探訪神秘的中國照片檔案館[N].中國檔案報,2009-12-28(2).

      [10]王大青.數(shù)碼照片真實性鑒定系統(tǒng)的開發(fā)[J].檔案學研究,2012(6):49-51.

      [11]張磊.大規(guī)模互聯(lián)網(wǎng)圖像檢索與模式挖掘[J].中國科學,2013(12):1641-1653.

      猜你喜歡
      數(shù)碼照片館藏檔案館
      館藏
      數(shù)碼照片檔案管理現(xiàn)狀分析與思考
      卷宗(2021年13期)2021-04-14 22:32:40
      Photoshop Alpha通道摳圖技術在數(shù)碼照片后期處理中的應用
      關于數(shù)碼照片檔案管理問題的研究
      北京檔案(2020年4期)2020-04-27 08:55:03
      博物館的生存之道:館藏能否變賣?
      藝術品鑒(2019年11期)2019-12-27 09:06:18
      知還印館藏印選——古印篇
      關于縣級檔案館館藏檔案開發(fā)利用的思考
      全省部分檔案館新館掠影
      浙江檔案(2017年10期)2017-03-31 06:27:31
      when與while檔案館
      介紹兩件館藏青銅器
      文物春秋(2014年2期)2014-12-24 21:23:05
      册亨县| 武川县| 陈巴尔虎旗| 新乐市| 错那县| 泗水县| 峨眉山市| 保定市| 阿坝县| 青河县| 大渡口区| 温宿县| 柳林县| 沙洋县| 宁南县| 万荣县| 宁蒗| 环江| 湄潭县| 河曲县| 云林县| 白玉县| 佛教| 遂昌县| 罗山县| 新龙县| 江阴市| 观塘区| 临夏县| 历史| 马鞍山市| 延吉市| 宁安市| 南乐县| 黄梅县| 安龙县| 阜平县| 广安市| 麦盖提县| 内乡县| 衡东县|