多媒體信息系統(tǒng)檢索技術研究及其面臨的挑戰(zhàn)

2010-03-21 03:15:06王小霞

網絡安全與數據管理 2010年13期

王小霞

(中國社會科學院民族學與人類學研究所網絡信息中心，北京 100081)

信息技術以其強大的滲透力深入到社會經濟生活的各個方面。在商業(yè)金融等領域，多媒體信息系統(tǒng)作為一種新的手段正在被廣泛使用。多媒體技術與計算機、網絡技術、通信技術、數字技術的結合，使學術科研信息的傳播不受時間、地點、國界、環(huán)境等影響，這將有利于提高世界信息的流通速度，促進遠隔重洋的各民族文化科技的及時交流。

多媒體系統(tǒng)是把聲音、圖形、圖像和計算機系統(tǒng)集成在一起的一個整體，通過計算機對多媒體進行數字化處理。多媒體不是簡單地疊加起來，而是有機地結合、加工處理并改善信息表示，從而吸引人的注意力。

多媒體技術，即是計算機交互式綜合處理多媒體信息——文本、圖形、圖像和聲音，使多種信息建立邏輯連接，集成為一個系統(tǒng)并具有交互性。簡言之，多媒體技術就是具有集成性、實時性和交互性的計算機綜合處理聲、文、圖信息的技術[1]。

1 多媒體信息系統(tǒng)國內外發(fā)展現狀及趨勢

早在1983年第九屆國際超大規(guī)模數據庫會議上，D.Tsichritzis等人就提出了多媒體數據庫Multimedia Datebase的概念。由于多媒體信息的特殊性，在信息的收集、存儲、檢索、管理、處理、傳輸、表現等方面都需進行新的研究，采用新的技術和方法。

當前國內外從事多媒體信息檢索系統(tǒng)開發(fā)工作的機構很多。在這里簡單介紹一下國外IBM公司開發(fā)的QBIC(Query ByImage Content)系統(tǒng)和國內中國科學院計算技術研究所和國家圖書館開發(fā)的MIRES(Multimedia Information Retrieval System)系統(tǒng)[2]。

QBIC系統(tǒng)是IBM Almaden研究中心開發(fā)的基于內容的圖像檢索系統(tǒng)，它可以對圖像、視頻、文本、聲音進行檢索。該系統(tǒng)主要由數據庫生成部分和查詢部分兩部分組成。在數據庫生成時，每一個圖像對象和視頻對象的內容特征，包括顏色、紋理、形狀以及攝像機和對象的移動等，都被提取出來并存入數據庫中。當查詢時，數據庫查詢部分把用戶利用圖形化方法提供的對象特征與數據庫中存儲的對象內容特征進行比較匹配，尋找出具有相似特征的圖像和視頻。

中國科學院計算技術研究所和國家圖書館已成功地研制了基于特征的多媒體信息檢索系統(tǒng)MIRES。此系統(tǒng)基于Internet的多媒體信息檢索系統(tǒng)，可以實現對圖像、視頻、聲音的基于內容的檢索和對文本的全文檢索。系統(tǒng)組成如下：(1)基于形狀的圖像信息檢索。(2)基于全局紋理特征的圖像檢索。(3)基于多特征與相關反饋的圖像信息檢索。(4)文本信息檢索。除了常用的關鍵詞匹配方式之外，還提供了組合查詢條件、模糊詞切分、整句匹配等多種查詢技術，并且具有一定的概念檢索功能。(5)基于主體技術的并行信息檢索。搜索引擎可將用戶的要求進行分解，把相應的查詢請求發(fā)送到具有特定功能的服務主體，然后把從各個主體返回的結果進行綜合，展現給用戶。

現在國內最大的多媒體信息系統(tǒng)是新華社多文種多媒體新聞信息處理系統(tǒng)，即多媒體新聞采編系統(tǒng)。該系統(tǒng)集群技術、負載均衡技術實現了大規(guī)模用戶并發(fā)訪問條件下的系統(tǒng)整體高響應能力和不間斷服務能力，有較強的系統(tǒng)擴展能力。系統(tǒng)采用UTF-8編碼技術實現了多語種稿件的處理、存儲和檢索，支持中英西法俄葡日等語言稿件的處理，并且在新系統(tǒng)支持下，實現了西法俄阿葡等文種多媒體稿件的簽發(fā)功能。該系統(tǒng)2005年7月開始運行，是集文字、圖片、圖表、視頻等加工處理、存儲傳輸于一體的信息系統(tǒng)。

目前，多媒體技術正向三個方面發(fā)展：(1)計算機系統(tǒng)本身的多媒體化；(2)多媒體技術與點播電視、智能化家電、識別網絡通信等技術互相結合，使多媒體技術進入教育、咨詢、娛樂、企業(yè)管理和辦公室自動化等領域；(3)多媒體技術與控制技術相互滲透，進入工業(yè)自動化測控等領域[3]。

2 多媒體信息系統(tǒng)檢索技術研究

多媒體信息現已成為計算機信息處理系統(tǒng)的主要數據資源，如何對這些信息關聯度大、結構復雜、媒體處理要求高的多媒體數據進行有效管理和使用，成為多媒體信息系統(tǒng)的一大技術難題。

多媒體信息系統(tǒng)主要面臨以下問題：(1)數據量大，且媒體差異極大，從而影響信息系統(tǒng)的組織和存儲方式；(2)媒體種類的增多增加了數據處理的難度；(3)多媒體不僅改變了數據庫的接口，使其聲、文、圖并茂，而且也改變了數據的操作形式，其中，最重要的是查詢機制和查詢方法；(4)傳統(tǒng)的事務一般都短小精悍，但多媒體數據不能滿足這個要求，如從動態(tài)視頻庫里提取并播放一部數字化影片；(5)版本控制問題。在具體應用中，往往要涉及到處理對象的不同版本的記錄和處理問題。

多媒體信息檢索技術是針對用戶對數值、文本、圖形、圖像、動畫、聲音等各種形式信息的全方位需求而提供的信息查找技術。當前的多媒體信息檢索主要包括基于文本的檢索(Text-Based Retrieval)和基于內容的檢索(Content-Based Retrieval)兩種方式[3]。

2.1 基于文本的檢索

基于文本的多媒體信息檢索的基本原理是通過對多媒體信息的分析找出其要表達的內容，并根據信息的內容給出文字描述，通過檢索其描述文字進而找到所需的多媒體信息。例如：通過人工標注的方法給數據庫中每個圖像標注一個或多個關鍵字屬性，用戶通過關鍵字的匹配對圖像或視頻進行檢索。從本質上說，基于文本的多媒體信息檢索是對關鍵詞的檢索。這種檢索方式的優(yōu)點在于：(1)技術簡單、標引和檢索方便；(2)元數據和數據挖掘的研究將會大大加強文本信息檢索的查準率和查全率，使得信息檢索的效率大大提高，接近理想的檢索效果。

基于文本的檢索方式的局限性在于：(1)很難真正揭示多媒體信息的內容。這種檢索途徑使用文本來表達圖像的內容，檢索對象的不一致決定了在這種信息傳遞過程中必定會有大量信息的丟失，這樣就不可能完全反映信息的內容。(2)多媒體信息是一種抽象程度很大、隨意性很強的信息，缺乏一般意義上的規(guī)范性。對于這種信息，不同的人有不同的理解，這樣便使得在用文字形式描述多媒體信息時，不同的人對同一多媒體信息的描述會有差異。(3)不能實現對于實時廣播流媒體的處理。同時，文本不能有效地表示視頻數據的時序特征，也不支持語義關系。(4)基于文本的檢索方式中，多媒體信息是人工標引，相對當前數量龐大的多媒體信息而言，是很不現實的[4]。

2.2 基于內容的檢索

基于內容的多媒體信息檢索，簡單地說，就是根據多媒體信息的內容來進行檢索，實際上包含兩個方面：多媒體信息的內容描述和檢索。要實現基于內容的信息檢索，首先要知道信息的內容，然后才能在此基礎上進行檢索。通常情況下，基于內容的信息檢索首先要對媒體信息進行分割，將其分成單獨的可供檢索的對象，然后再對每個媒體對象進行特征提取，媒體對象特征的集合就構成了它的內容描述。接下來，檢索過程就可以根據檢索要求從多媒體數據庫中返回一組內容描述與檢索要求最接近的對象。

與傳統(tǒng)的基于關鍵詞的檢索手段相比，基于內容的檢索是相似度檢索和近似檢索。

(1)相似度檢索

在傳統(tǒng)的數據庫中，信息是以記錄的形式來組織、管理和查詢的，每個記錄有固定數目的域，每個域都有明確的意義(定性描述)，這樣，每個記錄所包含的語義信息是確定且有限的。所以在傳統(tǒng)的數據庫檢索中，可以通過比較記錄中某個域的值(關鍵詞)與提供的值是否相同來進行檢索，檢索的結果是完全符合檢索要求的。而對多媒體信息而言，同樣的內容在不同的應用中具有不同的解釋，即具有多義性的特點，這樣，其內容就很難簡單地通過幾個屬性來充分描述?；趦热莸臋z索只能是一種相似度的檢索，即存在一個反映數據庫中的對象與檢索要求相似程度的量，檢索目的也是按照相似程度的大小順序返回相似度最大的一組對象。

由于基于內容的檢索是一種相似度的檢索，因此多媒體庫中的所有對象與所檢索的要求之間都存在一定的相似度，如果不給出檢索結果的集合限制，則檢索將返回所有的媒體對象，檢索也就沒有任何意義了。因此，在基于內容的檢索中需要給出對返回結果的集合限制。

(2)近似檢索

基于內容的檢索是面向多媒體數據庫查詢的，而由于媒體對象內容的豐富性以及一般檢索表達并不能充分反映檢索要求，因此在應用中往往并不要求查詢結果一定是多媒體數據庫滿足相似度和檢索結果集合大小限制的所有對象，而允許有所遺漏，其目的是換取其他性能的提高(比如檢索速度)。

基于內容的多媒體信息檢索具有如下特點：

(1)直接對圖像、視頻、音頻等媒體內容進行分析，抽取特征和語義建立索引，進行檢索；

(2)放棄常規(guī)數據庫檢索中的精確匹配方法，而采用相似性匹配的方法逐步迭代求精獲得檢索結果；

(3)能對大型多媒體數據庫進行快速檢索；

(4)采用多種檢索手段，除提取多媒體內容特征進行檢索外，還提供了其他檢索手段，如通過提供樣本圖像進行相似性檢索，或通過人機交互進行瀏覽檢索[7]。

3 多媒體的語義表示與語義檢索

由于多媒體數據庫中包含大量的圖像、音頻、視頻等非格式化數據，其查詢系統(tǒng)不能只提供基于媒體描述、關鍵字的檢索和查詢，而應能對圖像或聲音等媒體內容進行語義分析，提取相應的元數據，以實現基于語義的檢索方法。

基于語義內容檢索是一項實用性強的高技術，應用于遙感圖像處理和空間探測等領域。

QBIC是由IBM Almaden研究中心開發(fā)的基于內容檢索系統(tǒng)，可以對圖像、視頻、文本和語音進行檢索；VisualSEEK是美國哥倫比亞大學電子工程系與電信研究中心圖像和高級電視實驗室共同研究的一種在WWW上使用的基于內容的圖像/視頻檢索系統(tǒng)；美國加利福尼亞有限責任公司的Muscle Fish是一種正在開發(fā)中的音頻分析引擎，用于數據庫中聲音的自動分類和檢索。

要實現語義檢索，首先要對媒體進行準確地語義表示。媒體語義的表示本質上是一種知識表示，但與一般的知識表示不同。首先媒體包含了大量的語義信息，并且這些信息之間存在著復雜的關系，因此需要有著強大表達能力的方法。目前主要有以下的媒體語義表示方法。

(1)文本表示法

最簡單的語義表示方法是用文本對媒體進行解釋。在IRIS系統(tǒng)中，使用相似性技術直接從戶外圖像中推導出場景的自然語言描述。顏色、紋理、區(qū)域和空間信息被輸入到圖像解釋器來獲得每一圖像區(qū)域最可能的解釋，然后整個場景產生的文本描述，可以利用文本檢索技術來檢索。在某些情況下，利用詞典(WordNet)將文本表示的相關語義概念聯系起來，可以獲得一定的模糊匹配能力。但是使用文本表示語義對于一些概念之間的復雜關系缺乏足夠的表達能力，因此不具有普遍意義。

(2)傳統(tǒng)的知識表示法

這些表示方法主要采用了人工智能中傳統(tǒng)的知識表示，如語義網絡、數理邏輯、框架等方法，它們具有表達復雜關系的能力。最近的一些研究者使用了一些不同的語義表示模型，如Zhuang等使用了模糊布爾模型、概率布爾模型；Colombo等使用了形式語言理論表示；Meghini使用了模糊邏輯語言，Marc Cavazza等使用了符號語言學方法。這些方法在不同的場合分別顯示了它們在語義表達或者模糊匹配方面的能力。但是目前還沒有在不同的情況下都能表現出很好效果的通用方法[4]。

(3)MPEG技術

以上兩種基于關鍵詞或文本的檢索方法已不適合于多媒體信息的檢索。因此，對海量的多媒體信息進行組織、建庫，達到快速、有效地檢索的目的，已成為信息時代人們迫切需要解決的問題?；趦热莸亩嗝襟w信息檢索就是在這樣的背景下提出的，并成為多媒體研究領域的一個熱點。而實現這種基于內容的多媒體信息檢索的一個關鍵性步驟是要定義一種標準的多媒體內容描述接口[5]。

為了解決在多媒體信息檢索方面所面臨的問題，MPEG(活動圖像專家組)在制定了MPEG1、MPEG2標準以及MPEG4標準草案后，又在著手制定MPEG7，MPEG21，MPEG22，MPEG24，MPEG27等標準。其中 MPEG7標準的正式名稱為 “多媒體內容描述接口”(MultimediaContent Description Interface)[6]。

MPEG7與以往的 MPEG1，MPEG2，MPEG4 和 MPEG21，MPEG22，MPEG24，MPEG27等國際標準不同，它旨在對各種不同類型的多媒體信息進行標準化描述，并使之與所描述的內容相聯系，以實現快速有效的搜索。

MPEG7將對各種不同類型的多媒體信息進行標準化的描述，并將該描述與所描述的內容相聯系，以實現快速有效的搜索。該標準不包括對描述特征的自動提取，它也沒有規(guī)定和利用描述進行搜索的工具或任何程序。MPEG7主要致力于視聽數據的信息編碼表達上，換句話說就是集中在對多媒體材料的描述的通用接口的標準化上(表達內容的信息而不是內容本身)。正因為如此，MPEG7致力于在數據資源的交互性與全球化和數據管理的靈活性上。

MPEG技術是由文本信息時代向多媒體信息時代過渡的必然產物，其基于內容和語義的多媒體搜索引擎將使人們真正置身于隨心所欲的多媒體世界。MPEG標準將會使多媒體技術產生重大的變革。隨著MPEG標準和網絡系統(tǒng)的快速發(fā)展，MPEG的應用也將蓬勃發(fā)展，為多媒體檢索技術提供更多的方便。

4 多媒體信息系統(tǒng)所面臨的挑戰(zhàn)

多媒體信息系統(tǒng)需要對圖形、圖像、音頻、視頻、動畫等各種媒體進行綜合管理，系統(tǒng)的開發(fā)日漸重視對這些不同媒體格式信息的集成與整合。如何建立有效的描述和檢索機制對多種媒體格式的信息進行整合描述和集成檢索，成為當前多媒體信息系統(tǒng)重點要解決的問題之一。多媒體信息系統(tǒng)的集成描述與檢索面臨以下挑戰(zhàn)：

(1)多媒體信息的整合與統(tǒng)一描述。例如，對相同內容的不同媒體形式進行統(tǒng)一描述，以便檢索時可屏蔽各種媒體之間的差別，而在瀏覽時對不同媒體又能區(qū)別對待；對同一媒體形式的不同主題內容進行統(tǒng)一描述，以便綜合反映同一媒體的不同側面。

(2)多媒體信息的索引和集成查詢，特別是可查找可索引非結構化的圖像、音頻和視頻數據，也就是圖像、音頻和視頻數據的語義檢索。如非線性視頻的查找和索引，視頻的本質是一組連續(xù)的圖像幀，除了存在時間上的先后順序外，其本身并不具備任何結構信息。不能像文本一樣使用目錄、章節(jié)、段落、句子和關鍵詞的方式來檢索和瀏覽。因此，如何對視頻等非結構數據進行結構化分析與描述成為多媒體信息系統(tǒng)必須解決的問題。

[1]謝超，陳毓芬.洛陽多媒體旅游信息系統(tǒng)設計與實現[J].測繪科學，2008，33(1).

[2]王焱.基于內容的通用視頻檢索系統(tǒng)框架設計[J].計算機應用研究，2004(3).

[3]楊慕蓮，張芳芳.論數字圖書館中多媒體信息檢索系統(tǒng)的構建.咸寧學院學報，2004，24(5).

[4]何立民，萬躍華.數字圖書館中基于內容的視頻檢索關鍵技術[J].中國圖書館學報，2003(2).

[5]盧官明.基于內容的多媒體信息檢索與MPEG7標準[J].計算機應用，2000(5).

[6]范新華，陳宏兵，許滿武.基于 MPEG27的多媒體搜索引擎構建[J].計算機應用研究，2004(11).

[7]Pramila Gupta，James A Sykes.The conceptual modeling process and the notion of a concept：information modeling in the new millennium[EB/OL]. [2001-08].http：www.omg.org/mda.