□王睿佳 劉 耀
面向科技文獻(xiàn)的多模態(tài)語義關(guān)聯(lián)特征提取與表達(dá)體系研究*
□王睿佳 劉 耀
科技文獻(xiàn)資源是一種多模態(tài)數(shù)據(jù),除文本信息外,還包含豐富的圖像、表格、公式、音頻、視頻等多種模態(tài)的信息,有利于用戶充分理解科技文獻(xiàn)資源中的知識(shí)。該文把多模態(tài)思想引入科技文獻(xiàn)的語義表示方面,對科技文獻(xiàn)中的圖像、表格和公式信息進(jìn)行語義分析,與文本信息共同表示文獻(xiàn)語義內(nèi)容,通過科技文獻(xiàn)中多種模態(tài)信息的語義表示及相互關(guān)系完善科技文獻(xiàn)內(nèi)容的語義化表示,發(fā)展刻畫科技文獻(xiàn)對象多態(tài)性的表達(dá)體系。
多模態(tài) 科技文獻(xiàn) 語義相關(guān)性 語義關(guān)聯(lián)特征
* 本文得到國家科技支撐計(jì)劃項(xiàng)目(2011BAH10B04),國家社科基金項(xiàng)目(12BTQ006),中國科學(xué)技術(shù)信息研究所預(yù)研基金(YY-201125)的支持。
科技文獻(xiàn)資源是一種多模態(tài)數(shù)據(jù),具有多態(tài)性,往往包含著豐富的圖像、表格、公式、音頻、視頻等多種模態(tài)的信息,這些多模態(tài)的信息與占據(jù)主導(dǎo)地位的文本信息相互說明、互為補(bǔ)充,幫助用戶充分理解科技文獻(xiàn)資源中的知識(shí)。
具體來說,用戶通過“閱讀”圖像來理解所表達(dá)內(nèi)容的速度比單純閱讀文字來理解相同內(nèi)容的速度快,而且在某些情況下,圖像可以傳遞文字所不能表達(dá)的內(nèi)容;表格和公式是科技文獻(xiàn)中不可缺少的部分,可以使內(nèi)容的表達(dá)更加直觀、嚴(yán)謹(jǐn);音頻和視頻資料使科技文獻(xiàn)資源中表達(dá)的知識(shí)具體化、可視化,有助于用戶的充分理解。
在科技文獻(xiàn)中,分析單模態(tài)信息與綜合多模態(tài)信息所產(chǎn)生的語義理解之間可能會(huì)存在偏差,因此可以利用不同模態(tài)的相容互補(bǔ)性,對圖像等多種模態(tài)的信息進(jìn)行語義表示,發(fā)現(xiàn)不同模態(tài)的語義特征的潛在語義相關(guān)性,對于澄清僅考慮單模態(tài)難以明辨的語義可以起到積極的促進(jìn)作用。因此,如何充分有效地對科技文獻(xiàn)中的多模態(tài)信息加以關(guān)聯(lián)利用,就成為了一個(gè)亟待解決的問題。
多模態(tài)(multi-modal)的概念是相對于單模態(tài)(unimodal or single-modality)而言的,多模態(tài)的研究一般指使用兩個(gè)或兩個(gè)以上不同模態(tài)的信息來解決一個(gè)特定的問題,目前還沒有形成一個(gè)明確的廣義上的定義。最早出現(xiàn)的關(guān)于多模態(tài)的文獻(xiàn)是1968年關(guān)于模式識(shí)別中的多模態(tài)測試的研究[1],之后在1970年關(guān)于多信號(hào)檢測的功能研究的論文中相對于單信號(hào)提出了雙信號(hào)的概念,即多模態(tài)的信號(hào)檢測[2],同時(shí)期也出現(xiàn)于醫(yī)學(xué)多模態(tài)治療方法、生物系統(tǒng)中的多模態(tài)學(xué)習(xí)等領(lǐng)域。20世紀(jì)90年代中后期,有關(guān)多模態(tài)的研究逐漸增多,應(yīng)用領(lǐng)域也更加廣泛。
與多模態(tài)相似的是“多媒體”(multi-media)的概念,多媒體是指組合兩種或兩種以上媒體的一種人機(jī)交互式信息交流和傳播媒體,使用的媒體包含連續(xù)的媒體數(shù)據(jù)(如視頻、音頻等)和離散的媒體數(shù)據(jù)(如文本、圖形、圖像等)[3]。它不只是各種媒體的簡單復(fù)合,而是一種把文本、圖形、圖像、動(dòng)畫和聲音等形式的信息結(jié)合在一起,并通過計(jì)算機(jī)進(jìn)行綜合處理和控制,能支持完成一系列交互式操作的信息技術(shù)。目前,多媒體技術(shù)在科學(xué)數(shù)據(jù)檢索和處理、商業(yè)應(yīng)用、教育和職業(yè)培訓(xùn)、娛樂等領(lǐng)域有廣泛的應(yīng)用,其研究大都是圍繞著如何為用戶提供更好的多媒體信息服務(wù),也就是廣義的視聽覺服務(wù)來展開的[4]。而多模態(tài)的研究則側(cè)重于通過對同一個(gè)目標(biāo)的不同特征或同一特征的不同信息的對比和融合來解決一個(gè)特定的問題,目前主要應(yīng)用于圖像、音頻、視頻的處理和檢索、醫(yī)學(xué)圖像配準(zhǔn)與融合、生物特征身份識(shí)別、話語分析等領(lǐng)域。
多模態(tài)是一個(gè)較新的研究領(lǐng)域,由于強(qiáng)調(diào)的是運(yùn)用不同模態(tài)的信息解決問題的方法,并不局限于某個(gè)學(xué)科領(lǐng)域,因此國內(nèi)外目前的研究涉及許多不同的模態(tài)因素,例如圖像、視頻、音頻、生物特征、話語表達(dá)等,研究領(lǐng)域較多,主要包括以下幾個(gè)方面。
3.1.1 多模態(tài)圖像自動(dòng)標(biāo)引和檢索
圖像對于人們理解信息有著重要的補(bǔ)充作用,對于圖像的標(biāo)引和檢索可以追溯到20世紀(jì)70年代中期,人們對圖像庫中的每張圖像進(jìn)行關(guān)鍵字的標(biāo)注,然后利用人工標(biāo)注的文本信息來檢索圖像。隨著科學(xué)技術(shù)的發(fā)展,根據(jù)圖像內(nèi)容進(jìn)行自動(dòng)標(biāo)引和檢索的技術(shù)已越來越受到關(guān)注。
3.1.2 多模態(tài)醫(yī)學(xué)圖像配準(zhǔn)與融合
隨著醫(yī)學(xué)影像學(xué)和計(jì)算機(jī)技術(shù)的發(fā)展,醫(yī)學(xué)圖像在應(yīng)用中的地位越來越重要。但是,從單一的圖像中無法得到全面的診斷信息,人為的空間構(gòu)想又會(huì)影響結(jié)果的準(zhǔn)確性,因此多模態(tài)醫(yī)學(xué)圖像配準(zhǔn)與融合的研究得到了廣泛的關(guān)注,成為目前生物醫(yī)學(xué)工程中的一個(gè)熱點(diǎn)問題[5]。研究主要集中在對同一患者在不同時(shí)間、不同傳感器或不同條件下獲取的兩幅或多幅圖像進(jìn)行配準(zhǔn)和融合的方法和關(guān)鍵技術(shù)的討論和改進(jìn)方面,涉及數(shù)字圖像處理、計(jì)算機(jī)圖形學(xué)和醫(yī)學(xué)領(lǐng)域的知識(shí),是計(jì)算機(jī)圖形學(xué)和圖像處理在生物工程領(lǐng)域中的重要應(yīng)用[6]。
3.1.3 多模態(tài)身份識(shí)別
多模態(tài)身份識(shí)別方面的研究包括多模態(tài)生物特征識(shí)別和音頻、視頻中的發(fā)言人身份識(shí)別。對于多模態(tài)生物特征識(shí)別的研究在2000年之前處于起步階段,之后便開始迅速發(fā)展。該研究通過結(jié)合多種生物特征(如指紋、虹膜、人臉、掌紋、靜脈等)來進(jìn)行對于個(gè)人身份的鑒定,提高了識(shí)別的準(zhǔn)確性,是生物特征識(shí)別技術(shù)研究領(lǐng)域的熱點(diǎn)之一[7]。音頻、視頻中的發(fā)言人身份識(shí)別通過分析發(fā)言人的音調(diào)等語音特征,結(jié)合同步畫面中的面部特征來確定發(fā)言人的身份[8],在視訊會(huì)議等應(yīng)用中有著重要的作用[9]。
3.1.4 多模態(tài)視頻信息的分類與檢索
該研究主要應(yīng)用于對于視頻事件的檢測、分類和檢索方面。視頻是沒有結(jié)構(gòu)的數(shù)據(jù)流,主要包括圖像、音頻和文本三種媒質(zhì)數(shù)據(jù),具有復(fù)雜性和難描述性,因此用單一特征進(jìn)行查詢得到的結(jié)果并不能令人滿意。多模態(tài)信息融合可以針對視頻的多種媒質(zhì)信息分別查詢,再進(jìn)行有效的融合,能夠取得較好的效果。早期的視頻檢索是根據(jù)視頻的底層視覺特征(如圖像紋理特征等)進(jìn)行分類和處理的[10],隨后逐漸發(fā)展到基于概念的視頻檢索[11]。
此外,多模態(tài)研究還包括多模態(tài)人機(jī)交互系統(tǒng)研究[12]、多模態(tài)話語分析[13]、機(jī)器人目標(biāo)識(shí)別[14]、多模態(tài)情感識(shí)別[15]、多模態(tài)信息融合的一般功能模型設(shè)計(jì)[16]等方面。
科技文獻(xiàn)資源中涉及大量的圖像信息,對于圖像與文本信息的語義關(guān)聯(lián)特征提取與表示是研究的一個(gè)重點(diǎn)。目前國內(nèi)外對于圖像語義特征的研究主要包括圖像自動(dòng)標(biāo)注和圖像檢索。
圖像自動(dòng)標(biāo)注的目的是讓計(jì)算機(jī)自動(dòng)用關(guān)鍵字等文本信息進(jìn)行圖像標(biāo)注,通過標(biāo)注在圖像的底層視覺特征與高層語義特征之間搭起一座橋梁。目前大多數(shù)圖像自動(dòng)標(biāo)注系統(tǒng)是結(jié)合統(tǒng)計(jì)學(xué)方法來確定圖像視覺特征和文本之間的關(guān)系,在一個(gè)訓(xùn)練集中對圖像進(jìn)行標(biāo)注,之后該訓(xùn)練集中已訓(xùn)練過的視覺特征和文本之間的關(guān)系就可以用來標(biāo)注該集以外的新的圖像[17]。目前計(jì)算機(jī)提取的視覺特征主要包括顏色特征、紋理特征和形狀特征等,研究主要集中在對更有效的自動(dòng)標(biāo)引方法和模型的開發(fā)方面[18][19]。
早期的圖像檢索使用的是基于文本的檢索方式,起源于20世紀(jì)70年代,當(dāng)時(shí)圖像數(shù)量相對較少,圖像的標(biāo)注工作可以完全由人工進(jìn)行。但隨著數(shù)字?jǐn)z影技術(shù)和互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,手工標(biāo)注所耗費(fèi)的人力和時(shí)間太大,而且對于圖像的不同理解可能帶來不同的標(biāo)注,因此基于文本的檢索方式已經(jīng)不能很好地適應(yīng)龐大圖像庫圖像檢索。為了解決這一問題,20世紀(jì)90年代初,研究人員提出了基于內(nèi)容的圖像檢索方式。對于基于內(nèi)容的圖像檢索的討論起源于1992年美國國家科學(xué)基金會(huì)(NSF)組織的研討會(huì),會(huì)議認(rèn)為可視化信息管理系統(tǒng)可在科學(xué)、工業(yè)、醫(yī)學(xué)、環(huán)境、教育、娛樂等多方面得到應(yīng)用,應(yīng)該作為研究人員的主要研究領(lǐng)域。之后,美國伊利諾大學(xué)的 NCSA(National Center for Supercomputing Applications)組織在1993年發(fā)表了第一個(gè)可以顯示圖片的 Mosaic瀏覽器[20]。基于內(nèi)容的圖像檢索是利用圖像的視覺特征信息進(jìn)行檢索,用戶根據(jù)自己的檢索需求提供一張查詢圖像,系統(tǒng)從該圖像中提取出視覺特征,再在圖像庫中檢索與視覺特征相似的圖像提交給用戶。此外,圖像檢索還涉及圖像相似度的度量和學(xué)習(xí)問題,即如何判斷圖像庫中的圖像與用戶查詢圖像之間的相似度。對于相似度度量的方法也是研究的一個(gè)熱點(diǎn)問題,已提出的方法包括基于區(qū)域的相似度學(xué)習(xí)[21]、多模態(tài)相似性傳播方法[22]、基于區(qū)域的模糊特定匹配方法等[23]。目前已有的多模態(tài)圖像檢索系統(tǒng)包括QBIC圖像檢索系統(tǒng)、Virage圖像檢索引擎、Retrieval-Ware圖像檢索工具、Photobook圖像檢索工具和VisualSEEK圖像檢索工具等。
目前圖像語義研究的難點(diǎn)主要是語義鴻溝問題,即由于計(jì)算機(jī)獲取的底層視覺信息與用戶對圖像理解的高層語義信息不一致而導(dǎo)致的低層特征提取和高層檢索需求之間的距離。這是圖像語義理解面臨的根本障礙,其根源之一就是圖像本身所固有的多義性。研究人員試圖從不同的角度來解決這一問題,例如在圖像的更小區(qū)域內(nèi)進(jìn)行特征匹配、進(jìn)行相關(guān)反饋來改善圖像檢索效果[24]等。
3.3.1 基于圖像的表格識(shí)別與處理研究
現(xiàn)代社會(huì)中,信息資源迅速膨脹,除了數(shù)字化信息資源外,還存在著大量的紙質(zhì)文檔資源,為了更好地利用和管理這些紙質(zhì)文檔資源,就需要利用計(jì)算機(jī)對大量的紙質(zhì)文檔資料進(jìn)行數(shù)字化處理和存儲(chǔ),由此產(chǎn)生了光學(xué)字符識(shí)別技術(shù)(OCR)。OCR技術(shù)通過掃描和攝像等光學(xué)輸入方式獲取紙張上的文字圖像信息,然后利用各種模式識(shí)別算法分析文字形態(tài)特征,判斷出漢字的標(biāo)準(zhǔn)編碼,并按照通用格式存儲(chǔ)在文本文件中[25]。表格識(shí)別是光學(xué)字符識(shí)別技術(shù)重要的應(yīng)用領(lǐng)域之一,由于掃描而成的圖像中存在的是像素點(diǎn),因此最初的這種表格識(shí)別技術(shù)是基于圖像的[26]。目前,對于基于圖像的表格識(shí)別的研究主要集中在對其關(guān)鍵技術(shù)及系統(tǒng)的討論和改進(jìn)方面。例如,文獻(xiàn)[27]重點(diǎn)討論了表格識(shí)別預(yù)處理技術(shù)與表格字符提取算法;文獻(xiàn)[28]研究并實(shí)現(xiàn)了一種手寫表格識(shí)別系統(tǒng),可以對紙質(zhì)手寫表格圖像進(jìn)行掃描,設(shè)置輸出規(guī)則,進(jìn)行表格識(shí)別處理。
3.3.2 電子文檔中表格式信息的抽取
表格式信息抽取一般包括表格檢測、表格分解與處理兩個(gè)方面的工作。值得注意的是,表格檢測與處理的一個(gè)關(guān)鍵問題在于輸入的格式。我們可以把電子文檔中的表格分為兩類[29],一類是原始文本表格,使用ASCII等寬字型文本,用空格或特殊字符作為分隔符。另一類是多格式文本表格,包括基于LaTeX,PDF,HTML等格式的文本。目前大多數(shù)的研究是針對基于HTML格式的表格展開的[30][31]。
然而,大量的科技文獻(xiàn)是以PDF格式存在的,因此也有研究者對基于PDF格式的表格識(shí)別和數(shù)據(jù)抽取技術(shù)進(jìn)行了研究,但此方面研究尚處于起步階段。PDF中的表格是基于視覺的,具有獨(dú)特的結(jié)構(gòu),被稱為“文字流”表格,用戶一般只能直觀地從顯示結(jié)果看到表格,而無法直接從文檔格式中獲取表格信息[32],因此其處理相比其他格式的表格處理更為困難。此方面的研究集中在對關(guān)鍵技術(shù)的探討和改進(jìn)方面,例如文獻(xiàn)[33]提出了一種PDF表格的元數(shù)據(jù)抽取的算法,即基于定位分析和關(guān)鍵詞匹配技術(shù),確定表格單元內(nèi)容,識(shí)別表格結(jié)構(gòu)的方法;文獻(xiàn)[34]提出了一種通過圖像線偵測PDF中表格位置的算法,通過對PDF文檔頁中的“稀疏線”(sparse line)進(jìn)行探測,來判斷內(nèi)容中標(biāo)題、表格、腳注等具有“稀疏線”特征的文字的布局信息。也有研究者提出了先將 PDF 文 檔 通 過 pdftohtml工 具 (http://pdftohtml.sourceforge.net)轉(zhuǎn)換為 HTML 或 XML格式,再進(jìn)行表格的識(shí)別和解析[35]。
1968年,Anderson在博士論文中首次提出了公式識(shí)別的問題[36],之后公式處理的研究進(jìn)展比較緩慢,進(jìn)入20世紀(jì)90年代,相關(guān)的研究才逐漸增多。前文提到的OCR系統(tǒng)對手寫、印刷體文本都有很高的識(shí)別率,已經(jīng)廣泛應(yīng)用于辦公自動(dòng)化、快速錄入等領(lǐng)域,但對于分析公式結(jié)構(gòu)、識(shí)別出文檔中的數(shù)學(xué)公式還沒有很好的效果[37]。目前數(shù)學(xué)公式圖像處理方面的研究較多,提出了一些公式圖像識(shí)別系統(tǒng),如MatheReader[38],它可以處理包含數(shù)學(xué)公式的文檔圖像,實(shí)現(xiàn)公式定位、識(shí)別、分析、輸出的全過程。
此外,還有數(shù)學(xué)公式檢索方面的研究。目前大致有兩類檢索數(shù)學(xué)公式的方法:一種是首先生成公式的字符串表示,然后運(yùn)用普通的信息檢索方法來檢索;另一種是利用內(nèi)容表示中內(nèi)在的結(jié)構(gòu)進(jìn)行檢索[39]。
4.1.1 多模態(tài)信息語義分析理論和方法研究
分析國內(nèi)外多模態(tài)研究方向的主要研究范圍、研究進(jìn)展和發(fā)展方向,整合相關(guān)領(lǐng)域的研究思想和方法,強(qiáng)調(diào)多學(xué)科交叉融合,突出原始創(chuàng)新的帶動(dòng)作用。
4.1.2 多模態(tài)異構(gòu)特征的內(nèi)在規(guī)律及語義相關(guān)性研究
探討多模態(tài)與語義的關(guān)系,挖掘不同模態(tài)特征之間的語義相關(guān)性,構(gòu)建面向科技文獻(xiàn)內(nèi)容理解的以實(shí)體、關(guān)系和事件為核心的結(jié)構(gòu)化語義描述體系,實(shí)現(xiàn)其內(nèi)容表示的語義化。
4.1.3 單模態(tài)信息解析與特征提取技術(shù)研究
研究基于語義表達(dá)的多種模態(tài)的解析與提取技術(shù)的集成方法,實(shí)現(xiàn)科技文獻(xiàn)中所廣泛涉及的圖像、表格、公式、文本等多種模態(tài)的有效解析與提取。
4.1.4 多模態(tài)語義關(guān)聯(lián)特征的提取與表達(dá)研究
研究多模態(tài)語義關(guān)聯(lián)特征在內(nèi)容特征上潛在的統(tǒng)計(jì)關(guān)系,建立多模態(tài)特征的共生矩陣,以生成包含不同類型數(shù)據(jù)的同構(gòu)子空間來反映其關(guān)聯(lián),最終實(shí)現(xiàn)多模態(tài)語義特征之間關(guān)聯(lián)關(guān)系的表達(dá)。
4.1.5 基于上下文關(guān)聯(lián)的多模態(tài)融合與表達(dá)模型構(gòu)建與實(shí)現(xiàn)研究
研究適用于多模態(tài)信息的融合機(jī)制和多模態(tài)協(xié)同分析的學(xué)習(xí)算法。實(shí)現(xiàn)基于上下文關(guān)聯(lián)的多模態(tài)語義特征融合,建立多模態(tài)高維異構(gòu)數(shù)據(jù)的特征提取與描述的理論和方法。
研究旨在利用以自然語言處理技術(shù)為主的多種媒體處理理論與方法,結(jié)合基于半結(jié)構(gòu)化文本輔助構(gòu)建本體的技術(shù)與系統(tǒng),針對科技文獻(xiàn)中廣泛涉及的文字、圖像、表格、公式等多模態(tài)數(shù)據(jù),提出基于上下文關(guān)聯(lián)的多模態(tài)語義特征融合與表達(dá)的思路及方法,研究開發(fā)多種模態(tài)的解析與特征提取技術(shù),挖掘多模態(tài)異構(gòu)特征的內(nèi)在規(guī)律,探索多模態(tài)數(shù)據(jù)間的相容互補(bǔ)性,構(gòu)建面向科技文獻(xiàn)內(nèi)容理解的以實(shí)體、關(guān)系和事件為核心的結(jié)構(gòu)化語義描述體系,建立基于語義分析的多模態(tài)數(shù)據(jù)的特征提取與描述的理論和方法。為內(nèi)容理解及知識(shí)服務(wù)提供理論與技術(shù)支持。
本文的研究方案及整體技術(shù)路線如圖1所示。
圖1 研究方案及整體技術(shù)路線
我們的研究旨在結(jié)合科技文獻(xiàn)中的文本、圖像、表格及公式等不同模態(tài)的語義特征來完善對科技文獻(xiàn)的語義理解,因此需要在各個(gè)模態(tài)的語義特征提取和表示方面分別開展研究,然后將不同模態(tài)的語義特征有效地關(guān)聯(lián)起來,構(gòu)成一個(gè)完整的表達(dá)體系。目前,課題組在文本語義特征的分析方面取得了一定的進(jìn)展[40-43]。我們針對醫(yī)學(xué)領(lǐng)域,基于現(xiàn)有的語言分析技術(shù)和語義資源,結(jié)合科學(xué)技術(shù)文獻(xiàn)的特征,研究了構(gòu)建專業(yè)領(lǐng)域語義資源的關(guān)鍵技術(shù)、理論及方法,建立了理解科技文獻(xiàn)文本內(nèi)容的多語言數(shù)據(jù)資源庫。在這項(xiàng)研究中,我們建立了一個(gè)多級(jí)別、全方位的語義標(biāo)引系統(tǒng),具體來說,就是在科技文獻(xiàn)的詞、句、章三個(gè)層面上對文檔中的深層語義關(guān)系進(jìn)行標(biāo)記,并開發(fā)相關(guān)的標(biāo)引工具來幫助實(shí)現(xiàn)對文本中深層語義關(guān)系的標(biāo)引。其中,詞層面的標(biāo)引不僅需要標(biāo)引主題詞,還要對主題詞之間或主題詞與常用詞之間的關(guān)系進(jìn)行標(biāo)注。在語句層面的標(biāo)引中,我們分析了語句在章節(jié)中的重要性,通過語義角色和謂詞邏輯的分析結(jié)果來進(jìn)行標(biāo)注。在章節(jié)層面的標(biāo)引中,需要分析并標(biāo)注句子之間的語義關(guān)系,再進(jìn)行規(guī)范化處理和標(biāo)引工作。該研究可以支持我們對科技文獻(xiàn)的文本內(nèi)容進(jìn)行深入的語義理解和分析,為下一步分析圖像、表格及公式等模態(tài)信息語義特征的工作提供了基礎(chǔ)。
在接下來的工作中,我們會(huì)在現(xiàn)有的相關(guān)研究的基礎(chǔ)上,對科技文獻(xiàn)資源中圖像、表格和公式等模態(tài)信息的語義特征進(jìn)行分析和提取,同時(shí)利用文本語義分析技術(shù)來輔助研究,例如結(jié)合圖像、表格或公式的標(biāo)題、上下文中的相關(guān)描述、腳注等文本信息來完善對非文本模態(tài)信息的語義表示。然后將不同模態(tài)的語義特征有效地關(guān)聯(lián)起來,構(gòu)成一個(gè)完整的科技文獻(xiàn)多模態(tài)語義關(guān)聯(lián)特征表達(dá)體系,完善對科技文獻(xiàn)資源的語義理解與分析。
1 Cappon Daniel,Banks Robin,Ramsey Craig.Improvement of recognition on a multi-modal pattern discrimination test.Perceptual and Motor skills,1968,26(2):431-441
2 Fidell Sanford.Sensory function in multimodal signal detection.Journal of the acoustical society of America,1970,47(4B):1009-1015.
3 於志文等.普適個(gè)性化多媒體服務(wù)技術(shù)綜述.計(jì)算機(jī)應(yīng)用研究,2006,23(10):6-10
4 欒悉道等.多媒體語義模型研究進(jìn)展.計(jì)算機(jī)科學(xué),2010,37(11):1-37
5 談泉.多模態(tài)醫(yī)學(xué)圖像融合技術(shù)的研究及評價(jià)體系的建立[碩士學(xué)位論文].華中科技大學(xué),2006
6 劉慶輝.多模態(tài)醫(yī)學(xué)圖像的配準(zhǔn)與融合[碩士學(xué)位論文].山東大學(xué),2009
7 A.K.Jain,A.Ross.Multibiometric Systems.Communications of the ACM,Special Issue in Multimodal Interfaces,2004,47(1):34-40
8 Ivana Arsic,Roger Vilagut,Jean-Philippe Thiran.Automatic extraction of geometric lip features with application to multimodal speaker identification.IEEE international conference on multimedia and expo,Toronto,2006
9 Kammermeier P,Buss M.A human perception model for multimodal feedback in telepresence systems.IEEE international conference on systems,man and cybernetics,Japan,1999
10 萬華林等.圖像紋理特征及其在CBIR中的應(yīng)用.計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2003,15(2):195-199
11 Cao J,Jing H F,Ngo C W,et al.Distribution-based concept selection for concept-based video retrieval.Proceedings of ACM International Conference on Multimedia,Beijing,2009
12 Hideo Shimazu,Yosuke Takashima.Multi-Modal-Method:a design method for building multi-modal systems.Proceedings of the 16th conference on computational linguistics,1996
13 朱永生.多模態(tài)話語分析的理論基礎(chǔ)與研究方法.外語學(xué)刊,2007(5):82-86
14 C.Mario Christoudias,Raquel Urtasun,Mathieu Salzmann,Trevor Darrell.Learning to recognize objects from unseen modalities.Lecture notes in computer science,2010,6311:677-691
15 Ze-Jing Chuang,Chung-Hsien Wu.Multi-Modal emotion recognition from speech and text.Computational linguistics and Chinese language processing,2004
16 潘巍等.多模態(tài)信息融合的一般功能模型設(shè)計(jì)——基于融合功能與信息層次.計(jì)算機(jī)工程與應(yīng)用,2006,42(29):27-35
17 Vassilios Stathopoulos,Jana Urban,Joemon Jose.Semantic relationship in multimodal graphs for automatic image annotation.Lecture notes in computer science,2008,4956:490-497
18 王長虎.互聯(lián)網(wǎng)環(huán)境下大規(guī)模圖像的內(nèi)容分析、檢索和自動(dòng)標(biāo)注的研究[博士學(xué)位論文].北京:中國科技大學(xué),2009
19 張?jiān)?,包駿杰,況夯,鐘洪.基于貝葉斯理論的圖像標(biāo)注和檢索.計(jì)算機(jī)科學(xué),2008,35(8):229-231
20 Smeulders A W M,Worring M,Santini S,et al.Content-Based image retrieval at the end of the early years.IEEE Trans in Pattern Analysis and Machine Intelligence,2000,22(12):1349-1380
21 Ardizzoni S,Bartolini I.Windsurf:region-based image retrieval using wavelets.In The Tenth International Workshop on Database and Expert Systems Applications,1999
22 Wang X-J,Ma W-Y,Xue G-R,et al.Multi-model similarity propagation and its application for Web image retrieval.Proceedings of the 12th ACM International Conference on Multi-media,2004
23 Y.Chen,J.Z.Wang.A region-based fuzzy feature matching approach to content-based image retrieval.IEEE Trans.Pattern Analysis and Machine Intelligence,2002,24(9)
24 S.Yu,D.Cai,J.R.Wen,et al.Improving pseudo-relevance feedback in web information retrieval using web page segmentation.Proceedings of the 12th World Wide Web Conference,2003
25 章毓晉.圖像處理和分析.北京:清華大學(xué)出版社,2001
26 Mori.S,Suen.C.Y,Yamamoto K.Historical review of OCR research and development.Proceedings of the IEEE,1992,80(7):1029-1058
27 謝亮.表格識(shí)別預(yù)處理技術(shù)與表格字符提取算法的研究[碩士學(xué)位論文].廣州:中山大學(xué),2005
28 王行榮,應(yīng)俊.手寫表格識(shí)別系統(tǒng)研究和實(shí)現(xiàn).計(jì)算機(jī)科學(xué),2008,35(6):268-271
29 Wern Wong,David Martinez,Lawrence Cavedon.Extraction of Named Entities from Tables in Gene Mutation Literature.Proceeding of the Workshop in Current Trends in Biomedical Natural Language Processing,2009
30 潘小燕等.半結(jié)構(gòu)化文本中的表格識(shí)別技術(shù)研究.微計(jì)算機(jī)信息,2008,24(18)
31 W.W.Cohen,M.Hurst,L.S.Jensen.A flexible learning system for wrapping tables and lists in html documents.Proceeding of the 11th International Conference on World Wide Web,2002
32 張伯.基于PDF文字流的表格識(shí)別技術(shù)的研究[碩士學(xué)位論文].北京:北京工業(yè)大學(xué),2010
33 Ying Liu,PrasenjitMitra,C.Lee Giles,et al.Automatic extraction of table metadata from digital documents.Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries,2006
34 Ying Liu,PrasenjitMitra,C.Lee Giles.Identifying table boundaries in digital documents via sparse line detection.Proceeding of the 17th ACM conference on Information and knowledge management,2008
35 BurcuYildiz,Katharina Kaiser,Silvia Miksch.A method to extract table information from PDF files.Proceedings of the 2nd Indian International Conference on Artificial Intelligence,2005
36 R.H.Anderson.Syntax-directed recognition of hand-printed two-dimensional mathematics.Interactive Systems for Experimental Applied Mathematics,Academic Press,1968
37 吳俊飛.基于特征字符的印刷體公式識(shí)別研究[碩士學(xué)位論文].哈爾濱:哈爾濱工程大學(xué),2006
38 靳簡明等.數(shù)學(xué)公式識(shí)別系統(tǒng):MatheReader.計(jì)算機(jī)學(xué)報(bào),2006,29(11)
39 Michael Kohlhase,Loan A.Sucan.A search engine for mathematical formulae.Computer Science,2006,4120/2006:241-253
40 Yao Liu,Yazhen Zhao,Zhifang Sui.Research on Automatic Construction of Medical Ontology Based on a Multidimensional Model.Journal of Computational Information Systems,2009,5(6):1725-1733
41 劉耀等.中醫(yī)藥本體概念描述體系的自動(dòng)構(gòu)建研究.現(xiàn)代圖書情報(bào)技術(shù),2008(5):21-26
42 Yao Liu,Yazhen Zhao.Research on Ancient Literature Corpus Creation and Development of Chinese Traditional Medicine.ICIC Express Letters– An Int.J.of Research and Surveys.2009,3(4):1227-1232
43 劉耀等.基于內(nèi)容與形式交互的圖書館資源組織語義化方法研究.情報(bào)理論與實(shí)踐,2010(10):105-107
Study on the Feature Extraction and Expression System of Multi-Modal Semantic Information for Scientific and Technical Literature
Wang Ruijia Liu Yao
Scientific and technical literature contains images,tables,formulas,audio and video files besides the common text format,which will help the users to fully understand the knowledge presented in the literature.So the resource of scientific and technical literature can be taken as a kind of multi-modal information.This paper adopts the multi-modal approach to make the semantic presentation of the scientific and technical literature.To be specific,it analyzes the texts,images,tables and formulas in the literature on the semantic level,builds a system to present the semantic multi-modal features in the literature,and optimizes the semantic presentation of the literature with the semantic features and the relations between them.
Multi-Modal;Scientific and Technical Literature;Semantic Dependency;Semantic Feature
中國科學(xué)技術(shù)信息研究所,北京,100038
2011年11月21日