趙鵬飛 錢沄濤 鄭文斌 李吉明 居 斌
(浙江大學計算機學院,杭州 310027)
基于圖像與文本特征的在線生物文獻MRI圖像庫構建
趙鵬飛 錢沄濤*鄭文斌 李吉明 居 斌
(浙江大學計算機學院,杭州 310027)
近年來,利用在線文獻構建生物數(shù)據(jù)庫引起越來越多的關注,包括論文中生物數(shù)據(jù)的自動收集、組織和分析。在線文獻中圖像形式表示的數(shù)據(jù)具有特別重要的意義。利用在線生物文獻中的圖像和圖像標注,構建在線生物文獻核磁共振(MRI)圖像庫,其中識別文獻中的MRI圖像是重要的一步。作為從在線文獻中構建MRI圖像庫的必要部分,綜合利用圖像信息和圖像文本標注信息,采用后驗相乘、特征拼接和協(xié)同學習3種方法來識別文獻中的MRI圖像。實驗表明,綜合利用圖像和文本兩類信息訓練得到的分類器,比基于單種信息訓練得到的分類器具有更高的識別精度,為構建能解釋在線文獻中MRI圖像的知識系統(tǒng)這一長期目標提供了基礎支持。
MRI;在線文獻;圖像分類
隨著信息技術的快速發(fā)展,信息的來源呈多元化趨勢,而信息的數(shù)量呈爆炸性增長趨勢。目前,專業(yè)科學和技術工作者更依賴于共同的研究平臺和資源(大型專業(yè)數(shù)據(jù)庫),以及海量信息的高效檢索和組織能力(搜索引擎)。通過對非結構化文獻數(shù)據(jù)的信息抽取和整理,建立具有一定標準結構的專業(yè)數(shù)據(jù)庫,為信息提取、處理和組織提供了有效的手段。在文獻中,圖表包含了關鍵的實驗結果和性能指標,工程技術和實驗科學文獻尤為明顯。從文獻構建專業(yè)圖像數(shù)據(jù)庫,是收集整理文獻提供的各種不同條件、對象、時間、方法下取得的專業(yè)圖像,并對這些圖像進行分類、標注、存儲、索引、鏈接。
近年來,國外出現(xiàn)了一些利用文獻中的圖表(figure)、圖表標題(caption)、摘要(abstract)、文本(text)等信息構建的專業(yè)數(shù)據(jù)庫。Carnegie MellonUniversity的Murphy實驗室開發(fā)了SLIF(Subcellular Location Image Finder)系統(tǒng),該系統(tǒng)利用在線文獻中抽取的圖表和圖表標題,建立熒光顯微圖像數(shù)據(jù)庫,采用圖像結合文本特征對熒光圖和非熒光圖進行分類,其分類精度為 88.6%[1-3];EBSCO 數(shù)據(jù)庫能提供期刊文獻訂購、出版及檢索等服務,能根據(jù)期刊文獻的關鍵詞、主題、出版物、索引、圖像和參考文獻等信息進行檢索,在學術界有很強的影響力[4];Shatkay把文獻的圖表數(shù)據(jù)整合到基于文獻的文本信息的分類方法中,對生物醫(yī)學文獻進行分類[5];Yu和Lee建立文獻中摘要和圖表的聯(lián)系,通過摘要信息去檢索包含感興趣圖表的文獻[6];Rafkind利用文獻中的圖表信息和文本信息,自動把文獻中的圖表分成凝膠圖(gel images)、圖表、實物圖(image-of-thing)、混合圖(mixtures)和模型圖(models)等多類圖表[7];Xu等開發(fā)了一套基于關鍵詞檢索生物醫(yī)學圖片和文獻的搜索引擎(YIF)[8]。上述工作盡管比較初步,但已經(jīng)顯示,通過在線文獻這一巨大和規(guī)范的數(shù)據(jù)源,可以建立為專門研究和商業(yè)應用服務的專業(yè)數(shù)據(jù)庫,前景廣闊。
本研究的背景是從在線生物文獻中構建MRI圖像庫,MRI在臨床醫(yī)學和腦科學研究中有著重要的作用[9-10],因此建立 MRI圖像庫的工作有著重要的意義。此前,筆者已完成了在線生物文獻中圖表和圖表標題信息的提取,圖表-圖表標題對(figure-caption,如圖1所示)分割為嵌圖(panel)和嵌圖標注(annotation),并以嵌圖-嵌圖標注對(panel-annotation)的形式存儲在圖像庫中[11-12],下一步的重點在于如何識別在線文獻中的MRI圖像和提高識別精度。在傳統(tǒng)方法中,一般僅利用圖像特征來做圖像識別。本研究提出綜合利用圖像庫中的圖像信息(SIFT特征)和文本信息(圖像對應文本標注的詞頻特征),訓練較高分類精度的支持向量機(support vector machine,SVM)分類器。采用3種圖像特征結合文本特征的方法:一是分別基于圖像特征和文本特征訓練SVM分類器對數(shù)據(jù)做分類,輸出后驗概率值,然后相乘其后驗概率值作為最終分類結果;二是直接拼接圖像和文本兩類特征,用拼接后的特征訓練SVM分類器對數(shù)據(jù)做分類;三是根據(jù)協(xié)同學習的思想,利用一些未標記樣本,并綜合圖像特征和文本特征訓練SVM分類器對數(shù)據(jù)做分類。
圖1 在線生物文獻中的圖表-圖表標題對[13]Fig.1 The figure-caption in online biological literature[13]
從在線生物文獻構造MRI圖像庫是一個復雜的過程,圖2是MRI圖像庫的基本功能模塊,主要包括:獲取在線生物文獻,并從文獻內捕獲圖表和對應的圖表標題;圖表中嵌圖的分割,一般文獻中一張圖表內往往包含多個嵌圖,需要對圖表進行劃分以保證每個嵌圖作為獨立的圖像;嵌圖序號識別,如果圖表包含多個嵌圖,那么一般每個嵌圖都有一個序列號,用來對應嵌圖和圖表標題中的文本;圖表標題的處理,得到圖像指針(image points)和每個圖像指針在圖表標題中的所轄范圍,圖像指針和嵌圖序號一起為嵌圖和標題提供一一對應關系;每個圖像指針在圖表標題中的所轄范圍是對圖像指針所對應嵌圖的說明;嵌圖識別、分類/聚類、語義標注。通過這些步驟,最終構建一個在線生物文獻MRI圖像庫。
在圖2中,虛線表示部分是本研究所關注和解決的問題,即使用圖像和文本特征來識別圖像庫中的MRI圖像。
MRI是斷層成像的一種,它利用磁共振現(xiàn)象從人體中獲得電磁信號,并重建出人體信息。通常,MRI圖像的背景為黑色,圖像中間為較明亮影像物體,影像物體局部的形態(tài)和特征與其他圖像相比具有較明顯的區(qū)別。通過構造SIFT特征詞匯表(bagof-features)[14]作為圖像特征來識別 MRI圖像。SIFT是David G.Lowe提出的一種基于尺度空間的、對圖像縮放、旋轉甚至仿射變換保持不變性的圖像局部特征描述算子[15],因此,其特征適合區(qū)分MRI圖像和其他圖像。一幅圖像SIFT特征向量的生成算法包含以下3個主要步驟。
圖2 MRI圖像庫構造流程Fig.2 The construction process of MRI Database
步驟1:尺度空間極值點檢測,以確定關鍵點位置和所在尺度。在圖像二維平面空間和DoG(difference-of-gaussian)尺度空間中,同時檢測局部極值作為關鍵點。DoG算子定義為兩個不同尺度的高斯核的差分,有
式中,G(x,y,σ)為二維高斯函數(shù),σ為高斯正態(tài)分布的方差,(x,y)為圖像的像素位置,L為圖像的尺度空間。
步驟2:利用關鍵點領域像素的梯度方向分布特征,為每個關鍵點指定方向參數(shù),使算子具備旋轉不變性。點(x,y)處梯度的模值和方向為
步驟3:生成特征描述子。首先將坐標軸旋轉為關鍵點的方向,以關鍵點為中心取8像素×8像素的窗口,然后在每2像素×2像素的小塊上計算8個方向的梯度方向直方圖。因此,一個關鍵點由4×4共16個小塊組成,每個小塊有8個方向向量信息,從而獲得16×8=128維的特征描述子作為SIFT特征。
在生成圖像庫中所有圖像的SIFT特征詞匯表主要包括以下4個步驟。
步驟1:把所有樣本圖像放縮到一樣的大小,用Canny算子對圖像做邊緣檢測。在邊緣檢測后得到的灰度圖中,找出灰度值最大100個像素作為關鍵點。由此,可以確定這些關鍵點在圖像中的坐標。
步驟2:根據(jù)上述SIFT特征的生成算法,計算樣本圖像中所有關鍵點的SIFT特征向量。相當于每個樣本圖像中提取100個SIFT特征向量,來表示該圖像。
步驟3:收集所有樣本中的SIFT特征向量作為一個數(shù)據(jù)集,用k-means算法[15]對數(shù)據(jù)集做聚類,產(chǎn)生300個聚類中心。從而構成了樣本圖像的SIFT特征詞匯表。
步驟4:針對每個樣本圖像中100個SIFT特征向量,分別計算每個特征向量到這300個聚類中心的相似度,選取相似度最大的聚類中心來表示該特征向量,從而生成一個300維的頻率分布直方圖來表示一個樣本圖像。
在線生物文獻圖像庫中,不僅存儲了大量嵌圖,還包含對應嵌圖的標注。這些標注能一定程度地解釋嵌圖所要表達的內容,所以可以根據(jù)嵌圖標注等文本信息來識別MRI圖像。同時,也可以利用嵌圖標注信息,結合圖像信息的方法來識別MRI圖像。
文本特征提取主要包括3個步驟:文本預處理、索引統(tǒng)計、特征選擇。文本預處理涉及統(tǒng)一文本編碼格式,去除停用詞。索引統(tǒng)計包括提取文本中的詞項,并與詞典進行匹配和計數(shù),建立樣本文本特征空間。特征選擇是文本分類的重要問題,因為通常文本特征空間的維數(shù)很高,有幾千上萬維,標準的分類算法很難處理如此大的特征集,而且分類結果不可靠。因此,需要進行特征選擇,既可以大大降低向量空間的維數(shù),也可以減少“過擬合”的問題。
在特征選擇中,若不考慮特征項之間的相關性,常見的算法有:詞頻特征(TermFrequency,TF)、文檔頻率(documentfrequency,DF)、信息增益值(information gain,IG)、互信息 (multi-information,MI)[16]。采用計算信息增益值的方法來做特征選擇,信息增益的計算為
式中:P(ci)表示類別ci出現(xiàn)的概率,等于屬于類別ci的樣本數(shù)量除以總的樣本數(shù);P(tk)表示特征(tk)出現(xiàn)的概率,等于出現(xiàn)過特征(tk)樣本數(shù)除以總樣本數(shù);P(ci|tk)表示出現(xiàn)特征tk時,樣本屬于類別ci的概率,等于出現(xiàn)特征tk并且屬于類別ci的樣本數(shù)除以出現(xiàn)了特征tk的樣本數(shù)。
在選擇文本特征時,先計算所有特征詞的信息增益值,然后從中選取300個擁有最大信息增益值的特征詞作為文本特征,最終構成300維的文本特征空間。
在獲取圖像特征和文本特征后,可以單獨利用圖像特征或文本體征來識別MRI圖像,也可以用圖像和文本信息融合的方法來識別MRI圖像。本研究選擇基于線性核函數(shù)的SVM方法作為識別算法[17],采用3種圖像和文本信息融合的方法。
1)提取圖像庫中每個嵌圖-嵌圖標注對的圖像特征、文本特征,用SVM方法,訓練分別基于圖像特征(x1)的分類器和基于文本特征(x2)的分類器,對測試樣本做分類,分別輸出后驗概率值p(ci|x1)和p(ci|x2)。假設樣本的圖像特征和文本特征是相互獨立的,則滿足式(4),根據(jù)式(5)可求得基于圖像和文本特征的后驗概率p(ci|x1,x2),即
2)直接拼接圖像和文本特征。對圖像庫中的每個嵌圖-嵌圖標注對提取300維圖像特征(x1)和300維文本特征(x2),把兩類特征向量拼接為一個600維的特征向量x=(x1,x2)。根據(jù)拼接后的特征,訓練SVM分類器來識別MRI圖像。
3)根據(jù)協(xié)同學習的思想[18],利用一些非標記樣本,并綜合圖像特征、文本特征,訓練分類器來識別MRI圖像。因為在圖像庫中,除了一些標記好類別的樣本外,還存在大量未標記的樣本。協(xié)同學習是一種半監(jiān)督方法,它的理論假設是:數(shù)據(jù)集可以被自然地分成兩個獨立的特征子集,并要求這兩個子集滿足一致性和獨立性。前者要求對大多數(shù)樣本在每個特征子集上預測的類別是相同的。后者要求對指定類別的任意樣本在兩個特征子集中的描述是獨立的。在圖像庫中,對每個嵌圖-嵌圖標注對提取300維圖像特征(x1)和300維文本特征(x2),該數(shù)據(jù)集的圖像特征子集和文本特征子集滿足協(xié)同學習要求的一致性和獨立性。對協(xié)同學習算法進行描述:
輸入:L表示已經(jīng)標記好的樣本數(shù)據(jù),U表示未標記的樣本數(shù)據(jù),C表示用于緩存一小部分U的緩沖器。
輸出:增加了未標記樣本后的訓練樣本數(shù)據(jù)L
偽代碼:
Step 1:將U分解為C和U′,滿足U=CUU′
Step 2:循環(huán)m次:
{
Step 3:用L中的圖像特征(x1)訓練一個SVM分類器h1;
Step 4:用L中的文本特征(x2)訓練一個SVM分類器h2;
Step 5:用分類器h1對C進行分類;
Step 6:依據(jù)分類結果和一定原則,從C中選擇一部分數(shù)據(jù)Ch1(包括p個MRI樣本和n個非MRI樣本),加入到 L,使得,C=C-Chi,L=LUChi;
Step 7:用分類器h2對C進行分類;
Step 8:依據(jù)分類結果和一定原則,從C中選擇一部分數(shù)據(jù)Ch2(包括p個MRI樣本和n個非MRI樣本),加入到 L,使得 C=C-Ch2,L=LUCh2;
Step 9:從U′中隨機選擇2p+2n個樣本,記為P,加入到C中,使得C=CUP;
}
在協(xié)同學習算法中,設定未標記樣本緩存器C=300,循環(huán)次數(shù)m=30,并根據(jù)圖像庫中MRI圖像和非MRI圖像的比例,設定每次循環(huán)加入的MRI樣本的數(shù)量p=1,非MRI樣本的數(shù)量n=3。
從自建的圖像庫中,選出892個圖表-圖表標題對,并把這些圖表-圖表標題對分割為嵌圖-嵌圖標注對,其中MRI圖像和非MRI圖像的比例大約為1:3。在選取實驗數(shù)據(jù)時,為了避免同個圖表-圖表標題對中的不同嵌圖-嵌圖標注對的相似性,在每個圖表-圖表標題對中只選取一個嵌圖-嵌圖標注對。同時,選取1 000個未標記嵌圖-嵌圖標注對,用于協(xié)同學習算法。
在實驗中,隨機選取90%帶標記樣本數(shù)據(jù)作為待選取的訓練樣本,剩余10%樣本數(shù)據(jù)作為測試樣本。設定訓練樣本占待選取訓練樣本的比例為p,p從1/9遞增到1,每次遞增1/9,然后用基于圖像特征、基于文本特征、后驗相乘、特征拼接、協(xié)同學習的5種分類方法識別測試樣本,分別計算每種分類方法在不同訓練樣本數(shù)量下的識別精度。這個過程在實驗中重復20次,最終求得每種方法在不同數(shù)量訓練樣本下的平均識別精度。
Kappa統(tǒng)計值經(jīng)常作為衡量新方法的一個評測指標[19]。在實驗中,隨機選取90%的樣本數(shù)據(jù)作為訓練樣本,剩余10%樣本數(shù)據(jù)作為測試樣本,用5種分類方法識別測試樣本,然后分別計算每種分類結果與金標準的Kappa統(tǒng)計值。這個過程在實驗中重復20次,然后求每種方法平均的 Kappa值。Kappa統(tǒng)計值的范圍在0~1.0之間,值越大說明該方法越穩(wěn)定、性能越好。
ROC 曲線是以“靈敏度”為縱坐標′[20],“1-特異度”為橫坐標,根據(jù)ROC曲線空間中曲線的分布來分析一個分類器是否可靠。在實驗中,隨機選取90%的樣本數(shù)據(jù)作為訓練樣本,剩余10%的樣本數(shù)據(jù)作為測試樣本,用5種分類方法識別測試樣本,設定分界點k從0.01遞增到0.99,每次遞增0.01,分別計算每種分類方法的結果與金標準在分界點為k時的ROC曲線坐標值。這個過程在實驗中重復20次,然后求每種方法平均的ROC曲線坐標值。在ROC曲線空間,如果曲線沿著左邊線,然后沿著上邊線越緊密,則實驗準確度越高,該曲線對應的分類方法的識別效果越好。
識別精度的實驗結果如圖3所示;從整體上看,5種方法隨著訓練樣本數(shù)量的增加,分類的準確率基本上穩(wěn)步提高。當訓練樣本數(shù)量大于總樣本數(shù)量20%的時候,基于文本特征比基于圖像特征的識別精度略高(高1%左右),說明文本特征適合做MRI圖像的識別。從總體上看,3種圖像結合文本的方法均能有效提高MRI圖像的識別精度,尤其是協(xié)同學習方法,當訓練樣本比較少的情況下(比如10%樣本作為訓練樣本時),其分類準確率依然比較高,其效果優(yōu)于其他兩種圖像文本特征結合方法。這說明協(xié)同學習方法能有效利用大量的未標記數(shù)據(jù),提高識別MRI圖像的準確率。隨著訓練樣本數(shù)量的增加(比如70%以上樣本作為訓練樣本時),特征拼接的方法能更有效地識別MRI圖像。
圖3 在不同數(shù)量訓練樣本下5種識別方法的分類情況Fig.3 The classification performance of five different algorithms on different training sample sets
表1 5種識別方法所消耗的時間Tab.1 The consuming time of five different algorithms
表1是實驗中每種識別方法在不同數(shù)量訓練樣本下完成分類所消耗的總時間。圖像和文本特征融合的方法在提高MRI圖像識別精度的同時,也不同程度上增加了訓練時間。但是,特征拼接法和后驗相乘法增加的訓練時間是有限的,而協(xié)同學習的訓練計算量相對比較大。由于訓練是離線進行的,因此計算消耗不是太大的問題。
表2為5種識別方法的Kappa值,可知后驗相乘、特征拼接和協(xié)同學習3種方法的Kappa值更大,說明這3種方法的穩(wěn)定性和準確率都優(yōu)于基于單種特征的方法。
表2 5種識別方法的Kappa值Tab.2 Kappa Statistics of five different algorithms
圖4為5種識別方法的ROC曲線,可知后驗相乘、特征拼接和協(xié)同學習3種方法的ROC曲線分布更接近左邊線和上邊線,說明這3種方法的穩(wěn)定性和準確度都優(yōu)于基于單種特征的方法。
圖4 5種識別方法的ROC曲線Fig.4 ROC curve analysis of five different algorithms
當前,隨著大量學術文獻和信息的數(shù)字化,從中檢索和重組符合個性化和專業(yè)化要求的信息資源,并構造更方便使用的結構化數(shù)據(jù)庫,已經(jīng)成為數(shù)字信息資源深度挖掘的重要方向。筆者以如何從在線生物文獻構造MRI圖像數(shù)據(jù)庫為研究背景,重點研究在線文獻中MRI圖像的識別方法。由于在線文獻中的圖像存在分辨率較低、形態(tài)復雜、分布隨機、無統(tǒng)一標準等問題,對MRI圖像實現(xiàn)高識別低漏檢是一個富有挑戰(zhàn)的問題。而文獻中圖像的突出特點是一定會有對應的圖像標注對圖像進行一定的說明,由此提供了一個很好的識別MRI圖像的信息來源。因此,筆者提出了綜合利用圖像和文本特征,采用后驗相乘、特征拼接和協(xié)同學習3種方法來識別MRI圖像的方法,通過圖像本身特征和標注特征的互補性及互證性,提高了識別精度,降低了漏檢率。實驗表明,綜合利用圖像、文本兩類特征訓練得到的分類器,比單種特征訓練得到的分類器的分類精度要高。研究為建立在線生物文獻MRI圖像庫和后續(xù)的知識挖掘等工作打下扎實的基礎。
在提出的3種特征融合分類方法中,后驗相乘最簡單,可以分別對不同種類的特征進行訓練,但性能提高上比其他兩種方法略低;特征拼接需要注意的是異構特征的歸一化問題;而協(xié)同學習盡管時間比較長,但特別適合小訓練樣本集的場合。另外,其他特征融合方法和分類器融合方法是下一階段的研究課題之一。
本研究提出的方法對于從在線文獻構造任意其他圖像數(shù)據(jù)庫是具有普遍借鑒意義的。不同圖像庫構建的主要區(qū)別在于需要針對不同圖像的特點構造不同的圖像和文本特征,由于熒光顯微圖像就更適合用紋理特征。而且每一類圖像都有自己特有的專業(yè)術語,因此選擇特征詞典可以結合所需構造圖像庫的特點進行。構造更具區(qū)分性的圖像和文本特征,以及更具實際需求從在線文獻建立其他圖像數(shù)據(jù)庫,也是進一步的主要工作之一。
[1] Qian Yuntao,Murphy RF.Improved recognition offigures containing fluorescence microscope images in online journal articles using graphical models [J].Bioinformatics,2008,24(4):569-576.
[2 ] Murphy RF,Velliste M,Yao J,et al.Searching online journals for fluorescence microscope images depicting protein subcellular location patterns[A].In:Bourbakis NG,eds.IEEE International Symposium on Bioinformatics and Bioengineering [C].Washington DC:IEEE Computer Society,2001.119 –128.
[3] Murphy RF,Velliste M,Porreca G.Robust Numerical features for description and classification of subcellular location patterns in fluorescence microscope Images[J].The Journal of VLSI Signal Processing,2003,35(3):311 -321.
[4] StephensJT.EBSCO Databases[DB/OL].http://web.ebscohost.com,2010-03-06/2010-05-25.
[5] Shatkay H,Chen N,Blostein D.Integrating image data into biomedical text categorization [J].Bioinformatics,2006,22(14):446-453.
[6] Yu H,LeeM.Accessingbioscienceimagesfrom abstract sentences[J].Bioinformatics,2006,22(14):547 -556.
[7] Rafkind B,Lee M,Chang SF,et al.Exploring text and image features to classify images in bioscience literature[A].In:Verspoor K,Cohen KB,Ben Goertzel,eds.Proceedings of the HLT-NAACL BloNLP Workshop on Linking Natural Language Processing and Biology[C].New Jersey: Association for Computational Linguistics,2006.73 -80.
[8] Xu Songhua,McCusher J,Krauthammer M.Yale Image Finder(YIF):a new search engine for retrieving biomedical images[J].Bioinformatics,2008,24(17):1969 -1970.
[9] 過哲,張晶,梁偉,等.骨巨細胞瘤的動態(tài)增強MRI與^1H-MR波譜研究[J].中國醫(yī)學影像技術,2008,24(10):1490-1492.
[10] 楊貴昌,李文進,周平,等.MRI診斷非出血性腦彌漫性軸索損傷的臨床價值[J].中國醫(yī)學影像學雜志,2003,11(4):273 -274,311.
[11] 趙鵬飛,錢沄濤,鄭文斌.基于在線生物學文獻的MRI圖像獲?。跩].中國體視學與圖像分析,2009,14(2):216 -211.
[12] 趙鵬飛,錢沄濤,鄭文斌.在線文獻的嵌圖序號檢測與識別[A].見:劉國權,編.第八屆全國信號與信息處理聯(lián)合學術會議[C].北京:中國體視學學會,2009.151-155.
[13] Tripathi M,Singh M,Padma MV,et al.Surgical outcome of cortical dysplasias presenting with chronic intractable epilepsy:a 10-year experience[J].Neurology India,2008,56(2):138 -143.
[14] Li Feifei,Perona P.A bayesian hierarchical model for learning natural scene categories[A].In:Schmid C,Soatto S,Tomasi C,eds.Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition[C].Washington DC:IEEE Computer Society,2005.524 -531.
[15] Lowe DG.Distinctive image features from scale-invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[16] Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1 -47.
[17] Cortes C,Vapnik V.Support vector networks[J].Machine learning,1995,20(3):273 -297.
[18] Blum A,Mitchell T.Combining labeled and unlabeled data with co-training[A].In:Bartlett P,Mansour Y,eds.Proceedings of the Eleventh Annual Conference on Computational Learning Theory[C].New York:Association for Computer Machinery,1998.92-100.
[19] 鄭卓肇,孫忠強,范家棟,等.Kappa統(tǒng)計量評價半月板MRI診斷[J].中國醫(yī)學影像技術,2002,18(6):587 -588.
[20] Fawcett T.An introduction to ROC analysis[J].Pattern Recognition Letters,2006,27(8):816 -874.
MRI Database Construction Using Image and Text Features Extracted from Online Biological Literature
ZHAO Peng-FeiQIAN Yun-Tao*ZHENG Wen-Bin LI Ji-Ming JU Bin
(College of Computer Science,Zhejiang University,Hangzhou 310027,China)
Recently,building biological databases from online literature has attracted more attentions,which includes automating the collection,organization and analysis of biological data in the research literature.Images,as an important type of data in online literature,present great significance.It is necessary to build a magnetic resonance imaging(MRI)database that extracts information regarding images and texts in online biological literature.In this paper,MRI image recognition was studied.For better comprehensive utilization of image and text features,we propose three fusion approaches,including merging both features,multiplying both posterior probabilities and Co-training algorithm.Experimental results show a significant improvement in the average accuracy of the three fusion classifiers as compared with classifiers only based on image or text features.
MRI;online literature;image classification
R318.08
A
0258-8021(2010)05-0697-07
10.3969/j.issn.0258-8021.2010.05.010
2010-06-12,
2010-08-23
國家自然科學基金資助項目(60872071)
*通訊作者。 E-mail:ytqian@zju.edu.cn