陳 剛, 徐星羽
(武漢大學(xué) 國家網(wǎng)絡(luò)安全學(xué)院, 武漢 430079)
維基百科(Wikipedia)是一個內(nèi)容自由開放式的網(wǎng)絡(luò)百科全書協(xié)作計劃, 其儲存了大量由作者編輯的維基列表. 在每篇成員文章中都有可能包含一個維基百科信息框. 維基百科信息框是一個格式一致的表格, 存在于某一主題的文章頁面中[1].
目前, 對本體匹配或維基百科本體構(gòu)建的研究已有許多成果, 但對維基百科信息框的研究較少. 傳統(tǒng)方法利用信息框?qū)傩詫ふ液线m的表格概要屬性, 基于一組候選特征如類別與列表的信息框中屬性頻度、 信息框?qū)傩砸约傲斜砦谋久枋龅南嚓P(guān)度訓(xùn)練分類器, 尋找信息框?qū)傩灾锌勺鳛榱斜斫y(tǒng)一表格概要的屬性[2-3]. 本文研究基于給定維基百科類別下的維基列表及其成員文章提取信息框中本體結(jié)構(gòu)信息(類關(guān)系), 將維基百科信息框中提取出的屬性及其數(shù)據(jù)作為實驗數(shù)據(jù), 并將其均視為本體類[4](并未嚴(yán)格遵循本體規(guī)則). 采用3種本體類關(guān)系研究維基百科類別中的屬性, 定義一組候選特征判斷特定的關(guān)系是否存在. 本文使用Word2Vec計算屬性對之間在特定文本域的余弦相似度, 并分析屬性間的相關(guān)程度.
本文主要考慮構(gòu)建本體信息描述類(信息框?qū)傩约安糠秩≈?之間的關(guān)系. 維基百科信息框中的內(nèi)容并不一定是格式完美、 語義無歧義的, 有些問題出現(xiàn)在信息框的屬性與取值中[5]. 例如, 使用不同的屬性名稱描述相同的概念和屬性取值未定義清晰的取值范圍. 本文以維基百科中一個主要概括美國各州大學(xué)或?qū)W院信息的類別為例, 該類別為Category: Lists of universities and colleges by U.S. state, 提取該類別中的列表與文章信息, 結(jié)果列于表1.
表1 維基百科“大學(xué)”類別信息
本文基于對網(wǎng)絡(luò)本體語言的研究, 將問題總結(jié)為三方面, 并討論這三方面問題在維基百科信息框中的表現(xiàn)形式.
維基百科信息框?qū)傩缘南嗟汝P(guān)系(equivalent relationship)有兩種可能性[6]: 一種情形是同一個單詞的單復(fù)數(shù)形式, 在一篇文章創(chuàng)建信息框時, 不同作者針對同一條屬性的同一用詞可能會采用不同的單復(fù)數(shù)形式, 或者都包含在內(nèi); 另一種情形則是兩個不同的單詞在當(dāng)前語境或上下文條件下, 是對同一個概念進(jìn)行描述的一組同義詞. 兩種情形中都可人工判斷出兩個屬性是否具有相等關(guān)系.
本體語言中定義兩個不同類描述所對應(yīng)的元素集合是同一個集合, 則判定兩個類為等價類. 表2列出了3組存在于維基百科信息框?qū)傩灾械南嗟汝P(guān)系, 每行均為一組人工標(biāo)注的等價類本體信息.
表2 信息框?qū)傩韵嗟汝P(guān)系示例
圖1 包含關(guān)系示例的本體結(jié)構(gòu)
包含關(guān)系在維基百科信息框中的表現(xiàn)形式為一個或多個屬性所描述的概念及內(nèi)容是某個屬性所描述概念內(nèi)容的組成部分. 符合這種情形的屬性組合擁有某一方向的包含關(guān)系.
在本體語言中, 兩個類C1和C2, 如果滿足C1描述所對應(yīng)的元素集合是C2元素集合的子集, 則C1是C2的子類. 這種包含關(guān)系可稱為類之間的父子關(guān)系. 特別地, 一個類必然是它自己的子類; 如果兩個類互為父子類, 即互相包含, 則這兩個類是等價類.
表3與圖1給出了包含關(guān)系在信息框?qū)傩灾械谋倔w結(jié)構(gòu)示例. 在包含關(guān)系示例中, 存在一種新的類關(guān)系, 即兄弟類, 圖1中本科生和研究生即為兄弟類, 它們共享同一個父類“學(xué)生”. 在研究互斥類關(guān)系時, 兄弟關(guān)系將是重要的依據(jù)和參考條件.
表3 信息框?qū)傩园P(guān)系示例
互斥關(guān)系較復(fù)雜, 如果兩個類所包含的數(shù)據(jù)元素都不是同一數(shù)據(jù)類型, 則探討這兩個類是否具有互斥關(guān)系無意義. 因此, 互斥關(guān)系僅出現(xiàn)在兄弟類之間. 本體語言中定義兩個類為互斥類需滿足元素集合無交集的條件. 所以判斷互斥關(guān)系時可能需要用到包含關(guān)系的判斷結(jié)果. 兄弟類的定義即將共享父類的各子類判定為兄弟類[7]. 表4中所列的示例與包含關(guān)系中的示例是同一組, 在包含關(guān)系中, 本科生和研究生都作為學(xué)生的子類, 它們互為兄弟類的同時也互斥, 其所描述的元素集合無相同元素, 符合定義的互斥關(guān)系. 圖2更直觀地描述了該組數(shù)據(jù)中的包含關(guān)系和互斥關(guān)系結(jié)構(gòu).
表4 信息框?qū)傩曰コ怅P(guān)系示例
圖2 互斥關(guān)系示例本體結(jié)構(gòu)
另一方面, 在維基百科的信息框中, 某些特殊的屬性可能隱含著獨特的結(jié)構(gòu)信息, 該屬性的取值可能在維基百科中也有相應(yīng)的文章頁面或列表. 這些特定屬性的所有取值, 也將構(gòu)成一組兄弟類, 而這些兄弟類之間可能存在互斥關(guān)系.
在“美國大學(xué)”這個研究示例類別中, type屬性是該情形下標(biāo)準(zhǔn)的樣本案例. 通常在維基百科信息框中, 屬性type表征該篇文章在特定類別下的具體分類. 表5列出了7個來自屬性type的取值, 其中有兩對互斥類和3個單獨的類.
表5 Type屬性互斥關(guān)系示例
在實際應(yīng)用中, “美國大學(xué)”類別的維基列表里, 多數(shù)表格概要都將“公眾/私有”和“盈利/非盈利”從type取值中抽取出來, 新建了一個概要屬性control表示這兩對取值的含義. 在列表表格概要中也有一項名為type的屬性, 其中只包含了信息框?qū)傩灾衪ype內(nèi)容的一部分. 這種將屬性type分割的行為可認(rèn)為是受取值出現(xiàn)的頻率所影響, 因為“公眾/私有”和 “盈利/非盈利”這兩對取值占據(jù)了多數(shù)type在信息框中的實例.
類的相似度是類關(guān)系的有效表現(xiàn)特征. 本文定義5個相似度特征幫助構(gòu)建本體結(jié)構(gòu)信息.
2.1.1 取值集合相似度 在維基百科每篇文章的信息框中, 每行都包含一條屬性及其取值[8]. 本文對類別中每個屬性在所有信息框中的取值進(jìn)行收集匯總, 所有取值對應(yīng)屬性形成一個集合, 即屬性的取值集合. 在判斷兩個屬性間關(guān)系時, 計算兩個屬性對應(yīng)取值集合的Jaccard相似性系數(shù). Jaccard相似性系數(shù)在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域中是一個常見的評價指標(biāo), 主要用于比較有限樣本集之間的相似性與差異. Jaccard相似性系數(shù)越大, 樣本相似度越高. 根據(jù)取值集合相似度特征, 可尋找類之間的相等關(guān)系和包含關(guān)系. 本文將取值集合記為
(1)
其中:vi表示數(shù)據(jù)屬性值;vj表示相似數(shù)據(jù)屬性值.
2.1.2 首段集相似度 維基百科文章頁面內(nèi)的文本內(nèi)容包含了大量有價值的、 適合進(jìn)行數(shù)據(jù)挖掘文本分析的數(shù)據(jù), 特別是每篇文章的第一個段落[9]. 本文將文章中的第一段落作為尋找類之間相等關(guān)系和包含關(guān)系的一項重要參考. 收集提取相應(yīng)維基百科類別下所有文章的第一個段落, 匯總成一個文本語料庫. 利用Word2Vec訓(xùn)練文本, 為每個屬性生成對應(yīng)的詞向量, 計算屬性在文本空間中的余弦相似度, 作為兩個屬性類之間的首段集相似度. 余弦相似度衡量了兩個向量在向量空間中的夾角大小, 本文屬性所對應(yīng)的詞向量在語料庫向量空間中的余弦相似度越大, 他們之間的關(guān)聯(lián)度就越高. 本文將首段集相似度特征記為
(2)
其中:vacci表示余弦數(shù)據(jù)屬性值;vaccj表示余弦相似數(shù)據(jù)屬性值.
2.1.3 模版相似度 在維基百科中, 多數(shù)類別有特定的信息框模板, 為作者在當(dāng)前類別下的文章創(chuàng)作信息框時提供參考. 該信息框模板的模板結(jié)構(gòu)和模板描述都可顯示創(chuàng)建此類維基百科信息框的細(xì)節(jié)[10]. 本文利用維基百科的信息框模板(如果存在)頁面提取文本數(shù)據(jù), 幫助預(yù)測類之間的相等關(guān)系和包含關(guān)系. 處理維基百科類別的信息框模板, 作為Word2Vec的訓(xùn)練文本, 使用屬性詞向量在模板頁面訓(xùn)練后的語料庫向量空間中的余弦相似度作為判定類關(guān)系的候選特征, 記為
(3)
其中:vaccit表示屬性詞向量數(shù)據(jù)值;vaccjt表示屬性詞相似向量數(shù)據(jù)值.
2.1.4 信息框內(nèi)位置 信息框內(nèi)位置表示兩個屬性在同類維基百科類別文章信息框中相對的位置關(guān)系. 如果同類文章中兩個屬性在信息框?qū)嵗锍霈F(xiàn)的相對位置概率相近, 則這兩個屬性在類關(guān)系上就有很大可能性是相等或是包含關(guān)系, 甚至有可能是互斥關(guān)系. 本文將兩個屬性的相對位置距離特征記為
(4)
其中:pi表示相對位置數(shù)據(jù)屬性值;pj表示相對位置相似數(shù)據(jù)屬性值.
2.1.5 名稱相似度 每個屬性在維基百科的信息框中都對應(yīng)一個名稱. 如果兩個屬性的屬性名稱在文本上有很強(qiáng)的相似關(guān)系, 則他們有較大的可能性是擁有相等關(guān)系和包含關(guān)系, 在計算名稱相似度特征值時, 本文采用歐氏距離衡量兩個屬性名稱的相似程度, 記為
Simname=lena,b(i,j).
(5)
尋找等價類(equivalent class)時, 對于每個已經(jīng)提出并定義的候選特征, 本文都將先計算兩個類之間相應(yīng)的特征值, 再對特征值進(jìn)行排序. 假設(shè)給定屬性類A, 其余所有非A屬性類與A計算單一特征值, 按特征值從大到小的順序排列所有候選屬性類, 即形成了A屬性類某一特征的特征值排序序列, 該序列表示在某一特定特征下, 與屬性A最相似的屬性類排序. 在每個特征下,A屬性都要形成一個特征值排序序列. 檢查已經(jīng)排序的5個特征值序列中的屬性名稱排序, 找出人工標(biāo)注相等關(guān)系的標(biāo)準(zhǔn)答案在序列中的位置, 評估單一特征在判斷類之間相等關(guān)系上的正確率或正確范圍. 因為單一特征的特征值計算結(jié)果排序, 正確的答案可能并不在序列的前段, 該情形屬于某一特征未發(fā)揮效果的樣本案例. 如果某單一特征在尋找類的等價類時正確性低于其他特征, 則在綜合考慮所有特征推斷等價類關(guān)系式, 就需要降低這一特征的權(quán)重參數(shù); 反之, 若某個單一特征在判斷等價類關(guān)系時的準(zhǔn)確率遠(yuǎn)高于其他特征, 則需要在綜合考慮提升這一特征的重要性.
評估完單一特征尋找等價類的表現(xiàn)后, 需要整合5個特征決定2個類最終是否為等價類. 由于研究時間所限, 本文研究在確認(rèn)單一特征的表現(xiàn)后, 并不調(diào)整5個特征在最終計算時的特征權(quán)重向量參數(shù), 而記作W1=(1,1,1,1,1)的形式, 計算5個特征值的算術(shù)平均數(shù)作為判定等價類的最終依據(jù), 將該平均特征值作為等價類特征值(equivalent class feature score), 記做Simer. 同理, 對每個屬性, 都為其列出相對應(yīng)的等價類特征值排序, 排名越靠前的屬性, 越有可能為其等價類. 本文選取排名第一的屬性(top-1 similar attribute)作為尋找到的當(dāng)前屬性類的等價類[11].
尋找一個屬性類的父類所用特征與尋找等價類時相同, 所用方法也接近. 因為在邏輯學(xué)上, 一個類本身也是該類的子類, 當(dāng)子類與父類足夠相似時, 子類與父類即成為等價類. 但當(dāng)一個子類內(nèi)容過少時, 可能無法察覺其與父類之間的包含關(guān)系.
與尋找等價類時相同, 首先對5個單一特征值在特定屬性上排序, 檢驗單一特征在尋找某類的父類時的準(zhǔn)確率或準(zhǔn)確范圍. 雖然不會因為單一特征在尋找父子類時與其他特征的表現(xiàn)差異而調(diào)整整體權(quán)重參數(shù), 但要與尋找等價類在算法上有所區(qū)分. 不同點則是針對了單一的特征屬性的名稱相似度(name similarity). 在名稱相似度的特征中包含了一種特殊的情形, 稱為名稱的字符串包含(name string inclusion). 例如, school和law school這兩個概念分別指代學(xué)校與法律類學(xué)校, 兩者之間存在一種包含關(guān)系, 即law school是school的子類, 而不是等價類的關(guān)系. 這種特殊情形的表現(xiàn)特征是一個類A的名稱字符串覆蓋了另一個類B, 即類B的名稱字符串是類A字符串的一部分, 將會導(dǎo)致名稱相似度的特征值計算升高而影響最終結(jié)果. 所以名稱相似度這一特征在推斷包含關(guān)系時要比推斷相等關(guān)系時權(quán)重大. 前提條件是, 在進(jìn)行名稱相似度特征前, 已經(jīng)通過去主干(stemming)等文本處理方法將單詞的單復(fù)數(shù)、 英文名稱加數(shù)字等影響因素都提前排除掉. 因此, 在綜合匯總所有特征值數(shù)據(jù)進(jìn)行綜合判斷尋找父類時, 本文設(shè)定各特征的權(quán)重參數(shù)向量為W2=(1,1,1,1,3), 該綜合特征值成為父類特征值(parent class feature score), 記為Simsr. 得到每個屬性的其他屬性父類特征值排序后, 暫時假設(shè)排名第一的屬性記為當(dāng)前屬性類的父類[12].
在判定等價類和父類時, 維基百科信息框中大部分的屬性可能不涉及到相等關(guān)系或包含關(guān)系, 如表6所示. 因此, 設(shè)置限制性參數(shù)t分割特征值序列,t=0.5. 只有等價類特征值或父類特征值超過參數(shù)t的特征值序列排名第一的屬性才會被保留, 其余均按無相關(guān)關(guān)系判定.
表6 維基百科“美國大學(xué)”類別內(nèi)關(guān)系數(shù)據(jù)
下面給出判定等價類與父子類的流程. 假設(shè)當(dāng)前屬性類為類A, 在對類A的等價類特征值及父類特征值作計算排序后, 得到類B為其等價類特征值序列第一位, 特征值為Simer, 類C為父類特征值序列第一位, 特征值為Simsr. 下面對特征值是否符合限制條件t做出判斷:
1) 若等價類特征值不滿足Simer>t, 則判斷類A沒有等價類;
2) 若父類特征值不滿足Simsr>t, 則判斷類A沒有父類.
限制條件1)和2)判斷都滿足后, 首先檢查類B與類C是否為同一個類, 若僅有一個類滿足則只考慮滿足那一類的后續(xù)流程.
3) 若類B與類C不是同一個類, 則檢查類B的等價類特征值序列, 若類A位列第一, 則類A與類B互為等價類, 否則類A沒有等價類;
4) 若類B與類C是同一個類, 則檢查類B的兩個特征值排序, 若類A在任意一個特征值排序中位列第一, 則類A與類B互為等價類, 否則類A為類B的子類.
本文所定義的5個特征僅可幫助推斷相等關(guān)系和包含關(guān)系. 互斥的兩個類并不適合用相似度判斷, 因為互斥的類既可能高度相關(guān), 也可能關(guān)聯(lián)程度較低, 甚至可能無相似性. 通過一般的特征提取無法發(fā)現(xiàn)隱藏在維基百科文章和信息框中的互斥關(guān)系, 所以元素集合沒有共享元素個體的兩個兄弟類. 根據(jù)定義可能出現(xiàn)如下兩種情形:
1) 特殊屬性取值所構(gòu)成的類. 在該情形下, 將檢索對應(yīng)維基百科類別中的所有文章, 提取出每個取值類在所有文章中的實例分布, 不包含同一個實例文章頁面的兩個取值類可判定為互斥關(guān)系; 反之, 有任意一篇文章同時出現(xiàn)在多個取值類的實例分布中時, 這些取值類就不能成為互斥類.
2) 擁有相同父類的屬性類情形很難通過檢索實例分布確定互斥關(guān)系, 現(xiàn)階段無法從實驗數(shù)據(jù)中取得足夠的證據(jù)來證明類之間的互斥關(guān)系, 所以這些擁有相同父類屬性類之間的類層次結(jié)構(gòu)就只能暫時停留在兄弟關(guān)系[13].
實驗數(shù)據(jù)來源是維基百科(英文), 需要提取維基百科某類別下所有維基列表及其成員文章. 在本文實驗中, 提取了Category: Lists of universities and colleges by U.S.state這一類別下的所有列表和文章數(shù)據(jù), 共有39篇列表和2 274篇成員文章, 并從中抽取出了列表描述、 列表表格、 文章文本和文章信息框等模塊數(shù)據(jù). 研究采用人工標(biāo)注的方法確定黃金準(zhǔn)則, 為維基百科“美國大學(xué)”類別中提取出的854個信息框?qū)傩灾饤l標(biāo)記可能的相等關(guān)系、 包含關(guān)系和互斥關(guān)系.
5個特征分別用單特征值計算數(shù)據(jù)舉例描述其效果, 其中: (F)表示父類的正確答案; (E)表示等價類的正確答案. 結(jié)果分別列于表7~表9. 由表7~表9可見, 對5個特征的單項特征提取表現(xiàn)評估精度較高, 且各屬性關(guān)系較明確, 效果較好.
表7 取值集相似度單特征表現(xiàn)示例
表8 首段集相似度單特征表現(xiàn)示例
表9 模版相似度單特征表現(xiàn)示例
本文實驗完成對5個特征的單項特征提取表現(xiàn)評估后, 綜合5項特征, 對屬性間是否具有相等關(guān)系或者包含關(guān)系做出判定, 表10和表11分別列出了部分示例的特征值計算判定結(jié)果, 其中: (E)表示等價類的正確答案; (F)表示父類的正確答案; (W)表示判定錯的答案.
表10 相等關(guān)系的特征值計算結(jié)果示例排序
表11 包含關(guān)系的特征值計算結(jié)果示例排序
由表10和表11可見, 本文在判定兩種關(guān)系時可以發(fā)現(xiàn)正確答案, 但也在部分屬性上判斷不準(zhǔn)確, 所以需通過整體的準(zhǔn)確率檢驗方法的效果.
在列舉并分析部分樣本屬性案例的數(shù)據(jù)結(jié)果后, 下面對本文實驗的全局性能進(jìn)行統(tǒng)計學(xué)上的評估. 本文采用精確率(precision)、 召回率(recall)和F1值評估在尋找屬性類之間相等關(guān)系和包含關(guān)系的實驗效果. 在維基百科“美國大學(xué)”類別數(shù)據(jù)集中, 有信息框?qū)傩?54個, 擁有等價類屬性的56個, 擁有父類屬性的77個. 通過實驗的特征提取、 特征值排序和類關(guān)系判斷后, 總精確度數(shù)據(jù)信息列于表12. 由表12可見: 在尋找相等關(guān)系(即尋找等價類)的實驗中, 精確率為0.667, 召回率為0.607,F1=0.636; 在尋找包含關(guān)系(即尋找父類)的實驗中, 精確率為0.523, 召回率為0.584,F1=0.552.
表12 “美國大學(xué)”類別實驗總精確度評估
因此本文方法是可行的, 但不高效. 在尋找屬性之間的兩種關(guān)系時做出了正確的判斷, 但也因為算法的局限性而誤判、 漏判了一些屬性關(guān)系.
表13列出了學(xué)生這一組相關(guān)的屬性類, 在相應(yīng)的等價類特征值排序和父類特征值排序中位列第一的兩個屬性及其取值. 根據(jù)表13中的數(shù)據(jù)可按照算法規(guī)則逐條推斷各屬性間的類關(guān)系: 學(xué)生和注冊學(xué)生是互為等價類; 研究生和本科生互為等價類; 研究生、 本科生和其他學(xué)生為學(xué)生的子類; 博士生與其他屬性類之間無相應(yīng)的類關(guān)系. 通過推斷的結(jié)論, 可構(gòu)造出這一組屬性類的本體結(jié)構(gòu).
表13 學(xué)生組示例的特征值數(shù)據(jù)
根據(jù)人工標(biāo)注構(gòu)建的本體結(jié)構(gòu), 可清晰地提煉出包含的類關(guān)系僅有一對等價類(學(xué)生與注冊學(xué)生), 4個以學(xué)生為父類的屬性類(研究生、 本科生、 博士生與其他學(xué)生). 在實驗中對學(xué)生組屬性類關(guān)系作出錯誤判斷的關(guān)系有兩個: 1) 研究生與本科生并不是等價類的關(guān)系, 實際上是互斥類的關(guān)系; 2) 博士生應(yīng)為學(xué)生的子類. 分析原因可知: 屬性類研究生和本科生在各自的等價類排名上以0.582的等價類特征值排在第一位, 出現(xiàn)該現(xiàn)象的原因與首段集相似度和模板相似度這兩個特征有重要的關(guān)聯(lián). 在維基百科“美國大學(xué)”類別的文章中, 研究生與本科生出現(xiàn)在第一段落的情形并不常見, 但他們總是捆綁在一起同時出現(xiàn), 信息框模板中也如此. 盡管這兩個屬性類是互斥的, 但其緊密程度極高, 同時在文本數(shù)據(jù)中的相似度也很高, 超過了各自與學(xué)生的文本相似度, 做等價類特征值計算時排在前端, 所以在判斷等價類關(guān)系時, 本文方法錯誤地將這兩個屬性判定為等價類. 屬性博士生與學(xué)生在其他相似度特征上有較大差距, 所以在父類特征值的計算結(jié)果中, 博士生被誤判為沒有關(guān)系的屬性類.
互斥關(guān)系在本文的定義中有兩種表現(xiàn)形式: 1) 屬性類之間的互斥關(guān)系, 本文對這種互斥采取的方法是確定父子關(guān)系后, 共享父類的各子類維持在兄弟類這一關(guān)系層面上, 不再繼續(xù)深入推進(jìn); 2) 屬性的取值有自己的維基百科類別或列表, 這些取值有實際的含義, 在其類別或列表中有成員文章. 這種取值類包含了類之間的互斥關(guān)系.
實驗將type的所有取值單獨從數(shù)據(jù)集中抽取出來, 針對該組取值類, 檢索數(shù)據(jù)集中所有成員文章的信息框, 提取出所有取值類在數(shù)據(jù)集中的實例分布, 表14列出了其中一部分屬性及對應(yīng)的頁面數(shù)量. 在表14中, 數(shù)字表示兩個取值類在數(shù)據(jù)集中擁有相同成員文章頁面的數(shù)量. 由表14可見, 公眾與私有沒有共享的文章頁面, 盈利與非盈利沒有共享頁面, 商業(yè)、 法律和藝術(shù)互相沒有共享頁面. 因此, 公眾與私有互斥, 盈利與非盈利互斥, 商業(yè)、 法律和藝術(shù)兩兩互斥. 而其他至少擁有一篇成員文章是共有頁面的取值類, 將不能被判定為互斥關(guān)系, 如盈利與藝術(shù).
表14 屬性類型的取值實例分布
綜上所述, 為了解決傳統(tǒng)方法從維基百科信息框中提取本體信息精準(zhǔn)率較低的問題, 本文提出了一種從維基百科信息框中提取本體信息構(gòu)建結(jié)構(gòu)化類層次的方法. 首先, 將該問題轉(zhuǎn)化為尋找維基百科信息框?qū)傩院腿≈抵g可能的3種類關(guān)系, 提出一種可行且有效的方法; 其次, 以維基百科的類別數(shù)據(jù)集為基礎(chǔ)進(jìn)行實驗, 分析了該方法的優(yōu)缺點. 實驗結(jié)果表明, 該方法能有效解決傳統(tǒng)方法提取本體信息精準(zhǔn)率較低的問題.