高華玲
摘 ?要:隨著中文網(wǎng)站數(shù)量的日益龐大,中文的Deep Web信息集成已成為網(wǎng)絡(luò)信息領(lǐng)域的焦點(diǎn)。屬性相似度計(jì)算是Deep Web信息集成中模式匹配的關(guān)鍵一步。該文根據(jù)中文查詢接口中的屬性詞匯常常表現(xiàn)為1-3個詞語構(gòu)成的短語的特點(diǎn),提出一種更有效的基于《知網(wǎng)》的屬性相似度計(jì)算的方法,使屬性匹配的準(zhǔn)確率得到大幅度提高。
關(guān)鍵詞:深網(wǎng) ?模式匹配 ?相似度 ?屬性相似度
中圖分類號:TP301.6 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)11(b)-0058-02
A Calculation Method of Attribute Similarity based on Deep Web in Chinese
Gao Hualing
(Computer Public Education Department, SanYa University,SanYa,Hainan,572022,China)
Abstract:With the increasing amount of the Chinese website, Deep Web information integration in Chinese has become the focus of the net information field. The Attribute similarity computation is a key step of schema matching in Deep Web information integration. In this passage ,According to the characteristics of Chinese query interface attribute vocabulary which often shows of 1-3 words to form phrases, provides a more effective attribute similarity calculating method based on the “HowNet”, in this way, the attribute matching accuracy has been greatly improved.
Key Words:Deep Web; Schema matching; Similarity; Attribute similarity
1 問題的提出
隨著中文Deep Web信息數(shù)據(jù)量的急速增長,如何利用中文語言的特點(diǎn)做好Deep Web信息集成已成為這一領(lǐng)域的研究熱點(diǎn)。
Deep Web信息集成基本過程可分為三個模塊:第一,Deep web查詢接口的發(fā)現(xiàn)、分類和模式抽取等;第二,接口集成、查詢處理和數(shù)據(jù)庫選擇等;第三,查詢結(jié)果抽取和標(biāo)注、合并、去重等。中國人民大學(xué)信息學(xué)院孟小峰教授對不確定的查詢接口的模式匹配[1]做了深入研究,提出了中文屬性相似度的定義和計(jì)算方法。
在中文Deep Web查詢接口中,常常涉及的屬性匹配是1~3個詞匯構(gòu)成的中文短語之間的匹配,如果沿用英文接口的屬性匹配方法進(jìn)行計(jì)算將出現(xiàn)明顯的誤差。例如文獻(xiàn)[2][3]的屬性相似度計(jì)算方法:對于兩個屬性A1和A2,如果A1可劃分成n個詞語:A11,A12,…,A1n,A2可劃分成m個詞語: A21,A22,…,A2n,則A1和A2的相似度是各個詞語的相似度之最大值,即
當(dāng)兩個短語中都包含同一個詞語“城市”,屬性相似度為所有詞語相似度的最大值,得到“出發(fā)城市”和“到達(dá)城市”的相似度相等且等于1,即認(rèn)為“出發(fā)城市”和“到達(dá)城市”兩個屬性短語語義一致,這樣無法對此類屬性短語做出準(zhǔn)確的語義相似度計(jì)算結(jié)果。該文考慮到查詢接口屬性詞大多以1~3個詞語構(gòu)成的短語形式出現(xiàn),故提出了一種新的屬性語義相似度計(jì)算公式,大大提高了屬性相似度計(jì)算的準(zhǔn)確度。
2 中文Deep Web查詢接口屬性相似度
2.1 方法的提出
義原和義項(xiàng)是HowNet中兩個最主要的概念。義原是用來描述一個義項(xiàng)的最小意義單位,一個詞語可以表達(dá)為幾個義項(xiàng)。本文計(jì)算兩個詞語之間的語義相似度,采用基于《知網(wǎng)》的中文詞匯語義相似度計(jì)算方法[4],這與文獻(xiàn)[2][3]是相同的。
定義1:詞語相似度:對于兩個漢語詞語,其中有m個義項(xiàng):,有n個義項(xiàng):,規(guī)定的相似度為各個義項(xiàng)相似度的最大值,也就是說:
定義2義項(xiàng)相似度:兩個義項(xiàng)相似度記為:,其中是可調(diào)節(jié)的參數(shù),且有:。
定義3 義原相似度:兩個義原的相似度定義為兩個義原之間的語義距離:,其中表示兩個義原,d是在義原層次體系中的路徑長度,是一個正整數(shù)。是一個可調(diào)節(jié)的參數(shù)。
該文將屬性名的短語劃分成若干詞語,根據(jù)中文查詢接口中屬性的特征,提出這種屬性相似度計(jì)算方法,此方法源自于2005年的一種文本相似度算法[5],但略有不同。
定義4 屬性相似度:對于兩個屬性,可劃分為m個詞語:,可劃分為n個詞語:,令t=min(m,n),將各個詞語之間的相似度排列成矩陣,得到一個m×n階的矩陣:,記錄矩陣中相似度值最大的一個,同時刪除其值的所在行和列,然后再記錄剩余矩陣中的相似度最大值,刪除所在行和列,不斷重復(fù)上述操作,直到矩陣為空。按照這樣的方法取出的相似度的值為t個,規(guī)定的相似度為這t個詞語相似度的平均值,表示為:
2.2 實(shí)例驗(yàn)證過程
將上述定義中的參數(shù)設(shè)定為常用參數(shù),設(shè)定相似度閾值,其他參數(shù)取值為:,計(jì)算屬性值A(chǔ)(出發(fā)城市)與B(起飛地),以及A(出發(fā)城市)與C(目的地)的相似度。endprint
第一步,計(jì)算詞語相似度。
屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。
“出發(fā)”有一個義項(xiàng):V start|開始,content=leave|離開
“城市”有一個義項(xiàng):N place|地方,city|市
“起飛”有一個義項(xiàng):V start|開始,content=fly|飛
“地”有七個義項(xiàng):1)N attribute|屬性,circumstances|境況,&entity|實(shí)體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方
“目的”有一個義項(xiàng):1)N purpose|目的
對于文獻(xiàn)[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計(jì)算結(jié)果。如表1、表2:
第二步,計(jì)算屬性相似度。
即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。
在對本文開始提出的“出發(fā)城市”和“到達(dá)城市”進(jìn)行計(jì)算,結(jié)果如下:
,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實(shí)驗(yàn)總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達(dá)城市”,這樣可以得到更為合理準(zhǔn)確的計(jì)算結(jié)果。
3 結(jié)語
該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計(jì)算提出了一種更加有效的計(jì)算方法。該方法基于《知網(wǎng)》的詞語相似度計(jì)算,同時考慮到中文Deep Web查詢接口的屬性特征,實(shí)驗(yàn)證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。
該文提出的屬性相似度計(jì)算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運(yùn)用描述邏輯強(qiáng)大的知識表示能力進(jìn)行屬性匹配和實(shí)例匹配。
參考文獻(xiàn)
[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)
(姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計(jì)算機(jī)學(xué)報(bào),2008,31(8):1412-1421.)
[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)
(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計(jì)算機(jī)科學(xué),2008,35(3):61-64.
[3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)
(金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(10):3750-3753)
[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)
(劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/
[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)
(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005(2):291-297.endprint
第一步,計(jì)算詞語相似度。
屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。
“出發(fā)”有一個義項(xiàng):V start|開始,content=leave|離開
“城市”有一個義項(xiàng):N place|地方,city|市
“起飛”有一個義項(xiàng):V start|開始,content=fly|飛
“地”有七個義項(xiàng):1)N attribute|屬性,circumstances|境況,&entity|實(shí)體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方
“目的”有一個義項(xiàng):1)N purpose|目的
對于文獻(xiàn)[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計(jì)算結(jié)果。如表1、表2:
第二步,計(jì)算屬性相似度。
即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。
在對本文開始提出的“出發(fā)城市”和“到達(dá)城市”進(jìn)行計(jì)算,結(jié)果如下:
,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實(shí)驗(yàn)總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達(dá)城市”,這樣可以得到更為合理準(zhǔn)確的計(jì)算結(jié)果。
3 結(jié)語
該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計(jì)算提出了一種更加有效的計(jì)算方法。該方法基于《知網(wǎng)》的詞語相似度計(jì)算,同時考慮到中文Deep Web查詢接口的屬性特征,實(shí)驗(yàn)證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。
該文提出的屬性相似度計(jì)算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運(yùn)用描述邏輯強(qiáng)大的知識表示能力進(jìn)行屬性匹配和實(shí)例匹配。
參考文獻(xiàn)
[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)
(姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計(jì)算機(jī)學(xué)報(bào),2008,31(8):1412-1421.)
[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)
(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計(jì)算機(jī)科學(xué),2008,35(3):61-64.
[3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)
(金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(10):3750-3753)
[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)
(劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/
[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)
(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005(2):291-297.endprint
第一步,計(jì)算詞語相似度。
屬性A“出發(fā)城市”,含兩個詞語:出發(fā),城市;屬性B“起飛地”,含有兩個詞語:起飛,地;屬性C“目的地”,含有兩個詞語:目的,地。
“出發(fā)”有一個義項(xiàng):V start|開始,content=leave|離開
“城市”有一個義項(xiàng):N place|地方,city|市
“起飛”有一個義項(xiàng):V start|開始,content=fly|飛
“地”有七個義項(xiàng):1)N attribute|屬性,circumstances|境況,&entity|實(shí)體2)N attribute|屬性,scene|景象,&physical|物質(zhì)3)N earth|大地,#weather|天象4)N land|陸地5)N land|陸地,#crop|莊稼6)N location|位置7)N place|地方
“目的”有一個義項(xiàng):1)N purpose|目的
對于文獻(xiàn)[1]中的示例“出發(fā)城市”和“起飛地”以及“出發(fā)城市”和“目的地”的屬性匹配得到了較為合理的計(jì)算結(jié)果。如表1、表2:
第二步,計(jì)算屬性相似度。
即屬性A(出發(fā)城市)和屬性B(起飛地)相似。,即屬性A(出發(fā)城市)與屬性C(目的地)不相似。
在對本文開始提出的“出發(fā)城市”和“到達(dá)城市”進(jìn)行計(jì)算,結(jié)果如下:
,這里注意需要設(shè)定更為合理的閾值,一般要在0.5以上才能區(qū)分開具有相同詞語的短語,具體的閾值需要大量數(shù)據(jù)實(shí)驗(yàn)總結(jié)出更為合理的值,這里使用閾值0.6即可區(qū)分“出發(fā)城市”和“到達(dá)城市”,這樣可以得到更為合理準(zhǔn)確的計(jì)算結(jié)果。
3 結(jié)語
該文對中文Deep Web信息集成中模式匹配關(guān)鍵問題——屬性相似度的計(jì)算提出了一種更加有效的計(jì)算方法。該方法基于《知網(wǎng)》的詞語相似度計(jì)算,同時考慮到中文Deep Web查詢接口的屬性特征,實(shí)驗(yàn)證明該方法應(yīng)用在中文Deep Web查詢接口的屬性匹配中收到較好的效果,值得推廣。
該文提出的屬性相似度計(jì)算方法是模式匹配方法中的一種。中文Deep Web信息集成中模式匹配也可以考慮運(yùn)用描述邏輯強(qiáng)大的知識表示能力進(jìn)行屬性匹配和實(shí)例匹配。
參考文獻(xiàn)
[1] Jiang Fang,Meng Xiaofeng, Jia Linlin,Uncertain schema matching in Deep Web integration service[J].Chinese Journal of computers,2008,31 (8):1412-1421.(in Chinese)
(姜芳,孟小峰,賈琳琳,Deep Web集成服務(wù)的不確定模式匹配[J].計(jì)算機(jī)學(xué)報(bào),2008,31(8):1412-1421.)
[2] Hong Hui,Li Shijun,Yu Wei,Tian Jianwei,The Chinese Deep Web query interface integration based on semantics[J].Computer science, 2008,35(3):61-64.(in Chinese)
(洪輝,李石君,余偉,田建偉,基于語義的中文Deep Web查詢接口集成[J].計(jì)算機(jī)科學(xué),2008,35(3):61-64.
[3] Jin yu,F(xiàn)an Xuefeng,The Chinese Deep Web schema matching algorithm based on “HowNet”[J].The research and application of computer,2009,26 (10):3750-3753.(in Chinese)
(金玉,范學(xué)峰,基于《知網(wǎng)》的中文Deep Web模式匹配算法研究[J].計(jì)算機(jī)應(yīng)用研究,2009,26(10):3750-3753)
[4] Liu Qun,Li Sujian,The calculation based on the "HowNet" lexical semantic similarity[A].Third Chinese Lexical Semantics Workshop[C], Taipei 2002.(in Chinese)
(劉群,李素建,基于《知網(wǎng)》的詞匯語義相似度的計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會,臺北,2002/
[5] Jin Bo,Shi Yanjun,Teng Hongfei,Text similarity algorithm based on semantic understanding[J].Journal of Dalian University of Technology, 2005(3):291-297.(in Chinese)
(金博,史彥軍,滕弘飛.基于語義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005(2):291-297.endprint