梁楊,丁長松,蔡雄
多源環(huán)境下中藥實體統(tǒng)一視圖構(gòu)建策略
梁楊1,2,3,丁長松1,2,蔡雄4
1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410208;2.湖南省中醫(yī)藥大數(shù)據(jù)分析實驗室,湖南 長沙 410208;3.中南大學(xué)計算機學(xué)院,湖南 長沙 410000;4.湖南中醫(yī)藥大學(xué)科技創(chuàng)新中心,湖南 長沙 410208
針對大數(shù)據(jù)環(huán)境下跨數(shù)據(jù)源查詢面臨的中藥實體呈現(xiàn)多視圖,且中藥實體在各數(shù)據(jù)源中表現(xiàn)出屬性不完整、多模態(tài)、差異性等問題,提出面向多源數(shù)據(jù)的中藥實體統(tǒng)一視圖的構(gòu)建策略。基于實體屬性間的相互關(guān)系,構(gòu)建實體多視圖融合整體架構(gòu),并對實體和屬性等關(guān)鍵元素進行抽象化表示;以用戶需求為約束提出基于詞向量的相關(guān)度計算方法,采用Skip-gram模型訓(xùn)練出表征實體屬性的詞向量;提出基于歐氏距離和Jaccard系數(shù)的相關(guān)度算法,并以此為依據(jù)進行實體融合。共訓(xùn)練完成屬性詞向量6116個,其中有效詞向量230個,以400對不同源中藥實體作為測試集,分別采用AFCDS、FF和WVCC方法進行實體融合實驗,其融合準確率依次為92.20%、88.47%和94.24%?;谠~向量的實體融合策略有效可行,能充分利用屬性間的有效信息,自適應(yīng)性強,實體融合準確率較高,可為解決多源實體融合問題提供新的研究思路。
大數(shù)據(jù);多源數(shù)據(jù);實體融合;詞向量;相關(guān)度
大數(shù)據(jù)時代背景下,中藥實體往往分散存儲于多個數(shù)據(jù)源中,從海量而混雜的數(shù)據(jù)中精確地提取出高利用價值的中藥信息日趨迫切[1]。然而,數(shù)據(jù)結(jié)構(gòu)差異大、來源廣、價值密度低、更新實時等問題,給中藥實體的規(guī)范和查詢帶來巨大挑戰(zhàn),中藥實體統(tǒng)一視圖建立的價值就在于從眾多分散、異構(gòu)的數(shù)據(jù)源中挖掘出隱含的、有價值的信息。中藥實體統(tǒng)一視圖構(gòu)建的關(guān)鍵是識別相似實體,相似是指多個實體表象(命名不同的實體)指向現(xiàn)實世界中同一真實實體[2]。筆者基于實體間共有屬性的相似度,采用實體相關(guān)度來度量實體間的相似程度,識別和聚合屬于同一中藥實體的實體表象。針對此類問題,眾多國內(nèi)外學(xué)者采用多種語義技術(shù)進行了相關(guān)研究。基于對象屬性的分類算法把對象作為多維向量,其每個屬性作為向量維度,可以計算兩對象間的距離。而分數(shù)層融合方法可通過某種規(guī)則減少類內(nèi)距離,增大類間距離,從而實現(xiàn)分數(shù)層融合識別,是最常用的融合方式。但分數(shù)層融合沒有考慮對象之間的關(guān)聯(lián)性,也不能很好區(qū)分類內(nèi)和類間的數(shù)據(jù)[3]。針對很多分類模型沒有考慮問題所在領(lǐng)域知識而造成分類效果不理想的問題,彭京等[4]提出了一種基于概念相似度的數(shù)據(jù)分類方法,該方法將屬性矢量化,數(shù)據(jù)記錄作為屬性矢量的和,將數(shù)據(jù)間相關(guān)度計算轉(zhuǎn)換為屬性矢量及其相互投影的公式,從而得到任意兩條數(shù)據(jù)的相關(guān)度。本體匹配方法能夠發(fā)現(xiàn)本體語義相關(guān)實體之間的對應(yīng)關(guān)系,近年來基于該方法的語義相關(guān)度研究取得了顯著進展[5]。因此,本研究在多源異構(gòu)環(huán)境下,通過基于詞向量的相關(guān)度計算(word vector-based correlation calculation,WVCC)方法實現(xiàn)多源實體的有效融合,提出多源環(huán)境下實體統(tǒng)一視圖的構(gòu)建策略,為中藥實體規(guī)范化提供參考。
數(shù)據(jù)來自《中藥學(xué)》[6]、《中藥大辭典》[7]、《中華本草》[8]、《全國中草藥匯編》[9]、藥智數(shù)據(jù)(http://db. yaozh.com)、中藥查詢網(wǎng)(http://www.zhongyoo.com)。利用以上多源異構(gòu)數(shù)據(jù)作為訓(xùn)練和測試對象,在預(yù)處理過程中構(gòu)建常用中藥分類樣本數(shù)據(jù)集,見表1。
每種藥物作為一個實體,包含性、味、歸經(jīng)、功效、適應(yīng)癥、用量(最小用量和最大用量)、注意事項等屬性信息,且一種藥物可有多種功效。以三七為例,其實體屬性見表2。
表1 常用中藥分類樣本數(shù)據(jù)集
名稱別名類別 性 味歸經(jīng)功效 一枝黃花大葉七星劍,一枝香解表藥涼辛苦肝膽疏風(fēng)清熱,消腫解毒 生地干地黃,芐,生地,熟地,地髓,陽精,細生地,懷生地,鮮生地,原生地,懷慶地黃,還元大品清熱解毒藥涼甘苦心肝腎滋陰養(yǎng)血,溫中下氣 關(guān)木通馬木通,苦木,丁香,丁翁利水滲濕藥寒苦小腸,心,膀胱清熱利尿,通經(jīng)下乳 巴豆巴豆霜,七開,八百力攻下藥熱辛胃,大腸瀉寒積,通關(guān)竅,逐痰行水,殺蟲 白果銀杏仁,靈眼止咳化痰藥平甘苦澀肺腎斂肺氣,定喘咳,止瀉 木天蓼葛棗,馬棗子,天蓼祛風(fēng)濕藥溫辛肝腎心祛風(fēng)除濕,通經(jīng)益氣 川椒花椒,大椒溫里藥溫辛脾胃腎溫中散寒,除濕止痛,殺蟲,解魚腥毒 沉香沉水香理氣藥溫辛苦腎脾胃降氣溫中,暖腎納氣 谷芽稻芽消導(dǎo)藥微溫甘脾胃健脾開胃,消食和中 ………………… 名稱適應(yīng)癥最小用量/g最大用量/g注意事項 一枝黃花感冒頭痛,黃疸,小兒驚風(fēng) 915不宜久煎,不宜久服 生地胎動不安,月經(jīng)不調(diào),崩漏,吐血1018泄瀉者慎服 關(guān)木通口舌生瘡,小便赤痛,閉經(jīng),膀胱炎,肝硬化腹水,心力衰竭水腫 1.5 5服用過量會引起腎衰竭 巴豆胸腹脹滿,水腫,冷積凝滯,痰滿閉塞 0.15 0.3無寒實積滯、孕婦及體虛者忌服 白果哮喘,痰咳,遺精,帶下,支氣管炎,肺結(jié)核,梅尼埃病 510有實邪者忌服 木天蓼經(jīng)閉,風(fēng)濕病,久痢,白癜風(fēng),積聚1530 川椒嘔吐,腹痛泄瀉,蟲病,風(fēng)寒濕痹,腳氣病 3 8陰虛火旺者忌服,孕婦慎服 沉香嘔吐,脘腹脹滿,腰膝虛冷,男子精冷 1.5 3陰虛火旺,氣虛下陷者慎服 谷芽泄瀉,不思飲食,腹脹1018 ……………
表2 三七實體屬性示例
序號屬性屬性元素/取值 1名稱三七 2別名田七,金不換,山漆,田漆,血參,昭參,田三七,旱三七,猴三七,剪口七,人參三七,猴頭三七 3類別化瘀止血藥 4性溫 5味甘,微苦 6歸經(jīng)肝胃,大腸,心 7功效散瘀消腫,止痛通脈 8適應(yīng)癥吐血,跌仆瘀血,心絞痛 9最小用量/g4.5 10最大用量/g9 11注意事項孕婦忌服
為評估多源環(huán)境下中藥實體統(tǒng)一視圖構(gòu)建策略的性能表現(xiàn),實驗平臺采用真實的大數(shù)據(jù)集群環(huán)境,集群共6個節(jié)點,包含1個NameNode節(jié)點和5個DataNode節(jié)點,其軟硬件詳細配置信息見表3。
表3 實驗平臺詳細軟硬件配置信息
序號名稱詳細描述 1NamenodeDell OptiPlex 7040,4*CPU Intel Core i5-6500,Memory 8GB DDR4,Disk 1TB 7200rpm 2DatanodeDell Vostro 3470-R1328R,4*CPU Intel Core i3-7100,Memory 4GB DDR4,Disk 1TB 7200rpm 3SoftwareOS CentOS V6.4,Apache Hadoop V2.7.1 4IDEEclipse V4.5.2,PyCharm V2018.2.1
本研究主要針對多源異構(gòu)的中藥實體進行有條件融合,實體通常以多視圖存儲于多個數(shù)據(jù)源中,可有多個屬性用以描述實體的內(nèi)在特征。為統(tǒng)一表示多源異構(gòu)環(huán)境下數(shù)據(jù)源、實體及實體屬性,每個中藥實體主要信息包含名稱和屬性兩部分,則數(shù)據(jù)源可以表示為:
={,} (1)
式中,={1,2,…,n}表示某一數(shù)據(jù)源即多個實體的集合,={1,2,…,n}表示實體名稱的集合,={1,2,…,n}表示實體屬性的集合,表示該數(shù)據(jù)源中實體的個數(shù),第個實體i分別對應(yīng)實體名稱i和實體屬性i,特別地,中藥實體屬性i本質(zhì)上是一個多維的屬性向量,構(gòu)成i的所有屬性元素在數(shù)據(jù)預(yù)處理階段根據(jù)設(shè)定的格式順序進行初排序,實體屬性向量i為:
i={i1,i2,…,im} (2)
式中,ii表示第個實體的第個屬性元素(屬性值),為實體屬性向量i維數(shù),不同數(shù)據(jù)源中參與比較的實體其初始屬性向量的值可能不同。
由于中藥多源異構(gòu)的數(shù)據(jù)庫涉及深層次且不統(tǒng)一的語法和語義信息,要高效準確地篩選出表示真實世界同一對象的不同名實體并進行合并和歸類,處理難度大、復(fù)雜性高、結(jié)構(gòu)化程度低[10-11]。因此,本研究通過對多源環(huán)境下實體的各屬性進行相關(guān)度分析,最終實現(xiàn)實體多視圖融合。主要流程為:①爬取來自不同數(shù)據(jù)源的有效數(shù)據(jù),構(gòu)建原始數(shù)據(jù)集;②對原始數(shù)據(jù)集進行數(shù)據(jù)預(yù)處理,主要包括分詞、無效信息過濾、數(shù)據(jù)清洗、屬性詞排序、文件存儲等操作;③根據(jù)本文定義的數(shù)據(jù)詞典將屬性特征向量化并基于Skip-gram模型訓(xùn)練其特征詞向量;④根據(jù)本文提出的基于詞向量的相關(guān)度計算策略分別進行屬性相關(guān)度和實體相關(guān)度的計算,通過設(shè)定合適閾值,對相關(guān)度滿足條件的所有實體對進行實體信息的聚類融合;⑤建立統(tǒng)一視圖并輸出結(jié)果。見圖1。
圖1 多源環(huán)境下實體多視圖融合框架圖
在提取了實體并經(jīng)過數(shù)據(jù)預(yù)處理過程獲取到對應(yīng)的屬性向量后,需要通過計算屬性相關(guān)度的方法對實體進行融合[12]。為此,本研究提出基于詞向量的屬性相關(guān)度計算策略。由于初始屬性向量的屬性元素最初全部以文本形式表示,并且每個屬性向量維度可能各不相同,為有效度量文本間的相似性,需要根據(jù)向量空間模型(vector space model,VSM)的思想把文本屬性轉(zhuǎn)化成計算機可以處理的結(jié)構(gòu)化數(shù)據(jù),即中文文本轉(zhuǎn)化為數(shù)值特征,則兩個或多個實體文本屬性向量相關(guān)度的問題可以通過計算向量之間的相似性來解決。
詞向量是一種基于大量未標注的語料學(xué)習(xí)而來的低維分布式實數(shù)向量,充分挖掘了同義詞之間的共現(xiàn)關(guān)系[13]。通過對上下文分析挖掘,詞向量中每個值都具有一定代表性,都能表示一定的語義和語法特征?;诖?,結(jié)合中藥實體屬性的特點和詞向量的優(yōu)勢,提出一種基于詞向量的相關(guān)度計算方法,該方法首先訓(xùn)練把每個文本屬性映射為語義層面的特征詞向量,接著引入Jaccard系數(shù)計算各詞向量間的相似度,高于設(shè)定閾值者作為共現(xiàn)部分,最終計算整個屬性向量的相似度。
1.5.1 基于Skip-gram模型訓(xùn)練特征詞向量
針對傳統(tǒng)的詞向量表示方法中存在的諸如無法表達詞與詞之間的關(guān)系、特征離散稀疏性、維度災(zāi)難等問題,采用Mikolov等[14]提出的基于Hierarchical Softmax構(gòu)造的Skip-gram模型訓(xùn)練特征詞向量,該模型根據(jù)上下文關(guān)系定義了詞的向量,關(guān)聯(lián)度高的詞有更近的距離,能夠表現(xiàn)數(shù)據(jù)的內(nèi)在特征。Skip-gram模型本質(zhì)上是一個改進的三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、投影層和輸出層,見圖2。
圖2 Skip-gram模型
Skip-Gram模型比較適用于大規(guī)模數(shù)據(jù)集,模型輸入()是一個特定的詞向量,而輸出是對應(yīng)的上下文詞向量,輸出的詞向量個數(shù)由算法設(shè)定的窗口大?。╳indow size)決定。
在樣本訓(xùn)練過程中,設(shè)給定的詞序列為:1,2,…,n,需要被最大化的目標函數(shù)見公式(3)。
式中,數(shù)據(jù)詞典={|=i,∈[1,n]},()表示當前詞的上下文窗口,通常窗口大小為5~10,視具體情況設(shè)定,(|)是對應(yīng)詞向量u和w的層次Softmax回歸值。
基于以上研究,Skip-gram模型訓(xùn)練參數(shù)較少,簡單而高效,最終能夠通過詞向量之間的相似度表示屬性在語義層面的相似度。
1.5.2 基于歐氏距離和Jaccard系數(shù)的相關(guān)度計算
1.5.2.1 屬性之間的相關(guān)度
實體所包含的各屬性根據(jù)Skip-gram模型訓(xùn)練得到對應(yīng)的詞向量,本研究通過歐氏距離計算2個特征詞向量的相似度,衡量不同數(shù)據(jù)源實體屬性的相關(guān)度。
在多維數(shù)據(jù)空間結(jié)構(gòu)中,2個空間向量歐氏距離的大小可以反映其相似程度,其數(shù)值越小,表示2個向量越相近,亦說明2個屬性越相關(guān)[15-16]。歐氏距離的定義見公式(4)。
Dist(ii,jj)=‖ii-jj‖2(4)
式中,ii、jj分別是屬性ii、jj對應(yīng)的特征詞向量。由于訓(xùn)練后的詞向量考慮了豐富的屬性特征及向量中各元素之間的關(guān)聯(lián)性,因此采用歐氏距離能夠簡單高效地表征2個向量之間的累積差異,并準確反映出2個詞向量之間的相似性,亦即2個屬性的相關(guān)度。
為方便相似度的計算和表達,限定歐氏距離的取值范圍,對式(4)表示的歐氏距離進行歸一化處理,得到屬性相關(guān)度計算公式,見公式(5)。
式中,δ(ii,jj)表示屬性ii、jj的相關(guān)度,取值范圍為[0,1]。顯然,當δ(ii,jj)值越接近于1,屬性ii、jj之間相關(guān)度越大;δ(ii,jj)值越趨近于0,屬性ii、jj之間差別越大。
1.5.2.2 實體之間的相關(guān)度
由于實體屬性向量可以唯一表征一個特定的實體,因此實體之間的相關(guān)度等價于實體屬性向量之間的相關(guān)度。根據(jù)公式(2),實體屬性向量由多個屬性構(gòu)成,若2個實體屬性向量中相同或相近的部分越多,即共現(xiàn)屬性越多,那么其相關(guān)度就越大。基于此,本研究引入Jaccard系數(shù)衡量實體屬性向量間的相關(guān)度。從數(shù)學(xué)的角度,樣本交集個數(shù)和樣本并集個數(shù)的比值稱為Jaccard系數(shù)。類似地,在實體屬性向量的比較過程中,共現(xiàn)屬性相對于所有屬性所占的比例可以反映出2個屬性向量間的相關(guān)度。具體形式見公式(6)。
式中,i∩j表示屬性向量i和j的共現(xiàn)屬性,等同于交集部分,i∪j表示屬性向量i和j包含的所有不重復(fù)屬性,等同于并集部分,則(i,j)可以代表屬性向量i和j的相關(guān)度。
基于以上分析,設(shè)計基于歐氏距離和Jaccard系數(shù)的相關(guān)度算法1,其偽代碼如下。
輸入:任意2個實體屬性向量i={i1,i2,…,im},j={j1,j2,…,jn}
輸出:實體屬性向量i,j的相關(guān)度
Step 1:分別將實體屬性向量i={i1,i2,…,im},j={j1,j2,…,jn}對應(yīng)轉(zhuǎn)換成由特征詞向量構(gòu)成的屬性向量i={i1,i2,…,im},j={j1,j2,…,jn},初始化詞向量比較次數(shù)(i,j)=0;
Step 3:把由Step 2中每個詞向量ii得出的最大匹配度Rev(ii,j)與屬性相關(guān)度閾值作比較,≥則將ii歸為i和j的交集部分,否則將ii標記為獨立不相關(guān)屬性,并令Rev(ii,j)=0;每次比較后令(i,j)=(i,j)+1;
Step 4:同理,交換i和j,重復(fù)Step 2和Step 3的操作;
Step 5:綜上,根據(jù)公式(6)得出任意2個實體屬性向量i、j相關(guān)度計算公式:
該式的分子是任意2個實體屬性向量i、j的共現(xiàn)屬性即i、j的交集,分母是i、j的并集,代表所有不重復(fù)的共現(xiàn)屬性和非共現(xiàn)屬性,因此,Rev(i,j)取值范圍為[0,1];
Step 6:最后將實體屬性向量i,j的相關(guān)度Rev(i,j)與屬性向量相關(guān)度閾值λ進行比較,≥λ則表示兩者相關(guān),可以進行實體融合,否則表示不相關(guān),兩者指向不同的實體;
Step 7:返回i,j的相關(guān)度Rev(i,j)。
采用《中藥學(xué)》[6]電子版教材作為屬性詞向量的訓(xùn)練集(中文字符數(shù)約61萬),訓(xùn)練完成詞向量6116個,其中有效屬性詞向量230個,每個詞向量維度為200維。部分屬性元素對應(yīng)的詞向量訓(xùn)練結(jié)果見表4。
表4 部分屬性元素對應(yīng)詞向量
屬性元素對應(yīng)詞向量(200維) 苦(-0.330 246 0,0.023 602 5,-0.053 613 1,0.071 510 9,…,-0.357 792 0,-0.040 185 4,0.063 908 3) 寒(0.027 702 1,0.028 034 0,-0.285 268 0,-0.022 379 2,…,-0.308 720 0,-0.049 867 3,0.074 089 0) 熱(-0.054 055 9,0.107 347 0,-0.142 854 0,-0.024 864 0,…,-0.218 180 0,-0.073 299 0,-0.022 821 1) 胃(0.061 085 1,0.049 659 8,-0.303 895 0,-0.126 678 0,…,-0.227 320 0,0.043 255 8,0.024 517 9) 肺(0.106 635 0,0.031 042 5,-0.215 672 0,-0.098 925 0,…,-0.288 672 0,-0.057 018 8,0.022 042 8) 肝(0.175 962 0,-0.087 078 2,-0.214 995 0,-0.048 901 3,…,-0.181 404 0,0.058 498 8,0.043 795 4) 高血壓(0.035 183 0,0.023 626 3,0.016 806 3,0.133 913 0,…,0.119 485 0,-0.059 232 4,0.055 066 8) 牙痛(0.083 277 5,0.009 955 7,-0.061 582 4,0.034 277 6,…,-0.053 500 2,-0.037 828 7,0.008 046 1) 頭痛(0.129 037 0,0.005 470 4,-0.127 878 0,0.028 358 7,…,-0.103 271 0,-0.074 404 9,0.069 649 3) 中風(fēng)(0.069 706 1,0.009 521 96,-0.068 872 2,0.039 171 7,…,-0.021 983 4,-0.035 233 3,0.022 805 9) ……
基于公式(4)、(5)和計算出的屬性詞向量,首先選擇不同數(shù)據(jù)源中的實體進行屬性相關(guān)度計算,根據(jù)公式(2)所示實體表示方法,以羅布麻={甘,苦,心,肝,腎,清熱降火,強心利尿,心臟病,高血壓,神經(jīng)衰弱,腎炎水腫,感冒,高血脂,心悸失眠,浮腫尿少,6克,9克},茶葉花={苦,涼,肝,腎,降火利尿,降血壓,高血壓,肝炎,腎炎水腫,高血脂,失眠,6克,12克}為例,部分屬性相關(guān)度計算結(jié)果見表5。
根據(jù)以上對實體間屬性相關(guān)度的統(tǒng)計情況,令屬性相關(guān)度閾值為0.7,≥者認為是2個實體間的相關(guān)屬性,基于算法1進一步計算多源異構(gòu)實體間的相關(guān)度,用<數(shù)據(jù)源,實體>二元組形式表示某一數(shù)據(jù)源中的某一實體,部分實體相關(guān)度計算結(jié)果見表6。
基于實驗結(jié)果,選取400對不同源實體,分別采用3種不同的實體融合方法進行相關(guān)度計算。其中,基于分類距離分數(shù)的自適應(yīng)融合(adaptive fusion based classification distance score,AFCDS)算法將匹配分數(shù)與閾值之間的距離分數(shù)作為融合分數(shù)指標,不僅攜帶分類置信度的類別信息,也包含匹配分數(shù)與分類閾值之間的距離信息,并通過信息熵定義關(guān)聯(lián)系數(shù)和特征權(quán)重系數(shù)[17]。特征融合(feature fusion,F(xiàn)F)方法從目標實體中提取數(shù)據(jù)或特征進行融合,將2個源特征向量組合成1個更完整、更具識別度的統(tǒng)一向量,如果2個輸入向量的維度不同,則在低維向量的相應(yīng)位置用零填充[18]。本研究基于詞向量計算不同實體及實體屬性間的相關(guān)度,與以上2種方法進行實驗對比,結(jié)果見表7。
表5 不同實體間部分屬性的相關(guān)度
<實體1,屬性元素><實體2,屬性元素>相關(guān)度 <羅布麻,甘><茶葉花,苦>0.502 173 <羅布麻,甘><茶葉花,涼>0.491 540 <羅布麻,苦><茶葉花,苦>1 <羅布麻,苦><茶葉花,涼>0.426 137 <羅布麻,心><茶葉花,肝>0.531 024 <羅布麻,心><茶葉花,腎>0.395 120 <羅布麻,肝><茶葉花,肝>1 <羅布麻,腎><茶葉花,腎>1 <羅布麻,清熱降火><茶葉花,降火利尿>0.713 215 <羅布麻,清熱降火><茶葉花,降血壓>0.692 140 <羅布麻,強心利尿><茶葉花,降火利尿>0.835 214 <羅布麻,心臟病><茶葉花,高血壓>0.635 260 <羅布麻,心臟病><茶葉花,肝炎>0.573 010 <羅布麻,高血壓><茶葉花,高血壓>1 <羅布麻,高血壓><茶葉花,肝炎>0.599 269 <羅布麻,神經(jīng)衰弱><茶葉花,失眠>0.859 848 <羅布麻,浮腫尿少><茶葉花,腎炎水腫>0.812 143 ………
表6 不同數(shù)據(jù)源間部分實體的相關(guān)度
<數(shù)據(jù)源1,實體> <數(shù)據(jù)源2,實體>相關(guān)度 <中藥大辭典,羅布麻><中華本草,茶葉花>0.957 306 <全國中草藥匯編,藜蘆><中藥大辭典,山蔥>0.871 354 <中藥大辭典,天茄子>
表7 不同實體融合方法實驗結(jié)果比較
方法計算正確的強相 關(guān)實體/對中藥數(shù)據(jù)庫有記 載的實體/對實體融合準 確率/% AFCDS27229592.20 FF26129588.47 WVCC27829594.24
實體是指真實世界中客觀存在并可相互區(qū)分的對象或事物,是代表特定事實信息的重要語義單位。屬性則是實體具備的某一特性,一個實體由若干個屬性來描述。如“半夏”“青蒿”“三七”等屬于中藥類別的實體,其對應(yīng)的性味歸經(jīng)、功效作用、藥材性狀、藥理作用等是中藥實體的屬性。
然而,不同來源但含義相同的中藥實體往往具有多個名稱,以“半夏”為例,就有“三葉半夏”“三步跳”“麻芋子”“水芋”“地巴豆”“水玉”“地文”“老和尚頭”“泛石子”“地珠半夏”等近20種別名。為判斷多源環(huán)境下的實體是否指向同一個真實的對象,本研究提出構(gòu)建多源實體的統(tǒng)一視圖,通過將相關(guān)度高的實體進行屬性合并和名稱等價標記等處理,實現(xiàn)多源實體的信息融合和聚集,從而形成更準確、更完整的實體統(tǒng)一視圖。
為構(gòu)建多源環(huán)境下中藥實體統(tǒng)一視圖,本研究提出分別對實體屬性相關(guān)度和實體間相關(guān)度進行量化計算,并對常見的實體屬性進行統(tǒng)計和整理。由表1、表2可以看出,某一中藥實體由不同的屬性取值組合表示,同一中藥實體在不同數(shù)據(jù)源中可能存在不同名或?qū)傩圆灰恢碌葐栴}。為解決此類問題,本實驗中實體屬性向量不包含“名稱”和“別名”,某一數(shù)據(jù)源中任一中藥實體i可以表示為i={i1,i2,…,im},ii表示第個實體的第個屬性元素,每個屬性元素可用Skip-gram模型訓(xùn)練出的詞向量來等效表示。
對于存儲在多個數(shù)據(jù)源中的實體,通常存在屬性表述不同但本質(zhì)接近的情況,本研究稱這類實體為強相關(guān)實體,否則稱為不相關(guān)實體。根據(jù)多源實體相關(guān)度實驗數(shù)據(jù)的統(tǒng)計結(jié)果,令實體相關(guān)度閾值λ為0.85,則實體相關(guān)度≥λ的2個實體可以認定為強相關(guān)實體,能夠進行實體屬性融合,從而構(gòu)建該實體的統(tǒng)一視圖。
本研究結(jié)果顯示,WVCC方法實體融合準確率達到94.24%,與基于分類距離分數(shù)的自適應(yīng)融合識別方法、分數(shù)層融合方法等常見算法相比,其實體融合準確率較高,為多源環(huán)境下實體融合提供了一種可靠、新穎的解決策略。
綜上所述,為解決大數(shù)據(jù)環(huán)境中跨數(shù)據(jù)源查詢面臨的實體呈現(xiàn)多視圖而導(dǎo)致的數(shù)據(jù)不規(guī)范、查詢低效、信息缺失等一系列問題,本研究提出了多源環(huán)境下實體統(tǒng)一視圖的構(gòu)建策略,首先設(shè)計實體融合架構(gòu)圖,接著對實體和屬性進行數(shù)學(xué)抽象,然后提出基于詞向量的相關(guān)度計算方法,該方法主要分為基于Skip-gram模型特征詞向量的訓(xùn)練、基于歐氏距離和Jaccard系數(shù)的相關(guān)度計算等階段,最終實現(xiàn)不同源實體的準確融合。實驗結(jié)果表明,本研究提出的實體統(tǒng)一視圖構(gòu)建策略有效可行,實體融合準確率高,并在查詢對象完整性及查詢時間開銷方面都有較好表現(xiàn),進一步擴大標準訓(xùn)練集的規(guī)模、改進數(shù)據(jù)融合算法是下一步的研究方向。
[1] 于靜,劉燕兵,張宇,等.大規(guī)模圖數(shù)據(jù)匹配技術(shù)綜述[J].計算機研究與發(fā)展,2015,52(2):391-409.
[2] 孟小峰,杜治娟.大數(shù)據(jù)融合研究:問題與挑戰(zhàn)[J].計算機研究與發(fā)展,2016,53(2):231-246.
[3] 張瑤,李蜀瑜,湯玥.大數(shù)據(jù)下的多源異構(gòu)知識融合算法研究[J].計算機技術(shù)與發(fā)展,2017,27(9):12-16.
[4] 彭京,唐常杰,元昌安,等.一種基于概念相似度的數(shù)據(jù)分類方法[J].軟件學(xué)報,2007,18(2):311-322.
[5] SHVAIKO P, EUZENAT J. Ontology matching:state of the art and future challenges[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(1):158-176.
[6] 高學(xué)敏,鐘贛生.中藥學(xué)[M].2版.北京:人民衛(wèi)生出版社,2013.
[7] 南京中醫(yī)藥大學(xué).中藥大辭典[M].2版.上海:上??茖W(xué)技術(shù)出版社, 2006.
[8] 國家中醫(yī)藥管理局《中華本草》編委會.中華本草[M].上海:上??茖W(xué)技術(shù)出版社,1999.
[9] 王國強.全國中草藥匯編[M].3版.北京:人民衛(wèi)生出版社,2014.
[10] LI G L, HE J, DENG D, et al. Efficient similarity join and search on multi-attribute data[C]//ACM SIGMOD International Conference on Management of Data. ACM,2015:1137-1151.
[11] SELLAMI R, DEFUDE B. Complex queries optimization and evaluation over relational and NoSQL data stores in cloud environments[J]. IEEE Transactions on Big Data,2018,4(2):217-230.
[12] RONALD Y, FRED P, PAUL E. Multiple attribute similarity hypermatching[J]. Soft Computing,2018,22(8):2463-2469.
[13] 張群,王紅軍,王倫文.一種結(jié)合上下文語義的短文本聚類算法[J].計算機科學(xué),2016,43(S2):443-446,450.
[14] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[C]//1st International Conference on Learning Representations(ICLR 2013),2013:1-12.
[15] DRAISMA J, HOROBET E, OTTAVIANI G, et al. The Euclidean distance degree of an algebraic variety[J]. Foundations of Computational Mathematics,2016,16(1):99-149.
[16] PAPADAKIS G, KOUTRIKA G, PALPANAS T, et al. Meta-blocking:Taking entity resolution to the next level[J]. IEEE Transactions on Knowledge and Data Engineering,2014,26(8):1946-1960.
[17] 張露,王華彬,陶亮,等.基于分類距離分數(shù)的自適應(yīng)多模態(tài)生物特征融合[J].計算機研究與發(fā)展,2018,55(1):151-162.
[18] HAGHIGHAT M, ABDEL-MOTTALEB M, ALHALABI W. Discriminant correlation analysis:real-time feature level fusion for multimodal biometric recognition[J]. IEEE Transactions on Information Forensics and Security,2016,11(9):1984-1996.
Construction Strategy for Unified View of TCM Entities in Multi-source Environment
LIANG Yang1,2,3, DING Changsong1,2, CAI Xiong4
To propose a construction strategy of unified view of TCM entities for multi-source data targeting the fact that TCM entities are faced with multi-data query with multiple views in the big data environment, and that TCM entities exhibit incomplete attributes, multi-modality, and differences in each data source.Based on the interrelationship between entity attributes, an entity multi-view fusion overall architecture was constructed, and abstract representations of key elements such as entities and attributes were carried out. A word vector-based correlation calculation method was proposed based on user requirements. The Skip-gram model was used to train word vectors that characterize entity attributes. A correlation algorithm based on Euclidean distance and Jaccard coefficient was proposed, and the entity fusion was based on this.The experiment trained a total of 6116 attribute word vectors, including 230 effective word vectors. 400 pairs of heterologous TCM entities were used as test sets, and the entity fusion experiments were carried out by AFCDS, FF and WVCC respectively. The fusion accuracy was 92.20%, 88.47% and 94.24%.The entity fusion strategy based on word vector is effective and feasible, and can make full use of the effective information between attributes. It has strong adaptability and high accuracy of entity fusion, and can provide new ideas for solving the problem of multi-source entity fusion.
big data; multi-source data; entity fusion; word vector; correlation
R28;R2-05
A
1005-5304(2020)09-108-07
10.3969/j.issn.1005-5304.201906116
國家重點研發(fā)計劃(2017YFC1703306);湖南省教育廳科學(xué)研究項目(19C1391);湖南省重點研發(fā)計劃(2017SK2111);湖南省教育廳重點項目(18A227);湖南省自然科學(xué)基金(2018JJ2301);湖南省中醫(yī)藥科研計劃重點課題(2020002);湖南中醫(yī)藥大學(xué)電子科學(xué)與技術(shù)學(xué)科開放基金(2018DK04)
丁長松,E-mail:dinghongzhe@yeah.net
(2019-06-09)
(2019-07-05;編輯:陳靜)