楊 杰,羅 洪
(西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)
大數(shù)據(jù)時(shí)代離不開(kāi)以推薦算法為基礎(chǔ)的推薦系統(tǒng),各類推薦系統(tǒng)對(duì)人們?nèi)粘I畹挠绊懥⒃絹?lái)越強(qiáng).文獻(xiàn)[1]于2007 年提出了基于二分網(wǎng)絡(luò)的推薦算法,該算法和傳統(tǒng)的協(xié)同過(guò)濾推薦算法相比具有精度高等特點(diǎn),以此為基礎(chǔ)后來(lái)研究者又提出了一系列的基于二分網(wǎng)絡(luò)的推薦算法和相應(yīng)的優(yōu)化算法,例如以物質(zhì)擴(kuò)散算法和熱傳導(dǎo)算法為基礎(chǔ)的優(yōu)化算法就取得了不錯(cuò)的效果[2-3].熱傳導(dǎo)算法的基本思想源自物理學(xué)中的熱平衡方程,根據(jù)物理學(xué)中的熱傳導(dǎo)思想經(jīng)過(guò)改進(jìn)后的熱傳導(dǎo)算法已經(jīng)成功應(yīng)用在鏈路預(yù)測(cè)領(lǐng)域和推薦系統(tǒng)領(lǐng)域[4-6].miRNA 是一類內(nèi)源性非編碼小分子RNA.近年來(lái),伴隨越來(lái)越多的miRNA 的發(fā)現(xiàn)和進(jìn)行的相關(guān)研究,研究結(jié)果表明miRNA 在基因表達(dá)、蛋白質(zhì)翻譯以及細(xì)胞分化、增殖與凋亡等生命過(guò)程中起重要的調(diào)控作用,它的異常表達(dá)能夠直接或間接的導(dǎo)致相關(guān)復(fù)雜疾病的產(chǎn)生,也就是說(shuō)作為一種重要調(diào)控因子miRNA 參與了多種重要的生物過(guò)程并且與多種復(fù)雜疾病的發(fā)生和發(fā)展相關(guān)[7-9].與傳統(tǒng)的生物實(shí)驗(yàn)發(fā)現(xiàn)疾病相關(guān)的miRNA 的方法不同,采用計(jì)算機(jī)為基礎(chǔ)的計(jì)算方法能夠在大規(guī)模生物數(shù)據(jù)中完成相關(guān)的計(jì)算預(yù)測(cè),通過(guò)計(jì)算預(yù)測(cè)不僅可以指導(dǎo)生物實(shí)驗(yàn)還可以提高實(shí)驗(yàn)效率和降低實(shí)驗(yàn)成本. 近年來(lái),很多計(jì)算模型和算法已經(jīng)被國(guó)內(nèi)外學(xué)者用于對(duì)疾病相關(guān)的miRN 的預(yù)測(cè)研究[10-12],然而熱傳導(dǎo)算法在預(yù)測(cè)miRNA-疾病的相關(guān)性方面應(yīng)用研究較少.文獻(xiàn)[13]融合二分網(wǎng)絡(luò)和物理學(xué)中的熱傳導(dǎo)原理提出了基于二分網(wǎng)絡(luò)的熱傳導(dǎo)算法(Heat Conduction Algorithm Based on the Bipartite Network)并應(yīng)用到推薦系統(tǒng)中, 該算法以下簡(jiǎn)稱HC 算法.文獻(xiàn)[14]在HC 算法的基礎(chǔ)上引入物品度的λ 次方提出了偏熱傳導(dǎo)算法(Biased Heat Conduction),該算法以下簡(jiǎn)稱BHC 算法.針對(duì)熱傳導(dǎo)算法在疾病相關(guān)的miRNAs 計(jì)算預(yù)測(cè)研究較少的情況,本文引入了BHC 熱傳導(dǎo)預(yù)測(cè)算法用于預(yù)測(cè)疾病相關(guān)的miRNAs,并把它與基本的熱傳導(dǎo)算法HC 進(jìn)行了比較. 經(jīng)過(guò)五折交叉驗(yàn)證得到的ROC 曲線下的面積等指標(biāo)驗(yàn)證了BHC 熱傳導(dǎo)算法在預(yù)測(cè)疾病相關(guān)miRNA 應(yīng)用方面的有效性.
HC 熱傳導(dǎo)算法的熱量傳遞在二分網(wǎng)絡(luò)中主要包括兩個(gè)過(guò)程:熱量由商品向用戶擴(kuò)散的過(guò)程和熱量由用戶向商品擴(kuò)散的過(guò)程.相關(guān)算法描述如下:
對(duì)于一個(gè)用戶和物品構(gòu)成的二分網(wǎng)絡(luò)G(U,O,E),其中U={u1, u2,,…. um}O={ o1, o2,,…. on}和E={e1, e2,,…. eq}分別代表m 個(gè)用戶節(jié)點(diǎn)、n 個(gè)物品節(jié)點(diǎn)和q 條連邊.該網(wǎng)絡(luò)可用一個(gè)鄰接矩陣A ={ali}表示,其中若用戶ul和物品oi存在連邊則ali=1, 反之a(chǎn)li=0.假定物品上的某種初始熱量表示為,每個(gè)物品將傳導(dǎo)熱量給所有和它鄰接的用戶,每個(gè)用戶又會(huì)從重新傳導(dǎo)它接收的熱量給相連的物品,經(jīng)過(guò)兩步熱量傳遞后物品上最后獲得的熱量可表示為:
給出了轉(zhuǎn)移矩陣的描述后,熱傳導(dǎo)算法中用戶ul對(duì)各個(gè)物品的最終熱量傳導(dǎo)可描述為:
基于HC 改進(jìn)的BHC 熱傳導(dǎo)算法,其基本思想和HC 相同,只不過(guò)轉(zhuǎn)移矩陣物品度參數(shù)上加入λ 次方作為調(diào)節(jié)因子,λ 取值范圍為0 到1,本文中λ 取值0.5.BHC 的轉(zhuǎn)移矩陣如下:
BHC 算法和HC 算法相比較,它們基本原理相似,只不過(guò)BHC 通過(guò)可調(diào)因子調(diào)節(jié)大度節(jié)點(diǎn)的影響力,從而改善算法對(duì)冷門物品的推薦能力.
采用文獻(xiàn)[15]中的數(shù)據(jù)集進(jìn)行熱傳導(dǎo)算法在致病miRNA 預(yù)測(cè)的應(yīng)用分析. 該數(shù)據(jù)集以MeSH 數(shù)據(jù)庫(kù)中獲得的標(biāo)準(zhǔn)疾病關(guān)系為基礎(chǔ),從HMDD v2.0 數(shù)據(jù)庫(kù)和相關(guān)文獻(xiàn)研究成果中整理獲得了495 個(gè)miRNA 和375 種疾病構(gòu)成的miRNA -disease 關(guān)系對(duì),再經(jīng)過(guò)整理去掉名稱不規(guī)范的疾病,最后獲得了495 個(gè)miRNA 和330 種疾病構(gòu)成的miRNA - disease 關(guān)系對(duì).本文就以此數(shù)據(jù)集為基礎(chǔ)構(gòu)建了miRNA 節(jié)點(diǎn)和disease 節(jié)點(diǎn)構(gòu)成的二分網(wǎng)絡(luò)對(duì)熱傳導(dǎo)算法進(jìn)行應(yīng)用分析.
本文采用五折交叉驗(yàn)證方法來(lái)評(píng)價(jià)預(yù)測(cè)模型的性能,并對(duì)基本的熱傳導(dǎo)算法HC 和改進(jìn)的熱傳導(dǎo)算法BHC 的精確率、正確率、F1 值和ROC(Receiver Operating Characteristic)曲線下面積AUC(Area Under Curve)做比較.
交叉驗(yàn)證是把數(shù)據(jù)集分割成包含訓(xùn)練集和測(cè)試集的較小較小子集的統(tǒng)計(jì)學(xué)方法.其基本思想是用訓(xùn)練集對(duì)相關(guān)模型進(jìn)行訓(xùn)練,用測(cè)試集驗(yàn)證模型的可靠性和穩(wěn)定性.常用的交叉驗(yàn)證方法有k -折交叉驗(yàn)證和留一驗(yàn)證交叉驗(yàn)證等方法. 若用FP(False Positive)表示預(yù)測(cè)為正例的負(fù)例,用FN((False Negative)表示預(yù)測(cè)為負(fù)的正例,用TN(True Negative)表示預(yù)測(cè)為負(fù)的負(fù)例,用TP(True Positive)表示預(yù)測(cè)為正的正例,則可獲得關(guān)于下面幾個(gè)指標(biāo)的計(jì)算公式.
精確率(Precision)是評(píng)價(jià)預(yù)測(cè)為正例的樣本中真正的正例的指標(biāo).
正確率(Accuracy)是評(píng)價(jià)正確預(yù)測(cè)的正負(fù)例數(shù)和樣本總數(shù)關(guān)系的指標(biāo).
召回率(Recall)是評(píng)價(jià)在實(shí)際正樣本中能預(yù)測(cè)出多少正例的指標(biāo).
F1值是表示精確率和召回率的一個(gè)調(diào)和均值指標(biāo).
經(jīng)過(guò)五折交叉驗(yàn)證試驗(yàn)比較得到的HC 算法和BHC 算法的具體指標(biāo)如表1 所示, 得到的ROC 曲線如圖1 所示.
圖1 ROC 曲線圖Fig. 1 Receiver operating characteristic curve
表1 HC 和BHC 算法指標(biāo)比較表Table 1 The comparison results between HC and BHC in the indicators
從表1 數(shù)據(jù)可以看出,BHC 算法獲得的曲線下面積AUC 值為0.8868,而HC 算法的AUC 值僅為0.8018.ROC 曲線具有在測(cè)試集中正負(fù)樣本分布變換時(shí)保持ROC 曲線不變的特性,從圖1 中可以看出BHC算法的ROC 曲線優(yōu)于HC 算法的ROC 曲線. 從表1中可以看出BHC 算法獲得的精確率、正確率和F1 值指標(biāo)也明顯優(yōu)于HC 算法.
雖然基于二分網(wǎng)絡(luò)的熱傳導(dǎo)算法HC 和偏熱傳導(dǎo)算法BHC 在推薦系統(tǒng)中已經(jīng)有應(yīng)用研究,但在預(yù)測(cè)疾病相關(guān)的miRNA 方面應(yīng)用研究較少,本文在預(yù)測(cè)疾病相關(guān)的miRNA 中引入了HC 和BHC 算法并進(jìn)行了比較分析,實(shí)驗(yàn)結(jié)果顯示,BHC 算法在本文數(shù)據(jù)集下取得的多項(xiàng)評(píng)價(jià)指標(biāo)的值高于HC 算法,即BHC算法性能優(yōu)于HC 算法.鑒于BHC 算法和HC 算法在本文中僅使用了miRNA 和疾病構(gòu)成的二分網(wǎng)絡(luò)下的關(guān)聯(lián)關(guān)系進(jìn)行研究,因此在二分網(wǎng)絡(luò)的基礎(chǔ)上增加融入二分網(wǎng)絡(luò)的生物學(xué)相關(guān)屬性數(shù)據(jù)來(lái)進(jìn)一步改進(jìn)熱傳導(dǎo)算法的性能是未來(lái)的研究方向.