• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于圖神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的CircRNA-疾病預(yù)測(cè)

      2024-02-28 08:28:58王波尹帥杜曉昕張劍飛周振宇
      高師理科學(xué)刊 2024年2期
      關(guān)鍵詞:網(wǎng)絡(luò)圖分類器關(guān)聯(lián)

      王波,尹帥,杜曉昕,張劍飛,周振宇

      基于圖神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的CircRNA-疾病預(yù)測(cè)

      王波,尹帥,杜曉昕,張劍飛,周振宇

      (齊齊哈爾大學(xué) 計(jì)算機(jī)與控制工程學(xué)院,黑龍江 齊齊哈爾 161006)

      環(huán)狀RNA(CircRNA)廣泛參與人類疾病的進(jìn)程,其突變和失調(diào)與許多人類疾病密切相關(guān).因此,建立一個(gè)高效準(zhǔn)確的CircRNA與疾病之間的預(yù)測(cè)算法對(duì)于提前對(duì)疾病的發(fā)生做出預(yù)防以及發(fā)病后的治療方案具有重要意義.提出了一種新的基于圖神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林的算法預(yù)測(cè)CircRNA-疾病關(guān)聯(lián)算法,在分層網(wǎng)絡(luò)表示嵌入部分通過構(gòu)建異構(gòu)網(wǎng)絡(luò),根據(jù)網(wǎng)絡(luò)圖的鄰近性,對(duì)網(wǎng)絡(luò)圖的節(jié)點(diǎn)和邊緣進(jìn)行分層,遞歸地合并原始圖中的節(jié)點(diǎn)和邊,得到若干具有相似特征的較小子網(wǎng)絡(luò).子網(wǎng)絡(luò)規(guī)模隨著分層的深入而遞減,直至得到最小子網(wǎng)絡(luò)后,使用node2vec網(wǎng)絡(luò)圖游走算法對(duì)其進(jìn)行預(yù)處理,然后將全部節(jié)點(diǎn)的特征向量輸入至隨機(jī)森林分類器來識(shí)別潛在的CircRNA-疾病關(guān)聯(lián),從而進(jìn)行預(yù)測(cè).

      CircRNA-疾病關(guān)聯(lián)預(yù)測(cè);圖神經(jīng)網(wǎng)絡(luò);node2vec;隨機(jī)森林

      環(huán)狀RNA(Circular RNA,CircRNA)是一類通過反向剪接產(chǎn)生,具有閉環(huán)結(jié)構(gòu)特殊的單鏈非編碼內(nèi)源性RNA分子[1].隨著高通量測(cè)序技術(shù)的發(fā)展,CircRNA已經(jīng)被證明在各種生物中廣泛存在,并受到廣泛關(guān)注[2-4].重要的是,CircRNA的表達(dá)水平通常為組織特異性和細(xì)胞型特異性[5].因此,CircRNA的錯(cuò)誤表達(dá)可以導(dǎo)致異常的生理過程,并導(dǎo)致大多數(shù)疾病的發(fā)生和發(fā)展[6].然而,目前對(duì)疾病與CircRNA關(guān)系的研究高度依賴生物實(shí)驗(yàn),耗時(shí)耗力且效果不一定好.在這種情況下,只能發(fā)現(xiàn)有限數(shù)量的關(guān)系.但慶幸的是,一些CircRNA-疾病相關(guān)聯(lián)的數(shù)據(jù)庫已經(jīng)可用,如CircRNA Disease[7]和CircR2 Disease[8],其數(shù)據(jù)庫的建立為后續(xù)科研工作者使用計(jì)算模型進(jìn)行潛在疾病的關(guān)聯(lián)預(yù)測(cè)提供了有力保障.

      目前,許多計(jì)算模型被用于挖掘潛在的CircRNA-疾病關(guān)聯(lián)對(duì).但由于當(dāng)前數(shù)據(jù)集的不完備和計(jì)算模型的缺陷,要獲得足夠準(zhǔn)確的預(yù)測(cè)結(jié)果仍然是一個(gè)挑戰(zhàn).本文使用圖神經(jīng)網(wǎng)絡(luò)中的分層網(wǎng)絡(luò)圖表示算法,對(duì)基因與疾病組成的異構(gòu)網(wǎng)絡(luò)中的邊緣和頂點(diǎn)進(jìn)行合并,從而提取出節(jié)點(diǎn)特征.然后用Node2Vec算法學(xué)習(xí)表示成嵌入向量,并通過該嵌入向量來反映整個(gè)網(wǎng)絡(luò)圖的結(jié)構(gòu),計(jì)算出頂點(diǎn)間存在邊緣的概率,對(duì)CircRNA-疾病網(wǎng)絡(luò)圖中的各節(jié)點(diǎn)的關(guān)系進(jìn)行預(yù)測(cè)分析,從而達(dá)到CircRNA-疾病關(guān)聯(lián)預(yù)測(cè)的目的.

      1 數(shù)據(jù)集和方法

      1.1 數(shù)據(jù)集

      1.1.1 CircRNA關(guān)聯(lián)數(shù)據(jù)集 研究中使用的CircRNA-疾病關(guān)聯(lián)來自于MNDR數(shù)據(jù)庫,本文從MNDR數(shù)據(jù)庫提取出文獻(xiàn)中已知的2 392個(gè)CircRNA與1 015個(gè)疾病之間的3 221個(gè)關(guān)聯(lián).MNDR V3.0是一個(gè)儲(chǔ)存疾病相關(guān)ncRNA的全面數(shù)據(jù)庫,通常被當(dāng)作CircRNA與疾病關(guān)聯(lián)預(yù)測(cè)的基礎(chǔ)數(shù)據(jù)庫.

      1.1.2 疾病關(guān)聯(lián)數(shù)據(jù)集 本文的miRNA-疾病關(guān)聯(lián)數(shù)據(jù)來自HMDD V3.2數(shù)據(jù)庫.HMDD是一個(gè)手工收集整理的miRNA與疾病相關(guān)聯(lián)的數(shù)據(jù)庫,最新版本為V3.2.在此數(shù)據(jù)庫中原始數(shù)據(jù)包括兩種類型,一種是在疾病過程中miRNA的主觀因果關(guān)系,另一種是疾病過程中miRNA的被動(dòng)變化.在實(shí)驗(yàn)中僅選取數(shù)據(jù)庫中與疾病具有因果關(guān)系的相關(guān)miRNA-疾病關(guān)聯(lián)記錄,提取出664個(gè)miRNA與895種疾病之間的35 547個(gè)關(guān)聯(lián).

      1.1.3 miRNA關(guān)聯(lián)數(shù)據(jù)集 已知的miRNA-CircRNA關(guān)聯(lián)數(shù)據(jù)集可以從starBase數(shù)據(jù)庫下載,starBase數(shù)據(jù)庫中記錄了miRNA與各種RNA之間的聯(lián)系信息,并在此基礎(chǔ)上構(gòu)建了ceRNA網(wǎng)絡(luò).在消除冗余后只選擇CircRNA-疾病數(shù)據(jù)中常見的CircRNA記錄和miRNA數(shù)據(jù)中常見的miRNA記錄,最終共獲得641個(gè)miRNA與865個(gè)CircRNA之間的18 317個(gè)關(guān)系.

      1.2 研究方法

      構(gòu)建CircRNA-疾病-miRNA之間相互關(guān)聯(lián)異構(gòu)網(wǎng)絡(luò),然后通過網(wǎng)絡(luò)圖的一階鄰近性和二階鄰近性,對(duì)網(wǎng)絡(luò)圖的節(jié)點(diǎn)和邊緣進(jìn)行分層,遞歸地合并原始圖中的節(jié)點(diǎn)和邊,得到一系列結(jié)構(gòu)相似的連續(xù)較小子網(wǎng)絡(luò)圖.使用Node2vec算法對(duì)最小子網(wǎng)絡(luò)圖進(jìn)行預(yù)處理,獲取頂點(diǎn)的低維特征向量表示,并將其輸入上一層更復(fù)雜網(wǎng)絡(luò)的特征表示中.重復(fù)這個(gè)過程直到得到原始圖中每個(gè)節(jié)點(diǎn)的低維特征向量表示,然后將全部節(jié)點(diǎn)的特征向量輸入至隨機(jī)森林分類器來識(shí)別潛在的CircRNA-疾病關(guān)聯(lián),最終得到相應(yīng)的預(yù)測(cè)結(jié)果(見圖1).

      圖1 算法主要流程

      1.3 構(gòu)建CircRNA-疾病-miRNA關(guān)聯(lián)異構(gòu)網(wǎng)絡(luò)CMDN

      1.4 算法定義描述

      1.5 分層網(wǎng)絡(luò)圖表示學(xué)習(xí)

      在網(wǎng)絡(luò)圖表示學(xué)習(xí)中普遍的任務(wù)是根據(jù)網(wǎng)絡(luò)中頂點(diǎn)的鄰近性,將網(wǎng)絡(luò)中的節(jié)點(diǎn)通過游走類算法(如DeepWalk,Node2Vec,LINE)學(xué)習(xí)表示成嵌入向量,并通過該嵌入向量來反映整個(gè)網(wǎng)絡(luò)圖的結(jié)構(gòu),計(jì)算出頂點(diǎn)間存在邊緣的概率,從而對(duì)網(wǎng)絡(luò)圖中的各節(jié)點(diǎn)的關(guān)系或鏈路進(jìn)行預(yù)測(cè)分析[10].

      但是這些網(wǎng)絡(luò)表示學(xué)習(xí)方法一般都存在共同的問題:

      (1)考慮的重點(diǎn)基本都聚焦在網(wǎng)絡(luò)的局部結(jié)構(gòu)關(guān)系,如節(jié)點(diǎn)的低階鄰近性,盡管使用了隨機(jī)游走,但是也局限在特殊點(diǎn)附近,忽略了網(wǎng)絡(luò)圖中高階結(jié)構(gòu)特性.

      (2)都是通過隨機(jī)梯度下降的方法對(duì)非凸的目標(biāo)函數(shù)進(jìn)行優(yōu)化,容易將焦點(diǎn)停留在局部最優(yōu)點(diǎn).

      所以在本文中使用分層網(wǎng)絡(luò)表示學(xué)習(xí)算法,通過遞歸將網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊進(jìn)行合并處理,將原始的CMDN網(wǎng)絡(luò)進(jìn)行分層處理,使其劃分生成一系列分層的結(jié)構(gòu)較小的網(wǎng)絡(luò)圖,然后通過現(xiàn)有的Node2vec算法進(jìn)行不斷的網(wǎng)絡(luò)嵌入來進(jìn)行特征提?。畬W(xué)習(xí)到最小網(wǎng)絡(luò)嵌入作為更大網(wǎng)絡(luò)的初始化向量,迭代求解上一層較大網(wǎng)絡(luò)的嵌入,不斷向上循環(huán)迭代直至求解到全部的CMDN網(wǎng)絡(luò)的嵌入,避免了隨機(jī)初始化導(dǎo)致的局部最小值的風(fēng)險(xiǎn).在分層的過程中主要利用網(wǎng)絡(luò)圖的圖粗粒度化,圖粗粒度化主要包括邊緣合并和頂點(diǎn)合并,其中邊緣合并可以保留網(wǎng)絡(luò)中的一階相似度,頂點(diǎn)合并可以保留網(wǎng)絡(luò)中的二階相似度.

      其中網(wǎng)絡(luò)圖分層算法流程為:

      1 Input:網(wǎng)絡(luò)圖CMDN=(V,E)

      2 n=0

      圖2 網(wǎng)絡(luò)圖分層頂點(diǎn)合并和邊緣合并算法實(shí)例

      1.6 基于Node2vec的特征提取

      Node2vec是一種半監(jiān)督的網(wǎng)絡(luò)特征學(xué)習(xí)方法,是在DeepWalk基礎(chǔ)上提出的一種結(jié)合了廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)的有偏隨機(jī)游走模型[11],兩種搜索模式見圖3.

      圖3 BFS和DFS之間區(qū)別說明

      與傳統(tǒng)的隨機(jī)游走模型不同的是,頂點(diǎn)序列的采樣策略不同,根據(jù)實(shí)際任務(wù)的不同,會(huì)采取有偏好的調(diào)整參數(shù)來調(diào)整.不同的游走策略程度,即控制BFS和DFS的程度[12](見圖4).給出Node2vec中有偏隨機(jī)游走算法實(shí)現(xiàn)的描述:

      圖4 有偏游走Node2vec

      2 結(jié)果和討論

      2.1 評(píng)估指標(biāo)

      2.2 分類器的選擇和參數(shù)調(diào)整

      在機(jī)器學(xué)習(xí)分類器的選擇過程中,分別基于不同的評(píng)估標(biāo)準(zhǔn)測(cè)試了隨機(jī)森林分類器(RF)、線性回歸分類器(LR)、XGBoost分類器、AdaBoost分類器(ADB)、樸素貝葉斯分類器(NB).所有分類器都是從Scikit-learn庫中導(dǎo)入到PyCharm中實(shí)現(xiàn),其內(nèi)部參數(shù)均為默認(rèn)值不做修改,所評(píng)估的指標(biāo)均為十折交叉驗(yàn)證下的平均值.所有分類器的不同評(píng)估指標(biāo)下的結(jié)果見表1.

      表1 分類器在不同評(píng)估指標(biāo)下的結(jié)果

      由表1可見,隨機(jī)森林分類器(RF)在大部分評(píng)估指標(biāo)下都取得了最佳的分類結(jié)果,所以在模型的機(jī)器學(xué)習(xí)分類器中采用隨機(jī)森林分類器來進(jìn)行分類.

      2.3 模型性能評(píng)估

      模型是在MNDR數(shù)據(jù)集中實(shí)現(xiàn)的,用于評(píng)估CircRNA-疾病潛在的關(guān)聯(lián),模型在十折交叉驗(yàn)證的結(jié)果見表2.

      從模型在評(píng)估指標(biāo)的表現(xiàn)來看,所有的標(biāo)準(zhǔn)差都小于2,表明模型具有良好的魯棒性,能夠很好地完成CircRNA-疾病關(guān)聯(lián)預(yù)測(cè)的任務(wù).

      此外,在PyCharm中繪制了模型生成的ROC曲線(見圖5),模型的ROC曲線具有很好的表現(xiàn),十折交叉驗(yàn)證的平均AUC值為0.983 2,可以很好地進(jìn)行CircRNA-疾病潛在的關(guān)聯(lián)預(yù)測(cè).

      表2 模型在十折交叉驗(yàn)證下的產(chǎn)生的結(jié)果(%)

      圖5 模型在十折交叉驗(yàn)證下的ROC 曲線

      對(duì)當(dāng)前比較先進(jìn)的幾種模型在同一數(shù)據(jù)集下進(jìn)行了對(duì)比,其中包括GCNCDA[13],DWNN-RLS[14],PWCDA[15],KATZHCDA[16],結(jié)果見表3.根據(jù)十折交叉驗(yàn)證的AUC分?jǐn)?shù)來看,本文模型取得了最高的AUC分?jǐn)?shù),比對(duì)照組中表現(xiàn)最好的模型AUC值約提高了6%.

      表3 不同模型在MNDR同一基準(zhǔn)數(shù)據(jù)集下十折交叉驗(yàn)證的平均AUC分?jǐn)?shù)

      3 結(jié)語

      [1] ZHANG Y,ZHANG X O,CHEN T,et al.Circular Intronic Long Noncoding RNAs[J].Molecular Cell,2013,51(6):134-137.

      [2] Danan M,Schwartz S,Edelheit S,et al.Transcriptome-wide discovery of circular RNAs in Archaea[J].Nucleic Acids Research,2011,40(7):3131-3142.

      [3] CHEN L,HUANG C,WANG X,et al.Circular RNAs in Eukaryotic Cells[J].Current Genomics,2015,16(5):1-2.

      [4] CHU Q,ZHANG X,ZHU X,et al.PlantcircBase:A Database for Plant Circular RNAs[J].Molecular Plant,2017,10 (8):1126-1128.

      [5] LIANG D,WILUSZ J E.Short intronic repeat sequences facilitate circular RNA production[J].Genes & Development, 2014,28(20):2233-2247.

      [6] ZHANG Z,YANG T,XIAO J.Circular RNAs:Promising Biomarkers for Human Diseases[J].EBioMedicine,2018,34: 267-274.

      [7] ZHAO Z,WANG K,WU F,et al.CircRNA disease:a manually curated database of experimentally supportedCircRNA-disease associations[J].Cell Death & Disease,2018,9(5):1-2.

      [8] FAN C,LEI X,F(xiàn)ANG Z,et al.CircR2Disease:a manually curated database for experimentally supported circular RNAs associated with various diseases[J].Database,2018: 8(4):1-6.

      [9] TANG J, QU M, WANG M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th international conference on world wide web.2015:1067-1077.

      [10] 高宏屹,張曦煌,王杰.生成對(duì)抗式分層網(wǎng)絡(luò)表示學(xué)習(xí)的鏈路預(yù)測(cè)算法[J].計(jì)算機(jī)工程,2021,47(2):60-68,76.

      [11] Grover A,Leskovec J.Node2vec:Scalable Feature Learning for Networks[J].ACM,2016.DOI:10.1145/2939672.2939754.

      [12] 姚銳.采用Node2vec模型對(duì)網(wǎng)絡(luò)特征表示方法研究[D].南京:南京大學(xué),2018.

      [13] WANG L,YOU Z H,LI Y M,et al.GCNCDA:A New Method for Predicting CircRNA-Disease Associations Based on Graph Convolutional Network Algorithm[J].Cold Spring Harbor Laboratory,2019(5):934-947.

      [14] YAN C,WANG J,WU F X.DWNN-RLS:Regularized least squares method for predicting CircRNA-disease associations[J].BMC Bioinformatics,2018.DOI:10.1186/s12859-018-2522-6

      [15] XIU JUAN,LEI,ZENGQIANG,et al.PWCDA:Path Weighted Method for Predicting CircRNA-Disease Associations[J]. International Journal of Molecular Sciences,2018,36:231-235.

      [16] FAN C,LEI X,WU F X.Prediction of CircRNA-Disease Associations Using KATZ Model Based on Heterogeneous Networks[J]. International Journal of Biological Sciences,2018,14(14):111-114.

      CircRNA-disease prediction based on graph neural networks and random forests

      WANG Bo,YIN Shuai,DU Xiaoxin,ZHANG Jianfei,ZHOU Zhenyu

      (School of Computer and Control Engineering,Qiqihar University,Qiqihar 161006,China)

      Circular RNA(CircRNA)are widely involved in human disease processes,and their mutations and dysregulation are closely associated with many human diseases.Therefore,establishing an efficient and accurate prediction algorithm between CircRNA and diseases is important for making prevention of disease occurrence in advance as well as treatment programs after the onset of diseases.A new algorithm based on graph neural network and random forest is proposed to predict CircRNA-disease association algorithm,in the hierarchical network representation embedding part by constructing a heterogeneous network,according to the proximity of the network graph,the nodes and edges of the network graph are layered,and the nodes and edges in the original graph are merged recursively to obtain a number of smaller sub-networks with similar characteristics,and the size of the sub-networks decreases with deeper layering until the smallest sub-network is obtained.The size of the sub-networks decreases with the depth of layering until the smallest sub-network is obtained, which is preprocessed using the node2vec network graph wandering algorithm,and then the feature vectors of all the nodes are inputted into the random forest classifier to identify potential CircRNA-disease associations and thus make predictions.

      CircRNA-disease association prediction;graph neural network;node2vec;random forest

      TP399

      A

      10.3969/j.issn.1007-9831.2024.02.007

      1007-9831(2024)02-0036-07

      2023-07-31

      2022年度黑龍江省省屬高等學(xué)校基本科研業(yè)務(wù)費(fèi)科研項(xiàng)目(145209125)

      王波(1980-),男,黑龍江齊齊哈爾人,教授,博士,從事大數(shù)據(jù)分析與挖掘研究.E-mail:bowangdr@qqhru.edu.cn

      猜你喜歡
      網(wǎng)絡(luò)圖分類器關(guān)聯(lián)
      網(wǎng)絡(luò)圖中的45°角
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      網(wǎng)絡(luò)圖在汽修業(yè)中應(yīng)用
      活力(2019年21期)2019-04-01 12:17:00
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      奇趣搭配
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      以知識(shí)網(wǎng)絡(luò)圖為主導(dǎo)的教學(xué)模式淺探
      汝南县| 儋州市| 嘉祥县| 郎溪县| 屯昌县| 旌德县| 格尔木市| 察隅县| 西峡县| 大邑县| 长兴县| 汉源县| 稷山县| 台北市| 陆良县| 延长县| 纳雍县| 武汉市| 塔城市| 长葛市| 兴业县| 化德县| 儋州市| 石景山区| 祁阳县| 东山县| 徐州市| 罗定市| 蒲江县| 靖边县| 永济市| 南靖县| 刚察县| 民和| 兰西县| 汉寿县| 手机| 洪洞县| 佳木斯市| 资兴市| 如皋市|