• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于疾病數(shù)據(jù)庫的文本挖掘工具對比研究

      2018-03-22 02:41:02,,,,
      中華醫(yī)學圖書情報雜志 2018年6期
      關鍵詞:表型工具綜合征

      , , , , ,

      醫(yī)學研究已進入分子階段,疾病表型及基因的相似性可能提示分子間的相互作用。由于大多數(shù)疾病均為多個基因共同作用的結果,基礎醫(yī)學研究人員通過分子實驗確定致病基因的方式費力而耗時,臨床研究人員想要針對疾病基因進行治療也非常困難。新興的生物信息挖掘技術可以幫助基礎醫(yī)學研究人員在實驗前篩選候選基因,也可幫助臨床研究人員針對具有相似表型或基因的疾病進行進一步準確診斷治療及老藥新用的嘗試[1]。疾病數(shù)據(jù)庫的挖掘對于發(fā)現(xiàn)致病基因、闡明分子通路具有重要的意義,這可以通過疾病表型及基因的相似性比較實現(xiàn)。10余年來,科研人員開發(fā)了多種疾病數(shù)據(jù)庫文本挖掘工具。本文選取eRAM、PhenUMA 、Gendoo 、G2D 4種性能良好且運行穩(wěn)定的免費工具進行對比分析,并利用這些工具進行疾病基因發(fā)現(xiàn)的實證研究,力求為疾病的遺傳學研究提供準確有效的依據(jù),為臨床及基礎醫(yī)學研究人員提供有效的參考信息,提高疾病遺傳研究的效率。

      1 四種文本挖掘工具

      精準醫(yī)學罕見疾病注釋百科全書eRAM[2](encyclopedia of Rare Disease Annotation for Precision Medicine)(http://www.unimd.org/eRAM/)是由華東師范大學陳庚等人研發(fā)的文本挖掘工具。它整合了10個知名數(shù)據(jù)庫的疾病數(shù)據(jù),主要包括罕見病及其用藥門戶網(wǎng)站(Orphanet)、人類疾病數(shù)據(jù)庫(MalaCards)、NIH-遺傳和罕見疾病(Genetic and Rare Diseases,NGRD)、國際罕見病組織數(shù)據(jù)庫(National Organization for Rare Disorders,NORD),為15 942種罕見疾病提供了豐富的臨床和分子注釋。在其知識庫構建過程中將大量的非結構化數(shù)據(jù)轉化為可操作利用的結構化數(shù)據(jù),支持基因、表型、疾病間關系的可視化網(wǎng)絡構建。分析結果有準確相關基因和全部相關基因兩種參考排序方式,兩種分析結果中疾病種類及排序不盡相同,為相關疾病預測提供了更多可能。該工具可用于疾病信息檢索、基因型檢索、表型網(wǎng)絡構建、基因網(wǎng)絡構建和疾病對網(wǎng)絡構建。eRAM提供豐富而準確的知識,不僅有助于研究人員探索罕見疾病的潛在機制,而且有助于臨床醫(yī)生做出準確的診斷和治療決策。

      PhenUMA[3](http://www.PhenUMA.uma.es/)是由西班牙馬拉加大學Rocío Rodríguez-López等人基于生物醫(yī)學和生物分子數(shù)據(jù)庫中的有效信息建成的獨立知識庫。它以基因功能和疾病表型關系為基礎,構建、分析和可視化生物網(wǎng)絡,且分析功能多樣化,構建網(wǎng)絡可視化效果好。該工具可用于研究功能相關基因之間的新的病理學關系,將疾病歸類到特定表型的簇中,發(fā)現(xiàn)與表型相關的疾病等。PhenUMA有助于臨床和基礎研究人員重新解釋其研究結果,并通過優(yōu)先考慮表面上非相關的隱含因素來重新設計實驗。

      Gendoo[4](Gene,Disease Features Ontology-based Overview System)(http://Gendoo.dbcls.jp/)由東京大學Takeru Nakazato 等人研發(fā),通過使用MeSH詞匯生成相關藥物的特征概況、生物現(xiàn)象和解剖結構描述疾病和基因。該工具可用于說明基因和疾病的特征,分別比較基因和疾病特征之間的差異和相似之處,將加速從生物學和臨床角度對組學數(shù)據(jù)的分析。

      G2D[5](Genes to Diseases)(http://g2d2.ogic.ca/)由加拿大渥太華健康研究所Carolina Perez-Iratxeta等人開發(fā)。它通過數(shù)據(jù)挖掘算法評估疾病映射的染色體區(qū)域中的基因優(yōu)先級。如果表型已經(jīng)與多個位點連鎖,則也可檢測來自兩個基因位點的蛋白質之間的相互作用。G2D指出了查詢蛋白質和基因組中序列相似性匹配的位置,并利用了現(xiàn)有的關于假基因預測的信息,對識別疾病相關基因具有極大的幫助。

      2 研究方法

      2.1 4種工具的對比項目

      對比分析eRAM、PhenUMA、Gendoo、G2D在運算原理、數(shù)據(jù)輸入、分析功能以及結果輸出4方面的不同。運算原理的對比項目包括知識庫來源、運算方法、創(chuàng)建時間、更新周期,數(shù)據(jù)輸入的對比項目包括可錄入數(shù)據(jù)種類、輸入格式,分析功能的對比項目包括功能塊、分析起始選項、分析項目,結果輸出的對比項目包括輸出選項、可視化項目、結果下載格式。

      2.2 實證研究

      以Rett綜合征為例,利用上述工具進行疾病基因發(fā)現(xiàn)的實證研究。Rett綜合征是一種伴X染色體的遺傳疾病,多發(fā)于女性患者,其發(fā)病率為1/10 000~1/15 000。患者常表現(xiàn)為腦部發(fā)育遲緩、刻板動作、呼吸障礙、運動障礙以及孤獨癥樣的社交障礙,后期可能伴有癲癇的發(fā)生[6]。

      當前國際權威的在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)中,查詢到Rett綜合征的相關基因僅有1個,為甲基化CpG結合蛋白-2(methyl-CpG binding protein 2,MECP2)。因此將MECP2作為與Rett綜合征相關的已知基因。

      利用上述4種工具對Rett 綜合征的相關基因進行挖掘,選取各工具挖掘結果中得分排位高的前3種基因,篩除已知相關基因MECP2,并去重,進一步驗證。

      驗證方法如下:通過在PubMed、CNKI、萬方等數(shù)據(jù)庫中檢索相關文獻,驗證各工具分析結果中所得基因是否與Rett綜合征相關;通過在蛋白質數(shù)據(jù)庫UniProt中查詢某基因的蛋白參與的生物過程和分子功能;通過查閱該生物過程和分子功能是否與Rett 綜合征的病因或癥狀相關,推斷該基因是否可能與Rett 綜合征相關。

      3 結果與分析

      3.1 運算原理的比較

      4種工具運算原理比較的結果見表1。

      表1 4種文本挖掘工具運算原理比較

      如表1所示,eRAM整合了來自13個數(shù)據(jù)庫的知識,相對完整;Gendoo 和G2D知識庫來源相對較少。eRAM是最新創(chuàng)建的,G2D創(chuàng)建較早,Gendoo 和G2D更新次數(shù)較多,但在近幾年內沒有更新。

      4種工具的運算方法總結如下。

      eRAM采用夾角余弦法,通過特征向量對之間的夾角余弦值度量。

      PhenUMA采用Resnik法,使用基于Resnik方法的兩種不同的語義相似性度量計算基因之間的功能相似性和表型譜之間的表型相似性[7]。這兩種測量都基于“信息內容”(Information Concept,IC)的概念,它使用每個術語概率(一個術語的注釋數(shù)與總注釋數(shù)的比例)的對數(shù)進行計算。如果術語的概率降低,則信息內容增加,因此該術語的特異性和信息含量也增加。Resnik提出,一個給定本體的兩個術語之間的語義相似性由最具信息含量的共同祖先(Most Informative Common Ancestor,MICA)的IC決定。通過從術語組中所有可能的術語對中選擇出最大MICA來獲取術語組之間的相似性分數(shù)。

      Gendoo采用通過比較OMIM條目的概況和基因表達數(shù)據(jù)的聚類結果發(fā)現(xiàn)基因組之間的相似性,將所開發(fā)的特征概況應用于疾病相關基因的分析,但其具體運算方法不詳。

      G2D的運算方法同PhenUMA。

      3.2 數(shù)據(jù)輸入的比較

      4種工具數(shù)據(jù)輸入的比較結果見表2。

      表2 4種文本挖掘工具數(shù)據(jù)輸入的比較

      表2顯示,4種工具均允許輸入基因ID號,只有eRAM、Gendoo允許輸入疾病名稱。

      eRAM可錄入數(shù)據(jù)種類最多, G2D 相對可錄入數(shù)據(jù)種類較少。

      PhenUMA和Gendoo支持錄入多個檢索詞,eRAM和G2D僅可輸入單個檢索詞。

      3.3 分析功能的比較

      4種工具分析功能的比較結果見表3。

      表3 4種文本挖掘工具分析功能的比較

      4種工具均支持疾病/表型相關基因檢索。eRAM和PhenUMA功能塊較多,可分析項目也較多。

      eRAM特色功能塊為基因/表型/疾病對的網(wǎng)絡構建;PhenUMA特色功能塊為基因/表型/疾病的網(wǎng)絡構建和基因/疾病富集分析,且只有PhenUMA具有富集分析功能;G2D功能塊較少,但篩選項較完善。

      3.4 結果輸出的比較

      4種工具結果輸出的比較見表4。

      表4 4種文本挖掘工具結果輸出的比較

      4種文本挖掘工具中,eRAM和PhenUMA的分析結果較完全(表4),可視化效果較好,結果中鏈接穩(wěn)定(圖1、圖2)。尤其PhenUMA中可給出4種表現(xiàn)形式的結果圖,且具有篩選功能。 G2D、Gendoo可視化效果相對較差,而且結果中的鏈接有時失效。

      Gendoo在結果列表中給出與疾病相似度分數(shù),并把分數(shù)劃分層級,按顏色區(qū)分。

      G2D在結果中給出疾病相關的Mesh詞、Mesh詞出現(xiàn)頻率及所在文章和相關基因的本體注釋,其結果以列表形式給出。

      圖1 eRAM中Rett綜合征與schizophrenia間共享基因網(wǎng)絡

      圖2 PhenUMA中Rett 綜合征的相關基因網(wǎng)絡

      圖2的左側為網(wǎng)絡示意圖中不同顏色線段的意義說明,可通過調節(jié)滑鈕篩選結果。

      3.5 實證研究結果與分析

      OMIM數(shù)據(jù)庫顯示僅有1種基因與Rett綜合征相關。由于Rett綜合征尚未被認定為單基因疾病,故推測仍有已被認證但未被OMIM收錄的相關基因,以及未被認證的相關基因。本文利用上述文本挖掘工具可快速發(fā)現(xiàn)Rett綜合征的潛在相關基因。

      4種文本挖掘工具對Rett綜合征的分析結果如下:eRAM預測出6種相關基因,PhenUMA在中度置信水平下預測出21種相關基因,Gendoo預測出56種相關基因,G2D預測出100種相關基因。選取每種工具分析結果中的前3位相關基因(除MECP2,因MECP2是OMIM數(shù)據(jù)庫收錄的已知Rett 綜合征相關基因):它們分別是eRAM中的EGR2(early growth response 2)、CDKL5(cyclin-dependent kinase-like 5),PhenUMA中的BCHE(butyrylcholin esterase)、CDKL5;Gendoo中的CDKL5、DLX5(distal-less homeobox 5;D2D中的TAZ(tafazzin)、IKBKG(Inhibitor Of Nuclear Factor Kappa B Kinase Subunit Gamma)。

      經(jīng)過去重,得出6種相關基因:EGR2、CDKL5、BCHE、DLX5、TAZ、IKBKG。通過查詢PubMed、UniProt中關于這些基因的先驗知識,進一步分析它們與Rett綜合征相關的可能性。

      EGR2為序列特異性DNA結合轉錄因子,其參與的腦發(fā)育、外周神經(jīng)系統(tǒng)發(fā)育、學習與記憶等生物過程與Rett綜合征的智力嚴重低下等癥狀相關。Swanberg S E等人研究表明,EGR2在出生后的人類皮層中發(fā)育增加,并在RTT和自閉癥患者皮質中下調[8],故推測EGR2與Rett 綜合征相關。

      CDKL5介導MECP2的磷酸化,可能調控纖毛生成。Vitorino M等人研究表明CDKL5基因突變導致非典型Rett綜合征[9]。

      BCHE具有廣泛底物特異性的酯酶,有助于神經(jīng)遞質乙酰膽堿的失活,可以降解神經(jīng)毒性有機磷酸酯,其參與的學習、成神經(jīng)細胞分化、對糖皮質激素的反應等生物過程與Rett 綜合征的智力嚴重低下、舞蹈樣動作、肌張力低等癥狀相關。

      DLX5涉及骨發(fā)育的轉錄因子,其參與的骨形態(tài)發(fā)生、口腔發(fā)育、頭部發(fā)育等生物過程與生長遲緩、獲得性小頭、永久性手的失用、進行性行走困難,步態(tài)不穩(wěn)、軀體的失用和共濟失調等癥狀相關。Proudfoot A等人研究表明,DLX5是轉錄因子,與乳腺癌、肺癌、淋巴瘤、Rett綜合征和人類骨質疏松癥有關[10]。

      TAZ的基因編碼是在心臟和骨骼肌中高水平表達的蛋白質。經(jīng)查閱先驗知識,推測TAZ與Rett綜合征相關可能性較小。

      IKBKG的基因編碼kappaB激酶(IKK)是復合物抑制劑的調節(jié)亞基,可以激活NF-κB,導致參與炎癥、免疫、細胞存活和其它途徑的基因的活化。經(jīng)查閱先驗知識,推測IKBKG與Rett綜合征相關可能性較小。

      OMIM庫中僅列1種Rett綜合征相關基因MECP2。本文利用上述疾病庫文本挖掘工具并結合先驗知識推測,除OMIM數(shù)據(jù)庫所列以外的4種相關基因,這是對OMIM的有益補充。

      4 結論

      eRAM、PhenUMA、Gendoo、G2D 4種工具均可用于快速獲取疾病/基因相關信息,并預測疾病與基因的潛在相關關系。eRAM和PhenUMA知識庫功能全面,可視化效果好,推薦優(yōu)先使用。Gendoo和G2D在功能項目上也提供有益的補充,將各工具結合使用可得出更加可信的分析結果。

      經(jīng)實證研究推測基因EGR2、CDKL5、BCHE、DLX與Rett綜合征相關,這可作為OMIM數(shù)據(jù)庫對Rett 綜合征相關基因闡述的補充。

      基于疾病數(shù)據(jù)庫的文本挖掘工具可以有效預測疾病的相關基因,預測疾病、表型、基因間相似和相關關系,有助于疾病病因及治療等研究。

      猜你喜歡
      表型工具綜合征
      SAPHO綜合征99mTc-MDP及18F-FDG代謝不匹配1例
      Chandler綜合征1例
      波比的工具
      波比的工具
      考前綜合征
      豬繁殖與呼吸綜合征的預防和控制
      建蘭、寒蘭花表型分析
      “巧用”工具
      讀者(2017年18期)2017-08-29 21:22:03
      GABABR2基因遺傳變異與肥胖及代謝相關表型的關系
      慢性乙型肝炎患者HBV基因表型與血清學測定的臨床意義
      夏津县| 北碚区| 凌云县| 泰来县| 个旧市| 阿尔山市| 南汇区| 定结县| 哈尔滨市| 武鸣县| 中宁县| 洪江市| 古蔺县| 宁蒗| 东乡族自治县| 乌兰浩特市| 玉环县| 邵阳市| 喜德县| 普定县| 弥勒县| 吉首市| 县级市| 波密县| 赤峰市| 庄河市| 佛教| 盐山县| 长丰县| 商都县| 民和| 鄄城县| 宁阳县| 屯留县| 青铜峡市| 罗定市| 改则县| 垦利县| 安阳市| 乌拉特前旗| 西乡县|