,,
乳腺癌是女性最常見(jiàn)的惡性腫瘤之一,在歐美國(guó)家多發(fā),在我國(guó),尤其是經(jīng)濟(jì)發(fā)達(dá)地區(qū)的發(fā)病率也呈明顯上升趨勢(shì)。經(jīng)調(diào)研,發(fā)現(xiàn)大量研究表明乳腺癌的發(fā)生發(fā)展與各種蛋白酶密切相關(guān)。 Weqner MS等人證實(shí),雌激素上調(diào)乳腺癌細(xì)胞神經(jīng)酰胺合成酶的表達(dá)可能與乳腺癌細(xì)胞的增殖及腫瘤的發(fā)展有關(guān)[1];Laderoute KR等人證明,5'-AMP-activated蛋白酶通過(guò)調(diào)節(jié)乳腺癌腫瘤葡萄糖代謝的方式促進(jìn)乳腺癌細(xì)胞的增殖生長(zhǎng)[2]。本文的研究目的是為了幫助研究人員及時(shí)、準(zhǔn)確地發(fā)現(xiàn)該領(lǐng)域研究前沿,制定未來(lái)發(fā)展策略。
國(guó)內(nèi)外研究人員常使用共詞分析方法探測(cè)研究前沿,如Ryosuke L.Ohniwa等選取增長(zhǎng)率高的MESH術(shù)語(yǔ),用共詞的方法將它們分組,通過(guò)不同的時(shí)間窗比較探究生命科學(xué)領(lǐng)域的研究前沿[3];沈思等基于主題模型定義抽取表征主題不同發(fā)展階段的特征詞,利用特征詞概率變化分析主題的冷熱變化,證明該方法可提供較為準(zhǔn)確的熱點(diǎn)主題和發(fā)展趨勢(shì)[4];齊鳳青[5]等人利用WOS檢索的文獻(xiàn)進(jìn)行共詞分析,分析醫(yī)學(xué)信息學(xué)研究現(xiàn)狀。但以往的共詞分析方法得到的主題往往語(yǔ)義不明確,含義模糊不清?;陔p聚類的方法則可以實(shí)現(xiàn)對(duì)類團(tuán)含義的揭示,清晰展示研究前沿。本文借助于雙聚類算法對(duì)乳腺癌相關(guān)酶研究文獻(xiàn)進(jìn)行分析,實(shí)現(xiàn)行和列的同時(shí)聚類,從行和列兩個(gè)維度共同分析,比較不同時(shí)間窗內(nèi)聚類結(jié)果的變化,發(fā)現(xiàn)乳腺癌相關(guān)酶研究的前沿內(nèi)容。
在PubMed數(shù)據(jù)庫(kù)中檢索2009-2011年和2012-2014年乳腺癌相關(guān)酶研究的相關(guān)文獻(xiàn),構(gòu)建檢索表達(dá)式為“Breast Neoplasms/enzymology”[Mesh]AND (“2009/01/01”[PDAT]: “2011/12/31”[PDAT]) 及“Breast Neoplasms/enzymology”][Mesh]AND (“2012/01/01”[PDAT]: “2014/12/31”[PDAT]),檢索結(jié)果分別為1 147篇和906篇,結(jié)果用MEDLINE格式保存,檢索時(shí)間為2015年3月12日。
1.2.1 方法
雙聚類方法是Hartigan[6]首先提出的。該方法可對(duì)數(shù)據(jù)矩陣中的樣本和變量同時(shí)進(jìn)行聚類,實(shí)現(xiàn)了在對(duì)象及其屬性兩個(gè)方向上的同時(shí)聚類,同時(shí)使用對(duì)象及其屬性來(lái)提取它們的聯(lián)合信息,發(fā)現(xiàn)潛在的局部信息。雙聚類算法比其他單向傳統(tǒng)聚類方法在應(yīng)用上更具有優(yōu)勢(shì),它可以同時(shí)探測(cè)兩個(gè)維度的聚類成果,并在一定程度上實(shí)現(xiàn)了對(duì)聚類的自動(dòng)標(biāo)注。本文采用這種方法,“行”選取酶相關(guān)概念,“列”選取乳腺癌相關(guān)概念,兩兩統(tǒng)計(jì)概念的共現(xiàn)次數(shù),組成共現(xiàn)矩陣,然后在行和列兩個(gè)維度進(jìn)行聚類分析,識(shí)別相關(guān)酶類團(tuán)的同時(shí)得到與之對(duì)應(yīng)的乳腺癌相關(guān)概念。
目前有許多不同的指標(biāo)可用于識(shí)別和判別主題演化判斷,如1986年Callon等提出的包容指數(shù)和鄰近指數(shù),1997 年Coulter 等提出的相似指數(shù) (Similarity Index)。本文則采用冷伏海[7]等提出的指數(shù)P來(lái)判斷不同時(shí)間段聚類結(jié)果形成的類團(tuán)間的關(guān)聯(lián)強(qiáng)度。P 指數(shù)即概率指數(shù),主要反映兩個(gè)聚類中有多少主題詞以其對(duì)聚類的貢獻(xiàn)度將這兩個(gè)聚類相連接,同時(shí)有多少主題詞以其對(duì)聚類貢獻(xiàn)度將這兩個(gè)聚類分割開,進(jìn)而決定類團(tuán)間是否具有演化關(guān)系。P指數(shù)計(jì)算公式為:Pij=Iij/(Ii+Ij-Iij),其中,Iij是兩個(gè)主題聚類 Ci和 Cj中共有主題詞集的信息量總和,Ii是聚類 Ci的所有主題詞集信息量之和,Ij是聚類 Cj的所有主題詞集信息量之和。本文對(duì)不同時(shí)間段聚類結(jié)果形成的類團(tuán)進(jìn)行分析,可以看到一定時(shí)間內(nèi)類團(tuán)的新生、演化、增長(zhǎng)和消失,從而分析出科學(xué)研究興趣的動(dòng)態(tài)變化。
1.2.2 工具
利用Thomson Data Analyzer(TDA)[8]文本挖掘軟件進(jìn)行多角度的數(shù)據(jù)挖掘和可視化全景分析。
利用明尼蘇達(dá)大學(xué)Matt Rasmussen等開發(fā)的gCLUTO軟件形成共現(xiàn)矩陣或詞篇矩陣,實(shí)現(xiàn)對(duì)矩陣的行和列同時(shí)聚類[9]。gCLUTO的聚類方法有Repeated Bisection(重復(fù)二分法)、Direct(直接聚類)、Agglomerative(凝聚聚類)和 Graph(圖形聚類)4種,我們可以根據(jù)需要來(lái)選擇最佳的聚類方案,并通過(guò)可視化矩陣和可視化山丘功能展示聚類效果。
首先將下載的2009-2011年和2012-2014年文獻(xiàn)記錄分別導(dǎo)入到TDA中,選取MESH主題詞字段進(jìn)行分析,先對(duì)字段進(jìn)行數(shù)據(jù)清洗,合并同義詞處理,然后選擇分析頻次大于5的乳腺癌腫瘤相關(guān)概念和酶的相關(guān)概念,形成2009-2011年和2012-2014年以乳腺癌相關(guān)概念為列以酶相關(guān)概念為行的共現(xiàn)矩陣(見(jiàn)表1和表2)。
表1 2009-2011年乳腺癌相關(guān)概念為列和乳腺癌酶相關(guān)概念為行的共現(xiàn)矩陣
表2 2012-2014年乳腺癌相關(guān)概念為列和乳腺癌酶相關(guān)概念為行的共現(xiàn)矩陣
將兩個(gè)矩陣分別導(dǎo)入gCLUTO軟件進(jìn)行雙聚類分析,聚類方法選擇重復(fù)二分法,最優(yōu)化函數(shù)選擇I2,相似系數(shù)選擇余弦函數(shù),聚類數(shù)反復(fù)調(diào)整,最終分別聚為6類(圖1)和5類(圖2)。類內(nèi)相似度較大,類間相似度較小,聚類形成的可視化山丘顯示效果較好。
圖1 雙聚類可視化矩陣
圖1聚類圖形中,行聚類表示的是對(duì)乳腺癌相關(guān)酶研究的分類,并在圖右側(cè)對(duì)應(yīng)列出酶相關(guān)概念;列聚類表示的是對(duì)乳腺癌相關(guān)概念的聚類,并在圖下方對(duì)應(yīng)列出所代表的乳腺癌相關(guān)概念。根據(jù)行和列的聚類結(jié)果,相關(guān)酶的研究被分為6類,并由對(duì)應(yīng)的列得出研究前沿?zé)狳c(diǎn)。
第1類主要與腫瘤的遺傳學(xué)研究相關(guān),主要包含BRCA1 Protein,Protein-Serine-Threonine Kinases、Checkpoint kinase 2、Glutathione Transferase、Glutathione S-Transferase pi、Methylenetetrahydrofolate Reductase (NADPH2)、Aurora Kinases等概念。
第2類主要與腫瘤的分期、預(yù)后和擴(kuò)散的研究相關(guān),主要包含src-Family Kinases、Receptors、 Estrogen、Receptor、ErbB-2、Cyclooxygenase 2等概念。
第3類主要與腫瘤細(xì)胞運(yùn)動(dòng)、信號(hào)轉(zhuǎn)導(dǎo)、腫瘤侵襲性等腫瘤的病理過(guò)程相關(guān),主要包含Isoenzymes、Aromatase、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2等概念。
第4類主要與腫瘤相關(guān)的酶活性、細(xì)胞擴(kuò)散、信號(hào)轉(zhuǎn)導(dǎo)和細(xì)胞凋亡的研究相關(guān),主要包含Receptor、 Epidermal Growth Factor、Estrogen Receptor alpha、Phosphatidylinositol 3-Kinases、Proto-Oncogene Proteins c-akt、Extracellular Signal-Regulated MAP Kinases、Mitogen-Activated Protein Kinases等概念。
第5類主要與腫瘤的藥物抵抗、藥物作用下的酶活性及藥物作用下的細(xì)胞擴(kuò)散的研究相關(guān),主要包含TOR Serine-Threonine Kinases、Protein-Tyrosine Kinases、PTEN Phosphohydrolase、Oncogene Protein v-akt、Mitogen-Activated Protein Kinase 3、Mitogen-Activated Protein Kinase 1等概念。
第6類主要與腫瘤細(xì)胞藥物作用下的細(xì)胞凋亡及藥物作用下的細(xì)胞擴(kuò)散研究相關(guān),主要包含有Proto-Oncogene Proteins c-bcl-2、JNK Mitogen-Activated Protein Kinases、p38 Mitogen-Activated Protein Kinases、NF-kappa B、Caspases、Caspase 3、Caspase 8、Apoptosis Regulatory Proteins、Poly(ADP-ribose) Polymerases、Proteasome Endopeptidase Complex等概念。
根據(jù)橫和列的聚類結(jié)果,相關(guān)酶的研究被分為5類,如圖2所示,并由所對(duì)應(yīng)的列得出研究的前沿?zé)狳c(diǎn)。
圖2 雙聚類可視化矩陣
第1類主要與腫瘤的藥物療法、藥物作用下的細(xì)胞死亡、腫瘤細(xì)胞擴(kuò)散和基因表達(dá)調(diào)節(jié)相關(guān),主要包括Caspase 3、Caspase 7、Protein-Serine-Threonine Kinases、Aurora Kinases。
第2類主要與腫瘤的藥物療法、藥物抵抗及腫瘤的代謝、分期和預(yù)后相關(guān),主要包括Indoleamine-Pyrrole 2,3,-Dioxygenase、Receptor、ErbB-2、Phosphatidylinositol 3-Kinases、TOR Serine-Threonine Kinases、Caspases。
第3類主要與腫瘤的病理過(guò)程、腫瘤的侵襲性及腫瘤細(xì)胞死亡研究相關(guān),主要包括Protein Kinase C、Receptor、 Epidermal Growth Factor、Proteasome Endopeptidase Complex、p38 Mitogen-Activated Protein Kinases、Intracellular Signaling Peptides and Proteins。
第4類主要與腫瘤標(biāo)志物、腫瘤細(xì)胞擴(kuò)散、腫瘤侵襲和細(xì)胞運(yùn)動(dòng)的研究相關(guān),主要包括Mitogen-Activated Protein Kinases、Estrogen Receptor alpha、Proto-Oncogene Proteins c-akt、NF-kappa B、Matrix Metalloproteinase 9、Matrix Metalloproteinase 2、Cadherins、Extracellular Signal-Regulated MAP Kinases。
第5類主要與腫瘤標(biāo)志物、腫瘤分期和預(yù)后的研究相關(guān),主要包括Superoxide Dismutase、Cyclooxygenase 2、Receptors、Estrogen。
通過(guò)雙聚類算法對(duì)2009-2011年和2012-2014年乳腺癌相關(guān)酶研究相關(guān)文獻(xiàn)的探索分析,可以發(fā)現(xiàn)乳腺癌相關(guān)酶的研究在前后兩個(gè)時(shí)間段有細(xì)微的變化。計(jì)算不同時(shí)間段聚類結(jié)果形成的類團(tuán)間的關(guān)聯(lián)強(qiáng)度(P值)(表3)。將各類以類團(tuán)的形式展現(xiàn),按時(shí)間順序排列并將明顯相關(guān)的類團(tuán)以線連接,線的粗細(xì)代表關(guān)系緊密程度(圖3)。
表3 2009-2011年與2012-2014年各類團(tuán)間的關(guān)聯(lián)強(qiáng)度
圖3 類團(tuán)變遷
當(dāng)P在[0.3,0.5]時(shí)認(rèn)為兩個(gè)類團(tuán)有演變關(guān)系。如圖3中,第一階段的2號(hào)類團(tuán)與第二階段的5號(hào)類團(tuán),主要與腫瘤的標(biāo)志物和腫瘤的擴(kuò)散相關(guān),但是5號(hào)類團(tuán)關(guān)于src-Family Kinases的研究相對(duì)減少而Superoxide Dismutase的研究增多;第一階段的6號(hào)類團(tuán)與第二階段的3號(hào)類團(tuán),主要與腫瘤細(xì)胞的凋亡和細(xì)胞侵襲相關(guān),但是6號(hào)類團(tuán)更側(cè)重藥物作用下的相關(guān)研究,而3號(hào)類團(tuán)關(guān)于Proto-Oncogene Proteins c-bcl-2,Caspase 8及JNK Mitogen-Activated Protein Kinases的研究減少而Protein Kinase C的研究增多。 當(dāng)P在[0.5,1]時(shí)認(rèn)為兩個(gè)類團(tuán)有持續(xù)發(fā)展的關(guān)系。如圖3中第一階段4類和第二階段的第4類都與腫瘤細(xì)胞間的信號(hào)轉(zhuǎn)導(dǎo)和細(xì)胞運(yùn)動(dòng)相關(guān),表明相關(guān)研究一直是熱點(diǎn)。其中第一階段的3號(hào)和4號(hào)類團(tuán)融合成了第二階段的4號(hào)類團(tuán)后,說(shuō)明研究更側(cè)重腫瘤細(xì)胞的侵襲運(yùn)動(dòng);第一階段的1號(hào)類團(tuán)(腫瘤遺傳學(xué)相關(guān)研究)和5號(hào)類團(tuán)(藥物作用下的酶活性研究)在第二階段少有研究,第二階段的1號(hào)類團(tuán)和2號(hào)類團(tuán)較為新生,說(shuō)明腫瘤的藥物療法研究受到關(guān)注。
本文基于雙聚類方法,對(duì)PubMed數(shù)據(jù)庫(kù)中近期乳腺癌相關(guān)酶的研究分階段進(jìn)行共詞雙聚類分析,并進(jìn)行類團(tuán)演化分析,得出乳腺癌相關(guān)酶研究的前沿?zé)狳c(diǎn)。其中關(guān)于癌細(xì)胞間的信號(hào)轉(zhuǎn)導(dǎo)、細(xì)胞運(yùn)動(dòng)的研究一直處于熱點(diǎn)地位,腫瘤遺傳學(xué)方面的研究則相對(duì)減少,腫瘤藥物療法的研究相對(duì)增多。關(guān)于酶的研究有些一直處于熱點(diǎn),有些較為前沿。如Protein-Serine-Threonine Kinases(蛋白質(zhì)-絲氨酸-蘇氨酸激酶)、Aurora Kinases(極光激酶)、Cyclooxygenase 2(環(huán)氧酶2)、Matrix Metalloproteinase 9(基質(zhì)金屬蛋白酶9)、Matrix Metalloproteinase 2(基質(zhì)金屬蛋白酶2)、Phosphatidylinositol 3-Kinases(磷脂酰肌醇3激酶)、Extracellular Signal-Regulated MAP Kinases(細(xì)胞外信號(hào)調(diào)節(jié)MAP激酶類)、Mitogen-Activated Protein Kinases(促分裂素原活化蛋白激酶)、TOR Serine-Threonine Kinases(TOR 絲氨酸-蘇氨酸激酶)、Caspases(半胱天冬酶)等的研究一直較為熱點(diǎn),而且關(guān)于Superoxide Dismutase(超氧化物歧化酶)、Caspase 7(半胱天冬酶7)、Protein Kinase C(蛋白激酶C)的研究在第二階段較多,皆為有發(fā)展?jié)摿Φ那把亍?/p>
本文證實(shí)雙聚類的方法可以用于探測(cè)前沿?zé)狳c(diǎn)的研究,與傳統(tǒng)的共詞方法相比,能夠?qū)︻悎F(tuán)的語(yǔ)義內(nèi)容進(jìn)行一定程度的標(biāo)注,為科研工作者提供有益的指導(dǎo)。不過(guò)還發(fā)現(xiàn)一些問(wèn)題:一是高頻次閾值的確定對(duì)結(jié)果有一定影響。低閾值不利于聚類,但利于一些隱含主題的出現(xiàn);高閾值相反,聚類效果好,但會(huì)忽視隱含的知識(shí)。因此,閾值選擇還是一個(gè)有待深入研究的課題。二是共詞分析中使用的詞是人工閱讀后選取的主題詞,選取乳腺癌相關(guān)概念和乳腺癌相關(guān)酶時(shí),受人為因素的干擾,可能對(duì)結(jié)果有影響;共詞分析選取的是MESH字段,沒(méi)有利用現(xiàn)有的語(yǔ)義網(wǎng)絡(luò)工具,不能從更深的粒度對(duì)文獻(xiàn)進(jìn)行分析。今后應(yīng)該結(jié)合醫(yī)學(xué)領(lǐng)域的本體,實(shí)現(xiàn)更深層次的語(yǔ)義標(biāo)注。
中華醫(yī)學(xué)圖書情報(bào)雜志2016年2期