柯朝甫張 濤武曉巖李 康Δ
代謝組學(xué)數(shù)據(jù)分析的統(tǒng)計學(xué)方法*
柯朝甫1張 濤2武曉巖1李 康1Δ
代謝組學(xué)是近年發(fā)展快速的一門學(xué)科,目前在醫(yī)學(xué)、植物學(xué)、微生物學(xué)、毒理學(xué)、藥物研發(fā)等諸多領(lǐng)域中得到了廣泛的應(yīng)用[1-5]。代謝組學(xué)研究產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)具有高維、小樣本、高噪聲等復(fù)雜特征。如何從復(fù)雜的代謝組學(xué)數(shù)據(jù)中提取出有價值的信息,篩選出潛在的生物標(biāo)志物成為近年來代謝組學(xué)研究的熱點和難點。據(jù)此,本文針對目前代謝組學(xué)數(shù)據(jù)分析中的常用統(tǒng)計學(xué)方法及其研究進展進行介紹。
代謝組學(xué)是系統(tǒng)生物學(xué)領(lǐng)域中繼基因組學(xué)和蛋白質(zhì)組學(xué)之后新近發(fā)展起來的一門學(xué)科,它通過檢測生物體在受到外源刺激或基因修飾后其體內(nèi)代謝物質(zhì)的變化來探索整個生物體的代謝機制[6]。其研究對象為生物體內(nèi)所有內(nèi)源性小分子代謝物(分子量 <1000Da),研究手段為高通量檢測技術(shù)和數(shù)據(jù)處理方法,最終目標(biāo)是數(shù)據(jù)建模和生物標(biāo)志物的篩選。生物樣品如血漿、尿液、組織等,經(jīng)過GC/MS、NMR、LC/MS等高通量儀器檢測后,得到大量的圖譜數(shù)據(jù),使用XCMS[7]等軟件對這些圖譜數(shù)據(jù)進行轉(zhuǎn)換,獲得用于統(tǒng)計分析的標(biāo)準(zhǔn)格式的數(shù)據(jù)。歸納起來,代謝組學(xué)數(shù)據(jù)具有以下特點:
(1)高噪聲:生物體內(nèi)含有大量維持自身正常功能的內(nèi)源性小分子,具有特定研究意義的生物標(biāo)志物只是其中很少一部分,絕大部分代謝物和研究目的無關(guān)。
(2)高維、小樣本:代謝物的數(shù)目遠大于樣品個數(shù),不適合使用傳統(tǒng)的統(tǒng)計學(xué)方法進行分析,多變量分析容易出現(xiàn)過擬合和維數(shù)災(zāi)難問題[8]。
(3)高變異性:一是不同代謝物質(zhì)的理化性質(zhì)差異巨大,其濃度含量動態(tài)范圍寬達7~9個數(shù)量級[9],二是生物個體間存在各種來源的變異,如年齡、性別都可能影響代謝產(chǎn)物的變化,三是儀器測量受各種因素影響,容易出現(xiàn)隨機測量誤差和系統(tǒng)誤差,這使得識別有重要作用的生物標(biāo)志物可能極其困難。
(4)相互作用關(guān)系復(fù)雜:各種代謝物質(zhì)可能不僅具有簡單的相加效應(yīng),而且可能具有交互作用,從而增加了識別這些具有復(fù)雜關(guān)系的生物標(biāo)志物的難度。
(5)相關(guān)性和冗余性:各種代謝物并非獨立存在,而是相互之間具有不同程度的相關(guān)性,同時由于碎片、加合物和同位素的存在使得數(shù)據(jù)結(jié)構(gòu)存在很大的冗余性,這就需要采用合理的統(tǒng)計分析策略來揭示隱藏其中的復(fù)雜數(shù)據(jù)關(guān)系。
(6)分布的不規(guī)則和稀疏性:代謝組學(xué)數(shù)據(jù)分布不規(guī)則,而且數(shù)據(jù)具有稀疏性(即有很多值為零),因此,傳統(tǒng)的一些線性和參數(shù)分析方法此時可能失效。
代謝組學(xué)數(shù)據(jù)分析的目的是希望從中挖掘出生物相關(guān)信息,然而,代謝組學(xué)數(shù)據(jù)的變異來源很多,不僅包括生物變異,還包括環(huán)境影響和操作性誤差等方面。處理手段主要包括歸一化(standardization)、標(biāo)準(zhǔn)化(normalization),即中心化(centering)和尺度化(scaling),以及數(shù)據(jù)轉(zhuǎn)換(transformation)[10]。歸一化是針對樣品的操作,由于生物個體間較大的代謝物濃度差異或樣品采集過程中的差異(如取不同時間的尿樣),為了消除或減輕這種不均一性,一般使用代謝物的相對濃度,即每個代謝物除以樣品的總濃度,以此來校正個體差異或其他因素對代謝物絕對濃度的影響。標(biāo)準(zhǔn)化是對不同樣品代謝物的操作,即統(tǒng)計學(xué)意義上的變量標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化的目的是消除不同代謝物濃度數(shù)量級的差別,但同時也可能會過分夸大低濃度組分的重要性,即低濃度代謝物的變異系數(shù)可能更大。數(shù)據(jù)轉(zhuǎn)換是指對數(shù)據(jù)進行非線性變換,如log轉(zhuǎn)換和power轉(zhuǎn)換等。數(shù)據(jù)轉(zhuǎn)換的目的是將一些偏態(tài)分布的數(shù)據(jù)轉(zhuǎn)換成對稱分布的數(shù)據(jù),并消除異方差性的影響,以滿足一些線性分析技術(shù)的要求。不同的預(yù)處理方法會對統(tǒng)計分析結(jié)果產(chǎn)生不同的影響(見表1),在實際應(yīng)用中,我們應(yīng)該根據(jù)具體的研究目的、數(shù)據(jù)類型以及要選用的統(tǒng)計分析方法綜合考慮,選擇適當(dāng)?shù)念A(yù)處理方式。例如,Robert A.van den Berg等(2006)通過實際代謝組學(xué)數(shù)據(jù)的分析發(fā)現(xiàn),選用不同預(yù)處理方法在很大程度上影響著主成分分析(PCA)的結(jié)果,自動尺度化(autoscaling)和全距尺度化(range scaling)在對代謝組學(xué)數(shù)據(jù)進行探索性分析時表現(xiàn)更優(yōu),其PCA分析后的結(jié)果在生物學(xué)上能夠得到更合理的解釋[11]。
表1 常見的數(shù)據(jù)預(yù)處理方法
單變量分析方法簡便、直觀和容易理解,在代謝組學(xué)研究中通常用來快速考察各個代謝物在不同類別之間的差異。代謝組學(xué)數(shù)據(jù)在一般情況下難以滿足參數(shù)檢驗的條件,使用較多的是非參數(shù)檢驗的方法,如W ilcoxon秩和檢驗或Kruskal-Wallis檢驗,t'檢驗也是一種比較好的統(tǒng)計檢驗方法。
由于代謝組學(xué)數(shù)據(jù)具有高維的特點,所以在進行單變量分析時,會面臨多重假設(shè)檢驗的問題。如果我們不對每次假設(shè)檢驗的檢驗水準(zhǔn)α進行校正,則總體犯一類錯誤的概率會明顯增加。一種解決方法是采用Bonferion校正,即用原檢驗水準(zhǔn)除以假設(shè)檢驗的次數(shù)m作為每次假設(shè)檢驗新的檢驗水準(zhǔn)(α/m)。由于Bonferion校正的方法過于保守,會明顯降低檢驗效能,所以在實際中更為流行的一種做法是使用陽性發(fā)現(xiàn)錯誤率(false discovery rate,F(xiàn)DR)。這種方法可用于估計多重假設(shè)檢驗的陽性結(jié)果中,可能包含多少假陽性結(jié)果。FDR方法不僅能夠?qū)⒓訇栃缘谋壤刂圃谝?guī)定的范圍內(nèi),而且較之傳統(tǒng)的方法在檢驗效能上也得到顯著的提高[12]。實際中也可以使用局部FDR(用fdr表示),其定義為某一次檢驗差異顯著時,其結(jié)果為假陽性的概率。局部FDR的使用,使得我們能夠估計出任意變量為假陽性的概率,通常情況下有FDR≤fdr[13]。
除了進行傳統(tǒng)的單變量假設(shè)檢驗分析,代謝組學(xué)分析中通常也計算代謝物濃度在兩組間的改變倍數(shù)值(fold change),如計算某個代謝物濃度在兩組中的均值之比,判斷該代謝物在兩組之間的高低表達。計算ROC曲線下面積(AUC)也是一種經(jīng)常使用的方法[14]。
代謝組學(xué)產(chǎn)生的是高維的數(shù)據(jù),單變量分析不能揭示變量間復(fù)雜的相互作用關(guān)系,因此多變量統(tǒng)計分析在代謝組學(xué)數(shù)據(jù)分析中具有重要的作用。總體來說,代謝組學(xué)數(shù)據(jù)多變量統(tǒng)計分析方法大致可以分為兩類:一類為非監(jiān)督的學(xué)習(xí)方法,即在不給定樣本標(biāo)簽的情況下對訓(xùn)練樣本進行學(xué)習(xí),如PCA、非線性映射(NLM)等;另一類為有監(jiān)督的學(xué)習(xí)方法,即在給定樣本標(biāo)簽的情況下對訓(xùn)練樣本進行學(xué)習(xí),如偏最小二乘判別分析(PLS-DA)、基于正交信號校正的偏最小二乘判別分析(OPLS-DA)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(SVM)等。其中,PCA、PLS-DA和OPLS-DA是目前代謝組學(xué)領(lǐng)域中使用最為普遍的多變量統(tǒng)計分析方法。
PCA是從原始變量之間的相互關(guān)系入手,根據(jù)變異最大化的原則將其線性變換到幾個獨立的綜合指標(biāo)上(即主成分),取2~3個主成分作圖,直觀地描述不同組別之間的代謝模式差別和聚類結(jié)果,并通過載荷圖尋找對組間分類有貢獻的原始變量作為生物標(biāo)志物。通常情況下,由于代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性,同時有噪聲變量的干擾,PCA的分類結(jié)果往往不夠理想。盡管如此,PCA作為代謝組學(xué)數(shù)據(jù)的預(yù)分析和質(zhì)量控制步驟,通常用于觀察是否具有組間分類趨勢和數(shù)據(jù)離群點[15]。在組間分類趨勢明顯時,說明其中一定有能夠分類的標(biāo)志物。PCA還可以用于分析質(zhì)控樣品是否聚集在一起,如果很分散或具有一定的變化趨勢,則說明檢測質(zhì)量存在一定的問題。Zhang Zhiyu等(2010)通過PCA成功區(qū)分了骨肉瘤患者和正常人,并發(fā)現(xiàn)良性骨腫瘤患者中有兩例是異常值[16]。Kishore K.Pasikanti等(2009)利用PCA對尿液膀胱癌代謝組學(xué)數(shù)據(jù)進行分析后觀察到質(zhì)控樣品在PCA得分圖上緊密聚集,從而驗證了儀器檢測的穩(wěn)定性和代謝組學(xué)數(shù)據(jù)的可靠性[17]。
PLS-DA是目前代謝組學(xué)數(shù)據(jù)分析中最常使用的一種分類方法,它在降維的同時結(jié)合了回歸模型,并利用一定的判別閾值對回歸結(jié)果進行判別分析。Zhang Tao等(2013)運用PLS-DA技術(shù)分析尿液卵巢癌代謝組學(xué)數(shù)據(jù),成功將卵巢癌患者和良性卵巢腫瘤患者以及子宮肌瘤患者相互鑒別,并鑒定出組氨酸、色氨酸、核苷酸等多種具有判別能力的卵巢癌生物標(biāo)志物[18]。PLS的思想是,通過最大化自變量數(shù)據(jù)和應(yīng)變量數(shù)據(jù)集之間的協(xié)方差來構(gòu)建正交得分向量(潛變量或主成分),從而擬合自變量數(shù)據(jù)和應(yīng)變量數(shù)據(jù)之間的線性關(guān)系[19]。PLS的降維方法與PCA的不同之處在于PLS既分解自變量X矩陣也分解應(yīng)變量Y矩陣,并在分解時利用其協(xié)方差信息,從而使降維效果較PCA能夠更高效地提取組間變異信息[20]。當(dāng)因變量Y為二分類情況下,通常一類編碼為1,另一類編碼為0或-1;當(dāng)因變量Y為多分類時,則需將其化為啞變量。通常,評價PLS-DA模型擬合效果使用R2X、R2Y和Q2Y這三個指標(biāo),這些指標(biāo)越接近1表示PLS-DA模型擬合數(shù)據(jù)效果越好。其中,R2X和R2Y分別表示PLSDA分類模型所能夠解釋X和Y矩陣信息的百分比,Q2Y則為通過交叉驗證計算得出,用以評價PLS-DA模型的預(yù)測能力,Q2Y越大代表模型預(yù)測效果較好。實際中,PLS-DA得分圖常用來直觀地展示模型的分類效果,圖中兩組樣品分離程度越大,說明分類效果越顯著。代謝組學(xué)數(shù)據(jù)分析中另一種常用的方法是OPLS-DA,它是PLS-DA的擴展,即首先使用正交信號校正技術(shù),將X矩陣信息分解成與Y相關(guān)和不相關(guān)的兩類信息,然后過濾掉與分類無關(guān)的信息,相關(guān)的信息主要集中在第一個預(yù)測成分。Johan Trygg等認為該方法可以在不降低模型預(yù)測能力的前提下,有效減少模型的復(fù)雜性和增強模型的解釋能力[21]。與PLSDA模型相同,可以用R2X、R2Y、Q2Y和OPLS-DA得分圖來評價模型的分類效果。Carolyn M.Slupsky等(2010)使用OPLS-DA發(fā)現(xiàn)卵巢癌患者、乳腺癌患者、正常人這三者之間的尿液代謝輪廓顯著不同,從而推斷尿液代謝組學(xué)可能為癌癥的特異性診斷提供重要依據(jù)[22]。
由于代謝組學(xué)數(shù)據(jù)具有高維、小樣本的特性,使用有監(jiān)督學(xué)習(xí)方法進行分析時很容易產(chǎn)生過擬合的現(xiàn)象。為此,需要使用置換檢驗考察PLS-DA在無差異情況下的建模效果[23]。該方法在固定X矩陣的前提下,隨機置換Y分類標(biāo)簽n次,每次隨機置換后建立新的PLS-DA模型,并計算相應(yīng)的R2Y和Q2Y;然后,與真實標(biāo)簽?zāi)P偷玫降慕Y(jié)果進行比較,用圖形直觀表達是否有過擬合現(xiàn)象。
由于樣本量的不足,通常采用上述的交叉驗證和置換檢驗方法作為模型驗證方法。而實際中,在樣本量允許的情況下,最為有效的模型驗證方法即將整個數(shù)據(jù)集嚴格按照時間順序劃分為內(nèi)部訓(xùn)練數(shù)據(jù)和外部測試數(shù)據(jù)兩部分,利用內(nèi)部訓(xùn)練數(shù)據(jù)建立模型,再對外部測試數(shù)據(jù)進行預(yù)測,客觀地評價模型的有效性和適用性。
代謝組學(xué)分析的最終目標(biāo)是希望從中篩選出潛在的生物相關(guān)標(biāo)志物,從而探索其中的生物代謝機制,因此需要借助一定的特征篩選方法進行變量篩選。對于高維代謝組學(xué)數(shù)據(jù)的特征篩選,研究的目的是從中找出對樣本分類能力最強或較強的一個或若干個變量。特征篩選方法主要分為三類:過濾法、封裝法和嵌入法[24]。過濾法主要是采用單變量篩選方法對變量進行篩選,優(yōu)點是簡單而快捷,能夠快速的降維,如t'檢驗、W ilcoxon秩和檢驗、SAM等方法。封裝法是一種多變量特征篩選策略,通常是以判別模型分類準(zhǔn)確性作為優(yōu)化函數(shù)的前向選擇、后向選擇和浮動搜索特征變量的算法,它通常是按照“節(jié)省原則”進行特征篩選,最終模型可能僅保留其中很少部分的重要變量,如遺傳算法等。嵌入法的基本思想是將變量選擇與分類模型的建立融合在一起,變量的重要性評價依靠特定分類模型的算法實現(xiàn),在建立模型的同時,可以給出各變量重要性的得分值,如PLS-DA方法的VIP統(tǒng)計量等。為了更加客觀、全面地評價每個變量的重要性,代謝組學(xué)研究中一般采取將上述方法結(jié)合起來的方式進行變量篩選。比較常見的一種策略是先進行單變量分析,再結(jié)合多變量模型中變量重要性評分作為篩選標(biāo)準(zhǔn),如挑選fdr≤0.05和VIP>1.5的變量作為潛在生物標(biāo)志物。用篩選的潛在生物標(biāo)志物對外部測試數(shù)據(jù)集進行預(yù)測,評價其預(yù)測效果。最后,可以通過研究生物標(biāo)志物的生物學(xué)功能和代謝通路,分析不同生物標(biāo)志物之間的相互作用和關(guān)系,從而為探索生物代謝機制提供重要線索和信息。Yang Jinglei等(2013)即在代謝組學(xué)分析中使用fdr≤0.2和VIP>1.5的雙重標(biāo)準(zhǔn)來篩選精神分裂癥的特異生物標(biāo)志物,所篩選出的差異代謝物其AUC在訓(xùn)練數(shù)據(jù)中達94.5%,外部測試數(shù)據(jù)中達0.895[25]。
由于代謝組學(xué)數(shù)據(jù)變量多、關(guān)系復(fù)雜的特性,數(shù)據(jù)分析任務(wù)極為艱巨。目前常用的統(tǒng)計學(xué)方法在一定程度上為進行代謝組學(xué)數(shù)據(jù)分析提供了有效的工具,但仍然存在諸多不足。如在代謝組學(xué)研究中,生物樣品之間的變異性往往較大,目前最流行的PLS-DA或OPLS-DA數(shù)據(jù)分析方法在差異小、噪聲大時,模型使用效果不夠理想。另外,PLS-DA和OPLS-DA均是基于線性回歸的方法,但是代謝組學(xué)數(shù)據(jù)通常不是簡單的線性關(guān)系,因此,PLS-DA和OPLS-DA模型擬合數(shù)據(jù)的結(jié)果可能會不夠好?;谶@些問題,一些學(xué)者開始嘗試將一些新的高維數(shù)據(jù)分析方法和思想應(yīng)用于代謝組學(xué)數(shù)據(jù)分析中,如Lin Xiaohui等(2011)提出一種將支持向量機、隨機森林和遺傳算法結(jié)合起來進行變量篩選的分析思路,通過比較證實其較單個分析方法能夠發(fā)掘出更多的信息,尤其適合分析復(fù)雜生物數(shù)據(jù)[26];Elon Correa和Royston Goodacre(2011)提出了一種新型的遺傳算法—貝葉斯網(wǎng)絡(luò)方法(GA-BN),這種方法在有效篩選變量并提高分類效果的同時,還能研究變量間的相互作用和關(guān)系[27]。毫無疑問,這些新方法的提出將會為代謝組學(xué)數(shù)據(jù)分析提供新的思路和契機。隨著各種代謝組學(xué)檢測儀器的快速發(fā)展,更有效的代謝組學(xué)數(shù)據(jù)分析技術(shù)亟待開發(fā),值得更多的生物統(tǒng)計學(xué)者關(guān)注和研究。
1.Dunn WB,Ellis DI.Metabolom ics:Current analytical platforms and methodologies.TrAC Trends in Analytical Chem istry,2005,24(4):285-294.
2.許國旺,路鑫,楊勝利.代謝組學(xué)研究進展.中國醫(yī)學(xué)科學(xué)院學(xué)報,2007,29(6):701-711.
3.Spratlin JL,Serkova NJ,Eckhardt SG.Clinical applications of metabolomics in oncology:a review.Clin Cancer Res,2009,15(2):431-440.
4.W ishart DS.Applications ofmetabolom ics in drug discovery and development.Drugs R D,2008,9(5):307-322.
5.Taylor J,King RD,Altmann T,et al.Application of metabolom ics to plant genotype discrim ination using statistics and machine learning. Bioinformatics,2002,18(2):241-248.
6.Nicholson JK,Lindon JC,Holmes E.'Metabonom ics′:understanding the metabolic responses of living systems to pathophysiological stimuli via multivariate statistical analysis of biological NMR spectroscopic data. Xenobiotica,1999,29(11):1181-1189.
7.Smith CA,Want EJ,O′Maille G,etal.XCMS:processingmass spectrometry data formetabolite profiling using nonlinear peak alignment,matching,and identification.Analytical Chemistry,2006,78(3):779-787.
8.Sima C,Dougherty ER.What should be expected from feature selection in small-sample settings.Bioinformatics,2006,22(19):2430-2436.
9.Dunn WB,Ellis DI.Metabolom ics:Current analytical platforms and methodologies.Trac-Trend Anal Chem,2005,24(4):285-294.
10.Goodacre R,Broadhurst D,Sm ilde A,et al.Proposed m inimum reporting standards for data analysis inmetabolom ics.Metabolom ics,2007,3(3):231-241.
11.Van den Berg RA,Hoefsloot HCJ,Westerhuis JA,etal.Centering,scaling,and transformations:improving the biological information content ofmetabolom ics data.BMC Genom ics,2006,7:142-156.
12.Benjam ini Y,Hochberg Y.Controlling the false discovery rate:a practical and powerful approach to multiple testing.JR Statist Soc B,1995,57(1):289-300.
13.劉晉,張濤,李康.多重假設(shè)檢驗中FDR的控制與估計方法.中國衛(wèi)生統(tǒng)計,2012,29(2):305-308.
14.Broadhurst DI,Kella DB.Statistical strategies for avoiding false discoveries in metabolom ics and related experiments.Metabolom ics,2006,2(4):171-196.
15.Trygg J,Holmes E,Lundstedt T.Chemometrics inmetabonom ics.JProteome Res,2007,6(2):469-479.
16.Zhang Z,Qiu Y,Hua Y,etal.Serum and urinarymetabonom ic study of human osteosarcoma.JProteome Res,2010,9(9):4861-4868.
17.Pasikanti KK,Esuvaranathan K,Ho PC,et al.Noninvasive urinary metabonomic diagnosis of human bladder cancer.J Proteome Res,2009,9(6):2988-2995.
18.Zhang T,Wu XY,Ke CF,et al.Identification of Potential Biomarkers for Ovarian Cancer by Urinary Metabolom ic Profiling.JProteome Res,2013,12(1):505-516.
19.蔣紅衛(wèi),夏結(jié)來.偏最小二乘回歸及其應(yīng)用.第四軍醫(yī)大學(xué)學(xué)報,2003,24(3):280-283.
20.Boulesteix AL,Strimmer K.Partial least squares:a versatile tool for the analysis of high-dimensional genom ic data.Brief Bioinform.2007,8(1):32-44.
21.Trygg J,Wold S.Orthogonal projections to latent structures(O-PLS). Journal of Chemometrics,2002,16(3):119-128.
22.Slupsky CM,Steed H,Wells TH,et al.Urine metabolite analysis offers potential early diagnosis of ovarian and breast cancers.Clin Cancer Res,2010,16(23):5835-5841.
23.Westerhuis JA,Hoefsloot HCJ,Sm it S,et al.Assessment of PLSDA cross validation.Metabolom ics,2008,4(1):81-89.
24.Yvan S,Iaki I,Pedro L.A review of feature selection techniques in bioinformatics.Bioinformatics,2007,23(13):273-281.
25.Yang J,Chen T,Sun L,et al.Potentialmetabolite markers of schizophrenia.Molecular Psychiatry,2013,18(1):67-78.
26.Lin XH,Wang QC,Yin PY,etal.A method for handlingmetabonomics data from liquid chromatography/mass spectrometry:combinational use of support vector machine recursive feature elimination,genetic algorithm and random forest for feature selection.Metabolomics,2011,7(4):549-558.
27.Correa E,Goodacre R.A genetic algorithm-Bayesian network approach for the a nalysis ofmetabolom ics and spectroscopic data:application to the rapid identification of Bacillus spores and classification of Bacillus species.BMC Bioinformatics,2011,12(1):33-49.
(責(zé)任編輯:郭海強)
*國家自然科學(xué)基金資助(81172767);高等學(xué)校博士學(xué)科專項基金(20122307110004)
1哈爾濱醫(yī)科大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室(150081)
2山東大學(xué)衛(wèi)生統(tǒng)計學(xué)教研室
Δ通信作者:李康,E-mail:likang@ems.hrbmu.edu.cn