• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測

      2017-06-01 11:35:29婷,喆,
      大連理工大學學報 2017年3期
      關(guān)鍵詞:抗菌肽多肽標簽

      布 曉 婷, 曹 雋 喆, 顧 宏

      ( 大連理工大學 控制科學與工程學院, 遼寧 大連 116024 )

      基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測

      布 曉 婷, 曹 雋 喆, 顧 宏*

      ( 大連理工大學 控制科學與工程學院, 遼寧 大連 116024 )

      抗菌肽是廣泛存在于生物體內(nèi)的一類具有廣譜抗菌作用的天然多肽,因其不易導致細菌耐藥性,已成為醫(yī)藥界開發(fā)新型抗菌制劑的主要選擇,識別出更多的抗菌肽并預(yù)測其抗菌功能具有重要意義.提出了一種基于多標簽直推學習的抗菌肽及其抗菌功能的預(yù)測方法,該方法利用K-spaced氨基酸對組成方法提取多肽特征,采用多標簽學習框架和加權(quán)近鄰圖構(gòu)建直推預(yù)測模型,通過對有標簽訓練樣本和無標簽待測樣本的共同學習來提升預(yù)測性能.該方法不僅能夠識別多肽是否為抗菌肽,還能同時預(yù)測出抗菌肽所具有的單種或多種抗菌功能,且適用于對多效抗菌肽和普通抗菌肽的預(yù)測.數(shù)值實驗表明,與已有的iAMP-2L預(yù)測方法相比,所提方法在全局預(yù)測精度和多標簽預(yù)測性能上均有較大提升.

      抗菌肽;多標簽學習;直推學習;K-spaced氨基酸對組成方法

      0 引 言

      抗菌肽(antimicrobial peptide,AMP)是廣泛存在于生物體內(nèi)的具有抗菌活性的多肽,一般由5~100個氨基酸構(gòu)成,是生物體先天免疫系統(tǒng)的重要組成部分.抗菌肽具有廣譜抗菌性,對真菌、原蟲、病毒及癌細胞等都具有強效的殺傷作用,并且耐藥性致病菌也不易對其產(chǎn)生抗藥作用[1].目前抗生素濫用問題日益嚴重,醫(yī)藥界對于新型抗菌藥物的需求愈加強烈,近年來不少學者都致力于利用抗菌肽開發(fā)新型抗菌劑[2].但由于抗菌肽抗菌功能類別多樣,抗菌作用機理復雜,業(yè)界對各類抗菌肽的結(jié)構(gòu)和抗菌作用機理都不甚了解,發(fā)現(xiàn)更多的抗菌肽并了解其抗菌功能是解決這一問題的有效途徑.然而現(xiàn)階段已發(fā)現(xiàn)的抗菌肽種類不多,還有相當大數(shù)量的天然抗菌肽未被識別,甚至對于已知抗菌肽的具體抗菌功能了解得也不夠全面.

      針對上述問題,研究人員主要采用基于實驗的方法和基于計算的方法來對抗菌肽識別加以解決.實驗方法是通過實驗分離測定的方式對多肽的抗菌活性進行觀察判定,該方法的優(yōu)點是識別精度高,但操作過程復雜,需要投入大量的物力、人力及時間成本[3],效率較低且不具備大規(guī)模操作性,隨著醫(yī)藥界對抗菌肽新型制劑開發(fā)的不斷深入,這種方法越來越難以滿足研究需求.而隨著生物信息學的迅猛發(fā)展,基于計算的方法被應(yīng)用于該領(lǐng)域,其中基于機器學習的計算方法以其高精度、低成本、高可行性及高可靠性等優(yōu)勢,被越來越多地應(yīng)用于抗菌肽及其抗菌功能的預(yù)測中.機器學習方法通過對大量抗菌肽生物數(shù)據(jù)的分析和學習,不僅能夠發(fā)現(xiàn)抗菌功能同生化屬性之間的線性關(guān)系,還可以挖掘內(nèi)在的非線性關(guān)聯(lián),這對于深入挖掘大規(guī)模無序數(shù)據(jù)中隱藏的生物信息,更深入地了解抗菌肽的分子組成結(jié)構(gòu)、基因表達機制及抗微生物作用機理有十分積極的作用.

      基于機器學習的抗菌肽預(yù)測屬于分類學習問題,主要的步驟為建立數(shù)據(jù)集、提取多肽特征、設(shè)計分類器.最初發(fā)現(xiàn)的抗菌肽只具有一種抗菌活性,因此早期的研究主要用于推斷待測多肽是否為抗菌肽,即二分類問題,常見的算法包括神經(jīng)網(wǎng)絡(luò)[4-5]、支持向量機[6-7]和隨機森林[8-9]等.而隨著越來越多的多效抗菌肽(即同時具有多種抗菌功能的抗菌肽)被發(fā)現(xiàn),近年來一些學者開始考慮對抗菌肽的多效抗菌功能進行預(yù)測,如Joseph等[10]提出了基于隨機森林和支持向量機的多標簽預(yù)測方法ClassAMP,用以區(qū)分抗細菌肽、抗真菌肽和抗病毒肽3類不同功能的抗菌肽;Zou等[11]提出了基于序列信息和多標簽學習的LIFT預(yù)測方法,用以預(yù)測抗菌肽是否具有抗細菌、抗病毒、抗真菌等8種不同抗菌活性.這兩種方法只是針對確定為抗菌肽的樣本進行功能預(yù)測,而不能判斷一條多肽是否為抗菌肽.而Xiao等[12]提出的iAMP-2L預(yù)測方法則同時考慮了對抗菌肽預(yù)測和對其功能的預(yù)測,該方法分為兩個階段,先利用二分類算法鑒別某多肽是否為抗菌肽,然后對被鑒別為抗菌肽的多肽采用多標簽學習算法進行抗菌功能的預(yù)測.

      總的來說,目前能對多效抗菌肽預(yù)測的方法非常少,現(xiàn)有的方法都是采用多標簽學習算法進行處理.然而多標簽學習的初衷是為了解決歧義性問題,樣本通常都是具有一個或多個正標簽的正類樣本,一般不存在負類樣本,而抗菌肽的預(yù)測問題則完全不同,一條多肽完全可以是不具有任何抗菌活性的非抗菌肽,其本質(zhì)是個具有負類樣本的預(yù)測問題,這是傳統(tǒng)的多標簽學習所無法直接處理的.因此,文獻[10]和[11]的方法為了避開這個問題,只針對抗菌肽進行功能預(yù)測.而在實際應(yīng)用中,待測樣本的屬性其實是完全未知的,完整的預(yù)測任務(wù)應(yīng)該包含兩部分:首先判斷出這些樣本是否為抗菌肽,然后再對確定為抗菌肽的樣本進一步預(yù)測其抗菌功能.而文獻[12]的方法則采用這兩部分先后處理的方式,這種兩階段鑒定方法不僅過程復雜,并且兩個階段的誤差疊加導致預(yù)測精度不高,而且還割裂了兩個預(yù)測問題的聯(lián)系.

      針對上述問題,本文提出一種新的基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測方法,該方法將預(yù)測問題看作一個可以含有負標簽樣本的特殊多標簽學習問題來處理,不僅具有預(yù)測多效抗菌肽的能力,還能在一個學習算法下將抗菌肽預(yù)測及其抗菌功能預(yù)測兩個任務(wù)同時完成.

      1 實驗數(shù)據(jù)

      本文建立了兩個數(shù)據(jù)集:基準數(shù)據(jù)集S1和獨立測試集S2,其中基準數(shù)據(jù)集S1用于訓練和交叉驗證,獨立測試集S2用于驗證預(yù)測方法的泛化性.S1中的數(shù)據(jù)來自文獻[12],并對其中的個別錯誤進行修正得到,S2中的數(shù)據(jù)由文獻[12]的獨立測試集部分提取得到.兩個數(shù)據(jù)集均包括抗菌肽數(shù)據(jù)和非抗菌肽數(shù)據(jù).

      基準數(shù)據(jù)集S1包括兩大類:抗菌肽數(shù)據(jù)和非抗菌肽數(shù)據(jù),其表示方法如下:

      (1)

      表1 基準數(shù)據(jù)集S1各類別數(shù)量

      為了更好地驗證本預(yù)測方法的泛化性,本文還使用獨立測試集S2進行獨立測試集實驗,其中無重復統(tǒng)計的抗菌肽數(shù)量為350.獨立測試集S2各類別數(shù)量見表2.

      表2 獨立測試集S2各類別數(shù)量

      2 原理和方法

      2.1 多肽序列特征信息的提取

      對于某一多肽而言,其肽鏈的結(jié)構(gòu)直接決定著其生物學功能如抗菌功能,而一級結(jié)構(gòu)作為最基本的結(jié)構(gòu)直接決定著其二級結(jié)構(gòu)和三級結(jié)構(gòu),故多肽的一級結(jié)構(gòu)對于其抗菌功能的有無及具體類型至關(guān)重要.多肽的一級結(jié)構(gòu)可以由組成它的氨基酸序列表示,本文特征信息提取的出發(fā)點即將多肽的氨基酸序列信息轉(zhuǎn)化為可量化的特征向量,通過特征向量盡可能形象地將特定多肽表達出來.

      本文使用K-spaced氨基酸對組成方法(composition ofK-spaced amino acid pairs,CKSAAP) 對樣本進行特征提?。瓹KSAAP首先由Chen等[13]于2007年提出并用于蛋白質(zhì)靈活化區(qū)域預(yù)測中,該方法的優(yōu)點在于充分利用蛋白質(zhì)或多肽序列中各個氨基酸的局部相互作用信息,故在不少生物信息學領(lǐng)域都獲得了不錯的實驗結(jié)果,例如蛋白質(zhì)磷酸化作用位點預(yù)測[14]、三型效應(yīng)蛋白鑒別[15]、賴氨酸甲基化位點及甲基化度預(yù)測[16]等領(lǐng)域.由于抗菌肽的氨基酸序列通常較短,最短的抗菌肽僅由5個氨基酸構(gòu)成,而CKSAAP 作為一種關(guān)注于組成多肽的各個氨基酸局部相互作用信息的特征提取方法,對短肽特征的刻畫較為出色.通過前期比較發(fā)現(xiàn),相對于關(guān)注蛋白質(zhì)長鏈氨基酸出現(xiàn)概率的氨基酸組成方法(amino acid composition,AAC)和關(guān)注氨基酸出現(xiàn)概率和物化性質(zhì)的偽氨基酸組成方法(pseudo-amino acid composition,PseAAC),CKSAAP 對本文所研究問題的表征效果更好一些,因此本文選定CKSAAP提取的特征用于最終的預(yù)測.當K=0時,該方法將多肽一級結(jié)構(gòu)所蘊含的信息提取為以下向量:

      P=(NAANAC…NAV)T

      (2)

      其中NXY表示序列中氨基酸X與氨基酸Y連續(xù)出現(xiàn)的次數(shù),X與Y可以是相同的氨基酸,由于組成多肽的基本氨基酸為20個,氨基酸兩兩任意組合會產(chǎn)生20×20種可能,故該情況下特征向量維數(shù)為400.當K=1時,特征向量為

      P=(NAANAC…NAVNAxANAxC…NAxV)T

      (3)

      其中前400行與式(2)相同,401至800行中NXxY表示序列中氨基酸X與氨基酸Y中間相隔一個氨基酸的情況出現(xiàn)的次數(shù),其中x表示任意一個氨基酸.K=2、3、4時對應(yīng)的1 200、1 600、2 000 維特征向量依此類推.在本文實驗中,選擇K=0即特征維度最小的情況,此時每個多肽均由一個400維的特征向量表示.

      2.2 基于多標簽直推學習的預(yù)測方法

      直推學習(transductive learning)由Vapnik[17]于1995年首次提出,現(xiàn)已應(yīng)用于文本識別[18]、視覺跟蹤[19]、蛋白質(zhì)亞細胞定位[20]等多個領(lǐng)域并取得了不錯的效果.該方法不同于傳統(tǒng)的歸納演繹式學習方法,在構(gòu)建方法的過程中除了使用訓練集中的信息之外,將待測試樣本中的信息也利用起來進行方法構(gòu)建.通常這種學習方法應(yīng)用在無標簽樣本數(shù)量較大而有標簽樣本數(shù)量不夠多的問題中,將測試集合信息也用于預(yù)測方法的構(gòu)建能夠使預(yù)測方法更好地識別整個空間的數(shù)據(jù)特性[21],從而使預(yù)測方法具有更好的預(yù)測性能.

      對于本文的研究問題而言,目前已知的抗菌肽非常有限,還有數(shù)量十分大的抗菌肽未被發(fā)現(xiàn),傳統(tǒng)的預(yù)測方法僅使用已知抗菌肽的信息來構(gòu)建預(yù)測模型而忽視了未知測試集中包含的大量信息,往往不能得出準確率較高的預(yù)測結(jié)果,而直推學習方法恰恰能夠使有效信息得以利用從而得到不錯的預(yù)測結(jié)果.本文在利用直推學習方法構(gòu)建近鄰圖時,在對各樣本局部關(guān)聯(lián)關(guān)系計算時對各抗菌功能類別加以不同權(quán)重,將不同類別對預(yù)測方法的貢獻度區(qū)分開來,從而使得基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測方法預(yù)測結(jié)果更佳.本文構(gòu)建的預(yù)測模型如圖1所示.

      圖1 基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測模型示意圖

      Fig.1 Diagram of the model for predicting the antimicrobial peptides and their functional types based on multi-label transductive learning

      (4)

      其中N(Xi)表示樣本Xi的近鄰集合;S(i,j)表示樣本Xi與樣本Xj在特征空間的相似度;C(i,j)表示樣本Xi與樣本Xj在標簽空間的相似度.顯然,對于矩陣W,其任意行向量的元素之和均為1.

      采用高斯核(Gaussian kernel)函數(shù)計算特征空間的相似度S(i,j),特征空間越相似則值越大,其具體定義如下:

      (5)

      其中d表示距離度量,本文選用歐氏距離;μ為超參數(shù),本文取為2;σ為調(diào)節(jié)參數(shù),本文取所有樣本之間的平均距離.

      C(i,j)表示樣本Xi與樣本Xj在標簽空間的相似度,標簽空間越相似則值越大.當樣本Xi和Xj不都是待測樣本時,有

      (6)

      (7)

      其中Np表示訓練集中抗菌肽的樣本個數(shù),Nt表示訓練集中具有第t個標簽的樣本個數(shù).這種權(quán)重確定方法減弱了那些在大多數(shù)樣本中存在的標簽的重要程度,同時增強了一些在小部分樣本中出現(xiàn)的低頻標簽的重要程度,即若訓練集中具有第t個標簽的樣本個數(shù)越少,則該標簽的權(quán)值越大,可以認為第t個標簽具有較好的類別區(qū)分能力,對多標簽分類有較大幫助[22].由表1可以看出,具有抗細菌標簽的抗菌肽個數(shù)為770,而具有抗HIV標簽的抗菌肽個數(shù)為85,顯然這兩種抗菌功能標簽對于分類的貢獻度不同,即具有一定的不平衡性,因此將其賦予依據(jù)數(shù)量確定的不同的權(quán)值是有必要的.

      在最優(yōu)化確定信任度之前,需將訓練集標簽向量進行預(yù)處理.對于訓練集中的抗菌肽樣本,有

      (8)

      依據(jù)上文的平滑性假設(shè)本文提出一個求解信任度的最優(yōu)化問題:

      (9)

      最優(yōu)化目標是最小化相似樣本的標簽之間的加權(quán)差,為了簡化上式,有以下公式:

      (10)

      這樣式(9)便能簡化成下式:

      (11)

      為求解待測樣本Xi所含標簽個數(shù)θi,本文提出一個最優(yōu)化問題:

      (12)

      式(11)和(12)表示的優(yōu)化問題均有唯一最優(yōu)解,文獻[23]對此給出了理論證明,因此可求得直推的結(jié)果.預(yù)測算法流程如下:

      輸入:

      預(yù)測算法:

      構(gòu)建有限加權(quán)近鄰圖,并確定近鄰間邊的權(quán)重矩陣W,見式(4);

      輸出:

      2.3 評價指標

      本文研究的課題屬于一種特殊的多標簽問題,能夠同時將正負類樣本和正類樣本的一個或多個抗菌功能標簽預(yù)測出來,故本文將使用全局評價指標和多標簽評價指標這兩類指標來衡量預(yù)測方法的效果.

      全局評價指標[24]為二分類指標,主要用來評價預(yù)測方法對于抗菌肽和非抗菌肽的分類效果,若某待測樣本的預(yù)測標簽全為0則被預(yù)測為非抗菌肽,否則是抗菌肽.全局評價指標包括敏感性(sensitivity,Ssn)、特異性(specificity,Ssp)、正確率(accuracy,A)和馬氏相關(guān)系數(shù)(Mathew′s correlation coefficient,Mc),其具體公式如下:

      (13)

      (14)

      其中Tp(true positive)表示抗菌肽被預(yù)測為抗菌肽的個數(shù),Tn(true negative)表示非抗菌肽被預(yù)測為非抗菌肽的個數(shù),F(xiàn)p(false positive)表示非抗菌肽被預(yù)測為抗菌肽的個數(shù),F(xiàn)n(false negative) 表示抗菌肽被預(yù)測為非抗菌肽的個數(shù),如式(14),N表示符合某條件的多肽的個數(shù),其中N的上角標表示某多肽實際為抗菌肽或非抗菌肽,分別用+和-兩符號表示,N的下角標表示某多肽被預(yù)測為抗菌肽或非抗菌肽,表示方法同上.對于以上4個全局評價指標,Ssn、Ssp和A的取值范圍均為[0,1],Mc的取值范圍為[-1,1],并且它們的值越大則表示預(yù)測方法越好.

      多標簽評價指標[25]主要用來評價預(yù)測方法對于抗菌肽樣本所含標簽的預(yù)測準確度,它包括漢明損失(Hamming Loss,Hl)、準確度(accuracy,Ac)、查準率(precision,P)、查全率(recall,R)和完全正確率(absolute true,At),其具體公式如下:

      (15)

      (16)

      以上這5個多標簽評價指標的取值均為[0,1],準確度、查準率、查全率和完全正確率均越大越好,而漢明損失越小越好.

      3 實驗結(jié)果

      本文在構(gòu)建近鄰圖時首先需確定該方法的參數(shù)即近鄰數(shù)K,為避免結(jié)果的隨機不確定性,本文選用留一法(leave-one-out,LOO).為了獲得預(yù)測性能最佳的預(yù)測方法,以基準數(shù)據(jù)集S1上的全局指標中的正確率指標最大來選取最優(yōu)的近鄰數(shù)K,本文對K取1至30均進行了實驗,實驗結(jié)果表明,當K為3時,S1上的全局指標中的正確率最大,由此確定K=3.表3選列了部分K下的全局指標中的正確率指標結(jié)果統(tǒng)計表.

      表3 不同近鄰數(shù)K下的正確率結(jié)果

      表4 S1上的全局評價指標結(jié)果

      本文預(yù)測方法的所有指標結(jié)果均優(yōu)于iAMP-2L預(yù)測方法,其中全局指標中的準確率高達98.20%,多標簽評價指標中的漢明損失也僅為0.110 1.實驗結(jié)果表明,本文預(yù)測方法的全局性能和多標簽學習性能比現(xiàn)有方法有了大幅提升.

      表上的多標簽評價指標結(jié)果

      表6 S2上的全局評價指標結(jié)果

      表上的多標簽評價指標結(jié)果

      由以上兩表看出,本文預(yù)測方法在獨立測試集S2上的預(yù)測表現(xiàn)依然很好,全局評價指標中所有指標都優(yōu)于iAMP-2L預(yù)測方法,其中正確率指標高達98.43%,而多標簽評價方面指標結(jié)果雖然比在基準數(shù)據(jù)集S1上略差,但漢明損失也僅有0.122 9.總的來說,本文預(yù)測方法比現(xiàn)有方法具有更好的泛化性能.

      對于多標簽評價問題,除了從以上指標分析方法性能外,本文還對不同標簽數(shù)的樣本預(yù)測完全正確率進行了統(tǒng)計,結(jié)果見表8.從表8可以看出,本文預(yù)測方法對于樣本標簽數(shù)為1、2、3、4的樣本的預(yù)測完全正確率均高于iAMP-2L預(yù)測方法,其中前3個預(yù)測完全正確率都超過了45%.而對于同時具有5個標簽的樣本來講,本文預(yù)測方法效果相對欠佳,主要原因在于本文的一體化預(yù)測方法是在有負樣本參與的情況下進行的,其直推學習算法采用了樣本的部分聚類信息進行學習,一些邊緣負樣本對標簽的推斷具有比較大的影響,尤其是對具有多個正標簽的樣本影響更加明顯,而iAMP-2L預(yù)測方法在第2階段中提前把負樣本剔除,因此影響較小.另外為了能夠生成負樣本分類結(jié)果,算法在每類標簽上的學習都是相對獨立的,而對標簽間的關(guān)聯(lián)性學習不夠,也影響了對標簽的學習效果,這一點在后續(xù)的研究中需要改進.

      表上的不同標簽數(shù)預(yù)測完全正確率

      4 結(jié) 語

      本文構(gòu)建的基于多標簽直推學習的抗菌肽及其抗菌功能預(yù)測方法能夠一次性進行抗菌肽的鑒別及其抗菌功能的鑒定工作,該方法在構(gòu)建近鄰圖時將各類別標簽加以不同權(quán)重,將不同標簽對預(yù)測方法的貢獻度區(qū)分開來,并且突破傳統(tǒng)的利用樣本特征信息計算樣本局部關(guān)聯(lián)關(guān)系的方法,將樣本的標簽信息加入到局部關(guān)聯(lián)關(guān)系的公式中,使計算出的各近鄰樣本的關(guān)聯(lián)關(guān)系更貼近真實值.本文預(yù)測方法將直推學習算法應(yīng)用在抗菌肽預(yù)測領(lǐng)域,充分適應(yīng)了抗菌肽領(lǐng)域未知抗菌肽數(shù)量遠遠大于已知抗菌肽數(shù)量以及抗菌肽序列間同源性較低的特點,有效提高了對待測樣本抗菌功能的預(yù)測精確度.為了將算法實際應(yīng)用于抗菌肽的實驗判定,下一步計劃基于本文預(yù)測方法開發(fā)抗菌肽在線預(yù)測平臺,為相關(guān)研究人員提供高精度在線預(yù)測服務(wù).

      [1] ZASLOFF M. Antimicrobial peptides of multicellular organisms [J]. Nature, 2002, 415(6870):389-395.

      [2] HAMMAMI R, FLISS I. Current trends in antimicrobial agent research: chemo- and bioinformatics approaches [J]. Drug Discovery Today, 2010, 15(13/14):540-546.

      [3] KHOSRAVIAN M, FARAMARZI F K, BEIGI M M,etal. Predicting antibacterial peptides by the concept of Chou′s pseudo-amino acid composition and machine learning methods [J]. Protein and Peptide Letters, 2013, 20(2):180-186.

      [4] TORRENT M, ANDREU D, NOGUéS V M,etal. Connecting peptide physicochemical and antimicrobial properties by a rational prediction model [J]. PLoS One, 2011, 6(2):e16968.

      [5] HOLTON T A, POLLASTRI G, SHIELDS D C,etal. CPPpred: prediction of cell penetrating peptides [J]. Bioinformatics, 2013, 29(23):3094-3096.

      [6] VIJAYAKUMAR S, PTV L. ACPP: A web server for prediction and design of anti-cancer peptides [J]. International Journal of Peptide Research and Therapeutics, 2015, 21(1):99-106.

      [8] CHANG K Y, YANG J R. Analysis and prediction of highly effective antiviral peptides based on random forests [J]. PLoS One, 2013, 8(8):e70166.

      [9] KARNIK S, PRASAD A, DIWEVEDI A,etal. Identification of defensins employing recurrence quantification analysis and random forest classifiers [J]. Lecture Notes in Computer Science, 2009, 5909: 152-157.

      [10] JOSEPH S, KARNIK S, NILAWE P,etal. ClassAMP: a prediction tool for classification of antimicrobial peptides [J]. IEEE-ACM Transactions on Computational Biology and Bioinformatics, 2012, 9(5):1535-1538.

      [11] ZOU Hongliang, XIAO Xuan. A new multi-label classifier in identifying the functional types of human membrane proteins [J]. The Journal of Membrane Biology, 2015, 248(2):179-186.

      [12] XIAO Xuan, WANG Pu, LIN Weizhong,etal. iAMP-2L: A two-level multi-label classifier for identifying antimicrobial peptides and their functional types [J]. Analytical Biochemistry, 2013, 436(2):168-177.

      [13] CHEN Ke, KURGAN L A, RUAN Jishou. Prediction of flexible/rigid regions from protein sequences usingk-spaced amino acid pairs [J]. BMC Structural Biology, 2007, 7(1):25.

      [14] ZHAO Xiaowei, ZHANG Wenyi, XU Xin,etal. Prediction of protein phosphorylation sites by using the composition ofk-spaced amino acid pairs [J]. PLoS One, 2012, 7(10):e46302.

      [15] DONG Xiaobao, ZHANG Yongjun, ZHANG Ziding. Using weakly conserved motifs hidden in secretion signals to identify type-Ⅲ effectors from bacterial pathogen genomes [J]. PLoS One, 2013, 8(2):e56632.

      [16] JU Zhe, CAO Junzhe, GU Hong. iLM-2L: A two-level predictor for identifying protein lysine methylation sites and their methylation degrees by incorporatingk-gap amino acid pairs into Chou′s general PseAAC [J]. Journal of Theoretical Biology, 2015, 385(8):50-57.

      [17] VAPNIK V. The Nature of Statistical Learning Theory [M]. Berlin: Springer, 1995.

      [18] JOACHIMS T. Transductive inference for text classification using support vector machines [C] // Sixteenth International Conference on Machine Learning. Burlington: Morgan Kaufmann Publishers Inc., 1999: 200-209.

      [19] ZHA Yufei, YANG Yuan, BI Duyan. Graph-based transductive learning for robust visual tracking [J]. Pattern Recognition, 2010, 43(1):187-196.

      [20] CAO Junzhe, LIU Wenqi, HE Jianjun,etal. Identifying the singleplex and multiplex proteins based on transductive learning for protein subcellular localization prediction [J]. Biotechnology Letters, 2013, 35(7):1107-1113.

      [21] 陳毅松,汪國平,董士海. 基于支持向量機的漸進直推式分類學習算法[J]. 軟件學報, 2003, 14(3):451-460.

      CHEN Yisong, WANG Guoping, DONG Shihai. A progressive transductive inference algorithm based on support vector machine [J]. Journal of Software, 2003, 14(3):451-460. (in Chinese)

      [22] 蔣 健. 文本分類中特征提取和特征加權(quán)方法研究[D]. 重慶: 重慶大學, 2010.

      JIANG Jian. Study on feature selection and feature weighting of text classification [D]. Chongqing: Chongqing University, 2010. (in Chinese)

      [23] KONG Xiangnan, NG M K, ZHOU Zhihua. Transductive multilabel learning via label set propagation [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(3):704-719.

      [24] CHEN Wei, FENG Pengmian, LIN Hao,etal. iRSpot-PseDNC: identify recombination spots with pseudo dinucleotide composition [J]. Nucleic Acids Research, 2013, 41(6):e68.

      [25] MAIMON O, ROKACH L. Data Mining and Knowledge Discovery Handbook [M]. Heidelberg: Springer, 2010.

      Prediction of antimicrobial peptides and their functional types based on multi-label transductive learning

      BU Xiaoting, CAO Junzhe, GU Hong*

      ( School of Control Science and Engineering, Dalian University of Technology, Dalian 116024, China )

      Antimicrobial peptides, a type of natural polypeptides with broad-spectrum antimicrobial activity, are widely found in organisms. Because of a slim chance of bacterial resistance, antimicrobial peptides have become a preferred option for the pharmaceutical industry to develop new antibacterial preparations. In this sense, it is of great significance to identify more antimicrobial peptides and then make clear their antimicrobial functional types. In view of this fact, a prediction method based on multi-label transductive learning is proposed to predict antimicrobial peptides and their functional types. This method extracts the polypeptide characteristics by composition ofK-spaced amino acid pairs and constructs transductive prediction models by the weighted neighbor graph and multi-label learning framework. Through the study of labeled training data and unlabeled data to be tested, this method can not only predict whether a polypeptide is an antimicrobial peptide, but also predict what type of antimicrobial function a polypeptide would have. In addition, this method is applicable to both multiple-effect antimicrobial peptides and common antimicrobial peptides. Numerical experiments have shown that the proposed method is more accurate than iAMP-2L method in performance in terms of overall prediction and multi-label prediction.

      antimicrobial peptides; multi-label learning; transductive learning; composition ofK-spaced amino acid pairs (CKSAAP)

      1000-8608(2017)03-0293-09

      2016-09-20;

      2017-03-23.

      國家自然科學基金資助項目(U1560102,61502074);中國博士后科學基金資助項目(2016M591430);大連理工大學基本科研業(yè)務(wù)費資助項目(DUT15RC(3)030).

      布曉婷(1991-),女,碩士生,E-mail:pudding_bxt@126.com;曹雋喆(1984-),男,講師;顧 宏*(1961-),男,教授,博士生導師,E-mail:guhong@dlut.edu.cn.

      TP181

      A

      10.7511/dllgxb201703012

      猜你喜歡
      抗菌肽多肽標簽
      抗菌肽的生物學特性及在畜禽養(yǎng)殖中的應(yīng)用
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      高多肽含量苦瓜新品種“多肽3號”的選育
      新型抗菌肽菌絲霉素純化工藝研究
      廣東飼料(2016年5期)2016-12-01 03:43:21
      抗HPV18 E6多肽單克隆抗體的制備及鑒定
      抗菌肽修飾方法與抗菌機制的研究進展
      標簽化傷害了誰
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      胎盤多肽超劑量應(yīng)用致嚴重不良事件1例
      佛冈县| 古交市| 永登县| 山阴县| 沧源| 和林格尔县| 乌拉特后旗| 漾濞| 余干县| 汕头市| 突泉县| 成都市| 武冈市| 清水河县| 大埔区| 吴江市| 河源市| 博乐市| 邹城市| 泰兴市| 定安县| 普兰县| 融水| 江城| 淮南市| 电白县| 工布江达县| 贵溪市| 雷州市| 邻水| 华坪县| 永仁县| 织金县| 昂仁县| 周至县| 黎平县| 沾益县| 广南县| 靖西县| 莱阳市| 万山特区|