• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多層功能結(jié)構(gòu)的谷物蛋白質(zhì)功能預(yù)測(cè)

      2023-03-31 07:00:06沈婷婷
      關(guān)鍵詞:谷物層級(jí)集群

      沈婷婷,劉 靜,管 驍

      基于多層功能結(jié)構(gòu)的谷物蛋白質(zhì)功能預(yù)測(cè)

      沈婷婷1,劉 靜1※,管 驍2,3

      (1. 上海海事大學(xué)信息工程學(xué)院,上海 201306; 2. 上海理工大學(xué)健康科學(xué)與工程學(xué)院,上海 200093;3. 國(guó)家糧食產(chǎn)業(yè)(城市糧油保障)技術(shù)創(chuàng)新中心,上海 200093)

      為使研究人員可以更加便捷、準(zhǔn)確地選擇功能蛋白質(zhì),更高效完成谷物功能性食品的研發(fā)與創(chuàng)新,該研究提出基于多層功能結(jié)構(gòu)的谷物蛋白質(zhì)功能預(yù)測(cè)方法。該研究首先構(gòu)建多種谷物數(shù)據(jù)共建的大規(guī)模相互作用網(wǎng)絡(luò),通過(guò)集群的功能特征與未知蛋白的交互作用探尋未知蛋白的相關(guān)功能;其次,定義新的蛋白質(zhì)權(quán)重與語(yǔ)義相似度、功能層級(jí)權(quán)重來(lái)確定蛋白質(zhì)可能具有的功能;最后,通過(guò)評(píng)分機(jī)制輔助完成谷物蛋白質(zhì)功能的預(yù)測(cè)結(jié)果的判定。試驗(yàn)結(jié)果表明,該研究提出的預(yù)測(cè)方法使預(yù)測(cè)的功能具有層級(jí)性的特點(diǎn),并且可獲得指定功能蛋白質(zhì);對(duì)功能類別FunCat(functional catelogue)前二層的谷物蛋白質(zhì)功能預(yù)測(cè)平均準(zhǔn)確率達(dá)到85%以上,且能完成對(duì)蛋白質(zhì)的第五層、第六層功能的預(yù)測(cè); 層級(jí)結(jié)構(gòu)的可回溯性使得預(yù)測(cè)結(jié)果差的功能返回至上層功能,并達(dá)到降低假陽(yáng)性的概率、提高算法整體的預(yù)測(cè)準(zhǔn)確率的效果。該研究結(jié)果可為功能類食品、藥品的研發(fā)提供參考。

      蛋白質(zhì);功能;預(yù)測(cè);谷物;蛋白質(zhì)語(yǔ)義;層級(jí)功能蛋白;蛋白質(zhì)相互作用網(wǎng)絡(luò)

      0 引 言

      谷物屬于禾本科植物,包括小麥、大麥、燕麥、玉米、水稻、黑麥、黍稷和高粱等。谷物中含70%~72%的碳水化合物、7%~15%的蛋白質(zhì)以及1%~12%的脂類[1-2]。谷物已經(jīng)成為人類重要的能量來(lái)源,對(duì)健康有著舉足輕重的作用。隨著生活質(zhì)量的提升,人們對(duì)谷物食品的功能性及保健性更加重視。食品的功能性及保健性主要依賴于食品中所含的蛋白質(zhì)。因此,基于蛋白質(zhì)功能的研究對(duì)功能性食品、藥品的開(kāi)發(fā)具有重大意義。

      隨著實(shí)驗(yàn)生物學(xué)和生物信息學(xué)的發(fā)展,大量的谷物蛋白質(zhì)結(jié)構(gòu)以及其功能已經(jīng)被確定[3]。但仍存在著大量未經(jīng)注釋、功能未知的蛋白質(zhì),這些蛋白質(zhì)可能蘊(yùn)含可治療或延緩人類疾病的功能。對(duì)此,谷物蛋白質(zhì)的研究有利于人類對(duì)生物信息更全面地了解以及拓展生物藥物研究領(lǐng)域,因此,目前對(duì)未知功能蛋白質(zhì)的研究與預(yù)測(cè)仍是當(dāng)今熱點(diǎn)話題。

      傳統(tǒng)的預(yù)測(cè)方法通常利用蛋白質(zhì)的內(nèi)部結(jié)構(gòu)和蛋白質(zhì)序列的同源性,通過(guò)FASTA等工具在蛋白質(zhì)數(shù)據(jù)庫(kù)中尋找功能未知蛋白質(zhì)的同源蛋白來(lái)預(yù)測(cè)蛋白質(zhì)的功能[4]。但其并未考慮到蛋白質(zhì)并非單一實(shí)現(xiàn)功能的個(gè)體,而是與其他蛋白質(zhì)進(jìn)行相互作用共同實(shí)現(xiàn)特定功能,所以使用同源性方法進(jìn)行預(yù)測(cè)時(shí)會(huì)缺失部分功能。研究人員考慮到該局限性,文獻(xiàn)[5]作者率先將蛋白質(zhì)的相互作用引入到功能預(yù)測(cè)方法中,預(yù)測(cè)結(jié)果得到較好的改善。且后續(xù)的研究人員在的研究過(guò)程中對(duì)其進(jìn)行了對(duì)該方法的逐漸完善[6-9]。直到蛋白質(zhì)相互作用網(wǎng)絡(luò)(protein-protein interaction networks,PPINs)的提出,使蛋白質(zhì)功能預(yù)測(cè)開(kāi)啟了新的篇章[10]。PPINs是給定生物體的全部蛋白質(zhì)所構(gòu)成的網(wǎng)狀結(jié)構(gòu),其中節(jié)點(diǎn)代表蛋白質(zhì)、邊代表兩個(gè)蛋白質(zhì)之間具有相互作用。根據(jù)已有的研究表明,70%~80%的蛋白質(zhì)在PPINs中至少與它們直接相鄰蛋白有一個(gè)共同的功能[11]。所以,從PPINs與未知蛋白質(zhì)具有相互作用的蛋白功能出發(fā),預(yù)測(cè)與已知蛋白相互作用的未知蛋白的功能成為可能[12]。

      蛋白質(zhì)相互作用網(wǎng)絡(luò)逐漸發(fā)展成熟,越來(lái)越多的研究人員開(kāi)始在研究中融合更多的蛋白質(zhì)信息,以達(dá)到更好的預(yù)測(cè)效果。KOTLYAR[13-14]等開(kāi)始使用各種蛋白質(zhì)特征,將功能注釋與網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和其他如正交學(xué)和旁系物相結(jié)合來(lái)對(duì)蛋白質(zhì)的相互作用及其功能進(jìn)行預(yù)測(cè),共計(jì)得到了250 498條相互作用數(shù)據(jù),豐富了蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)。PAPANIKOLAOU等[15]提出了利用文本挖掘技術(shù)識(shí)別PPINs中蛋白質(zhì)功能的方法。雖然這些方法都得到了大量的預(yù)測(cè)結(jié)果,但在與實(shí)際對(duì)比中發(fā)現(xiàn),仍然存在大量的假陽(yáng)性結(jié)果,準(zhǔn)確率僅為60%左右。并且,這些方法都是從網(wǎng)絡(luò)全局拓?fù)渌阉?,其時(shí)間成本過(guò)高。本文利用層級(jí)化的功能注釋方案,結(jié)合蛋白質(zhì)相互作用網(wǎng)絡(luò),使用動(dòng)態(tài)貪心的策略回溯價(jià)值低的結(jié)果,使得本文提出的預(yù)測(cè)算法可以在預(yù)測(cè)大量蛋白質(zhì)的同時(shí),降低其結(jié)果的假陽(yáng)性概率。

      傳統(tǒng)的方法在與相互作用網(wǎng)絡(luò)中的蛋白質(zhì)功能進(jìn)行比較時(shí),沒(méi)有同時(shí)考慮蛋白質(zhì)功能和功能層的語(yǔ)義相似度。本文利用慕尼黑蛋白質(zhì)序列信息中心開(kāi)發(fā)的FunCat[16]方案中不同層次的功能語(yǔ)義,提出一種新的蛋白質(zhì)功能預(yù)測(cè)方法,該方法充分考慮了蛋白質(zhì)的功能語(yǔ)義以及功能層次,并對(duì)具有層級(jí)特性的功能語(yǔ)義進(jìn)行相似度的定義?;谶@種新的相似度度量以及新的具有層級(jí)語(yǔ)義特性的蛋白質(zhì)預(yù)測(cè)方法,提出一種具有更高精準(zhǔn)度、一種更低假陽(yáng)性概率等優(yōu)點(diǎn)的算法,以期為研究人員提供便捷、準(zhǔn)確地選擇目標(biāo)功能蛋白質(zhì)方法,為谷物功能性食品研發(fā)與創(chuàng)新提供參考。

      1 材料和方法

      1.1 試驗(yàn)材料

      本試驗(yàn)以多種谷物蛋白質(zhì)作為研究對(duì)象,包括玉米、秈稻、粳稻、小麥、大豆5種常見(jiàn)的谷物,其蛋白質(zhì)序列信息從UniProtKB/Swiss-prot數(shù)據(jù)庫(kù)[17]中獲取,蛋白質(zhì)之間的相互作用信息從DIP(database of interacting protein)獲得。目前常用的蛋白質(zhì)功能注釋方案為FunCat方案[16]與GO(gene ontology)術(shù)語(yǔ)[18]。GO術(shù)語(yǔ)分別從蛋白質(zhì)的分子功能、細(xì)胞組分以及生物過(guò)程的角度解釋蛋白質(zhì)的功能及其特性[19],在探索未知的蛋白質(zhì)與基因中被更多地使用;而FunCat方案從蛋白質(zhì)功能語(yǔ)義的遞進(jìn)角度解釋蛋白質(zhì),在探索與應(yīng)用某種具體功能的情景下,其表現(xiàn)力優(yōu)于GO注釋方案。因此,本文采用FunCat功能注釋方案實(shí)現(xiàn)谷物蛋白質(zhì)的多層功能結(jié)構(gòu)的預(yù)測(cè)。

      FunCat是具有六層結(jié)構(gòu)的功能注釋策略。在表1中,展示一組FunCat術(shù)語(yǔ)及其所對(duì)應(yīng)的功能名稱實(shí)例,并描繪了FunCat的層級(jí)連接方式以及層級(jí)功能遞增型結(jié)構(gòu)。容易發(fā)現(xiàn),在底層相同的情況下,隨著層級(jí)的遞增,其表達(dá)的功能更為具體。在實(shí)際的應(yīng)用中,如想獲取具有metabolism of the aspartate family的功能特性的蛋白質(zhì),可選擇具有01.01.06及功能層級(jí)更深的01.01.06.06 等注釋的蛋白質(zhì)作為目標(biāo)對(duì)象開(kāi)展研究。由此可以快速獲取目標(biāo)功能所對(duì)應(yīng)的蛋白質(zhì)信息,減輕從海量蛋白質(zhì)信息鎖定目標(biāo)蛋白的負(fù)擔(dān)。相對(duì)于GO方案而言,F(xiàn)unCat方案在實(shí)際應(yīng)用中更具有靈活性與快捷性,在谷物的功能性食品開(kāi)發(fā)上有著重要的作用。

      表1 每個(gè)級(jí)別的FunCat注釋方案樣本

      1.2 數(shù)據(jù)轉(zhuǎn)換

      數(shù)據(jù)轉(zhuǎn)換作為數(shù)據(jù)預(yù)處理中最重要的一個(gè)環(huán)節(jié),是將不同的數(shù)據(jù)類型與格式進(jìn)行統(tǒng)一。其目的是避免在試驗(yàn)進(jìn)行中出現(xiàn)數(shù)據(jù)不匹配的問(wèn)題,并獲得試驗(yàn)中所需的谷物蛋白質(zhì)所對(duì)應(yīng)的FunCat功能表單。值得注意的一點(diǎn)是,F(xiàn)unCat最開(kāi)始被設(shè)計(jì)出來(lái)的目的是為了更好描述真核單細(xì)胞生物,隨著不斷地完善與發(fā)展,其功能表述越來(lái)越完整,可使用范圍也在不斷擴(kuò)大。到目前為止,尚未有谷物蛋白質(zhì)FunCat注釋,故無(wú)法開(kāi)展FunCat對(duì)谷物蛋白質(zhì)的功能預(yù)測(cè)。為了解決這一問(wèn)題,本文將FunCat功能方案表單、GO術(shù)語(yǔ)表單以及蛋白質(zhì)序列信息表單的格式進(jìn)行統(tǒng)一(PSI-MI格式),將GO功能向FunCat功能進(jìn)行轉(zhuǎn)換。已知大多數(shù)的蛋白質(zhì)在UniProtKB/Swiss-prot數(shù)據(jù)庫(kù)中均有與之對(duì)應(yīng)的GO功能表述,故可以將GO功能表單與FunCat功能表單進(jìn)行功能匹配,其中約有90%的蛋白質(zhì)功能可以利用描述作為關(guān)鍵字連接GO功能以及FunCat功能表單。剩余10%的蛋白質(zhì)功能表述在GO和FunCat功能表單中并不完全一致,其原因是FunCat被定義之初用于描述和應(yīng)用于真核單細(xì)胞生物,而GO被應(yīng)用于全體生物,二者互不影響,以至于部分功能描述沒(méi)有得到統(tǒng)一。為確定GO與FunCat表述不完全一致的功能描述是否為同一功能,通過(guò)遍歷分別使用GO、FunCat注釋的蛋白質(zhì)相互作用網(wǎng)絡(luò)、對(duì)照蛋白質(zhì)相互作用信息以及缺失的FunCat功能信息,確定剩余的FunCat功能對(duì)應(yīng)的GO功能。本文確定了1 360個(gè)類別的FunCat功能和7 899個(gè)谷物蛋白質(zhì)具有的41 696個(gè)GO功能。部分GO功能表單與其對(duì)應(yīng)的FunCat表單如表2所示,例如對(duì)于GO:0007049所對(duì)應(yīng)的功能為cell cycle and dna processing,而編號(hào)為10的FunCat功能也對(duì)應(yīng)于該功能,即GO功能注釋方案的GO:0007049可映射為FunCat功能注釋方案的10。

      表2 FunCat與GO的數(shù)據(jù)轉(zhuǎn)換表單樣例

      1.3 功能預(yù)測(cè)

      本文首先對(duì)已有的谷物蛋白質(zhì)信息構(gòu)建相互作用網(wǎng)絡(luò),并對(duì)其網(wǎng)絡(luò)中存在的功能信息模塊進(jìn)行挖掘,從而達(dá)到預(yù)測(cè)未知蛋白質(zhì)功能的目的,其中最簡(jiǎn)單、有效的挖掘方法是對(duì)構(gòu)建的蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類。本文使用的多中心的非平衡-均值聚類方法[20]在實(shí)際應(yīng)用中得到較好的聚類效果,試驗(yàn)結(jié)果表明,本文所使用的算法簇內(nèi)相似度高、簇間相似度低以及其在結(jié)果的表達(dá)上優(yōu)于其他聚類算法。其中,聚類過(guò)程中的聚類中心個(gè)數(shù)由輪廓系數(shù)法(silhouette coefficient)[21]確定。輪廓系數(shù)法結(jié)合了聚類的凝聚度(cohesion)和分離度(separation),其取值在[-1,1]范圍內(nèi),值越大表明聚類效果越好,若某類的輪廓系數(shù)為負(fù)值則表明該類被誤分。

      本試驗(yàn)首先將所有蛋白歸類到一個(gè)PPI網(wǎng)絡(luò);然后,使用多中心的非平衡-均值聚類方法對(duì)所構(gòu)建的蛋白質(zhì)相互作用網(wǎng)絡(luò)進(jìn)行聚類操作;再者,對(duì)聚類所得到的集群定義其功能特征,并記錄其與未知蛋白之間的相互作用信息;最后,對(duì)未知蛋白進(jìn)行功能預(yù)測(cè)。整體的功能預(yù)測(cè)流程如圖1所示。

      圖1 谷物蛋白功能預(yù)測(cè)實(shí)現(xiàn)流程

      1.3.1 聚類功能的特征排序和選擇

      網(wǎng)絡(luò)在聚類后會(huì)形成具有模塊化結(jié)構(gòu)的集群。一般來(lái)說(shuō),集群的功能特征是指集群內(nèi)最常見(jiàn)的功能可以借助FunCat的層級(jí)來(lái)計(jì)算功能出現(xiàn)的頻率。FunCat功能方案可以將蛋白質(zhì)的功能分成6個(gè)層級(jí)進(jìn)行描述。利用這一特性,對(duì)一個(gè)集群中的全部蛋白質(zhì)的各功能層功能進(jìn)行統(tǒng)計(jì)計(jì)數(shù),即可得到該集群中各層級(jí)蛋白質(zhì)功能出現(xiàn)的頻率。具體如下所示:

      1)對(duì)FunCat功能中的第一層功能(以下簡(jiǎn)稱一級(jí)功能)在集群中出現(xiàn)的頻率進(jìn)行排序,并對(duì)成功排序的每一個(gè)一級(jí)功能對(duì)應(yīng)的第二層功能(以下簡(jiǎn)稱二級(jí)功能)進(jìn)行排序。以此類推,直到達(dá)到預(yù)期的水平(如第三級(jí))。

      2)選擇出現(xiàn)頻率最高的一級(jí)功能(例如選擇排名前三的功能),并為每個(gè)功能對(duì)應(yīng)的二級(jí)功能選出排名前三的功能,以此類推。最后,通過(guò)FunCat不同功能層級(jí)間的連接符(.)將它們連接起來(lái)形成蛋白質(zhì)集群的功能特征。集群的功能特征挑選過(guò)程如圖2所示:以三層功能為例(若期望更深層次的功能特征描述,可繼續(xù)遞進(jìn)增加功能層深度)。在實(shí)例中,若01、05、02分別是第1、2、3層排名第一的功能,那么01.05.02則為該集群最顯著的特征功能,其他功能特征為次顯著功能特征。

      圖2 集群功能特征的定義與選擇流程(部分)

      1.3.2 聚類功能特征加權(quán)

      集群功能特征權(quán)重是用來(lái)衡量選定功能特征在集群中的重要性,是對(duì)集群內(nèi)功能局部重要性的度量。假設(shè)集群的選定功能特征的數(shù)量為n,功能的層次排名為,那么功能在集群中的權(quán)重W被定義為

      1.3.3 未知蛋白與相關(guān)集群之間的相互作用權(quán)重計(jì)算

      相互作用權(quán)重是指在所有與未知蛋白質(zhì)具有相互作用的集群中,各個(gè)集群對(duì)未知蛋白質(zhì)功能預(yù)測(cè)的影響因子。在PPI網(wǎng)絡(luò)中,若未知蛋白質(zhì)和集群中的任何蛋白質(zhì)之間存在相互作用,則認(rèn)為該集群與未知蛋白質(zhì)具有相互作用[22]。且后續(xù)的研究人員為衡量相互作用的權(quán)重,引入概率模型[23]。蛋白質(zhì)與集群相互作用的概率u()被定義為

      式中是未知蛋白,與未知蛋白相互作用的集群總數(shù)是,m()是未知蛋白和集群之間具有的相互作用的數(shù)量。若得到較高的概率結(jié)果,則表明集群對(duì)未知蛋白質(zhì)的功能預(yù)測(cè)有較大的影響,并令未知蛋白與集群之間的相互作用概率作為相互作用權(quán)重。

      1.3.4 對(duì)功能預(yù)測(cè)結(jié)果的評(píng)價(jià)與打分

      未知蛋白質(zhì)的功能來(lái)自與其具有較高相互作用權(quán)重的集群功能特征。因此,基于式(1)與式(2),集群投射到未知蛋白質(zhì)的功能特征對(duì)功能預(yù)測(cè)的權(quán)重W被定義為

      式中F為集群的功能特征集。具體運(yùn)用如下:假設(shè)未知蛋白質(zhì)與若干個(gè)集群具有相互作用,單個(gè)集群的3個(gè)功能特征分別為(1)10.03.01.03(2)=11.02.03.04(3)=01.03.04,根據(jù)(1) 的權(quán)重定義可得3個(gè)功能權(quán)重分別為(1)1(2)=2/3(3)=1/3;再由式(2)的相互作用概率得出(1)=3/8(2)=1/2(3)=1/8;最后通過(guò)式(3)得出該集群的3個(gè)功能與未知蛋白質(zhì)之間的功能影響因子為,1(1)=3/8W,2(1)=1/4W,3(1)=1/8。

      假設(shè)與未知蛋白質(zhì)具有相互作用的集群數(shù)量為與具有交互作用集群的所有功能特征對(duì)未知蛋白質(zhì)的功能預(yù)測(cè)得分如式(4)所示,()對(duì)應(yīng)于式(3)中的集群投射到未知蛋白質(zhì)的功能特征對(duì)功能預(yù)測(cè)的權(quán)重[24]。

      式中S是在算法模型內(nèi)對(duì)預(yù)測(cè)出的蛋白質(zhì)功能進(jìn)行打分,其結(jié)果的大小作為確定最終蛋白質(zhì)功能的一個(gè)參數(shù),分值范圍為[0,1],分值越高代表在所得到的蛋白質(zhì)預(yù)測(cè)結(jié)果可能符合其真實(shí)的功能的概率越高。此過(guò)程是將模型對(duì)蛋白質(zhì)功能的評(píng)判數(shù)值化,其目的是為了更好的從眾多數(shù)據(jù)中挑出最有可能是“真實(shí)功能”的結(jié)果。產(chǎn)生的評(píng)分值不代表對(duì)模型的評(píng)估,而是算法模型對(duì)蛋白質(zhì)的衡量。就該評(píng)分本身而言,需盡可能多的包含被預(yù)測(cè)蛋白質(zhì)的相關(guān)權(quán)重信息[25],故將試驗(yàn)進(jìn)程中的各步驟都進(jìn)行加權(quán)包含于最終的評(píng)分公式之中,最終確定評(píng)分如式(4)。

      最后,將與未知蛋白具有相互作用的集群中所有功能特征的得分進(jìn)行排名,排名越靠前的功能說(shuō)明越有可能是未知蛋白的真實(shí)功能。最終得到的預(yù)測(cè)功能結(jié)果可能來(lái)自多個(gè)不同的集群,這與傳統(tǒng)的基于聚類的功能預(yù)測(cè)方法有本質(zhì)區(qū)別。

      1.4 評(píng)價(jià)指標(biāo)的選取與性能分析

      為了驗(yàn)證本文提出算法的有效性,在PPI數(shù)據(jù)集上基于多層功能結(jié)構(gòu)的谷物蛋白質(zhì)功能進(jìn)行預(yù)測(cè)。本文選取精度準(zhǔn)確率()、召回率()和值等方面進(jìn)行評(píng)估。設(shè)N為所有預(yù)測(cè)的結(jié)果的的數(shù)量,N是正確預(yù)測(cè)結(jié)果的數(shù)量,N是所有已經(jīng)注釋的功能的數(shù)量。精度和召回率分別定義為

      如果精度和召回率都能達(dá)到算法性能的最高值即為最佳效果。然而,通常在高精確度和高召回率之間會(huì)有一個(gè)權(quán)衡,大多情況下二者不會(huì)同時(shí)達(dá)到最好的結(jié)果。為了同時(shí)考慮這兩個(gè)指標(biāo)可以達(dá)到權(quán)衡最優(yōu),引入了值[26]。

      2 結(jié)果與分析

      試驗(yàn)選取5種谷物蛋白作為研究對(duì)象,以構(gòu)建大規(guī)模相互作用網(wǎng)絡(luò)。其中秈稻、粳稻、玉米、大豆及小麥的比例分別為11.57%、53.14%、16.57%、0.42%和18.30%,其數(shù)據(jù)來(lái)源如1.1小節(jié)所述。多物種構(gòu)建的蛋白質(zhì)相互作用網(wǎng)絡(luò)在進(jìn)行功能性挖掘時(shí),其結(jié)果會(huì)優(yōu)于單一物種構(gòu)建的蛋白質(zhì)相互作用網(wǎng)絡(luò)[27-28]。為了保證評(píng)價(jià)的客觀性,從數(shù)據(jù)集中隨機(jī)選擇了5組數(shù)據(jù),其中每組均由3 000個(gè)PPI數(shù)據(jù)構(gòu)成,其中所包含的蛋白質(zhì)作為測(cè)試集。由于PPI數(shù)據(jù)是關(guān)系型數(shù)據(jù),故其涉及的蛋白質(zhì)數(shù)目是不確定的,非定量的預(yù)測(cè)方案使得本文算法的性能更具有說(shuō)服力。而對(duì)于定量測(cè)試的需求,本算法需在每組數(shù)據(jù)中隨機(jī)選定若干蛋白質(zhì)作為未知的蛋白質(zhì)進(jìn)行預(yù)測(cè),以達(dá)到評(píng)價(jià)算法有效性的目的。

      2.1 預(yù)測(cè)結(jié)果性能分析

      由于FunCat是功能層級(jí)遞增的結(jié)構(gòu),上一層級(jí)功能對(duì)下一層級(jí)的功能具有指導(dǎo)作用,所以上一級(jí)的性能評(píng)價(jià)會(huì)高于下一級(jí)的性能評(píng)價(jià)。已知現(xiàn)存谷物蛋白質(zhì)有超過(guò)60%的功能均為三級(jí)和四級(jí)功能,五級(jí)功能和六級(jí)功能只占所有蛋白質(zhì)功能的10%左右。以蛋白質(zhì)實(shí)際具有的功能為標(biāo)準(zhǔn),對(duì)本文提出的算法進(jìn)行評(píng)估,對(duì)于不同層級(jí)功能的預(yù)測(cè)結(jié)果均值如表3所示,該試驗(yàn)為非定量的預(yù)測(cè)。可以發(fā)現(xiàn),本文提出的算法在第一層級(jí)功能的精準(zhǔn)度結(jié)果接近92%,第二層級(jí)功能的精準(zhǔn)度達(dá)到85%左右,結(jié)果表現(xiàn)優(yōu)于其他算法[29-31]。試驗(yàn)數(shù)據(jù)中約有5%的蛋白質(zhì)由于沒(méi)有對(duì)應(yīng)的FunCat功能表達(dá)而導(dǎo)致預(yù)測(cè)的不成功,若將此部分功能數(shù)據(jù)剔除,所得到的結(jié)果將會(huì)得到更進(jìn)一步提升。

      本文提出的算法對(duì)三級(jí)功能與四級(jí)功能的準(zhǔn)確率分別可達(dá)到78%、69%。則前四層的蛋白質(zhì)功能的平均準(zhǔn)確率高于80%。三級(jí)功能與四級(jí)功能相較于一級(jí)功能、二級(jí)功能準(zhǔn)確率、召回率以及值均有所降低,其根本原因在于選擇集群功能特征時(shí),僅選擇了排名靠前的幾個(gè)功能特征,從而導(dǎo)致部分主要特征的丟失,并且隨著預(yù)測(cè)層級(jí)的加深該特性被逐漸放大。考慮到該問(wèn)題,本文將評(píng)分機(jī)制(式(4))與之結(jié)合,評(píng)分低于0.2的預(yù)測(cè)結(jié)果回溯至其上層功能記錄并輸出。即便沒(méi)有預(yù)測(cè)至精準(zhǔn)層級(jí),所得的低等層級(jí)功能也對(duì)試驗(yàn)研究具有指導(dǎo)意義。該方法在一定程度上減少了預(yù)測(cè)結(jié)果的假陽(yáng)性。

      表3 谷物蛋白在FunCat不同層次的功能預(yù)測(cè)評(píng)價(jià)

      為了盡可能預(yù)測(cè)出未知蛋白質(zhì)的全部功能,試驗(yàn)過(guò)程中同時(shí)為每個(gè)集群選擇多個(gè)功能特征,并在最終預(yù)測(cè)中選擇多個(gè)功能得分排名較高的功能。為了驗(yàn)證本文所提出的方法是否可以在較大規(guī)模的未知蛋白質(zhì)的情況下可以表現(xiàn)良好,并找到最優(yōu)的規(guī)模解,采用分組的方式對(duì)其進(jìn)行驗(yàn)證,從50個(gè)蛋白質(zhì)逐步增加到400個(gè)蛋白質(zhì)作為未知蛋白質(zhì)樣本。由于現(xiàn)有研究中幾乎沒(méi)有類似的結(jié)果可用來(lái)比較,因此,將本文提出的算法在不同大小的數(shù)據(jù)子集上對(duì)準(zhǔn)確率、召回率和值結(jié)果進(jìn)行了比較。對(duì)蛋白質(zhì)功能的精準(zhǔn)層級(jí)預(yù)測(cè)的試驗(yàn)結(jié)果如表4所示。特別說(shuō)明,蛋白質(zhì)可能擁有多個(gè)不同層級(jí)的功能,如蛋白質(zhì)P86520具有的42.07、16.03.01、36.20.16分別為2級(jí)功能、3級(jí)功能、3級(jí)功能,精準(zhǔn)層級(jí)預(yù)測(cè)需對(duì)這每個(gè)功能的最高層級(jí)功能進(jìn)行預(yù)測(cè),即2級(jí)、3級(jí)、3級(jí)功能。

      表4 對(duì)不同規(guī)模的谷物蛋白的功能預(yù)測(cè)評(píng)價(jià)

      從表4可以看出,本文提出的方法對(duì)不同規(guī)模的數(shù)據(jù)集的功能預(yù)測(cè)性能相對(duì)穩(wěn)定。當(dāng)?shù)鞍踪|(zhì)數(shù)量規(guī)模取50時(shí),取得的結(jié)果較好,其準(zhǔn)確率可以達(dá)到76%;取100時(shí),準(zhǔn)確率可以達(dá)到72%;取200時(shí),其準(zhǔn)確率仍能達(dá)到66%,并且隨著蛋白質(zhì)數(shù)量規(guī)模的增大,結(jié)果趨于平緩,由此可以證明本文提出的方法具有一定的穩(wěn)定性。但結(jié)果對(duì)比層級(jí)性的功能預(yù)測(cè)結(jié)果(表3),可發(fā)現(xiàn)指定蛋白質(zhì)數(shù)目的預(yù)測(cè)性能未到達(dá)該水平,其原因在于僅在界定范圍內(nèi)選取排名高的功能特征,而忽視了其他功能特征,導(dǎo)致結(jié)果性能有所下降,但仍不可忽視其性能的優(yōu)越性。

      使用功能回溯后,本文提出的算法的準(zhǔn)確率、召回率及值均有較大程度的提升,回溯前后結(jié)果對(duì)比見(jiàn)表5。大多高層級(jí)的功能被回溯至三級(jí)功能或四級(jí)功能。

      將傳統(tǒng)的基于FunCat功能注釋方案的蛋白質(zhì)功能預(yù)測(cè)方法與本文提出的方法進(jìn)行對(duì)比,包括SAHA等提出的FunPred_SeqSim[29]工具、ALTUNTAS提出的DAC[30]方法、YU等[31]提出的PILL方法以及將本文提出的方法進(jìn)行功能回溯后的結(jié)果進(jìn)行對(duì)比。FunPred_SeqSim算法將蛋白質(zhì)序列的相似性以及蛋白質(zhì)相互作用信息融合預(yù)測(cè)蛋白質(zhì)。DAC算法利用網(wǎng)絡(luò)中各節(jié)點(diǎn)的空間信息對(duì)蛋白質(zhì)的功能進(jìn)行拓?fù)溥_(dá)到預(yù)測(cè)蛋白質(zhì)功能的作用。PILL方法利用蛋白質(zhì)功能層級(jí)的不完全層級(jí)來(lái)預(yù)測(cè)蛋白質(zhì)功能的。不同算法對(duì)比結(jié)果如表5所示。

      表5 本文提出的方法與其他算法的對(duì)比

      從表5中可以觀察到,相較于其他傳統(tǒng)算法,本文提出的方法在準(zhǔn)確率以及值有明顯的提升且召回率也有較大改善。側(cè)面說(shuō)明本文提出的方法對(duì)于蛋白質(zhì)的FunCat精準(zhǔn)功能層級(jí)的預(yù)測(cè)有較大程度的突破,精準(zhǔn)度可達(dá)77%;而對(duì)于模糊的蛋白質(zhì)功能預(yù)測(cè)基于本文提出的方法進(jìn)行功能層級(jí)的回溯還可得到更高的評(píng)價(jià)結(jié)果。模糊的蛋白質(zhì)功能并不意味是錯(cuò)誤的結(jié)果,而是鎖定了蛋白質(zhì)可能具有的精確功能的范圍。具有功能層級(jí)越高的蛋白質(zhì)越是難以準(zhǔn)確預(yù)測(cè),五級(jí)功能及六級(jí)功能預(yù)測(cè)的平均準(zhǔn)確率在61%左右,召回率均值約為52%,值均值約為55%,整體水平使得預(yù)測(cè)結(jié)果不值得被信任。但將所得預(yù)測(cè)功能回溯至其上一個(gè)功能層級(jí)或兩個(gè)功能層級(jí),回溯后的蛋白質(zhì)功能預(yù)測(cè)結(jié)果準(zhǔn)確率高達(dá)92%,其結(jié)果的可信度會(huì)得到大幅提升,并且所得回溯結(jié)果可為后續(xù)研究蛋白質(zhì)實(shí)際功能的生物試驗(yàn)提供方向,為研究人員減少一定程度的時(shí)間成本。

      2.2 部分結(jié)果樣本的分析與說(shuō)明

      在本節(jié)中,選取了幾個(gè)具有代表性的結(jié)果,包含精準(zhǔn)預(yù)測(cè)的結(jié)果以及功能回溯后的結(jié)果,如表6所示。在GO功能注釋與FunCat功能注釋一一對(duì)應(yīng)時(shí),可能會(huì)產(chǎn)生功能的多對(duì)一、一對(duì)多以及無(wú)法匹配的情況。首先,產(chǎn)生功能的一對(duì)多與多對(duì)一的原因是GO功能注釋方案與FunCat功能注釋方案均為樹(shù)狀注釋體系,其關(guān)鍵節(jié)點(diǎn)的分枝細(xì)化程度不一,有的GO功能細(xì)化到更深的程度,而與之對(duì)應(yīng)的FunCat功能沒(méi)有細(xì)化到這一層次,這樣就會(huì)造成GO功能的多個(gè)功能對(duì)應(yīng)于FunCat功能的其中一個(gè)功能。反之,若FunCat的某一功能節(jié)點(diǎn)的細(xì)化程度過(guò)高,則會(huì)造成單一的GO功能對(duì)應(yīng)于多個(gè)FunCat功能。對(duì)于上述的兩種情況,在試驗(yàn)過(guò)程中選定細(xì)化程度低的一方作為試驗(yàn)中預(yù)測(cè)功能的標(biāo)準(zhǔn),所得預(yù)測(cè)結(jié)果雖可能與實(shí)際功能略有偏差,但仍對(duì)試驗(yàn)具有指導(dǎo)意義。在實(shí)際的應(yīng)用中,秈稻的GO:0003677與粳稻的GO:0043565對(duì)應(yīng)的FunCat功能均為16.03.01,即為功能描述的多對(duì)一的情況。除此之外,還存在功能無(wú)法匹配而導(dǎo)致功能預(yù)測(cè)結(jié)果缺失的情況,如小麥的GO:0015066功能在FunCat功能庫(kù)中沒(méi)有與之對(duì)應(yīng)的功能,其原因在于FunCat數(shù)據(jù)庫(kù)最開(kāi)始應(yīng)用于細(xì)菌類以及真核單細(xì)胞生物,后續(xù)研究人員對(duì)FunCat數(shù)據(jù)庫(kù)進(jìn)行擴(kuò)充時(shí)還沒(méi)有完全豐富該庫(kù),但預(yù)留的第99類可作為擴(kuò)充的信息源。

      在試驗(yàn)過(guò)程中,層次遞增型的預(yù)測(cè)模型可能會(huì)導(dǎo)致獲取過(guò)度預(yù)測(cè)結(jié)果或降維預(yù)測(cè)結(jié)果(過(guò)度預(yù)測(cè)為超越蛋白質(zhì)實(shí)際功能所具有的層級(jí);降維預(yù)測(cè)為未達(dá)到蛋白質(zhì)實(shí)際功能所具有的層級(jí))。例如,秈稻的GO:0004674對(duì)應(yīng)的功能為30.01.05.01.06,但在實(shí)際回溯后預(yù)測(cè)的結(jié)果中得到的是30.01.05.01,這是由于30.01.05.01.06是30.01.05.01的分枝功能,后者功能包含前者,故認(rèn)為所得預(yù)測(cè)結(jié)果正確。而大豆的GO:0005783功能被預(yù)測(cè)成42.07.01,但其實(shí)際功能為42.07,是過(guò)度預(yù)測(cè)結(jié)果,本文認(rèn)為過(guò)度預(yù)測(cè)的結(jié)果是不正確的,即使其結(jié)果打分為0.96,但仍應(yīng)從結(jié)果中刪除??紤]到過(guò)度預(yù)測(cè)結(jié)果過(guò)多會(huì)影響研究人員在實(shí)際應(yīng)用中對(duì)蛋白質(zhì)功能的判斷,因此要減少此類情況的出現(xiàn),所以在進(jìn)行集群特征選擇時(shí)將權(quán)重過(guò)低的功能特征從特征集中刪除。

      由試驗(yàn)結(jié)果可知,雖試驗(yàn)結(jié)果有較小的偏差,但仍有95%以上蛋白質(zhì)被注釋,并在注釋的蛋白質(zhì)中被正確注釋的達(dá)到90%以上,整體準(zhǔn)確率可達(dá)80%以上。未被注釋的約5%的蛋白質(zhì)是由于FunCat功能庫(kù)的缺失,無(wú)法匹配功能,導(dǎo)致在預(yù)測(cè)時(shí)無(wú)法被成功注釋。

      表6 谷物蛋白質(zhì)功能預(yù)測(cè)結(jié)果部分樣例

      3 結(jié)論與討論

      本文將具有FunCat層級(jí)結(jié)構(gòu)的蛋白質(zhì)功能預(yù)測(cè)應(yīng)用于谷物蛋白中,并提出了利用蛋白質(zhì)語(yǔ)義及分層蛋白質(zhì)功能結(jié)構(gòu)的功能預(yù)測(cè)框架。該方法可以在預(yù)測(cè)谷物蛋白質(zhì)功能時(shí)指定預(yù)測(cè)蛋白質(zhì)的功能層級(jí),并且可回溯功能的預(yù)測(cè)方法使得假陽(yáng)性的結(jié)果大幅度降低。

      通過(guò)主流的評(píng)價(jià)方法對(duì)本文所提出的方法進(jìn)行評(píng)價(jià),證明該方法對(duì)谷物蛋白質(zhì)的功能預(yù)測(cè)有良好的表現(xiàn),對(duì)于蛋白質(zhì)的功能預(yù)測(cè)準(zhǔn)確率約為77%,而對(duì)于回溯后的模糊的蛋白質(zhì)功能預(yù)測(cè)準(zhǔn)確率可以達(dá)到92%。因此,該方法不僅可以預(yù)測(cè)蛋白質(zhì)的精準(zhǔn)功能,還可以預(yù)測(cè)蛋白質(zhì)功能范圍,為研究人員在功能性蛋白質(zhì)選擇時(shí)提供便利。

      試驗(yàn)結(jié)果表明,本文提出的方法在預(yù)測(cè)大量未知蛋白質(zhì)功能方面是有效并且可行的。但對(duì)于界定了具體范圍的蛋白質(zhì)數(shù)據(jù)集中進(jìn)行預(yù)測(cè),其準(zhǔn)確率和召回率結(jié)果不佳。其主要原因是,在試驗(yàn)集群的特征選擇時(shí)僅選取了權(quán)重及評(píng)分靠前的幾個(gè)特征功能,但實(shí)際應(yīng)用中其他影響權(quán)重相對(duì)低的功能特征仍有可能成為未知蛋白的功能組成。

      盡管本文提出的方法在谷物數(shù)據(jù)集上表現(xiàn)良好,但仍有一些問(wèn)題可以在未來(lái)進(jìn)行改進(jìn)。目前,試驗(yàn)中使用的相似性度量是基于直接與未知蛋白質(zhì)具有相互作用的蛋白質(zhì)的功能。然而,僅通過(guò)直接相互作用的蛋白質(zhì)功能很難獲取一個(gè)未知蛋白質(zhì)的全部功能,未知蛋白質(zhì)也可能與其他沒(méi)有直接相互作用的蛋白質(zhì)共享功能。那么如何將PPI(protein-protein interaction)中的這種非直接相互作用的功能成功預(yù)測(cè)可作為下一步研究的內(nèi)容。

      [1] XU Y, YANG J, DU L, et al. Association of whole grain, refined grain, and cereal consumption with gastric cancer risk: A meta‐analysis of observational studies[J]. Food Science & Nutrition, 2019, 7(1): 256-265.

      [2] 張敏,吳崇友,陳旭,等.近紅外光譜式聯(lián)合收割機(jī)谷物蛋白質(zhì)含量檢測(cè)系統(tǒng)設(shè)計(jì)[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(1):36-43.

      ZHANG Min, WU Chongyou, CHEN Xu, et al, Design of near-infrared spectral grain protein detection system for combine-harvesters[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE),2021,37(1): 36-43.(in Chinese with English abstract)

      [3] GONG X, AN Q, LE L, et al. Prospects of cereal protein-derived bioactive peptides: Sources, bioactivities diversity, and production[J]. Critical Reviews in Food Science and Nutrition, 2022, 62(11): 2855-2871.

      [4] ISLAM S I, JAHAN M M. Functional annotation of uncharacterized protein from photobacterium damselae subsp. piscicida () and comparison of drug target between conventional medicine and phytochemical compound against disease treatment in fish: An in-silico approach[J]. Genetics of Aquatic Organisms, 2022, 6(3): 1-14.

      [5] WALHOUT A J M, SORDELLA R, LU X, et al. Protein interaction mapping in C. elegans using proteins involved in vulval development[J]. Science, 2000, 287(5450): 116-122.

      [6] VELLA D, MARINI S, VITALI F, et al. MTGO: PPI network analysis via topological and functional module identification[J]. Scientific Reports, 2018, 8(1): 5499.

      [7] ZHOU X, ZHENG W, LI Y, et al. I-TASSER-MTD: A deep-learning-based platform for multi-domain protein structure and function prediction[J]. Nature Protocols, 2022, 17(10): 2326-2353.

      [8] 雷秀娟,高銀,郭玲. 基于拓?fù)鋭?shì)加權(quán)的動(dòng)態(tài)PPI網(wǎng)絡(luò)復(fù)合物挖掘方法[J]. 電子學(xué)報(bào),2018,46(1):145-151.

      LEI Xiujuan, GAO Yin, GUO Ling. Mining protein complexes based on topology potential weight in dynamic protein-protein interaction networks[J]. Chinese journal of electtonics, 2018, 46(1): 145-151. (in Chinese with English abstract)

      [9] PENG W, WANG J, CAI J, et al. Improving protein function prediction using domain and protein complexes in PPI networks[J]. BMC Systems Biology, 2014, 8(1): 1-13.

      [10] ROSA S, BERTASO C, PESARESI P, et al. Synthetic protein circuits and devices based on reversible protein-protein interactions: An overview[J]. Life, 2021, 11(11): 1-10.

      [11] STATELLO L, GUO C J, CHEN L L, et al. Gene regulation by long non-coding RNAs and its biological functions[J]. Nature Reviews Molecular Cell Biology, 2021, 22(2): 96-118.

      [12] BAN Z, YUAN P, YU F, et al. Machine learning predicts the functional composition of the protein corona and the cellular recognition of nanoparticles[J]. Proceedings of the National Academy of Sciences, 2020, 117(19): 10492-10499.

      [13] KOTLYAR M, PASTRELLO C, PIVETTA F, et al. In silico prediction of physical protein interactions and characterization of interactome orphans[J]. Nature Methods, 2015, 12(1): 79-84.

      [14] CHEN K H, WANG T F, HU Y J. Protein-protein interaction prediction using a hybrid feature representation and a stacked generalization scheme[J]. BMC Bioinformatics, 2019, 20(1): 1-17.

      [15] PAPANIKOLAOU N, PAVLOPOULOS G A, THEODOSIOU T, et al. Protein–protein interaction predictions using text mining methods[J]. Methods, 2015, 74: 47-53.

      [16] MEWES H W, DIETMANN S, FRISHMAN D, et al. MIPS: analysis and annotation of genome information in 2007[J]. Nucleic Acids Research, 2008, 36(suppl_1): 196-201.

      [17] BOUTET E, LIEBERHERR D, TOGNNOLLI M, et al. UniProtKB/Swiss-Prot, the manually annotated section of the UniProt KnowledgeBase: How to use the entry view[J]. Plant Bioinformatics: Methods and Protocols, 2016, 1374(1): 23-54.

      [18] Gene Ontology Consortium. The gene ontology resource: 20 years and still GOing strong[J]. Nucleic Acids Research, 2019,47(D1): D330-D338.

      [19] KANEHISA M, SATO Y. KEGG Mapper for inferring cellular functions from protein sequences[J]. Protein Science, 2020, 29(1): 28-35.

      [20] 亓慧. 多中心的非平衡K-均值聚類方法[J]. 中北大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(4):453-457.

      QI Hui. Imbalanced K-means clustering method with multiple centers[J]. Journal of North Central University (Natural Sciences Edition), 2015, 36(4): 453-457. (in Chinese with English abstract)

      [21] DINH D T, FUJINAMI T, HUYNH V N. Estimating the optimal number of clusters in categorical data clustering by silhouette coefficient[C]//International Symposium on Knowledge and Systems Sciences. Springer, Singapore, 2019: 1-17.

      [22] HUTTLIN E L, BRUCKNER R J, NAVARRETE-PEREA J, et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome[J]. Cell, 2021, 184(11): 3022-3040.

      [23] CHATTLA S, SHMUELI G. Linear probability models (LPM) and big data: The good, the bad, and the ugly[J]. Indian School of Business Research Paper Series, 2016(11): 1-45.

      [24] 李峰,孫波,王軒,等. 層次分析法結(jié)合熵權(quán)法評(píng)估農(nóng)村屋頂光伏系統(tǒng)電能質(zhì)量[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(11):159-166.

      LI Feng, SUN Bo, WANG Xuan, et al. Power quality assessment for rural rooftop photovoltaic access system based on analytic hierarchy process and entropy weight method[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(11): 159-166. (Transactions of the CSAE)

      [25] MATEO J R S C. Weighted Sum Method and Weighted Product Method[M]//Multi criteria analysis in the renewable energy industry. Springer, London, 2012: 19-22.

      [26] HAND D,CHRISTEN P. A note on using the F-measure for evaluating record linkage algorithms[J]. Statistics and Computing, 2018, 28(3): 539-547.

      [27] STRYDOM T, CATCHEN M D, BANVILE F, et al. A roadmap towards predicting species interaction networks (across space and time)[J]. Philosophical Transactions of the Royal Society B, 2021, 376(1837): 1-17.

      [28] VAN Leene J, HAN C, GADEYNE A, et al. Capturing the phosphorylation and protein interaction landscape of the plant TOR kinase[J]. Nature Plants, 2019, 5(3): 316-327.

      [29] SAHA S, CHATTERJEE P, BASU S, et al. Multiple functions prediction of yeast saccharomyces cerevisiae proteins using protein interaction information, sequence similarity and FunCat taxonomy[C]//2020 IEEE 1st International Conference for Convergence in Engineering (ICCE). IEEE, India, Kolkata, 2020: 170-174.

      [30] ALTUNTAS V. Diffusion alignment coefficient (DAC): A novel similarity metric for protein-protein interaction network[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2022(6): 1-11.

      [31] YU G, ZHU H, DOMENICONI C. Predicting protein functions using incomplete hierarchical labels[J]. BMC Bioinformatics, 2015, 16(1): 1-12.

      Prediction of cereal protein function based on multilayer functional structures

      SHEN Tingting1, LIU Jing1※, GUAN Xiao2,3

      (1.,,201306,; 2.,,200093,;3.(),200093,)

      Cereals are very valuable food sources of healthy and sustainable protein. Food innovations in cereal protein are ever transitioning to more sustainable food systems for healthy diets. A more precise understanding is required by the functions that cereal proteins have. The application of cereal proteins has greatly contributed to genomics and food science today. In this study, a functional prediction was proposed for the cereal proteins using a multilayer functional structure, in order to select the functional proteins more conveniently and accurately. A large-scale interaction network was also constructed with the indica, japonica, wheat, maize, and soybean data. Firstly, the relevant functions of unknown proteins were explored via the interaction of functional features of clusters with the unknown proteins. Secondly, new protein weights, semantic similarity, and functional hierarchy weights were defined to determine the possible functions of proteins. Finally, the grain protein function was further determined using a scoring mechanism in the prediction of the function. The results show that better performance was achieved to predict the function of cereal proteins, particularly with a precision of about 77% for the accurate protein function prediction and up to 92% for the fuzzy protein function prediction using retraceability. A great contribution was made to determine the functional range of unknown proteins, especially with the high efficiency of prediction. The precision of protein function prediction varied significantly at different levels, with an average precision of 92% at level-1, 85% at level-2, and 69% at the level-4. More importantly, the average precision was close to 80% in all six levels of FunCat. As such, the multi-layer functional structure of proteins was predicted to calculate the number of unknown proteins with different sizes. The precision of the prediction was 76% at an unknown protein size of 50, 72% at an unknown protein number of 100, and 66% at an unknown protein number of 200. There was no sharp decrease with the significant increase in the prediction size. It infers that the prediction still performed the best in the case of large-scale unknown proteins. A comparison was made with the latest algorithms, such as FUNPRED_SEQSIN, DAC (Diffusion Alignment Coefficient), and PILL (Predict protein function using Incomplete hierarchical LabeLs). In terms of precision, recall, and F-measured, the performance of the improved prediction was significantly better than the others. The experimental results show that 1) the prediction can be expected to serve as the predicted function hierarchical, particularly for the protein with the specified function, or the available protein functions of specified functional levels; 2) The average precision of the cereal protein function in the first four layers of FunCat (Functional Catelogue) can reach more than 80%, even to realize the prediction of the fifth and sixth layers of the protein; 3) The retrospective nature of the hierarchy can allow the functions with the low predictions to be returned to the higher level functions. As such, the probability of false positives was reduced to improve the overall prediction accuracy. The finding can also provide a strong reference to the protein function prediction in the food industry.

      protein; function; prediction; cereals; protein semantics; hierarchical functional proteins; protein-protein interaction network

      10.11975/j.issn.1002-6819.202210046

      TP391.4

      A

      1002-6819(2023)-01-0261-08

      沈婷婷,劉靜,管驍. 基于多層功能結(jié)構(gòu)的谷物蛋白質(zhì)功能預(yù)測(cè)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023,39(1):261-268.doi:10.11975/j.issn.1002-6819.202210046 http://www.tcsae.org

      SHEN Tingting, LIU Jing, GUAN Xiao. Prediction of cereal protein function based on multilayer functional structures[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(1): 261-268. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202210046 http://www.tcsae.org

      2022-10-08

      2022-11-21

      國(guó)家自然科學(xué)基金項(xiàng)目(32172247);內(nèi)蒙古自治區(qū)科技重大專項(xiàng)“燕麥新品種選育、綠色栽培技術(shù)與營(yíng)養(yǎng)功能產(chǎn)品研究與示范”(2021ZD0002)

      沈婷婷,研究方向?yàn)樯镄畔?、機(jī)器學(xué)習(xí)。Email:shentt_2021@qq.com

      劉靜,博士,副教授,研究方向?yàn)樯镄畔?、信息技術(shù)與食品功能交叉領(lǐng)域的研究。Email:jingliu@shmtu.edu.cn

      猜你喜歡
      谷物層級(jí)集群
      烏克蘭谷物和油料作物庫(kù)存遠(yuǎn)低于2020年同期
      烏克蘭谷物和油料作物庫(kù)存遠(yuǎn)低于2020年同期
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      擊打式谷物加工農(nóng)具
      軍事文摘(2020年20期)2020-11-16 00:32:10
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      海上小型無(wú)人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      一種無(wú)人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      澜沧| 称多县| 区。| 永福县| 亚东县| 娄底市| 沂源县| 长海县| 类乌齐县| 江阴市| 柳河县| 阳春市| 南安市| 昌黎县| 永泰县| 治多县| 米林县| 天水市| 咸宁市| 大宁县| 新丰县| 巍山| 三明市| 盐山县| 沭阳县| 重庆市| 尼勒克县| 宁化县| 霸州市| 桐梓县| 正定县| 凤城市| 黎城县| 衢州市| 监利县| 梧州市| 洪洞县| 遵化市| 山东省| 夏邑县| 苍山县|