• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      改進(jìn)RAkEL 分類算法的多功能酶分類預(yù)測(cè)

      2021-08-02 07:40:06皮賽奇
      軟件導(dǎo)刊 2021年7期
      關(guān)鍵詞:分類器機(jī)器標(biāo)簽

      皮賽奇,劉 干

      (貴州民族大學(xué)人文科技學(xué)院,貴州貴陽(yáng) 550025)

      0 引言

      隨著生物信息技術(shù)快速發(fā)展和蛋白質(zhì)測(cè)序手段改進(jìn),高通量的蛋白質(zhì)基因序列被發(fā)現(xiàn)[1]。采用傳統(tǒng)生物技術(shù)手段對(duì)高通量的蛋白質(zhì)進(jìn)行功能預(yù)測(cè)費(fèi)時(shí)且費(fèi)力,如何高效、快速地對(duì)高通量蛋白質(zhì)進(jìn)行精準(zhǔn)預(yù)測(cè)值得研究[2]。近年來(lái),隨著大數(shù)據(jù)和人工智能行業(yè)的興起,利用人工智能和機(jī)器學(xué)習(xí)手段對(duì)高通量的蛋白質(zhì)進(jìn)行分類預(yù)測(cè)是現(xiàn)階段比較火熱的方法[3]。研究人員利用機(jī)器學(xué)習(xí)對(duì)相應(yīng)的蛋白質(zhì)進(jìn)行分類預(yù)測(cè),例如,利用支持向量機(jī)對(duì)氧化還原酶進(jìn)行亞類的分類預(yù)測(cè)、利用隨機(jī)森林算法對(duì)膜蛋白進(jìn)行預(yù)測(cè)、運(yùn)用深度學(xué)習(xí)相關(guān)算法對(duì)蛋白質(zhì)亞細(xì)胞定位進(jìn)行研究等[4]。研究者們主要從兩個(gè)大的方向進(jìn)行研究實(shí)驗(yàn)。第一個(gè)方向?yàn)榈鞍踪|(zhì)特征提取,第二個(gè)方向?yàn)榉诸惼髂P痛罱ǎ?]。研究者們提出了各種各樣的特征提取模型以及特征融合算法,同時(shí)也搭建出各種不同的機(jī)器學(xué)習(xí)模型,這些研究在相應(yīng)實(shí)驗(yàn)中都取得了非常好的效果,但主要考慮單標(biāo)簽分類。然而,現(xiàn)實(shí)世界中存在非常多的多功能蛋白質(zhì)(具有多個(gè)功能標(biāo)簽),此時(shí),運(yùn)用上述單標(biāo)簽機(jī)器學(xué)習(xí)算法模型進(jìn)行分類預(yù)測(cè)效果不顯著。因此,構(gòu)建多標(biāo)簽機(jī)器學(xué)習(xí)模型對(duì)多功能蛋白質(zhì)進(jìn)行分類預(yù)測(cè)顯得十分重要。本文主要對(duì)傳統(tǒng)的隨機(jī)k標(biāo)簽分類算法(RAkLE)進(jìn)行改進(jìn),加入Apriori 算法對(duì)標(biāo)簽進(jìn)行關(guān)聯(lián)規(guī)則挖掘[6],將得到的關(guān)聯(lián)規(guī)則進(jìn)行標(biāo)簽劃分,運(yùn)用集成(Label Powerset,LP)算法完成模型訓(xùn)練[7],最終得到模型并進(jìn)行標(biāo)簽分類預(yù)測(cè)。本文運(yùn)用改進(jìn)的多標(biāo)簽分類學(xué)習(xí)算法對(duì)多功能酶(一種多功能蛋白質(zhì))進(jìn)行分類預(yù)測(cè),并與傳統(tǒng)的多標(biāo)簽分類學(xué)習(xí)算法作效果比較,改進(jìn)后的多標(biāo)簽分類器在相關(guān)指標(biāo)上能取得較好結(jié)果。

      1 多標(biāo)簽分類器與多功能酶分類預(yù)測(cè)研究現(xiàn)狀

      1.1 多標(biāo)簽分類器研究現(xiàn)狀

      多標(biāo)簽機(jī)器學(xué)習(xí)分類器是機(jī)器學(xué)習(xí)領(lǐng)域十分重要的一個(gè)方向。由于現(xiàn)實(shí)世界中存在的問(wèn)題大部分都是多標(biāo)簽問(wèn)題,因此,研究高效、精準(zhǔn)的多標(biāo)簽機(jī)器學(xué)習(xí)分類器以解決現(xiàn)實(shí)生活中的多標(biāo)簽分類預(yù)測(cè)問(wèn)題十分必要。

      對(duì)多標(biāo)簽分類學(xué)習(xí)的研究最早源自于文本分類,主要是基于Boost 方法對(duì)文本進(jìn)行分類[8]。在生物信息學(xué)這一領(lǐng)域中,多標(biāo)簽分類學(xué)習(xí)主要應(yīng)用于蛋白質(zhì)亞細(xì)胞定位、蛋白質(zhì)多功能預(yù)測(cè)、膜蛋白預(yù)測(cè)、多功能酶預(yù)測(cè)、抗菌肽預(yù)測(cè)、革蘭氏陽(yáng)性菌預(yù)測(cè)等方面[9-12]。

      多標(biāo)簽分類學(xué)習(xí)中構(gòu)建合理的分類器十分重要。當(dāng)前主要通過(guò)兩種策略構(gòu)建:第一種是問(wèn)題轉(zhuǎn)化策略,其核心思想是將多標(biāo)簽分類問(wèn)題轉(zhuǎn)化為多分類問(wèn)題,使現(xiàn)有的解決單標(biāo)簽分類的分類器可以適應(yīng),其算法有CC(Classifi?er Chains)算法[13]、LP(Label Powerset)算法[14]、隨機(jī)K 標(biāo)簽(RAkEL)算法[15];第二種策略是單標(biāo)簽分類算法改進(jìn),核心思想是在單標(biāo)簽分類器基礎(chǔ)上進(jìn)行改造使其適用于多標(biāo)簽分類器。如將最近鄰分類器(KNN)改造成多標(biāo)簽最近鄰分類器(MLKNN)[16]、將神經(jīng)網(wǎng)絡(luò)模型BP 和RBF 改造成多標(biāo)簽神經(jīng)網(wǎng)絡(luò)BP-MLL[17]和ML-RBF[18]、將支持向量機(jī)(SVM)改造為排序支持向量機(jī)(RANKSVM)[19]等。由于多標(biāo)簽研究更加貼近人們現(xiàn)實(shí)生活中的事物分類,研究多標(biāo)簽問(wèn)題具有重要意義。

      1.2 多功能酶分類預(yù)測(cè)研究現(xiàn)狀

      多功能酶是一種生物催化劑,在維持生命的各種反應(yīng)中都能起到非常重要的作用。正確快速地注釋出多功能酶的功能對(duì)基因工程和細(xì)胞工程的發(fā)展起到關(guān)鍵性作用[20]。傳統(tǒng)的生物技術(shù)研究費(fèi)時(shí)費(fèi)力,利用計(jì)算機(jī)中機(jī)器學(xué)習(xí)技術(shù)進(jìn)行相關(guān)研究尤為重要。Ferrari 等[20]利用多標(biāo)簽K 近鄰分類器對(duì)多功能酶進(jìn)行研究,注釋功能準(zhǔn)確率達(dá)80%;Zou 等[21]在利用雙層分類模型對(duì)多功能酶進(jìn)行分類研究,得到了非常好的效果;Che 等[22]對(duì)多功能酶進(jìn)行分類預(yù)測(cè),運(yùn)用IBLR_ML 分類器實(shí)現(xiàn)多標(biāo)簽分類預(yù)測(cè);Amidi等[23]利用多功能酶的結(jié)構(gòu)作為特征表達(dá),運(yùn)用多標(biāo)簽支持向量機(jī)分類器對(duì)多功能酶進(jìn)行研究。隨著深度學(xué)習(xí)的提出,基于神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽學(xué)習(xí)也被相繼提出。利用多標(biāo)簽神經(jīng)網(wǎng)絡(luò)對(duì)多功能酶的注釋研究將是一個(gè)重要研究方向。

      2 改進(jìn)多標(biāo)簽機(jī)器學(xué)習(xí)算法

      2.1 隨機(jī)k 標(biāo)簽分類器算法(RAkEL)

      隨機(jī)k標(biāo)簽分類器算法(RAkEL)由Tsoumakas 等[14]提出,主要思想是:①將所有數(shù)據(jù)實(shí)例中的標(biāo)簽,劃分成一組組具有k個(gè)標(biāo)簽的子標(biāo)簽集合;②對(duì)劃分好的k標(biāo)簽集合使用LP 方法,構(gòu)造m個(gè)分類器,每個(gè)分類器用來(lái)預(yù)測(cè)一組k標(biāo)簽集。利用實(shí)例的特征數(shù)據(jù)進(jìn)行多類別分類器訓(xùn)練;③將測(cè)試集的數(shù)據(jù)分別在訓(xùn)練好的分類器上進(jìn)行測(cè)試,每一個(gè)測(cè)試用例在每個(gè)分類器上都會(huì)得到一個(gè)結(jié)果,最后通過(guò)投票方式得到該實(shí)例最終標(biāo)簽。

      基于RAkEL 算法思想,通過(guò)偽代碼形式展示訓(xùn)練模型算法和測(cè)試模型算法。

      RAkEL 算法訓(xùn)練過(guò)程偽代碼:

      RAkEL 算法測(cè)試過(guò)程偽代碼:

      2.2 改進(jìn)RAkEL 算法(Ap-RAkEL)

      RAkEL 分類算法是一種集成分類器算法,在處理多標(biāo)簽分類問(wèn)題中將標(biāo)簽進(jìn)行隨機(jī)劃分;然后對(duì)每個(gè)劃分的標(biāo)簽用LP 算法為其創(chuàng)建一個(gè)分類器,進(jìn)行模型訓(xùn)練;最后,將測(cè)試數(shù)據(jù)放到每個(gè)訓(xùn)練好的分類器中進(jìn)行分類預(yù)測(cè),在多個(gè)分類器中采用投票策略得出最終結(jié)果。由于RAkEL 算法在劃分標(biāo)簽集時(shí)采取的是隨機(jī)劃分,在劃分時(shí)隨機(jī)性很強(qiáng),標(biāo)簽之間的關(guān)聯(lián)性并不能很好地表現(xiàn)出來(lái)。在劃分過(guò)程中很可能出現(xiàn)大量冗余或者并沒(méi)有關(guān)聯(lián)的組合,這樣增加了計(jì)算開銷,降低了計(jì)算效率。鑒于此,本文對(duì)該算法進(jìn)行改進(jìn),在標(biāo)簽劃分時(shí)加入關(guān)聯(lián)規(guī)則挖掘算法(Apriori 算法),對(duì)所有標(biāo)簽數(shù)據(jù)集進(jìn)行關(guān)聯(lián)挖掘,并給出關(guān)聯(lián)規(guī)則,將得到的關(guān)聯(lián)規(guī)則劃分為一個(gè)標(biāo)簽集合。得到標(biāo)簽集合后按照標(biāo)簽集合的總個(gè)數(shù)確定分類器個(gè)數(shù),并用數(shù)據(jù)進(jìn)行訓(xùn)練及預(yù)測(cè)。該改進(jìn)算法命名為Ap-RAkEL 算法,C[k]表示長(zhǎng)度為k 的候選集,L[k]表示長(zhǎng)度為k 的頻繁項(xiàng)集。L[1]表示長(zhǎng)度為1 的頻繁項(xiàng)集。

      Ap-RAkEL 算法訓(xùn)練過(guò)程偽代碼:

      3 實(shí)驗(yàn)數(shù)據(jù)分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本實(shí)驗(yàn)數(shù)據(jù)集為多功能酶數(shù)據(jù)集,多功能酶擁有多種功能,在機(jī)器學(xué)習(xí)算法中可將該類問(wèn)題劃分為多標(biāo)簽問(wèn)題。本數(shù)據(jù)集中的功能標(biāo)簽個(gè)數(shù)為6 個(gè),分別為異構(gòu)功能、裂合功能、轉(zhuǎn)移功能、水解功能、合成功能、氧化還原酶功能。其各功數(shù)據(jù)分布如表1 所示。在蛋白質(zhì)庫(kù)中存在的多功能酶的種類共有4 666 條,實(shí)驗(yàn)中將提取得到的4 076 條數(shù)據(jù)進(jìn)行同源性分析,篩選出同源性低于65%的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

      Table 1 Multifunctional data sets表1 多功能數(shù)據(jù)集

      3.2 實(shí)驗(yàn)數(shù)據(jù)分析

      3.2.1 基分類器選擇

      由于改進(jìn)的算法實(shí)質(zhì)還是集成算法,集成算法必須選擇基分類器,本次實(shí)驗(yàn)分別用K 近鄰分類器(KNN)、支持向量機(jī)(SVM)、高斯貝葉斯網(wǎng)絡(luò)分類器(GaussianNB)、隨機(jī)森林分類器進(jìn)行比較(RF),如圖1 所示??梢钥闯?,基分類器采用隨機(jī)森林(RF)能取得較好效果(此次實(shí)驗(yàn)采用的是獨(dú)立集驗(yàn)證方法)。

      Fig.1 Classification and prediction effect of various base classifiers圖1 各種基分類器分類預(yù)測(cè)效果

      3.2.2 隨機(jī)森林參數(shù)尋找

      如圖1 所示,隨機(jī)森林分類器整體分類效果優(yōu)勢(shì)明顯。因此,本實(shí)驗(yàn)基分類器選用隨機(jī)森林分類器進(jìn)行集成分類器構(gòu)建。隨機(jī)森林參數(shù)設(shè)置很重要,本文實(shí)驗(yàn)采用網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu),如圖2 所示,尋參范圍是1~3 000??梢钥闯觯?dāng)參數(shù)為411 時(shí)分類器達(dá)到最好效果(此次實(shí)驗(yàn)采用獨(dú)立集驗(yàn)證方法)。

      Fig.2 Random forest parameter selection圖2 隨機(jī)森林參數(shù)選擇

      3.2.3 與其他多標(biāo)簽分類器比較

      本實(shí)驗(yàn)最終各項(xiàng)指標(biāo)與其他分類器進(jìn)行比較,結(jié)果如表5 所示。實(shí)驗(yàn)采用五折交叉驗(yàn)證,可很好地解決實(shí)驗(yàn)樣本少的問(wèn)題。此次實(shí)驗(yàn)主要是從微觀精度(Micro-Preci?sion)、微觀召回率(Micro-Recall)、微觀F 值(Micro-F-Mea?sure)、宏觀精度(Macro-Precision)、宏觀召回率(Macro-Re?call)、宏觀F 值(Macro-F-Measure)、平均精度(Average Pre?cision)7 個(gè)指標(biāo)衡量改進(jìn)后的多標(biāo)簽分類器在多功能酶分類預(yù)測(cè)中的效果,并且還與其他文章中的分類器在多功能酶數(shù)據(jù)集中的分類進(jìn)行了比較。從表2 數(shù)據(jù)可以看出,改進(jìn)后的分類器對(duì)多功能酶的分類預(yù)測(cè),不論從精度還是召回率上看,都能取得較好結(jié)果。其中,平均精度(AP)可達(dá)92.03%。

      Table 2 Indicators of various classifiers in multifunctional enzymes表2 各種分類器在多功能酶中的指標(biāo)

      4 結(jié)語(yǔ)

      本文主要利用改進(jìn)的隨機(jī)k標(biāo)簽機(jī)器學(xué)習(xí)算法(Ap-RAkEL)對(duì)多功能酶進(jìn)行分類預(yù)測(cè)。主要思路是在RAkEL算法中加入Apiroir 算法,在標(biāo)簽劃分時(shí)找到標(biāo)簽之間的關(guān)聯(lián)性,將相關(guān)性強(qiáng)的標(biāo)簽劃分成一個(gè)基標(biāo)簽,減少標(biāo)簽空間及計(jì)算量。實(shí)驗(yàn)表明,本文Ap-RAkEL 算法在多功能酶分類預(yù)測(cè)中各性能指標(biāo)能取得較好分類效果。由于本文在關(guān)聯(lián)性分析中只用到了Apiroir 算法,在未來(lái)研究中可以嘗試對(duì)關(guān)聯(lián)性算法作出改進(jìn),提升多標(biāo)簽分類模型預(yù)測(cè)精度。同時(shí),還可以運(yùn)用深度學(xué)習(xí)方法構(gòu)建新型的多標(biāo)簽分類器。

      猜你喜歡
      分類器機(jī)器標(biāo)簽
      機(jī)器狗
      機(jī)器狗
      未來(lái)機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      標(biāo)簽化傷害了誰(shuí)
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      泸定县| 枣阳市| 遵化市| 娱乐| 息烽县| 海原县| 东山县| 武宣县| 萍乡市| 武定县| 灵璧县| 麟游县| 杭州市| 汾西县| 莱芜市| 惠州市| 武穴市| 平武县| 长子县| 南江县| 翼城县| 萍乡市| 双城市| 鲁山县| 澜沧| 如东县| 莱阳市| 班玛县| 余姚市| 普定县| 江川县| 松阳县| 策勒县| 康乐县| 贵州省| 西华县| 连城县| 上杭县| 沧源| 屏南县| 射阳县|