• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      天然苦味分子識別及苦味閾值預(yù)測模型

      2022-03-06 07:05:44馮寶龍任海斌段佳慧張厚森溫春輝白曉森王玉堂
      食品工業(yè)科技 2022年4期
      關(guān)鍵詞:描述符苦味準(zhǔn)確度

      馮寶龍,任海斌,段佳慧,張厚森,溫春輝,白曉森,高 飛,王玉堂,,4,

      (1.東北農(nóng)業(yè)大學(xué)現(xiàn)代教育技術(shù)中心,黑龍江哈爾濱 150030;2.乳品科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(東北農(nóng)業(yè)大學(xué)),黑龍江哈爾濱 150030;3.東北農(nóng)業(yè)大學(xué)食品學(xué)院,黑龍江哈爾濱 150030;4.中國農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所,北京 100193)

      苦味是人能感知的6種味覺之一,既能導(dǎo)致食品的風(fēng)味變差,也能給食品帶來更加豐富的味感。啤酒、茶飲和咖啡等帶苦味的產(chǎn)品深受人們歡迎。人們對食物中的苦味組分知之甚少,如藍(lán)靛果、柚子、核桃等食物中苦味的呈味分子并不十分清楚[1]。這一方面給掩蓋苦味、改善風(fēng)味帶來困難,也使這些苦味成分很少被食品研發(fā)人員用于開發(fā)新的產(chǎn)品。

      目前鑒定苦味的方法都來源于藥物研究。主要通過志愿者來品嘗,配體驗(yàn)證和構(gòu)效關(guān)系模型(Structure Activity Relationships, SAR)的方法進(jìn)行苦味驗(yàn)證。志愿者品嘗通常要進(jìn)行志愿者篩選及苦味標(biāo)準(zhǔn)化培訓(xùn),培訓(xùn)周期一般較長[2];配體驗(yàn)證一般通過將待鑒定物質(zhì)與苦味受體作用靶點(diǎn)進(jìn)行分子對接,需要消耗較大的計(jì)算機(jī)資源[3];而SAR的方法因其準(zhǔn)確度高、簡便成為應(yīng)用最多的方法。Rodgers等[4]使用包括649個(gè)苦味分子和13530個(gè)從MDL藥物數(shù)據(jù)倉庫(MDL Drug Data Repository, MDDR)中隨機(jī)選擇的分子作為數(shù)據(jù)集,利用圓形指紋(MOLPRINT 2D)和樸素貝葉斯算法對苦味化合物進(jìn)行分類,在五折交叉驗(yàn)證中,預(yù)測模型的準(zhǔn)確度、精密度、特異性和靈敏度分別為88%、24%、89%和72%;Banerjee等使用從SuperSweet和BitterDB數(shù)據(jù)集中獲得的包含517種人工和天然甜味劑、685種苦味化合物的數(shù)據(jù)集,利用分子指紋和隨機(jī)森林分類器預(yù)測苦味,模型準(zhǔn)確率為95%,ROC曲線下面積(Area Under Curve, AUC)為0.98[5-7];Margulis等[8]使用包括極致梯度提升(eXtreme Gradient Boosting, XGBoost)在由169個(gè)非??嗟幕衔锖?24個(gè)表現(xiàn)不是非常苦的化合物組成的493個(gè)化合物的訓(xùn)練集上建立苦味程度識別模型,其準(zhǔn)確率達(dá)到了87%。這些研究中,模型使用的苦味數(shù)據(jù)集包含較多非天然化合物,對食品中天然苦味分子的鑒定適用性尚未可知。到目前為止,還沒有針對性預(yù)測食品中苦味分子的數(shù)據(jù)集和SAR研究。

      本研究以苦味分子研究文獻(xiàn)、專利及公開數(shù)據(jù)集為數(shù)據(jù)源,采用人工交叉驗(yàn)證的方法搜集清洗數(shù)據(jù),在Mysql數(shù)據(jù)集中建立最大的人工修正的苦味、非苦味數(shù)據(jù)集和苦味分子苦味閾值公開數(shù)據(jù)集。利用機(jī)器學(xué)習(xí)算法,首先建立定性構(gòu)效關(guān)系模型,鑒別食品中的分子是否呈現(xiàn)苦味,然后,建立定量構(gòu)效關(guān)系模型,對分子的苦味閾值做出預(yù)測,最后聯(lián)用上述模型預(yù)測FooDB數(shù)據(jù)集中潛在的苦味分子及其苦味閾值,并結(jié)合感官評價(jià)進(jìn)行結(jié)果驗(yàn)證。本研究建立了一種食品中苦味分子的快速鑒定方法,對于改善食品風(fēng)味和開發(fā)新的苦味回甘的食品具有實(shí)際意義,以及對解釋苦味分子的結(jié)構(gòu)特征、了解苦味受體及苦味信號傳遞奠定了數(shù)據(jù)基礎(chǔ)。

      1 材料與方法

      1.1 苦味-非苦味數(shù)據(jù)集及苦味閾值數(shù)據(jù)集建立

      苦味和非苦味分子的數(shù)據(jù)都來自公開的數(shù)據(jù)集、文獻(xiàn)及專利。其中苦味分子及閾值來自Bitter-DB[6]中的天然化合物,并在此基礎(chǔ)上,擴(kuò)展了從文獻(xiàn)、專利中獲得的天然苦味分子的閾值;非苦味分子來自FooDB[9]、FlavorDB[10]及Fenaroli的風(fēng)味成分手冊(第5版)[11]。

      非苦味分子數(shù)據(jù)集的選擇至關(guān)重要。非苦味分子數(shù)據(jù)集作為負(fù)集,既要有明確的文獻(xiàn)證明沒有苦味,也要在結(jié)構(gòu)上盡量與苦味分子相似,這樣才能讓模型更加科學(xué)有效。根據(jù)苦味分子結(jié)構(gòu)和物化特性,本文建立了如下規(guī)則來建立非苦味分子數(shù)據(jù)集:首先根據(jù)苦味分子的分子量范圍,篩選分子量范圍在85~1224之間的分子建立苦味分子數(shù)據(jù)集;其次苦味分子有較強(qiáng)的疏水性,根據(jù)苦味分子的疏水特性,選擇疏水性范圍與苦味分子相近的分子建立苦味分子數(shù)據(jù)集。

      將不同來源的分子收集起來,通過Python語言,調(diào)用Pubchem API接口,查閱Pubchem數(shù)據(jù)集[12]獲得所有分子的簡化分子線性輸入規(guī)范(SMILES,Simplified molecular input line entry specification)格式,通過開源軟件(R語言(version 3.5.1),Python語言(version 3.6))和人工篩查方式去除重復(fù)、錯誤的分子,形成有意義的化學(xué)空間來訓(xùn)練和評估機(jī)器學(xué)習(xí)模型。因苦味分子閾值的取值范圍較大,本研究進(jìn)行適當(dāng)縮放處理,將其取對數(shù)后,存入數(shù)據(jù)集。

      1.2 分子描述符篩選

      本研究利用分子操作環(huán)境(Molecular Operating Environment, MOE)[13]、ChemoPy[14]及Mordred[15]生成描述符。分別將分子的SMILES作為輸入,加載到描述符生成軟件中,輸出分子描述符。剔除含有缺失值的描述符后,利用R語言進(jìn)行描述符優(yōu)化和選擇。首先根據(jù)近零方差剔除描述符:設(shè)定頻數(shù)比率(freqCut)=25和唯一值比例(uniqueCut)=20兩個(gè)閾值,保留頻數(shù)比率小于25、唯一值比例大于20的描述符,刪除不具代表性的以及特殊的描述符,去除相關(guān)的變量,減少冗余;其次去除高共線性描述符變量:設(shè)定臨界值(cutoff)為0.95,刪除并只保留一個(gè)相似程度高于0.95的描述符,避免多個(gè)描述符描述同一特征;最后利用主成分分析(Principal Component Analysis, PCA)[16]進(jìn)行描述符篩選:設(shè)定貢獻(xiàn)率閾值為0.5,保留貢獻(xiàn)率大于0.5的描述符。

      1.3 苦味分子識別模型的建立和評價(jià)

      建立苦味分子識別模型使用的工具是R語言[17]及其擴(kuò)展包,包括:ggplot2[18]、RandomForest[19]、e1071[20]、kknn[21]、MASS[22]、sampling[23]。實(shí)驗(yàn)采用了兩種算法:RF[24]和SVM[25]。RF算法是基于決策樹的分類器集成算法,其中每一棵樹都依賴于一個(gè)隨機(jī)向量,這些向量都是獨(dú)立分布的,通過生成多個(gè)分類樹,最終將分類樹結(jié)果進(jìn)行匯總。通過十折交叉驗(yàn)證和網(wǎng)格搜索,設(shè)置結(jié)點(diǎn)值(mtry)為9設(shè)置決策樹數(shù)目(ntree)為20構(gòu)建隨機(jī)森林模型。SVM算法是在線性可分的情況下,在原空間尋找兩類樣本的最優(yōu)分類超平面,在線性不可分的情況下,通過使用非線性映射將低維屬性空間的樣本映射到高維屬性空間使其變?yōu)榫€性情況,從而在該特征空間中尋找最優(yōu)分類超平面。設(shè)置核函數(shù)為徑向基核函數(shù)(RBF核函數(shù)),gamma參數(shù)為0.1,懲罰系數(shù)(cost)為10建支持向量機(jī)模型。

      所建立的苦味-非苦味數(shù)據(jù)集由139個(gè)苦味分子以及139個(gè)非苦味分子共有278個(gè)分子組成用于建立苦味分子識別模型,實(shí)驗(yàn)采用無放回隨機(jī)分層抽樣,分為苦味與非苦味兩層,抽取訓(xùn)練集和測試集,訓(xùn)練集占總數(shù)據(jù)的3/4(208個(gè)分子),測試集占總數(shù)據(jù)的1/4(70個(gè)分子),訓(xùn)練集用于模型訓(xùn)練,而測試集用于模型驗(yàn)證。使用準(zhǔn)確度(Accuracy)和精確度(Precision)評估模型性能。

      式中:TP-真苦,即真的苦味分子被預(yù)測為苦味;FP-假苦,即真的非苦味分子被預(yù)測成苦味,TN-真非苦,即真的非苦味被預(yù)測成非苦味,F(xiàn)N-假非苦,即真的苦味被預(yù)測成非苦味。

      1.4 苦味分子閾值預(yù)測模型的建立和評價(jià)

      建立苦味分子閾值預(yù)測模型使用的工具是R語言及其擴(kuò)展包:caret、FactoMineR、factoextra、tidyverse、pls。實(shí)驗(yàn)采用PLSR、RFR、kNNR、PCR四種算法進(jìn)行苦味分子閾值預(yù)測。PLSR是常用的定量分析建模方法,它能有效地解決變量間的多重關(guān)聯(lián)問題。PLSR可以通過降維提取因子,設(shè)置提取的因子成分?jǐn)?shù)(nt)為2,并將其作為回歸分析的目標(biāo)。RFR是指通過集成學(xué)習(xí)的思想集成多棵樹的算法。它的基本單位是決策樹,基本上是一種集成學(xué)習(xí)方法,基于決策樹之間的距離進(jìn)行回歸預(yù)測,設(shè)置結(jié)點(diǎn)值(mtry)為2,設(shè)置決策樹數(shù)目(ntree)為500。kNNR根據(jù)最接近某一未知點(diǎn)的k個(gè)數(shù)據(jù)點(diǎn)對該未知點(diǎn)進(jìn)行回歸預(yù)測,設(shè)置鄰居個(gè)數(shù)(k)為5。PCR通過將一組高度相關(guān)的變量轉(zhuǎn)化為一組新的不相關(guān)的主成分變量來減少數(shù)據(jù)冗余來對未知點(diǎn)預(yù)測,設(shè)置主成分個(gè)數(shù)(ncomp)為5。實(shí)驗(yàn)首先采用無放回隨機(jī)抽樣抽取訓(xùn)練集和測試集,其中訓(xùn)練集占總數(shù)據(jù)集的3/4,測試集占總數(shù)據(jù)的1/4,接著對實(shí)驗(yàn)搜集到具有閾值的苦味分子經(jīng)分子量和疏水性驗(yàn)證,將驗(yàn)證通過后的苦味分子用來建立苦味分子閾值預(yù)測模型。

      苦味分子閾值預(yù)測模型建立之后,在苦味分子閾值預(yù)測模型中,使用五折交叉驗(yàn)證(cross-validation)的方法評價(jià)模型的穩(wěn)健性[26]。將訓(xùn)練集劃分成5個(gè)互補(bǔ)相交的子集,每次選取其中一個(gè)子集做測試集,其余4個(gè)數(shù)據(jù)子集做訓(xùn)練集構(gòu)建模型,這個(gè)過程不斷重復(fù),直到每個(gè)數(shù)據(jù)集的樣本都被用作測試集。通過計(jì)算模型的決定系數(shù)及誤差均方根,來評價(jià)模型的擬合優(yōu)度和預(yù)測能力。當(dāng)模型經(jīng)過評價(jià)和驗(yàn)證,證明其在統(tǒng)計(jì)學(xué)上具有穩(wěn)健性和較好的預(yù)測能力后,該模型才可用于未知苦味分子的預(yù)測。

      1.5 苦味分子及閾值驗(yàn)證

      對感官小組由12名評估員(5名女性和7名男性,年齡25~40歲)組成,所有參與人員均簽署感官評價(jià)知情同意書,并且沒有已知的味覺障礙病史。對于苦味的訓(xùn)練和分類,MgSO4(166 mmol/L)溶液代表了一種短暫的金屬苦味品質(zhì),主要在舌頭的前部感知,水楊苷(1.4 mmol/L)則賦予了一種持久的苦味。主要在舌后部和喉嚨中感知到的苦味感和在口腔中提供持久苦味的咖啡因(8.0 mmol/L)被用作參考。感官分析在22~25 °C下進(jìn)行,為了最大限度地減少任何有毒化合物的攝入,通過使用吞-吐法[27]進(jìn)行感官分析,通過這種方法,測試材料不是吞咽而是吐出??辔蹲R別閾值由12名小組成員根據(jù) ISO 4120[28]中詳述的方案通過三角測試確定。使用瓶裝水(pH4.5)作為溶劑和5 min的刺激間隔長度,在三個(gè)不同時(shí)間節(jié)點(diǎn),將待測定呈味物質(zhì)加水1:1稀釋成7個(gè)濃度梯度,每個(gè)濃度的樣品和另外兩個(gè)空白(水)組成一組,并用四位數(shù)字隨機(jī)編號呈現(xiàn)給受過訓(xùn)練的感官小組,每人品評三次。要求小組成員將待測呈味物質(zhì)在口腔中保持10 s后吐出。待7個(gè)梯度樣品品評完后,按濃度由低到高的順序整理數(shù)據(jù),取不能感知到的濃度和上一個(gè)能感知到味覺的濃度的幾何平均值為品評人員的個(gè)人識別閾值濃度,苦識別閾值由所有個(gè)體閾值濃度的幾何平均值計(jì)算。

      2 結(jié)果與分析

      2.1 數(shù)據(jù)集的建立

      所建立的苦味-非苦味數(shù)據(jù)集由139個(gè)苦味分子以及139個(gè)非苦味分子共278個(gè)分子組成用于建立苦味分子識別模型,苦味閾值數(shù)據(jù)集共有139個(gè)分子用于建立苦味分子閾值預(yù)測模型??辔斗肿拥拈撝捣秶?.004~166之間,閾值分布近正態(tài)分布,說明用于建模的數(shù)據(jù)合理,適用于建立預(yù)測模型并采用顯著性分析比較模型間差異。非苦味分子數(shù)據(jù)集有139個(gè)非苦味分子,數(shù)據(jù)來源于FooDB、FlavorDB及Fenaroli的風(fēng)味成分手冊(第5版)。如圖1展示了分子量與辛醇-水分配系數(shù)(Log octanol/water partition coefficient,log10P(o/w))的特征分布,log10P(o/w)為分子疏水性的物理參數(shù),其分布反映了分子的疏水特性。苦味與非苦味分子在log10P(o/w)和分子量上的分布范圍基本一致,提高了模型的準(zhǔn)確度。Rodgers等[4]使用的非苦味數(shù)據(jù)集是從MDL藥物數(shù)據(jù)集(MDDR)中隨機(jī)選擇的13530個(gè)假設(shè)不具有苦味的分子作為非苦數(shù)據(jù)集,與此相比,本實(shí)驗(yàn)所用的非苦味數(shù)據(jù)集是經(jīng)人工修正的數(shù)據(jù)集,經(jīng)實(shí)驗(yàn)驗(yàn)證過的數(shù)據(jù),降低了模型的噪聲,提高模型的實(shí)際應(yīng)用能力;Tuwani等[29]使用甜味劑作為非苦味數(shù)據(jù)集,雖然數(shù)據(jù)集采用的是經(jīng)實(shí)驗(yàn)驗(yàn)證過的數(shù)據(jù),但兩種分子結(jié)構(gòu)差異太大,對于結(jié)構(gòu)相似的物質(zhì)區(qū)分的準(zhǔn)確性有待考證。本文搜集的數(shù)據(jù)集,其苦味、非苦味數(shù)據(jù)集貼近食品實(shí)際,增加了模型的實(shí)際應(yīng)用價(jià)值。

      圖1 分子量與辛醇-水分配系數(shù)特征分布圖Fig.1 Characteristics of molecular weight and octanol-water partition coefficients

      2.2 分子描述符的選擇

      為了降低冗余特征的影響,本文使用了近零方差、描述符共線性和主成分分析(PCA)的方法來篩選分子描述符。近零方差去除了無代表性特征和不相關(guān)特征,很多學(xué)者研究認(rèn)為酚類化合物的分子量越小,苦味強(qiáng)度越高,對于小分子肽,其苦味與含有的疏水性氨基酸的數(shù)量和種類有關(guān),通??辔稌S著疏水性的增加而增強(qiáng)[30-31],所以像以上兩種能夠有效描述苦味分子的特征描述符予以保留,反之剔除;描述符共線性去除并只保留一個(gè)描述同一特征的描述符;PCA線性地組合屬性,使得特征彼此正交,并捕獲數(shù)據(jù)的最大方差。以上方法都適用于訓(xùn)練集分子對應(yīng)的描述符。MOE 2D共生成206個(gè)描述符,有33個(gè)分子描述符被近零方差識別為與苦味分類預(yù)測無關(guān),有89個(gè)分子描述符被共線性識別為彼此之間存在線性關(guān)系,不能區(qū)分各自對所要描述調(diào)整的具體作用,PCA優(yōu)化后分子描述符集合中含有80個(gè)分子描述符。ChemoPy 2D共生成574個(gè)描述符,有230個(gè)分子描述符被近零方差識別為與苦味分類預(yù)測無關(guān),有219個(gè)分子描述符被共線性識別為彼此之間存在線性關(guān)系,不能區(qū)分各自對所要描述調(diào)整的具體作用,PCA優(yōu)化后分子描述符集合中含有97個(gè)分子描述符。Mordred 2D共生成1613個(gè)描述符,有415個(gè)分子描述符被近零方差識別為與苦味分類預(yù)測無關(guān),有787個(gè)分子描述符被共線性識別為彼此之間存在線性關(guān)系,不能區(qū)分各自對所要描述調(diào)整的具體作用,PCA優(yōu)化后分子描述符集合中含有34個(gè)分子描述符。如圖2所示,圖2a為Mordred 2D描述符篩選前熱圖,圖2b為Mordred 2D描述符篩選后的熱圖。其中紅色代表正相關(guān),藍(lán)色代表負(fù)相關(guān),經(jīng)過描述符篩選后,紅色區(qū)域減少。結(jié)果顯示經(jīng)過篩選后的描述相關(guān)性較低,表明這些描述符提供的化學(xué)信息在某種程度上是獨(dú)一無二的。

      圖2 分子描述符篩選前(a)、后(b)的熱圖Fig.2 Heat map of the molecular descriptor before(a) and after(b) screening

      高度的多重共線性會導(dǎo)致說明變量對因變量的單獨(dú)影響區(qū)分不開,變量間相互依存的強(qiáng)度和出現(xiàn)的共線性變量的重要性,會影響參數(shù)估計(jì)值[32]。PCA把多指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo),降低觀測空間的維數(shù),以獲取最主要的信息,通過少數(shù)幾個(gè)主成分最大限度地描述數(shù)據(jù)特點(diǎn)[16]。因此,通過以上優(yōu)化可大大降低模型噪聲,提高模型準(zhǔn)確度。

      2.3 苦味分子識別模型

      通過在苦味-非苦味數(shù)據(jù)集上進(jìn)行分層抽樣,抽取3/4的數(shù)據(jù)(208個(gè)分子)作為訓(xùn)練集,1/4的數(shù)據(jù)(70個(gè)分子)作為測試集建立苦味分子識別模型。如圖3所示,基于MOE 2D、ChemoPy 2D及Mordred 2D轉(zhuǎn)化的描述符數(shù)據(jù)建立的SVM苦味分子識別模型,以下分別簡稱MOE-SVM模型、ChemoPy-SVM模型及Mordred-SVM模型,其在測試集上的準(zhǔn)確度(Accuracy)范圍分別為:0.900~1.000、0.886~1.000及0.929~1.000,其在測試集上的準(zhǔn)確度(Accuracy)平均值為:0.968、0.965及0.979,其在測試集上的精確度(Precision)范圍分別為:0.857~1.000、0.800~1.000及0.943~1.000,其在測試集上的精確度(Precision)平均值分別為:0.963、0.944、0.985?;贛OE 2D、ChemoPy 2D及Mordred 2D轉(zhuǎn)化的描述符數(shù)據(jù)建立的RF苦味分子識別模型,以下分別簡稱MOE-RF模型、ChemoPy-RF模型及Mordred-RF模型,其在測試集上的準(zhǔn)確度(Accuracy)范圍分別為:0.929~1.000、0.843~1.000及0.729~0.986,其在測試集上的準(zhǔn)確度(Accuracy)平均值為:0.982、0.960及0.881,其在測試集上的精確度(Precision)范圍分別為:0.943~1.000、0.771~1.000及0.943~1.000,其在測試集上的精確度(Precision)平均值分別為:0.987、0.942及0.985。MOE-RF模型的準(zhǔn)確度和精確度為0.982和0.987,均高于其他模型,說明MOERF模型可以較好地進(jìn)行苦味分子識別。

      圖3 苦味分子識別模型的評估結(jié)果Fig.3 Evaluation results of bitter molecular recognition model

      2.4 苦味分子閾值預(yù)測模型

      通過在苦味閾值數(shù)據(jù)集上進(jìn)行無放回隨機(jī)抽樣,抽取3/4的數(shù)據(jù)(104個(gè)分子)作為訓(xùn)練集,1/4的數(shù)據(jù)(35個(gè)分子)作為測試集建立苦味分子閾值預(yù)測模型,模型在測試集上的性能評估如圖4所示,采用MOE 2D描述符轉(zhuǎn)化的數(shù)據(jù)和基于RFR、kNNR、PCR和PLSR四種算法從而建立的苦味分子閾值預(yù)測模型,以下分別簡稱MOE-RFR模型、MOE-kNNR模型、MOE-PCR模型及MOE-PLSR模型,其決定系數(shù)(R2)分別為:0.80、0.75、0.77、0.83,其均方根誤差(RMSE)分別為0.53、0.58、0.53、0.45。采用ChemoPy 2D描述符轉(zhuǎn)化的數(shù)據(jù)和基于RFR、kNNR、PCR和PLSR四種算法從而建立的苦味分子閾值預(yù)測模型,以下分別簡稱ChemoPy-RFR模型、ChemoPykNNR模型、ChemoPy-PCR模型及ChemoPy-PLSR模型,其決定系數(shù)(R2)分別為:0.85、0.75、0.63、0.85,其均方根誤差(RMSE)分別為0.50、0.55、0.69、0.43。采用Mordred描述符轉(zhuǎn)化的數(shù)據(jù)和基于RFR、kNNR、PCR和PLSR四種算法從而建立的苦味分子閾值預(yù)測模型,以下分別簡稱Mordred-RFR模型、Mordred-kNNR模型、Mordred-PCR模型及Mordred-PLSR模型,其決定系數(shù)(R2)分別為0.81、0.72、0.68、0.83,其均方根誤差(RMSE)分別為:0.49、0.59、0.63、0.46,置信度為95%。

      圖4 苦味分子閾值預(yù)測模型的評估結(jié)果Fig.4 Evaluation results of the prediction model of bitter molecule threshold

      苦味分子在描述符轉(zhuǎn)化后,利用RFR、kNNR、PCR和PLSR四種算法進(jìn)行模型構(gòu)建。在RFR模型中,使用ChemoPy 2D描述符轉(zhuǎn)化數(shù)據(jù)建立的模型(ChemoPy-RFR)的擬合度最好,其決定系數(shù)(R2)為0.85,均方根誤差(RMSE)為0.50;在kNNR模型中,使用ChemoPy 2D描述符轉(zhuǎn)化數(shù)據(jù)建立的模型(ChemoPy-kNNR)的擬合度最好,其R2為0.75,RMSE為0.55;在PCR模型中,使用MOE 2D描述符轉(zhuǎn)化數(shù)據(jù)建立的模型(MOE-PCR)的擬合度最好,其R2為0.77,RMSE為0.53;在PLSR模型中,使用ChemoPy 2D描述符轉(zhuǎn)化數(shù)據(jù)從而建立的模型(ChemoPy-PLSR)的擬合度最高,其R2為0.85,RMSE為0.43。綜合以上結(jié)果得出:基于ChemoPy 2D描述符建立的ChemoPy-PLSR模型的擬合度最好,預(yù)測效果最準(zhǔn)確,均方根誤差最低,模型穩(wěn)定,其R2為0.85,RMSE為0.43,適合做苦味閾值預(yù)測模型。

      2.5 苦味分子識別模型及苦味分子閾值預(yù)測模型應(yīng)用

      該研究為了預(yù)測潛在的苦味分子及其苦味閾值建立了苦味分子識別模型和苦味閾值預(yù)測模型,將上述模型應(yīng)用于FooDB進(jìn)行未知分子的苦味及其苦味閾值預(yù)測,并通過感官評價(jià)對對預(yù)測結(jié)果的苦味分子及閾值驗(yàn)證。經(jīng)本研究的最優(yōu)模型Mordred-SVM模型預(yù)測,并將預(yù)測為苦味的分子使用ChemoPy-PLSR模型進(jìn)一步對閾值進(jìn)行預(yù)測,預(yù)測結(jié)果見“FooDB_results.csv” (https://gitee.com/wang_lab/BRATP),其中有5417個(gè)分子被預(yù)測為苦味。隨機(jī)挑選部分化合物的預(yù)測結(jié)果如表1所示:咖啡因、維生素B1、β-D-氨基葡萄糖、香橙素、葉酸。這些化合物的閾值分別為3.030、0.360、4.600、0.070、1.200 mmol/L。隨機(jī)挑選的這5種物質(zhì)用于驗(yàn)證模型的預(yù)測結(jié)果,雖然可能不是最具代表性的,結(jié)果如圖5所示,模型預(yù)測閾值與感官評價(jià)值擬合曲線決定系數(shù)為0.87,取得了較好的驗(yàn)證結(jié)果。隨著大量研究的進(jìn)行,在除這5種之外的分子上也可能取得較好的驗(yàn)證結(jié)果。

      圖5 苦味分子閾值預(yù)測擬合曲線Fig.5 Fitting curve of bitter molecular predict threshold and actual threshold

      表1 化合物閾值預(yù)測結(jié)果Table 1 Prediction results of compound threshold

      3 討論與結(jié)論

      Luciana等[33]使用DRAGON plus v.5.0描述符和MobyDigs v.1.0 軟件,在遺傳算法(Genetic Algorithm, GA)方法下,使用多元線性回歸(Multiple Linear Regression, MLR)搜索最佳模型,即可變子集選擇-遺傳算法(VSS-GA)方法,得出了苦味與分子極性非直接相關(guān)且羥基和酯片段可以降低苦味的結(jié)論,由此可見,苦味強(qiáng)度與結(jié)構(gòu)有關(guān)。但是Luciana Scotti等并未訓(xùn)練苦味數(shù)據(jù)集,同時(shí)也未建立苦味分子結(jié)構(gòu)與閾值的線性關(guān)系??辔斗肿邮褂肕ordred 2D轉(zhuǎn)化生成描述符從而建立的SVM模型的性能最好,其準(zhǔn)確度和精確度分別為0.979和0.985;使用MOE 2D轉(zhuǎn)化生成描述符從而建立的RF模型的性能最好,其準(zhǔn)確度和精確度分別為0.982和0.985。綜合以上結(jié)果得出:基于MOE 2D描述符建立的RF模型(MOE-RF模型)性能最好,其準(zhǔn)確度和精確度分別為:0.982、0.985,最適合做苦味識別模型。與公布的最佳表現(xiàn)模型相比,MOE-RF苦味識別模型在準(zhǔn)確性方面優(yōu)于Zheng等[34]的e-Bitter模型和Banerjee等[7]的BitterSweet Forest模型,其中e-Bitter模型使用“Phytochemical Dictionary”數(shù)據(jù)集和1024bit-ECFP4和2048bit-ECFP6描述符,運(yùn)用RF算法得到模型的準(zhǔn)確率為85%~92%,本研究苦味識別模型的準(zhǔn)確度較其提高了6%~13%;BitterSweet Forest模型使用苦甜數(shù)據(jù)集和Morganfeat分子描述符,運(yùn)用RF算法得到模型的準(zhǔn)確度為95%,本研究苦味識別模型的準(zhǔn)確度較其提高了3%。由此可見,MOE-RF模型準(zhǔn)確度高,穩(wěn)定性強(qiáng),更適用于苦味分子識別模型。且本研究的ChemoPy-PLSR苦味閾值預(yù)測模型對苦味分子結(jié)構(gòu)及其閾值進(jìn)行回歸分析,得出了較好的結(jié)果,該模型更精確地預(yù)測了苦味分子的閾值。

      本研究基于MOE 2D、ChemoPy 2D和Mordred 2D三種描述符的優(yōu)化及選擇,比較了由RF和SVM算法所建立的苦味分子識別模型,結(jié)果表明MOERF模型的準(zhǔn)確度和精確度最高,其準(zhǔn)確度和精確度分別為0.982、0.985。同時(shí)建立并比較了由RFR、PLSR、kNNR、PCR算法所建立的苦味閾值預(yù)測模型,結(jié)果表明,ChemoPy-PLSR模型的擬合度最好,均方根誤差最低,其決定系數(shù)和均方根誤差分別為0.85、0.43。由此可見,兩個(gè)模型具有良好的預(yù)測能力,可以用于苦味分子的分類預(yù)測及閾值預(yù)測??辔蹲R別模型使用了經(jīng)實(shí)驗(yàn)驗(yàn)證過的數(shù)據(jù),且對非苦味數(shù)據(jù)集進(jìn)行了規(guī)范,較以往的分類模型更有可信度,準(zhǔn)確度更高;本研究進(jìn)一步實(shí)現(xiàn)了基于苦味分子結(jié)構(gòu)預(yù)測苦味閾值的方法,模型擬合度較好,為苦味閾值預(yù)測提供了可行方法,具有一定的實(shí)際意義。所有數(shù)據(jù)和代碼存儲在https://gitee.com/wang_lab/BRATP,其他研究人員既可以利用本研究的代碼,繼續(xù)發(fā)掘其他苦味劑,也可以設(shè)計(jì)新的算法,獲得更為準(zhǔn)確的預(yù)測結(jié)果。

      猜你喜歡
      描述符苦味準(zhǔn)確度
      為什么有人愛“吃苦”
      基于結(jié)構(gòu)信息的異源遙感圖像局部特征描述符研究
      為什么有人愛“吃苦”
      幕墻用掛件安裝準(zhǔn)確度控制技術(shù)
      建筑科技(2018年6期)2018-08-30 03:40:54
      4種苦味抑制劑對3種苦味成分的掩味效果
      中成藥(2018年8期)2018-08-29 01:28:10
      Linux單線程并發(fā)服務(wù)器探索
      為什么很多藥都是苦味的?
      利用CNN的無人機(jī)遙感影像特征描述符學(xué)習(xí)
      動態(tài)汽車衡準(zhǔn)確度等級的現(xiàn)實(shí)意義
      高爐重量布料準(zhǔn)確度的提高
      天津冶金(2014年4期)2014-02-28 16:52:58
      东光县| 咸宁市| 邢台市| 石阡县| 烟台市| 大埔区| 铁岭市| 徐汇区| 福州市| 呼和浩特市| 沂南县| 和田县| 柳河县| 沙湾县| 密山市| 佳木斯市| 六盘水市| 武山县| 瓦房店市| 南宁市| 汉川市| 无极县| 光泽县| 南岸区| 孝义市| 新建县| 克拉玛依市| 水城县| 铜鼓县| 四会市| 廊坊市| 响水县| 弥渡县| 庆城县| 黄龙县| 万荣县| 玉门市| 鹿泉市| 全椒县| 仁寿县| 信阳市|