任海斌,馮寶龍,范 蓓,賀斌彬,李知陸,王清華,高 飛,王玉堂,
食品中甜味分子發(fā)掘模型構(gòu)建
任海斌1,馮寶龍2,范 蓓3,賀斌彬1,李知陸1,王清華1,高 飛2,王玉堂1,3※
(1. 東北農(nóng)業(yè)大學(xué)乳品科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150030;2. 東北農(nóng)業(yè)大學(xué)現(xiàn)代教育技術(shù)中心,哈爾濱 150030;3. 中國農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所,北京 100193)
食品工業(yè)一直在積極地發(fā)現(xiàn)新的甜味分子,傳統(tǒng)發(fā)掘方法費(fèi)時(shí)費(fèi)力,效率較低。該研究基于分子的甜味和分子結(jié)構(gòu)相關(guān)的假設(shè),利用文獻(xiàn)、專利及數(shù)據(jù)庫中的數(shù)據(jù),建立甜味、非甜味分子數(shù)據(jù)集和甜度分子數(shù)據(jù)集,采用隨機(jī)森林和支持向量機(jī)算法建立定性構(gòu)效關(guān)系模型定性預(yù)測(cè)甜味分子;采用主成分回歸、最鄰近回歸、隨機(jī)森林回歸和偏最小二乘回歸四種算法建立定量構(gòu)效關(guān)系模型定量預(yù)測(cè)甜味分子的甜度。研究發(fā)現(xiàn),隨機(jī)森林算法模型的分類效果最好,接受者操作特性曲線下的面積為0.987,準(zhǔn)確度為0.966;隨機(jī)森林回歸模型的甜度預(yù)測(cè)效果最好,決定系數(shù)為0.82,誤差均方根為0.60。聯(lián)用這兩個(gè)模型在食品成分?jǐn)?shù)據(jù)庫中,發(fā)現(xiàn)542個(gè)具有甜味劑潛力的食品分子。
機(jī)器學(xué)習(xí);甜味劑;預(yù)測(cè);定性構(gòu)效關(guān)系;定量構(gòu)效關(guān)系
人類在與食物漫長的演化中,形成了甜味偏好[1]。這種進(jìn)化而來的偏好,編碼在人類基因中深深的影響著今天人類對(duì)食物的選擇。甜味成為食物中基本味覺之一,可以讓人產(chǎn)生愉悅的感覺,絕大多數(shù)人都不會(huì)拒絕甜味[2]。因此,糖和甜味劑等呈甜化合物在食品工業(yè)中得到了廣泛的應(yīng)用[3-5]。人們?nèi)粘J秤玫恼崽怯捎诰哂休^高的熱量,會(huì)引起肥胖、代謝紊亂和一系列疾病,如心血管疾病、高血脂、高血糖等[6-9]。研究表明高血糖是引發(fā)癌癥的原因之一,長期患有糖尿病或高血糖是導(dǎo)致胰腺癌的一個(gè)危險(xiǎn)因素[10]。目前已經(jīng)開發(fā)了各種天然及人工合成的甜味劑,在滿足對(duì)甜味味感需求的同時(shí),減少能量的攝入,減輕患病風(fēng)險(xiǎn)[11]。但也有研究表明,長期、大量食用合成的非營養(yǎng)型甜味劑會(huì)有引發(fā)癌癥等副作用[12],因此食品行業(yè)一直熱衷于發(fā)現(xiàn)更多新型、安全的甜味劑[13]。傳統(tǒng)發(fā)現(xiàn)甜味劑的方法,除偶然發(fā)現(xiàn)外,主要采用結(jié)構(gòu)改變的方法尋找新型的甜味劑,浪費(fèi)了大量的時(shí)間和精力[14],最近幾年,基于數(shù)據(jù)發(fā)現(xiàn)新型甜味劑的研究越來越多[15]。
隨著化合物的味覺信息及分子描述符越來越豐富,基于味覺信息和分子描述符,利用構(gòu)效關(guān)系(Structure- activity relationship)[16]建立數(shù)學(xué)模型對(duì)分子進(jìn)行定性和定量預(yù)測(cè),從而快速發(fā)掘甜味分子并預(yù)測(cè)其甜度成為一種重要的方法[17]。2002年,Alexander等[18]公布了第一個(gè)甜味庫Sweet-DB,并提出發(fā)掘具有甜味的碳水合物的方法。2010年,Ahmed等[19]在前者的基礎(chǔ)上,建立了可公開訪問的SuperSweet數(shù)據(jù)庫,并提出了基于構(gòu)效關(guān)系和分子模擬方法的甜味發(fā)掘方法。2011年,Yang等[20]建立了預(yù)測(cè)糖和甜味化合物甜度的方法,但并沒有公布數(shù)據(jù)庫。這些研究時(shí)間久遠(yuǎn),沒有囊括一些新的天然或人工合成的化合物,沒有使用大數(shù)據(jù)和機(jī)器學(xué)習(xí)的新技術(shù)。2016年,Rojas等[3]進(jìn)一步深入研究了甜味和分子結(jié)構(gòu)之間的關(guān)系。在此基礎(chǔ)上,Cheron等[21]提出了利用神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)天然化合物甜味的方法。目前,最新的甜味分子發(fā)掘成果是2019年Zheng等[13]建立的預(yù)測(cè)甜味和甜味相關(guān)文字的機(jī)器學(xué)習(xí)平臺(tái)e-Sweet。這些最新的研究往往關(guān)注于預(yù)測(cè)一個(gè)分子是否具有甜味的定性研究,而忽略了要成為甜味劑的主要原因,應(yīng)該包括預(yù)測(cè)甜度的定量研究問題。只有同時(shí)進(jìn)行甜味的定性和定量研究,才能預(yù)測(cè)一個(gè)分子是否具有成為甜味劑的潛在價(jià)值,才能讓研究貼近實(shí)際。另外,這些研究的數(shù)據(jù)庫,無法直接獲取,且只能利用這些研究內(nèi)建的模型和算法進(jìn)行甜味預(yù)測(cè),無法形成數(shù)據(jù)累積,無法充分利用新的數(shù)學(xué)方法發(fā)掘新型的甜味分子,進(jìn)而生產(chǎn)既能滿足人類對(duì)甜味的需求,又具有較高安全性的甜味劑。
本研究以甜味研究文獻(xiàn)、專利及公開數(shù)據(jù)庫為數(shù)據(jù)源,采用人工交叉驗(yàn)證的方法搜集清洗數(shù)據(jù),在Mysql[22]中建立最大的人工修正甜味、非甜味數(shù)據(jù)集和甜味分子甜度公開數(shù)據(jù)集。利用最新的機(jī)器學(xué)習(xí)算法,首先建立定性構(gòu)效關(guān)系模型,鑒別出給定分子是否呈現(xiàn)甜味,進(jìn)一步建立定量構(gòu)效關(guān)系模型,對(duì)分子的甜度做出預(yù)測(cè),最后利用模型發(fā)掘FooDB數(shù)據(jù)庫中潛在的甜味分子。本研究對(duì)于快速挖掘新型的潛在甜味劑,促進(jìn)食品添加劑的發(fā)展具有實(shí)際意義,并對(duì)甜味數(shù)據(jù)的累積,預(yù)測(cè)方法的逐漸進(jìn)步,提供了數(shù)據(jù)和方法基礎(chǔ)。
數(shù)據(jù)來源于已有的數(shù)據(jù)庫,包括SweetDB[18]、SuperSweet[19]、PubChem[23]等數(shù)據(jù)庫以及文獻(xiàn)[20]。非甜分子是從FlavorDB[24]以及文獻(xiàn)[25-26]中根據(jù)氫鍵原子數(shù)、手性中心、分子量、油水分配系數(shù)、水溶性、疏水性和辛醇-水分配系數(shù)等性質(zhì)人工篩選出的。分別獲取甜味和非甜分子的名稱、PubChem化合物登錄標(biāo)識(shí)符(CID或SID)及分子結(jié)構(gòu)(SMILES)用于后續(xù)研究。經(jīng)人工查詢已去除分子結(jié)構(gòu)重復(fù)的以及分子結(jié)構(gòu)過于復(fù)雜無法轉(zhuǎn)化為描述符的分子,并篩選出甜度已知的甜味分子以及等數(shù)量的非甜味分子進(jìn)行研究。
利用MOE軟件(Molecular Operating Environment,MOE 2015.10)生成206個(gè)2D分子描述符表征分子結(jié)構(gòu)[27]。采用本實(shí)驗(yàn)室自有軟件四步法篩選分子描述符:首先用近零方差篩選和去除共線性的方法對(duì)描述符進(jìn)行初步篩選;將初步篩選后得到的描述符采用相關(guān)性檢驗(yàn)的方法對(duì)描述符做進(jìn)一步篩選,即對(duì)決定分子的甜味與甜度的描述符行為進(jìn)行分析,計(jì)算描述符之間、描述符與分類結(jié)果或甜度之間的相關(guān)系數(shù),若兩個(gè)描述符之間的相關(guān)系數(shù)大于0.95,則刪除對(duì)分類或?qū)μ鸲蓉暙I(xiàn)率小的描述符;采用主成分分析的方法對(duì)描述符進(jìn)行最后篩選,刪除對(duì)分類或?qū)μ鸲蓉暙I(xiàn)率小于0.5的描述符。描述符的篩選可以優(yōu)化構(gòu)效關(guān)系模型,提高模型的精度和預(yù)測(cè)準(zhǔn)確度[28-29]。
采用R語言的e1071(版本1.7-4)支持向量機(jī)算法包和RandomForest(版本4.6-14)隨機(jī)森林算法包建立甜味分子識(shí)別模型,將80%的數(shù)據(jù)用作訓(xùn)練集,20%的數(shù)據(jù)用作測(cè)試集,判斷給定分子是否呈現(xiàn)甜味。算法的實(shí)現(xiàn)均采用R軟件并自行編寫代碼。
采用模型分類的準(zhǔn)確度和受試者特征曲線面積來評(píng)價(jià)模型的預(yù)測(cè)效果,準(zhǔn)確度用公式計(jì)算:
式中表示樣本集{(1,1), (2,2), … , (x,y)},y代表分子的分類結(jié)果,x代表自變量,即每個(gè)分子描述符,y是x的真實(shí)標(biāo)記,(x)表示模型預(yù)測(cè)結(jié)果,代表樣本數(shù)。
對(duì)于甜味分子識(shí)別模型,還可以采用受試者操作特征ROC(Receiver Operating Characteristic)來評(píng)估模型預(yù)測(cè)質(zhì)量,ROC曲線下的面積AUC(Area Under ROC Curve)越大,則模型預(yù)測(cè)效果越好。ROC曲線的橫軸“1-Specificity”代表“誤診率”,即“假正例率”(False Positive Rate,F(xiàn)PR),縱軸Sensitivity代表“靈敏度”,即“真正例率”(True Positive Rate,TPR),二者的定義分別是:
式中TP、FP、TN、FN分別表示真正例(True Positive):預(yù)測(cè)正確的甜味分子,假正例(False Positive):預(yù)測(cè)錯(cuò)誤的甜味分子,真反例(True Negative):預(yù)測(cè)正確的非甜分子,假反例(False Negative):預(yù)測(cè)錯(cuò)誤的非甜分子對(duì)應(yīng)的樣例數(shù),TP + FP + TN + FN = 樣例總數(shù)。
采用R語言的caret包(版本6.0-86)建立主成分回歸(Principal Component Regression, PCR)、最鄰近法回歸(NNR,-Nearest Neighbor Regression)、偏最小二乘回歸(PLSR, Partial Least Square Regression)、隨機(jī)森林回歸(RFR, Random Forest Regression)四種甜度預(yù)測(cè)模型,將80%的數(shù)據(jù)用作訓(xùn)練集,20%的數(shù)據(jù)用作測(cè)試集,預(yù)測(cè)給定甜味分子的甜度。算法的實(shí)現(xiàn)均采用R軟件并自行編寫代碼。
參數(shù)優(yōu)化采用網(wǎng)格搜索和10折交叉法。10折交叉驗(yàn)證法是將訓(xùn)練集隨機(jī)劃分成10個(gè)互補(bǔ)的子樣本,每次選取其中1個(gè)子樣本用作測(cè)試集,其余9個(gè)作訓(xùn)練集構(gòu)建模型,重復(fù)此步驟10次,直到每個(gè)子樣本都被用作測(cè)試集,再對(duì)每次測(cè)試集的表現(xiàn)結(jié)果進(jìn)行綜合分析[30]。通過該方法可以得出使模型預(yù)測(cè)效果達(dá)到最佳時(shí)的參數(shù)值。對(duì)于甜度預(yù)測(cè)模型,用決定系數(shù)(2)和均方根誤差(RMSE)來評(píng)估模型的預(yù)測(cè)能力,2越接近1,RMSE越接近0,模型擬合效果越好。
決定系數(shù)2和均方根誤差RMSE用公式表示為
使用已建立的甜味分子識(shí)別模型預(yù)測(cè)FooDB數(shù)據(jù)庫中可能具有甜味的分子,該數(shù)據(jù)庫中共包含分子28 772個(gè),刪除掉被MOE識(shí)別為重復(fù)結(jié)構(gòu)的分子和因結(jié)構(gòu)復(fù)雜不能轉(zhuǎn)化為描述符的分子,剩余分子24 735個(gè)。將所有分子結(jié)構(gòu)轉(zhuǎn)化為分子描述符后輸入模型預(yù)測(cè)潛在的甜味物質(zhì),如果具有甜味,則使用甜度預(yù)測(cè)模型預(yù)測(cè)其甜度。所有代碼存儲(chǔ)在https://gitee.com/wang_lab/EMMSM。
數(shù)據(jù)集包含356個(gè)甜味分子和356個(gè)非甜味分子,建立甜度預(yù)測(cè)模型所用的數(shù)據(jù)集來源于SuperSweet網(wǎng)站[19]和相關(guān)文獻(xiàn),共包含356個(gè)甜度(本文中甜度值均為以10為底對(duì)數(shù)處理后結(jié)果)范圍在?0.744 7到7.350 0之間的甜味化合物,定義蔗糖溶液在20 ℃時(shí)的甜度為0,其他分子的甜度為相同條件下與之相比得到的相對(duì)甜度。本研究建立的數(shù)據(jù)集是從幾個(gè)數(shù)據(jù)庫中嚴(yán)格篩選出的符合研究條件的分子,其中主要包括有機(jī)物和鹽類。其中甜味分子數(shù)據(jù)集包括糖類化合物、甜味劑和其他具有甜味的化合物。本研究也分析了甜味分子和非甜味分子的氫鍵原子數(shù)、手性中心、分子量、油水分配系數(shù)、疏水性和辛醇-水分配系數(shù)等其他描述符性質(zhì)。甜味與非甜味分子水溶性接近,疏水性和辛醇-水分配系數(shù)不同,化學(xué)空間分布如圖1所示。圖中橫軸代表分子的水溶性,橫軸上方的箱線圖代表兩類分子的水溶性分布。其中圖1a縱軸代表疏水性,縱軸右側(cè)的箱線圖代表兩類分子的疏水性分布;圖1b縱軸代表辛醇-水分配系數(shù),縱軸右側(cè)的箱線圖代表兩類分子的辛醇-水分配系數(shù)分布??梢钥闯鰞煞N分子的疏水性和辛醇水分配系數(shù)差異顯著,這是由于這兩種特征與分子的甜度密切相關(guān),甜度依賴于疏水基,親水基會(huì)降低甜度,疏水基會(huì)增加甜度[31]。疏水性和辛醇-水分配系數(shù)是甜味分子的重要特征,為了提高甜味識(shí)別模型的準(zhǔn)確度和精確度,以及甜度預(yù)測(cè)模型的決定系數(shù),本研究篩選了疏水性較為相近的分子,使甜味、非甜味數(shù)據(jù)集較為接近,從而使訓(xùn)練得到的模型在FooDB上得到更好的應(yīng)用。
甜味感覺是由分子同受體結(jié)合位點(diǎn)作用產(chǎn)生的,但結(jié)合位點(diǎn)往往很多,在以往的研究中,多集中于分子二維空間的研究并能取得較好的性能,而在立體異構(gòu)等三維空間的研究中性能較差,這可能是由于分子三維結(jié)構(gòu)的復(fù)雜性導(dǎo)致。因此,本研究采用2D描述符建模。我們?cè)趯?duì)描述符數(shù)據(jù)進(jìn)行了近零方差篩選和去除共線性方法處理后,再根據(jù)相關(guān)性檢驗(yàn)和PCA分析對(duì)描述符進(jìn)行篩選后,甜味分子識(shí)別模型用描述符110個(gè),甜度預(yù)測(cè)模型用描述符88個(gè)。圖2為變量相關(guān)圖,顯示相關(guān)矩陣中每兩個(gè)描述符之間線性關(guān)系的強(qiáng)度和方向,其中紅色表示正相關(guān)系數(shù),藍(lán)色表示負(fù)相關(guān)系數(shù),顏色越深表示相關(guān)系數(shù)的絕對(duì)值越大。通過描述符相關(guān)圖分析可知,在未進(jìn)行描述符篩選之前,可以明顯地觀察到來自所有描述之間的多重共線性非常高,經(jīng)篩選后描述符之間的相關(guān)性都相對(duì)較低,從而使描述符冗余性顯著降低,利于建立良好的甜味識(shí)別模型和甜度預(yù)測(cè)模型。
通過無放回分層隨機(jī)抽樣得到包含276個(gè)甜味分子和276個(gè)非甜味分子的訓(xùn)練集,其余178個(gè)分子作為測(cè)試集,采用RF(Random Forest)和SVM(Support Vector Machines)兩種算法建立甜味分子識(shí)別模型,對(duì)測(cè)試集樣本進(jìn)行分類。
在SVM中,選擇徑向基函數(shù)(radial)作為內(nèi)核函數(shù),為了優(yōu)化支持向量機(jī)模型中的懲罰參數(shù)和核參數(shù),采用了網(wǎng)格搜索和10折交叉驗(yàn)證的方法,這里cost的范圍是[10-6:10-1],gamma的范圍是[10-10:1010],選擇交叉驗(yàn)證精度最好的參數(shù)cost為10,gamma為0.01。在10折交叉驗(yàn)證中,訓(xùn)練集被分成10個(gè)相同大小的子集,使用其余9個(gè)子集上的訓(xùn)練器依次測(cè)試每一個(gè)子集,因此,整個(gè)訓(xùn)練集的每個(gè)實(shí)例都被預(yù)測(cè)一次,因此經(jīng)過交叉驗(yàn)證的數(shù)據(jù)能夠準(zhǔn)確預(yù)測(cè)。RF是一個(gè)未修剪分類和回歸樹的集合,并為Bootstrap抽樣增加了額外的隨機(jī)性層。RF的主要參數(shù)是mtry值和ntree值,分別表示節(jié)點(diǎn)中用于二叉樹的變量個(gè)數(shù)以及決策樹的個(gè)數(shù)。經(jīng)過網(wǎng)格搜索和10折交叉驗(yàn)證,確定最佳參數(shù)mtry值為2,ntree為81。
兩個(gè)模型的分類效果如圖3所示。圖3a中橫坐標(biāo)代表模型誤診率,縱坐標(biāo)代表靈敏度,ROC曲線下的面積越大表明模型分類效果越好,RF和SVM二者ACU值分別為0.987和0.986,且通過模型準(zhǔn)確度的箱線圖(圖3b)分析,兩模型存在顯著性差異(<0.01),對(duì)比可以發(fā)現(xiàn)RF 模型的分類效果優(yōu)于SVM模型。Zheng等[13]構(gòu)建了甜味分子預(yù)測(cè)模型,分類準(zhǔn)確率為0.91。肖凌俊等[15]于2021年構(gòu)建了甜味識(shí)別模型,分類準(zhǔn)確率為0.934。與以上研究相比,本研究所包含樣本數(shù)據(jù)公開可用,甜味識(shí)別模型更加優(yōu)秀,準(zhǔn)確度達(dá)到了0.966,對(duì)甜味分子有較好的預(yù)測(cè)效果。
有學(xué)者對(duì)甜度進(jìn)行了預(yù)測(cè),舒俊生等人通過構(gòu)效關(guān)系的方法對(duì)卷煙甜度進(jìn)行預(yù)測(cè),在30種化合物的訓(xùn)練集以及10種化合物的測(cè)試集上2達(dá)到了0.95,模型具有較強(qiáng)預(yù)測(cè)能力[32];孟駿等人通過逐步回歸建立豆?jié){甜度預(yù)測(cè)模型,分析了30個(gè)大豆品種加工成豆?jié){的甜度值,預(yù)測(cè)模型2達(dá)到了0.747,模型驗(yàn)證結(jié)果顯示平均相對(duì)誤差為4.61%,因此該模型能夠準(zhǔn)確地預(yù)測(cè)豆?jié){甜度[26]。
本研究采用無放回抽樣的方法隨機(jī)將甜味化合物分為包含267個(gè)分子的訓(xùn)練集和包含89個(gè)分子的測(cè)試集,并對(duì)化合物甜度值進(jìn)行對(duì)數(shù)處理,建立PCR、NNR、RFR、PLSR四種甜度預(yù)測(cè)模型,模型通過10折交叉驗(yàn)證法選擇各自最優(yōu)參數(shù)后,結(jié)果如圖4所示。圖中直線代表回歸擬合曲線,數(shù)據(jù)點(diǎn)代表測(cè)試集樣本中分子的真實(shí)甜度,陰影部分代表置信區(qū)間,置信水平為95%。圖4a為主成分回歸模型預(yù)測(cè)結(jié)果,結(jié)果顯示2=0.58,RMSE=0.84。圖4b為NNR模型預(yù)測(cè)結(jié)果,當(dāng)k=5時(shí),模型最穩(wěn)定,預(yù)測(cè)效果最佳,結(jié)果顯示2=0.68,RMSE=0.73,甜度預(yù)測(cè)效果略優(yōu)于PCR模型。圖4c為RF回歸模型預(yù)測(cè)結(jié)果,當(dāng)mtry值為2,ntree為81時(shí)模型預(yù)測(cè)效果最好,結(jié)果顯示2=0.82,RMSE=0.60,甜度預(yù)測(cè)效果較為理想。圖4d為PLSR模型預(yù)測(cè)結(jié)果,真實(shí)值和預(yù)測(cè)值的擬合回歸線結(jié)果顯示2=0.70,RMSE=0.69?;赗F的回歸模型均優(yōu)于其他算法建立的模型(2=0.82和RMSE=0.60),甜度預(yù)測(cè)效果最好。
聯(lián)用前述甜味分子定性識(shí)別模型和甜味分子甜度預(yù)測(cè)模型,預(yù)測(cè)食品中潛在的甜味成分。FooDB是目前最大的食品成分?jǐn)?shù)據(jù)庫。為了發(fā)掘新的甜味分子,本研究對(duì)FooDB數(shù)據(jù)庫進(jìn)行人工和機(jī)器交叉驗(yàn)證,對(duì)驗(yàn)證后的24 735個(gè)分子進(jìn)行了甜味與甜度預(yù)測(cè)。首先使用RF甜味分子識(shí)別模型預(yù)測(cè)FooDB分子,接著用RF甜度預(yù)測(cè)模型對(duì)發(fā)現(xiàn)理論上的甜味分子的甜度進(jìn)一步預(yù)測(cè),最終篩選出潛在甜味劑分子542個(gè)。根據(jù)預(yù)測(cè)概率和在食品領(lǐng)域的應(yīng)用范圍,2,3-二羥基-2-異戊酸,乙酸甲酯,肌醇,維生素B15,6-O-α-鼠李糖-D-葡萄糖等尚未有文獻(xiàn)報(bào)道的物質(zhì)被發(fā)掘出來。所有數(shù)據(jù)存儲(chǔ)在https://gitee.com/wang_lab/EMMSM。通過甜味分子定性識(shí)別模型和甜味分子甜度預(yù)測(cè)模型新發(fā)掘的甜味化合物可以進(jìn)一步試驗(yàn)測(cè)定。
表1 部分分子結(jié)構(gòu)式及甜度預(yù)測(cè)結(jié)果
本研究建立了食品中甜味分子發(fā)掘模型,主要得到以下結(jié)論:
1)本研究建立了一個(gè)人工修正的、持續(xù)更新、可公開訪問的非甜味、甜味物質(zhì)及甜度數(shù)據(jù)集。
2)本研究建立的甜味分子識(shí)別模型,準(zhǔn)確度達(dá)到0.966,ROC曲線下的面積為0.987,具有良好的甜味分子識(shí)別能力;建立的甜度預(yù)測(cè)模型,決定系數(shù)達(dá)0.82,均方根誤差為0.60,具有優(yōu)良的甜味分子甜度預(yù)測(cè)能力。
3)本研究聯(lián)用定性的甜味分子識(shí)別模型和定量的甜度預(yù)測(cè)模型,在食品成分?jǐn)?shù)據(jù)庫中發(fā)掘出潛在的甜味劑分子542個(gè)。
本研究所有數(shù)據(jù)和代碼開源,其他研究人員既可以利用本研究的代碼,繼續(xù)發(fā)掘其他甜味劑,也可以設(shè)計(jì)新的算法,獲得更為準(zhǔn)確的預(yù)測(cè)結(jié)果??梢詮V泛應(yīng)用于甜味分子發(fā)掘,具有較高的實(shí)際應(yīng)用價(jià)值。
[1] Jayaram C, Mark A, Hoon N. The receptors and cells for mammalian taste[J]. Nature, 2006, 444(7117): 288-294.
[2] Burke N, Saikaly S K, Motaparthi K, et al. Malignancy-associated sweet syndrome presenting with simultaneous histopathologic and morphologic Variants[J]. JAAD Case Reports, 2021(6). DOI: 10.1016/i.jdcr.2021.06.007
[3] Rojas C, Tripaldi P, Duchowicz P R. A new qspr study on relative sweetness[J]. International Journal of Quantitative Structure-Property Relationships, 2016,1(1):78-93.
[4] Rojas C, Todeschini R, Ballabio D, et al. A qstr-based expert system to predict sweetness of molecules[J]. Front Chem, 2017,5:53.
[5] Altunayar U C, Unsalan O. Structural and anharmonic vibrational spectroscopic analysis of artificial sweetener alitame: A dat study for molecular basis of sweet taste[J]. Journal of Molecular Structure, 2021,1246:131157.
[6] Lustig R H, Schmidt L A, Brindis C D. Public health: The toxic truth about sugar[J]. Nature, 2012,482(7383):27.
[7] Goel A, Gajula K, Gupta R, et al. In-silico prediction of sweetness using structure-activity relationship models[J]. Food Chemistry, 2018,253(1):127-131.
[8] Ojha P K, Roy K. Development of a robust and validated 2d-qsar model for sweetness potency of diverse functional organic molecules[J]. Food and Chemical Toxicology, 2018,112:551-562.
[9] Bellisle F. Intense sweeteners, appetite for the sweet taste, and relationship to weight management[J]. Current Obesity Reports, 2015,4(1):106-110.
[10] Dooley J, Lagou V, Goveia J, et al. Heterogeneous effects of calorie content and nutritional components underlie dietary influence on pancreatic cancer susceptibility[J]. Cell Reports, 2020,32(2):107880.
[11] Cheron J B, Casciuc I, Golebiowski J, et al. Sweetness prediction of natural compounds[J]. Food Chemistry, 2017,221:1421.
[12] Mishra A, Ahmed K, Froghi S, et al. Systematic review of the relationship between artificial sweetener consumption and cancer in humans: Analysis of 599, 741 participants[J]. International Journal of Clinical Practice, 2015, 69(12): 1418-1426.
[13] Zheng S, Chang W, Xu W, et al. e-Sweet: A machine-learning based platform for the prediction of sweetener and its relative sweetness[J]. Frontiers in Chemistry, 2019,7. DOI: 10.3389/fchem.2019.00035.
[14] Ben S Y, Niv M Y. Structure-based screening for discovery of sweet compounds[J]. Food Chemistry, 2020,315:126286.
[15] 肖凌俊,陳愛斌,周國雄,等. 基于深度學(xué)習(xí)的甜味劑分類模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(11):285-291.
Xiao Lingjun, Chen Aibin, Zhou Guoxiong, et al. Sweetener classification model based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(11): 285-291. (in Chinese with English abstract)
[16] Lin K, Zhang L, Han X, et al. Quantitative structure-Activity relationship modeling coupled with molecular docking analysis in screening of angiotensin i-converting enzyme inhibitory peptides from qula casein hydrolysates obtained by two-enzyme combination hydrolysis[J]. J Agric Food Chem, 2018,66(12):3221-3228.
[17] Rojas C, Ballabio D, Consonni V, et al. Quantitative structure-activity relationships to predict sweet and non-sweet tastes[J]. Theoretical Chemistry Accounts, 2016, 135(3): 1-13.
[18] Alexander L, Peter B, Andreas B, et al. Sweet-db: An attempt to create annotated data collections for carbohydrates[J]. Nucleic Acids Research, 2002, 30(1): 405-408.
[19] Jessica A, Saskia P, Mathias D, et al. Supersweet—a resource on natural and artificial sweetening agents[J]. Nucleic Acids Research, 2010,39:377-382.
[20] Yang X, Chong Y, Yan A, et al. In-silico prediction of sweetness of sugars and sweeteners[J]. Food Chemistry, 2011, 128(3): 653-658.
[21] Cheron J B, Casciuc I, Golebiowski J, et al. Sweetness prediction of natural compounds[J]. Food Chemistry, 2017, 221: 1421.
[22] Jose B, Abraham S. Performance analysis of nosql and relational databases with mongodb and Mysql[J]. Materials Today: Proceedings, 2020, 24(7): 2036-2043.
[23] ?teklá? M, Zaja?ek D, Bu?insky L. 3Clpro and plpro affinity, a docking study to fight covid19 based on 900 compounds from pubchem and literature. Are there new drugs to be found?[J]. Journal of Molecular Structure, 2021, 1245: 130968.
[24] Neelansh G, Apuroop S, Rudraksh T, et al. Flavordb: A database of flavor molecules[J]. Nucleic Acids Research, 2017, 46. DOI: 10.1093/nar/gkx957
[25] Tuwani R, Wadhwa S, Bagler G. BitterSweet: Building machine learning models for predicting the bitter and sweet taste of small molecules[J]. Sci Rep, 2019, 9(1): 7155.
[26] 孟駿,汪芳,孫璐,等. 基于大豆原料蛋白質(zhì)和氨基酸組成的豆?jié){甜度預(yù)測(cè)模型研究[J]. 食品工業(yè)科技,2019,40(10):18-23.
Meng Jun, Wang Fang, Sun Lu, et al. Predictive model of soymilk sweetness based on protein and amino acid compositions of soybean materials[J]. Science and Technology of Food Industry, 2019, 40(10): 18-23. (in Chinese with English abstract)
[27] Wang Y, Russo D P, Liu C, et al. Predictive modeling of angiotensin i-converting enzyme inhibitory peptides using various machine learning approaches[J]. Journal of Agricultural and Food Chemistry, 2020,68(43):12132-12140.
[28] Martínez M J, Razuc M, Ponzoni I. Modesus: a machine learning tool for selection of molecular descriptors in qsar studies applied to molecular informatics[J]. BioMed Research International, 2019, 2019: 1-12.
[29] Zhou Q, Yin J, Liang W, et al. Various machine learning approaches coupled with molecule simulation in the screening of natural compounds with xanthine oxidase inhibitory activity[J]. Food & function, 2021, 12(4): 1580-1589.
[30] Wong T T. Parametric methods for comparing the performance of two classification algorithms evaluated by k-fold cross validation on multiple data sets[J]. Pattern Recognition the Journal of the Pattern Recognition Society, 2016, 65: 97-107
[31] Deutsch E W, Hansch C. Dependence of relative sweetness on hydrophobic bonding[J]. Nature, 1966, 211(5044): 75.
[32] 舒俊生,徐志強(qiáng),朱青林,等. 卷煙煙氣中甜味化合物甜度的理論預(yù)測(cè)[J]. 食品工業(yè)科技,2013,34(19):111-114.
Shu Junsheng, Xu Zhiqiang, Zhu Qinglin, et al. Theoritical predictions for sweetness of some sweet compounds in cigarette smoke[J]. Science and Technology of Food Industry, 2013, 34(19): 111-114. (in Chinese with English abstract)
Establishment of the mining model for sweet molecules in food
Ren Haibin1, Feng Baolong2, Fan Bei3, He Binbin1, Li Zhilu1, Wang Qinghua1, Gao Fei2, Wang Yutang1,3※
(1.,,,150030,; 2.,,150030,;3.,100193,)
Sweet taste is one of the most important tastes in food flavor and quality. Sweet molecules that can be used to produce new sweeteners have also been actively explored in food processing. However, the traditional methods cannot meet the rapid development of the economy and market demand, due mainly to time-consuming, laborious, and inefficient methods. Therefore, an effective and reliable strategy is essential to produce the sweet stuff. Currently, machine learning and structure-activity relationship can be utilized to realize accurate predictions of sweet molecules in the food industry. In this study, a new database of sweeteners and non-sweeteners together with the scores of sweetness was established using molecular sweetness and structure-activity correlation between molecular structures. MOE software was selected to compute molecular descriptors, to fully characterize the properties of molecules. These descriptors were then filtered through neighborhood variance screening, collinearity removal, and principal component contribution rate screening. Specifically, the feature descriptors were screened by removing the descriptors with high correlation. 80% of the dataset was then divided into training sets for model construction, and 20% were divided into test sets for model validation. Random forest and support vector machines were utilized to establish a qualitative structure-activity relationship for the prediction and identification of potential sweet molecules. Evaluation indexes were taken as the area under the receiver characteristic curve (AUC) and accuracy rate. The higher the AUC and accuracy rate represented the better classification. As such, the optimal model was obtained. Subsequently, the principal component, K-nearest neighbor, random forest, and partial least squares regression were used to establish the quantitative structure-activity relationship for better prediction of sweet molecules. The determination coefficient2and Root Mean Square Error (RMSE) were used as evaluation indexes of the quantitative structure-activity model. The higher2and lower RMSE showed the better model. The optimal model was obtained to compare the performance. The food composition database (FooDB) was applied to predict the possible sweet food ingredients and the sweetness. Correspondingly, the publicly accessible dataset was established ranging from artificially revised and continuously updated on sweetener, non-sweetener substances, and sweetness values. A new model was established to identify sweet molecules using the random forest. The accuracy of the model was 0.966 on the test set, and the area under the ROC curve was 0.987, indicating excellent predictive ability. The prediction model of sweetness was also established using the random forest. Specifically, the2was 0.82 and RMSE was 0.60. A manually modified data set was established to combine qualitative and quantitative sweetener prediction. 542 potential sweetener molecules, including lycopene were discovered in the food composition database. All data and code were then stored at the website of https://gitee.com/wang_lab/EMMSM for a better extension. Consequently, the new model indicated universal applicability and high practical application in searching for new sweet molecules.
machine learning; sweetener; prediction; qualitative structure-activity relationship; quantitative structure- activity relationship
任海斌,馮寶龍,范蓓,等. 食品中甜味分子發(fā)掘模型構(gòu)建[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(19):303-308.doi:10.11975/j.issn.1002-6819.2021.19.035 http://www.tcsae.org
Ren Haibin, Feng Baolong, Fan Bei, et al. Establishment of the mining model for sweet molecules in food[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(19): 303-308. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.19.035 http://www.tcsae.org
2021-05-01
2021-08-16
國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2019YFF0217601-02);中國農(nóng)業(yè)科學(xué)院農(nóng)產(chǎn)品加工研究所知識(shí)創(chuàng)新計(jì)劃(125161015000150013)
任海斌,研究方向?yàn)槭称窢I養(yǎng)與安全。Email:renhb@neau.edu.cn
王玉堂,博士,副研究員,研究方向?yàn)槭称窢I養(yǎng)與安全。Email:wangyt@neau.edu.cn
10.11975/j.issn.1002-6819.2021.19.035
TS202.3
A
1002-6819(2021)-19-0303-06