楊慧慧,修紅霞,任海斌,馮寶龍,溫春輝,張厚森,王洪躍,侯俊財(cái),3,王玉堂,3
(1.東北農(nóng)業(yè)大學(xué)食品學(xué)院,哈爾濱150030;2.東北農(nóng)業(yè)大學(xué) 現(xiàn)代教育技術(shù)中心,哈爾濱150030;3.東北農(nóng)業(yè)大學(xué)乳品科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,哈爾濱150030)
嬰幼兒配方乳粉是一種備受關(guān)注的特殊食品,近年來,有關(guān)嬰幼兒營(yíng)養(yǎng)及安全的研究十分豐富,積累了大量的數(shù)據(jù)。但這些數(shù)據(jù)散落各處,一直沒有被系統(tǒng)的組織起來建立數(shù)據(jù)庫(kù)。仍然不能回答,“符合國(guó)家標(biāo)準(zhǔn)GB10767和GB10765的嬰幼兒配方乳粉中一共有多少種營(yíng)養(yǎng)組分分子,以及多少種內(nèi)源和外源危害物可能影響嬰幼兒配方乳粉的質(zhì)量和安全?”這樣的問題。
解決上述問題對(duì)全面了解嬰幼兒配方乳粉的營(yíng)養(yǎng)組成分布,營(yíng)養(yǎng)組分的存在狀態(tài)及嬰幼兒配方乳粉中可能的安全風(fēng)險(xiǎn)至關(guān)重要。隨著大數(shù)據(jù)技術(shù)的成熟,越來越多的研究利用大數(shù)據(jù)技術(shù)解決食品中的一些問題。楊輝等[1]利用K-均值(k-means)聚類分析我國(guó)31省份的乳制品消費(fèi)數(shù)據(jù),從政策層面提出增強(qiáng)國(guó)內(nèi)乳企品牌核心競(jìng)爭(zhēng)力的建議;邵航等[2]利用數(shù)據(jù)科學(xué)技術(shù),交叉研究文獻(xiàn)宏分析數(shù)據(jù),梳理了食品安全領(lǐng)域的技術(shù)發(fā)展和趨勢(shì);Zhang Dachun等[3]利用相似性算法和分子指紋技術(shù),建立了分子水平的食品摻假數(shù)據(jù)庫(kù)和食品風(fēng)險(xiǎn)成分?jǐn)?shù)據(jù)庫(kù),提出了利用大數(shù)據(jù)技術(shù)研究食品安全問題的思路和方法。本研究則基于大數(shù)據(jù)思路和方法,將自然語言處理技術(shù)和人工查閱相結(jié)合,系統(tǒng)整理歷年來文獻(xiàn)中的數(shù)據(jù),缺失的數(shù)據(jù)參考GB10767和GB10765所述的檢測(cè)方法測(cè)定市場(chǎng)上所有的嬰幼兒配方乳粉營(yíng)養(yǎng)組分的分子數(shù)據(jù);綜合整理1998年至2019年所有嬰幼兒配方乳粉產(chǎn)品及原料的食品安全事件相關(guān)文獻(xiàn)中涉及的內(nèi)源及外源危害物,將這些信息整理進(jìn)入數(shù)據(jù)庫(kù),為嬰幼兒配方乳粉營(yíng)養(yǎng)及安全研究,基于分子相似性預(yù)測(cè)嬰幼兒配方乳粉中的內(nèi)源或外源潛在危害物,提供基礎(chǔ)數(shù)據(jù)和新的視角。
配有柱加熱器的Waters Alliance 2695高效液相色譜系統(tǒng);Waters Micromass Quattro LC質(zhì)譜儀,美國(guó)Waters公司;10 ku大分子量截止過濾器,德國(guó)達(dá)姆施塔特Merck公司。
硼氫化鈉、甲酸,美國(guó)Sigma-Aldrich公司;乙酸、乙腈,北京百靈威科技有限公司;超純水。
標(biāo)準(zhǔn)品:2-巖藻糖乳糖、3-巖藻糖乳糖、乳酰-N-四糖、乳酰-N-己糖、乳酰-N-巖藻五糖I、乳酰-N-二巖藻六糖I、乳酰-N-二巖藻六糖II、3-唾液酸乳糖、6-唾液酸乳糖、乳糖基四糖a、乳糖基四糖b、乳糖基四糖均購(gòu)于上海麥克林生化科技有限公司。
網(wǎng)絡(luò)采集的有關(guān)嬰幼兒配方乳粉的數(shù)據(jù)缺少低聚糖項(xiàng)目,因此,從市場(chǎng)上采購(gòu)嬰幼兒配方乳粉,并檢測(cè)其低聚糖含量。檢測(cè)方法根據(jù)Tonon等[4]所述方法進(jìn)行了一些更改。將嬰幼兒配方乳粉溶解到10 mL試管中,然后分取3份,每份1 mL,在5 000 g,低溫條件下,離心15 min進(jìn)行脫脂,然后將500μL樣液轉(zhuǎn)移到10 ku分子量截止過濾器中,在低溫12 000 g下離心30 min,去除蛋白質(zhì)。最后將樣品稀釋60~120倍。將稀釋后的100μL的濾液與100μL新鮮制備的0.25 mol/L硼氫化鈉進(jìn)行還原反應(yīng),反應(yīng)30 min后終止,然后加入100μL 0.25 mol/L的乙酸。將還原后的提取物注入液相色譜-電噴霧電離質(zhì)譜(LC-ESI-MS)系統(tǒng)中,對(duì)16種低聚糖進(jìn)行定量。
色譜條件:柱加熱器溫度設(shè)置為30℃,流動(dòng)相由超純水(A)和乙腈(B)組成,兩者均含有0.1%的甲酸,并以200μL/min的流速輸送。梯度條件包括最初流動(dòng)相B在21 min內(nèi)從0%增加到12%(中性低聚糖的洗脫),接著在11 min內(nèi)將流動(dòng)相B從12%增加到40%(酸性低聚糖的洗脫),第三次是在5 min內(nèi)將流動(dòng)相B從40%增加到100%,并保持該梯度5 min。最后在1 min內(nèi)將B相梯度降低到0%,并在0%下保持12 min的柱平衡。總色譜時(shí)間為55 min。
質(zhì)譜條件:質(zhì)譜采用負(fù)離子監(jiān)測(cè)模式(SIM)進(jìn)行操作。毛細(xì)管電壓為3.0 k V,錐電壓為30 V,錐氣流量為86 L/h,脫溶溫度分別為150℃和250℃,停留時(shí)間為0.055 min。
數(shù)據(jù)庫(kù)的數(shù)據(jù)來源為相關(guān)書籍、相關(guān)文獻(xiàn)、產(chǎn)品標(biāo)簽、國(guó)家標(biāo)準(zhǔn)以及政府發(fā)布的公告文件。采用人工和自然語言提取的方式,系統(tǒng)整理嬰幼兒配方乳粉組分和危害物的相關(guān)文章。從上述整理的內(nèi)容中手動(dòng)提取嬰幼兒配方乳粉的組分和危害物數(shù)據(jù),通過Pub-Chem[5]對(duì)數(shù)據(jù)進(jìn)行詳細(xì)注釋,包括化學(xué)名稱、簡(jiǎn)化線性分子輸入規(guī)范(Simplified molecular input line entry specification,SMILES)、化合物登錄標(biāo)識(shí)符(Identifier from Database of Chemical,CID)、化學(xué)品摘要服務(wù)編號(hào)(CASRegistry Number,CAS)、國(guó)際化學(xué)標(biāo)識(shí)符(International Chemical Identifier,InChI)、蛋白質(zhì)序列等信息。為了保證數(shù)據(jù)的準(zhǔn)確性,由本研究組成員反復(fù)交叉校對(duì)。圖1為嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)的建立流程圖。
數(shù)據(jù)庫(kù)基于MySQL建立。通過python程序,將整理收集的嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)進(jìn)行統(tǒng)一格式處理,自動(dòng)生成數(shù)據(jù)表及數(shù)據(jù)添加的SQL語句后連接MySql數(shù)據(jù)庫(kù)創(chuàng)建。
圖1 嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)的建立流程圖
量化兩個(gè)分子的相似性是化學(xué)信息學(xué)中的一個(gè)重要概念和常規(guī)任務(wù)[6]。它廣泛用于虛擬篩選、靶點(diǎn)預(yù)測(cè)和代謝物注釋[7-9]。在本研究中,我們采用拓展連接性指紋[10](extended-connectivity fingerprints,ECFP)表示分子,由開源化學(xué)信息學(xué)工具RDkit生成[11]。采用Tanimoto系數(shù)衡量分子相似度[12]。同時(shí)結(jié)合最大共同子結(jié)構(gòu)(maximum common substructure,MCS)算法[13]預(yù)測(cè)出潛在危害物。最大公共子結(jié)構(gòu)的具體算法如下:
公式中,|A|i和|B|i分別表示輸入分子和數(shù)據(jù)庫(kù)中某一分子的原子數(shù);|MCS(A,B)|i表示兩個(gè)分子的公共子結(jié)構(gòu)的原子數(shù)。篩選的閾值設(shè)置為0.9,超過閾值則認(rèn)為兩分子具有很強(qiáng)的相似性。
基于現(xiàn)有搜集到的危害物構(gòu)建危害物化學(xué)空間。利用相似性算法從Tox21[14]、USPTO[15]數(shù)據(jù)庫(kù)中找到與現(xiàn)有危害物相似性大于0.9的物質(zhì),即為潛在危害物。預(yù)測(cè)完成后,再利用PubChem詳細(xì)調(diào)查潛在危害物是否有潛在的毒性。
在全球范圍內(nèi),嬰幼兒配方乳粉在食品質(zhì)量和安全方面被公認(rèn)為一種非常重要的商品[16]。嬰幼兒配方乳粉營(yíng)養(yǎng)成分繁多,體系復(fù)雜。為滿足嬰幼兒的營(yíng)養(yǎng)需求,嬰幼兒配方乳粉的營(yíng)養(yǎng)成分必須精心配制,不僅包括主要營(yíng)養(yǎng)素(蛋白質(zhì)、脂類和碳水化合物),還包括微量元素(礦物質(zhì)、維生素等)和添加劑等[17]。盡管我們已經(jīng)盡最大努力去搜集有關(guān)嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù),但受到文獻(xiàn)調(diào)查中有關(guān)它們的信息可用性的限制,我們所建立的囊括營(yíng)養(yǎng)組分與危害物分子的嬰幼兒配方乳粉數(shù)據(jù)庫(kù)并不是十分完美詳盡的數(shù)據(jù)庫(kù)。不過,我們的數(shù)據(jù)庫(kù)是迄今為止的第一個(gè)嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)。未來,我們會(huì)不斷提高該數(shù)據(jù)庫(kù)的覆蓋面,為探索開發(fā)出更有利于嬰兒成長(zhǎng)、更高質(zhì)量的嬰兒乳粉奠定堅(jiān)實(shí)基礎(chǔ)。
我們?cè)?00多份相關(guān)資料中篩選了468個(gè)嬰幼兒配方乳粉組分及危害物數(shù)據(jù),經(jīng)過橫向比對(duì),具有SMILES格式,可用于后續(xù)分析的數(shù)據(jù)有357個(gè)。根據(jù)中國(guó)食物營(yíng)養(yǎng)成分表,將收集到的數(shù)據(jù)信息歸納分9類,其中碳水化合物類物質(zhì)65個(gè),蛋白質(zhì)類67個(gè),氨基酸類20個(gè),肽類13個(gè),脂肪類64個(gè),維生素類41個(gè),礦物質(zhì)類18個(gè),營(yíng)養(yǎng)強(qiáng)化劑類41個(gè),可能危害物類139個(gè)。利用468個(gè)數(shù)據(jù),我們構(gòu)建了嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)。為了后期在不同類成分?jǐn)U展更多的屬性數(shù)據(jù),每一類數(shù)據(jù)單獨(dú)建表存儲(chǔ)。數(shù)據(jù)庫(kù)包含9個(gè)數(shù)據(jù)表,每一類物質(zhì)為一個(gè)數(shù)據(jù)表,分別是碳水化合物表(t_carbohydrate)、蛋白質(zhì)表(t_protein)、氨基酸表(t_amino_acid)、肽表(t_peptide)、脂肪表(t_fat)、維生素表(t_vitamin)、礦物質(zhì)表(t_mineral)、營(yíng)養(yǎng)強(qiáng)化劑表(t_nutrient_supplement)、危害物表(t_hazard),括弧中是表的名稱。數(shù)據(jù)庫(kù)提供了多種檢索方法,可輸入化學(xué)名稱、SMILES、CAS等,檢索結(jié)果包括化學(xué)名稱、CID、CAS等,從而提供一種快速訪問的方法,滿足食品研究人員對(duì)營(yíng)養(yǎng)組分或危害物進(jìn)行精確搜索的需求。此外,該數(shù)據(jù)庫(kù)對(duì)世界各地的科學(xué)家均可共享。
圖2展示了嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)的化學(xué)空間分布。其中,圖中綠色點(diǎn)表示危害物類物質(zhì),藍(lán)色點(diǎn)代表維生素類物質(zhì),深紅色點(diǎn)表示碳水化合物類物質(zhì),黃色點(diǎn)代表脂肪類物質(zhì),白色點(diǎn)代表肽類物質(zhì),紫色點(diǎn)代表營(yíng)養(yǎng)強(qiáng)化劑類物質(zhì),粉色點(diǎn)表示氨基酸類物質(zhì),棕色點(diǎn)表示礦物質(zhì)類物質(zhì),灰色點(diǎn)表示蛋白質(zhì)類物質(zhì)。其中,某類物質(zhì)中可能含有離群點(diǎn),即,顯著不同于該樣本空間下的其他樣本點(diǎn)。危害物類離群點(diǎn)是螺旋霉素,維生素類離群點(diǎn)是維生素B12,碳水化合物類的離群點(diǎn)是菊粉,脂肪類離群點(diǎn)是膽堿和磷脂酰乙醇胺,營(yíng)養(yǎng)強(qiáng)化劑類離群點(diǎn)是1,3-二油酸-2-棕櫚酸甘油三酯;礦物質(zhì)類離群點(diǎn)是乙二胺四乙酸鐵鈉。離群點(diǎn)不代表數(shù)據(jù)錯(cuò)誤,而可能是因?yàn)橄啾扔跇颖究臻g的其他數(shù)據(jù),離群點(diǎn)含有過多其他信息,或者離群點(diǎn)所屬空間太大,因此,可能需要進(jìn)一步對(duì)嬰幼兒配方乳粉的營(yíng)養(yǎng)組分進(jìn)行更細(xì)致的分析和分類。此外,通過圖中各個(gè)點(diǎn)的分布可以看出,嬰幼兒配方乳粉的營(yíng)養(yǎng)組分以及內(nèi)外源危害物的化學(xué)空間分布比較廣泛。而且危害物相對(duì)于其他營(yíng)養(yǎng)成分的化學(xué)空間分布更廣泛,說明危害物的種類繁多,來源廣泛,因此,嬰幼兒配方乳粉中實(shí)際包含多少種影響乳粉質(zhì)量安全的危害物成為急需解決的問題。結(jié)構(gòu)越相似的化合物,空間分布越緊密。通過危害物與其他類物質(zhì)的化學(xué)空間距離可大致推出嬰幼兒配方乳粉中更容易添加哪些物質(zhì)或更容易對(duì)哪類物質(zhì)進(jìn)行摻假。
圖2 嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)的化學(xué)空間分布
2016年三元已發(fā)布母乳數(shù)據(jù)庫(kù),Zhen-yu Yang等[18]在2016年建立了包含6431個(gè)母乳樣本數(shù)據(jù)的母乳分子在線數(shù)據(jù)庫(kù)。2020年周錦等[19]建立了母乳脂肪酸數(shù)據(jù)庫(kù),并探討膳食攝入與母乳脂肪酸及磷脂構(gòu)成的關(guān)系。但是,目前為止,我國(guó)還沒有建立一個(gè)關(guān)于嬰幼兒配方乳粉營(yíng)養(yǎng)及危害物分子的數(shù)據(jù)庫(kù)。此外,通過我們所建立的嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)可以與母乳數(shù)據(jù)庫(kù)進(jìn)行對(duì)比,從而研發(fā)出更安全、更適合嬰幼兒健康成長(zhǎng)的乳粉。
危害物種類各種各樣,我們需要對(duì)潛在危害物與嬰幼兒配方乳粉中現(xiàn)有危害物的個(gè)體分子相似性進(jìn)行評(píng)價(jià)。衡量個(gè)體間差異方法主要分為距離度量和相似度度量。其中,相似度度量是計(jì)算個(gè)體間的相似程度,主要包括向量空間余弦相似度、皮爾遜相關(guān)系數(shù)、Jaccard相似系數(shù)、KL散度、Tanimoto系數(shù)等。Pereira等[20]結(jié)合歐氏距離、分層聚類分析和主成分分析的算法應(yīng)用,證明了時(shí)間分辨和固定熒光光譜在檢測(cè)乳清蛋白濃縮粉(Whey protein concentrate powder,WPC)中摻假的有效性;Garcia-Hernandez等[8]使用擴(kuò)展的簡(jiǎn)化圖和圖形編輯距離方法,將分子相似性計(jì)算作為基于配體虛擬篩選應(yīng)用的工具;Chushak等[7]利用分子相似性搜索、分子對(duì)接和體外驗(yàn)證來識(shí)別潛在的甲苯蛋白靶點(diǎn)。在本研究中,我們選擇集計(jì)算快、易于實(shí)現(xiàn)于一體的Tanimoto系數(shù)來計(jì)算分子相似性,它在化學(xué)信息學(xué)和藥物發(fā)現(xiàn)中均已廣泛應(yīng)用[21]。
我們從Tox21、USPTO數(shù)據(jù)庫(kù)中搜索并列舉了1000種可能影響嬰幼兒配方乳粉質(zhì)量和安全的潛在危害物清單。根據(jù)數(shù)據(jù)庫(kù)中已經(jīng)納入的139個(gè)危害物分子,結(jié)合分子指紋以及Tanimoto系數(shù)從清單中篩選了350種潛在的嬰兒配方乳粉危害物,接著使用MCS算法篩選出220種危害物分子。通過對(duì)數(shù)據(jù)進(jìn)行最終篩選,我們共預(yù)測(cè)了89種具有類似功能和活性的潛在危害物。表1為預(yù)測(cè)出來的部分可能影響嬰幼兒配方乳粉安全的危害物。1和5號(hào)化合物是基于雙氯西林,2號(hào)化合物基于羧甲基賴氨酸,3號(hào)和4號(hào)化合物的結(jié)構(gòu)相似物是吡咯素。其中,雙氯西林屬于外源污染物,羧甲基賴氨酸和吡咯素是內(nèi)源危害物,預(yù)測(cè)的潛在危害物的毒性需要進(jìn)一步研究。
表1 可能影響嬰幼兒乳粉的部分危害物表
充分保障嬰幼兒配方乳粉的營(yíng)養(yǎng)和安全是所有國(guó)家的共識(shí)。通過建立嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù),能夠從分子水平上更好的認(rèn)識(shí)嬰幼兒配方乳粉的組成,同時(shí)利用分子指紋和相似性算法,基于已有的危害物發(fā)現(xiàn)新的可能對(duì)嬰幼兒配方乳粉品質(zhì)和安全造成影響的潛在危害物。
本研究基于文獻(xiàn)和自測(cè)的數(shù)據(jù)建立了第一個(gè)嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)。通過本研究可知,嬰幼兒配方乳粉中有329個(gè)營(yíng)養(yǎng)組分分子,有139個(gè)危害物可能影響嬰幼兒配方乳粉的質(zhì)量和安全。不同廠家的嬰幼兒配方乳粉中營(yíng)養(yǎng)組分的組成種類和含量有較大區(qū)別。通過分子指紋和相似性算法,我們共計(jì)發(fā)現(xiàn)89個(gè)可能影響嬰幼兒配方乳粉營(yíng)養(yǎng)及安全的危害物,將在下一步研究中驗(yàn)證這些潛在危害物。
本研究建立的嬰幼兒配方乳粉營(yíng)養(yǎng)組分及危害物分子數(shù)據(jù)庫(kù)為從分子水平上認(rèn)識(shí)嬰幼兒配方乳粉,為從分子水平上解決嬰幼兒配方乳粉的營(yíng)養(yǎng)、質(zhì)量及安全問題,為國(guó)家制定相應(yīng)的政策,提供了數(shù)據(jù)基礎(chǔ)。