楊夢玉,崔世鋼,王永亮
(1.天津職業(yè)技術(shù)師范大學(xué)自動化與電氣工程學(xué)院,天津300222;2.天津職業(yè)技術(shù)師范大學(xué)天津市信息傳感與智能控制重點(diǎn)實驗室,天津300222)
蝦青素作為天然的抗氧化劑,具有極強(qiáng)的穿透力、跨膜穩(wěn)定性、超強(qiáng)吸收性、防紫外線輻射、抑制腫瘤等作用,廣泛應(yīng)用于醫(yī)學(xué)、化妝品等領(lǐng)域[1-4]。雨生紅球藻是一種淡水單細(xì)胞綠藻,也是蝦青素最天然、最高效的生產(chǎn)商,與在水產(chǎn)加工工業(yè)的廢棄物和紅發(fā)夫酵母這2種途徑中獲取蝦青素相比,雨生紅球藻對蝦青素的積累速率較快且蝦青素含量較高,因此被譽(yù)為“天然蝦青素的濃縮品”[5-8]。采用“兩步法”培養(yǎng)雨生紅球藻時,其生長過程主要包括細(xì)胞增殖階段和蝦青素積累階段,處于細(xì)胞增殖階段中的細(xì)胞是游動的,大多數(shù)細(xì)胞呈現(xiàn)綠色,偶爾會有少數(shù)細(xì)胞因周圍惡劣環(huán)境的脅迫而呈血紅色[9-10],細(xì)胞通過吸收周圍環(huán)境中的營養(yǎng)物質(zhì)進(jìn)行二分裂及四分裂、增殖,提高細(xì)胞數(shù)量。在蝦青素積累階段,通過對光照、溫度等生長條件的改變,細(xì)胞壁增厚,細(xì)胞內(nèi)部因逐步進(jìn)行蝦青素的合成,大部分細(xì)胞呈紅色。將經(jīng)過2個階段培養(yǎng)后的藻液通過離心、提取等技術(shù),可以獲取雨生紅球藻細(xì)胞中積累的蝦青素。劉偉等[11]通過建立雨生紅球藻的兩步培養(yǎng)法,即在2個生長階段中,改變溫度、光照、培養(yǎng)基中營養(yǎng)物質(zhì)等,提高了細(xì)胞增殖速率、蝦青素積累速率及蝦青素含量。陳家宇等[12]通過設(shè)置對比實驗,驗證了光照強(qiáng)度、NaNO3和NaCl濃度等因素對雨生紅球藻積累蝦青素的影響并提出最適宜藻細(xì)胞生長的環(huán)境參數(shù)值。上述文獻(xiàn)皆是通過對雨生紅球藻生長的環(huán)境條件進(jìn)行探究,以及對物理條件的改變來提高藻細(xì)胞的生物量與蝦青素積累量,并沒有采用算法對實驗后的數(shù)據(jù)進(jìn)行分析及對2個階段的細(xì)胞進(jìn)行類別劃分。本文采用C4.5決策樹算法,在雨生紅球藻處于最佳生長環(huán)境的基礎(chǔ)上,對2個生長階段的細(xì)胞進(jìn)行觀察并對其劃分屬性進(jìn)行選擇,實現(xiàn)對2個生長階段的細(xì)胞進(jìn)行分類,為雨生紅球藻的培養(yǎng)和對蝦青素的研究提供有力的保障。
決策樹是一種常見的分類預(yù)測算法,基于樹的結(jié)構(gòu)來進(jìn)行決策、判定。決策樹可以通過給定的訓(xùn)練集學(xué)得一個模型,可以對未見示例進(jìn)行分類。一棵決策樹由1個根結(jié)點(diǎn)、若干個內(nèi)部結(jié)點(diǎn)和若干個葉結(jié)點(diǎn)組成[13-14],根結(jié)點(diǎn)是包含數(shù)據(jù)集中的所有數(shù)據(jù)的集合;內(nèi)部結(jié)點(diǎn)是判斷條件;葉結(jié)點(diǎn)是最終的類別。決策樹結(jié)構(gòu)如圖1所示。
圖1 決策樹結(jié)構(gòu)
決策樹以訓(xùn)練集D與屬性集A作為輸入量,通過函數(shù)TreeGenerate(D,A)依次生成決策樹結(jié)點(diǎn)node、選擇最優(yōu)劃分屬性、構(gòu)建分支,最后輸出一棵泛化能力強(qiáng)的可以對未見示例進(jìn)行準(zhǔn)確分類的決策樹。決策樹生成框圖如圖2所示。
圖2 決策樹生成框圖
其中,輸入變量訓(xùn)練集D和屬性集A的計算式為
C4.5算法常用來解決分類問題,模型通過對輸入變量訓(xùn)練集D和屬性集A的學(xué)習(xí),找到一個從屬性值到所屬類型的映射關(guān)系,并且該映射關(guān)系可以用于對新的類型未知的實體進(jìn)行分類[15]。
對雨生紅球藻細(xì)胞進(jìn)行生長階段的分類是二分類問題,需要分別對離散屬性值和連續(xù)屬性值進(jìn)行處理,通過計算信息熵和信息增益率選擇最優(yōu)屬性,將細(xì)胞劃分為2個生長階段,用到的屬性集A為
式中:“細(xì)胞半徑”和“顏色”為離散值;“細(xì)胞個數(shù)”和“吸光度值”為連續(xù)值。
C4.5算法既可以處理離散的屬性值,也可以處理連續(xù)的屬性值。信息熵、信息增益、增益率的計算式為
式中,屬性a的固有值計算式為
信息熵是用來衡量樣本純度的指標(biāo),式(4)表示當(dāng)前訓(xùn)練集D中第k類樣本所占比例為pk(k=1,2,…,|y|)的信息熵,信息熵的值越小,說明當(dāng)前訓(xùn)練集D的純度越高;信息增益是利用屬性a對樣本進(jìn)行劃分所獲得的,用信息增益來進(jìn)行決策樹劃分屬性的選擇,若屬性a有V個可能的取值{a1,a2,…,aV},用a對樣本進(jìn)行劃分會產(chǎn)生V個分支結(jié)點(diǎn),其中Dγ是指第γ個分支結(jié)點(diǎn)包含了D中所有在屬性a上取值為aγ的樣本,信息增益越大,表示用屬性a來劃分獲得的分類效果越好;C4.5決策樹算法用增益率來選擇最優(yōu)劃分屬性,IV(a)為屬性a的固有值,屬性a的可能取值數(shù)越多,V越大,固有值越大。C4.5決策樹算法從劃分屬性中找到Gain(D,a)高于均勻水平的屬性,然后從中挑選增益率最大的屬性,作為分類中的最優(yōu)分類屬性。
實驗采用上海光語生物科技有限公司生產(chǎn)的雨生紅球藻藻液及BG-11培養(yǎng)基,經(jīng)多次細(xì)胞增殖培養(yǎng)后獲得較多藻液,分別用于細(xì)胞增殖階段培養(yǎng)和蝦青素積累階段培養(yǎng),利用倒置顯微鏡、光柵分光光度計等儀器設(shè)備多次采集2個階段的細(xì)胞半徑、細(xì)胞個數(shù)、吸光度值、顏色數(shù)據(jù),作為C4.5決策樹算法的數(shù)據(jù)集及劃分屬性來對模型進(jìn)行訓(xùn)練。
楊慧敏等[16-17]通過設(shè)置對照實驗,驗證了雨生紅球藻在BG-11培養(yǎng)基、24~26℃、NaHCO3添加濃度為1.0時,細(xì)胞生長速率較快,然后通過在培養(yǎng)基中添加植物生長調(diào)節(jié)劑來提高蝦青素的含量。相關(guān)文獻(xiàn)表明,通過對LED光源的設(shè)計,發(fā)現(xiàn)雨生紅球藻在增殖培養(yǎng)階段,光照強(qiáng)度與藻細(xì)胞半徑之間存在線性關(guān)系[18];在細(xì)胞增殖階段培養(yǎng)過程中,通過更新培養(yǎng)基來保證雨生紅球藻生長環(huán)境中有充分的營養(yǎng)物質(zhì),在保證了細(xì)胞活性的同時,也提高了藻細(xì)胞生物量[19]。在蝦青素積累階段,影響蝦青素產(chǎn)量的因素分別為NaCl濃度、光照強(qiáng)度、NaNO3濃度,且NaCl濃度對蝦青素產(chǎn)量的影響最大[20]。
將購買的200 mL雨生紅球藻藻液進(jìn)行細(xì)胞增殖實驗與蝦青素積累實驗。通過前期設(shè)置對比實驗,分別探究適合雨生紅球藻進(jìn)行細(xì)胞增殖與蝦青素積累的最佳環(huán)境條件,以下實驗均在最佳環(huán)境條件及無菌環(huán)境下進(jìn)行,實驗步驟如下。
(1)準(zhǔn)備實驗器具。在開始實驗前準(zhǔn)備8個錐形瓶、1個廣口瓶、若干個膠頭滴管、移液槍、一次性手套、貼簽紙、酸堿指示劑、培養(yǎng)基、NaOH溶液、NaCl、檸檬酸溶液、純凈水、封口用的牛皮紙、皮筋、數(shù)碼秤。
(2)滅菌消毒。將所需的實驗器皿放入高溫高壓滅菌鍋(溫度為125℃)中進(jìn)行高溫高壓殺菌消毒,將消毒后的帶有水的實驗器皿放入電熱鼓風(fēng)干燥箱中干燥,干燥后取出實驗器皿并將其放入超凈工作臺,保證在無菌、試劑不受污染的環(huán)境下進(jìn)行實驗。
(3)配置培養(yǎng)基。經(jīng)計算共需要配置1 000 mL培養(yǎng)基,其中200 mL培養(yǎng)基中不添加NaNO3溶液,按照2 g/L的比例向培養(yǎng)基中添加NaCl,為方便實驗,先配置1 000 mL不添加NaNO3溶液的培養(yǎng)基。先向廣口瓶中加入1 000 mL的純凈水,按照純凈水∶溶液=1000 mL∶1 mL的比例向純凈水依次加入K2HPO4·3H2O、MgSO4·7H2O、CaCl2·2H2O、檸檬酸鐵銨、檸檬酸、EDTA、Na2CO3、A5+CO溶液,取出200 mL培養(yǎng)基待用,即完成用于蝦青素積累階段的培養(yǎng)基配置[21-22];向剩余的800 mL培養(yǎng)基中加入NaNO3溶液,即完成用于細(xì)胞增殖階段的培養(yǎng)基配置,留于廣口瓶中待用。
(4)配置藻溶液。在超凈工作臺上將200 mL藻液平均分于2個錐形瓶中,每個錐形瓶各100 mL藻液,并按照藻液與BG-11培養(yǎng)基1∶1的比例分別向2個錐形瓶添加100 mL培養(yǎng)基,配置成200 mL藻溶液,將藻液放置于光照強(qiáng)度為20μmol·m-2·s-1、溫度為25℃的光生物反應(yīng)架上,進(jìn)行培養(yǎng)周期為8~9 d的細(xì)胞增殖實驗,將最開始的200 mL藻液擴(kuò)培到400 mL,同樣方法再將400 mL藻液擴(kuò)培到800 mL。
(5)生物反應(yīng)架。利用照度儀測量光生物反應(yīng)架中的LED光源的光照強(qiáng)度,分別根據(jù)藻液的擺放位置調(diào)整2個階段的光照強(qiáng)度,控制單一變量,保證實驗數(shù)據(jù)的準(zhǔn)確度。光生物反應(yīng)架如圖3所示。
圖3 光生物反應(yīng)架
光生物反應(yīng)架主要由搖床、氣體混合分路器、氣缸、玻璃轉(zhuǎn)子流量計、LED光源等幾部分組成。光生物反應(yīng)架為雨生紅球藻提供正常發(fā)育所需的場所,將反應(yīng)架分為上、中、下三層,上面兩層用來進(jìn)行細(xì)胞增殖實驗,最下面一層是蝦青素積累階段的實驗場所,在培養(yǎng)過程中將光生物反應(yīng)架的外部用不透光的布遮住,避免外界環(huán)境中的自然光對實驗的影響。
2個階段培養(yǎng)結(jié)束后,分別取少量藻液于培養(yǎng)皿或蓋玻片,用顯微鏡觀察細(xì)胞顏色,并檢測細(xì)胞半徑,用血球計數(shù)板記錄2個生長階段的細(xì)胞個數(shù),再用光柵分光光度計檢測細(xì)胞的吸光度值,細(xì)胞生長階段圖如圖4所示。
圖4 細(xì)胞生長階段圖
多次檢測后分別記錄2個階段的細(xì)胞半徑、細(xì)胞個數(shù)、吸光度值、細(xì)胞顏色,采集的部分?jǐn)?shù)據(jù)如表1所示。
表1 采集的部分?jǐn)?shù)據(jù)
表1中,“細(xì)胞半徑”“細(xì)胞顏色”為離散屬性,“細(xì)胞個數(shù)”“吸光度值”為連續(xù)屬性,將細(xì)胞半徑記錄為3個等級,用離散值表示,“small”代表細(xì)胞半徑為1.0~5.0μm,“mid”代表細(xì)胞半徑為5.0~10.0μm,“big”代表細(xì)胞半徑為10.0~20.0μm;細(xì)胞個數(shù)和細(xì)胞的吸光度值用連續(xù)值表示;細(xì)胞顏色分為綠色和紅色,用離散值表示,當(dāng)細(xì)胞為綠色時用“true”表示,細(xì)胞為紅色時用“fslae”表示;細(xì)胞所處階段用“One”和“Two”表示,“One”表示處于細(xì)胞增殖階段,“Two”表示處于蝦青素積累階段。
該數(shù)據(jù)集包含14個訓(xùn)練量本數(shù)據(jù),假設(shè)細(xì)胞處于增殖階段(One)為正例,細(xì)胞處于蝦青素積累階段(Two)為反例,則14個樣本數(shù)據(jù)中正例占p1=10/14,反例占p2=4/14,因雨生紅球藻細(xì)胞處于細(xì)胞增殖階段(One)或蝦青素積累階段(Two),故|y|=2,根據(jù)式(4)可以計算出該決策樹根節(jié)點(diǎn)的信息熵
計算當(dāng)前屬性集合{細(xì)胞半徑,細(xì)胞個數(shù),吸光度值,細(xì)胞顏色,細(xì)胞所處階段},每個屬性的信息增益以屬性“細(xì)胞半徑”為例,該屬性有3個可能的取值,分別是{big,mid,small},若使用“細(xì)胞半徑”這一屬性對訓(xùn)練集D進(jìn)行劃分,可以得到3個子集,分別記為D1(細(xì)胞大小=big),D2(細(xì)胞大小=mid),D3(細(xì)胞大小=small)。子集D1中包含編號為{1,2,3,4,5}的5個樣本,正例占2/5,反例占3/5;子集中包含編號為{6,7,8,9}的4個樣本,正例占p1=1,反例占p2=0;子集D3中包含編號為{10,11,12,13,14}的5個樣本,正例占p1=4/5,反例占p2=1/5。則可根據(jù)式(4)計算出用“細(xì)胞大小”作為劃分屬性,劃分之后得到3個分支節(jié)點(diǎn)的信息熵
以此類推,根據(jù)上述公式計算出“細(xì)胞顏色”屬性的信息增益值為0.006。但是,由于“細(xì)胞個數(shù)”“吸光度值”連續(xù)屬性的可取值不再是離散的,因此在C4.5決策樹算法中采用二分法對連續(xù)屬性值進(jìn)行處理。假設(shè)樣本D中的“吸光度值”為連續(xù)屬性a,將a中的屬性值按照由小到大的順序陳列,記為{a1,a2,…,an},采用t作為劃分點(diǎn),將D劃分為子集Dt-和子集Dt+,子集Dt-是由在屬性a上取值小于等于t的樣本組成的,而子集Dt+是由在屬性a上取值大于t的樣本組成的。對于2個相鄰的屬性值ai和ai+1來說,劃分點(diǎn)t在區(qū)間[ai,ai+1)上,取任意值所產(chǎn)生的劃分結(jié)果是相同的,將區(qū)間[ai,ai+1)的中位點(diǎn)(ai+ai+1)/2作為候選劃分點(diǎn),隨后即可像離散值一樣來處理這些劃分點(diǎn),通過選取最優(yōu)的劃分點(diǎn)來劃分樣本集合,因此對于連續(xù)屬性,需要計算包含n-1個元素的候選劃分點(diǎn)集合Ta
雨生紅球藻的生長過程分為細(xì)胞增殖階段和蝦青素積累階段,通過對2個階段細(xì)胞的觀察和數(shù)據(jù)采集,將表1中的14組實驗數(shù)據(jù)作為C4.5決策樹算法的訓(xùn)練集D,將“細(xì)胞半徑”“細(xì)胞個數(shù)”“吸光度值”“細(xì)胞顏色”作為屬性集A,將訓(xùn)練集D和屬性集A作為決策樹模型的輸入變量,通過PyCharm軟件建立決策樹模型,最后輸出的決策樹的決策結(jié)果如圖5所示。
圖5 雨生紅球藻生長階段分類結(jié)果
決策樹模型最后生成一棵深度為4、分支數(shù)為6的決策樹,其中屬性集A中的“細(xì)胞半徑”“細(xì)胞個數(shù)”“吸光度值”“細(xì)胞顏色”分別用符號“R”“N”“OD”“Color”表示,從圖5可知,細(xì)胞的“吸光度值”為決策樹的根節(jié)點(diǎn),“細(xì)胞半徑”“細(xì)胞個數(shù)”“細(xì)胞顏色”作為決策樹的內(nèi)部結(jié)點(diǎn),決策結(jié)果是對細(xì)胞所處生長階段進(jìn)行分類判斷,所以將細(xì)胞增殖階段和蝦青素積累階段作為葉節(jié)點(diǎn)。由于細(xì)胞“吸光度值”的信息增益在所有屬性值中最高,所以將其作為決策樹的根節(jié)點(diǎn),即最優(yōu)劃分屬性,對應(yīng)的劃分點(diǎn)為2.55,當(dāng)細(xì)胞吸光度值<2.55時進(jìn)入下一個內(nèi)部結(jié)點(diǎn),即細(xì)胞半徑的判斷,當(dāng)細(xì)胞半徑屬于“mid”等級時,決策結(jié)果是細(xì)胞屬于增殖階段,當(dāng)細(xì)胞半徑屬于“big”等級時,需要對細(xì)胞顏色進(jìn)行判斷,當(dāng)細(xì)胞顏色為綠色,細(xì)胞屬于蝦青素積累階段;當(dāng)細(xì)胞顏色為紅色,細(xì)胞屬于細(xì)胞增殖階段;當(dāng)細(xì)胞半徑屬于“small”等級時,需要對細(xì)胞個數(shù)進(jìn)行判斷,當(dāng)細(xì)胞個數(shù)少于310.5×104個/mL時,細(xì)胞屬于增殖階段,否則屬于蝦青素積累階段;當(dāng)細(xì)胞吸光度值≥2.55時,細(xì)胞處于增殖階段。
該模型將雨生紅球藻細(xì)胞的實際數(shù)據(jù)作為輸入量,將14組數(shù)據(jù)作為訓(xùn)練集,對決策樹模型進(jìn)行訓(xùn)練,分別計算各個屬性的信息熵與信息增益來選擇最優(yōu)的劃分屬性,建立決策樹模型,最后通過C4.5決策樹模型對細(xì)胞相應(yīng)屬性值的判斷來確定細(xì)胞所處的生長階段。將實際數(shù)據(jù)與分類結(jié)果相對比,經(jīng)檢驗得到的分類結(jié)果準(zhǔn)確性較高,驗證結(jié)果的部分?jǐn)?shù)據(jù)如表2所示。
表2 部分驗證結(jié)果
本文采用“兩步法”培養(yǎng)雨生紅球藻,通過對購買來的雨生紅球藻藻液進(jìn)行增殖培養(yǎng)實驗,提高細(xì)胞生物量,通過設(shè)置光照強(qiáng)度、溫度、培養(yǎng)基pH值對比實驗,探究最適宜雨生紅球藻生長的環(huán)境條件,得出以下結(jié)論:
(1)細(xì)胞增殖階段的最佳環(huán)境條件是采用BG-11培養(yǎng)基,在光照強(qiáng)度為20μmol·m-2·s-1、溫度為25℃、pH值為8.0的光生物反應(yīng)架上進(jìn)行周期為8~9 d的細(xì)胞增殖培養(yǎng)實驗,該條件下細(xì)胞生物量最大且細(xì)胞生長速率較快。
(2)蝦青素積累階段的最佳環(huán)境條件是在光照強(qiáng)度為240μmol·m-2·s-1、溫度為28℃、pH值為7.0、培養(yǎng)基為BG-11培養(yǎng)基(不添加NaNO3溶液),缺少N元素并按照2 g/L的比例向培養(yǎng)基中添加NaCl,并將藻液放置在光生物反應(yīng)架上進(jìn)行培養(yǎng)周期為8~9 d的蝦青素積累實驗,該條件下蝦青素含量最大且積累速率最快。
(3)在進(jìn)行屬性的選取和細(xì)胞數(shù)據(jù)的采集時,每天利用顯微鏡、光柵分光光度計等儀器設(shè)備測量并記錄雨生紅球藻細(xì)胞的數(shù)據(jù)值,包括細(xì)胞半徑、細(xì)胞個數(shù)、吸光度值、細(xì)胞顏色。建立C4.5決策樹模型,選取14組測量數(shù)據(jù)作為訓(xùn)練集,對決策樹模型進(jìn)行訓(xùn)練,最后可以生成一棵泛化能力較強(qiáng)的決策樹,用來對雨生紅球藻所處的2個生長階段進(jìn)行分類。
雨生紅球藻的生長周期較長,且不同生長階段所需的生長環(huán)境不同,藻細(xì)胞在每個階段中的細(xì)胞半徑、細(xì)胞個數(shù)、吸光度值、細(xì)胞顏色等呈現(xiàn)不同的特征,因此通過對細(xì)胞屬性的選擇和細(xì)胞數(shù)據(jù)值的采集,對細(xì)胞所處生長階段進(jìn)行分類,不僅可以區(qū)分藻液的2個生長階段,還為藻細(xì)胞后續(xù)研究提供強(qiáng)有力的保障。