辛月振,孫貝貝,夏盛瑜
(中國石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580)
隨著大規(guī)模生物實(shí)驗(yàn)技術(shù)的發(fā)展和數(shù)據(jù)累積,如何處理數(shù)據(jù),從全局和系統(tǒng)水平研究和分析生物學(xué)系統(tǒng),揭示其發(fā)展規(guī)律已成為一個(gè)新的研究熱點(diǎn)。傳統(tǒng)生物數(shù)據(jù)分析方法受限于其處理能力與時(shí)間復(fù)雜度,已逐漸不適用于當(dāng)前的生物數(shù)據(jù)分析。將計(jì)算機(jī)技術(shù)與生物實(shí)驗(yàn)相結(jié)合,采用生物信息學(xué)的思想與方法成為目前生物數(shù)據(jù)處理的新途徑[1]。
近年來,機(jī)器學(xué)習(xí)方法已應(yīng)用于生物數(shù)據(jù)處理。在生物數(shù)據(jù)處理領(lǐng)域,人工神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)挖掘算法已應(yīng)用于產(chǎn)量的優(yōu)化[2],特別是在培養(yǎng)條件的優(yōu)化方面。張梅等利用BP神經(jīng)網(wǎng)絡(luò)優(yōu)化杜鵑花黃酮的提取工藝[3]。Khaouane L等利用神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化算法尋找最優(yōu)截短側(cè)耳素培養(yǎng)條件[4]。最近,隨著生物數(shù)據(jù)的增加,數(shù)據(jù)分類思想也應(yīng)用于生物數(shù)據(jù)處理方面[5-7]。分類的概念是在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上使用分類函數(shù),或者構(gòu)造一個(gè)分類模型(即通常稱之為分類器)。函數(shù)或模型可以將數(shù)據(jù)庫中的數(shù)據(jù)記錄映射到給定的類別,它可以應(yīng)用于數(shù)據(jù)預(yù)測。在文獻(xiàn)[8]中,應(yīng)用在這些實(shí)驗(yàn)中收集的數(shù)據(jù),以統(tǒng)計(jì)方法建立數(shù)學(xué)模型來預(yù)測桑黃產(chǎn)黃酮產(chǎn)量,并取得了較好的效果。但在這個(gè)過程中,發(fā)現(xiàn)統(tǒng)計(jì)方法在處理生物實(shí)驗(yàn)數(shù)據(jù)具有模型建立依賴先驗(yàn)知識(shí),數(shù)據(jù)受誤差樣本擾動(dòng)大,信息易丟失等缺點(diǎn)。因此,文中采用分類算法對(duì)整個(gè)樣本集進(jìn)行高產(chǎn)和低產(chǎn)的數(shù)據(jù)分類,取得了良好的分類精度。在高產(chǎn)數(shù)據(jù)集的基礎(chǔ)上,采用BP神經(jīng)網(wǎng)絡(luò)和遺傳算法對(duì)產(chǎn)量進(jìn)行優(yōu)化。最終得出了最優(yōu)產(chǎn)量與實(shí)驗(yàn)條件。
首先從生物單因素試驗(yàn)中采集數(shù)據(jù)。文中所采集的實(shí)驗(yàn)數(shù)據(jù)來源于桑黃實(shí)驗(yàn)室發(fā)酵實(shí)驗(yàn)[9],包括接種量、PH值、初始液量、溫度、種齡、發(fā)酵時(shí)間和轉(zhuǎn)速等參數(shù)。共獲取了90組實(shí)驗(yàn)數(shù)據(jù)。
將數(shù)據(jù)集劃分為高產(chǎn)量數(shù)據(jù)集和低產(chǎn)量數(shù)據(jù)集兩部分。由之前的生物數(shù)據(jù)處理經(jīng)驗(yàn),來自生物實(shí)驗(yàn)的數(shù)據(jù)具有不同實(shí)驗(yàn)梯度數(shù)據(jù)相似度高、實(shí)驗(yàn)梯度有限等特點(diǎn)。傳統(tǒng)的預(yù)測方法在整個(gè)數(shù)據(jù)集中很難取得好的結(jié)果。所以文中使用分類的方法,針對(duì)高產(chǎn)的數(shù)據(jù),增加分類數(shù)據(jù)集中的樣本差。選擇分類時(shí)必須考慮到兩個(gè)關(guān)鍵因素。
第一,保持兩個(gè)數(shù)據(jù)集之間的平衡。較大的不平衡可能導(dǎo)致分類器中更多的偏差[10]。類別數(shù)據(jù)不均衡是分類任務(wù)中一個(gè)典型存在的問題。簡而言之,即數(shù)據(jù)集中,每個(gè)類別下的樣本數(shù)目相差很大。例如,在一個(gè)二分類問題中,共有100個(gè)樣本(100行數(shù)據(jù),每一行數(shù)據(jù)為一個(gè)樣本的表征),其中80個(gè)樣本屬于class1,其余的20個(gè)樣本屬于class2,class1∶class2=80∶20=4∶1,這便屬于類別不均衡。如果使用這種模型,分類器就不能找到高產(chǎn)因子,也不能為BP神經(jīng)網(wǎng)絡(luò)建立訓(xùn)練數(shù)據(jù)集。
第二,高產(chǎn)數(shù)據(jù)集和低產(chǎn)數(shù)據(jù)集必須覆蓋所有單因素實(shí)驗(yàn)的實(shí)驗(yàn)條件。文中考慮兩種分類策略:第一個(gè),取黃酮類化合物產(chǎn)量的中位數(shù)作為分類邊界(在實(shí)驗(yàn)數(shù)據(jù)中是1 100 μg/ml),這樣獲得了數(shù)目相同的高產(chǎn)和低產(chǎn)數(shù)據(jù)集。通過大量實(shí)驗(yàn),證明在此分類邊界下分類效果是可以接受的。但是這種方法將會(huì)使某些單因素實(shí)驗(yàn)因素完全劃分為某低產(chǎn)類或高產(chǎn)類當(dāng)中;另一個(gè)策略是在每一組單變量實(shí)驗(yàn)中選擇一個(gè)邊界。保持每個(gè)單因素實(shí)驗(yàn)數(shù)據(jù)在兩個(gè)不同的類中,并且盡量使兩個(gè)類別中的元素?cái)?shù)量盡可能接近。結(jié)合上述條件,選擇黃酮產(chǎn)量為1 273 μg/ml作為邊界條件。在這個(gè)邊界條件下,得到20組高產(chǎn)量數(shù)據(jù)和30組低產(chǎn)量數(shù)據(jù)。
分類結(jié)果如表1所示。
表1 分類準(zhǔn)確率(邏輯回歸)
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)之一[11]。
基本BP算法包括信號(hào)的前向傳播和誤差的反向傳播兩個(gè)過程。即計(jì)算誤差輸出時(shí)按從輸入到輸出的方向進(jìn)行,而調(diào)整權(quán)值和閾值則從輸出到輸入的方向進(jìn)行[12]。
現(xiàn)在設(shè)節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的權(quán)值為wij,節(jié)點(diǎn)j的閾值為bj,每個(gè)節(jié)點(diǎn)的輸出值為xj,而每個(gè)節(jié)點(diǎn)的輸出值是根據(jù)上層所有節(jié)點(diǎn)的輸出值、當(dāng)前節(jié)點(diǎn)與上一層所有節(jié)點(diǎn)的權(quán)值和當(dāng)前節(jié)點(diǎn)的閾值還有激活函數(shù)來實(shí)現(xiàn)的。具體計(jì)算方法如下:
(1)
xj=f(Sj)
(2)
其中,f為激活函數(shù),一般選取S型函數(shù)或者線性函數(shù)。
反向傳遞是將輸出誤差通過隱含層向輸入層逐層反傳,并將誤差分?jǐn)偨o各層所有單元,以從各層獲得的誤差信號(hào)作為調(diào)整各單元權(quán)值的依據(jù)。通過調(diào)整輸入節(jié)點(diǎn)與隱層節(jié)點(diǎn)的連接強(qiáng)度和隱層節(jié)點(diǎn)與輸出節(jié)點(diǎn)的連接強(qiáng)度以及閾值,誤差沿梯度方向下降,經(jīng)過反復(fù)學(xué)習(xí)訓(xùn)練,確定與最小誤差相對(duì)應(yīng)的網(wǎng)絡(luò)參數(shù)(權(quán)值和閾值),訓(xùn)練即告停止。
假設(shè)輸出層的所有結(jié)果為dj,誤差函數(shù)如下:
(3)
其中,E(w,b)為當(dāng)前位置的梯度。
由經(jīng)驗(yàn)公式可以確定隱含層節(jié)點(diǎn)數(shù)目,如下:
(4)
其中,h為隱含層節(jié)點(diǎn)數(shù)目;m為輸入層節(jié)點(diǎn)數(shù)目;n為輸出層節(jié)點(diǎn)數(shù)目;a為1-10之間的調(diào)節(jié)常數(shù)。經(jīng)過反復(fù)試驗(yàn)確定中間層節(jié)點(diǎn)數(shù)為9。
每個(gè)隱層傳遞函數(shù)設(shè)置為“tansig”(雙極性S函數(shù))、“l(fā)ogsig”(單極性S函數(shù))。訓(xùn)練方法設(shè)定為“trainlm”。trainlm是指L-M優(yōu)化算法[13]。
Sigmod函數(shù)如下:
(5)
每次選擇15組數(shù)據(jù)進(jìn)行建模,選擇5組數(shù)據(jù)進(jìn)行驗(yàn)證。訓(xùn)練次數(shù)設(shè)定為1 000,訓(xùn)練收斂誤差設(shè)定為0.000 01。重復(fù)7次實(shí)驗(yàn)的結(jié)果如表2所示。平均誤差為133.53,誤差百分比為8.7%。誤差值如圖1所示,誤差百分比如圖2所示??梢耘袛嗄P腿〉昧撕芎玫男Ч?/p>
表2 BP預(yù)測結(jié)果
圖1 誤差值
圖2 誤差百分比
文中采用遺傳算法(genetic algorithm,GA)來優(yōu)化產(chǎn)量。GA是模擬達(dá)爾文生物進(jìn)化論中自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計(jì)算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法[14]。GA是從代表問題可能潛在的解集的一個(gè)種群(population)開始,而一個(gè)種群則由經(jīng)過基因(gene)編碼的一定數(shù)目個(gè)體(individual)組成。每個(gè)個(gè)體實(shí)際上是染色體(chromosome)帶有特征的實(shí)體。染色體作為遺傳物質(zhì)的主要載體,即多個(gè)基因的集合,其內(nèi)部表現(xiàn)(即基因型)是某種基因組合,決定了個(gè)體的形狀的外部表現(xiàn)[15]。因此,在一開始需要實(shí)現(xiàn)從表現(xiàn)型到基因型的映射即編碼工作。由于仿照基因編碼的工作很復(fù)雜,往往進(jìn)行簡化,如二進(jìn)制編碼。遺傳算法過程如圖3所示。
圖3 遺傳算法流程
設(shè)置GA算法的參數(shù)如下:種群大小設(shè)置為300,染色體大小設(shè)置為6,交叉速率設(shè)置為1,變異率設(shè)置為0.01。提取BP神經(jīng)網(wǎng)絡(luò)的隱藏閾值作為GA算法的適應(yīng)度函數(shù)。在大約30到500次迭代之后,GA過程返回最佳個(gè)體。訓(xùn)練過程如圖3所示。重復(fù)測試7次,結(jié)果如表3所示。可以看到,得到的收益比實(shí)際收益略有增加。
表3 7次實(shí)驗(yàn)預(yù)測結(jié)果
利用桑黃實(shí)驗(yàn)數(shù)據(jù)作為載體,提出了一種利用計(jì)算機(jī)技術(shù)處理生物實(shí)驗(yàn)數(shù)據(jù)的方法。實(shí)驗(yàn)結(jié)果表明,模型預(yù)測的最優(yōu)條件與生物實(shí)驗(yàn)結(jié)果一致,證明該方法對(duì)培養(yǎng)條件優(yōu)化具有良好的可預(yù)測性。機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的算法在處理大數(shù)量的生物數(shù)據(jù)具有獨(dú)特優(yōu)勢,是生物信息學(xué)潛在的發(fā)展方向[16-17]。