李曉艷 張玉冰
摘要:20世紀(jì)90年代,人類基因組計劃的啟動,有力推動了DNA測序工作的發(fā)展。尋找某些特征片段(功能片段)在序列中的分布規(guī)律,對遺傳學(xué)、生物信息學(xué)等都有重要的應(yīng)用意義。在教學(xué)、研究中發(fā)現(xiàn),應(yīng)用數(shù)學(xué)分析軟件MATLAB的字符串處理功能,可以容易地達(dá)到功能片段分析的目的,本系統(tǒng)通過分析DNA序列鏈之間的關(guān)聯(lián)程度,構(gòu)造出特征矩陣,根據(jù)模糊C均值算法較準(zhǔn)確的對DNA序列的集合進行了分類,同時利用matlab的圖像顯示功能將聚類的最終結(jié)果清楚明了的顯示在圖像中,使用戶能清楚的看到聚類效果。本系統(tǒng)主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。首先該系統(tǒng)對DNA序列的總長度和功能序列的長度進行了測量,利用一維數(shù)組確定功能片段在DNA序列中的位置特征,從而完成了對DNA堿基序列的分析;其次該系統(tǒng)對用戶給出的數(shù)個DNA鏈進行序列之間的特征分析,統(tǒng)計出每個序列的(A,T,C,G)堿基密度,得到一個特征矩陣,有效的為模糊聚類分析方法提供數(shù)據(jù)來源。最終該系統(tǒng)應(yīng)用模糊C均值聚類算法,利用特征矩陣的數(shù)值,將數(shù)個DNA序列聚類并分為兩類。
關(guān)鍵詞:模糊C均值;特征片段;系統(tǒng)開發(fā)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)22-5220-03
1 概述
自從1953年Watson和Crick提出DNA雙螺旋結(jié)構(gòu)模型以來,探索DNA一級結(jié)構(gòu)的工作就廣泛開展。根據(jù)模糊C均值算法可以較準(zhǔn)確的對DNA序列的集合進行分類。
模糊C均值聚類算法分類DNA指的是根據(jù)模糊聚類的方法,利用特征矩陣的數(shù)值,將數(shù)個DNA序列分為兩類,系統(tǒng)可以顯示出分類后的DNA序列所對應(yīng)的序列號,以及聚類后的分布圖像。
本系統(tǒng)主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。
2 運行軟件和運行環(huán)境
2.1 運行軟件
本系統(tǒng)使用matlab7.0或以上版本作為運行庫,它所具有的非常低的硬件要求和多平臺支持,確保DNA序列分析系統(tǒng)系統(tǒng)各預(yù)定功能的實現(xiàn)。
2.2 運行環(huán)境
在PII400/64M以上的各種PC機上運行,可運行于Windows98,Windows2000,Windows XP,Windows 7等操作系統(tǒng),能打印A3紙張和A4紙張的打印機。
3 系統(tǒng)分析設(shè)計
3.1 功能需求分析
根據(jù)DNA序列分析的具體情況,軟件需具備以下四大功能:
1) DNA鏈堿基序列分析
DNA鏈堿基序列分析指的是對于給定的某個DNA鏈,對某個功能片段出現(xiàn)的特征做簡單的分析。首先測量出DNA序列的總長度和功能序列的長度,然后利用一維數(shù)組確定功能片段在DNA序列中的位置特征,系統(tǒng)可以提供出現(xiàn)的次數(shù)以及每一個功能序列出現(xiàn)時前后的堿基,并利用圖像更加直觀的表達(dá)。
2) 多個DNA鏈特征矩陣提取
多個DNA鏈特征矩陣提取指的是對于給出的數(shù)個DNA鏈,找到序列之間的特征,統(tǒng)計出每個序列的(A,T,C,G)堿基密度,得到一個特征矩陣,為模糊聚類分析方法提供數(shù)據(jù)來源。
3) 模糊C均值聚類算法
模糊C均值聚類算法分類DNA指的是根據(jù)模糊聚類的方法,利用特征矩陣的數(shù)值,將數(shù)個DNA序列分為兩類,系統(tǒng)可以顯示出分類后的DNA序列所對應(yīng)的序列號,以及聚類后的分布圖像。
本系統(tǒng)應(yīng)用數(shù)學(xué)分析軟件MATLAB的字符串處理功能,容易地達(dá)到功能片段分析的目的,同時通過分析DNA序列鏈之間的關(guān)聯(lián)程度,構(gòu)造出特征矩陣,根據(jù)模糊C均值算法較準(zhǔn)確的對DNA序列的集合進行了分類,主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。
系統(tǒng)同時也提供了圖像屬性分析功能,圖像表示是應(yīng)用在DNA序列分析方面的強有力的可視化工具,它能夠揭示蘊藏在DNA序列中的結(jié)構(gòu)和功能的生物信息。本系統(tǒng)提供有DNA鏈堿基序列位置分布圖像分析和DNA序列組模糊聚類圖像分析兩大部分,快捷有效地提取出需要的數(shù)據(jù)結(jié)果。
3.2 作業(yè)流程分析
現(xiàn)有的作業(yè)流程從導(dǎo)入數(shù)據(jù)到打印結(jié)果共有5個步驟,基本上每一步都要手動干預(yù),最終將數(shù)據(jù)保存到移動設(shè)備中。
3.3 系統(tǒng)框架結(jié)構(gòu)設(shè)計
本系統(tǒng)提供良好的用戶界面,實現(xiàn)簡潔的操作流程,快捷有效地為生物基因工作者提供基因數(shù)據(jù)篩選的便利,改善和提高工作效率。系統(tǒng)結(jié)構(gòu)如圖1所示:
系統(tǒng)界面采用傳統(tǒng)的菜單欄方式,從界面選項菜單可以看出主要有四大部分,“新建”、“打開”、“打印”、“幫助”,可以幫助用戶快速打開新建頁面、保存、打印以及查看有關(guān)軟件資料等功能。界面正中間采用單調(diào)簡約的黑白背景設(shè)置,直觀大方,給用戶良好的使用視覺環(huán)境。
4 關(guān)鍵技術(shù)的實現(xiàn)
4.1 聚類分析
模糊C均值聚類算法分類DNA指的是根據(jù)模糊聚類的方法,利用特征矩陣的數(shù)值,將數(shù)個DNA序列分為兩類,系統(tǒng)可以顯示出分類后的DNA序列所對應(yīng)的序列號,以及聚類后的分布圖像。下面是DNA聚類分析的核心代碼:
4.2 圖像顯示
本系統(tǒng)利用matlab軟件很好地實現(xiàn)了數(shù)據(jù)篩選結(jié)果可觀化,利用不同類型的圖像表示結(jié)果的不同變化特點。
5 系統(tǒng)設(shè)計的主要創(chuàng)新點
5.1海量數(shù)據(jù)操控
數(shù)據(jù)對比是相對于圖表而言。在圖表中,有時不能突出顯示系統(tǒng)菜單選項的數(shù)據(jù)欄是主要針對數(shù)據(jù)進行的操作,添加數(shù)據(jù)指的是對于源數(shù)據(jù)的導(dǎo)入一般是直接導(dǎo)入,不需要手動輸入的。所以如果遇到有遺漏某個數(shù)據(jù)的時候,可以進行直接添加,再次運行篩選。數(shù)據(jù)分析主要是給出篩選結(jié)果的理由,就是根據(jù)什么來篩選代表DNA,這個時候就需要把篩選過程中主要的數(shù)值根據(jù)顯示出來,比如說分類結(jié)果,所以這個功能可以幫助用戶找到他想要看到的聚類之后的DNA。
6 結(jié)束語
針對基因數(shù)據(jù)龐大,處理繁瑣,篩選過程復(fù)雜等特點,系統(tǒng)應(yīng)用模糊C均值聚類思想,利用簡單直觀的界面,幫助用戶實現(xiàn)海量基因數(shù)據(jù)篩選的操作。利用matlab軟件特有的圖像編輯功能,將篩選的數(shù)據(jù)屬性形象直觀地表達(dá)出來。經(jīng)過多次嘗試,系統(tǒng)處理基因數(shù)據(jù)方便快捷,結(jié)果直觀可靠,達(dá)到了預(yù)期的效果,今后將根據(jù)用戶的反饋繼續(xù)完善。
參考文獻(xiàn):
[1] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[2] 劉靖明,韓麗川,侯立文.一種新的聚類算法——粒子群聚類算法[J].計算機工程與應(yīng)用,2005(20).
[3] 朱顥東,李紅嬋.基于互信息和粗糙集理論的特征選擇[J].計算機工程,2011(15).
[4] 張麗新,王家廞,趙雁南,楊澤紅.基于Relief的組合式特征選擇[J].復(fù)旦學(xué)報(自然科學(xué)版),2004(5).
[5] 滕達(dá).淺談主成分分析與因子分析方法的聯(lián)系與區(qū)別[J].中國新技術(shù)新產(chǎn)品,2011(22).