DNA序列分析系統(tǒng)的開發(fā)應(yīng)用

2014-09-17 02:08:08李曉艷張玉冰

電腦知識與技術(shù) 2014年22期

李曉艷張玉冰

摘要：20世紀(jì)90年代，人類基因組計劃的啟動，有力推動了DNA測序工作的發(fā)展。尋找某些特征片段（功能片段）在序列中的分布規(guī)律，對遺傳學(xué)、生物信息學(xué)等都有重要的應(yīng)用意義。在教學(xué)、研究中發(fā)現(xiàn)，應(yīng)用數(shù)學(xué)分析軟件MATLAB的字符串處理功能，可以容易地達(dá)到功能片段分析的目的，本系統(tǒng)通過分析DNA序列鏈之間的關(guān)聯(lián)程度，構(gòu)造出特征矩陣，根據(jù)模糊C均值算法較準(zhǔn)確的對DNA序列的集合進行了分類，同時利用matlab的圖像顯示功能將聚類的最終結(jié)果清楚明了的顯示在圖像中，使用戶能清楚的看到聚類效果。本系統(tǒng)主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。首先該系統(tǒng)對DNA序列的總長度和功能序列的長度進行了測量，利用一維數(shù)組確定功能片段在DNA序列中的位置特征，從而完成了對DNA堿基序列的分析；其次該系統(tǒng)對用戶給出的數(shù)個DNA鏈進行序列之間的特征分析，統(tǒng)計出每個序列的（A，T，C，G）堿基密度，得到一個特征矩陣，有效的為模糊聚類分析方法提供數(shù)據(jù)來源。最終該系統(tǒng)應(yīng)用模糊C均值聚類算法，利用特征矩陣的數(shù)值，將數(shù)個DNA序列聚類并分為兩類。

關(guān)鍵詞：模糊C均值；特征片段；系統(tǒng)開發(fā)

中圖分類號：TP311 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2014）22-5220-03

1 概述

自從1953年Watson和Crick提出DNA雙螺旋結(jié)構(gòu)模型以來，探索DNA一級結(jié)構(gòu)的工作就廣泛開展。根據(jù)模糊C均值算法可以較準(zhǔn)確的對DNA序列的集合進行分類。

模糊C均值聚類算法分類DNA指的是根據(jù)模糊聚類的方法，利用特征矩陣的數(shù)值，將數(shù)個DNA序列分為兩類，系統(tǒng)可以顯示出分類后的DNA序列所對應(yīng)的序列號，以及聚類后的分布圖像。

本系統(tǒng)主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。

2 運行軟件和運行環(huán)境

2.1 運行軟件

本系統(tǒng)使用matlab7.0或以上版本作為運行庫，它所具有的非常低的硬件要求和多平臺支持，確保DNA序列分析系統(tǒng)系統(tǒng)各預(yù)定功能的實現(xiàn)。

2.2 運行環(huán)境

在PII400/64M以上的各種PC機上運行，可運行于Windows98，Windows2000，Windows XP，Windows 7等操作系統(tǒng)，能打印A3紙張和A4紙張的打印機。

3 系統(tǒng)分析設(shè)計

3.1 功能需求分析

根據(jù)DNA序列分析的具體情況，軟件需具備以下四大功能：

1） DNA鏈堿基序列分析

DNA鏈堿基序列分析指的是對于給定的某個DNA鏈，對某個功能片段出現(xiàn)的特征做簡單的分析。首先測量出DNA序列的總長度和功能序列的長度，然后利用一維數(shù)組確定功能片段在DNA序列中的位置特征，系統(tǒng)可以提供出現(xiàn)的次數(shù)以及每一個功能序列出現(xiàn)時前后的堿基，并利用圖像更加直觀的表達(dá)。

2）多個DNA鏈特征矩陣提取

多個DNA鏈特征矩陣提取指的是對于給出的數(shù)個DNA鏈，找到序列之間的特征，統(tǒng)計出每個序列的（A，T，C，G）堿基密度，得到一個特征矩陣，為模糊聚類分析方法提供數(shù)據(jù)來源。

3）模糊C均值聚類算法

本系統(tǒng)應(yīng)用數(shù)學(xué)分析軟件MATLAB的字符串處理功能，容易地達(dá)到功能片段分析的目的，同時通過分析DNA序列鏈之間的關(guān)聯(lián)程度，構(gòu)造出特征矩陣，根據(jù)模糊C均值算法較準(zhǔn)確的對DNA序列的集合進行了分類，主要研究了DNA鏈堿基序列分析、多個DNA鏈特征矩陣提取、模糊C均值聚類算法分類DNA等三大部分。

系統(tǒng)同時也提供了圖像屬性分析功能，圖像表示是應(yīng)用在DNA序列分析方面的強有力的可視化工具，它能夠揭示蘊藏在DNA序列中的結(jié)構(gòu)和功能的生物信息。本系統(tǒng)提供有DNA鏈堿基序列位置分布圖像分析和DNA序列組模糊聚類圖像分析兩大部分，快捷有效地提取出需要的數(shù)據(jù)結(jié)果。

3.2 作業(yè)流程分析

現(xiàn)有的作業(yè)流程從導(dǎo)入數(shù)據(jù)到打印結(jié)果共有5個步驟，基本上每一步都要手動干預(yù)，最終將數(shù)據(jù)保存到移動設(shè)備中。

3.3 系統(tǒng)框架結(jié)構(gòu)設(shè)計

本系統(tǒng)提供良好的用戶界面，實現(xiàn)簡潔的操作流程，快捷有效地為生物基因工作者提供基因數(shù)據(jù)篩選的便利，改善和提高工作效率。系統(tǒng)結(jié)構(gòu)如圖1所示：

系統(tǒng)界面采用傳統(tǒng)的菜單欄方式，從界面選項菜單可以看出主要有四大部分，“新建”、“打開”、“打印”、“幫助”，可以幫助用戶快速打開新建頁面、保存、打印以及查看有關(guān)軟件資料等功能。界面正中間采用單調(diào)簡約的黑白背景設(shè)置，直觀大方，給用戶良好的使用視覺環(huán)境。

4 關(guān)鍵技術(shù)的實現(xiàn)

4.1 聚類分析

模糊C均值聚類算法分類DNA指的是根據(jù)模糊聚類的方法，利用特征矩陣的數(shù)值，將數(shù)個DNA序列分為兩類，系統(tǒng)可以顯示出分類后的DNA序列所對應(yīng)的序列號，以及聚類后的分布圖像。下面是DNA聚類分析的核心代碼：

4.2 圖像顯示

本系統(tǒng)利用matlab軟件很好地實現(xiàn)了數(shù)據(jù)篩選結(jié)果可觀化，利用不同類型的圖像表示結(jié)果的不同變化特點。

5 系統(tǒng)設(shè)計的主要創(chuàng)新點

5.1海量數(shù)據(jù)操控

數(shù)據(jù)對比是相對于圖表而言。在圖表中，有時不能突出顯示系統(tǒng)菜單選項的數(shù)據(jù)欄是主要針對數(shù)據(jù)進行的操作，添加數(shù)據(jù)指的是對于源數(shù)據(jù)的導(dǎo)入一般是直接導(dǎo)入，不需要手動輸入的。所以如果遇到有遺漏某個數(shù)據(jù)的時候，可以進行直接添加，再次運行篩選。數(shù)據(jù)分析主要是給出篩選結(jié)果的理由，就是根據(jù)什么來篩選代表DNA，這個時候就需要把篩選過程中主要的數(shù)值根據(jù)顯示出來，比如說分類結(jié)果，所以這個功能可以幫助用戶找到他想要看到的聚類之后的DNA。

6 結(jié)束語

針對基因數(shù)據(jù)龐大，處理繁瑣，篩選過程復(fù)雜等特點，系統(tǒng)應(yīng)用模糊C均值聚類思想，利用簡單直觀的界面，幫助用戶實現(xiàn)海量基因數(shù)據(jù)篩選的操作。利用matlab軟件特有的圖像編輯功能，將篩選的數(shù)據(jù)屬性形象直觀地表達(dá)出來。經(jīng)過多次嘗試，系統(tǒng)處理基因數(shù)據(jù)方便快捷，結(jié)果直觀可靠，達(dá)到了預(yù)期的效果，今后將根據(jù)用戶的反饋繼續(xù)完善。

參考文獻(xiàn)：

[1] 孫吉貴，劉杰，趙連宇.聚類算法研究[J].軟件學(xué)報，2008，19（1）：48-61.

[2] 劉靖明，韓麗川，侯立文.一種新的聚類算法——粒子群聚類算法[J].計算機工程與應(yīng)用，2005（20）.

[3] 朱顥東，李紅嬋.基于互信息和粗糙集理論的特征選擇[J].計算機工程，2011（15）.

[4] 張麗新，王家廞，趙雁南，楊澤紅.基于Relief的組合式特征選擇[J].復(fù)旦學(xué)報（自然科學(xué)版），2004（5）.

[5] 滕達(dá).淺談主成分分析與因子分析方法的聯(lián)系與區(qū)別[J].中國新技術(shù)新產(chǎn)品，2011（22）.