李 冰
(黑龍江中醫(yī)藥大學 佳木斯學院,黑龍江 佳木斯154002)
數(shù)據(jù)挖掘(DM :Data Mining)作為仍在不斷完善和發(fā)展的技術,到目前為止數(shù)據(jù)挖掘技術到現(xiàn)在還沒有形成統(tǒng)一的普遍的定義,目前比較公認的定義為:數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提取或“挖掘”出有用的知識[1-2]使用數(shù)據(jù)挖掘技術可以對這些復雜的定性描述和隱性知識進行挖掘, 揭示其規(guī)律并使隱性知識顯性化[3]。 數(shù)據(jù)挖掘[4](DM :Data Mining)是一個集合數(shù)據(jù)庫、數(shù)理統(tǒng)計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。不僅計算機學科由于它的出現(xiàn)得到了快速的發(fā)展,并且也能為過程控制、商務管理、科學研究、優(yōu)化查詢、醫(yī)藥研發(fā)等領域提供新的方法和注入新的活力,從而推進各個學科的不斷發(fā)展。
數(shù)據(jù)集是從某個環(huán)境或過程中取得的一系列測量結(jié)果。對于一些基本的情況,我們有一系列的測量對象,每一個測量對象都有統(tǒng)一的t個測量數(shù)據(jù), 此時可以把這p 個對象的一系列測量結(jié)果看作是一個p×t 的數(shù)據(jù)矩陣。 矩陣中的t 列表示對每個對象所作的t 種測量,稱為變量、特征、屬性或者字段。這個數(shù)據(jù)矩陣中的n 行表示被測量的p 個對象,亦可稱為個體、實例、實體或記錄。
模式是一個用語言A 來表示的表達式B,它可用來描述數(shù)據(jù)集C中數(shù)據(jù)的特性,B 所描述的數(shù)據(jù)是集合C 的一個子集CB。 T 作為一個模式要求它列舉出數(shù)據(jù)子集CB 中所有元素的描述方法簡單。 舉例說明,例如,“如果考試成績在91—100 之間,則成績優(yōu)秀”可稱為一個模式,而“如果成績?yōu)?1、92、93、94、95、96、97、98、99 或100,則成績優(yōu)秀”就不能稱之為一個模式。模式有很多種,按功能可分為預測型模式和描述型模式等。 從數(shù)據(jù)集中發(fā)現(xiàn)模式是數(shù)據(jù)挖掘的主要任務。
數(shù)據(jù)挖掘[4](DM :Data Mining)是一個集合數(shù)據(jù)庫、數(shù)理統(tǒng)計、機器學習、可視化和信息科學技術為一體的新興的交叉學科。 不僅計算機學科由于它的出現(xiàn)得到了快速的發(fā)展,并且也能為過程控制、商務管理、科學研究、優(yōu)化查詢、醫(yī)藥研發(fā)等領域提供新的方法和注入新的活力,從而推進各個學科的不斷發(fā)展。
圖1 數(shù)據(jù)庫知識發(fā)展(KDD)過程
數(shù)據(jù)挖掘從不同的視角看有幾種分類方法,主要是:根據(jù)發(fā)現(xiàn)知識的種類分類、根據(jù)采掘的數(shù)據(jù)庫的種類分類、根據(jù)應用和根據(jù)采用的技術分類分類等[5]。
根據(jù)發(fā)現(xiàn)知識的種類分類:這種分類方法有:關聯(lián)規(guī)則挖掘、偏差分析、分類規(guī)則挖掘、聚類規(guī)則挖掘、序列模式挖掘、趨勢分析等。根據(jù)采用的技術分類:最近鄰技術、決策樹、遺傳算法、人工神經(jīng)網(wǎng)絡、可視化技術)等。 根據(jù)挖掘的數(shù)據(jù)庫分類:關系型、事務型、多媒體、主動型空間型、時間型、面向?qū)ο笮汀⑽谋拘?、異質(zhì)數(shù)據(jù)庫和遺留系統(tǒng)等。
祖國醫(yī)學是中華民族的一顆璀璨明珠,在幾千年的發(fā)展之中積累了中華民族與疾病斗爭的寶貴經(jīng)驗,幾千年以來,我國的傳統(tǒng)醫(yī)學積累浩瀚的方劑和豐富的經(jīng)驗,是世界上任何國家都無法比擬的。 歷代醫(yī)家遺留了大量的經(jīng)典方劑, 這些方劑之中內(nèi)中蘊涵著豐富的內(nèi)容,要繼承和發(fā)揚這些名醫(yī)名家的學術經(jīng)驗,就迫切需要我們運用現(xiàn)代先進的科學技術手段對其進行研究。 而今人類社會正在處在大規(guī)模、高速度的信息化時代,信息已經(jīng)成為人類社會發(fā)展、進步和賴以生存的重要資源和基本資源。 但是目前,先進的科學技術尚未能充分利用于中醫(yī)藥學領域,大量寶貴的經(jīng)典方劑流失,這嚴重影響了祖國醫(yī)學的發(fā)展。
在這樣的背景下,中醫(yī)醫(yī)學現(xiàn)代化的利用、轉(zhuǎn)化和傳播的速度及能力是我國傳統(tǒng)醫(yī)學現(xiàn)代化發(fā)展的關鍵性因素。 如果僅單靠“師傳徒學” 或個人研讀古代經(jīng)方揣摩名醫(yī)名家經(jīng)驗信息效率是十分低下的,并且中醫(yī)學的很多征候還具備很強的辯證性,描述疾病的主觀不確切和證候信息所體現(xiàn)出的客觀不完整, 形成了中醫(yī)證候信息的復雜性。這就阻礙了祖國醫(yī)學的快速發(fā)展,要實現(xiàn)中醫(yī)現(xiàn)代化,就要將我國豐富的中醫(yī)信息資源和現(xiàn)代計算機方法相結(jié)合,整理歸納浩如煙海的古代經(jīng)典中醫(yī)文獻資料,實現(xiàn)中醫(yī)藥信息資源處理、轉(zhuǎn)化及傳播的現(xiàn)代化。現(xiàn)有的中醫(yī)數(shù)據(jù)庫中的大量數(shù)據(jù)為建立中醫(yī)學數(shù)據(jù)挖掘系統(tǒng)提供了充分的基礎,通過先進的計算機信息處理技術,建立新的知識體系構建形成新的知識,為我國傳統(tǒng)中醫(yī)學發(fā)揚光大提供新的思路。
[1]喬延江.中藥(復方)KDD 研究開發(fā)的意義[J].北京中醫(yī)藥大學學報.1998,21(3):15-17.
[2]Jiawei Han Micheline Kamber.范明,孟小峰等譯.數(shù)據(jù)挖掘概念與技術[J].北京:電子工業(yè)出版社.2001,3-5.
[3]Fayyad U Piatet sky-Shapiro,Smyth,Uthurussm y [Z].Advances in Knowledge Discovery and Data Mining MIT Press.1996.
[4]秦雪君,施誠.數(shù)據(jù)挖掘技術在中醫(yī)藥領域的應用[J].醫(yī)學信息.2006,19(5):28-32.
[5]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法.第1 版[M].北京:中國水利水電出版社.2003.