李 偉 趙衛(wèi)利 劉冠群 曹忠民
〔摘 要〕知識(shí)服務(wù)作為面向內(nèi)容的增值服務(wù),需要對(duì)知識(shí)進(jìn)行系統(tǒng)化、綜合化、深入化地加工、組織和處理。知識(shí)庫和知識(shí)發(fā)現(xiàn)是知識(shí)服務(wù)的關(guān)鍵技術(shù),在知識(shí)服務(wù)活動(dòng)中發(fā)揮著重要作用。本文通過對(duì)知識(shí)庫和知識(shí)發(fā)現(xiàn)的探討,特別是知識(shí)發(fā)現(xiàn)在知識(shí)庫中應(yīng)用的研究,對(duì)其在知識(shí)服務(wù)中所發(fā)揮的作用進(jìn)行了闡述。
〔關(guān)鍵詞〕知識(shí)服務(wù);知識(shí)庫;知識(shí)發(fā)現(xiàn)
〔中圖分類號(hào)〕G250 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)07-0180-03
The Application of Knowledge Base and Knowledge
Discovery Technology in Knowledge ServiceLi Wei Zhao Weili Liu Guanqun Cao Zhongmin
(Library,Hebei University of Scientific and Technical,Shijiazhuang 050018,China)
〔Abstract〕Knowledge service,as a service-oriented content and value-added service,needs to carry out systematic,comprehensive,in-depth processing,and handling for service.Knowledge base and Knowledge discovery,which play an important role in the knowledge service activities,are the key technology of knowledge service.Through the discussion on knowledge base and knowledge discover,especially knowledge discover in the application of the knowledge base,the role of knowledge base and knowledge discover was described.
〔Key words〕knowledge services;knowledge base;knowledge discovery
作為重要的生產(chǎn)要素,知識(shí)存在于人們的頭腦中,并通過一定的方式向外界進(jìn)行表達(dá)。在傳播和分享的過程中,知識(shí)得到了擴(kuò)散和增值。知識(shí)服務(wù)通過對(duì)知識(shí)的組織,使知識(shí)成為生產(chǎn)力的放大器,而知識(shí)庫和知識(shí)發(fā)現(xiàn)技術(shù)則是知識(shí)服務(wù)中所使用的關(guān)鍵技術(shù)。
1 知識(shí)與知識(shí)服務(wù)
知識(shí)是信息的內(nèi)容,它揭示了事物的規(guī)律。知識(shí)分為陳述性知識(shí)和過程性知識(shí)兩大類。陳述性知識(shí)是知識(shí)的描述表達(dá);過程性知識(shí)是說明性的,并使用陳述知識(shí)以確定動(dòng)作[1]。
知識(shí)服務(wù)是指向用戶提供知識(shí)信息、知識(shí)挖掘手段及問題解決方案的服務(wù)。知識(shí)服務(wù)是為了適應(yīng)知識(shí)經(jīng)濟(jì)的發(fā)展和知識(shí)創(chuàng)新的需要,以解決用戶問題方案為直接目標(biāo),通過對(duì)用戶知識(shí)的需求和問題環(huán)境的分析,向用戶提供經(jīng)過智能化處理的符合用戶需求的知識(shí)產(chǎn)品[2]。
2 知識(shí)服務(wù)與知識(shí)庫
作為面向內(nèi)容的增值服務(wù),知識(shí)服務(wù)需要通過對(duì)原有信息和知識(shí)的系統(tǒng)化、綜合化、深入化,如何構(gòu)建集成化、智能化的知識(shí)庫以產(chǎn)生針對(duì)性和適用性更強(qiáng)的再生知識(shí),以滿足用戶對(duì)知識(shí)服務(wù)的需求是知識(shí)服務(wù)體系研究中的重要課題。
知識(shí)庫是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物。作為一種開發(fā)工具與環(huán)境,知識(shí)庫為用戶開發(fā)基于知識(shí)的系統(tǒng)提供支撐。知識(shí)庫系統(tǒng)具有下列特點(diǎn):
(1)應(yīng)具有支持?jǐn)?shù)據(jù)庫的全部功能,包括對(duì)大批量數(shù)據(jù)的高效存取以及數(shù)據(jù)共享、數(shù)據(jù)的安全性、并發(fā)控制、故障恢復(fù)等功能。
(2)應(yīng)具有存取知識(shí)、管理知識(shí)的功能。
(3)知識(shí)庫系統(tǒng)的核心部分是一個(gè)推理機(jī)構(gòu),它完成對(duì)知識(shí)的處理。
(4)一般以關(guān)系數(shù)據(jù)庫管理系統(tǒng)為基礎(chǔ),外加一個(gè)規(guī)則庫與推理層,組成一個(gè)知識(shí)庫系統(tǒng)。
(5)一個(gè)知識(shí)庫系統(tǒng)一般應(yīng)能存儲(chǔ)與管理適量的事實(shí)與規(guī)則[3]。
知識(shí)庫系統(tǒng)的核心組成部分是知識(shí)庫和推理機(jī)構(gòu)。知識(shí)庫是以一致的形式存貯知識(shí)的機(jī)構(gòu),推理機(jī)構(gòu)則是為了使用知識(shí)庫藏內(nèi)的知識(shí)執(zhí)行推理的控制機(jī)構(gòu)。
3 知識(shí)發(fā)現(xiàn)
知識(shí)發(fā)現(xiàn),又稱數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)是從大量原始數(shù)據(jù)中挖掘出隱含的、有用的、尚未發(fā)現(xiàn)的信息和知識(shí)。Fayyad將數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)定義為“KDD是從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。[4]”
數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中識(shí)別出可信的、有效的、新穎的、潛在有用的以及最終可理解模式的高級(jí)處理過程。“數(shù)據(jù)挖掘”是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)中專門負(fù)責(zé)發(fā)現(xiàn)知識(shí)的核心環(huán)節(jié),“數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)”是一個(gè)交互式、循環(huán)反復(fù)的整體過程,除了包括數(shù)據(jù)挖掘外,還包括數(shù)據(jù)準(zhǔn)備和發(fā)現(xiàn)的結(jié)果解釋、評(píng)估等諸多環(huán)節(jié)[5]。
知識(shí)發(fā)現(xiàn)的技術(shù)基礎(chǔ)是統(tǒng)計(jì)學(xué)與人工智能。其特點(diǎn)是能對(duì)原有的數(shù)據(jù)進(jìn)行高度自動(dòng)分析,歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)用戶的行為,幫助決策者調(diào)整策略,做出正確的決策。知識(shí)發(fā)現(xiàn)的主要技術(shù)手段是統(tǒng)計(jì)方法,包括數(shù)理統(tǒng)計(jì)、多元統(tǒng)計(jì)方法、計(jì)量經(jīng)濟(jì)學(xué)和時(shí)間序列分析方法等。
3.1 知識(shí)發(fā)現(xiàn)的任務(wù)
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)集中抽取新的模式。知識(shí)發(fā)現(xiàn)的結(jié)果可以表示成為各種形式,包括規(guī)則、法則、科學(xué)規(guī)律、方程或概念網(wǎng)等。知識(shí)發(fā)現(xiàn)的任務(wù)包括數(shù)據(jù)總結(jié)、概念描述、分類、聚類、相關(guān)性分析、偏差分析。
3.2 知識(shí)發(fā)現(xiàn)的對(duì)象[6]
知識(shí)發(fā)現(xiàn)的范圍非常廣泛,涉及科學(xué)研究、社會(huì)科學(xué)、衛(wèi)星觀測(cè)以及商業(yè)數(shù)據(jù)等方方面面,數(shù)據(jù)結(jié)構(gòu)也各不相同,有層次的、網(wǎng)狀的、關(guān)系的和面向?qū)ο蟮臄?shù)據(jù)。知識(shí)發(fā)現(xiàn)的對(duì)象,主要包括數(shù)據(jù)庫、文本和Web信息。
3.2.1 數(shù)據(jù)庫
數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)是在關(guān)系數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)挖掘,從數(shù)據(jù)集中識(shí)別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。
數(shù)據(jù)挖掘的基本目標(biāo)是預(yù)測(cè)和描述。預(yù)測(cè)性數(shù)據(jù)挖掘生成已知數(shù)據(jù)集所描述的系統(tǒng)模型。描述性數(shù)據(jù)挖掘是在可用數(shù)據(jù)集的基礎(chǔ)上生成新的、非同尋常的信息。根據(jù)挖掘目標(biāo)的不同,數(shù)據(jù)挖掘的任務(wù)分為分類、回歸、聚類、總結(jié)概括、關(guān)聯(lián)建模、變化和偏差檢測(cè)[30]。
3.2.2 文本
文本分析是知識(shí)發(fā)現(xiàn)對(duì)文本數(shù)據(jù)進(jìn)行挖掘的手段。文本分析的基本過程包括:語種識(shí)別、特征提取、聚類和分類。
語種識(shí)別工具用于自動(dòng)發(fā)現(xiàn)文本使用的語種,根據(jù)不同的語種自動(dòng)組織索引數(shù)據(jù),不同的語種有不同的查詢結(jié)果,并能將文本提交給文本翻譯器。
特征提取主要是識(shí)別文本中詞項(xiàng)的意義。特征識(shí)別工具在分析文本時(shí)一般采取兩種模式:一種是單獨(dú)分析該文本;另一種是先根據(jù)其他相似的文本自動(dòng)建立一個(gè)詞典,然后在該文本中尋找詞典中出現(xiàn)的詞項(xiàng)。
聚類是將一個(gè)文本集合分成幾組的過程。聚類可以描述整個(gè)文本集的內(nèi)容,找到其中隱含的相似關(guān)系,從而更容易找到相似或相關(guān)的信息。
分類工具可將文本分配到已存在的類中。分類工具的使用降低分類人員的工作強(qiáng)度,通過自動(dòng)組織,把文本分配到相應(yīng)的主題,使之容易瀏覽、查詢。分類是數(shù)據(jù)組織的有效手段。
3.2.3 Web信息
Web信息挖掘技術(shù)是根據(jù)面向Internet的分布式信息資源的特點(diǎn)的一種模式抽取過程,它不僅能查找到分布式信息資源中已存在的信息,還能識(shí)別出大量存在于數(shù)據(jù)中的隱含的、有效的規(guī)律。
3.3 數(shù)據(jù)挖掘任務(wù)的分類
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識(shí)發(fā)現(xiàn)的核心部分。根據(jù)挖掘任務(wù)的不同,可分為分類知識(shí)發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常發(fā)現(xiàn)和趨勢(shì)預(yù)測(cè)等。
分類知識(shí)發(fā)現(xiàn)是數(shù)據(jù)挖掘中最常見的任務(wù),其目的在于根據(jù)樣本數(shù)據(jù)尋求相應(yīng)的分類規(guī)則,然后根據(jù)獲得的規(guī)則來確定某一非樣本個(gè)體或?qū)ο笫欠駥儆谀骋惶囟ǖ慕M或類。
數(shù)據(jù)聚類是用于發(fā)現(xiàn)在數(shù)據(jù)庫中未知的數(shù)據(jù)類。
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是在數(shù)據(jù)庫中尋找數(shù)據(jù)對(duì)象間的關(guān)聯(lián)模式。
數(shù)據(jù)總結(jié)是將數(shù)據(jù)庫中的大量相關(guān)數(shù)據(jù)從較低概念層次抽象到較高概念層次的過程。
序列模式發(fā)現(xiàn)是在數(shù)據(jù)庫中尋找基于一段時(shí)間區(qū)間的關(guān)聯(lián)模式。
依賴關(guān)系或依賴模型發(fā)現(xiàn)是通過對(duì)數(shù)據(jù)庫中數(shù)據(jù)的分析,獲取數(shù)據(jù)間的某種因果聯(lián)系。
異常發(fā)現(xiàn)用于在數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)中存在的偏差或異常。
趨勢(shì)預(yù)測(cè)是根據(jù)數(shù)據(jù)庫中的歷史信息對(duì)未來信息做出估計(jì)[7]。
4 知識(shí)發(fā)現(xiàn)在知識(shí)庫系統(tǒng)中的應(yīng)用
4.1 知識(shí)發(fā)現(xiàn)在知識(shí)庫系統(tǒng)構(gòu)建中的應(yīng)用
知識(shí)發(fā)現(xiàn)作為發(fā)現(xiàn)知識(shí)的完整過程,可分為數(shù)據(jù)準(zhǔn)備(Data Preparation)、數(shù)據(jù)挖掘(Data Mining)、挖掘結(jié)果的解釋與評(píng)估(Interpretation and Evaluation)3個(gè)階段。其中,數(shù)據(jù)準(zhǔn)備階段就是知識(shí)儲(chǔ)備和知識(shí)組織的過程。
數(shù)據(jù)準(zhǔn)備階段的工作包括四個(gè)方面的內(nèi)容;數(shù)據(jù)的凈化、數(shù)據(jù)的集成、數(shù)據(jù)的應(yīng)用變換和數(shù)據(jù)的精簡(jiǎn)。在數(shù)據(jù)準(zhǔn)備階段,通過對(duì)數(shù)據(jù)的修正和縮減,使知識(shí)庫中的知識(shí)得以優(yōu)化,以提高知識(shí)服務(wù)的效率和質(zhì)量;通過數(shù)據(jù)的轉(zhuǎn)換、標(biāo)引,實(shí)現(xiàn)隱性知識(shí)到顯性知識(shí)的轉(zhuǎn)變。對(duì)于文本和Web知識(shí),只有通過數(shù)據(jù)準(zhǔn)備,才能在知識(shí)庫系統(tǒng)中加以使用。
在數(shù)據(jù)挖掘階段,通過使用分類、聚類、相關(guān)性分析等智能模式,進(jìn)行知識(shí)分組,抽取數(shù)據(jù)模式,確定數(shù)據(jù)記錄結(jié)構(gòu)、數(shù)據(jù)存儲(chǔ)方式和不同數(shù)據(jù)表之間的數(shù)據(jù)關(guān)聯(lián)關(guān)系。
4.2 知識(shí)發(fā)現(xiàn)在知識(shí)推理中的應(yīng)用
知識(shí)庫系統(tǒng)通過對(duì)知識(shí)的組織,使知識(shí)在具體的運(yùn)用環(huán)境中產(chǎn)生價(jià)值。作為知識(shí)發(fā)現(xiàn)的核心部分,數(shù)據(jù)挖掘通過在知識(shí)庫推理機(jī)構(gòu)中的運(yùn)用,獲取數(shù)據(jù)模式,根據(jù)某種興趣度程度,識(shí)別知識(shí)的真正有趣部分,并向用戶描述挖掘出來的知識(shí)。
例如,通過數(shù)據(jù)分類區(qū)分不同樣本的類別歸屬;通過關(guān)聯(lián)規(guī)則發(fā)現(xiàn),根據(jù)數(shù)據(jù)對(duì)象之間關(guān)聯(lián)模式,從某一知識(shí)點(diǎn)作為入口,獲取與樣本有共同表征的知識(shí);通過序列模式和趨勢(shì)預(yù)測(cè)分析,進(jìn)行歸納和估計(jì)。
5 結(jié)束語
作為知識(shí)服務(wù)活動(dòng)中的關(guān)鍵技術(shù),知識(shí)庫和知識(shí)發(fā)現(xiàn)技術(shù)通過對(duì)數(shù)據(jù)的凈化、優(yōu)化、縮減,以及數(shù)據(jù)關(guān)聯(lián)模式的分析,實(shí)現(xiàn)對(duì)知識(shí)的有效組織,并通過對(duì)知識(shí)庫中知識(shí)的推理,向用戶提供感興趣的知識(shí)和知識(shí)模式,實(shí)現(xiàn)知識(shí)的增值服務(wù)。通過知識(shí)的增值服務(wù),實(shí)現(xiàn)知識(shí)創(chuàng)新是知識(shí)服務(wù)的根本目的所在。
參考文獻(xiàn)
[1]溫有奎,等.知識(shí)元挖掘[M].西安:西安電子科技大學(xué)出版社,2005-04:22.
[2]黎艷.信息服務(wù)向知識(shí)服務(wù)轉(zhuǎn)變的探析[J].圖書摘報(bào)工作,2003,(2):32-34.
[3]徐潔磐,王銀根,劉友華.知識(shí)庫系統(tǒng)的研究與應(yīng)用[J].微型計(jì)算機(jī),1995,15(2):9-11.
[4]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining.MIT Press,1996:1-10.
[5]Michalski RS,Kaufman K A.Data Mining and Knowledge Discovery:A Review of Issues and a Multistrategy Approach,Machine Learning and Data Mining Methods and Applications.New York:John & Sons Ltd,92-107.
[6]史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002:312-316.
[7]Mehmed Kantardzic.Data Mining Concepts,Models,Methods,and Algorithms.New York:IEEE Press,2002:1-14.