• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的本體構建與重構技術研究

      2017-11-01 07:17:42段妍羽鞏青歌彭圳生
      計算機測量與控制 2017年8期
      關鍵詞:類別本體重構

      段妍羽, 鞏青歌, 彭圳生

      (武警工程大學 研究生管理信息工程系,西安 710086)

      基于數(shù)據(jù)挖掘的本體構建與重構技術研究

      段妍羽, 鞏青歌, 彭圳生

      (武警工程大學 研究生管理信息工程系,西安 710086)

      本體理論在知識工程領域得到廣泛關注和普遍認可,構建完備且準確的領域本體已經(jīng)越來越重要,同時,企業(yè)知識資源的更新與集成要求本體的不斷進化與融合;針對目前本體構建與重構過程中數(shù)據(jù)處理效率低的問題,運用支持向量機分類及K-均值聚類的方法對本體構建數(shù)據(jù)進行處理,從文本數(shù)據(jù)中抽取關注的特定的信息,運用基于二叉樹的多分類支持向量機以及支持向量機與K-均值融合的多樣本聚類,總結基于分類與聚類的本體構建過程,并以離散型和連續(xù)型兩種數(shù)據(jù)樣本驗證了方法的可行性;最后,在上述框架與理論研究的基礎上,設計并開發(fā)了面向知識管理的本體工具平臺,簡單介紹系統(tǒng)的模塊功能;實驗結果表明,基于數(shù)據(jù)挖掘的本體構建與重構技術具有良好的應用效果。

      本體構建與重構;文本處理;支持向量機;K-均值;分類;聚類

      0 引言

      隨著科技的進步,各領域研究和應用的不斷深入,針對相應領域的人和軟件系統(tǒng),基于數(shù)據(jù)挖掘的設計了一種通用全新的知識共享方式,其研究和應用已經(jīng)延伸到多個領域,構建完備且準確的領域本體已經(jīng)越來越重要[1]。本體理論研究不斷走向成熟,本體構建方法也層出不窮,但目前而言,很多本體自動構建方法是基于某一特定語言的,大多是半自動的,距離完全自動構建還有一定差距,因此,如何自動化構建本體特別是中文本體,仍是一個需要不斷改進的問題[2]。

      自動化構建本體是為企業(yè)新領域知識服務的,隨著本體技術的發(fā)展以及應用領域的推廣,企業(yè)需要更多地考慮已有本體的更新以及重復利用,以支持企業(yè)知識的更快、更全面地共享[3]。但目前的重構技術應用十分有限,應用的領域比較集中,而且成本高,風險也大,因此需要通過重構技術規(guī)范本體,并通過實際的驗證和應用來反映其應用價值[4]。

      本文針對目前知識管理中本體構建自動化程度低以及重用度低的問題,結合軍用車輛設計領域研究了支持向量機、K-均值等挖掘算法等本體構建與重構中的關鍵技術—進行了深入研究。

      1 文本構建與重構體系

      本體構建是本體從無到有的過程,本體重構是對已存在的本體進行優(yōu)化整合的過程。因此,知識管理的有效應用依賴于本體構建和重構兩方面技術[5]。其中,本體構建方法研究是本體重構技術研究的基礎和前期準備。通過本體構建方法的研究,深入理解領域概念及其語義關系在本體中的表現(xiàn)形式,本體重構技術可以更好挖掘本體建模元素以及他們之間的語義關系[6]。通過本體構建方法的研究可以構建語義關系明確,一致性較強的本體,以此支持本體重構技術研究。

      針對本體構建方法對本體重構的影響,本文研究內(nèi)容分為本體構建和本體重構兩個研究階段。第一,研究領域本體構建技術,利用已有工具并結合數(shù)據(jù)挖掘中數(shù)據(jù)處理方法,解決本體“從無到有”的問題;第二,研究本體重構技術,整理出本體重構總體流程,詳細研究本體解析、數(shù)據(jù)處理和本體融合所需的關鍵技術。

      本體構建主要包括本體規(guī)劃、本體分析設計、本體評價確認、領域本體建立4個關鍵技術。本體的重構可以用于個體的完善與更新,也可以是多本體的一個融合過程。該研究主要包括本體解析技術、數(shù)據(jù)處理技術、本體融合技術三個關鍵技術。

      2 基于分類與聚類本體構建與重構技術

      2.1 基于SVM的本體概念分類

      基于線性可分情況下的思想,支持向量機是由最優(yōu)分類面推論得出,核心的基本思想可用二維兩類線性可分情況來說明[7],具體如圖1所示。圖中兩類不同的訓練樣本分別用實心點和空心點分別表述,其中2類沒有錯誤地分開的分類線用H線表述。通過不同樣本中距離分類線最近的點,同時平行于分類線H的直線,分別用H1,H2表述。兩類的分類空隙或分類間隔具體指直線H1和H2之間的最短距離。通過定義最優(yōu)分類線不但能將兩類信息無錯誤地分開,而且能使兩類的分類空隙最大[8]。前者的目的是為了保證經(jīng)驗風險最小,而后者的目標是使得分類空隙最大,實際上其本質就是使推廣性界中具有最小化的置信范圍,進一步降低真實風險。以此類推到到高維空間,最優(yōu)分類線便構成了最優(yōu)分類面。

      圖1 最優(yōu)分類面的二維雙類線性圖

      最優(yōu)分類面的求解通常情況下可以分為兩類:線性不可分、線性可分2種情況。而企業(yè)知識信息中提取的數(shù)據(jù)、術語等可能涉及多個領域,同一領域也可能涉及多個方面,根據(jù)分解重構法思想,一個復雜的多類問題可劃分為多個兩類問題來解決。采取決策樹的組合分類策略已被證明是一種高效的多分類組合方法,利用SVM和決策樹相結合的方法構造二叉樹多級SVM,從頂層開始,每一個包含多個類別的節(jié)點上的分類器將一個類別與其他類別分開從而實現(xiàn)了多類問題的分類。

      本體的構建與重構首先要確定概念實例集的類別關系,而后再基于分類關系形成本體的機構框架,最后對實例、屬性等進行修復得到較為完善的本體關系結構。本節(jié)重點描述基于SVM的有監(jiān)督學習的概念實例類別劃分過程。具體流程如下。

      1)樣本的選?。浩髽I(yè)信息中已歸類的概念樣本,假設為N分類問題,訓練樣本為φ={X1,X2,...,XN},且各樹節(jié)點生成的最優(yōu)分類面是將一類與其他類分開。

      2)樣本預處理:企業(yè)中的信息各式各樣,其類別分布在多維空間,因此,需要選取適當?shù)暮撕瘮?shù), 將訓練樣本向特征空間H中映射。

      3)類間相對分離度計算:決策樹構造中若分類錯誤越靠近樹根節(jié)點,則對其性能的影響就越大。引入類之 間的相對分離度,可先將容易分的類分離出來,然后再分不容易分的類,從而達到較好的性能。

      (2)將分離性測度按降序排列,設Fm1≥Fm2≥...≥FmN。

      4)SVM訓練:

      (1)設計數(shù)器k=1;

      (2)構造子分類器SVMk的訓練集φ=∑1+∑2;其中:

      ∑1={(Xmk,+1)},∑2={(Y,-1)|y∈{φ-Xmk}};按兩類問題構造分類器SVMk,計算過程如下:

      5)調(diào)整訓練集和計數(shù)器:

      其中,φ=φ-{Xmk},k=k+1。

      6)重復4)和5),直到構造完第N—1個子分類器SVM N ?1。

      7)類別劃分及評價:依據(jù)訓練產(chǎn)生的規(guī)則,會產(chǎn)生一個新的分類結果,與樣本對比,評價其準確性,同時,未知類別的樣本可以通過學習規(guī)則,得到匹配的結果,其準確性與學習規(guī)則相一致。

      8)生成最優(yōu)或近優(yōu)決策樹:通過機器學習以及人為的輔助,提取的概念、樣本集便得到各自的分類結果,并以樹狀形式展示。

      2.2 基于K-Means的本體概念聚類

      對于無學習樣本的概念集,需要采用聚類的方式實現(xiàn)其類別劃分,服務與本體的構建與重構,聚類過程與分類過程類似,區(qū)別只在于方法的選取,具體流程如下。

      1)訓練樣本的選?。?/p>

      選取企業(yè)信息中未歸類的概念樣本,訓練樣本為φ= {X1,X2,…,XN}。

      2)樣本預處理:企業(yè)中的信息各式各樣,其類別分布在多維空間,因此,需要選取適當?shù)暮撕瘮?shù),將訓練樣本向特征空間H中映射。

      3)聚類計算步驟

      (1)在隨機情況下,確定k個沃羅諾伊集K,其中k=1,…,K,L個樣本點的原樣本集的子集表示為Vk;

      (2)針對每一個樣本子集Vk,采用線性規(guī)劃下的支持向量機進行訓練和計算;

      (3)基于上一個步驟的結果,每個樣本都會產(chǎn)生k個距離值,通過對比數(shù)值并且進一步重新分類,刷新替換每個Vk樣本子集;

      (4)在上一步驟的過程中,若每個樣本Vk子集保持一致,則會出現(xiàn)聚類結果;否則轉到第二個步驟繼續(xù)訓練。

      4)聚類規(guī)則及結果:聚類過程中,機器會挖掘概念集之間的內(nèi)在聯(lián)系,產(chǎn)生聚類規(guī)則,并根據(jù)規(guī)則對樣本進行歸類,從而獲得聚類結果。另外,如若有已分類的樣本,可以二者對比,對聚類結果進行評價。

      5)生成最優(yōu)或近優(yōu)聚類樹:通過機器學習以及人為的輔助,提取的概念、樣本集便得到各自的聚類結果。

      3 算法設計與實驗

      3.1 基于SVM的本體概念分類實驗

      基于SVM的本體概念分類程序流程如圖2所示。

      圖2 基于SVM的本體概念分類程序流程圖

      基于支持向量機的概念分類,其關鍵就是SVM分類器的構建。以下是其部分軟件源代碼:

      Public void buildClassifier (Instances instances) throws Exception {

      SVMTreeModelSelection modSelection=

      new SVMTreeModelSelection (m minNum0bj, instances);

      m root=new SVMTreeClassifierTree (modSelection);

      m root.buildClassifier (instances);

      }

      ModelSelection類是決定樹的模型類。ClassifierSplitModel對象的返回將由SVMTreeModelSelection類中的selectModel函數(shù)將根據(jù)系統(tǒng)指令執(zhí)行,ClassifierSplitModel本質上則是怎樣分裂的模型。針對SVMTreeModelSelection類,其實由三個重要變量構成:

      SVMTreeSplit [ ] currentModel;

      SVMTreeSplit bestModel = null;

      SVMTreeNosplit noSplitModel = null;

      ClassifierSplitModel被SVMTreeNoSplit和SVMTreeSplit繼承,當樣本均屬于同一個樣本時,系統(tǒng)不分裂,則noSplitModel對象被系統(tǒng)返回,若上述情況不發(fā)生,系統(tǒng)將針對第j個屬性,調(diào)currentModel[i].buildClassifier函數(shù),根據(jù)getErrors的情況,系統(tǒng)最終選擇具體的屬性為最好的分裂屬性。

      屬性值是缺失用公式表示為treeIndex=-1,通過對每個子結點分開算計算其數(shù)值,然后累加起來。在不是缺失情況下,子結點為空,此時與上述子結點的計算方法保持一致,若情況不發(fā)生,則繼續(xù)遞歸。當葉子結點發(fā)生下列情況:localModel返回的是ClassifierSplitModel對象。則進一步調(diào)用distributionForInstance,返回結果。

      系統(tǒng)從有類別定義的樣本中學習,得到樣本的分類規(guī)則:

      outlook = sunny

      |humidity <= 75: yes(2.0)

      |humidity > 75: no(3.0)

      outlook = overcast: yes(4.0)

      outlook = rainy

      |windy = TRUE: no(4.0)

      |windy = FALSE: yes(1.0)

      系統(tǒng)從樣本中學習了規(guī)則,系統(tǒng)會給出一個統(tǒng)計結果,用系統(tǒng)學習的規(guī)則對樣本重新分類,然后再與原有樣本比對,得到如下結果:

      a b <-- classified as

      7 2 | a = yes

      1 4 | b = no

      該結果表示:系統(tǒng)規(guī)則將9個原本類別為“ yes”的個體中的7個判為“yes”,而兩個誤判為“ no”,5個原本為“no”一個判為“no”而又一個誤判為“yes”,也就是說14個樣本個體,11個被正確判斷、3個誤判,即準確率為11/14。

      3.2 基于K-Means的本體概念聚類實驗

      基于K-Means的本體概念聚類程序流程如圖3所示。一共4個主要步驟:

      圖3 基于K-Means的本體概念聚類程序流程圖

      第一步,使用距離計算的最小平方法,統(tǒng)計從每個數(shù)據(jù)樣例到群集中心(隨機選中的數(shù)據(jù)行)的距離;第二部,通過計算,根據(jù)到每個群集中心的最短距離,將每個數(shù)據(jù)行分配給一個類集;第三步,通過每個類集的數(shù)的每列數(shù)據(jù)的平均數(shù)計算重心;第四步,統(tǒng)計計算所有數(shù)據(jù)樣例與上述步驟創(chuàng)建重心之間的距離。當群集及群集數(shù)保持不變時,類集的創(chuàng)建工作完成。如果發(fā)生變化,則返回到第三步驟,重新開始并重復計算,直到保持穩(wěn)定不再變化為止。

      分類中訓練一個分類器是用buildClassifier(),在聚類中學習一個Clusterer是用buildCluster()。分類中分類一個樣本是用classifyInstance,而在聚類中是用clusterInstance。它繼承自RandomizableCluster,而RandomizableCluster又繼承自 AbstactCluter,進入AbstactCluster,它有三個比較重要的函數(shù),buildCluster, clusterInstance, distributionForInstance。

      聚類分析后,系統(tǒng)也是得到兩類結果,一是樣本的最優(yōu)聚類中心;另一個則是樣本中每個個體的的類別結果。

      聚類中心即每一個類別的屬性均值,在學習前,人為的定義類別的數(shù)量,如聯(lián)軸器,我們已經(jīng)知道列舉的樣本中包含的常用的4種類型,因此,系統(tǒng)會定義4個聚類中心,而對于類別數(shù)量未知的情況,只能通過系統(tǒng)的多次學習,比較結果中聚類中心哪個更合理,從而確定最優(yōu)方案。

      結果中統(tǒng)計了樣本的所有屬性,給給出了集合的屬性均值以及類別數(shù)目,每個類集合展示了一種特征,專業(yè)人員根據(jù)經(jīng)驗分析,為每一個類別賦予定義:群集0—凸緣聯(lián)軸器,群集1—彈性柱銷聯(lián)軸器,群集2—彈性套柱銷聯(lián)軸器,群集3—梅花形彈性聯(lián)軸器。

      聚類中心給出了每個類別的屬性特性,系統(tǒng)學習的最終目的還是要得到每一個樣本個體的類別,通過判斷,得到詳細聚類結果如圖4所示。

      圖4 聚類結果

      圖中每一個點代表了群集的一個樣本個體,X軸表示類別,Y軸表示樣本號,經(jīng)過聚類訓練后,原本分散在空間中的樣本則有規(guī)則的堆積在一起,系統(tǒng)通過學習,發(fā)現(xiàn)了樣本之前的內(nèi)在關系,并通過這種關系進行聚類判斷。因此,可以得出,只要樣本的屬性間關系明確,便可以學習到準確率很高的聚類中心及結果。

      4 結束語

      在知識經(jīng)濟逐漸興起,信息技術飛速發(fā)展,商業(yè)競爭日益加劇的背景下,知識管理得到越來越多企業(yè)的重視。為了解決知識管理中出現(xiàn)各種信息通信和知識共享問題,原本用于語義Web的本體論也被引入到知識管理中。

      本文針對目前知識管理中本體特別是中文本體構建自動化程度低以及重用度低的問題,結合企業(yè)生產(chǎn)應用,提出了多分類支持向量機的本體設計方法和K-均值聚類的本體設計方法流程,分析了支持向量機及統(tǒng)計學的基本原理與應用與K-均值的基本原理與應用,實現(xiàn)了基于類間相對分類度的概念分類和基于類間相對分類度的概念聚類,并在此基礎上,構建了本體關系框架,驗證了方法的可行性。

      [1] 李興春. 計算機信息檢索中的本體構建研究[J]. 重慶文理學院學報, 2013, 3:87-91.

      [2] 張 娟. 基于本體的可重構知識管理系統(tǒng)研究綜述[J].現(xiàn)代商貿(mào)工業(yè), 2009,21(19):59-60.

      [3] 張 祥,李 星,溫韻清,等. 語義網(wǎng)虛擬本體構建[J]. 東南大學學報:自然科學版, 2015, 4:652-656.

      [4] Dibike Y B, Solomatine D, Velickov S, et al. Model Induction with Support Vector Machines: Introduction and Applications[J]. Journal of Computing in Civil Engineering, 2014, 15(3):208-216.

      [5] Ren H, Tian J, Wierzbicki A P, et al. Ontology Construction and Its Applications in Local Research Communities,Modeling for Decision Support in Network-Based Services[M]. Springer Berlin Heidelberg, 2012:279-317.

      [6] Xue S, Jing X, Sun S, et al. Binary-decision-tree-based multiclass Support Vector Machines[A]. 2014 14th International Symposium on Communications and Information Technologies (ISCIT)[C]. IEEE, 2014:85-89.

      [7] 任維武, 胡 亮, 趙 闊. 基于數(shù)據(jù)挖掘和本體的入侵警報關聯(lián)模型[J]. 吉林大學學報(工學版), 2015(3):899-906.

      [8] Balabantaray R C, Sarma C, Jha M. Document Clustering using K-Means and K-Medoids[J]. International Journal of Knowledge Based Computer System, 2015, 1(1).

      Researches on Ontology Construction and Reconstruction Based on Data Mining

      Duan Yanyu, Gong Qingge, Peng Zhensheng

      (Mangement Team of Postgraduate, Department of Information Engineering, Engineering University of PAP, Xi′an 710086, China)

      At present, ontology theory has attracted wide attention in the field of knowledge engineering. The construction of prefect and accurate domain ontology is getting more and more important, and at the same time, the update and integration of enterprise knowledge resource requires incessant evolution and merging of ontology. Aiming at the situation that process efficiencies and ontology integration is too slow, we use support vector machine classification and K- means clustering method to construct data processing. The thesis obtained specific information from the text data, and presented multiple-classification SVM and K-means clustering. Then, classification and clustering process was concluded for ontology construction and reconstruction, taking both discrete and continuous data sample as testing cases. The experimental results show that the proposed based on the ontology construction and reconstruction of data mining technology has good application effect.

      ontology construction and refactoring;text processing; support vector machines;K-means; classification;clustering

      2017-03-07;

      2017-03-15。

      段妍羽(1991-),女,山東海陽人,碩士,主要從事大數(shù)據(jù)、數(shù)據(jù)挖掘方向的研究。鞏青歌(1967-),女,陜西西安人,碩士,教授,主要從事虛擬現(xiàn)實和計算機仿真方向的研究。

      1671-4598(2017)08-0244-04

      10.16526/j.cnki.11-4762/tp.2017.08.063

      TQ028.1

      A

      猜你喜歡
      類別本體重構
      Abstracts and Key Words
      哲學分析(2023年4期)2023-12-21 05:30:27
      長城敘事的重構
      攝影世界(2022年1期)2022-01-21 10:50:14
      對姜夔自度曲音樂本體的現(xiàn)代解讀
      中國音樂學(2020年4期)2020-12-25 02:58:06
      北方大陸 重構未來
      北京的重構與再造
      商周刊(2017年6期)2017-08-22 03:42:36
      論中止行為及其對中止犯的重構
      《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
      文學教育(2016年27期)2016-02-28 02:35:15
      服務類別
      新校長(2016年8期)2016-01-10 06:43:59
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      库车县| 石楼县| 邵阳县| 太和县| 沂南县| 龙里县| 凤凰县| 岳池县| 深州市| 永济市| 凤山市| 曲麻莱县| 沁水县| 阳城县| 射洪县| 全椒县| 错那县| 桑日县| 武穴市| 通州市| 孝昌县| 孟津县| 黄梅县| 图片| 榆中县| 揭西县| 漯河市| 大埔区| 聊城市| 恭城| 长春市| 赞皇县| 兴安盟| 景谷| 阜城县| 大宁县| 刚察县| 博野县| 始兴县| 潼关县| 沐川县|