穆 俊
(滇西科技師范學院 信息工程學院,云南 臨滄 677000)
領域知識和聚類的關聯(lián)規(guī)則深層知識發(fā)現(xiàn)探討
穆 俊
(滇西科技師范學院 信息工程學院,云南 臨滄 677000)
隨著信息技術的發(fā)展,社會各個領域對于數據準確度的要求越來越高。在計算機系統(tǒng)數據采集中,進行深層知識體系的開發(fā)與建設,技術人員應該強化數據挖掘效率的提高。在知識和聚類信息的采集與整理活動中,提升數據信息采集的平均準確率。開展數據信息的深度挖掘,技術人員應該對不同的數據處理算法進行比較,從而找到最優(yōu)化的數據挖掘方法,確保數據采集活動符合知識聚合、分離的相關規(guī)則。本文從領域知識深層開發(fā)的技術細節(jié)展開討論,提出幾點有利于提升數據知識挖掘準確性的可行性建議。
領域知識;關聯(lián)規(guī)則;深層分類;有效聚合
基于領域知識的關聯(lián)規(guī)則進行聚類分析,嚴格按照關聯(lián)規(guī)則進行數據信息聚類,能夠顯著降低技術人員的工作強度,從而提高信息抓取的準確度和最終效率。按照關聯(lián)規(guī)則進行深層知識發(fā)掘,便于分析規(guī)則之間的聯(lián)系。新規(guī)則的迅速定位和有序的存儲,能夠顯著提升數據挖掘的針對性,從而服務于深層知識體系的建設。
將傳統(tǒng)情報研究方法與新型的數據挖掘技術與系統(tǒng)相結合,從而完善規(guī)則標準下知識聚合信息領域中的應用。在知識發(fā)現(xiàn)系統(tǒng)中,技術人員應該做好web深度挖掘工作,推行數據挖掘通道的可視化建設,在文本挖掘的活動中開展更加深入的知識聚類和分類處理,顯著改善空間數據挖掘活動中的粗糙集細化分類現(xiàn)狀。加強自組織特征映射的技術挖掘工作,技術人員應該提升信息的置信程度。從原始關聯(lián)規(guī)則庫存中,進行有關規(guī)則下的數據聚類處理。技術人員應該正視關聯(lián)規(guī)則聚類的整體情況,按照大類存儲的關聯(lián)規(guī)則進行提煉,提煉后的關聯(lián)規(guī)則,可以作為領域知識庫內部規(guī)則存儲的數據評選根據。在信息數據規(guī)則篩選活動中,我們按照各個大類存儲的關聯(lián)規(guī)則進行發(fā)現(xiàn),能夠快速進行信息數據的挖掘,實現(xiàn)對于整體關聯(lián)數據層的協(xié)調開發(fā)。在數據挖掘活動中,嚴格按照規(guī)則進行篩選,并且嚴格按照規(guī)則處理方法進行存儲,實現(xiàn)數據挖掘通道的可追溯性要求。
(一)計算機應用數據分類整理方式優(yōu)化
在計算機應用環(huán)境下開展數據的挖掘與分析,工作人員應該對傳統(tǒng)的數據分類整理方式進行優(yōu)化。在領域知識體系的深度開發(fā)活動中,完善計算機的知識發(fā)現(xiàn)系統(tǒng),從而顯著提升信息處理的效率。根據計算機領域知識和聚類的關聯(lián)規(guī)則進行深層體系的判斷,通過進行規(guī)則意外度的計算,判斷冗余規(guī)則出現(xiàn)的概率,將計算機數據系統(tǒng)中的冗余信息進行摘除,保留符合板塊需要的有效信息,從而顯著提升數據挖掘的準確性。
我們根據計算結論對意外度進行分析,從而將冗余規(guī)則的數據挖掘效率提高到合理的水平。在冗余規(guī)則信息挖掘活動中,工作人員應該認真計算結論的意外度,并且根據意外度比例的大小,進行數據信息挖掘閾值的判斷。如果計算的結論中意外度比較大,那么我們可以判斷出這種數據規(guī)則是意外規(guī)則,如果通過計算我們發(fā)現(xiàn)數據信息的結論意外度不大,我們便可以判斷這種規(guī)則屬于合理范圍的一種規(guī)則,并且不屬于意外規(guī)則。我們將計算表達式AC(R1)為第一次冗余規(guī)則判斷,并且將 AC(R2)表示為第二次的冗余規(guī)則判斷。通過對AC(R1)和AC(R2)的意外規(guī)則情況進行分析,我們能夠準確找到關聯(lián)規(guī)則中數據框架是否包含對方沒有的屬性。計算條件綜合的意外程度,技術人員需要對冗余規(guī)則進行深度研究。確保計算機系統(tǒng)中數據信息挖掘活動中知識聚合合乎規(guī)則所需要,并且要定期對計算條件的綜合意外程度進行評估,通過綜合分析計算條件的準確程度,對計算機數據信息置信度和意外度進行綜合評估。
(二)指定層次關聯(lián)規(guī)則挖掘流程的優(yōu)化
基于領域知識的聚類關聯(lián)規(guī)則深度優(yōu)化活動,技術人員應該在指定層次進行關聯(lián)規(guī)則挖掘流程的優(yōu)化。對計算機抓取工具采集的數據進行關聯(lián)規(guī)則算法的分析,技術人員應該按照科學的挖掘流程進行信息分析系統(tǒng)升級處理。
在關聯(lián)規(guī)則算法的具體應用活動中,我們能夠建立一個效率更高的正向反饋信息模式。技術人員根據數據后綴對應的XML文件進行關聯(lián)文件的挖掘,對應的文件應該符合用戶已知規(guī)則的需要。技術人員應該對數據庫中的全體信息進行篩選和挖掘,從而更加準確地找到符合已知規(guī)則的所有數據信息。工作人員對數據對應的文件聚類效應進行分析,主要是在規(guī)則框架的規(guī)范之下,進行數據信息意外度的計算。如果計算機信息庫領域知識內的意外度大于或者等于閾值,那么這一種類的數據信息完全超出了用戶已知規(guī)則的需要,如果繼續(xù)使用將會出現(xiàn)難以識別的現(xiàn)象,應該及時地對其進行刪除處理。如果在關聯(lián)規(guī)則算法的約束之下,數據庫信息資料的意外度小于閾值,那么我們可以將其進行保留和存檔處理,并且要按照層次的不同,將各個種類的數據信息進行編輯,從而由低層次到高層次完成最終的規(guī)則集的制定工作。
(三)規(guī)則半徑數據采集密度控制與分析處理
基于當前關聯(lián)規(guī)則領域知識的數據挖掘工作,技術人員應該對領域知識規(guī)則聚類過程進行深度分析。我們在數據信息庫中輸入預先設定好的關聯(lián)規(guī)則庫,并且根據規(guī)則的半徑進行規(guī)則要求范圍內的數據監(jiān)測和檢索處理。
根據一定的半徑要求確定數據信息處理的范圍,并且要選擇任何一類沒有加上分類的標簽規(guī)則,根據具體的規(guī)則確定標準范圍之內規(guī)則R在半徑E和閾值MINPIs直接親密度可達到的所有規(guī)則。確定規(guī)則在半徑和閾值的直接關聯(lián)程度,技術人員應該從規(guī)則分類的角度出發(fā),給出知識聚合的固定方法。確定規(guī)則R的直接密度應該達到規(guī)則數的要求,并且確保規(guī)則的直接密度等于或者大于閾值,從而形成一種新型的數據采集與分析處理類型。在領域知識和聚類分析活動中,技術人員需要對數據庫中的信息進行分揀,可以采用抽樣實驗的方法,對數據的正確性進行檢驗。取出任何一種規(guī)則的數據進行檢驗,并且判斷這種類型的數據是否為核心規(guī)則要求下的知識,將和新規(guī)則臨近領域內的規(guī)則加到新類數據中去,從而直接輸出聚類結果。在這種數據關聯(lián)層分析活動中,技術人員運用核心規(guī)則的分析方法,能夠有效地實現(xiàn)數據信息的規(guī)律,完成對于計算機數據信息庫整理,從而顯著提升關聯(lián)規(guī)則下深層知識維護的效率。
(四)信息庫覆蓋度提高和可靠性建設
我們以關聯(lián)規(guī)則數據分析系統(tǒng)的總體結構進行分析,技術人員應該依托總控平臺對數據進行挖掘和整理。以web挖掘系統(tǒng)為數據信息淺層處理的第一工具,在互聯(lián)網環(huán)境中對web文本挖掘系統(tǒng)進行完善,并且利用web挖掘工具對用戶訪問和數據挖掘模式進行補足。在領域知識數據分析的總體結構中,技術人員需要不斷開展web結構挖掘系統(tǒng)的維護工作,及時地彌補數據結構挖掘系統(tǒng)中可能會產生的漏洞。
強化KDK系統(tǒng)和KDD系統(tǒng)的升級實驗,從而在當前的互聯(lián)網環(huán)境下打造一個工作效率更高的多媒體信息挖掘系統(tǒng)。我們對當前關聯(lián)規(guī)則下的各種領域知識聚類算法進行對比,發(fā)現(xiàn)不同的聚類算法信息數據處理的效率不相同。其中,層次聚類分析活動中的政治與社會領域的數據挖掘準確率最高,接近百分之百,而教育類別的數據挖掘準確度相對較低。教育行業(yè)的數據受到冗雜信息的影響比較大,教育行業(yè)的數據包括家庭教育背景下產生的各類數據、素質教育輔導環(huán)境下的數據,以及考試聚焦主體類別的各種數據信息等。對教育行業(yè)的數據進行知識點的聚合分析,技術人員應該采用中性點聚類算法,對數據的有效性進行深度維護,從而顯著提升關聯(lián)規(guī)則下的數據抓取效率。航空航天類型的算法聚集結果比較樂觀,近年來世界大國都在開展航天與航空實驗,各種類型的基礎數據比較豐富,在數據挖掘與聚合的過程中,有大量可以參考的依據。因此,隨著世界航空航天技術的提高,相關行業(yè)的數據信息將會更加豐富,信息庫功能也會更加的強大。
(五)數據挖掘中客觀結構優(yōu)化和資源整合
針對內容挖掘的工作,應該從分析文本語義入手,進行分類標準下的數據信息挖掘。應該從結構化、非結構化和半結構化數據語義分析三個層面進行數據提煉,建立一個完整的任務相關映射。
在結構挖掘活動中,技術人員應該根據學習資源推薦情況,進行領域知識內的行為偏好分析,并且采用后臺資源整合的方法,將所挖掘到的信息進行智能化整合與推送,建立更加直接的數據處理映射反應鏈。對用戶使用記錄進行挖掘,技術人員應該依據在線教育領域知識的特點,進行行為模式的識別,從而做好數據挖掘系統(tǒng)分類。在計算機遠程數據信息處理的過程中,技術人員應該使用科學手段實現(xiàn)模擬量數值的采集。我們以電力信息監(jiān)控為例,在數據采集的過程中,在模擬電路開關斷開和閉合兩種狀態(tài)下,實現(xiàn)數值信息譯碼和控制。其中,A/D轉換芯片主要負責監(jiān)控啟動地址的數據波動情況,針對輸入緩沖器在LOR輸入地址中的數據波動情況,由CPU實現(xiàn)數據的集中處理。根據監(jiān)控系統(tǒng)數據設計的模擬量控制進行模擬多路開關信息采集比較。
(一)領域數據挖掘的準確度研究
在領域知識數據錄入和維護的過程中,工作人員應該從設備數據的采集和原始數據修復展開工作,從而實現(xiàn)常規(guī)化錄入信息的真實度和準確度建設。
利用音頻挖掘系統(tǒng),對多媒體信息源進行音頻數據的變軌處理,提升音軌音質,實現(xiàn)高保真音頻質量維護。在視頻數據挖掘活動中,技術人員應該采用更加先進的工具,開展多媒體信息源的分類整理,滿足不同類型視頻鏈接和信息拓展的需要。對圖形挖掘系統(tǒng)和圖像挖掘系統(tǒng)的功能進行升級,采用虛擬現(xiàn)實技術,顯著提升圖片的可識別程度。利用web工具進行聚合知識挖掘,技術人員應該依據知識發(fā)現(xiàn)綜述與基本理論進行系統(tǒng)研發(fā)和數據挖掘的相關研究。在基于聚類的關聯(lián)規(guī)則要求之下,利用后處理算法進行深層知識的發(fā)現(xiàn)與整理,技術人員應該根據不同領域知識的特點,進行針對性較強的聚類處理,從而服務于行業(yè)決策的制定。在教育領域開展在線學習數據挖掘工作,工作人員應該從學習行為數據源進行分析,從而實現(xiàn)數據信息挖掘模式的分類。在線學習數據挖掘領域中,技術人員應該從web內容挖掘、web結構挖掘和web使用記錄挖掘三個方面進行評估,通過評估學習行為判斷在線教育模式的動態(tài)數據,從而把握在線教育市場的基本容量信息。
(二)領域數據的深度挖掘功能實現(xiàn)
在電子商務領域開展數據挖掘工作,技術人員應該考慮到市場波動情況對于領域知識聚類的影響。數據采集面應該更加寬廣,信息的來源包括各種市場數據信息,在選擇預處理轉換方式上,應該以關聯(lián)規(guī)則的標準需要為主。在數據倉庫內部進行深度數據挖掘,顯著提升電子商務數據挖掘的系統(tǒng)性,建立模式規(guī)則模型與圖表。這些圖表應該包括電子商務每天的下單量和實際成交量等信息,并且要對知識聚類的關聯(lián)規(guī)則進行解釋,后一步要對電子商務數據挖掘的準確性進行評價,從而提煉出具有代表性的知識板塊。在電子商務平臺的升級與完善活動中,強調采集各個商務平臺市場銷售的決策支持分析治療,從而作出更加精準的商業(yè)評估,服務于客戶對在線商務市場的管理工作。在醫(yī)療大數據板塊進行數據的聚類分析,技術人員應該做好數據挖掘的結構化處理,在聚類的基礎上,按照不同的科室進行信息分類。醫(yī)療大數據的主要技術分析工作,包括支持向量機和隨機森林數據系統(tǒng)等等,通過對醫(yī)療作業(yè)市場環(huán)境進行分析,建立更加可靠的醫(yī)療大數據預警引擎控制系統(tǒng)。
采用多媒體信息挖掘系統(tǒng),對計算機關聯(lián)規(guī)則下的數據進行深度挖掘。技術人員需要積極引進國外先進的數據處理技術,并且要重視硬件升級工作。采用內存量更大的硬盤支撐大數據的高速運轉處理活動,并且在多媒體信息源的分析活動中,技術人員應該做好渠道的拓寬工作,針對不同類型的數據信號進行規(guī)則性建設,從而顯著提升領域知識聚合效率和數據信息的可識別程度,減少計算機系統(tǒng)挖掘活動中出現(xiàn)的數據錯誤現(xiàn)象。
[1]毛宇星,陳彤兵,施伯樂,等.一種高效的多層和概化關聯(lián)規(guī)則挖掘方法[J].軟件學報,2011,22(12):2965-2987.
[2] 黃海超.基于領域知識的半監(jiān)督聚類算法研究[D].北京:北京化工大學,2009.
[3] 潘海為,譚小雷,韓啟龍,等.領域知識驅動的醫(yī)學圖像關聯(lián)模式挖掘算法[J].黑龍江大學自然科學學報,2009,26(5):585-590.
[4] 董俊.基于KDD的領域本體構建若干關鍵問題研究[D].南京:南京郵電大學,2010.
[5] 李蘭濤.基于聚類分析和關聯(lián)規(guī)則的痹證醫(yī)案處方用藥規(guī)律研究[D].北京:中國中醫(yī)科學院,2011.
[6] 程平,陳珊.大數據時代基于DBSCAN聚類方法的審計抽樣[J].中國注冊會計師,2016,(4):76-79.
[7] 張焱.知識發(fā)現(xiàn)在金融反洗錢領域中的應用研究[D].合肥:合肥工業(yè)大學,2004.
[8] 杭小樹,張友華,袁紅春,等.一個綜合知識發(fā)現(xiàn)與知識求精系統(tǒng)--XFKDRS[J].模式識別與人工智能,2002,15(3):334-338.
Association rules clustering deep domain knowledge and knowledge discovery Discussion
MU Jun
(School of Information Science&Engineering,DianXi Science and Technology Normal University,Lincang,Yunnan 677000,China)
With the development of information technology, all areas of society for data accuracy have become increasingly demanding. In the computer system data acquisition, development and construction of deep knowledge, technical personnel should be strengthened to improve the efficiency of data mining. In the collection and sorting activities of knowledge and information in the cluster, lifting the average accuracy of data collection. Conduct data mining depth, technical personnel should be different data processing algorithms are compared in order to find the most optimal method of data mining, data collection activities to ensure compliance with knowledge of the polymerization, separate rules. From the development of deep domain knowledge of the technical details to discuss, make a few points will help improve the accuracy of the data knowledge mining feasibility proposal.
domain knowledge; association rules; deep classification; effective polymerization
2016-08-28
云南省教育廳科學研究基金重點項目:“行動規(guī)則挖掘的建模與算法研究 ”(項目編號: 2014Z137)。
穆俊(1979-),男,云南臨滄人,副教授、碩士。主要研究方向:計算機應用和軟件理論,數據挖掘。
TP311.13
A
1673-6125(2016)04-0009-04