圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)設(shè)計(jì)

2019-05-09 06:46高登文

現(xiàn)代電子技術(shù) 2019年8期

高登文

（寧夏師范學(xué)院，寧夏固原 756000）

0 引言

圖書情報(bào)學(xué)科每年都會(huì)有成千上萬的論文發(fā)表刊登，圖書情報(bào)工作人員則需要掌握比較詳細(xì)的、準(zhǔn)確的所有圖書情報(bào)學(xué)科的數(shù)據(jù)，如涉及的專業(yè)范疇、內(nèi)部構(gòu)架和發(fā)展趨勢(shì)等[1]。面對(duì)如此大量的論文，想要獲取全面的信息，單純地依賴于個(gè)人的閱讀時(shí)間是不可取的[2]。近年來，根據(jù)共詞分析和網(wǎng)絡(luò)分析，提出一種新的解析方法，即定量分析。目前我國(guó)圖書情報(bào)領(lǐng)域的服務(wù)主要還停留在基于數(shù)量規(guī)模的信息服務(wù)層面上。毫無疑問，借助先進(jìn)的理念與技術(shù)，升華傳統(tǒng)圖書情報(bào)領(lǐng)域數(shù)據(jù)挖掘方法，轉(zhuǎn)變傳統(tǒng)挖掘模式，重構(gòu)挖掘體系，提高挖掘精度，以更好的方法對(duì)所需圖書情報(bào)數(shù)據(jù)進(jìn)行挖掘。利用讀者在數(shù)字圖書館的各種行為為基礎(chǔ)，通過收集讀者的瀏覽、定制、檢索、下載等記錄來進(jìn)行研究，從而建立圖書情報(bào)數(shù)據(jù)庫；同時(shí)根據(jù)圖書情報(bào)數(shù)據(jù)的開發(fā)，以數(shù)據(jù)庫的形式將圖書檢索信息進(jìn)行存儲(chǔ)[3]。該平臺(tái)采用元搜索技術(shù)對(duì)圖書館各種圖書情報(bào)數(shù)據(jù)庫、網(wǎng)絡(luò)資源等進(jìn)行搜索，再通過信息關(guān)注機(jī)制，對(duì)滿足需求的數(shù)據(jù)進(jìn)行選擇。并用設(shè)定的方式方法將圖書情報(bào)數(shù)據(jù)進(jìn)行傳輸，建立反饋機(jī)制，允許相關(guān)人員進(jìn)行人工選擇和評(píng)價(jià)；然后將讀者所需信息儲(chǔ)存在數(shù)據(jù)庫中，供數(shù)據(jù)挖掘所用。

1 圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)設(shè)計(jì)

圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)主要由7大模塊組成，分別是數(shù)據(jù)解析模塊、數(shù)據(jù)采集模塊、接口模塊、圖書情報(bào)數(shù)據(jù)過濾模塊、圖書情報(bào)搜索引擎、圖書情報(bào)數(shù)據(jù)推送模塊和數(shù)據(jù)挖掘模塊。數(shù)據(jù)解析模塊重點(diǎn)是對(duì)通過需求規(guī)約工具得到的圖書情報(bào)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行描述和挖掘策略相關(guān)文件[4]。數(shù)據(jù)采集模塊與預(yù)處理模塊主要是依據(jù)有關(guān)挖掘需求來對(duì)圖書情報(bào)數(shù)據(jù)進(jìn)行采集，并把采集到的圖書情報(bào)數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛱幚淼哪Ｊ健D書情報(bào)數(shù)據(jù)挖掘模塊主要采用相關(guān)挖掘算法，排除掉不同算法間的差異，讓挖掘算法在敏捷狀態(tài)下進(jìn)行挖掘工作[5]。整體平臺(tái)可通過附加任務(wù)調(diào)度監(jiān)控模塊對(duì)挖掘任務(wù)的執(zhí)行階段進(jìn)行仔細(xì)劃分，保證在進(jìn)行圖書情報(bào)數(shù)據(jù)挖掘時(shí)可以及時(shí)得到反饋。涉及到的數(shù)據(jù)庫為圖書相關(guān)情報(bào)資源，根據(jù)以上分析確定平臺(tái)結(jié)構(gòu)如圖1所示。

1.1 數(shù)據(jù)挖掘模塊

數(shù)據(jù)挖掘模塊主要功能是依據(jù)所選擇的挖掘算法以及相關(guān)的技術(shù)參數(shù)，調(diào)用算法完成數(shù)據(jù)挖掘任務(wù)。因?yàn)檎麄€(gè)挖掘算法的處理過程[6]都是通過數(shù)據(jù)集群運(yùn)算完成的，期間不需要進(jìn)行過多的操作和關(guān)注。因此，在本模塊中，引入K-means算法，挖掘圖書情報(bào)數(shù)據(jù)，并對(duì)挖掘結(jié)果直觀有效的進(jìn)行應(yīng)用。

圖2 數(shù)據(jù)挖掘模塊Fig.2 Data mining module

1.2 數(shù)據(jù)存儲(chǔ)模塊

為了解決海量數(shù)據(jù)存儲(chǔ)、檢索和在線閱讀的容量和性能問題，在有限的條件下建立高效存儲(chǔ)平臺(tái)是圖書情報(bào)挖掘平臺(tái)建設(shè)的重點(diǎn)。本平臺(tái)采用分級(jí)存儲(chǔ)的方式設(shè)計(jì)圖書情報(bào)數(shù)據(jù)存儲(chǔ)模塊。第一級(jí)面向交互頻繁，但I(xiàn)/O流量相對(duì)較小、隨機(jī)存取負(fù)擔(dān)較重的元數(shù)據(jù)庫，采用服務(wù)器內(nèi)置的SAS高速磁盤陣列平臺(tái)存儲(chǔ)和管理[7]；第二級(jí)面向I/O流量較大、傳輸數(shù)據(jù)塊較大，但訪問頻次較少的對(duì)象數(shù)據(jù)，采用的是基于ISCSI的IP-SAN網(wǎng)絡(luò)接入的SATA磁盤陣列實(shí)現(xiàn)。

存儲(chǔ)區(qū)域網(wǎng)絡(luò)作為存儲(chǔ)架構(gòu)，其連接方式是采用高傳輸速率的光通道進(jìn)行連接。在SAN中的任意節(jié)點(diǎn)之間提供多個(gè)備選圖書情報(bào)數(shù)據(jù)轉(zhuǎn)換[8]，把數(shù)據(jù)保存在單獨(dú)的存儲(chǔ)活動(dòng)范圍內(nèi)。由于采用的是獨(dú)立網(wǎng)絡(luò)，SAN可以更好地將存儲(chǔ)設(shè)備和服務(wù)器之間頻繁的數(shù)據(jù)傳送與網(wǎng)絡(luò)信息服務(wù)的信息包分割開來。不使用與IP網(wǎng)絡(luò)沖突的網(wǎng)絡(luò)資源[9]，從而有效地消除網(wǎng)絡(luò)瓶頸，并且能夠盡量對(duì)數(shù)據(jù)共享、數(shù)據(jù)的優(yōu)化管理和平臺(tái)的無縫擴(kuò)充進(jìn)行支持。

在進(jìn)行圖書情報(bào)數(shù)據(jù)存儲(chǔ)時(shí)，將獲取的數(shù)據(jù)存儲(chǔ)在平臺(tái)上。該平臺(tái)的存儲(chǔ)層是一個(gè)由4個(gè)計(jì)算節(jié)點(diǎn)組成的集群，其利用了HDFS數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu)，將預(yù)處理后的數(shù)據(jù)或平臺(tái)分析的數(shù)據(jù)以文本形式讀入平臺(tái)中[10]。平臺(tái)為數(shù)據(jù)存儲(chǔ)提供了強(qiáng)大的保護(hù)措施，平均每個(gè)情報(bào)數(shù)據(jù)都進(jìn)行三次備份，能夠很好地防止遇到突發(fā)事件而出現(xiàn)丟失圖書情報(bào)數(shù)據(jù)，并且圖書情報(bào)數(shù)據(jù)有附加性能，在平臺(tái)發(fā)生意外故障時(shí)，能夠保證后續(xù)圖書情報(bào)數(shù)據(jù)存儲(chǔ)無誤。

1.3 數(shù)據(jù)解析模塊

數(shù)據(jù)解析模塊是此平臺(tái)第二主要的功能模塊，它包括用戶聚類模塊和用戶行為分析模塊兩大類。本平臺(tái)利用用戶興趣對(duì)用戶進(jìn)行分類匯總。當(dāng)用戶頻繁訪問圖書情報(bào)數(shù)據(jù)的某個(gè)頁面或在某個(gè)頁面上停留較長(zhǎng)時(shí)間時(shí)，表明用戶對(duì)此類圖書情報(bào)數(shù)據(jù)興趣度很高[11]。在本文中，會(huì)使用這種興趣度來對(duì)圖書情報(bào)數(shù)據(jù)進(jìn)行聚類解析。在同一時(shí)間，利用序列化模式挖掘算法和圖書情報(bào)數(shù)據(jù)經(jīng)常被訪問的途徑，針對(duì)該途徑獲取的圖書情報(bào)數(shù)據(jù)進(jìn)行解析工作。

2 軟件設(shè)計(jì)

從功能的簡(jiǎn)易運(yùn)行和設(shè)計(jì)的開拓性能角度出發(fā)，采用的挖掘算法延伸性應(yīng)用具備兩個(gè)特性:

1）挖掘算法的一些性能是比較卓越的，應(yīng)用上更是靈便突出，但是靈便的后果就是操作相當(dāng)麻煩。所以本文必須整理出多個(gè)演變算法，才能給外界夠提供出簡(jiǎn)便的對(duì)恰接口，使操作的運(yùn)用既能活靈活現(xiàn)又盡可能的簡(jiǎn)單便捷。

2）改良可插播式應(yīng)用的挖掘算法，既能在原始算法上增加新的運(yùn)算公式也能在已有公式的基礎(chǔ)上進(jìn)行算法改動(dòng)或者撤銷，還不會(huì)對(duì)原始模塊產(chǎn)生相對(duì)明顯的影響。這種算法不僅落實(shí)了對(duì)最初算法的改進(jìn)，還跟進(jìn)了應(yīng)用改進(jìn)算法。具體的圖書情報(bào)數(shù)據(jù)挖掘流程如圖3所示。

圖3 數(shù)據(jù)挖掘流程圖Fig.3 Flow chart of data mining

在進(jìn)行圖書情報(bào)數(shù)據(jù)挖掘時(shí)，用戶可以依據(jù)需求，對(duì)挖掘策略模板文件事先進(jìn)行挖掘算法的設(shè)置，來確定某些參數(shù)的值和在未來的時(shí)間里需要設(shè)置的參數(shù)。在這類文件中，為了完成特定的策略文件，需要為平臺(tái)中的屬性指定所需要的算法，確定哪些已經(jīng)有明確值的挖掘參數(shù)，哪些參數(shù)是用戶對(duì)此策略模板的解釋說明，指導(dǎo)用戶定義策略文件。

3 實(shí)驗(yàn)結(jié)果分析

3.1 測(cè)試環(huán)境

功能測(cè)試工具為Microsoft Visual Studio 2015 for software tester；性能測(cè)試工具為L(zhǎng)oadrunner 10；測(cè)試管理工具為Mercury Quslity center 9.0。

3.2 平臺(tái)運(yùn)行環(huán)境

服務(wù)器，HP ML-370 G5；操作平臺(tái)，Windows 2013 Server，TRS DB Server V6；CPU，Inter Pentium Ⅲ 1 GHz以上；內(nèi)存，4 GB以上；硬盤，1 TB；網(wǎng)絡(luò)，支持TCP/IP協(xié)議；數(shù)據(jù)庫，SQL Server，MySQL。

3.3 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證本文平臺(tái)在數(shù)據(jù)挖掘方面的性能，將文獻(xiàn)[5]平臺(tái)作為對(duì)比，進(jìn)行量化測(cè)試。測(cè)試將負(fù)載均衡離差值作為衡量指標(biāo)。

負(fù)載均衡離差值是負(fù)載均衡性的體現(xiàn)，計(jì)算公式為:

式中:n用于描述圖書情報(bào)數(shù)據(jù)總量；ηv用于描述數(shù)據(jù)量為v時(shí)數(shù)據(jù)挖掘的負(fù)載；ηavg用于描述數(shù)據(jù)挖掘時(shí)的平均負(fù)載。

依據(jù)上式描述，將采用本文平臺(tái)及文獻(xiàn)[5]平臺(tái)做比較，進(jìn)行數(shù)據(jù)挖掘負(fù)載均衡離差值對(duì)比，結(jié)果見圖4。

圖4 不同平臺(tái)挖掘負(fù)載均衡離差結(jié)果對(duì)比Fig.4 Comparison for load balance deviation results mined by different platforms

分析圖4可知，在數(shù)據(jù)挖掘量和響應(yīng)速度一定時(shí)，采用本文平臺(tái)進(jìn)行數(shù)據(jù)挖掘，其負(fù)載均衡離差值較為穩(wěn)定，只有一處出現(xiàn)忽然增加的現(xiàn)象，均衡性較好的同時(shí)，穩(wěn)定性較高，具有一定的優(yōu)勢(shì)；反之，采用文獻(xiàn)[5]平臺(tái)時(shí)，多處出現(xiàn)負(fù)載均衡離差值突然增高的現(xiàn)象，雖然均衡性較好，但穩(wěn)定性較差，影響因素增多，需要進(jìn)一步進(jìn)行處理。

4 結(jié)論

針對(duì)傳統(tǒng)平臺(tái)一直存在數(shù)據(jù)挖掘中負(fù)載均衡差的問題，提出并設(shè)計(jì)了基于K-means算法的圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)，并通過硬件及軟件兩部分進(jìn)行分析，以負(fù)載均衡離差值為對(duì)比指標(biāo)進(jìn)行實(shí)驗(yàn)分析。結(jié)果表明，改進(jìn)平臺(tái)負(fù)載均衡較好，具有一定的優(yōu)勢(shì)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看