• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)設(shè)計(jì)

      2019-05-09 06:46高登文
      現(xiàn)代電子技術(shù) 2019年8期
      關(guān)鍵詞:情報(bào)數(shù)據(jù)挖掘解析

      高登文

      (寧夏師范學(xué)院,寧夏 固原 756000)

      0 引言

      圖書情報(bào)學(xué)科每年都會(huì)有成千上萬的論文發(fā)表刊登,圖書情報(bào)工作人員則需要掌握比較詳細(xì)的、準(zhǔn)確的所有圖書情報(bào)學(xué)科的數(shù)據(jù),如涉及的專業(yè)范疇、內(nèi)部構(gòu)架和發(fā)展趨勢(shì)等[1]。面對(duì)如此大量的論文,想要獲取全面的信息,單純地依賴于個(gè)人的閱讀時(shí)間是不可取的[2]。近年來,根據(jù)共詞分析和網(wǎng)絡(luò)分析,提出一種新的解析方法,即定量分析。目前我國(guó)圖書情報(bào)領(lǐng)域的服務(wù)主要還停留在基于數(shù)量規(guī)模的信息服務(wù)層面上。毫無疑問,借助先進(jìn)的理念與技術(shù),升華傳統(tǒng)圖書情報(bào)領(lǐng)域數(shù)據(jù)挖掘方法,轉(zhuǎn)變傳統(tǒng)挖掘模式,重構(gòu)挖掘體系,提高挖掘精度,以更好的方法對(duì)所需圖書情報(bào)數(shù)據(jù)進(jìn)行挖掘。利用讀者在數(shù)字圖書館的各種行為為基礎(chǔ),通過收集讀者的瀏覽、定制、檢索、下載等記錄來進(jìn)行研究,從而建立圖書情報(bào)數(shù)據(jù)庫;同時(shí)根據(jù)圖書情報(bào)數(shù)據(jù)的開發(fā),以數(shù)據(jù)庫的形式將圖書檢索信息進(jìn)行存儲(chǔ)[3]。該平臺(tái)采用元搜索技術(shù)對(duì)圖書館各種圖書情報(bào)數(shù)據(jù)庫、網(wǎng)絡(luò)資源等進(jìn)行搜索,再通過信息關(guān)注機(jī)制,對(duì)滿足需求的數(shù)據(jù)進(jìn)行選擇。并用設(shè)定的方式方法將圖書情報(bào)數(shù)據(jù)進(jìn)行傳輸,建立反饋機(jī)制,允許相關(guān)人員進(jìn)行人工選擇和評(píng)價(jià);然后將讀者所需信息儲(chǔ)存在數(shù)據(jù)庫中,供數(shù)據(jù)挖掘所用。

      1 圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)設(shè)計(jì)

      圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái)主要由7大模塊組成,分別是數(shù)據(jù)解析模塊、數(shù)據(jù)采集模塊、接口模塊、圖書情報(bào)數(shù)據(jù)過濾模塊、圖書情報(bào)搜索引擎、圖書情報(bào)數(shù)據(jù)推送模塊和數(shù)據(jù)挖掘模塊。數(shù)據(jù)解析模塊重點(diǎn)是對(duì)通過需求規(guī)約工具得到的圖書情報(bào)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行描述和挖掘策略相關(guān)文件[4]。數(shù)據(jù)采集模塊與預(yù)處理模塊主要是依據(jù)有關(guān)挖掘需求來對(duì)圖書情報(bào)數(shù)據(jù)進(jìn)行采集,并把采集到的圖書情報(bào)數(shù)據(jù)轉(zhuǎn)變?yōu)槟軌蛱幚淼哪J健D書情報(bào)數(shù)據(jù)挖掘模塊主要采用相關(guān)挖掘算法,排除掉不同算法間的差異,讓挖掘算法在敏捷狀態(tài)下進(jìn)行挖掘工作[5]。整體平臺(tái)可通過附加任務(wù)調(diào)度監(jiān)控模塊對(duì)挖掘任務(wù)的執(zhí)行階段進(jìn)行仔細(xì)劃分,保證在進(jìn)行圖書情報(bào)數(shù)據(jù)挖掘時(shí)可以及時(shí)得到反饋。涉及到的數(shù)據(jù)庫為圖書相關(guān)情報(bào)資源,根據(jù)以上分析確定平臺(tái)結(jié)構(gòu)如圖1所示。

      1.1 數(shù)據(jù)挖掘模塊

      數(shù)據(jù)挖掘模塊主要功能是依據(jù)所選擇的挖掘算法以及相關(guān)的技術(shù)參數(shù),調(diào)用算法完成數(shù)據(jù)挖掘任務(wù)。因?yàn)檎麄€(gè)挖掘算法的處理過程[6]都是通過數(shù)據(jù)集群運(yùn)算完成的,期間不需要進(jìn)行過多的操作和關(guān)注。因此,在本模塊中,引入K-means算法,挖掘圖書情報(bào)數(shù)據(jù),并對(duì)挖掘結(jié)果直觀有效的進(jìn)行應(yīng)用。

      圖2 數(shù)據(jù)挖掘模塊Fig.2 Data mining module

      1.2 數(shù)據(jù)存儲(chǔ)模塊

      為了解決海量數(shù)據(jù)存儲(chǔ)、檢索和在線閱讀的容量和性能問題,在有限的條件下建立高效存儲(chǔ)平臺(tái)是圖書情報(bào)挖掘平臺(tái)建設(shè)的重點(diǎn)。本平臺(tái)采用分級(jí)存儲(chǔ)的方式設(shè)計(jì)圖書情報(bào)數(shù)據(jù)存儲(chǔ)模塊。第一級(jí)面向交互頻繁,但I(xiàn)/O流量相對(duì)較小、隨機(jī)存取負(fù)擔(dān)較重的元數(shù)據(jù)庫,采用服務(wù)器內(nèi)置的SAS高速磁盤陣列平臺(tái)存儲(chǔ)和管理[7];第二級(jí)面向I/O流量較大、傳輸數(shù)據(jù)塊較大,但訪問頻次較少的對(duì)象數(shù)據(jù),采用的是基于ISCSI的IP-SAN網(wǎng)絡(luò)接入的SATA磁盤陣列實(shí)現(xiàn)。

      存儲(chǔ)區(qū)域網(wǎng)絡(luò)作為存儲(chǔ)架構(gòu),其連接方式是采用高傳輸速率的光通道進(jìn)行連接。在SAN中的任意節(jié)點(diǎn)之間提供多個(gè)備選圖書情報(bào)數(shù)據(jù)轉(zhuǎn)換[8],把數(shù)據(jù)保存在單獨(dú)的存儲(chǔ)活動(dòng)范圍內(nèi)。由于采用的是獨(dú)立網(wǎng)絡(luò),SAN可以更好地將存儲(chǔ)設(shè)備和服務(wù)器之間頻繁的數(shù)據(jù)傳送與網(wǎng)絡(luò)信息服務(wù)的信息包分割開來。不使用與IP網(wǎng)絡(luò)沖突的網(wǎng)絡(luò)資源[9],從而有效地消除網(wǎng)絡(luò)瓶頸,并且能夠盡量對(duì)數(shù)據(jù)共享、數(shù)據(jù)的優(yōu)化管理和平臺(tái)的無縫擴(kuò)充進(jìn)行支持。

      在進(jìn)行圖書情報(bào)數(shù)據(jù)存儲(chǔ)時(shí),將獲取的數(shù)據(jù)存儲(chǔ)在平臺(tái)上。該平臺(tái)的存儲(chǔ)層是一個(gè)由4個(gè)計(jì)算節(jié)點(diǎn)組成的集群,其利用了HDFS數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu),將預(yù)處理后的數(shù)據(jù)或平臺(tái)分析的數(shù)據(jù)以文本形式讀入平臺(tái)中[10]。平臺(tái)為數(shù)據(jù)存儲(chǔ)提供了強(qiáng)大的保護(hù)措施,平均每個(gè)情報(bào)數(shù)據(jù)都進(jìn)行三次備份,能夠很好地防止遇到突發(fā)事件而出現(xiàn)丟失圖書情報(bào)數(shù)據(jù),并且圖書情報(bào)數(shù)據(jù)有附加性能,在平臺(tái)發(fā)生意外故障時(shí),能夠保證后續(xù)圖書情報(bào)數(shù)據(jù)存儲(chǔ)無誤。

      1.3 數(shù)據(jù)解析模塊

      數(shù)據(jù)解析模塊是此平臺(tái)第二主要的功能模塊,它包括用戶聚類模塊和用戶行為分析模塊兩大類。本平臺(tái)利用用戶興趣對(duì)用戶進(jìn)行分類匯總。當(dāng)用戶頻繁訪問圖書情報(bào)數(shù)據(jù)的某個(gè)頁面或在某個(gè)頁面上停留較長(zhǎng)時(shí)間時(shí),表明用戶對(duì)此類圖書情報(bào)數(shù)據(jù)興趣度很高[11]。在本文中,會(huì)使用這種興趣度來對(duì)圖書情報(bào)數(shù)據(jù)進(jìn)行聚類解析。在同一時(shí)間,利用序列化模式挖掘算法和圖書情報(bào)數(shù)據(jù)經(jīng)常被訪問的途徑,針對(duì)該途徑獲取的圖書情報(bào)數(shù)據(jù)進(jìn)行解析工作。

      2 軟件設(shè)計(jì)

      從功能的簡(jiǎn)易運(yùn)行和設(shè)計(jì)的開拓性能角度出發(fā),采用的挖掘算法延伸性應(yīng)用具備兩個(gè)特性:

      1)挖掘算法的一些性能是比較卓越的,應(yīng)用上更是靈便突出,但是靈便的后果就是操作相當(dāng)麻煩。所以本文必須整理出多個(gè)演變算法,才能給外界夠提供出簡(jiǎn)便的對(duì)恰接口,使操作的運(yùn)用既能活靈活現(xiàn)又盡可能的簡(jiǎn)單便捷。

      2)改良可插播式應(yīng)用的挖掘算法,既能在原始算法上增加新的運(yùn)算公式也能在已有公式的基礎(chǔ)上進(jìn)行算法改動(dòng)或者撤銷,還不會(huì)對(duì)原始模塊產(chǎn)生相對(duì)明顯的影響。這種算法不僅落實(shí)了對(duì)最初算法的改進(jìn),還跟進(jìn)了應(yīng)用改進(jìn)算法。具體的圖書情報(bào)數(shù)據(jù)挖掘流程如圖3所示。

      圖3 數(shù)據(jù)挖掘流程圖Fig.3 Flow chart of data mining

      在進(jìn)行圖書情報(bào)數(shù)據(jù)挖掘時(shí),用戶可以依據(jù)需求,對(duì)挖掘策略模板文件事先進(jìn)行挖掘算法的設(shè)置,來確定某些參數(shù)的值和在未來的時(shí)間里需要設(shè)置的參數(shù)。在這類文件中,為了完成特定的策略文件,需要為平臺(tái)中的屬性指定所需要的算法,確定哪些已經(jīng)有明確值的挖掘參數(shù),哪些參數(shù)是用戶對(duì)此策略模板的解釋說明,指導(dǎo)用戶定義策略文件。

      3 實(shí)驗(yàn)結(jié)果分析

      3.1 測(cè)試環(huán)境

      功能測(cè)試工具為Microsoft Visual Studio 2015 for software tester;性能測(cè)試工具為L(zhǎng)oadrunner 10;測(cè)試管理工具為Mercury Quslity center 9.0。

      3.2 平臺(tái)運(yùn)行環(huán)境

      服務(wù)器,HP ML-370 G5;操作平臺(tái),Windows 2013 Server,TRS DB Server V6;CPU,Inter Pentium Ⅲ 1 GHz以上;內(nèi)存,4 GB以上;硬盤,1 TB;網(wǎng)絡(luò),支持TCP/IP協(xié)議;數(shù)據(jù)庫,SQL Server,MySQL。

      3.3 實(shí)驗(yàn)結(jié)果分析

      為了驗(yàn)證本文平臺(tái)在數(shù)據(jù)挖掘方面的性能,將文獻(xiàn)[5]平臺(tái)作為對(duì)比,進(jìn)行量化測(cè)試。測(cè)試將負(fù)載均衡離差值作為衡量指標(biāo)。

      負(fù)載均衡離差值是負(fù)載均衡性的體現(xiàn),計(jì)算公式為:

      式中:n用于描述圖書情報(bào)數(shù)據(jù)總量;ηv用于描述數(shù)據(jù)量為v時(shí)數(shù)據(jù)挖掘的負(fù)載;ηavg用于描述數(shù)據(jù)挖掘時(shí)的平均負(fù)載。

      依據(jù)上式描述,將采用本文平臺(tái)及文獻(xiàn)[5]平臺(tái)做比較,進(jìn)行數(shù)據(jù)挖掘負(fù)載均衡離差值對(duì)比,結(jié)果見圖4。

      圖4 不同平臺(tái)挖掘負(fù)載均衡離差結(jié)果對(duì)比Fig.4 Comparison for load balance deviation results mined by different platforms

      分析圖4可知,在數(shù)據(jù)挖掘量和響應(yīng)速度一定時(shí),采用本文平臺(tái)進(jìn)行數(shù)據(jù)挖掘,其負(fù)載均衡離差值較為穩(wěn)定,只有一處出現(xiàn)忽然增加的現(xiàn)象,均衡性較好的同時(shí),穩(wěn)定性較高,具有一定的優(yōu)勢(shì);反之,采用文獻(xiàn)[5]平臺(tái)時(shí),多處出現(xiàn)負(fù)載均衡離差值突然增高的現(xiàn)象,雖然均衡性較好,但穩(wěn)定性較差,影響因素增多,需要進(jìn)一步進(jìn)行處理。

      4 結(jié)論

      針對(duì)傳統(tǒng)平臺(tái)一直存在數(shù)據(jù)挖掘中負(fù)載均衡差的問題,提出并設(shè)計(jì)了基于K-means算法的圖書情報(bào)數(shù)據(jù)挖掘處理平臺(tái),并通過硬件及軟件兩部分進(jìn)行分析,以負(fù)載均衡離差值為對(duì)比指標(biāo)進(jìn)行實(shí)驗(yàn)分析。結(jié)果表明,改進(jìn)平臺(tái)負(fù)載均衡較好,具有一定的優(yōu)勢(shì)。

      猜你喜歡
      情報(bào)數(shù)據(jù)挖掘解析
      情報(bào)
      情報(bào)
      情報(bào)
      三角函數(shù)解析式中ω的幾種求法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      睡夢(mèng)解析儀
      電競(jìng)初解析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      相機(jī)解析
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      额尔古纳市| 凤山县| 巴马| 贵州省| 麦盖提县| 屯昌县| 衡东县| 罗源县| 佳木斯市| 普格县| 临澧县| 方城县| 高雄市| 镇安县| 连平县| 宁强县| 电白县| 富蕴县| 平湖市| 调兵山市| 衡阳县| 当涂县| 洛南县| 花垣县| 萍乡市| 故城县| 舟山市| 万安县| 五莲县| 津南区| 罗山县| 广宗县| 壤塘县| 淮安市| 喀什市| 洛扎县| 珲春市| 大方县| 唐海县| 黄石市| 韩城市|