• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站決策算法

      2022-01-04 15:05:02顧春燕
      軟件工程 2022年1期
      關(guān)鍵詞:數(shù)字資源一站式決策樹

      摘? 要:隨著智慧圖書館的興起,可以對圖書館數(shù)字資源大數(shù)據(jù)進(jìn)行深入挖掘利用,區(qū)域高校圖書館數(shù)字資源一站式檢索必然是進(jìn)一步增強(qiáng)館際合作、數(shù)據(jù)挖掘、資源互享的有效平臺。基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法設(shè)計了一種決策樹與樸素貝葉斯模型相結(jié)合的兩層模型方法,通過提取整合區(qū)域內(nèi)各高校圖書館數(shù)字資源大數(shù)據(jù)的特征屬性,并利用樸素貝葉斯模型進(jìn)一步篩選特征屬性,從而構(gòu)建決策樹架構(gòu),支撐區(qū)域高校圖書館數(shù)字資源一站式檢索。利用基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法可以實(shí)現(xiàn)檢索資源過程更加便捷高效,檢索結(jié)果的準(zhǔn)確率呈現(xiàn)翻倍式增長。

      關(guān)鍵詞:數(shù)字資源;樸素貝葉斯;決策樹;一站式

      中圖分類號:TP312? ? ?文獻(xiàn)標(biāo)識碼:A

      文章編號:2096-1472(2022)-01-33-04

      Abstract: With the rise of smart libraries, big data of library digital resources can be deeply excavated and utilized. One-stop retrieval of digital resources in regional university libraries is bound to be an effective platform to further enhance interlibrary cooperation, data mining, and resource sharing. This paper proposes to design a two-layer model method combining decision tree and Naive Bayes model, based on Naive Bayes-based one-stop decision-making algorithm for regional university libraries' digital resources. By extracting and integrating the characteristic attributes of the digital resources big data in various university libraries in the area, and using Naive Bayes model to further filter the characteristic attributes, a decision tree structure can be constructed to support the one-stop retrieval of digital resources in the regional university libraries. The one-stop decision-making algorithm for digital resources in regional university libraries based on Naive Bayes can be realized: the process of retrieving resources is more convenient and efficient, and the accuracy of retrieval results has doubled.

      Keywords: digital resources; Naive Bayes; decision tree; one-stop

      1? ?引言(Introduction)

      近些年,隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、人工智能等新興技術(shù)的發(fā)展,“智慧圖書館”成為圖書館界的研究熱點(diǎn),研究者各自從不同的角度對“智慧圖書館”進(jìn)行探討。AITTOLA首次提出“智慧圖書館”的概念,他認(rèn)為“智慧圖書館”是一個不受空間限制且可被感知的移動圖書館[1]。王世偉認(rèn)為智慧圖書館是以高效、互聯(lián)、便利為特征,以綠色發(fā)展為發(fā)展戰(zhàn)略,以數(shù)字惠民,引導(dǎo)讀者智慧閱讀,為讀者提供全方位一體化的服務(wù)為根本追求,實(shí)現(xiàn)廣闊互聯(lián)互通與共享融合的未來圖書館發(fā)展新模式[2]。未來的發(fā)展趨勢是基于智能化、網(wǎng)絡(luò)化、數(shù)字化信息技術(shù),實(shí)現(xiàn)以人為本、綠色發(fā)展、廣泛互聯(lián)的具有高效、便利、互聯(lián)、智慧等特性的圖書館[3]。

      對圖書館數(shù)字資源大數(shù)據(jù)可以進(jìn)行深入挖掘利用,區(qū)域高校圖書館數(shù)字資源一站式檢索必然是進(jìn)一步增強(qiáng)館際合作、數(shù)據(jù)挖掘、資源互享的有效平臺,是未來圖書館實(shí)現(xiàn)互聯(lián)互通、智慧共享的重要途徑。各高校圖書館購買的數(shù)字資源不同,各數(shù)字資源數(shù)據(jù)庫擁有不同的檢索平臺,導(dǎo)致用戶需要不停地切換檢索模式,獲取所需資源的過程耗時且繁瑣,而檢索結(jié)果會出現(xiàn)重復(fù)、不全面的現(xiàn)象。因此,構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索顯得尤為迫切。

      2? 圖書館數(shù)字資源一站式檢索研究現(xiàn)狀(Research status of one-stop retrieval of library digital resources)

      以往針對“數(shù)字資源的一站式檢索”的學(xué)術(shù)研究主要都集中在平臺的搭建、分布式數(shù)據(jù)庫檢索模型、混合式數(shù)據(jù)庫檢索模型、集中式數(shù)據(jù)庫檢索模型、基于語義技術(shù)的檢索模型。

      何美琴、陳剛通過構(gòu)建區(qū)域高校圖書館一站式書目檢索平臺來解決讀者在書目檢索中遇到的困難,在區(qū)域高校資源共享、優(yōu)勢互補(bǔ)的基礎(chǔ)上,使讀者享受到一站式書目檢索帶來的快捷方便[4]。楊偉超、劉陽、李淑霞提出構(gòu)建基于搜索引擎的一站式檢索平臺,實(shí)現(xiàn)在統(tǒng)一的檢索界面上,一次檢索就能獲得所有電子資源的相關(guān)文獻(xiàn)信息[5]。唐光前提出了一種基于.NET Remoting的分布式異構(gòu)數(shù)據(jù)庫一站式檢索系統(tǒng)模型,向用戶提供一步到位的跨庫檢索服務(wù),可以最大限度地減少檢索步驟[6]。張衛(wèi)華提出了一種基于語義技術(shù)的圖書館資源檢索模型,增加了本體字典、檢索歷史抽取庫和輸出子系統(tǒng)[7]。

      不難看出,目前對于圖書館數(shù)字資源一站式檢索的平臺架構(gòu)、數(shù)據(jù)庫架構(gòu)的研究已經(jīng)相對成熟,但較少學(xué)者將樸素貝葉斯和決策樹算法一起應(yīng)用于圖書館數(shù)字資源一站式檢索。如何獲取更加高效、更加精確的檢索決策算法是本文研究的重點(diǎn)內(nèi)容。

      3? 基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法的整體框架(The overall framework of a one-stop decision-making algorithm for digital resources of regional university libraries based on Naive Bayes)

      由于地域、自身辦學(xué)水平和資金能力的差異,以及各高校重點(diǎn)建設(shè)學(xué)科的不同,我國高校圖書館數(shù)字資源存在資源存儲量差距較大、重點(diǎn)學(xué)科資源傾斜性較為明顯、資源的利用率較低等問題[8],而區(qū)域高校圖書館數(shù)字資源一站式檢索能有效地解決上述問題。因此,本文提出了一種基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法。

      區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法的整體框架如圖1所示。

      (1)由區(qū)域內(nèi)各高校成員圖書館數(shù)字資源數(shù)據(jù)庫構(gòu)成“成員館數(shù)字資源數(shù)據(jù)庫”;

      (2)提取各成員館數(shù)字資源特征屬性構(gòu)成訓(xùn)練樣本,構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索決策樹模型;

      (3)進(jìn)行決策樹剪枝,構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索樸素貝葉斯模型,計算輸出概率,當(dāng)大于50%時,獲取當(dāng)下所有特征屬性重新構(gòu)成樣本庫;

      (4)篩選后的特征屬性構(gòu)成的新樣本庫支撐區(qū)域高校圖書館數(shù)字資源一站式檢索。

      4? 基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法具體步驟(Specific steps of one-stop decision-making algorithm for digital resources of regional university libraries based on Naive Bayes)

      4.1? 構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索決策樹模型

      (1)提取區(qū)域高校圖書館數(shù)字資源大數(shù)據(jù)作為所述C5.0決策樹模型的訓(xùn)練樣本S,根據(jù)該訓(xùn)練樣本S獲取數(shù)字資源特征屬性并將其作為所述決策樹模型的輸入變量,每個輸入變量都有其對應(yīng)的分類,其中,的值由其對應(yīng)的分類值確定,如表1所示。

      (2)為了解決訓(xùn)練樣本S自身信息熵偏大的問題,采用信息增益率來替代信息增益進(jìn)行最佳分支變量的選擇,即根據(jù)所述訓(xùn)練樣本S的信息增益率選擇所述決策樹模型的最佳分支變量。該信息增益率計算公式如下:

      其中:

      為區(qū)域高校圖書館數(shù)字資源檢索結(jié)果的決策樹輸出變量,,分別對應(yīng)成員館1數(shù)據(jù)庫、成員館2數(shù)據(jù)庫、……、成員館n數(shù)據(jù)庫;

      為訓(xùn)練樣本S的樣本總數(shù);

      為訓(xùn)練樣本S中屬于成員館的樣本數(shù)量;

      為訓(xùn)練樣本S中包含輸入變量分類值為的屬于成員館的樣本數(shù)量;

      為訓(xùn)練樣本S中包含輸入變量的樣本數(shù)量;

      為訓(xùn)練樣本S中包含輸入變量分類值為的樣本數(shù)量;

      為訓(xùn)練樣本S的信息熵,為高校圖書館數(shù)字資源特征屬性在訓(xùn)練樣本S中的條件熵,為高校圖書館數(shù)字資源特征屬性分類在訓(xùn)練樣本S中的條件熵;

      為高校圖書館數(shù)字資源特征屬性的信息增益。

      (3)提取區(qū)域高校圖書館數(shù)字資源大數(shù)據(jù)并從下向上進(jìn)行決策樹后剪枝,其關(guān)鍵是誤差的估計及剪枝標(biāo)準(zhǔn)的設(shè)置。該決策樹后剪枝具體方法如下:

      采用置信區(qū)間法,給定置信水平,假設(shè)第 個節(jié)點(diǎn)上的 個診斷預(yù)測中有 個是錯誤的,則錯誤率為,且通過正態(tài)分布表得到第 個節(jié)點(diǎn)上的區(qū)域高校圖書館數(shù)字資源檢索結(jié)果的誤差滿足:

      令,的置信區(qū)間為:

      假設(shè)父節(jié)點(diǎn)上的診斷結(jié)果的誤差為,每個子節(jié)點(diǎn)占該分支樣本量的比例為,對父節(jié)點(diǎn)擁有的所有子節(jié)點(diǎn)的診斷結(jié)果的誤差進(jìn)行加權(quán)計算:

      當(dāng)所有都取最小值時,如果,則將該父節(jié)點(diǎn)的所有子節(jié)點(diǎn)都修剪去除(如圖2所示,其中node2、node6、node8的子節(jié)點(diǎn)都已修剪去除)。

      4.2? 構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索樸素貝葉斯模型

      (1)從區(qū)域高校圖書館數(shù)字資源大數(shù)據(jù)中提取包含上述決策樹模型篩選后的特征屬性數(shù)據(jù),并重新構(gòu)成訓(xùn)練樣本D,提取上述決策樹模型中所有輸出變量為(成員館1)的節(jié)點(diǎn)(以圖2為例,提取以后的結(jié)果如圖3所示)。

      (2)自上向下獲取每個節(jié)點(diǎn)所經(jīng)過的特征屬性分類,并定義第 個節(jié)點(diǎn)所擁有的特征屬性集合為:,其中是對應(yīng)節(jié)點(diǎn)所擁有的特征屬性的個數(shù)。

      (3)再利用貝葉斯公式得出第 個節(jié)點(diǎn)上輸出變量為成員館1的可能性概率,則為:

      其中:

      為訓(xùn)練樣本D的樣本總數(shù);

      為訓(xùn)練樣本D中屬于成員館的樣本數(shù)量;

      為訓(xùn)練樣本D中包含輸入變量的屬于成員館的樣本數(shù)量。

      (4)當(dāng)大于50%時,獲取第 個節(jié)點(diǎn)上的所有特征屬性構(gòu)成新樣本庫,新樣本庫將直接作為檢索數(shù)據(jù)庫提供檢索。

      5? 決策樹與樸素貝葉斯模型相結(jié)合算法的優(yōu)點(diǎn)(Algorithm advantages of combining decision tree and Naive Bayes model)

      (1)該算法首先基于區(qū)域高校圖書館數(shù)字資源的大數(shù)據(jù),采用決策樹模型來預(yù)測檢索結(jié)果,并將信息增益率作為選擇最佳分支變量的依據(jù),提高了分類的精度;然后采用樸素貝葉斯模型進(jìn)一步篩選特征屬性,對檢索結(jié)果進(jìn)行概率計算,經(jīng)過上一層模型的預(yù)處理,檢索結(jié)果更加精確;同時采用決策樹和樸素貝葉斯兩層模型的新思路進(jìn)行數(shù)字資源的一站式檢索,擺脫了以往一層模型檢索結(jié)果區(qū)間大、范圍廣、較為模糊的缺陷。

      (2)該算法的決策樹模型是利用訓(xùn)練樣本自頂向下構(gòu)造的,而后再從下向上剪枝,都是通過節(jié)點(diǎn)關(guān)聯(lián),利于結(jié)構(gòu)化編程的實(shí)現(xiàn)。同時,算法中的樸素貝葉斯模型的數(shù)學(xué)計算方法更利于計算機(jī)的處理,實(shí)現(xiàn)起來很容易。

      (3)該算法構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索C5.0決策樹模型,其是C4.5應(yīng)用于大數(shù)據(jù)集的分類算法,提高了執(zhí)行效率,減少了內(nèi)存使用。同時,C5.0決策樹模型規(guī)則十分直觀,在面對數(shù)據(jù)遺漏和輸入字段很多的問題時非常穩(wěn)健,并且它通常不需要很多的訓(xùn)練次數(shù)。

      6? ?結(jié)論(Conclusion)

      本文提出了一種基于樸素貝葉斯的區(qū)域高校圖書館數(shù)字資源一站式檢索。該方法設(shè)計了一種決策樹與樸素貝葉斯模型相結(jié)合的兩層模型方法,通過提取區(qū)域高校圖書館數(shù)字資源大數(shù)據(jù)中的特征屬性,構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索決策樹模型,然后根據(jù)訓(xùn)練樣本的信息增益率選擇所述決策樹模型的最佳分支變量,接著從下向上進(jìn)行決策樹后剪枝,最后構(gòu)建區(qū)域高校圖書館數(shù)字資源一站式檢索樸素貝葉斯模型來進(jìn)一步篩選特征屬性構(gòu)成樣本庫,從而實(shí)現(xiàn)數(shù)字資源的一站式檢索。

      決策樹和樸素貝葉斯兩層模型相結(jié)合,使得檢索結(jié)果更加全面精確?;跇闼刎惾~斯的區(qū)域高校圖書館數(shù)字資源一站式?jīng)Q策算法可以讓資源相對豐富的高校扶持資源相對匱乏

      的高校,形成良好的“多”扶“少”局面,可以實(shí)現(xiàn)不同類高校之間的學(xué)科資源互補(bǔ)和資源的相互利用,同時保持各高校圖書館的相對獨(dú)立[8]。

      參考文獻(xiàn)(References)

      [1] AITTOLA M, RYHANEN T, OJALA T. Smart library—location-aware mobile library service[C]// CHITTARO L. Human-computer Interaction with Mobile Devices and Services. Berlin: Springer, 2003:411-416.

      [2] 王世偉.未來圖書館的新模式——智慧圖書館[J].圖書館建設(shè),2011(12):1-5.

      [3] 黎梅,郭廣軍.大數(shù)據(jù)背景下高校智慧圖書館建設(shè)路徑研究[J].湖南文理學(xué)院學(xué)報(自然科學(xué)版),2020,32(02):34-39.

      [4] 何美琴,陳剛.區(qū)域高校圖書館一站式書目檢索平臺研究[J].情報科學(xué),2011,29(04):560-562.

      [5] 楊偉超,劉陽,李淑霞.基于搜索引擎的一站式檢索平臺設(shè)計與實(shí)現(xiàn)[J].計算機(jī)與現(xiàn)代化,2012(11):220-222.

      [6] 唐光前.基于.NET Remoting的分布式異構(gòu)數(shù)據(jù)庫一站式檢索系統(tǒng)模型研究[J].現(xiàn)代圖書情報技術(shù),2006(08):37-41.

      [7] 張衛(wèi)華.圖書館數(shù)字資源一站式檢索模型研究[J].河南圖書館學(xué)刊,2017,37(08):74-76.

      [8] 顧春燕.建立我國高校圖書館電子資源的互補(bǔ)機(jī)制[J].四川圖書館學(xué)報,2015(06):66-68.

      作者簡介:

      顧春燕(1988-),女,碩士,館員.研究領(lǐng)域:智慧圖書館.

      猜你喜歡
      數(shù)字資源一站式決策樹
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      建立中文DOI標(biāo)識在科技期刊出版中的作用
      高校數(shù)字資源云服務(wù)平臺的建設(shè)研究
      評價高校圖書館數(shù)字資源綜合服務(wù)能力
      基于決策樹的出租車乘客出行目的識別
      圖書館與出版企業(yè)數(shù)字資源共享的環(huán)境因素分析
      出版廣角(2016年4期)2016-04-20 01:10:00
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      普格县| 宣武区| 莆田市| 唐河县| 定日县| 巨鹿县| 阿拉善左旗| 峨眉山市| 共和县| 三穗县| 迭部县| 博客| 米林县| 台南市| 巴林右旗| 青神县| 延吉市| 和田县| 白沙| 绍兴县| 彭州市| 恩平市| 和田县| 德化县| 故城县| 左贡县| 来凤县| 襄樊市| 随州市| 张家界市| 庄浪县| 醴陵市| 南平市| 太原市| 金坛市| 安康市| 大余县| 盖州市| 华容县| 额济纳旗| 隆昌县|