• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)情報分析平臺在圖書館管理與服務(wù)中的應(yīng)用體會

      2020-09-12 14:34:20朱竹
      蘭臺內(nèi)外 2020年17期
      關(guān)鍵詞:圖書館管理應(yīng)用服務(wù)

      朱竹

      摘 要:隨著互聯(lián)網(wǎng)信息技術(shù)的發(fā)展,大數(shù)據(jù)的作用日益突出,圖書館館藏數(shù)據(jù)具有數(shù)量龐大和結(jié)構(gòu)多樣的特點。但是當(dāng)前圖書館管理和服務(wù)工作效率仍然比較低下,數(shù)據(jù)管理漏洞頻出,耗費了大量的人力物力。基于此,本文依次從情報獲取、情報數(shù)據(jù)的處理、存儲及分析展開研究,搭建了大數(shù)據(jù)情報分析平臺,以大數(shù)據(jù)情報分析平臺業(yè)務(wù)流程圖為切入點詳細(xì)闡述了平臺在圖書館管理和服務(wù)中的應(yīng)用,希望能夠有效提高圖書館管理效率,使信息檢索更高效。

      關(guān)鍵詞:大數(shù)據(jù)情報分析平臺;圖書館管理;服務(wù);應(yīng)用

      當(dāng)前,大數(shù)據(jù)及其他智能技術(shù)已經(jīng)在各行各業(yè)中取得了廣泛應(yīng)用,傳統(tǒng)的圖書館管理與服務(wù)模式改革進(jìn)程不斷加快。前幾年,國內(nèi)從國外引入了基于眾包的圖書館管理新模式,試圖將以往由圖書館職工執(zhí)行的工作任務(wù)外包給一些大型的、非特定的大眾網(wǎng)絡(luò)。針對圖書館數(shù)據(jù)類型架構(gòu)不統(tǒng)一、信息隔閡難以消除等問題,有學(xué)者提出綜合使用關(guān)系型和非關(guān)系型數(shù)據(jù)庫,通過使用內(nèi)存數(shù)據(jù)庫等先進(jìn)技術(shù)高效管理不同結(jié)構(gòu)的數(shù)據(jù)資源。為加快信息檢索效率,提出建立面向圖書館半結(jié)構(gòu)化館藏數(shù)據(jù)的智能檢索系統(tǒng),提取數(shù)據(jù)特征。但是,國內(nèi)目前并未建成一個完整的大數(shù)據(jù)情報分析平臺,平臺并未深入應(yīng)用在圖書館管理和服務(wù)中。

      一、大數(shù)據(jù)環(huán)境下圖書館的管理和服務(wù)新模式

      情報分析以廣大用戶的需求為工作切入點,借助現(xiàn)代信息技術(shù)和軟科學(xué)研究方法,有序采集、選擇、評價和分析社會信息,從而實現(xiàn)情報產(chǎn)品的增值,為不同層次科學(xué)決策提供服務(wù)。開展情報分析服務(wù)一方面能夠提高圖書館學(xué)科服務(wù)水平,滿足高校學(xué)生使用網(wǎng)絡(luò)資源查閱文獻(xiàn)資料的需求,注重圖書館服務(wù)的專業(yè)性。另一方面,組織和分析信息是圖書館的重要職責(zé),過去圖書館學(xué)的課程設(shè)置過于理論化,沒有實現(xiàn)圖書館理論和情報學(xué)的交叉融合,不注重情報分析方法的知識傳授,建立大數(shù)據(jù)情報分析平臺有利于圖書館學(xué)專業(yè)的發(fā)展,滿足大數(shù)據(jù)時代對情報分析的需求。

      大數(shù)據(jù)分析是指利用大數(shù)據(jù)理念高效分析海量、增長快速且內(nèi)容復(fù)雜的數(shù)據(jù),提煉出隱藏模式或者未知的數(shù)據(jù)關(guān)系,從而確保用戶做出正確的決策。仔細(xì)比較情報分析和大數(shù)據(jù)分析的概念可以發(fā)現(xiàn),除數(shù)據(jù)外,情報分析依靠的還有通過定量分析和定性分析采集的信息。

      電子文獻(xiàn)已經(jīng)成為了現(xiàn)代圖書館館藏資料的主要載體,文獻(xiàn)總量非常大,質(zhì)量層次不齊,由于缺乏科學(xué)合理的文獻(xiàn)管理方法,用戶尋找某項指定范圍的文獻(xiàn)資料時需要花費大量時間和精力。對此,現(xiàn)代圖書館應(yīng)該努力實現(xiàn)管理模式智能化,控制文獻(xiàn)管理成本和人力維護(hù)成本,要實現(xiàn)快捷智能化以幫助用戶快速找到符合需求的優(yōu)質(zhì)文獻(xiàn),甚至可以在平臺后端自動分析用戶的文獻(xiàn)瀏覽偏好,向用戶推薦個性化文獻(xiàn)。

      二、搭建大數(shù)據(jù)情報分析平臺

      1.獲取情報

      網(wǎng)絡(luò)爬蟲技術(shù)是一種應(yīng)用廣泛的程序,可以按照特定規(guī)則實現(xiàn)萬維網(wǎng)的自動抓取。針對圖書館館藏資料和借閱量等情報信息抓取不及時的問題,可以聚焦網(wǎng)絡(luò)爬蟲技術(shù)。具體工作流程如下:首先給一初始URL,結(jié)合用戶需求從網(wǎng)頁全文中提出有效數(shù)據(jù)。然后提取出新URL鏈接,在URL列表中加入進(jìn)一步篩選的URL鏈接,不斷循環(huán)網(wǎng)頁內(nèi)容抓取工作,當(dāng)所有信息提取完畢后自動停止工作。該模塊的工作核心包括兩部分,一是從網(wǎng)頁中提取出子鏈接,二是高效解析繁雜的網(wǎng)頁內(nèi)容。目前一般使用HTMLParser技術(shù)克服這兩個工作難題,HTMLParser能夠?qū)崟r分析處理HTML,及時提取并清洗網(wǎng)頁信息,將與網(wǎng)頁主題相關(guān)的有效網(wǎng)頁數(shù)據(jù)轉(zhuǎn)化為XML格式數(shù)據(jù),自動過濾網(wǎng)站導(dǎo)航、版權(quán)信息等與用戶需求無關(guān)的信息。

      2.處理情報數(shù)據(jù)

      獲取的情報數(shù)據(jù)大多是中文或者英文,分析難度非常大,需要另外進(jìn)行分詞處理。其中,英文文獻(xiàn)可以直接使用英文空格為分隔符,處理工作簡單,而中文文獻(xiàn)則沒有可以直接使用的分隔符,分詞處理難度大。目前一般使用基于字符串匹配或者統(tǒng)計與機(jī)器相結(jié)合的算法,可以在基于字符串匹配的算法中加入正向、反向等啟發(fā)式算法,提高算法速度和分類效果,降低實現(xiàn)難度,但是這類算法仍然無法高效處理歧義和未登錄詞語?;诮y(tǒng)計與機(jī)器相結(jié)合的分詞系統(tǒng)則可以克服這一難題,但是需要耗費大量的人力資源,人工標(biāo)注好數(shù)據(jù)后不斷調(diào)整分詞系統(tǒng)模型的參數(shù),計算各種分詞出現(xiàn)的概率。綜合考慮這兩種分詞系統(tǒng)優(yōu)缺點后,有學(xué)者提出建立基于雙向最大匹配和隱馬爾可夫模型的分詞消歧模型,在控制人力資本的前提下進(jìn)一步提高分詞效果。中國科學(xué)院技術(shù)研究所開發(fā)了漢語詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)能夠把人類的自然語言轉(zhuǎn)化為形式化的計算機(jī)語言,具有分詞精度高、支持用戶詞典、查詢速度快等特點。美國State Street金融服務(wù)公司在數(shù)據(jù)庫整合中首次使用了語義技術(shù),增加了大數(shù)據(jù)的數(shù)據(jù)價值。

      3.存儲情報數(shù)據(jù)

      目前一般使用Hadoop大數(shù)據(jù)分布式存儲平臺存儲處理過的圖書館情報信息,Hadoop實現(xiàn)了一個高容錯性的分布式文件系統(tǒng),在擁有超大數(shù)據(jù)集的應(yīng)用程序上取得了廣泛應(yīng)用。針對圖書館多結(jié)構(gòu)化數(shù)據(jù)海量的特點,可以在廉價硬件上搭建大規(guī)模存儲群,在HBase數(shù)據(jù)庫存儲多結(jié)構(gòu)化數(shù)據(jù)。基于Hadoop構(gòu)建的大數(shù)據(jù)存儲交換平臺能夠?qū)崿F(xiàn)多類業(yè)務(wù)數(shù)據(jù)交互,完成業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)共享池的Hadoop存儲,為情報數(shù)據(jù)的分析提供基礎(chǔ)保障。

      4.分析情報數(shù)據(jù)

      一般使用互信息、文檔頻率、CHI統(tǒng)計等方法提取文本特征,綜合考慮圖書館各類文獻(xiàn)的借閱情況、引用量等情報數(shù)據(jù)特性,本文采用文檔頻率提取文本特征。常見的文檔頻率算法首先確定兩個閾值,將閾值和特征項的文檔頻率進(jìn)行比較,刪除文檔頻率超出閾值區(qū)間的文檔頻率,保留文檔頻率在閾值區(qū)間內(nèi)的文檔頻率。過去使用的文檔頻率算法忽略了特征詞在每篇文檔中出現(xiàn)的詞頻率,對此,可以使用支持向量機(jī)方法訓(xùn)練分類器。為了提高文獻(xiàn)檢索效率,可以給整理后的圖書館情報數(shù)據(jù)建立特征項索引,以圖書館排名作為特征項的權(quán)值,用加權(quán)平均存儲特征項。首先用模糊算法查找符合用戶需求的特征項,然后借助Hadoop中的MapRduce高效并行計算模型分析最符合用戶需求的文獻(xiàn)資料。實際使用時,用戶可以自行選擇實現(xiàn)Map和Reduce函數(shù)的語言。

      三、大數(shù)據(jù)情報分析平臺在圖書館管理和服務(wù)中的應(yīng)用

      1. 搭建平臺

      所謂網(wǎng)絡(luò)爬蟲技術(shù),指的是根據(jù)有關(guān)規(guī)則,對萬維網(wǎng)相應(yīng)程序自動獲取,可將其劃分成通用網(wǎng)絡(luò)、增量網(wǎng)絡(luò)、深層網(wǎng)絡(luò)及聚焦網(wǎng)絡(luò)。文章主要以圖書館館藏資料及借閱數(shù)據(jù)為研究核心,因此,實際操作中可采用聚焦網(wǎng)絡(luò)的形式完成圖書館的管理和服務(wù)。實際的操作流程是:首先,提供初始URL,并對網(wǎng)頁全文進(jìn)行獲取,然后按照相應(yīng)需求對此后所獲數(shù)據(jù)進(jìn)行描述,再在網(wǎng)頁中提取出最新URL鏈接,經(jīng)篩選后將其加入到新的列表當(dāng)中,此后,以循環(huán)的方式來獲取最新內(nèi)容,抑制持續(xù),達(dá)到相應(yīng)條件后方可停止。運行期間,主要環(huán)節(jié)就是網(wǎng)頁模塊的解析,其存在兩方面問題:其一,將網(wǎng)頁中自連接的提取問題進(jìn)一步解決,讓其順利歸入URL列表中;其二,將網(wǎng)頁中相關(guān)內(nèi)容進(jìn)一步解析出來,目前,比較常用的技術(shù)便是HTMLParser。此技術(shù)是基于HTML之上的數(shù)據(jù)解析處理器,其能夠直接將網(wǎng)頁中的URL進(jìn)行提取,并對其中的網(wǎng)頁信息或數(shù)據(jù)分解、處理,然后以XML的形式將其輸出。HTMLParser對文獻(xiàn)進(jìn)行獲取過程中,同時處理文本內(nèi)容,處理時所借助的網(wǎng)絡(luò)便是聚焦網(wǎng),以圖書館為主題,完成數(shù)據(jù)的爬取,這樣就能得到關(guān)于圖書館的數(shù)據(jù)資料,再用萬維網(wǎng)相關(guān)網(wǎng)頁進(jìn)行展示。萬維網(wǎng)中的網(wǎng)頁可分為兩種,其一與網(wǎng)頁主題有關(guān),其二是部分與主體信息,其中的典型內(nèi)容是導(dǎo)航、版權(quán)等信息,那些關(guān)聯(lián)性不強(qiáng)的信息會被及時過濾掉。進(jìn)行數(shù)據(jù)處理時,并不能及時分析相關(guān)的情報信息,要用分詞的形式實現(xiàn)處理,在處理的過程中,會涉及中英文或者其它文字,英文文獻(xiàn)的處理可采用分子形式,此方法相對簡單,可直接采用空格進(jìn)行分隔,無需多余處理。目前,成熟分詞系統(tǒng)分成兩種,其一,根據(jù)字符串匹配實現(xiàn)計算,其二,根據(jù)統(tǒng)計及機(jī)器相結(jié)合的方式來實現(xiàn)計算。字符串的算法就是通過掃描字符串,找出和詞料庫內(nèi)相符合的字符串,并將其記錄下來。比如,正反向或者雙向的匹配算法,此類算法有極高的速度,且時間相對簡單,操作極易完成,同時有非常明顯的分類效果。其也存在一定的缺陷,就是在處理歧義或者未進(jìn)行登錄時,所呈現(xiàn)出來的處理效果較差。另一種是根據(jù)計算機(jī)和統(tǒng)計學(xué)所結(jié)合得出的形式,其有極強(qiáng)的分類效果,能夠?qū)⒂衅缌x的詞匯進(jìn)行處理,但是,需要人工來對相關(guān)詞匯進(jìn)行標(biāo)注,實現(xiàn)分詞系統(tǒng)的模型創(chuàng)建。在進(jìn)行模型訓(xùn)練的過程中,可以使用經(jīng)過標(biāo)注的數(shù)據(jù),也是對模型相關(guān)參數(shù)的一種調(diào)整。分詞環(huán)節(jié)中,需以完成訓(xùn)練的模型來實現(xiàn)分詞概率的計算,最后所輸出的是最大概率分詞。由于兩類分詞系統(tǒng)均有各自優(yōu)越之處,因此,在實際應(yīng)用中可與相關(guān)原則相結(jié)合,比如,雙向匹配和HMM分詞的形式來進(jìn)行歧義消除,此模型便可采用正向的最大值和逆向兩種相匹配,完成文本信息的處理和分析,然后經(jīng)HMM模型來分析對比兩次匹配的結(jié)果,以達(dá)到最終的分詞目的。

      2.具體實踐

      目前而言,大數(shù)據(jù)環(huán)境中的情報分析平臺相關(guān)流程已經(jīng)非常明確,面對大量的數(shù)據(jù)存儲,情報分析平臺已經(jīng)能夠把所擁有的數(shù)據(jù)進(jìn)行分析處理,并能夠選擇和轉(zhuǎn)化。情報分析平臺的基本工作是準(zhǔn)備相應(yīng)的數(shù)據(jù),基礎(chǔ)工作也是后續(xù)工作質(zhì)量保障的前提,同時還決定了平臺處理數(shù)據(jù)的效率。就目前而言,在圖書館的管理以及服務(wù)工作中,對情報平臺的利用已經(jīng)有很多有價值的實踐經(jīng)驗。就圖書館的發(fā)展來說,能夠借助該平臺來明確市場的發(fā)展目標(biāo),并加以實現(xiàn)。和市場營銷有類似之處,圖書館也是較早采用情報分析平臺之一,整個過程最終的目的都是根據(jù)用戶的具體需求,平臺通過分析整理用戶在圖書館內(nèi)的閱讀、消費、借閱等行為習(xí)慣,然后對所得數(shù)據(jù)進(jìn)行分類,統(tǒng)一進(jìn)行管理。這樣可有效保證圖書館的館藏資源能夠滿足用戶需求,將圖書館的館藏價值進(jìn)一步提高,讓圖書館的服務(wù)從廣泛性轉(zhuǎn)變?yōu)獒槍π?,甚至是個性化。

      3.相關(guān)分析

      有研究報告調(diào)查顯示:在未來社會,價值質(zhì)疑、技術(shù)障礙、人員隊伍無法適應(yīng)挑戰(zhàn)等重大問題將嚴(yán)重困擾著圖書館,高校教職工已經(jīng)逐步弱化了圖書館存在價值,圖書館用戶流失異常嚴(yán)重,我們通過大數(shù)據(jù)技術(shù)的預(yù)測性分析能力不僅可以通過數(shù)據(jù)了解用戶、行為、意愿、業(yè)務(wù)需求、知識應(yīng)用能力及知識服務(wù)需求等內(nèi)容,更可以利用數(shù)據(jù)對用戶的科研創(chuàng)新合作過程及合作交互型知識服務(wù)過程將要發(fā)生什么進(jìn)行分析和預(yù)測,從而應(yīng)對圖書館未來所面對的各種生存危機(jī)。

      從宏觀層面來看,傳統(tǒng)情報分析方法可以分為定性分析方法、半定量分析方法和定量分析方法。從微觀層面來看,以對象類型為分類依據(jù),傳統(tǒng)情報分析方法可能基于知識、文獻(xiàn)、組織、專家、專利、認(rèn)知心理學(xué)、軍事情報或者犯罪情報。傳統(tǒng)情報分析方法大多使用結(jié)構(gòu)化、標(biāo)準(zhǔn)化的數(shù)據(jù),數(shù)據(jù)來源十分單一,數(shù)據(jù)數(shù)量和類型根本無法達(dá)到用戶使用需求。除此之外,傳統(tǒng)情報分析方法只注重分析信息不完全、缺乏代表性、形式單一的文獻(xiàn)數(shù)據(jù),分析結(jié)果的科學(xué)性有待商榷,無法滿足可視化分析和空間信息分析等需求。大數(shù)據(jù)分析方法能夠深度分析數(shù)據(jù),融合多源數(shù)據(jù),提高數(shù)據(jù)處理效率。建立大數(shù)據(jù)情報分析平臺后,研究結(jié)果的科學(xué)性和準(zhǔn)確性均得到質(zhì)的提升,有效應(yīng)對了海量異源異構(gòu)數(shù)據(jù)對情報分析工作帶來的沖擊。圖書館屬于中小型機(jī)構(gòu),因此Hadoop平臺下的各個應(yīng)用框架可以滿足其數(shù)據(jù)管理需求。在Hadoop系統(tǒng)中,HBase是數(shù)據(jù)存儲層,Pig和Hive降低了用戶在數(shù)據(jù)存儲層上處理數(shù)據(jù)的難度。大數(shù)據(jù)情報分析平臺業(yè)務(wù)流程圖如圖1所示:

      Hadoop平臺具有強(qiáng)大的情報分析功能,文獻(xiàn)檢索速度非常快,平臺中的HTMLParser解析器能夠高效過濾和抽取數(shù)據(jù),借助分詞系統(tǒng)提取過濾后的情報數(shù)據(jù)特征,MapRduce模型進(jìn)行高效并行計算后,按照事先設(shè)定的權(quán)值比重排序,優(yōu)先展示高質(zhì)量、高度符合文獻(xiàn)檢索需求的文獻(xiàn)。除了提供基礎(chǔ)信息服務(wù)、虛擬信息服務(wù)等傳統(tǒng)服務(wù),平臺還為用戶提供了個性化的功能配置和展示模塊,用戶能夠快速找到符合自己需求的優(yōu)質(zhì)文獻(xiàn)資料,即便沒有特定的文獻(xiàn)檢索目標(biāo),平臺也可以根據(jù)用戶專業(yè)、年級、以往的文獻(xiàn)瀏覽記錄以及檢索率高的語義關(guān)鍵詞等智能推薦優(yōu)質(zhì)文獻(xiàn)、微課資源。用戶能夠根據(jù)自己的時間安排靈活回顧和評價課程學(xué)習(xí)資源。

      四、結(jié)束語

      綜上所述,當(dāng)今社會對數(shù)據(jù)分析的要求越來越高,而大數(shù)據(jù)理念和技術(shù)給情報分析研究工作的發(fā)展創(chuàng)造了不可多得的機(jī)遇,建立大數(shù)據(jù)情報分析平臺勢在必行。圖書館如何在大數(shù)據(jù)時代最大限度地發(fā)揮自己的專業(yè)優(yōu)勢呢?本文結(jié)合以往圖書館情報分析和研究工作遇到的瓶頸,按照獲取情報、處理情報數(shù)據(jù)、存儲情報數(shù)據(jù)和分析情報數(shù)據(jù)的步驟搭建大數(shù)據(jù)情報分析平臺,同時深入探討了大數(shù)據(jù)情報分析平臺在圖書館管理與服務(wù)中的應(yīng)用,希望能夠健全圖書館知識服務(wù)體系。

      參考文獻(xiàn):

      [1]高 琰,余 游,馮 林.大數(shù)據(jù)情報分析平臺在圖書館管理與服務(wù)中的應(yīng)用[J]. 四川圖書館學(xué)報,2018

      [2]李 艷,余 鵬,李 瓏.“大數(shù)據(jù)+微服務(wù)”模式下的高校圖書館知識服務(wù)體系研究[J]. 圖書館理論與實踐,2017

      [3]張愛優(yōu).論大數(shù)據(jù)時代高校圖書館情報分析服務(wù)的實施[J]. 圖書情報導(dǎo)刊,2016

      [4]鄧勝利,凌 菲.大數(shù)據(jù)時代基于情報分析的圖書情報學(xué)教育變革[J].信息資源管理學(xué)報,2015

      [5]李 超,周 瑛,周 煥,潘 瑋.大數(shù)據(jù)環(huán)境下情報分析方法與情報分析軟件探討[J].現(xiàn)代情報,2017

      (作者單位:金陵科技學(xué)院圖書館)

      猜你喜歡
      圖書館管理應(yīng)用服務(wù)
      服務(wù)在身邊 健康每一天
      服務(wù)在身邊 健康每一天
      服務(wù)在身邊 健康每一天
      招行30年:從“滿意服務(wù)”到“感動服務(wù)”
      商周刊(2017年9期)2017-08-22 02:57:56
      多媒體技術(shù)在圖書館管理中的應(yīng)用探析
      青年時代(2016年29期)2016-12-09 23:43:36
      人本管理思想在圖書館管理中的應(yīng)用
      青年時代(2016年29期)2016-12-09 23:39:27
      柔性管理及其在圖書館管理中的核心應(yīng)用
      基于知識管理的高校圖書館管理創(chuàng)新
      GM(1,1)白化微分優(yōu)化方程預(yù)測模型建模過程應(yīng)用分析
      科技視界(2016年20期)2016-09-29 12:03:12
      煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
      科技視界(2016年20期)2016-09-29 11:47:01
      洱源县| 融水| 闽侯县| 清远市| 文水县| 清徐县| 六枝特区| 锦屏县| 长治市| 景东| 湛江市| 韶山市| 应用必备| 桐柏县| 安康市| 永新县| 奉贤区| 凌海市| 城市| 垦利县| 巴中市| 丰顺县| 邹城市| 从江县| 桂林市| 乌兰察布市| 习水县| 进贤县| 神木县| 运城市| 根河市| 包头市| 望城县| 仪征市| 金乡县| 金阳县| 永德县| 柳林县| 合山市| 平乡县| 临漳县|