• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用研究

      2019-08-19 01:59:24張影
      關(guān)鍵詞:關(guān)聯(lián)文獻圖書館

      張影

      基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用研究

      張影

      太原市圖書館,山西 太原 030024

      數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)為圖書館文獻資源開發(fā)利用提供了新方法。文章闡述了圖書館文獻資源開發(fā)利用的現(xiàn)狀,闡明應用數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的必要性,明確了基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書館文獻資源開發(fā)利用的4項原則,即持久性原則、重點性原則、主動性原則與價值性原則。并從數(shù)據(jù)源、文本處理、文本挖掘分析、可視化處理4個方面設(shè)計了基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書館文獻資源開發(fā)利用的流程,提出了構(gòu)建過程中應注意的問題,以期推動圖書館文獻資源的開發(fā)與利用。

      數(shù)據(jù)關(guān)聯(lián);文本挖掘;圖書館;文獻資源;開發(fā)利用

      圖書館文獻資源開發(fā)是一項復雜的系統(tǒng)性工作,圖書館文獻蘊含著濃厚的歷史,具有非凡的歷史價值和科學價值,開發(fā)利用圖書館文獻有利于繼承和發(fā)展中華民族文化遺產(chǎn),為圖書館文化研究提供一手資源[1]。對圖書館文獻資源的開發(fā)利用,可以結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),從已有的文本中提取有價值的信息,充分發(fā)揮數(shù)據(jù)挖掘的技術(shù)優(yōu)勢,從大量的圖書館文獻資源數(shù)據(jù)中抽取可用的知識。但是,數(shù)據(jù)關(guān)聯(lián)與文本挖掘需要處理非結(jié)構(gòu)化的文本和模糊的語義,涉及到多個學科和領(lǐng)域,涵蓋統(tǒng)計學、數(shù)據(jù)學、語義識別等技術(shù),因此,基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用研究十分具有挑戰(zhàn)性。

      1 圖書館文獻資源開發(fā)利用現(xiàn)狀分析

      當前圖書館文獻資源開發(fā)利用工作存在諸多不足,既有服務(wù)理念上的忽視,也有保障機制上的缺失。從服務(wù)理念上來看,部分圖書館認為圖書館文獻的搜集和整理并不重要,將其認為是某一個部門的工作,在整體上缺乏統(tǒng)一協(xié)調(diào)管理,導致圖書館文獻總體館藏數(shù)量少、質(zhì)量偏低。從投入上來看,因為對圖書館文獻工作的不重視,使得圖書館文獻資源開發(fā)利用經(jīng)費及人才短缺,不能夠及時更新文獻,無法滿足讀者的閱讀需求。從圖書館文獻資源利用上看,部分圖書館館內(nèi)沒有專門的文獻儲藏空間,更談不上深度的開發(fā)與高效利用,這些嚴重制約了圖書館文獻資源的服務(wù)水平[2]??梢?,圖書館對于文獻資源的開發(fā)和利用十分被動,無法真正形成科學的、具有規(guī)模的服務(wù)體系,導致讀者對圖書館開發(fā)利用文獻資源缺乏信任。因此,重塑圖書館文獻資源開發(fā)利用體系至關(guān)重要。

      圖書館文獻資源往往具有較高的學術(shù)研究價值,人們通過查詢閱讀文獻資料,了解過去、追溯歷史、把握現(xiàn)在、展望未來。隨著社會的不斷進步和發(fā)展,信息的發(fā)展呈爆炸式增長趨勢,越來越多的人開始重視圖書館文獻資源,查閱圖書館資源的讀者用戶與日俱增。部分圖書館已經(jīng)意識到圖書館文獻資源的重要性,但由于受傳統(tǒng)的資源開發(fā)技術(shù)制約,難以挖掘圖書館文獻資源的數(shù)據(jù)關(guān)聯(lián)和隱藏的規(guī)律性信息,導致圖書館文獻資源的開發(fā)程度有限,利用率有限[3]。因此,應用數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),可以突破資源開發(fā)利用的技術(shù)瓶頸,通過數(shù)據(jù)挖掘等手段,能夠發(fā)現(xiàn)和抽取可用知識,在相關(guān)數(shù)據(jù)間生成一定規(guī)則的鏈接,便于形成知識間的遷移,使讀者更加全面和便捷地對圖書館文獻資源進行檢索,提高文獻資源開發(fā)與利用的質(zhì)量。

      2 基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用原則

      圖書館在進行圖書館文獻資源開發(fā)利用的過程中,既要結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘的技術(shù)優(yōu)勢,又要遵循持久性原則、重點性原則、主動性原則與價值性原則。

      2.1 持久性原則

      圖書館文獻資源的開發(fā)利用是一項長期的、宏觀的系統(tǒng)性工程,要保證圖書館文獻的繼承性,在統(tǒng)籌協(xié)調(diào)文獻資源開發(fā)利用過程中,應該始終遵循持久性原則,解決相關(guān)機構(gòu)設(shè)置和人員管理的問題,結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),充分考慮技術(shù)人才的引進,從資源構(gòu)建環(huán)節(jié)到知識輸出平臺,都要符合數(shù)據(jù)開發(fā)的標準與要求。將圖書館文獻資源挖掘工作作為一種常態(tài)化、持久性的工作[4],使文獻資源成為圖書館的名片,推動館藏文獻形成規(guī)模。

      2.2 重點性原則

      圖書館文獻資源內(nèi)容豐富,涵蓋人文、社會、經(jīng)濟、民風民俗等方方面面的內(nèi)容,并且載體多樣,有視頻、音頻、圖片、文本等,由于圖書館經(jīng)費和人力有限,不可能事無巨細地對每一個數(shù)據(jù)都進行挖掘,詳略不分地資源開發(fā)只會產(chǎn)生泛而不專的問題,難以突出圖書館文獻資源的精髓和特色。因此,在對文獻資源進行數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù)處理時,要遵循重點性原則,根據(jù)圖書館具體的情況因地制宜,優(yōu)化資源配置,有的放矢,挖掘重點。

      2.3 主動性原則

      對圖書館文獻資源的數(shù)據(jù)關(guān)聯(lián)和文本挖掘工作具有很大的難度,一是在技術(shù)處理方面需要專業(yè)的人才和設(shè)備,二是需要大量全面地收集與整合文獻資源,三是需要社會上和相關(guān)部門的大力支持,例如經(jīng)費支持、社會捐贈等。在文獻資源開發(fā)利用沒有得到重視的情況下,圖書館要遵循主動性原則,主動聯(lián)系社會團體和相關(guān)單位,爭取他們的支持和幫助,推動圖書館文獻資源開發(fā)利用順利進行。

      2.4 價值性原則

      價值性原則,即在進行數(shù)據(jù)處理時,關(guān)注圖書館文獻資源與學科研究的交叉點,遷移其學術(shù)價值。圖書館文獻資源傳承著區(qū)域的文化脈絡(luò),必然與區(qū)域地理、人文和歷史學科息息相關(guān)[5]。所以,圖書館在進行數(shù)據(jù)整理時,要充分挖掘文獻資源的學術(shù)價值和人文價值。

      3 基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書館文獻資源開發(fā)利用的流程設(shè)計

      數(shù)據(jù)關(guān)聯(lián)和文本挖掘的目標在于應用Web技術(shù)將計算機與資源描述框架(Resource Description Framework, RDF)相關(guān)聯(lián),進而形成數(shù)據(jù)網(wǎng)。圖書館應該從數(shù)據(jù)源建設(shè)、文本處理、數(shù)據(jù)挖掘分析與可視化處理等層面進行設(shè)計,最終能夠為用戶提供揭示資源和知識鏈接的整合結(jié)果,使圖書館文獻資源得到開發(fā)與利用。

      3.1 數(shù)據(jù)源

      圖書館可以利用BIBFRAME(書目框架)2.0取代原有的MARC模型方式,重塑圖書館文獻資源數(shù)據(jù)庫,強化資源元數(shù)據(jù)的描述,便于應用數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù),建立更加開放的數(shù)據(jù)關(guān)聯(lián)環(huán)境,使文獻資源數(shù)據(jù)庫具有一定程度的伸縮性,能夠融入語義網(wǎng)絡(luò)環(huán)境中,符合文獻資源開發(fā)和利用的格式標準。由于文獻資源數(shù)據(jù),如數(shù)據(jù)庫、網(wǎng)頁、論文集、期刊及圖書等,存在多樣性和復雜性,我國不同地區(qū)、不同級別圖書館對圖書館文獻工作的理解和管理有所差異,造成圖書館文獻的交流與互通存在障礙?;跀?shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用要制訂統(tǒng)一標準,以便更加全面地整合大量數(shù)據(jù)源,為數(shù)據(jù)關(guān)聯(lián)和文本挖掘提供資源基礎(chǔ)。

      3.2 文本處理

      為揭示數(shù)據(jù)源中文獻資源的相關(guān)性,圖書館要對其進行文本處理,如分詞、提取數(shù)據(jù)特征等。常見的數(shù)據(jù)關(guān)聯(lián)方式有實體上位關(guān)聯(lián)方法,例如,將個人與組織相關(guān)聯(lián)(bf:Person, bf:Organization)、個人與家族相關(guān)聯(lián)(bf:Person, bf:Family);還有側(cè)重點關(guān)聯(lián)的方法,例如,將居住地和出生地相關(guān)聯(lián)(local:residence, local:birth place)[6]。通過這種有規(guī)律的文本處理,可以從復雜的數(shù)據(jù)源中,鏈接出數(shù)據(jù)間的關(guān)系,充分表達數(shù)據(jù)間的相關(guān)性。另外,圖書館還可以根據(jù)本館文獻資源實際情況和特征,劃分不同關(guān)聯(lián)主題,為下一步的文本挖掘分析奠定基礎(chǔ)。

      3.3 文本挖掘分析

      在基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的流程中,文本挖掘分析是核心環(huán)節(jié),是發(fā)現(xiàn)圖書館文獻資源知識規(guī)則的關(guān)鍵,包括文本結(jié)構(gòu)分析、文本摘要、文本分類、關(guān)聯(lián)分析、分布分析用趨勢預測等。分析人員不需要對數(shù)據(jù)的分布做出假設(shè)性方案,也不需要按照一定的程序?qū)ζ溆嬎?,文本挖掘技術(shù)可以自動識別數(shù)據(jù)變量之間的關(guān)系,并提取雜亂數(shù)據(jù)間的規(guī)律。一般來說,文本挖掘分析技術(shù)會重點處理數(shù)據(jù)分類、數(shù)據(jù)聚類、數(shù)據(jù)關(guān)聯(lián)及定性4類問題。

      3.4 可視化處理

      將整合的文獻資源進行可視化處理,是圖書館資源開發(fā)利用的終端環(huán)節(jié),同樣也是一項復雜的技術(shù)性工作,要嚴格遵循數(shù)據(jù)導出的程序。這是數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的成果輸出環(huán)節(jié),因此對于圖書館文獻資源的可視化技術(shù)處理要由富有經(jīng)驗的專業(yè)人員來完成。整合后的資源符合網(wǎng)絡(luò)平臺的語義環(huán)境,標引方式也滿足網(wǎng)絡(luò)平臺的要求,可以提高檢全率、檢準率。圖書館文獻資源可視化后,可供讀者用戶查詢和瀏覽。

      4 基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用應注意的問題

      在開發(fā)和利用圖書館文獻資源過程中,數(shù)據(jù)庫建設(shè)工作是基礎(chǔ)(見圖1),規(guī)范化的數(shù)據(jù)挖掘程序十分重要,可以保證文獻資源的有序排列和輸出,為讀者用戶提供系統(tǒng)化、關(guān)聯(lián)性強的檢索結(jié)果。同時,充實圖書館文獻書目數(shù)據(jù)庫與提高圖書館館員的素質(zhì)水平也是基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書館文獻資源開發(fā)利用需要解決的關(guān)鍵問題。

      圖1 圖書館文獻資源數(shù)據(jù)庫建設(shè)流程

      4.1 充實圖書館文獻書目數(shù)據(jù)庫

      文獻資源數(shù)據(jù)庫建設(shè)是開發(fā)利用文獻資源的基礎(chǔ)性工作,在文獻資源選取的過程中,一要注意全面性,盡可能地著錄完整的圖書館資源;二要注意特色性,即突出圖書館文獻資源的特征,根據(jù)圖書館文獻資源的實際情況分類[7]。總之,充實圖書館文獻書目數(shù)據(jù)庫是應用數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù)的前提,如審核通過將會進入文獻加工環(huán)節(jié),如審核未通過,則要重新構(gòu)建文獻資源體系。

      4.2 規(guī)范化數(shù)據(jù)挖掘流程

      基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書館文獻資源開發(fā)利用還要注意數(shù)據(jù)挖掘的規(guī)范化,保證數(shù)據(jù)的質(zhì)量是首要工作,要對文獻數(shù)據(jù)的字段和格式進行硬性的規(guī)范,并且要保證這種格式是持續(xù)遵循的,充分為以后的文本挖掘工作和圖書館網(wǎng)絡(luò)平臺建設(shè)打好基礎(chǔ)。從圖1可以看出,文獻標引、數(shù)據(jù)錄入與鏈接,都需要規(guī)范和監(jiān)督,如遇不合格的情況,要及時返回上一流程重新校對和驗證。圖書館必須對文獻資源的數(shù)據(jù)挖掘?qū)訉影殃P(guān),完善CNMARC和BIBFRAME的數(shù)據(jù)轉(zhuǎn)換。

      4.3 提高圖書館館員的素質(zhì)水平

      文獻資源的數(shù)據(jù)關(guān)聯(lián)和文本挖掘工作,對圖書館館員提出了更高的要求。圖書館要加強對館員的培養(yǎng),提高素質(zhì)水平,在掌握基本的圖書情報專業(yè)知識基礎(chǔ)上,具備圖書館文獻背景知識和一定的數(shù)據(jù)挖掘技術(shù),以及計算機應用知識,從而保障圖書館文獻資源的充分開發(fā)與利用,從人才角度保障圖書館文獻資源的數(shù)據(jù)關(guān)聯(lián)與文本挖掘工作。

      5 小結(jié)

      網(wǎng)絡(luò)環(huán)境和計算機信息技術(shù)的發(fā)展為圖書館文獻資源開發(fā)與利用提供了有利條件,將數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)應用到圖書館文獻資源開發(fā)利用中,能更好地發(fā)揮圖書館傳承文明的作用,突出圖書館在資源、技術(shù)、人才方面的優(yōu)勢,打造全面性、規(guī)范性、有價值的圖書館文獻資源數(shù)據(jù)庫。

      [1] 林澤斐,孟雪梅.基于關(guān)聯(lián)數(shù)據(jù)的地方文獻地名規(guī)范控制[J].圖書館雜志,2017,36(10):55-62.

      [2] 趙夷平,畢強.關(guān)聯(lián)數(shù)據(jù)在學術(shù)資源網(wǎng)相似文獻發(fā)現(xiàn)中的應用研究[J].現(xiàn)代圖書情報技術(shù),2016(3):41-49.

      [3] 黃曉斌,王堯.地方文獻與地方特色新型智庫建設(shè)[J].圖書情報知識,2016(1):35-41.

      [4] 宋玉軍,金曉英.數(shù)字時代公共圖書館地方文獻工作探析[J].圖書館理論與實踐,2014(11):77-79.

      [5] 歐石燕,胡珊,張帥.本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動的圖書館信息資源語義整合方法及其測評[J].圖書情報工作,2014,58(2):5-13.

      [6] 高紅妮.圖書館關(guān)聯(lián)數(shù)據(jù)創(chuàng)新動態(tài)組合服務(wù)模型研究[J].農(nóng)業(yè)圖書情報學刊,2018,30(9):158-160.

      [7] 劉穎.基于語義關(guān)聯(lián)的數(shù)字圖書館知識檢索系統(tǒng)研究[J].圖書館學刊,2018(6):107-110.

      Study on Development and Utilization of Library Literature Resources Based on Association Data and Text Mining Technology

      ZHANG Ying

      (Taiyuan Library, Taiyuan 030024, China)

      Association data and text mining technology provide a new method for the development and utilization of library literature resources. This article expounded the current situation of the development and utilization of library literature resources, elucidated the necessity of applying association data and text mining technology, and clarified four principles of the development and utilization of library literature resources based on association data and text mining technology, namely, the principles of persistence, focus, initiative and value. It also designed the process of development and utilization of library literature resources based on association data and text mining technology from the aspects of data source, text processing, text mining analysis and visualization processing, and proposed the problems that should be paid attention to during the construction process, in order to promote the development and utilization of library literature resources.

      association data; text mining; library; literature resources; development and utilization

      10.3969/j.issn.2095-5707.2019.04.012

      G254

      A

      2095-5707(2019)04-0048-04

      (2018-12-11)

      2018-12-28;

      張影.基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書館文獻資源開發(fā)利用研究[J].中國中醫(yī)藥圖書情報雜志,2019,43(4): 48-51.

      張影,E-mail: 30549466@qq.com

      編輯:魏民

      猜你喜歡
      關(guān)聯(lián)文獻圖書館
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      “一帶一路”遞進,關(guān)聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      圖書館
      小太陽畫報(2018年1期)2018-05-14 17:19:25
      奇趣搭配
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      飛躍圖書館
      去圖書館
      锦屏县| 延边| 分宜县| 新巴尔虎右旗| 梅州市| 莱芜市| 广东省| 唐山市| 洪江市| 八宿县| 太谷县| 乐平市| 定安县| 库尔勒市| 建平县| 夹江县| 盈江县| 称多县| 鄂温| 安国市| 新巴尔虎右旗| 辽阳市| 嘉兴市| 乡城县| 桃园县| 蒲城县| 大余县| 招远市| 阿拉善左旗| 丽江市| 绥滨县| 石楼县| 都昌县| 怀远县| 深水埗区| 滨州市| 探索| 肇源县| 同江市| 灌南县| 桂东县|