張影
摘要:數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)為圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用提供了新方法。文章闡述了圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用的現(xiàn)狀,闡明應(yīng)用數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的必要性,明確了基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用的4項(xiàng)原則,即持久性原則、重點(diǎn)性原則、主動(dòng)性原則與價(jià)值性原則。并從數(shù)據(jù)源、文本處理、文本挖掘分析、可視化處理4個(gè)方面設(shè)計(jì)了基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用的流程,提出了構(gòu)建過(guò)程中應(yīng)注意的問(wèn)題,以期推動(dòng)圖書(shū)館文獻(xiàn)資源的開(kāi)發(fā)與利用。
關(guān)鍵詞:數(shù)據(jù)關(guān)聯(lián);文本挖掘;圖書(shū)館;文獻(xiàn)資源;開(kāi)發(fā)利用
DOI: 10.3969/j.issn.2095-5707.2019.04.012
中圖分類(lèi)號(hào):G254 ? ?文獻(xiàn)標(biāo)識(shí)碼:A ? ?文章編號(hào):2095-5707(2019)04-0048-04
Abstract: Association data and text mining technology provide a new method for the development and utilization of library literature resources. This article expounded the current situation of the development and utilization of library literature resources, elucidated the necessity of applying association data and text mining technology, and clarified four principles of the development and utilization of library literature resources based on association data and text mining technology, namely, the principles of persistence, focus, initiative and value. It also designed the process of development and utilization of library literature resources based on association data and text mining technology from the aspects of data source, text processing, text mining analysis and visualization processing, and proposed the problems that should be paid attention to during the construction process, in order to promote the development and utilization of library literature resources.
Key words: association data; text mining; library; literature resources; development and utilization
圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)是一項(xiàng)復(fù)雜的系統(tǒng)性工作,圖書(shū)館文獻(xiàn)蘊(yùn)含著濃厚的歷史,具有非凡的歷史價(jià)值和科學(xué)價(jià)值,開(kāi)發(fā)利用圖書(shū)館文獻(xiàn)有利于繼承和發(fā)展中華民族文化遺產(chǎn),為圖書(shū)館文化研究提供一手資源[1]。對(duì)圖書(shū)館文獻(xiàn)資源的開(kāi)發(fā)利用,可以結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),從已有的文本中提取有價(jià)值的信息,充分發(fā)揮數(shù)據(jù)挖掘的技術(shù)優(yōu)勢(shì),從大量的圖書(shū)館文獻(xiàn)資源數(shù)據(jù)中抽取可用的知識(shí)。但是,數(shù)據(jù)關(guān)聯(lián)與文本挖掘需要處理非結(jié)構(gòu)化的文本和模糊的語(yǔ)義,涉及到多個(gè)學(xué)科和領(lǐng)域,涵蓋統(tǒng)計(jì)學(xué)、數(shù)據(jù)學(xué)、語(yǔ)義識(shí)別等技術(shù),因此,基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用研究十分具有挑戰(zhàn)性。
1 ?圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用現(xiàn)狀分析
當(dāng)前圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用工作存在諸多不足,既有服務(wù)理念上的忽視,也有保障機(jī)制上的缺失。從服務(wù)理念上來(lái)看,部分圖書(shū)館認(rèn)為圖書(shū)館文獻(xiàn)的搜集和整理并不重要,將其認(rèn)為是某一個(gè)部門(mén)的工作,在整體上缺乏統(tǒng)一協(xié)調(diào)管理,導(dǎo)致圖書(shū)館文獻(xiàn)總體館藏?cái)?shù)量少、質(zhì)量偏低。從投入上來(lái)看,因?yàn)閷?duì)圖書(shū)館文獻(xiàn)工作的不重視,使得圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用經(jīng)費(fèi)及人才短缺,不能夠及時(shí)更新文獻(xiàn),無(wú)法滿(mǎn)足讀者的閱讀需求。從圖書(shū)館文獻(xiàn)資源利用上看,部分圖書(shū)館館內(nèi)沒(méi)有專(zhuān)門(mén)的文獻(xiàn)儲(chǔ)藏空間,更談不上深度的開(kāi)發(fā)與高效利用,這些嚴(yán)重制約了圖書(shū)館文獻(xiàn)資源的服務(wù)水平[2]??梢?jiàn),圖書(shū)館對(duì)于文獻(xiàn)資源的開(kāi)發(fā)和利用十分被動(dòng),無(wú)法真正形成科學(xué)的、具有規(guī)模的服務(wù)體系,導(dǎo)致讀者對(duì)圖書(shū)館開(kāi)發(fā)利用文獻(xiàn)資源缺乏信任。因此,重塑圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用體系至關(guān)重要。
圖書(shū)館文獻(xiàn)資源往往具有較高的學(xué)術(shù)研究?jī)r(jià)值,人們通過(guò)查詢(xún)閱讀文獻(xiàn)資料,了解過(guò)去、追溯歷史、把握現(xiàn)在、展望未來(lái)。隨著社會(huì)的不斷進(jìn)步和發(fā)展,信息的發(fā)展呈爆炸式增長(zhǎng)趨勢(shì),越來(lái)越多的人開(kāi)始重視圖書(shū)館文獻(xiàn)資源,查閱圖書(shū)館資源的讀者用戶(hù)與日俱增。部分圖書(shū)館已經(jīng)意識(shí)到圖書(shū)館文獻(xiàn)資源的重要性,但由于受傳統(tǒng)的資源開(kāi)發(fā)技術(shù)制約,難以挖掘圖書(shū)館文獻(xiàn)資源的數(shù)據(jù)關(guān)聯(lián)和隱藏的規(guī)律性信息,導(dǎo)致圖書(shū)館文獻(xiàn)資源的開(kāi)發(fā)程度有限,利用率有限[3]。因此,應(yīng)用數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),可以突破資源開(kāi)發(fā)利用的技術(shù)瓶頸,通過(guò)數(shù)據(jù)挖掘等手段,能夠發(fā)現(xiàn)和抽取可用知識(shí),在相關(guān)數(shù)據(jù)間生成一定規(guī)則的鏈接,便于形成知識(shí)間的遷移,使讀者更加全面和便捷地對(duì)圖書(shū)館文獻(xiàn)資源進(jìn)行檢索,提高文獻(xiàn)資源開(kāi)發(fā)與利用的質(zhì)量。
2 ?基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用原則
圖書(shū)館在進(jìn)行圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用的過(guò)程中,既要結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘的技術(shù)優(yōu)勢(shì),又要遵循持久性原則、重點(diǎn)性原則、主動(dòng)性原則與價(jià)值性原則。
2.1 ?持久性原則
圖書(shū)館文獻(xiàn)資源的開(kāi)發(fā)利用是一項(xiàng)長(zhǎng)期的、宏觀(guān)的系統(tǒng)性工程,要保證圖書(shū)館文獻(xiàn)的繼承性,在統(tǒng)籌協(xié)調(diào)文獻(xiàn)資源開(kāi)發(fā)利用過(guò)程中,應(yīng)該始終遵循持久性原則,解決相關(guān)機(jī)構(gòu)設(shè)置和人員管理的問(wèn)題,結(jié)合數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù),充分考慮技術(shù)人才的引進(jìn),從資源構(gòu)建環(huán)節(jié)到知識(shí)輸出平臺(tái),都要符合數(shù)據(jù)開(kāi)發(fā)的標(biāo)準(zhǔn)與要求。將圖書(shū)館文獻(xiàn)資源挖掘工作作為一種常態(tài)化、持久性的工作[4],使文獻(xiàn)資源成為圖書(shū)館的名片,推動(dòng)館藏文獻(xiàn)形成規(guī)模。
2.2 ?重點(diǎn)性原則
圖書(shū)館文獻(xiàn)資源內(nèi)容豐富,涵蓋人文、社會(huì)、經(jīng)濟(jì)、民風(fēng)民俗等方方面面的內(nèi)容,并且載體多樣,有視頻、音頻、圖片、文本等,由于圖書(shū)館經(jīng)費(fèi)和人力有限,不可能事無(wú)巨細(xì)地對(duì)每一個(gè)數(shù)據(jù)都進(jìn)行挖掘,詳略不分地資源開(kāi)發(fā)只會(huì)產(chǎn)生泛而不專(zhuān)的問(wèn)題,難以突出圖書(shū)館文獻(xiàn)資源的精髓和特色。因此,在對(duì)文獻(xiàn)資源進(jìn)行數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù)處理時(shí),要遵循重點(diǎn)性原則,根據(jù)圖書(shū)館具體的情況因地制宜,優(yōu)化資源配置,有的放矢,挖掘重點(diǎn)。
2.3 ?主動(dòng)性原則
對(duì)圖書(shū)館文獻(xiàn)資源的數(shù)據(jù)關(guān)聯(lián)和文本挖掘工作具有很大的難度,一是在技術(shù)處理方面需要專(zhuān)業(yè)的人才和設(shè)備,二是需要大量全面地收集與整合文獻(xiàn)資源,三是需要社會(huì)上和相關(guān)部門(mén)的大力支持,例如經(jīng)費(fèi)支持、社會(huì)捐贈(zèng)等。在文獻(xiàn)資源開(kāi)發(fā)利用沒(méi)有得到重視的情況下,圖書(shū)館要遵循主動(dòng)性原則,主動(dòng)聯(lián)系社會(huì)團(tuán)體和相關(guān)單位,爭(zhēng)取他們的支持和幫助,推動(dòng)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用順利進(jìn)行。
2.4 ?價(jià)值性原則
價(jià)值性原則,即在進(jìn)行數(shù)據(jù)處理時(shí),關(guān)注圖書(shū)館文獻(xiàn)資源與學(xué)科研究的交叉點(diǎn),遷移其學(xué)術(shù)價(jià)值。圖書(shū)館文獻(xiàn)資源傳承著區(qū)域的文化脈絡(luò),必然與區(qū)域地理、人文和歷史學(xué)科息息相關(guān)[5]。所以,圖書(shū)館在進(jìn)行數(shù)據(jù)整理時(shí),要充分挖掘文獻(xiàn)資源的學(xué)術(shù)價(jià)值和人文價(jià)值。
3 ?基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用的流程設(shè)計(jì)
數(shù)據(jù)關(guān)聯(lián)和文本挖掘的目標(biāo)在于應(yīng)用Web技術(shù)將計(jì)算機(jī)與資源描述框架(Resource Description Framework, RDF)相關(guān)聯(lián),進(jìn)而形成數(shù)據(jù)網(wǎng)。圖書(shū)館應(yīng)該從數(shù)據(jù)源建設(shè)、文本處理、數(shù)據(jù)挖掘分析與可視化處理等層面進(jìn)行設(shè)計(jì),最終能夠?yàn)橛脩?hù)提供揭示資源和知識(shí)鏈接的整合結(jié)果,使圖書(shū)館文獻(xiàn)資源得到開(kāi)發(fā)與利用。
3.1 ?數(shù)據(jù)源
圖書(shū)館可以利用BIBFRAME(書(shū)目框架)2.0取代原有的MARC模型方式,重塑圖書(shū)館文獻(xiàn)資源數(shù)據(jù)庫(kù),強(qiáng)化資源元數(shù)據(jù)的描述,便于應(yīng)用數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù),建立更加開(kāi)放的數(shù)據(jù)關(guān)聯(lián)環(huán)境,使文獻(xiàn)資源數(shù)據(jù)庫(kù)具有一定程度的伸縮性,能夠融入語(yǔ)義網(wǎng)絡(luò)環(huán)境中,符合文獻(xiàn)資源開(kāi)發(fā)和利用的格式標(biāo)準(zhǔn)。由于文獻(xiàn)資源數(shù)據(jù),如數(shù)據(jù)庫(kù)、網(wǎng)頁(yè)、論文集、期刊及圖書(shū)等,存在多樣性和復(fù)雜性,我國(guó)不同地區(qū)、不同級(jí)別圖書(shū)館對(duì)圖書(shū)館文獻(xiàn)工作的理解和管理有所差異,造成圖書(shū)館文獻(xiàn)的交流與互通存在障礙?;跀?shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用要制訂統(tǒng)一標(biāo)準(zhǔn),以便更加全面地整合大量數(shù)據(jù)源,為數(shù)據(jù)關(guān)聯(lián)和文本挖掘提供資源基礎(chǔ)。
3.2 ?文本處理
為揭示數(shù)據(jù)源中文獻(xiàn)資源的相關(guān)性,圖書(shū)館要對(duì)其進(jìn)行文本處理,如分詞、提取數(shù)據(jù)特征等。常見(jiàn)的數(shù)據(jù)關(guān)聯(lián)方式有實(shí)體上位關(guān)聯(lián)方法,例如,將個(gè)人與組織相關(guān)聯(lián)(bf:Person, bf:Organization)、個(gè)人與家族相關(guān)聯(lián)(bf:Person, bf:Family);還有側(cè)重點(diǎn)關(guān)聯(lián)的方法,例如,將居住地和出生地相關(guān)聯(lián)(local:residence, local:birth place)[6]。通過(guò)這種有規(guī)律的文本處理,可以從復(fù)雜的數(shù)據(jù)源中,鏈接出數(shù)據(jù)間的關(guān)系,充分表達(dá)數(shù)據(jù)間的相關(guān)性。另外,圖書(shū)館還可以根據(jù)本館文獻(xiàn)資源實(shí)際情況和特征,劃分不同關(guān)聯(lián)主題,為下一步的文本挖掘分析奠定基礎(chǔ)。
3.3 ?文本挖掘分析
在基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的流程中,文本挖掘分析是核心環(huán)節(jié),是發(fā)現(xiàn)圖書(shū)館文獻(xiàn)資源知識(shí)規(guī)則的關(guān)鍵,包括文本結(jié)構(gòu)分析、文本摘要、文本分類(lèi)、關(guān)聯(lián)分析、分布分析用趨勢(shì)預(yù)測(cè)等。分析人員不需要對(duì)數(shù)據(jù)的分布做出假設(shè)性方案,也不需要按照一定的程序?qū)ζ溆?jì)算,文本挖掘技術(shù)可以自動(dòng)識(shí)別數(shù)據(jù)變量之間的關(guān)系,并提取雜亂數(shù)據(jù)間的規(guī)律。一般來(lái)說(shuō),文本挖掘分析技術(shù)會(huì)重點(diǎn)處理數(shù)據(jù)分類(lèi)、數(shù)據(jù)聚類(lèi)、數(shù)據(jù)關(guān)聯(lián)及定性4類(lèi)問(wèn)題。
3.4 ?可視化處理
將整合的文獻(xiàn)資源進(jìn)行可視化處理,是圖書(shū)館資源開(kāi)發(fā)利用的終端環(huán)節(jié),同樣也是一項(xiàng)復(fù)雜的技術(shù)性工作,要嚴(yán)格遵循數(shù)據(jù)導(dǎo)出的程序。這是數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的成果輸出環(huán)節(jié),因此對(duì)于圖書(shū)館文獻(xiàn)資源的可視化技術(shù)處理要由富有經(jīng)驗(yàn)的專(zhuān)業(yè)人員來(lái)完成。整合后的資源符合網(wǎng)絡(luò)平臺(tái)的語(yǔ)義環(huán)境,標(biāo)引方式也滿(mǎn)足網(wǎng)絡(luò)平臺(tái)的要求,可以提高檢全率、檢準(zhǔn)率。圖書(shū)館文獻(xiàn)資源可視化后,可供讀者用戶(hù)查詢(xún)和瀏覽。
4 ?基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)的圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用應(yīng)注意的問(wèn)題
在開(kāi)發(fā)和利用圖書(shū)館文獻(xiàn)資源過(guò)程中,數(shù)據(jù)庫(kù)建設(shè)工作是基礎(chǔ)(見(jiàn)圖1),規(guī)范化的數(shù)據(jù)挖掘程序十分重要,可以保證文獻(xiàn)資源的有序排列和輸出,為讀者用戶(hù)提供系統(tǒng)化、關(guān)聯(lián)性強(qiáng)的檢索結(jié)果。同時(shí),充實(shí)圖書(shū)館文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)與提高圖書(shū)館館員的素質(zhì)水平也是基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用需要解決的關(guān)鍵問(wèn)題。
4.1 ?充實(shí)圖書(shū)館文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)
文獻(xiàn)資源數(shù)據(jù)庫(kù)建設(shè)是開(kāi)發(fā)利用文獻(xiàn)資源的基礎(chǔ)性工作,在文獻(xiàn)資源選取的過(guò)程中,一要注意全面性,盡可能地著錄完整的圖書(shū)館資源;二要注意特色性,即突出圖書(shū)館文獻(xiàn)資源的特征,根據(jù)圖書(shū)館文獻(xiàn)資源的實(shí)際情況分類(lèi)[7]??傊?,充實(shí)圖書(shū)館文獻(xiàn)書(shū)目數(shù)據(jù)庫(kù)是應(yīng)用數(shù)據(jù)關(guān)聯(lián)和文本挖掘技術(shù)的前提,如審核通過(guò)將會(huì)進(jìn)入文獻(xiàn)加工環(huán)節(jié),如審核未通過(guò),則要重新構(gòu)建文獻(xiàn)資源體系。
4.2 ?規(guī)范化數(shù)據(jù)挖掘流程
基于數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用還要注意數(shù)據(jù)挖掘的規(guī)范化,保證數(shù)據(jù)的質(zhì)量是首要工作,要對(duì)文獻(xiàn)數(shù)據(jù)的字段和格式進(jìn)行硬性的規(guī)范,并且要保證這種格式是持續(xù)遵循的,充分為以后的文本挖掘工作和圖書(shū)館網(wǎng)絡(luò)平臺(tái)建設(shè)打好基礎(chǔ)。從圖1可以看出,文獻(xiàn)標(biāo)引、數(shù)據(jù)錄入與鏈接,都需要規(guī)范和監(jiān)督,如遇不合格的情況,要及時(shí)返回上一流程重新校對(duì)和驗(yàn)證。圖書(shū)館必須對(duì)文獻(xiàn)資源的數(shù)據(jù)挖掘?qū)訉影殃P(guān),完善CNMARC和BIBFRAME的數(shù)據(jù)轉(zhuǎn)換。
4.3 ?提高圖書(shū)館館員的素質(zhì)水平
文獻(xiàn)資源的數(shù)據(jù)關(guān)聯(lián)和文本挖掘工作,對(duì)圖書(shū)館館員提出了更高的要求。圖書(shū)館要加強(qiáng)對(duì)館員的培養(yǎng),提高素質(zhì)水平,在掌握基本的圖書(shū)情報(bào)專(zhuān)業(yè)知識(shí)基礎(chǔ)上,具備圖書(shū)館文獻(xiàn)背景知識(shí)和一定的數(shù)據(jù)挖掘技術(shù),以及計(jì)算機(jī)應(yīng)用知識(shí),從而保障圖書(shū)館文獻(xiàn)資源的充分開(kāi)發(fā)與利用,從人才角度保障圖書(shū)館文獻(xiàn)資源的數(shù)據(jù)關(guān)聯(lián)與文本挖掘工作。
5 ?小結(jié)
網(wǎng)絡(luò)環(huán)境和計(jì)算機(jī)信息技術(shù)的發(fā)展為圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)與利用提供了有利條件,將數(shù)據(jù)關(guān)聯(lián)與文本挖掘技術(shù)應(yīng)用到圖書(shū)館文獻(xiàn)資源開(kāi)發(fā)利用中,能更好地發(fā)揮圖書(shū)館傳承文明的作用,突出圖書(shū)館在資源、技術(shù)、人才方面的優(yōu)勢(shì),打造全面性、規(guī)范性、有價(jià)值的圖書(shū)館文獻(xiàn)資源數(shù)據(jù)庫(kù)。
參考文獻(xiàn)
[1] 林澤斐,孟雪梅.基于關(guān)聯(lián)數(shù)據(jù)的地方文獻(xiàn)地名規(guī)范控制[J].圖書(shū)館雜志,2017,36(10):55-62.
[2] 趙夷平,畢強(qiáng).關(guān)聯(lián)數(shù)據(jù)在學(xué)術(shù)資源網(wǎng)相似文獻(xiàn)發(fā)現(xiàn)中的應(yīng)用研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016(3):41-49.
[3] 黃曉斌,王堯.地方文獻(xiàn)與地方特色新型智庫(kù)建設(shè)[J].圖書(shū)情報(bào)知識(shí), 2016(1):35-41.
[4] 宋玉軍,金曉英.數(shù)字時(shí)代公共圖書(shū)館地方文獻(xiàn)工作探析[J].圖書(shū)館理論與實(shí)踐,2014(11):77-79.
[5] 歐石燕,胡珊,張帥.本體與關(guān)聯(lián)數(shù)據(jù)驅(qū)動(dòng)的圖書(shū)館信息資源語(yǔ)義整合方法及其測(cè)評(píng)[J].圖書(shū)情報(bào)工作,2014,58(2):5-13.
[6] 高紅妮.圖書(shū)館關(guān)聯(lián)數(shù)據(jù)創(chuàng)新動(dòng)態(tài)組合服務(wù)模型研究[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2018,30(9):158-160.
[7] 劉穎.基于語(yǔ)義關(guān)聯(lián)的數(shù)字圖書(shū)館知識(shí)檢索系統(tǒng)研究[J].圖書(shū)館學(xué)刊,2018(6):107-110.
(收稿日期:2018-12-11)
(修回日期:2018-12-28;編輯:魏民)
中國(guó)中醫(yī)藥圖書(shū)情報(bào)2019年4期