• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      公共文化智慧化描述信息抽取與挖掘

      2021-09-07 10:00:02王威威化柏林

      王威威,化柏林,2*

      (1.北京大學(xué)信息管理系,北京 100871;2.公共文化服務(wù)大數(shù)據(jù)應(yīng)用文化和旅游部重點實驗室,北京 100871)

      1 引言

      隨著中國社會的不斷發(fā)展,人民群眾對公共文化機構(gòu)提出了更高效便捷、更智能和更人性化的服務(wù)要求,傳統(tǒng)的服務(wù)理念和模式已經(jīng)不能適應(yīng)當(dāng)前文化需求,公共文化智慧化的需求應(yīng)運而生[1]。同時,大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、移動互聯(lián)等新型信息技術(shù)的開發(fā)應(yīng)用為公共文化機構(gòu)實現(xiàn)服務(wù)和管理智慧化提供了基礎(chǔ)[2]。公共文化智慧化是新時期滿足公眾文化需求、創(chuàng)新公共文化服務(wù)和管理模式、提升公共文化服務(wù)效能的重要手段[3,4],但是國內(nèi)不同地區(qū)之間公共文化智慧化發(fā)展還很不均衡,建設(shè)水平參差不齊[5]。

      公共文化智慧化已經(jīng)成為公共文化服務(wù)和管理模式創(chuàng)新的重要內(nèi)容之一。隨著國內(nèi)各類文化機構(gòu)智慧化建設(shè)不斷取得進展,與之相關(guān)的描述信息也以文字等形式保存并進行呈現(xiàn),典型的如新聞網(wǎng)站報道、政府網(wǎng)站信息公開和公共文化機構(gòu)官網(wǎng)等。其中公共文化機構(gòu)官網(wǎng)作為文化機構(gòu)的重要宣傳窗口,以新聞公告、資訊動態(tài)等形式記錄了大量與智慧化建設(shè)有關(guān)的描述信息,這些信息絕大多數(shù)包含在半結(jié)構(gòu)化的文本中,具有分布廣、密度低、動態(tài)性等特點。因此,本文選取省級和副省級城市的30 個公共圖書館、19 個博物館,共計49 個場館的官方網(wǎng)站為研究對象,針對官網(wǎng)中新聞動態(tài)版塊的頁面進行爬行與抽取,通過主題模型和聚類分析等方法揭示公共文化智慧化建設(shè)現(xiàn)狀,對于公共文化機構(gòu)更好地開展智慧化建設(shè)與服務(wù)具有積極意義。

      2 相關(guān)研究述評

      一般來說公共文化服務(wù)是指由公共文化機構(gòu),如圖書館、文化館、博物館等利用相應(yīng)資源,向民眾提供文化產(chǎn)品、設(shè)施和活動等服務(wù),以滿足民眾的基本文化需求。因此本文仍將研究的范圍限制在圖書館、博物館等典型公共文化機構(gòu)。

      大數(shù)據(jù)是公共文化智慧化的基礎(chǔ),人工智能為公共文化智慧化提供了技術(shù)路徑。關(guān)于公共文化智慧化理論的研究,劉煒等將大數(shù)據(jù)和公共文化服務(wù)創(chuàng)新結(jié)合起來,對公共文化大數(shù)據(jù)的來源、典型應(yīng)用以及存在的問題進行了分析[6];羅麗等整理了智慧圖書館的理論研究、實踐探索并提出構(gòu)建文獻(xiàn)元數(shù)據(jù)管理體系、構(gòu)建精細(xì)準(zhǔn)的服務(wù)機制、應(yīng)用新型技術(shù)優(yōu)化頂層設(shè)計等發(fā)展策略[7];鄭建明等從公共文化服務(wù)智慧化頂層戰(zhàn)略的角度提出了理論、技術(shù)、文化、人才、服務(wù)與治理六位一體的智慧公共文化服務(wù)發(fā)展框架,從“社會-技術(shù)交互論”的視角重新審視智慧公共文化服務(wù)中社會、技術(shù)、文化、服務(wù)與人之間的互動關(guān)系[8,9]。

      隨著時代變遷和人民群眾文化需求的發(fā)展,公共文化智慧化的需求日益凸顯出來,體現(xiàn)在智慧服務(wù)個性化需求、智慧服務(wù)泛在性需求、大數(shù)據(jù)環(huán)境下智慧服務(wù)需求3 個方面。智慧服務(wù)個性化意味著針對不同類型的用戶提供精細(xì)化的服務(wù),相比于粗放的傳統(tǒng)服務(wù)模式更有針對性和更好的用戶體驗;智慧服務(wù)泛在性指用戶可以在任何時間、任何地點獲得公共文化服務(wù);大數(shù)據(jù)在公共文化服務(wù)領(lǐng)域的作用主要體現(xiàn)在智慧型服務(wù)上,如洞察文化需求、優(yōu)化資源配置、提供精準(zhǔn)服務(wù)、豐富服務(wù)內(nèi)容、擴大服務(wù)范圍和提高服務(wù)質(zhì)量等[6,10]。

      公共文化智慧化離不開相應(yīng)服務(wù)體系的構(gòu)建。公共文化機構(gòu)包含場館建筑、硬件設(shè)施、軟件技術(shù)、館藏資源、人員等構(gòu)成要素,在智慧化需求的推動下需要實現(xiàn)各要素的優(yōu)化升級,構(gòu)建智慧化的公共文化服務(wù)體系。王淼等提出基于SaaS 架構(gòu)的智慧公共文化服務(wù)云平臺構(gòu)想,并分析了云平臺的建設(shè)需求、資源和技術(shù)選擇等[11];馬捷等從智慧服務(wù)、智慧建筑、智慧管理3 個維度對高校智慧圖書館的功能結(jié)構(gòu)進行了設(shè)計和構(gòu)建[12];洪亮等從大數(shù)據(jù)驅(qū)動的視角討論了圖書館智慧化服務(wù)體系的建構(gòu),包括基礎(chǔ)設(shè)施層、數(shù)據(jù)資源層和服務(wù)應(yīng)用層等,在大數(shù)據(jù)環(huán)境下重構(gòu)圖書館信息服務(wù)的業(yè)務(wù)流程[13]。

      信息抽取是從半結(jié)構(gòu)化、非結(jié)構(gòu)化文本中提取所含事實信息,使其更為結(jié)構(gòu)化和更易使用。隨著中國公共文化領(lǐng)域數(shù)字化與信息化不斷推進,在網(wǎng)絡(luò)上產(chǎn)生了大量包含潛在價值的文本信息,例如公共文化機構(gòu)Web 頁面中的館藏目錄、新聞動態(tài)、活動信息等。通過信息抽取技術(shù)對這類文本進行采集與處理,可以從中提取相關(guān)事實信息,并進一步分析挖掘。賈璐璐設(shè)計了基于正則表達(dá)式、爬蟲等手段的圖書館信息采集系統(tǒng),針對31 所重點高校的圖書館官網(wǎng)和國家圖書館網(wǎng)站中的書籍信息進行爬取分析[14];王曉笛等使用了基于規(guī)則的信息抽取方法,研究高校和政府網(wǎng)站新聞頁面中包含的學(xué)者非正式科學(xué)交流活動[15]。

      綜上所述,學(xué)者們圍繞公共文化智慧化的頂層設(shè)計、發(fā)展戰(zhàn)略、需求分析、服務(wù)體系等內(nèi)容進行了深入的探索。在公共文化信息抽取方面,多數(shù)是將信息抽取技術(shù)應(yīng)用于公共文化機構(gòu)服務(wù)之中,而不是用于公共文化服務(wù)現(xiàn)狀研究,例如研究信息抽取技術(shù)在圖書館信息推送服務(wù)中的作用[17]、抽取技術(shù)用于數(shù)據(jù)挖掘、情報分析、參考咨詢等[18]。相對應(yīng)的,使用爬蟲、信息抽取等技術(shù)手段針對公共文化領(lǐng)域發(fā)展總體現(xiàn)狀進行的研究較少,已有研究通過在特定區(qū)域內(nèi)開展調(diào)研了解當(dāng)?shù)毓参幕l(fā)展?fàn)顩r[19],或使用文獻(xiàn)計量法發(fā)現(xiàn)公共文化領(lǐng)域研究熱點[20],但前者用于廣泛性地研究時效率比較低,后者發(fā)現(xiàn)的研究熱點不能直接反映公共文化服務(wù)的行業(yè)發(fā)展現(xiàn)狀。因此,本文通過獲取公共圖書館、博物館官網(wǎng)信息對國內(nèi)公共文化智慧化進程展開研究,以直觀地了解國內(nèi)公共文化智慧化建設(shè)現(xiàn)狀。

      3 公共文化智慧化描述信息抽取方法

      3.1 研究設(shè)計

      公共文化智慧化描述信息的抽取分析由數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、主題建模與聚類分析3 個模塊構(gòu)成,研究流程如圖1 所示。

      圖1 研究流程框架圖Fig.1 The flowchart of study design and procedures

      數(shù)據(jù)獲取模塊通過前期調(diào)研選定省級和副省級城市的公共圖書館、博物館范圍,獲取范圍內(nèi)公共文化機構(gòu)官網(wǎng)新聞動態(tài)版塊URL。利用Python 編寫爬蟲對上述機構(gòu)網(wǎng)站的相關(guān)版塊信息進行爬取,獲得新聞動態(tài)頁面的文本內(nèi)容,將文本內(nèi)容導(dǎo)入CSV 文件;在數(shù)據(jù)預(yù)處理模塊,對爬蟲獲取的新聞動態(tài)頁面文本進行清洗與篩選,從中抽取智慧化項目、功能特點描述文本等數(shù)據(jù)項;在主題建模和聚類分析模塊,把智慧化項目描述文檔作為實驗數(shù)據(jù)分別進行LDA 主題建模和K-Means 聚類及可視化。LDA 主題模型需要預(yù)設(shè)主題數(shù)量,為了獲得最佳主題數(shù),選擇主題一致性指標(biāo)進行評價,主題一致性越高說明主題建模效果越好,此時對應(yīng)的主題數(shù)量更優(yōu)。K-Means 算法也需要預(yù)設(shè)聚類數(shù)量,將主題一致性計算得到的最佳主題數(shù)作為聚類預(yù)設(shè)數(shù)量,利用主題建模過程中所得參數(shù)對聚類分析過程進行優(yōu)化。同時選擇LDA 主題模型和K-Means算法對實驗數(shù)據(jù)進行分析處理,主要目的是實現(xiàn)方法的互補,從而更全面地了解公共文化智慧化建設(shè)現(xiàn)狀。LDA 主題模型通過對實驗數(shù)據(jù)的主題聚合可以從中分析公共文化智慧化建設(shè)主題、對智慧化需求的回應(yīng)程度、智慧化建設(shè)體系構(gòu)成等。但是由于LDA 模型是一種3 層貝葉斯概率模型,即包括“文檔-主題-詞”3層概率分布,對于某個智慧化描述文檔,其所屬的主題服從“文檔-主題”概率分布,不能單純通過LDA主題模型清晰直觀地獲得文檔所屬主題,也不能直觀地了解文檔主題的聚集程度、數(shù)量多寡等。因此除主題模型外選擇了K-Means 聚類算法并對聚類結(jié)果可視化,將相似度高的文檔聚為一類可以更清晰地反映文檔所屬類別,可視化結(jié)果則能夠體現(xiàn)不同類別的文檔數(shù)量多少、相關(guān)主題發(fā)展是否均衡。

      3.2 數(shù)據(jù)描述

      抽取和分析模塊所需實驗數(shù)據(jù)來自公共文化機構(gòu)網(wǎng)站中有關(guān)智慧化建設(shè)的描述信息,在選定公共文化機構(gòu)的范圍后,獲取網(wǎng)站內(nèi)新聞動態(tài)版塊網(wǎng)頁信息首先需要分析機構(gòu)官網(wǎng)中相應(yīng)版面網(wǎng)頁的結(jié)構(gòu),其次根據(jù)網(wǎng)站的特點設(shè)計爬蟲爬取特定版塊內(nèi)容。

      3.2.1 新聞頁面描述

      公共文化機構(gòu)的新聞動態(tài)版塊內(nèi)容屬于新聞的一種,相應(yīng)版塊內(nèi)與智慧化有關(guān)的新聞動態(tài)通常會在標(biāo)題和正文中展現(xiàn)智慧化項目(What)、機構(gòu)(Where)、功能特點(How)等要素,時間要素(When)則通常單獨列出,收集方便。

      以浙江省圖書館網(wǎng)站內(nèi)一則新聞為例,新聞標(biāo)題為“紹興圖書館自助借還系統(tǒng)正式開通”,這是一種典型的“機構(gòu)名+智慧化項目名+特征詞(如開通、上線)”的形式,發(fā)布時間、來源、點擊量等單獨列出,最后是正文內(nèi)容對智慧化項目及其功能特點進行詳細(xì)描述。

      結(jié)合新聞的一般要素和公共文化智慧化新聞動態(tài)的特點,將機構(gòu)名、智慧化項目名、時間、功能特點等作為公共文化智慧化相關(guān)新聞動態(tài)的主要構(gòu)成要素。

      3.2.2 數(shù)據(jù)獲取

      研究的實驗數(shù)據(jù)獲取通過網(wǎng)絡(luò)爬蟲完成,爬取對象為公共圖書館等機構(gòu)網(wǎng)站的新聞動態(tài)、活動資訊版塊內(nèi)容。數(shù)據(jù)爬取和分析基于Python3.6.3,爬蟲的編寫主要使用Requests、Beautifulsoup、Selenium 等Python 庫,爬取結(jié)果經(jīng)過整理后導(dǎo)出為CSV 文件。

      3.2.3 數(shù)據(jù)概況

      通過網(wǎng)絡(luò)爬蟲對49 個場館官方網(wǎng)站中新聞動態(tài)相關(guān)頁面進行爬取,場館與網(wǎng)站詳情見附錄。采集圖書館網(wǎng)頁共18 643 個,平均每個圖書館官網(wǎng)采集約621.4個新聞動態(tài)頁面;采集博物館網(wǎng)頁共5 147 個,平均每個博物館官網(wǎng)采集約270.9 個頁面,頁面數(shù)量按年份分布如圖2 所示。

      附錄 公共圖書館官網(wǎng)URL 列表(共30 個)

      圖2 新聞動態(tài)頁面數(shù)量-年份分布圖Fig.2 The statistical bar chart for the number of news web pages by year

      3.3 文本預(yù)處理

      數(shù)據(jù)獲取模塊通過網(wǎng)絡(luò)爬蟲對公共文化機構(gòu)官網(wǎng)的新聞動態(tài)頁面進行了爬取,為了便于后續(xù)模型算法的處理,需要對爬蟲所得結(jié)果進行預(yù)處理。

      3.3.1 公共文化智慧化頁面篩選

      篩選與公共文化智慧化相關(guān)的頁面共分兩步進行。初次篩選通過一系列關(guān)鍵詞完成,經(jīng)過前期調(diào)研得到與公共文化智慧化密切相關(guān)且有代表性的關(guān)鍵詞,包括“大數(shù)據(jù)”“智慧化”“智能”等,對爬取頁面的標(biāo)題和正文內(nèi)容使用正則表達(dá)式匹配上述關(guān)鍵詞;得到初步篩選結(jié)果后再排除包含關(guān)鍵詞但與智慧化無關(guān)的記錄,例如大數(shù)據(jù)相關(guān)的講座、科普活動等。經(jīng)過兩次篩選得到公共文化智慧化相關(guān)的頁面數(shù)據(jù)集,其中圖書館網(wǎng)頁179 個,博物館網(wǎng)頁74 個。

      3.3.2 信息抽取規(guī)則

      針對爬蟲采集、導(dǎo)出的網(wǎng)頁數(shù)據(jù),使用基于規(guī)則的抽取方法抽取智慧化項目名稱、功能特點。通過分析總結(jié)智慧化項目描述文本的特點,總結(jié)典型的描述模式,制定相應(yīng)的抽取規(guī)則。

      智慧化項目名稱在標(biāo)題或正文內(nèi)容中都可能出現(xiàn),在標(biāo)題中出現(xiàn)時由于標(biāo)題長度限制往往不出現(xiàn)具體的功能介紹,在正文中出現(xiàn)時可能跟隨有項目功能介紹、使用效果等。項目名稱和功能特點的描述文字大都伴隨著一定的特征詞出現(xiàn),通過統(tǒng)計分析特征詞與描述文字的模式可以涵蓋大多數(shù)抽取情景。

      最終抽取得到智慧化項目及其功能特點描述文檔分布為圖書館114 條,博物館56 條。

      3.3.3 中文分詞

      中文分詞工具選擇Python 環(huán)境下的Jieba 庫,Jieba庫是常用于中文分詞的第三方庫,支持精確模式、全模式、搜索引擎模式等分詞方式,也支持用戶自定義詞典以提升分詞效果[21]。自定義詞典通常包含領(lǐng)域相關(guān)術(shù)語、長詞,長詞即本身有意義但在分詞過程中可能被切分開的詞語,加入長詞有利于提升文本分析的效果。實驗采用的停用詞表以哈工大停用詞表為基礎(chǔ),并通過觀察分詞效果手動補充部分停用詞。

      3.4 主題建模

      主題模型是以無監(jiān)督學(xué)習(xí)的方式對文檔集的隱含語義結(jié)構(gòu)進行聚類的統(tǒng)計模型[22]。主題模型認(rèn)為文檔的生成首先是選定了若干“主題”,然后選定詞匯形成文檔。主題是文檔集合中所有詞的條件概率分布,與主題關(guān)聯(lián)性越高的詞匯對應(yīng)的條件概率越大。

      3.4.1 LDA 模型構(gòu)建

      LDA 主題模型(Latent Dirichlet Allocation,LDA)最早由DAVID M B 等在2003 年提出,被廣泛應(yīng)用于文本挖掘領(lǐng)域,可以從文檔集中提取出最能表達(dá)各個主題的關(guān)鍵詞。通過爬蟲和預(yù)處理階段獲得智慧化項目功能特點的描述文檔集合,使用LDA 模型挖掘上述文檔集中隱含的主題信息,從而分析公共文化智慧化建設(shè)情況、發(fā)展方向等。使用Python 的Gensim 框架實現(xiàn)LDA 模型的構(gòu)建和訓(xùn)練。Gensim 是一款開源的第三方Python 工具,用于從非結(jié)構(gòu)化文本中,無監(jiān)督地學(xué)習(xí)文本隱層的主題向量表達(dá),支持包括TF-IDF、LSA、LDA 和Word2vec 在內(nèi)的多種主題模型算法[23]。

      3.4.2 主題數(shù)量估計

      LDA 主題模型需要提供文檔集和主題數(shù)量,主題數(shù)量的選擇會影響主題提取的效果。本文使用主題一致性(Coherence)判斷在主題數(shù)量(num_topics)取不同值時模型的優(yōu)劣程度,一致性分?jǐn)?shù)越高代表模型聚合效果越好[24]。經(jīng)過預(yù)實驗和調(diào)研發(fā)現(xiàn)主題數(shù)量取值過小則主題內(nèi)一致性不高,取值過高則主題過于分散,因此將主題數(shù)量取值區(qū)間設(shè)置為3~10 個,圖書館、博物館模型主題一致性計算結(jié)果如圖3 所示。

      根據(jù)圖3 的結(jié)果,主題數(shù)量num_topics 取4 時主題一致性最高,說明主題模型效果更好,因此選擇num_topics=4 作為圖書館、博物館主題建模的預(yù)設(shè)主題數(shù)量。

      3.5 聚類分析

      本文采用K-Means 算法進行聚類分析。K-Means是常用的一種聚類算法,K 表示需要將文檔集劃分成簇的個數(shù),首先確定K 個初始點為每一簇的中心,將其余每個點按照離中心最近的原則劃分到每個簇中,簇的中心值隨之更新,重復(fù)劃分過程直到每一簇的中心不再改變。K-Means 聚類使用Sklearn 庫實現(xiàn),參數(shù)K 的選擇參考了主題建模的主題數(shù)量。Sklearn 是機器學(xué)習(xí)常用的第三方庫,涵蓋了回歸、降維、分類、聚類等多種方法[25]。算法優(yōu)化選取Inertias,即樣本到最近的聚類中心的距離總和的結(jié)果,Inertias 值越小說明樣本分布越集中。

      互信息(Mutual Information,MI)廣泛用于衡量兩個數(shù)據(jù)分布的吻合程度,例如計算人工標(biāo)注的真實數(shù)據(jù)分布與聚類算法預(yù)測的數(shù)據(jù)分布之間的互信息(MI),從而評價聚類效果?;诨バ畔⒎椒ǖ挠嬃恐笜?biāo)除MI 外,通常使用的有標(biāo)準(zhǔn)化互信息(Normalized Mutual Information,NMI)和調(diào)整互信息(Adjusted Mutual Information,AMI),前者取值范圍[0,1],后者取值范圍為[-1,1],NMI 和AMI 越大,代表兩組數(shù)據(jù)分布越吻合。為評估聚類結(jié)果的可靠性,從圖書館和博物館抽取結(jié)果中分別選擇30%的數(shù)據(jù)進行人工標(biāo)注,作為實驗的測試集,利用Python 的Sklearn 庫計算人工標(biāo)注與模型預(yù)測結(jié)果的NMI 和AMI,結(jié)果如圖4 所示,測試集預(yù)測結(jié)果與人工標(biāo)注結(jié)果比較吻合。

      圖4 圖書館、博物館測試集NMI 與AMIFig.4 The bar chart for normalized mutual information(NMI)and adjusted mutual information(AMI)of test sets

      4 抽取結(jié)果分析

      4.1 主題模型實驗結(jié)果分析

      公共圖書館、博物館等機構(gòu)在智慧化建設(shè)方面有其各自特點,在館藏對象、服務(wù)模式、發(fā)展方向等方面都有一定區(qū)別。針對來自不同機構(gòu)的文檔分別使用LDA 模型進行主題抽取,可以通過主題的特點比較其智慧化建設(shè)方面的差異和聯(lián)系。圖書館主題抽取結(jié)果如表2 所示,在每個主題輸出的關(guān)鍵詞中選擇權(quán)重較高的關(guān)鍵詞。

      表2 圖書館新聞動態(tài)LDA 模型抽取結(jié)果Table2 LDA model extraction results of library news web pages

      圖書館智慧化描述信息聚合得到的4 個主題,根據(jù)關(guān)鍵詞的含義不同可以歸納為:①網(wǎng)上借閱;②智能化設(shè)備;③自助借還設(shè)施;④個性化服務(wù)。從公共文化智慧化需求的角度分析,表2 的抽取結(jié)果可以反映智慧服務(wù)的個性化需求、泛在性需求和大數(shù)據(jù)環(huán)境下開展智慧服務(wù)的需求:讀者的個性化需求構(gòu)成了圖書館從資源共享服務(wù)到面向用戶服務(wù)的發(fā)展動力[26],圖書館根據(jù)讀者的特點、需求不同進行個性化推送和服務(wù)可以更好地體現(xiàn)“以用戶為中心”的理念;移動互聯(lián)網(wǎng)、移動終端設(shè)備的普及豐富了民眾獲取公共文化服務(wù)的渠道和方式。圖書驛站、總分館制度、自助設(shè)施等構(gòu)成的智慧流通模式,讓圖書在總館和分館之間、圖書館和驛站之間高效流通,實現(xiàn)網(wǎng)上借閱需求和線下圖書投遞的精準(zhǔn)對接,讓讀者快速、就近獲取所需資源;大數(shù)據(jù)環(huán)境下人工智能、機器人館員不斷發(fā)展,為讀者提供更智能化的服務(wù)。

      從公共文化智慧化服務(wù)體系的角度來看,表2 可用于分析圖書館智慧化建設(shè)過程中不同維度的功能結(jié)構(gòu):①智慧資源,可分為館藏資源和業(yè)務(wù)數(shù)據(jù)兩類,前者包括圖書館數(shù)字館藏、知識庫等,后者主要指圖書館日常服務(wù)和運行產(chǎn)生的數(shù)據(jù)。圖書館通過建設(shè)和管理這些數(shù)字資源,可以為數(shù)據(jù)挖掘、用戶個性化推薦、圖書館智慧空間建設(shè)打下基礎(chǔ);②智慧流通,通過網(wǎng)上借閱平臺、總分館體系、書店或驛站服務(wù)點等結(jié)合的方式實現(xiàn)圖書的高效流通,創(chuàng)新圖書采購和借還流程,使讀者借閱體驗更加便捷高效;③智慧用戶服務(wù),利用機器人等智能終端設(shè)備為讀者提供問答咨詢服務(wù),以及基于用戶數(shù)據(jù)分析的精準(zhǔn)推送和個性化服務(wù);④智慧管理,通過智能終端設(shè)備實時監(jiān)控場館的環(huán)境因素如溫度、濕度、光照以及場館運行數(shù)據(jù)如人流量,智能調(diào)節(jié)場館相關(guān)設(shè)施的運轉(zhuǎn)狀態(tài),實現(xiàn)智能高效的智慧空間管理。

      博物館主題抽取得到4 個主題,其中兩個主題的關(guān)鍵詞相似度較高,因此進行了合并處理,結(jié)果如表3所示。

      表3 博物館新聞動態(tài)LDA 模型抽取結(jié)果Table3 LDA model extraction results of museum news web pages

      表3 的結(jié)果比較符合智慧博物館發(fā)展的3 個方面即智慧服務(wù)、智慧管理、智慧保護[27]:①智慧服務(wù),即針對公眾服務(wù)需求,利用數(shù)字化技術(shù)和信息網(wǎng)絡(luò)技術(shù),將靜態(tài)博物館資源動態(tài)化,對隱形歷史文化資源還原,以多維展現(xiàn)互動形式、新型知識組織方式、多渠道信息實時推送、文創(chuàng)產(chǎn)品制造分享,實現(xiàn)公眾與藏品的高度交互融合。在展覽和觀眾體驗方面,博物館采用虛擬現(xiàn)實、增強現(xiàn)實、多媒體交互等手段為觀眾提供沉浸式、多樣化的參觀體驗。②智慧管理,一方面是對藏品信息、數(shù)字資源的統(tǒng)一管理,另一方面是通過實時流量監(jiān)測、觀眾行為采集等手段為博物館觀眾管理工作提供支撐。③智慧保護,主要依靠智能感知技術(shù)、無損檢測技術(shù)等手段實時監(jiān)測文物保存環(huán)境,做到異常情況及時預(yù)警,有的配備了環(huán)境調(diào)控設(shè)備,實現(xiàn)完整的“監(jiān)測-評估-預(yù)警-調(diào)控”預(yù)防性保護流程。

      結(jié)合圖書館與博物館智慧化主題,可以發(fā)現(xiàn)兩類機構(gòu)在智慧化建設(shè)方面存在一些共同點,同時也揭示了各自的獨特之處。兩類機構(gòu)的共同點在于:①需求導(dǎo)向,在社會層面民眾需要差異化、精準(zhǔn)高效的智慧化公共文化服務(wù),圖書館和博物館通過不斷創(chuàng)新服務(wù)模式,例如個性化推薦、讀者薦購、圖書智慧流通、藏品多媒體交互等應(yīng)對不斷發(fā)展的智慧化需求;②以用戶中心的發(fā)展理念,重視用戶在公共文化服務(wù)和管理中的地位,通過改變傳統(tǒng)服務(wù)流程和服務(wù)手段,以及結(jié)合新技術(shù)提供嶄新的服務(wù)模式從而更好地滿足用戶個性化、差異化的文化需求;③智慧資源建設(shè),主要包括兩大類即館藏資源建設(shè)、業(yè)務(wù)及用戶數(shù)據(jù)收集,前者通過數(shù)字化技術(shù)、移動網(wǎng)絡(luò)、多媒體互動等供用戶借閱參觀,帶來更加便捷和多樣化的用戶體驗,后者則可以成為場館運營決策的依據(jù)以及用戶個性化推薦、差異化服務(wù)的基礎(chǔ);④技術(shù)敏感度高,圖書館、博物館的智慧化離不開云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)手段[28],通過物聯(lián)網(wǎng)技術(shù)建立設(shè)備與人員之間的實時信息交互,通過移動網(wǎng)絡(luò)滿足智慧化服務(wù)泛在性需求,利用大數(shù)據(jù)和云計算技術(shù)實現(xiàn)及時、高效、準(zhǔn)確的數(shù)據(jù)分析處理功能,共同促進公共文化服務(wù)和管理智慧化。

      圖書館、博物館在功能、館藏等多個方面都有各自的特點,因此在智慧化建設(shè)中反映出的主題也有所區(qū)別:①用戶和館藏的關(guān)系。圖書館主題反映出的主要是讀者通過線上平臺、社區(qū)投遞、分館和圖書驛站等服務(wù)模式獲取館藏圖書,博物館主題則著重觀眾與藏品的多媒體、交互式體驗;②智慧流通方面的主題基本屬于圖書館而非博物館;③博物館注重館藏保護而圖書館主題不能體現(xiàn)這一點。總的來說圖書館主題更注重“獲取”與“流通”,博物館主題更注重“交互”與“保護”。

      4.2 K-Means 聚類可視化

      使用K-Means 算法對圖書館、博物館文檔集合進行聚類,聚類的可視化使用了Matplotlib 庫和T-SNE算法。圖書館數(shù)據(jù)聚類結(jié)果的可視化如圖5 所示。根據(jù)不同聚類標(biāo)簽下文檔的關(guān)鍵詞加權(quán)結(jié)果和表2 主題建模所得各個主題下的關(guān)鍵詞匹配程度,為每一類選擇最符合的主題。

      圖5 K-Means 聚類結(jié)果可視化(圖書館)Fig.5 K-Means clustering results of libraries

      圖書館智慧化描述文檔的聚類結(jié)果可視化顯示自助借還設(shè)施、智能設(shè)備相關(guān)的文檔較多,個性化推薦和網(wǎng)上借閱相關(guān)文檔的數(shù)量明顯較少。這說明現(xiàn)有的數(shù)據(jù)和抽取條件下,圖書館智慧化在自助借還設(shè)施、智能設(shè)備方面建設(shè)成果較多、受重視程度更高,而在個性化推薦、網(wǎng)上借閱方面建設(shè)不足。

      結(jié)合表3 主題合并的情況,將博物館聚類數(shù)預(yù)設(shè)為3。與圖書館聚類同理,根據(jù)不同聚類標(biāo)簽下文檔的關(guān)鍵詞加權(quán)結(jié)果和表3 主題建模所得各個主題下的關(guān)鍵詞匹配程度,為每一類結(jié)果選擇最符合的主題,可視化效果如圖6 所示。

      圖6 K-Means 聚類結(jié)果可視化(博物館)Fig.6 K-Means clustering results of museums

      針對博物館的聚類及可視化將描述文檔聚為3 類,聚類結(jié)果的可視化顯示不同類內(nèi)部聚集程度較好,類之間區(qū)分比較明顯且文檔數(shù)量基本均衡??梢暬Y(jié)果說明在現(xiàn)有爬蟲結(jié)果和篩選規(guī)則下,博物館智慧化建設(shè)基本分為齊頭并進的3 個方面,即智慧保護、智慧管理、數(shù)字化交互,與文獻(xiàn)資料對智慧博物館智慧服務(wù)、智慧保護、智慧管理三大功能的表述基本一致[27]。

      5 結(jié)論與展望

      經(jīng)過對國內(nèi)公共文化智慧化描述信息的抽取研究發(fā)現(xiàn),圖書館和博物館數(shù)據(jù)的主題建模結(jié)果反映出一些共同點和各自特點。兩類機構(gòu)的共同點在于:①需求導(dǎo)向的功能主題;②以用戶中心的發(fā)展理念;③智慧資源建設(shè);④技術(shù)敏感度高。各自區(qū)別主要體現(xiàn)在:①用戶和館藏的關(guān)系。圖書館主題反映出的主要是讀者通過線上平臺、社區(qū)投遞、分館和圖書驛站等服務(wù)模式獲取館藏圖書,博物館主題則著重觀眾與藏品的多媒體、交互式體驗;②智慧流通主題基本屬于圖書館而非博物館,這是兩類機構(gòu)最顯著的區(qū)別;③博物館注重館藏保護而圖書館主題不能體現(xiàn)這一點??偟膩碚f圖書館主題更注重“獲取”與“流通”,博物館主題更注重“交互”與“保護”。針對圖書館、博物館智慧化描述文檔進行K-Means 聚類和可視化發(fā)現(xiàn),博物館智慧化建設(shè)的各個方向較為均衡;而圖書館智慧化在自助借還設(shè)施、智能設(shè)備方面建設(shè)成果較多、受重視程度更高,而在個性化推薦、網(wǎng)上借閱方面建設(shè)不足。因此,圖書館應(yīng)在個性化服務(wù)、網(wǎng)上借閱及其代表的智慧用戶服務(wù)、智慧資源、智慧流通等方面加大研究和資金投入,從而更好地滿足智慧服務(wù)個性化、泛在性以及大數(shù)據(jù)環(huán)境下信息采集和處理能力的需求。

      博物館官網(wǎng)URL 列表(共19 個)

      嘉禾县| 张掖市| 商城县| 攀枝花市| 安新县| 黔西| 中西区| 杭锦旗| 屏南县| 广汉市| 普格县| 新晃| 格尔木市| 舟曲县| 霍城县| 洛浦县| 台南市| 三河市| 军事| 阿克苏市| 西安市| 梧州市| 曲沃县| 延川县| 双流县| 民权县| 门头沟区| 榕江县| 克什克腾旗| 新巴尔虎左旗| 阿拉善盟| 白水县| 霸州市| 即墨市| 手游| 海南省| 上高县| 财经| 洪雅县| 旬邑县| 珲春市|