王海川
(河北工程大學(xué),河北 邯鄲 056038)
在信息化的時(shí)代,社交網(wǎng)絡(luò)的飛速發(fā)展給人們的生活與學(xué)習(xí)帶來(lái)了深刻影響,人們?cè)谏硖幀F(xiàn)實(shí)世界的同時(shí),普遍熱衷于在虛擬世界尋求“身體在場(chǎng)”與“精神在場(chǎng)”的空間秩序的體驗(yàn),虛擬的社交網(wǎng)絡(luò)是對(duì)現(xiàn)實(shí)世界的投射,又不可避免地對(duì)現(xiàn)實(shí)世界產(chǎn)生影響。因此,各行業(yè)特別是服務(wù)行業(yè)非常重視用戶在社交網(wǎng)絡(luò)中的相關(guān)評(píng)價(jià)。圖書館從本質(zhì)上來(lái)說(shuō)也是一類服務(wù)行業(yè),其服務(wù)品質(zhì)的優(yōu)劣直接影響到讀者對(duì)于知識(shí)的獲取、內(nèi)化的水平。2020年,一場(chǎng)席卷全世界范圍的新型冠狀病毒肺炎疫情至今沒(méi)有停息,該種病毒極具傳染性,這一特性甚至重塑了人們?cè)诰€下公共場(chǎng)所活動(dòng)的規(guī)則與秩序,產(chǎn)生了深遠(yuǎn)的現(xiàn)實(shí)影響。在這一背景下,圖書館應(yīng)當(dāng)給予線上用戶評(píng)價(jià)同樣的重視,即應(yīng)當(dāng)對(duì)網(wǎng)絡(luò)用戶相關(guān)評(píng)價(jià)進(jìn)行監(jiān)測(cè)。
圖書館的網(wǎng)絡(luò)監(jiān)測(cè)分為兩個(gè)部分,即公眾形象感知和突發(fā)事件監(jiān)測(cè)。前者代表用戶的日常評(píng)價(jià)所形成的圖書館認(rèn)知體系,后者代表了圖書館在突發(fā)事件時(shí)在網(wǎng)絡(luò)中的檢測(cè)、預(yù)警和化解的能力。這是圖書館輿情監(jiān)控系統(tǒng)的兩個(gè)重要組成部分。
對(duì)于前者,陽(yáng)玉堃在社交文本海量采集的基礎(chǔ)上,從基礎(chǔ)設(shè)施、館員服務(wù)、機(jī)構(gòu)管理、館藏文獻(xiàn)等方面對(duì)文本進(jìn)行剖析,并結(jié)合了關(guān)鍵詞、高頻詞、語(yǔ)義網(wǎng)絡(luò)等技術(shù),將對(duì)于圖書館不同方面的印象進(jìn)行了可視化的展示,這為讀者感知研究提供了新的途徑[1]。
對(duì)于圖書館的突發(fā)事件,張偉認(rèn)為應(yīng)當(dāng)建立輿情信息預(yù)警平臺(tái),要主動(dòng)收集,分析涉及圖書館公共安全方面的信息,對(duì)于危機(jī)事件要能夠及時(shí)了解,分析和預(yù)警,以保證館舍的安全[2]。但是該文對(duì)于系統(tǒng)架構(gòu)技術(shù)論述較少。馬益勇則認(rèn)為應(yīng)當(dāng)設(shè)立圖書館輿情崗位,建立圖書館館外合作機(jī)制,并且做好輿情監(jiān)測(cè)的統(tǒng)籌角色,集思廣益,提高圖書館在各個(gè)領(lǐng)域的角色價(jià)值。
總體來(lái)看,對(duì)于圖書館輿情監(jiān)測(cè)方面的研究還較少,且未結(jié)合疫情這一新的背景形勢(shì)。因此,筆者的選題具有一定的現(xiàn)實(shí)與研究?jī)r(jià)值。
首先是圖書館在決策層面上需要給予足夠的重視,要充分認(rèn)識(shí)到疫情情況下,任何公共事件的發(fā)生都具有更大的危險(xiǎn)性,不僅會(huì)影響到正常的工作秩序,更會(huì)在網(wǎng)絡(luò)上引發(fā)較大的事件漲落,因此如何處理、如何防范、如何善后,這是新問(wèn)題帶來(lái)的新挑戰(zhàn)。
疫情的流行改變了人們?cè)趫D書館等公共場(chǎng)所的活動(dòng)規(guī)則,即在正常情況下可以開(kāi)展的閱讀推廣、講座、會(huì)議等必須改為在線上進(jìn)行,這意味著會(huì)后更多的圖書館用戶也會(huì)傾向于在網(wǎng)絡(luò)中針對(duì)圖書館的服務(wù)、管理、館藏文獻(xiàn)水平以及館舍硬件好壞發(fā)表感想,進(jìn)行討論,同時(shí)對(duì)圖書館在線服務(wù)水平進(jìn)行評(píng)價(jià),這會(huì)使得相關(guān)的關(guān)鍵詞大幅增加。
在疫情期間,由于人們的心理狀態(tài)處于相對(duì)敏感時(shí)期,各項(xiàng)線下防疫措施較為嚴(yán)格,各項(xiàng)活動(dòng)安排會(huì)受防疫工作影響,因此相應(yīng)的,在圖書館這類公共區(qū)域,突發(fā)事件的發(fā)生概率也會(huì)較高。那么就意味著,在社交網(wǎng)絡(luò)中,相關(guān)事件漲落發(fā)生的概率也較大。事實(shí)上,即使在平時(shí),圖書館相關(guān)的網(wǎng)絡(luò)熱點(diǎn)事件也是存在的。例如在2018年12月份,安徽某學(xué)院的一位學(xué)生在圖書館大廳背書,因?yàn)槁曇糨^大而與管理員發(fā)生口角,并進(jìn)而發(fā)展為摔杯子事件。這一事件在社交網(wǎng)絡(luò)上被持續(xù)關(guān)注,評(píng)論數(shù)為6 193,轉(zhuǎn)發(fā)數(shù)為2 300,點(diǎn)贊數(shù)為7 600。這在圖書館的相關(guān)事件中的關(guān)注度是較高的。又如2019年山東某大學(xué)的兩名同學(xué)在圖書館因爭(zhēng)搶座位而打架,最終被學(xué)校處以警告處分,并被圖書館列入讀者黑名單。這一事件在微博上引起軒然大波,至今閱讀量已達(dá)206萬(wàn),評(píng)論及轉(zhuǎn)發(fā)也達(dá)5 000余次。這是圖書館輿情分析的重要資源。那么在疫情期間,可以推知的是,在社交網(wǎng)絡(luò)中,這類圖書館公共事件勢(shì)必會(huì)與疫情因素相互疊加,產(chǎn)生更大的影響力和傳播力。這是圖書館工作需要特別關(guān)注的。
在技術(shù)的應(yīng)用上,疫情背景下的輿情監(jiān)測(cè),需要圖書館加強(qiáng)對(duì)包含特定關(guān)鍵詞數(shù)據(jù)的探測(cè),及時(shí)掌握用戶情緒動(dòng)向,特別是要警惕謠言的產(chǎn)生與辨別,平臺(tái)要具有發(fā)現(xiàn),分析研判,上報(bào)甚至報(bào)警功能,這也是疫情背景下對(duì)輿情工作提出的挑戰(zhàn)。
在疫情背景下,社交網(wǎng)絡(luò)中的相關(guān)數(shù)據(jù)量激增,而且在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi)必將持續(xù)產(chǎn)生大量相關(guān)文本,這對(duì)系統(tǒng)可靠度提出了更高的要求。事實(shí)上,在疫情常態(tài)化的實(shí)際情況下,如何增強(qiáng)冗余性,保證疫情監(jiān)控平臺(tái)的長(zhǎng)期,不間斷的運(yùn)行,這是對(duì)圖書館輿情監(jiān)測(cè)提出的又一項(xiàng)挑戰(zhàn)。
輿情平臺(tái)的基本架構(gòu)涉及數(shù)據(jù)采集、模型訓(xùn)練、數(shù)據(jù)處理、結(jié)果輸出等多個(gè)環(huán)節(jié),需要利用爬蟲、分類器、模型訓(xùn)練等多種技術(shù)。
爬蟲是輿情檢測(cè)系統(tǒng)的前端模塊,它的主要作用是模擬瀏覽器向特定的網(wǎng)站HTTP發(fā)送網(wǎng)絡(luò)請(qǐng)求Request,接受請(qǐng)求響應(yīng),按照一定的規(guī)則,自動(dòng)的抓去網(wǎng)站信息上并獲取數(shù)據(jù)到本地。這是一種代替人工的自動(dòng)化模塊。按照不同的類型,爬蟲可以分為通用爬蟲、聚焦爬蟲、功能性爬蟲、數(shù)據(jù)增量爬蟲等。一個(gè)完善的爬蟲模塊應(yīng)當(dāng)是框架結(jié)構(gòu)合理,獲取技術(shù)優(yōu)良,高度優(yōu)化的代碼,容易管理和維護(hù)。在通常的輿情檢測(cè)系統(tǒng)中,爬蟲的運(yùn)行是以周、月來(lái)計(jì)算的,數(shù)據(jù)量非常大,優(yōu)秀的爬蟲設(shè)計(jì)能夠保證系統(tǒng)在這一過(guò)程中少犯錯(cuò)誤。同時(shí),爬蟲在實(shí)現(xiàn)數(shù)據(jù)采全的基礎(chǔ)上,要做到較少的占用資源。對(duì)于爬蟲來(lái)說(shuō),主要的判斷標(biāo)準(zhǔn)有:獲取時(shí)間、請(qǐng)求解析時(shí)間、腳本支持、CPU占用等。此外,長(zhǎng)時(shí)間運(yùn)行的爬蟲還應(yīng)當(dāng)保證不會(huì)出現(xiàn)內(nèi)存泄漏。目前一些網(wǎng)站安裝有反扒策略,例如,網(wǎng)站后臺(tái)會(huì)監(jiān)控來(lái)自同一IP地址的大量訪問(wèn),或者要求必須要有訪問(wèn)賬號(hào),或者是不定時(shí)彈出驗(yàn)證碼識(shí)別等。而爬蟲要能夠模仿人類操作,采取聯(lián)合爬取,自動(dòng)注冊(cè)賬號(hào),模擬User-Agent,訪問(wèn)時(shí)帶cookie等。
數(shù)據(jù)分析模塊集中了一系列數(shù)據(jù)預(yù)處理、數(shù)據(jù)分類、主題抽取等技術(shù)。在預(yù)處理功能中,包括分詞,移除微博文本中的網(wǎng)絡(luò)符號(hào)、超鏈接、亂碼、停用詞、重復(fù)數(shù)據(jù)清除、非漢語(yǔ)清除、大小寫轉(zhuǎn)化等,總之就是清除所有的不規(guī)范數(shù)據(jù),將主要文本的微博數(shù)據(jù)轉(zhuǎn)換為規(guī)范數(shù)據(jù),減少數(shù)據(jù)噪聲,得到質(zhì)量更好的數(shù)據(jù)。目前Python語(yǔ)言的一些庫(kù),如Jieba、Numpy等被用來(lái)實(shí)現(xiàn)上述功能。
接下來(lái)是文本特征提取,這是監(jiān)測(cè)系統(tǒng)中對(duì)文本重點(diǎn)詞匯進(jìn)行分析的環(huán)節(jié),是用來(lái)區(qū)分。最常用的有TF-IDF,其基本思想是在一段文本中出現(xiàn)多次的單詞,再另一個(gè)同類文本中也會(huì)出現(xiàn)多次,反之,一個(gè)單詞很少在一個(gè)文本中出現(xiàn),那么其在同類文本中也很少會(huì)出現(xiàn),這就能夠衡量出該詞的特征區(qū)別度,即字詞的重要性隨著它在文本中出現(xiàn)的次數(shù)呈正比增加,但隨著該詞在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。這一算法被廣泛地應(yīng)用在了各類檢索模型。
另一個(gè)常用算法是信息增益(IG),其基本思想是衡量該詞能夠?yàn)橄到y(tǒng)帶來(lái)多少信息,帶來(lái)的信息越多,該特征就越重要。即信息熵的改變程度。此外,還有獨(dú)熱編碼,互信息等算法可供選擇。
分類模型的構(gòu)建是輿情監(jiān)測(cè)系統(tǒng)的核心。也是學(xué)者研究較多的方面,在機(jī)器學(xué)習(xí)的時(shí)代,貝葉斯、向量積、決策樹(shù)、集成學(xué)習(xí)、邏輯回歸等都能完成這一任務(wù),其中,貝葉斯算法較為簡(jiǎn)單和經(jīng)典。它認(rèn)為,在文本中,兩個(gè)詞之間的關(guān)系是相互的,一個(gè)對(duì)象的特征向量中每個(gè)維度都是相互獨(dú)立的。在訓(xùn)練階段,貝葉斯程序能夠從詞袋中收集信息,學(xué)習(xí)每一種兩兩詞組合的后驗(yàn)概率,通過(guò)比較概率的大小來(lái)得到文本所屬的類別。一般來(lái)說(shuō),對(duì)于社交文本的文本分類來(lái)說(shuō),上述算法是能夠完成任務(wù)的,但是目前,神經(jīng)網(wǎng)絡(luò)算法正被得到廣泛的應(yīng)用,這類算法模擬人腦工作的原理,構(gòu)建出很多個(gè)神經(jīng)元,其本身具有輸入層、隱藏層和輸出層,之間的計(jì)算辦法就是加權(quán)求和激活,即Sigmoid函數(shù)。以TextCNN為例,這些算法能夠?qū)⑽谋窘馕鰹榫仃?,就是將?xùn)練集的文本特征向量化輸入,在經(jīng)過(guò)連接點(diǎn)權(quán)重傳入下一層,這一層的輸出是下一層的輸入。自然語(yǔ)言是一維數(shù)據(jù),向量化進(jìn)入卷積層后與卷積核做一個(gè)point wise的乘法后求和,然后是卷積。接下來(lái),算法掃描向下滑動(dòng),持續(xù)輸入,持續(xù)做point wise乘法后求和,然后是池化層,以降低參數(shù)的數(shù)目。最后由softmax函數(shù)做分類。這是一個(gè)基本的流程。神經(jīng)網(wǎng)絡(luò)算法的優(yōu)點(diǎn)在于是具有較強(qiáng)的非線性映射能力,實(shí)現(xiàn)了從輸入到輸出的映射功能。此外,神經(jīng)網(wǎng)絡(luò)還具有一定的泛化能力,對(duì)于新的或者帶有噪聲的數(shù)據(jù)也能有較好的分類能力。
目前,神經(jīng)網(wǎng)絡(luò)算法發(fā)展出了遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等,并且自注意力機(jī)制等也逐漸被加入進(jìn)來(lái),算法機(jī)制逐步成熟。因此,神經(jīng)網(wǎng)絡(luò)算法模塊是數(shù)據(jù)解析模塊的首選算法。
在一個(gè)成熟的監(jiān)控系統(tǒng)中,目標(biāo)文本應(yīng)當(dāng)能夠被按照各種口徑進(jìn)行劃分,比如某個(gè)事件段的情感比例、情感數(shù)量、高頻詞匯、關(guān)鍵詞語(yǔ)義網(wǎng)絡(luò)、文本主題分類、用戶行為分析等,并且能夠可視化的輸出時(shí)序圖、分類圖等,以供使用者參考和決策輔助之用。
數(shù)據(jù)庫(kù)的作用是用來(lái)存儲(chǔ)爬蟲所收集的數(shù)據(jù)字段內(nèi)容,對(duì)于社交網(wǎng)絡(luò)文本,往往包括了發(fā)布者、文本內(nèi)容、發(fā)布時(shí)間、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù),評(píng)論數(shù)和評(píng)論文本、發(fā)布用戶等字段,以被調(diào)用和存儲(chǔ)分類結(jié)果。
新冠肺炎疫情是圖書館在發(fā)展中面臨的新課題,綜合以上所述,圖書館輿情監(jiān)測(cè)工作應(yīng)當(dāng)從管理和技術(shù)兩個(gè)方面進(jìn)行改進(jìn)。
圖書館是社會(huì)、學(xué)校中理所當(dāng)然的公共場(chǎng)所,并且閱讀活動(dòng)具有一定的私人性質(zhì),小規(guī)模聚集,討論是應(yīng)有之義。那么在此時(shí)的輿情監(jiān)測(cè)方面,①應(yīng)當(dāng)成立專門的管理小組,專人負(fù)責(zé),集中利用系統(tǒng)定制收集讀者對(duì)于圖書館文獻(xiàn)服務(wù)、館舍布局、疫情防控措施等方面的意見(jiàn)建議。②要注意疫情期間輿情信息的公開(kāi)透明,對(duì)內(nèi)部應(yīng)當(dāng)充分共享,以利于合作防控,對(duì)于外部要及時(shí)生成輿情期間的輿情監(jiān)測(cè)報(bào)告,下情上達(dá)。要特別關(guān)注開(kāi)學(xué)、學(xué)期末期、學(xué)生畢業(yè)等關(guān)鍵節(jié)點(diǎn)的輿情監(jiān)測(cè)工作,發(fā)揮系統(tǒng)的技術(shù)優(yōu)勢(shì)。同時(shí)要做好基于疫情報(bào)告的引導(dǎo)工作,及時(shí)發(fā)現(xiàn)問(wèn)題,制定措施,解決問(wèn)題。注意信息的對(duì)外及時(shí)公布,避免引起恐慌。
目前,基于神經(jīng)網(wǎng)絡(luò)算法的分類器技術(shù)發(fā)展迅速,BERT,Transformer,self-attention等技術(shù)的加入使得分類的準(zhǔn)確度更高,運(yùn)行速度更快,系統(tǒng)學(xué)習(xí)率更高,因此應(yīng)當(dāng)采用最新技術(shù)來(lái)提高系統(tǒng)性能。
在疫情背景下,輿情分析系統(tǒng)應(yīng)當(dāng)能夠有重點(diǎn)的實(shí)施日常和突發(fā)事件中的監(jiān)控行為。①語(yǔ)義分析,即需要分析“疫情”“新冠”等特定關(guān)鍵詞所聯(lián)系較多的詞匯有哪些,這些詞匯那些與圖書館由關(guān)聯(lián),那些直接指向圖書館的服務(wù),應(yīng)當(dāng)被明確。②情感分析。文本的情感分析是輿情分析中重要的一個(gè)方面,如前所述,疫情期間用戶的情緒與平時(shí)相比較為敏感,因此輿情系統(tǒng)應(yīng)當(dāng)感知到日常閱讀活動(dòng)中讀者的情緒有哪些是消極的,那些是積極的,而這些積極與消極的情緒所指向的圖書館服務(wù)的那些方面也應(yīng)當(dāng)明確。③目前,國(guó)內(nèi)的疫情已經(jīng)持續(xù)一段時(shí)間了,在這期間,關(guān)于疫情的關(guān)鍵詞在不斷地變化,死亡率、感染率、無(wú)癥狀、環(huán)境等詞匯,系統(tǒng)應(yīng)當(dāng)增加基于這些關(guān)鍵詞的疫情態(tài)勢(shì)圖,同時(shí)應(yīng)當(dāng)注意與圖書館、閱讀等詞匯共線的文本都是哪些,并展開(kāi)深入研究。
內(nèi)蒙古科技與經(jīng)濟(jì)2022年1期