摘 ?要文本分類(lèi)是圖書(shū)館領(lǐng)域的重要研究方向之一?;谏疃葘W(xué)習(xí)方法對(duì)用戶生成的內(nèi)容進(jìn)行分類(lèi)有助于圖書(shū)館更精準(zhǔn)的了解用戶行為并評(píng)估圖書(shū)館服務(wù)質(zhì)量。通過(guò)對(duì)圖書(shū)館領(lǐng)域和使用圖書(shū)館數(shù)據(jù)的計(jì)算機(jī)科學(xué)領(lǐng)域使用深度學(xué)習(xí)方法進(jìn)行文本分類(lèi)的研究進(jìn)行批判性審查,調(diào)查圖書(shū)館領(lǐng)域使用深度學(xué)習(xí)方法進(jìn)行文本分類(lèi)的研究現(xiàn)狀,為未來(lái)研究提出建議。研究結(jié)果表明,目前的研究主要集中在文本特征分類(lèi)、文本情感分類(lèi)和文本評(píng)級(jí)分類(lèi)上。大多數(shù)研究仍采用傳統(tǒng)的深度學(xué)習(xí)方法如前饋神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。近年來(lái)在計(jì)算機(jī)科學(xué)領(lǐng)域提出的具有更好分類(lèi)性能的深度學(xué)習(xí)算法尚未引入圖書(shū)館領(lǐng)域。研究建議引入深度學(xué)習(xí)算法的方法框架、構(gòu)建和開(kāi)發(fā)更深層次的算法、明晰文本分類(lèi)的詳細(xì)步驟、明確數(shù)據(jù)標(biāo)注規(guī)范和標(biāo)注步驟并積極使用結(jié)合各自優(yōu)勢(shì)的多模型分類(lèi)方法。
關(guān)鍵詞圖書(shū)館;文本分類(lèi);深度學(xué)習(xí);批判性反思
分類(lèi)號(hào)G251.2
A Review of Research on the Application of Deep Learning in Library Text Classification
Sun Zhuli
AbsrtactText categorization is a major research direction in the field of library. Classifying user-generated content based on deep learning methods can help libraries understand user behavior more accurately and evaluate the quality of library services. This paper makes recommendations for future research by investigating and critically reviewing research on the use of deep learning methods for text classification in the library field and in the computer science field using library data.?The results show that the current research mainly focuses on text feature classification, text sentiment classification and text rating classification.?Most research still uses traditional deep learning methods such as feedforward neural networks and artificial neural networks.?Deep learning algorithms with better classification performance in computer science have not been introduced to the library domain. The study recommends introducing a methodological framework for deep learning algorithms, building and developing deeper algorithms, clarifying detailed steps for text classification, specifying data annotation specifications and annotation steps, and actively using multi-model classification methods that combine their respective strengths.
KeywordsLibrary.?Text classification.?Deep learning.?Critical reflection.
0 引言
通過(guò)對(duì)用戶信息或行為記錄等內(nèi)容進(jìn)行分類(lèi)可以獲取文本特征,獲取用戶的情緒、感受、體驗(yàn)、偏好和評(píng)級(jí)等數(shù)據(jù),從而有助于圖書(shū)館了解用戶行為并評(píng)估圖書(shū)館的服務(wù)質(zhì)量和滿意度[1-2]。文本分類(lèi)是根據(jù)一定的規(guī)則將文本分為不同類(lèi)別的過(guò)程。分類(lèi)規(guī)則可以人工構(gòu)建,也可以使用算法從文本數(shù)據(jù)中自動(dòng)總結(jié)。早期的文本分類(lèi)是在知識(shí)工程的基礎(chǔ)上構(gòu)建人工定義規(guī)則,例如,通過(guò)編碼采訪文本和提取關(guān)鍵節(jié)點(diǎn)來(lái)構(gòu)建研究維度。近年來(lái),已有學(xué)者充分利用Twitter、Facebook、Google Maps、微博、大眾點(diǎn)評(píng)網(wǎng)、微信公眾平臺(tái)等網(wǎng)站的大量用戶生成的文本數(shù)據(jù)研究用戶行為和圖書(shū)館服務(wù)質(zhì)量[3-4]。文本分類(lèi)不僅是數(shù)據(jù)挖掘與信息檢索領(lǐng)域的研究熱點(diǎn),更是數(shù)字圖書(shū)館建設(shè)的技術(shù)基礎(chǔ)[5]。同時(shí),對(duì)用戶生成的文本數(shù)據(jù)進(jìn)行準(zhǔn)確的分類(lèi)還可以幫助圖書(shū)館把握用戶的信息需求特征,組織和篩選用戶感興趣的內(nèi)容,進(jìn)而為用戶提供智能和高效的個(gè)性化服務(wù)。另外,提取和計(jì)算用戶生成文本中包含的情感信息和情感強(qiáng)度,關(guān)注用戶的情感變化,還可以幫助圖書(shū)館不斷改進(jìn)服務(wù)的設(shè)計(jì)和提供方式。因此,文本大數(shù)據(jù)的分類(lèi)需要引起圖書(shū)館領(lǐng)域的關(guān)注,而有關(guān)文本分類(lèi)的研究已成為統(tǒng)計(jì)分析、維度構(gòu)建、量表開(kāi)發(fā)、預(yù)測(cè)建模的重要前提和基礎(chǔ)。
作為自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題,文本分類(lèi)的算法也在不斷演進(jìn),當(dāng)前的算法大致分為兩類(lèi):一種是傳統(tǒng)的分類(lèi)算法(如基于規(guī)則的方法、社會(huì)網(wǎng)絡(luò)分析方法等)、一種是基于機(jī)器學(xué)習(xí)的算法(如 特征工程、分類(lèi)器等)[6]。受到算法本身的限制,傳統(tǒng)的分類(lèi)算法耗時(shí)耗力,成本較高,已逐漸被取代。與自然語(yǔ)言處理領(lǐng)域的發(fā)展同步,圖書(shū)館文本分類(lèi)也逐漸從主要使用社會(huì)網(wǎng)絡(luò)分析轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法,從簡(jiǎn)單的用戶生成文本的詞頻統(tǒng)計(jì)轉(zhuǎn)變?yōu)橥诰蛭谋局械纳顚诱Z(yǔ)義關(guān)聯(lián),力求更精確地發(fā)現(xiàn)用戶的感知和情感[7-8]。在大規(guī)模和非結(jié)構(gòu)化的文本中尋找有效的隱含信息挖掘方法已成為自然語(yǔ)言處理(NLP)關(guān)注的焦點(diǎn)和大數(shù)據(jù)研究中的關(guān)鍵問(wèn)題[9],而深度學(xué)習(xí)的出現(xiàn)可以有效解決以往機(jī)器學(xué)習(xí)方法(如樸素貝葉斯和支持向量機(jī))存在的耗時(shí)、昂貴的淺層結(jié)構(gòu)算法、表示復(fù)雜函數(shù)的能力有限以及難以處理高維數(shù)據(jù)和泛化能力差等問(wèn)題[10]?;谏疃葘W(xué)習(xí)的文本分類(lèi)研究在各種自然語(yǔ)言處理任務(wù)中取得了顯著的成效,為許多問(wèn)題提供了有效的解決方案,因而正逐漸取代傳統(tǒng)的機(jī)器學(xué)習(xí)方法成為文本分類(lèi)領(lǐng)域的主流研究方向[11]。在圖書(shū)館領(lǐng)域,深度學(xué)習(xí)方法同樣處于文本分類(lèi)的最前沿,已有研究表明在預(yù)測(cè)評(píng)論可靠性、用戶滿意度、情感分類(lèi)和預(yù)測(cè)評(píng)論評(píng)級(jí)等方面優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)模型[12]。
顯然,深度學(xué)習(xí)方法對(duì)圖書(shū)館的文本分類(lèi)具有重要意義。2023年7月30日,筆者通過(guò)“標(biāo)題/主題”在SCOPUS、WOS、LISTA、LISS、知網(wǎng)等數(shù)據(jù)庫(kù)進(jìn)行了全面的文獻(xiàn)檢索。搜索策略包括系列搜索詞:文本分類(lèi)、深度學(xué)習(xí)和圖書(shū)館的組合搜索,除了關(guān)注于圖書(shū)館領(lǐng)域深度學(xué)習(xí)的文章外,還包括計(jì)算機(jī)科學(xué)領(lǐng)域的相關(guān)研究,這些研究涉及到了深度學(xué)習(xí)技術(shù)與圖書(shū)館數(shù)據(jù)的使用。在剔除重復(fù)與不相關(guān)的文獻(xiàn),并對(duì)相關(guān)文獻(xiàn)的參考文獻(xiàn)進(jìn)行回溯檢索后,共篩選出31篇文章作為本文綜述的文獻(xiàn)集。研究成果數(shù)量不多說(shuō)明該領(lǐng)域尚未成熟,需要進(jìn)一步的研究探索,為此,本文設(shè)計(jì)的研究問(wèn)題是:深度學(xué)習(xí)在圖書(shū)館文本分類(lèi)研究中的現(xiàn)狀如何?研究的主題包含那些?未來(lái)研究應(yīng)當(dāng)從那些方面拓展?下文將梳理圖書(shū)館領(lǐng)域基于深度學(xué)習(xí)進(jìn)行文本分類(lèi)的相關(guān)研究?jī)?nèi)容,并探討當(dāng)前存在的問(wèn)題及優(yōu)化建議,以期為未來(lái)的相關(guān)研究提供參考。
1基于深度學(xué)習(xí)開(kāi)展圖書(shū)館文本分類(lèi)研究的主題分析
近年來(lái),深度學(xué)習(xí)在圖書(shū)館領(lǐng)域的應(yīng)用逐漸受到學(xué)者的關(guān)注。在這方面,計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)者有著特殊的貢獻(xiàn)。通過(guò)對(duì)已有文獻(xiàn)的調(diào)研梳理和系統(tǒng)分析,我們發(fā)現(xiàn),當(dāng)前深度學(xué)習(xí)在圖書(shū)館領(lǐng)域的應(yīng)用主要包含以下幾個(gè)方面:用戶畫(huà)像[13]、智慧服務(wù)[14-15]、文本識(shí)別[16]、知識(shí)庫(kù)建設(shè)[17]、文本分類(lèi)分析[18]等。然而,當(dāng)前尚未有研究系統(tǒng)回顧深度學(xué)習(xí)方法在圖書(shū)館領(lǐng)域的使用情況。因此,我們歸納匯總了圖書(shū)館領(lǐng)域以及使用圖書(shū)館數(shù)據(jù)的計(jì)算機(jī)科學(xué)領(lǐng)域的深度學(xué)習(xí)文獻(xiàn),總結(jié)了圖書(shū)館領(lǐng)域及使用圖書(shū)館數(shù)據(jù)的計(jì)算機(jī)領(lǐng)域中使用深度學(xué)習(xí)模型的歷史變遷、每種方法的優(yōu)劣勢(shì)(見(jiàn)表1),以及不同深度學(xué)習(xí)模型的應(yīng)用場(chǎng)景和主要功能目標(biāo)(見(jiàn)表2)。
從表2可以看出,當(dāng)前基于深度學(xué)習(xí)開(kāi)展圖書(shū)館文本分類(lèi)的研究主要分為三個(gè)主題:文本特征分類(lèi)、文本情感分類(lèi)和文本評(píng)價(jià)分類(lèi)。
1.1文本特征分類(lèi)
對(duì)于用戶感知和體驗(yàn)的研究,重要的是識(shí)別在線評(píng)論中影響用戶評(píng)分和行為的關(guān)鍵特征(如服務(wù)質(zhì)量、真實(shí)性、環(huán)境等)。盡管對(duì)文本特征的分類(lèi)很重要,但多數(shù)研究使用了相對(duì)更為簡(jiǎn)單的主題聚類(lèi)方法,只有少數(shù)研究使用深度學(xué)習(xí)模型對(duì)其進(jìn)行研究。例如,有研究者利用基于深度學(xué)習(xí)的自然語(yǔ)言處理技術(shù),對(duì)12582 條人工標(biāo)注的圖書(shū)館在線評(píng)論進(jìn)行研究,通過(guò)文本特征分析服務(wù)質(zhì)量。在該模型中,神經(jīng)網(wǎng)絡(luò)用于從非結(jié)構(gòu)化文本中發(fā)現(xiàn)模式,并將前饋神經(jīng)網(wǎng)絡(luò)組合起來(lái)表示輸入層和輸出層之間的非線性關(guān)系(服務(wù)質(zhì)量的類(lèi)別概率)[19];有研究者使用深度學(xué)習(xí)模型對(duì)手動(dòng)標(biāo)記的數(shù)據(jù)進(jìn)行文本分類(lèi),以確定用戶體驗(yàn)的真實(shí)性維度。該研究中使用的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型具有兩層網(wǎng)絡(luò),可以將輸入數(shù)據(jù)(句子)映射到期望值(每個(gè)維度的概率),從而表示更復(fù)雜的函數(shù)關(guān)系[20];還有研究者通過(guò)多標(biāo)簽文本降維、平衡化處理及組合多種深度學(xué)習(xí)算法構(gòu)建文本分類(lèi)器,實(shí)現(xiàn)了多標(biāo)簽文本特征分類(lèi)[21]。這類(lèi)型研究一般通過(guò)疊加累積卷積層和池化層來(lái)持續(xù)對(duì)層數(shù)進(jìn)行加深,從而達(dá)到提取更高層文本特征的效果,使得基于文本特征的分類(lèi)表達(dá)能力更強(qiáng),文本特征更為明顯。
1.2文本情感分類(lèi)
盡管情感分析在圖書(shū)館服務(wù)質(zhì)量的評(píng)估中很重要,但目前文本的情感分類(lèi)主要是使用情感詞典和機(jī)器學(xué)習(xí)進(jìn)行的,使用深度學(xué)習(xí)對(duì)文本情感進(jìn)行分類(lèi)的研究并不多。一項(xiàng)研究從微博上抓取了112?412 條關(guān)于圖書(shū)館的評(píng)論,并應(yīng)用雙向 LSTM、簡(jiǎn)單嵌入及平均池化這兩種深度學(xué)習(xí)模型,對(duì)在線評(píng)論的兩種情緒(正面和負(fù)面)進(jìn)行分類(lèi),結(jié)果表明,雙向 LSTM 在情感分類(lèi)上更有效,該研究旨在為文本情感挖掘任務(wù)提供合適的深度學(xué)習(xí)算法[22];另一項(xiàng)研究使用深度學(xué)習(xí)模型 BERT分析了包含4728 條評(píng)論的圖書(shū)館數(shù)據(jù)集,將標(biāo)簽分為四類(lèi)(中性、正面、負(fù)面和沖突),研究結(jié)果表明該模型比其他基線模型具有更好的性能,為圖書(shū)館文本情感分類(lèi)任務(wù)提供了一種新方法[23];還有學(xué)者通過(guò)Tensor Flow深度學(xué)習(xí)框架,利用Keras人工神經(jīng)網(wǎng)絡(luò)庫(kù),將卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)結(jié)合,構(gòu)建了基于CNN-BiLSTM-HAN混合神經(jīng)網(wǎng)絡(luò)的情感分析模型,對(duì)高校圖書(shū)館社交網(wǎng)絡(luò)平臺(tái)用戶評(píng)論的21 091條數(shù)據(jù)進(jìn)行分析[24]。這些研究的重要貢獻(xiàn)在于關(guān)注了圖書(shū)館用戶情緒變化,使用雙向LSTM 解決了循環(huán)神經(jīng)網(wǎng)絡(luò)梯度消失和梯度爆炸問(wèn)題,與LSTM相比,這不僅保留了過(guò)去的信息,還保留了未來(lái)的信息。
1.3文本評(píng)級(jí)分類(lèi)
對(duì)在線評(píng)論中的服務(wù)質(zhì)量進(jìn)行綜合評(píng)價(jià),不僅要采用用戶給出的評(píng)價(jià),如圖書(shū)館的價(jià)值、服務(wù)、位置和整體功能方面的評(píng)價(jià),還應(yīng)考慮評(píng)論信息中隱含的含義。研究者一般通過(guò)查找句子中的情感詞、連詞和否定詞來(lái)獲得情感分級(jí),而這需要隨著新詞的出現(xiàn)不斷增加和更新情感詞典,同時(shí)還要考慮到每個(gè)詞在不同的位置或語(yǔ)境下有不同的應(yīng)用和效果,會(huì)表達(dá)不同的情感。文本評(píng)級(jí)分類(lèi)的深度學(xué)習(xí)研究主要是利用在線文本的評(píng)分作為標(biāo)簽,訓(xùn)練用于文本分類(lèi)的深度學(xué)習(xí)模型。在這方面,深度學(xué)習(xí)模型在提取文本特征時(shí)考慮了句子中每個(gè)詞的上下文,可以解決同一個(gè)詞在不同上下文中可能具有不同含義的問(wèn)題,但很少有研究在數(shù)據(jù)集上使用深度學(xué)習(xí)來(lái)解釋這種不同的含義。例如,一項(xiàng)研究使用深度學(xué)習(xí)算法在公開(kāi)可用的數(shù)據(jù)集上訓(xùn)練模型,該數(shù)據(jù)集包含6294條在線評(píng)論和評(píng)級(jí)信息,并使用經(jīng)過(guò)訓(xùn)練的深度學(xué)習(xí)分類(lèi)模型內(nèi)核獲得用戶評(píng)級(jí)[25]。同時(shí),不同算法的性能也有所不同。有學(xué)者使用深度學(xué)習(xí)算法對(duì)圖書(shū)館評(píng)論文本評(píng)分預(yù)測(cè)進(jìn)行了比較分析,發(fā)現(xiàn)基于在線評(píng)論評(píng)分,簡(jiǎn)單嵌入和平均池化相比雙向LSTM 表現(xiàn)出更好的預(yù)測(cè)性能,評(píng)估指標(biāo)R2和F1-score的變化分別提高5.8%和0.3%。此外,為了獲得更適合文本評(píng)級(jí)分類(lèi)的深度學(xué)習(xí)模型,該研究對(duì)深度學(xué)習(xí)領(lǐng)域的文本分類(lèi)算法進(jìn)行了總結(jié),并在包含3500000余條圖書(shū)館評(píng)論的公開(kāi)數(shù)據(jù)集上使用八種深度學(xué)習(xí)算法進(jìn)行了測(cè)試。結(jié)果表明,與其他基線深度學(xué)習(xí)模型相比,BERT、XLNet 和通用語(yǔ)言模型微調(diào)等算法的準(zhǔn)確率提高了約10%。在這些最先進(jìn)的文本分類(lèi)方法中,XLNet 在數(shù)據(jù)集上產(chǎn)生了最好的五個(gè)分類(lèi)結(jié)果,準(zhǔn)確率為72.2%[26]。
2當(dāng)前研究存在的問(wèn)題及優(yōu)化建議
2.1存在的問(wèn)題
2.1.1缺乏引入深度學(xué)習(xí)算法的方法框架
從整體上看,當(dāng)前圖書(shū)館領(lǐng)域使用深度學(xué)習(xí)算法進(jìn)行文本分類(lèi)的研究仍然處于起步階段,研究成果的數(shù)量不多,研究者對(duì)深度學(xué)習(xí)算法的認(rèn)識(shí)和運(yùn)用還有不足,存在盲目使用和跟風(fēng)等問(wèn)題,尤其是缺乏使用深度學(xué)習(xí)算法的方法框架,很多研究對(duì)算法的優(yōu)劣勢(shì)和適用性了解不夠,致使研究結(jié)論的準(zhǔn)確性受到影響。
2.1.2缺乏更先進(jìn)的深度學(xué)習(xí)算法
已有研究來(lái)對(duì)多個(gè)深度學(xué)習(xí)模型文本分類(lèi)方法的有效性進(jìn)行了比較 (如fully connected,dense layers,2D convolution neural network,CNN,long short-term memory, LSTM),這些算法在提取文本信息方面的局限性較大:如FC對(duì)空間結(jié)構(gòu)的表達(dá)能力較差、CNN會(huì)丟失相關(guān)信息導(dǎo)致誤分類(lèi)、LSTM在訓(xùn)練過(guò)程中只能保留單一信息等[27]?,F(xiàn)有的許多研究并沒(méi)有嘗試使用更先進(jìn)的深度學(xué)習(xí)方法來(lái)對(duì)評(píng)論進(jìn)行科學(xué)分類(lèi),也缺乏對(duì)單個(gè)分類(lèi)模型有效性的關(guān)注。這類(lèi)型的研究往往依賴(lài)于公開(kāi)可用的數(shù)據(jù)集,這些數(shù)據(jù)集中的每條評(píng)論都有用戶給出的評(píng)分。然而,由于用戶評(píng)級(jí)過(guò)程中可能存在服務(wù)補(bǔ)償[28],因此后者不一定總是與評(píng)論文本所表達(dá)的信息相匹配,因此最好將評(píng)論和評(píng)分綜合分析。
2.1.3文本特征分類(lèi)的精度和效率有待提升
當(dāng)前圖書(shū)館領(lǐng)域的文本特征分類(lèi)主要使用前饋神經(jīng)網(wǎng)絡(luò)和ANN這兩種深度學(xué)習(xí)算法。盡管前饋神經(jīng)網(wǎng)絡(luò)是經(jīng)典的深度學(xué)習(xí)算法之一,也基本能夠完成文本分類(lèi)任務(wù),但這種算法將文本視為一個(gè)詞袋,并使用文本的向量或平均值來(lái)表示文本信息,而忽略了文本中的上下文信息,因而會(huì)影響分類(lèi)的精度和效率。
2.1.4缺乏對(duì)文本分類(lèi)過(guò)程的詳細(xì)描述
現(xiàn)有的研究雖然或多或少涉及到文本分類(lèi)的一些步驟,但很少系統(tǒng)地總結(jié)和說(shuō)明了文本分類(lèi)的整個(gè)過(guò)程(如文本預(yù)處理、多個(gè)文本分類(lèi)模型的比較等),而只有詳細(xì)描述文本分類(lèi)的整個(gè)過(guò)程,才能提高研究的透明度,進(jìn)而評(píng)價(jià)研究的質(zhì)量、研究方法的嚴(yán)謹(jǐn)性和局限性,從而更好的完成文本分類(lèi)任務(wù)。
2.1.5數(shù)據(jù)規(guī)模、數(shù)據(jù)預(yù)處理和數(shù)據(jù)標(biāo)注等方面仍然存在局限性
在文本情感分類(lèi)方面,當(dāng)前的研究?jī)H通過(guò)兩種或三種情感分類(lèi)很難衡量和捕捉用戶復(fù)雜多樣的情感。同時(shí),許多研究的數(shù)據(jù)量不夠大或不充分,導(dǎo)致對(duì)深度學(xué)習(xí)文本分類(lèi)模型訓(xùn)練過(guò)程特征提取的要求變得非常高。雖然有研究者通過(guò)計(jì)算用戶給出的價(jià)值、滿意度等評(píng)分的平均值來(lái)標(biāo)記情感標(biāo)簽,通過(guò)劃分分?jǐn)?shù)段來(lái)進(jìn)行標(biāo)注[29],但顯然該研究的數(shù)據(jù)標(biāo)注過(guò)程也需要改進(jìn)。一是研究者未給出分?jǐn)?shù)段分類(lèi)的解釋和依據(jù),二是三級(jí)分類(lèi)的粗粒度度量會(huì)導(dǎo)致有價(jià)值信息的丟失。
2.2優(yōu)化建議
2.2.1明確引入深度學(xué)習(xí)算法的方法框架
計(jì)算機(jī)信息科學(xué)是探索文本分類(lèi)深度學(xué)習(xí)的專(zhuān)業(yè)領(lǐng)域,因此我們可以在批評(píng)性比較和分析的基礎(chǔ)上,結(jié)合圖書(shū)館的特征,為圖書(shū)館的文本分類(lèi)任務(wù)引入一個(gè)方法框架。本研究認(rèn)為,該方法至少應(yīng)包括如下三個(gè)步驟:(1)方法選擇:對(duì)于特定場(chǎng)景下的分類(lèi)任務(wù),不僅要根據(jù)方法的原理和已有的研究成果進(jìn)行初步篩選,還要對(duì)多種方法進(jìn)行比較,以獲得最適合的方法;(2)數(shù)據(jù)選擇:與圖書(shū)館領(lǐng)域的分類(lèi)任務(wù)大多只在單個(gè)數(shù)據(jù)集上進(jìn)行不同,計(jì)算機(jī)信息科學(xué)領(lǐng)域的研究是在多個(gè)數(shù)據(jù)集上進(jìn)行測(cè)試,這也要求我們進(jìn)行多數(shù)據(jù)集對(duì)比以獲得更可靠的調(diào)查結(jié)果;(3)性能測(cè)試:對(duì)深度學(xué)習(xí)模型分類(lèi)性能的評(píng)估是必不可少的步驟,每種方法的性能都可以通過(guò)完善的指標(biāo)進(jìn)行客觀的測(cè)量。
2.2.2構(gòu)建和開(kāi)發(fā)更深層次的算法
雙隱層神經(jīng)網(wǎng)絡(luò)比單層神經(jīng)網(wǎng)絡(luò)能表達(dá)更復(fù)雜的關(guān)系,分類(lèi)效果更好。因此,圖書(shū)館領(lǐng)域需要不斷加強(qiáng)對(duì)深度學(xué)習(xí)算法的理解,并嘗試構(gòu)建和開(kāi)發(fā)更深層次的算法。與經(jīng)典深度學(xué)習(xí)算法和基線方法(如情感詞典和機(jī)器學(xué)習(xí))相比,已經(jīng)有幾種深度學(xué)習(xí)算法具有更好的性能,可以用于文本特征分類(lèi)任務(wù)。例如,2018年谷歌提出的自然語(yǔ)言模型(NLP)?基于Transformer的雙向編碼器表征(Bidirectional Encoder Representations from Transformers, BERT), 具有標(biāo)記嵌入、片段嵌入和位置嵌入的輸入特征,該模型使用掩碼語(yǔ)言模型(隨機(jī)屏蔽句子中的標(biāo)記)進(jìn)行訓(xùn)練,并通過(guò)雙向轉(zhuǎn)換器獲得文本的矢量化表示。BERT結(jié)合單詞的上下文信息,從句子中提取信息,實(shí)現(xiàn)了文本的雙向表征,即使在數(shù)據(jù)量很小的情況下也能訓(xùn)練參數(shù),因而可以更好地提取句子的語(yǔ)義關(guān)系,進(jìn)而很好的完成文本分類(lèi)任務(wù)。已有研究表明BERT在特征提取方面優(yōu)于用于詞表示的全局向量(Glove)和用于特征提取的詞到向量(word2vec),并且還優(yōu)于諸如多注意力網(wǎng)絡(luò)(MAN)和交互式多頭注意力網(wǎng)絡(luò)(IMAN)等其他模型[30]。值得注意的是,使用BERT模型進(jìn)行訓(xùn)練和測(cè)試所花費(fèi)的時(shí)間與硬件密切相關(guān),如使用張量處理器(TPU)比使用圖形處理器(GPU)更為省時(shí)[31]。而B(niǎo)ERT優(yōu)化后的變體ALBERT可以更快地訓(xùn)練并且消耗更少的內(nèi)存,這意味著使用ALBERT模型進(jìn)行分類(lèi)更為高效且成本更低。
2.2.3明晰文本分類(lèi)的詳細(xì)步驟
為提高文本分類(lèi)任務(wù)中詳細(xì)步驟的透明度,需要在收集數(shù)據(jù)并確定文本分類(lèi)需求之后,進(jìn)行以下兩個(gè)關(guān)鍵步驟:數(shù)據(jù)預(yù)處理和模型訓(xùn)練。第一步是數(shù)據(jù)預(yù)處理,對(duì)于不同的語(yǔ)言,處理手段略有不同。以中文為例,其中標(biāo)記化的過(guò)程如下:(1)刪除數(shù)據(jù)中重復(fù)的文本;(2)將所有文本數(shù)據(jù)進(jìn)行格式化;(3)刪除網(wǎng)站鏈接、數(shù)字、符號(hào)和特殊字符,如&、*和#等;(4)分詞——根據(jù)文本分類(lèi)任務(wù)的需要將文本分解成詞,然后進(jìn)行處理;(5)刪除標(biāo)點(diǎn)符號(hào)和停用詞;(6)歸一化,如詞形還原、詞干提取、去除性別/時(shí)間/等級(jí)差異等。第二步是深度學(xué)習(xí)文本分類(lèi)模型的訓(xùn)練,這是文本分類(lèi)任務(wù)的重點(diǎn)。在這一步中,首先是數(shù)據(jù)集的劃分,計(jì)算機(jī)領(lǐng)域中一般將數(shù)據(jù)集分為訓(xùn)練集(訓(xùn)練模型)、驗(yàn)證集(優(yōu)化模型)和測(cè)試集(評(píng)估模型)。在圖書(shū)館領(lǐng)域,數(shù)據(jù)集一般分為訓(xùn)練集和測(cè)試集。劃分訓(xùn)練集和測(cè)試集的一般原則是,當(dāng)數(shù)據(jù)集足夠大(幾十萬(wàn)或幾百萬(wàn))時(shí),測(cè)試集所占比例較小,反之亦然。其次,使用預(yù)訓(xùn)練的語(yǔ)言模型將數(shù)據(jù)集(訓(xùn)練集和測(cè)試集)轉(zhuǎn)化為向量,即計(jì)算機(jī)可以理解的形式將分類(lèi)模型應(yīng)用到訓(xùn)練集和測(cè)試集上。最后,評(píng)估分類(lèi)模型的性能。文本分類(lèi)有多種評(píng)估指標(biāo),包括精度Accuracy、準(zhǔn)確率Precision、召回率Recall和F1 score(包括準(zhǔn)確率和召回率)、Cohen′s Kappa(k)和Gwet的一致性系數(shù)(AC1)等。其中,使用最廣泛的評(píng)估指標(biāo)是精度。
2.2.4明確數(shù)據(jù)標(biāo)注規(guī)范和標(biāo)注步驟
由于數(shù)據(jù)是文本情感分類(lèi)任務(wù)的基礎(chǔ),一般而言,文本數(shù)據(jù)量越大,文本分類(lèi)的效果越好。因此,圖書(shū)館領(lǐng)域的文本分類(lèi)研究有必要進(jìn)一步擴(kuò)大研究的數(shù)據(jù)量,并明確標(biāo)注規(guī)范和數(shù)據(jù)標(biāo)注步驟。本文認(rèn)為,文本數(shù)據(jù)的標(biāo)準(zhǔn)規(guī)范包括以下幾個(gè)方面:(1)明確標(biāo)注的范圍和實(shí)體類(lèi)型;(2)標(biāo)簽和類(lèi)別要簡(jiǎn)潔明晰,并與文本數(shù)據(jù)所表示的概念相符;(3)明確標(biāo)注規(guī)則,避免概念混淆和錯(cuò)誤;(4)按照特定的格式和結(jié)構(gòu)來(lái)標(biāo)注數(shù)據(jù),使其適配標(biāo)注工具或平臺(tái);(5)完善關(guān)系和實(shí)體間的一體性,便于之后的關(guān)系抽取和分析;(6)確保標(biāo)注數(shù)據(jù)的復(fù)用性和開(kāi)放性,以便后續(xù)對(duì)模型進(jìn)行評(píng)估、優(yōu)化和升級(jí)。另外,對(duì)于文本數(shù)據(jù)的標(biāo)注大致可以分為兩個(gè)步驟,每一個(gè)文本(如評(píng)論)需要由至少三位相關(guān)領(lǐng)域人士進(jìn)行標(biāo)注并達(dá)成共識(shí):第1步,隨機(jī)抽取少量評(píng)論由相關(guān)專(zhuān)家對(duì)其進(jìn)行標(biāo)注,通過(guò)討論達(dá)成共識(shí),并構(gòu)建分類(lèi)協(xié)議。第2步,由至少3人組成的小組根據(jù)分類(lèi)協(xié)議對(duì)文本數(shù)據(jù)進(jìn)行標(biāo)注,結(jié)果相同的3個(gè)標(biāo)注可以直接使用,結(jié)果不同的標(biāo)注可以考慮拒絕或討論同意后保留。
2.2.5使用結(jié)合各自優(yōu)勢(shì)的多模型分類(lèi)方法
通過(guò)文獻(xiàn)梳理表明,XLNet能更好的完成文本評(píng)級(jí)分類(lèi)任務(wù),它集成了自回歸和自編碼預(yù)訓(xùn)練語(yǔ)言模型的思想,允許上下文同時(shí)包含左右標(biāo)記(每個(gè)位置從所有位置學(xué)習(xí)上下文信息,即捕獲雙向上下文),使其成為通用的順序感知自回歸語(yǔ)言模型。它還引入了雙流自注意模型,以實(shí)現(xiàn)位置感知的單詞預(yù)測(cè)。同時(shí),開(kāi)放生成式預(yù)訓(xùn)練(OpenGPT)和統(tǒng)一語(yǔ)言模型(UniLM)也適用于圖書(shū)館領(lǐng)域的文本分類(lèi)。OpenGPT是一個(gè)單向(從左到右或從右到左)逐詞預(yù)測(cè)文本序列模型,其中每個(gè)單詞包含有關(guān)前一個(gè)單詞的信息。文本分類(lèi)任務(wù)可以通過(guò)將OpenGPT微調(diào)到特定任務(wù)并將其與特定于任務(wù)的分類(lèi)器相結(jié)合來(lái)完成。而OpenGPT的第4版,即OpenGPT-4已被證實(shí)可以大大提高模型在文本分類(lèi)任務(wù)上的性能[32]。UniLM使用來(lái)自單向、雙向和序列到序列方法的三種不同類(lèi)型的語(yǔ)言建模任務(wù)進(jìn)行預(yù)訓(xùn)練。 因此,UniLM-2在文本分類(lèi)任務(wù)上達(dá)到了一個(gè)新的水平,它可以在文本文檔的每個(gè)單詞中包含更多的上下文信息。在圖書(shū)館領(lǐng)域,研究者可以通過(guò)多模型的組合運(yùn)用和比較來(lái)進(jìn)行探索和分析。
3總結(jié)與展望
3.1 結(jié)論
本研究首次回顧和梳理了圖書(shū)館領(lǐng)域使用深度學(xué)習(xí)方法進(jìn)行文本分類(lèi)的研究,指出了當(dāng)前圖書(shū)館文本分類(lèi)任務(wù)中各種方法和數(shù)據(jù)的不足,有助于推進(jìn)相關(guān)研究。目前圖書(shū)館領(lǐng)域使用深度學(xué)習(xí)算法進(jìn)行文本分類(lèi)的研究可以大致分為文本特征分類(lèi)、文本情感分類(lèi)和文本評(píng)級(jí)分類(lèi)三個(gè)主題。在研究方法方面,主要使用的是前饋神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò),而計(jì)算機(jī)科學(xué)領(lǐng)域中更先進(jìn)的方法尚未引起重視。除研究方法外,現(xiàn)有研究中使用的數(shù)據(jù)還涉及在不同背景下的適用性問(wèn)題。目前采用的公開(kāi)數(shù)據(jù)集主要以用戶評(píng)論為主,缺乏直接采用用戶評(píng)分作為標(biāo)簽的研究。另外,研究發(fā)現(xiàn)目前圖書(shū)館領(lǐng)域?qū)ξ谋镜姆诸?lèi)還比較粗放(主要分為兩類(lèi)或三類(lèi)),缺乏更細(xì)粒度的文本分割維度。回顧現(xiàn)有的研究,本文建議采用可以從海量大數(shù)據(jù)中更快、更準(zhǔn)確地進(jìn)行細(xì)粒度文本分類(lèi)的前沿深度學(xué)習(xí)方法,并提出了數(shù)據(jù)集標(biāo)注的具體方法,為未來(lái)研究的方法選擇和創(chuàng)新提供了路徑。此外,本文再次強(qiáng)調(diào)了對(duì)文本情感進(jìn)行準(zhǔn)確分類(lèi)的重要理論基礎(chǔ)以及基于文本特征的維度構(gòu)建,指出引入新的文本分類(lèi)算法可以實(shí)現(xiàn)更準(zhǔn)確的文本分類(lèi)。這也有助于在特定圖書(shū)館環(huán)境中開(kāi)發(fā)帶標(biāo)簽的圖書(shū)館數(shù)據(jù)集和分類(lèi)維度,為進(jìn)一步研究用戶評(píng)論對(duì)其使用行為的情感影響(如維度構(gòu)建、量表開(kāi)發(fā)等)奠定基礎(chǔ)。同時(shí),本文對(duì)計(jì)算機(jī)領(lǐng)域新方法的引入,有助于彌合圖書(shū)館領(lǐng)域研究方法的差距。
本文的研究結(jié)果對(duì)圖書(shū)館的管理實(shí)踐也有一定啟示。由于當(dāng)前在線文本呈指數(shù)級(jí)增長(zhǎng),手動(dòng)處理可能既昂貴又耗時(shí),而使用深度學(xué)習(xí)技術(shù)可以從文本數(shù)據(jù)中更快、更準(zhǔn)確、成本更低的提取上下文信息。例如,圖書(shū)館可以使用基于文本特征的深度學(xué)習(xí)方法來(lái)根據(jù)服務(wù)質(zhì)量(響應(yīng)性、可靠性和同理心)對(duì)用戶評(píng)論進(jìn)行分類(lèi),并使用情感分類(lèi)器將評(píng)論分類(lèi)為更細(xì)粒度的情感(憤怒、喜悅和厭惡等)。這些方法有助于客觀、快速地了解全面的信息和其中的細(xì)節(jié),幫助圖書(shū)館及時(shí)響應(yīng)用戶需求,為圖書(shū)館的管理和決策提供依據(jù)。
此外,這項(xiàng)研究還為第三方機(jī)構(gòu)全面評(píng)價(jià)圖書(shū)館的服務(wù)質(zhì)量提供了有效途徑,用戶也可以通過(guò)參考第三方機(jī)構(gòu)在分析文本內(nèi)容的基礎(chǔ)上給出的綜合評(píng)價(jià)來(lái)評(píng)估圖書(shū)館服務(wù)的質(zhì)量。由于服務(wù)補(bǔ)償和心理補(bǔ)償因素的存在,總體評(píng)價(jià)信息并不能完全反映用戶對(duì)圖書(shū)館的評(píng)價(jià)。政府相關(guān)部門(mén)或第三方機(jī)構(gòu)可以使用深度學(xué)習(xí)算法對(duì)文本進(jìn)行分類(lèi),不僅可以單獨(dú)使用評(píng)分信息,還可以綜合文本分類(lèi)結(jié)果,更便捷的評(píng)估圖書(shū)館服務(wù)質(zhì)量,指導(dǎo)圖書(shū)館的建設(shè)和發(fā)展。
3.2 局限性和未來(lái)研究
首先,盡管一些先進(jìn)的深度學(xué)習(xí)方法在文本分類(lèi)任務(wù)中表現(xiàn)出出色的分類(lèi)性能,但它們?cè)趫D書(shū)館領(lǐng)域的表現(xiàn)尚未得到證實(shí)。例如,當(dāng)前最新的深度學(xué)習(xí)算法,如OpenGPT-3、BERT、XLNET和UniLM等,已經(jīng)在文本分類(lèi)任務(wù)中實(shí)現(xiàn)了新的進(jìn)展,但尚未有在圖書(shū)館領(lǐng)域中的應(yīng)用。因此筆者建議學(xué)者們對(duì)這些算法進(jìn)行實(shí)驗(yàn)。由于訓(xùn)練這些模型的成本并不高,因此可以微調(diào)現(xiàn)有模型或使用它們的變體,特別是對(duì)于圖書(shū)館領(lǐng)域來(lái)說(shuō),建議使用和測(cè)試集成多種深度學(xué)習(xí)算法的模型。此外,由于基于單一模型的分類(lèi)對(duì)于不同的語(yǔ)料庫(kù)、分類(lèi)和標(biāo)簽可能表現(xiàn)的不夠穩(wěn)定,因此本研究建議在同一數(shù)據(jù)集上使用多個(gè)深度學(xué)習(xí)模型,并通過(guò)比較找到最適合的深度學(xué)習(xí)文本分類(lèi)模型。
其次,雖然在圖書(shū)館領(lǐng)域有一些大規(guī)模的數(shù)據(jù)集,但這些數(shù)據(jù)集直接或間接地將用戶的評(píng)分作為標(biāo)簽,這種做法忽略了用戶在線評(píng)分時(shí)的服務(wù)補(bǔ)償和心理補(bǔ)償,同時(shí),圖書(shū)館領(lǐng)域的相關(guān)數(shù)據(jù)集共享程度不夠,因此,本研究建議學(xué)界和業(yè)界重視數(shù)據(jù)集的標(biāo)注,嚴(yán)格按照完善的步驟對(duì)文本數(shù)據(jù)集進(jìn)行手工標(biāo)注[33],并共享更多的結(jié)構(gòu)化標(biāo)注數(shù)據(jù),促進(jìn)圖書(shū)館領(lǐng)域文本分類(lèi)的發(fā)展。
再次,由于圖書(shū)館用戶情緒的復(fù)雜性,將其劃分為兩類(lèi)或三類(lèi)情感維度,其實(shí)踐和理論意義有限,后續(xù)研究有必要測(cè)試不同的方法,開(kāi)發(fā)不同的數(shù)據(jù),并在圖書(shū)館的不同場(chǎng)景下進(jìn)行不同層次的工作。因此,本研究建議未來(lái)的研究構(gòu)建更細(xì)粒度的文本數(shù)據(jù)分類(lèi)。例如,基于深度學(xué)習(xí)模型用來(lái)研究用戶情感(喜悅、愛(ài)、驚訝、憤怒、信任和悲傷)、服務(wù)質(zhì)量(有形的、可靠的、響應(yīng)性、保證和同理心)和其他更細(xì)化的維度。
最后,這項(xiàng)研究是對(duì)現(xiàn)有期刊論文中相關(guān)主題的梳理和總結(jié),不包括會(huì)議論文、書(shū)籍等其他來(lái)源的文獻(xiàn),因而具有一定的局限性。未來(lái)的研究可以對(duì)多種方法、多種來(lái)源的文獻(xiàn)進(jìn)行比較分析,從而獲得更可靠的研究結(jié)果。
參考文獻(xiàn):
[1]王芳,夏曉慧,宋家梅.基于文本分析的高校圖書(shū)館服務(wù)創(chuàng)新研究[J].圖書(shū)館學(xué)研究,2019(21):2-9.
[2]ZHENG X, CHEN W, ZHOU H, et al. Emoji-integrated polyseme probabilistic analysis model: sentiment analysis of short review texts on library service quality[J]. Traitement du signal, 2022, 39(1):313-322.
[3]金武剛,鐘靜涵.技術(shù)時(shí)代公共圖書(shū)館“場(chǎng)所”價(jià)值的社會(huì)公眾認(rèn)知研究:基于公共平臺(tái)網(wǎng)絡(luò)評(píng)論文本分析[J].圖書(shū)館雜志,2022,41(1):17-28.
[4]NGUYEN M. Use of social media by academic libraries in australia: review and a case study[J]. Journal of the australian library and information association,2023,72(1):75-99.
[5]李社蕾,周波,楊博雄.圖馬爾可夫卷積神經(jīng)網(wǎng)絡(luò)半監(jiān)督文本分類(lèi)研究[J].計(jì)算機(jī)仿真,2022,39(9):288-292.
[6]林鶴,曹磊,夏翠娟. 圖情大數(shù)據(jù)[M].上海:上海科學(xué)技術(shù)出版社,2020:50.
[7]徐彤陽(yáng),尹凱.基于深度學(xué)習(xí)的數(shù)字圖書(shū)館文本分類(lèi)研究[J].情報(bào)科學(xué),2019,37(10):13-19.
[8]LIU C. Research on library book information resource management based on artificial intelligence and sensors[J]. Journal of sensors,2022: 3720811.
[9]ELNAGGAR A, HEINZINGER M, DALLAGO C, et al. Prottrans: Toward understanding the language of life through self-supervised learning[J]. IEEE transactions on pattern analysis and machine intelligence,2021,44(10):7112-7127.
[10]MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning--based text classification: a comprehensive review[J]. ACM computing surveys(CSUR),2021,54(3):1-40.
[11]OTTER D W, MEDINA J R, KALITA J K. A survey of the usages of deep learning for natural language processing[J]. IEEE transactions on neural networks and learning systems,2020,32(2):604-624.
[12]RAGAB M, ALMUHAMMADI A, MANSOUR R F, et al. Natural language processing with deep learning enabled hybrid content retrieval model for digital library management[J]. Expert systems,2022: e13135.
[13]劉海鷗,黃文娜,姚蘇梅等.基于深度學(xué)習(xí)的移動(dòng)圖書(shū)館用戶畫(huà)像情境化推薦[J].圖書(shū)館學(xué)研究,2019(21):57-64.
[14]李默.基于深度學(xué)習(xí)的智慧圖書(shū)館移動(dòng)視覺(jué)搜索服務(wù)模式研究[J].現(xiàn)代情報(bào),2019,39(5):89-96.
[15]SHI X, HAO C, YUE D, et al. Library book recommendation with CNN-FM deep learning approach[J]. Library hi tech,2023(1):48-56.
[16] LIU Z, ZHAO W. Comparative research on structure function recognition based on deep learning[J]. Library hi tech,2022(6):1-16.
[17]張凌云.基于深度學(xué)習(xí)的《資本論》漢英術(shù)語(yǔ)知識(shí)庫(kù)建設(shè)與應(yīng)用研究[J].圖書(shū)館工作與研究,2023(2):20-27+50.
[18]WU Y, WANG X, YU P, et al. ALBERT-BPF: a book purchase forecast model for university library by using ALBERT for text feature extraction[J]. Aslib journal of information management,2022,74(4):673-687.
[19]JOO?S , LU?K , LEE?T. Analysis of content topics, user engagement and library factors in public library social media based on text mining[J].Online information review,2020,44(1):258-277.
[20]WU?P , LI?X , SHEN?S ,et al.Social media opinion summarization using emotion cognition and convolutional neural networks[J].International journal of information management,2020(51):101978.
[21]程雅倩,黃瑋,金曉祥,等.5G環(huán)境下高校圖書(shū)館自媒體平臺(tái)多標(biāo)簽文本分類(lèi)方法研究[J].情報(bào)科學(xué),2022,40(2):155-161.
[22]ZHENG?X, CHEN?W, ZHOU?H?J, et al. Emoji-Integrated polyseme probabilistic analysis model: sentiment analysis of short review texts on library service quality[J].Traitement du signal,2022(39):313-322.
[23]SCIASCIO C D, STROHMAIER D, ERRECALDE M, et al. Interactive quality analytics of user-generated content: an integrated toolkit for the case of wikipedia[J]. ACM transactions on interactive intelligent systems(TiiS),2019,9(2-3):155-196.
[24]李博,李洪蓮,關(guān)青等.基于CNN-BiLSTM-HAN混合神經(jīng)網(wǎng)絡(luò)的高校圖書(shū)館社交網(wǎng)絡(luò)平臺(tái)細(xì)粒度情感分析[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)報(bào),2022,34(4):63-73.
[25]馬佳瀅,金武剛.國(guó)外公共圖書(shū)館“場(chǎng)所”價(jià)值的公眾認(rèn)知研究——基于Google Maps在線評(píng)論文本分析[J].圖書(shū)與情報(bào),2022(3):6-19.
[26]BORREGO ?, COMALAT N M. What users say about public libraries: an analysis of google maps reviews[J]. Online information review,2021,45(1):84-98.
[27]MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning: based text classification: a comprehensive review[J]. ACM computing surveys(CSUR),2021,54(3):1-40.
[28]ROSCHK?H, GELBRICH??K. Identifying appropriate compensation types for service failures: a meta-analytic and experimental analysis[J]. Journal of service research,2014,17(2):195-211.
[29]陳信.基于媒介傳播效果框架的圖書(shū)館短視頻評(píng)論文本分析[J].圖書(shū)館學(xué)研究,2023(2):76-81.
[30]?Z?IFT A, AKARSU K, YUMUK F, et al. Advancing natural language processing(NLP) applications of morphologically rich languages with bidirectional encoder representations from transformers(BERT):an empirical case study for Turkish[J]. Automatika: ?asopis za automatiku, mjerenje, elektroniku, ra?unarstvo i komunikacije,2021,62(2):226-238.
[31]LI X, FU X, XU G, et al. Enhancing BERT representation with context-aware embedding for aspect-based sentiment analysis[J]. IEEE access,2020(8):46868-46876.
[32]王靜靜,葉鷹,王婉茹. GPT類(lèi)技術(shù)應(yīng)用開(kāi)啟智能信息處理之顛覆性變革[J]. 圖書(shū)館雜志,2023,42(5):9-13.
[33]RAVE J I P, ?LVAREZ G P J, MORALES J C C.Multi-criteria decision-making leveraged by text analytics and interviews with strategists[J]. Journal of marketing analytics,2022(10):30-49.
孫祝麗 ?紹興圖書(shū)館館員。浙江紹興,312000。
(收稿日期:2023-10-20?編校:謝艷秋)