錢旦敏 1 鄭建明
基于LDA主題模型的信息服務(wù)文獻(xiàn)主題提取與演變研究*
錢旦敏 1 鄭建明2
(1. 南通大學(xué)醫(yī)學(xué)院,南通 226001;2. 南京大學(xué)信息管理學(xué)院,南京 210023)
運用LDA主題模型梳理近22年來國內(nèi)信息服務(wù)研究主題演化情況,為該領(lǐng)域的可持續(xù)發(fā)展提供借鑒和指導(dǎo)。以中國知網(wǎng)(CNKI)為信息源,以信息服務(wù)為主題檢索CSSCI期刊,排除不符合論文,共檢索到8?908篇論文,并按年文獻(xiàn)量趨勢劃分為4個階段。基于TF-IDF構(gòu)建LDA主題模型,利用MindMapper繪制主題演變圖,比較分析信息服務(wù)研究主題的持續(xù)、弱化、轉(zhuǎn)移與新興。模型結(jié)果顯示,1998年以來我國信息服務(wù)領(lǐng)域持續(xù)研究主題包括圖書館服務(wù)、信息產(chǎn)業(yè)服務(wù)、資源服務(wù)及學(xué)科服務(wù);圖書館服務(wù)模式和信息倫理研究逐漸弱化、轉(zhuǎn)移;移動信息服務(wù)、智庫大數(shù)據(jù)、專業(yè)領(lǐng)域信息以及圖情計量成為近年來該領(lǐng)域研究熱點。
信息服務(wù);LDA主題建模;TF-IDF;主題演變
據(jù)《2019年上半年互聯(lián)網(wǎng)和相關(guān)服務(wù)業(yè)運行情況》報道,2019年上半年信息服務(wù)收入規(guī)模達(dá)3?703億元,同比增長23%,增速較一季度提高5.8個百分點,占互聯(lián)網(wǎng)業(yè)務(wù)收入比重為68.5%[1]。隨著信息服務(wù)規(guī)模增速持續(xù)提升,國家工信部對信息服務(wù)業(yè)投入大量關(guān)注度,連續(xù)發(fā)布一系列有關(guān)信息安全、信息服務(wù)管理、信息服務(wù)輔助技術(shù)要求、數(shù)據(jù)集要求等與信息服務(wù)相關(guān)的政策文件和行業(yè)標(biāo)準(zhǔn)。
同時,隨著信息技術(shù)的不斷發(fā)展以及大數(shù)據(jù)、智能時代的到來,各行各業(yè)都在信息空間留下了“數(shù)據(jù)腳印”,信息服務(wù)作為各產(chǎn)業(yè)的“耳目”“尖兵”“參謀”,其服務(wù)領(lǐng)域不僅涉及圖書情報、計算機(jī)科學(xué)、信息經(jīng)濟(jì)、新聞傳媒等行業(yè),而且涉足反恐行動[2]、扶貧項目[3]等社會研究領(lǐng)域,引起了不同領(lǐng)域?qū)<液蛯W(xué)者的高度關(guān)注。
研究信息服務(wù)領(lǐng)域的主題演變有利于相關(guān)學(xué)者與科研人員前瞻、準(zhǔn)確地把握前沿領(lǐng)域的競爭態(tài)勢和重大趨勢,有效地規(guī)劃研究主題,實現(xiàn)科技創(chuàng)新。因此,本文對信息服務(wù)主題演變趨勢進(jìn)行研究。
主題演變是主題隨時間逐漸發(fā)生改變的過程,包括主題的新興、消亡、強度演化、內(nèi)容向其他主題遷移或滲透,以及主題本身的特征研究等。對期刊主題演變展開研究的方法眾多,包括從定性到定量分析,從簡單圖表到信息可視化分析,從基于詞頻統(tǒng)計到基于模型的機(jī)器學(xué)習(xí)方法等。無論哪種方法,其主要目的是獲取文本集合的關(guān)鍵信息。
國內(nèi)利用主題模型對信息服務(wù)類文獻(xiàn)進(jìn)行演變研究不多。何偉林等[4]基于改進(jìn)的主題模型CSToT,以國內(nèi)情報學(xué)領(lǐng)域9種期刊作為數(shù)據(jù)來源,分析國內(nèi)情報學(xué)領(lǐng)域2012—2016年的研究主題結(jié)構(gòu)以及其演化過程;熊回香等[5]構(gòu)建基于社會化標(biāo)簽的單用戶興趣模型和群用戶興趣模型;董克等[6]運用主題模型與時間序列分析等方法,以檔案學(xué)領(lǐng)域的CSSCI來源期刊《檔案學(xué)通訊》和《檔案學(xué)研究》刊載的近10年論文為分析對象進(jìn)行文本內(nèi)容挖掘。
隱狄利克雷分配模型(Latent Dirichlet Allocation,LDA)在算法復(fù)雜度和展示效果方面表現(xiàn)優(yōu)越,它的參數(shù)不會隨文檔數(shù)的增長而線性增長,有很好的泛化能力,常被用來模擬大規(guī)模語料的語義信息[7]。詞頻-反文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)是最早的文本降維技術(shù)。本文將時間因素引入LDA建模中,采用TF-IDF頻率計算方法確定最優(yōu)主題數(shù)目,以信息服務(wù)相關(guān)文章為實驗材料,闡述如何使用LDA主題建模研究某一鄰域的主題演變特征。
本文主要通過主題提取、聚類、主題演變3種技術(shù)對信息服務(wù)類文獻(xiàn)進(jìn)行研究。本研究以中國知網(wǎng)(CNKI)為數(shù)據(jù)源,檢索以信息服務(wù)為主題的CSSCI來源期刊,發(fā)表時間設(shè)定為全部,截至2019年7月17日,共檢索到相關(guān)文獻(xiàn)9?060篇,其中最早的文獻(xiàn)發(fā)表于1998年。經(jīng)人工排檢,剔除非正式論文、期刊征稿通知、重復(fù)論文等文獻(xiàn),最終得到符合研究的相關(guān)文獻(xiàn)8?908篇。
由于關(guān)鍵詞是直接揭示論文主題的最核心詞匯,某一關(guān)鍵詞在其所屬領(lǐng)域文獻(xiàn)中反復(fù)出現(xiàn),則可反映出該關(guān)鍵詞所表征的研究主題是該領(lǐng)域的研究熱點。因此,本研究提取文獻(xiàn)中的關(guān)鍵詞作為主要研究數(shù)據(jù)[8]。首先對關(guān)鍵詞進(jìn)行規(guī)范化處理,合并同義詞。
TF-IDF是一種常用于信息處理和數(shù)據(jù)挖掘的加權(quán)技術(shù),主要涉及詞頻和逆文檔頻率2個影響因素。詞頻(Term Frequency,TF)表示某個關(guān)鍵詞出現(xiàn)的頻率。逆文檔頻率(Invers Document Frequency,IDF)用于衡量詞語普遍重要性,詞語出現(xiàn)在越多的文檔中,該詞語的區(qū)分度越低,重要性越低。TF-IDF值越大表示該關(guān)鍵詞對該文獻(xiàn)的重要性越大。
本文在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,將預(yù)處理后的關(guān)鍵詞用TF-IDF權(quán)重確定關(guān)鍵詞的重要程度,為下一步LDA主題模型的聚類提供數(shù)據(jù)支持。
LDA主題模型是一種生成主題概率模型,是一個三層貝葉斯概率模型。LDA使用詞袋的思想,對詞匯進(jìn)行模糊聚類,聚集到一類的詞可以間接地表示一個隱含的主題。此模型挖掘文本信息,能用來衡量不同文檔間的潛在關(guān)系,也能通過某一類詞來表達(dá)文檔中隱藏的主題。
對論文主題演變的研究主要有3種類型:①研究某一主題在不同時間軸上的強度變化;②研究主題相關(guān)社會網(wǎng)絡(luò),如論文作者或研究機(jī)構(gòu)的變化;③研究主題內(nèi)容的變化規(guī)律,包括主題內(nèi)容持續(xù)、轉(zhuǎn)移、弱化、興起等現(xiàn)象[9]。通過文獻(xiàn)梳理發(fā)現(xiàn),該領(lǐng)域的主題研究大多為某一時間段內(nèi)的主題呈現(xiàn),而對不同時間段內(nèi)主題的對比研究相對較少,沒有時間段的延續(xù)性研究。本文旨在研究信息服務(wù)領(lǐng)域期刊文獻(xiàn)的研究主題,故選取第3種演變模式進(jìn)行探討。
本研究通過對研究時間段的切分,從縱向上比較信息服務(wù)主題的演變歷程。在時間的劃分上以每年文獻(xiàn)數(shù)為依據(jù),將粒度減小,對所有時間段主題演變進(jìn)行對比分析[10]。
將處理后的8?908篇文獻(xiàn)按每年檢索到的文獻(xiàn)數(shù)量進(jìn)行統(tǒng)計,得到近22年被CNKI期刊庫收錄的CSSCI來源期刊,且以“信息服務(wù)”為主題的文獻(xiàn)量統(tǒng)計(見圖1)。
可見,“信息服務(wù)”主題研究大致可分為4個階段:1998—2006年是起始階段,相關(guān)主題的文獻(xiàn)研究平均數(shù)量在350篇/年,呈小幅度波動式上升;2007—2010年屬于發(fā)展階段,4年文獻(xiàn)數(shù)量急速上升,漲幅近1倍;2010年開始趨向成熟階段,從2012年開始,期刊文獻(xiàn)研究數(shù)量逐漸減少,截至2017年文獻(xiàn)數(shù)量與起始階段較為相似;考慮到2018年與2019年的文獻(xiàn)可能未收錄完全,文獻(xiàn)實際數(shù)量有較大偏差,將這兩年的文獻(xiàn)單獨作為第4階段進(jìn)行分析。以起始、發(fā)展、成熟階段為例,聚類結(jié)果如表1所示。
為更好地觀察研究主題的演變,本研究利用MindMapper軟件以可視化的形式展示4個時間段的研究主題(見圖2)。通過橫向與豎向的對比使文獻(xiàn)主題演變趨勢更加直觀、清晰。
可見,1998—2019年,我國信息服務(wù)領(lǐng)域的持續(xù)研究主題分布在圖書館服務(wù)、信息產(chǎn)業(yè)服務(wù)、資源服務(wù)及學(xué)科服務(wù)4個方面;弱化及轉(zhuǎn)移的研究主題有圖書館服務(wù)模式和信息倫理;新興的研究主題有移動信息服務(wù)、智庫大數(shù)據(jù)、專業(yè)領(lǐng)域信息以及圖情計量研究。
3.2.1 持續(xù)研究主題
(1)圖書館服務(wù)。1998—2006年,圖書館服務(wù)的研究內(nèi)容主要是環(huán)境與用戶行為對個性化服務(wù)的影響,以及個性化服務(wù)技術(shù)等;研究主題圍繞在圖書館建筑和公共圖書館資源兩個方面,并有少量關(guān)于圖書館個性化服務(wù)的研究。隨著互聯(lián)網(wǎng)信息時代的到來,越來越多的學(xué)者開始關(guān)注數(shù)字圖書館的服務(wù)研究。2007年以后,互聯(lián)網(wǎng)信息服務(wù)與圖書館服務(wù)逐漸融合,研究主題開始轉(zhuǎn)向圖書館信息化服務(wù)。
2011—2016年,圖書館服務(wù)模式是該領(lǐng)域?qū)W者的研究熱點,從2017年起逐漸出現(xiàn)智慧圖書館和信息化服務(wù)模式兩個分支。傳統(tǒng)圖書館的服務(wù)模式開始轉(zhuǎn)變?yōu)閿?shù)字圖書館和智慧圖書館,著重研究智慧圖書館的服務(wù)模式、技術(shù)應(yīng)用,以及智慧圖書館館員及其發(fā)展趨勢等。同時,虛擬參考咨詢服務(wù)伴隨圖書館的服務(wù)模式改變而發(fā)展,它是一個國際性的潮流,是圖書館業(yè)務(wù)發(fā)展到電子網(wǎng)絡(luò)信息時代的必然產(chǎn)物,標(biāo)志著圖書館正在利用網(wǎng)上平臺拓展自身的專業(yè)性服務(wù)。
由以上分析可知,近22年來我國圖書館服務(wù)已由傳統(tǒng)的圖書館服務(wù)轉(zhuǎn)變?yōu)榛ヂ?lián)網(wǎng)環(huán)境下的數(shù)字圖書館和智慧圖書館服務(wù),且基本圍繞服務(wù)技術(shù)和服務(wù)創(chuàng)新展開相關(guān)研究。
(2)信息產(chǎn)業(yè)服務(wù)。信息服務(wù)以現(xiàn)代信息技術(shù)為手段服務(wù)于全社會,使人類更及時、有效和充分地利用信息,完善人類社會生活服務(wù)。1998—2006年信息產(chǎn)業(yè)服務(wù)相關(guān)研究主要針對圖書館個性化、網(wǎng)絡(luò)信息資源的研究。2007—2010年,研究開始涉及政府信息資源與信息需求轉(zhuǎn)型,并關(guān)注于農(nóng)村信息化服務(wù)的發(fā)展。自1980年涉農(nóng)信息服務(wù)政策不斷演變[11],尤其2013年,習(xí)近平總書記提出了“精準(zhǔn)扶貧”重要思想,學(xué)界陸續(xù)涌現(xiàn)出“精準(zhǔn)扶貧需要用好大數(shù)據(jù)”[12]、“農(nóng)業(yè)扶貧重在信息扶貧”[13]等思潮,不少學(xué)者已經(jīng)意識到農(nóng)村信息資源匱乏是我國社會主義新農(nóng)村發(fā)展的巨大瓶頸,因此,越來越多的學(xué)者加大了對農(nóng)業(yè)信息化服務(wù)的研究。隨著云時代的來臨,移動互聯(lián)網(wǎng)、智能硬件和物聯(lián)網(wǎng)的快速普及,大數(shù)據(jù)吸引了越來越多學(xué)者的關(guān)注,“互聯(lián)網(wǎng)+ 大數(shù)據(jù)”逐漸成為研究熱點。2011年以后,信息產(chǎn)業(yè)與大數(shù)據(jù)廣泛結(jié)合,幫助企業(yè)、學(xué)者更好地適應(yīng)變化并做出更明智的決策。
(3)資源服務(wù)。1998—2006年,公共資源服務(wù)尚未完全普及,政府對圖書館等基礎(chǔ)設(shè)施的建設(shè)考慮較多。由于信息在網(wǎng)絡(luò)中的流動性強,網(wǎng)絡(luò)信息資源作為一種新型數(shù)字化資源,取代傳統(tǒng)的物流方式,加上無線電和衛(wèi)星通信技術(shù)的充分運用,上傳到網(wǎng)上的任何信息資源都可以極快地傳遞到用戶手中;另外,由于政府公務(wù)處理電子化成為發(fā)展趨勢,信息資源共享成為政府關(guān)注的內(nèi)容之一,2007年以后,出現(xiàn)了更多關(guān)于網(wǎng)絡(luò)信息資源共享研究和政府信息資源管理相關(guān)文獻(xiàn)。
(4)學(xué)科服務(wù)。以學(xué)科館員為主題開展的學(xué)科服務(wù)是傳統(tǒng)圖書館服務(wù)的拓展與深化,是圖書館走向知識化、個性化、泛在化、智能化的必然要求。1998—2019年,學(xué)者們對學(xué)科服務(wù)這一主題的關(guān)注只增不減。前12年主要針對學(xué)科館員、信息資源建設(shè)及學(xué)科服務(wù)模式進(jìn)行研究[14];近9年主要針對學(xué)科館員的技術(shù)需求、職業(yè)資格做深入研究。“第二代”學(xué)科館員及嵌入式學(xué)科服務(wù)成為新的研究熱點[15]。
3.2.2 研究主題的弱化及轉(zhuǎn)移
(1)圖書館服務(wù)模式。1998—2006年,我國部分城市及偏遠(yuǎn)地區(qū)的圖書館覆蓋率低,與圖書館有關(guān)的主題研究主要在于政府等機(jī)構(gòu)的公共圖書館資源建設(shè)與個性化服務(wù),以滿足讀者的需求。2007年以后,互聯(lián)網(wǎng)飛速發(fā)展,人們獲取信息的渠道和閱讀方式呈現(xiàn)多樣化特點。隨著電子閱讀日漸普及,傳統(tǒng)的實體圖書館利用率下降,以傳統(tǒng)圖書館為主題的研究逐漸減少。2017年以后與圖書館有關(guān)的研究主題發(fā)生轉(zhuǎn)移,建立實體圖書館與互聯(lián)網(wǎng)虛擬圖書館互聯(lián)互通、共建共享的圖書館服務(wù)體系成為熱點,文獻(xiàn)研究主題更加關(guān)注智慧圖書館及電子閱讀的建設(shè)與發(fā)展。
(2)信息倫理。信息倫理是指涉及信息開發(fā)、信息傳播、信息管理和利用等方面的倫理要求、倫理準(zhǔn)則、倫理規(guī)約,是調(diào)整人與人之間以及個人與社會之間信息關(guān)系的行為規(guī)范的總和[16],與信息生態(tài)主題發(fā)展關(guān)系密切。2007—2010年,信息倫理主題研究關(guān)注個人信息道德,如信息知識產(chǎn)權(quán)、著作權(quán)。2017年以后,信息倫理的關(guān)注重點從個人信息道德轉(zhuǎn)向社會信息道德,如信息安全、信息生態(tài)、版權(quán)。拉斐爾·卡普羅教授[17]的《21世紀(jì)信息社會的倫理挑戰(zhàn)》論述了信息社會的倫理問題,特別討論了網(wǎng)絡(luò)環(huán)境下的信息倫理問題,將信息倫理學(xué)從計算機(jī)倫理學(xué)中區(qū)分出來,反映出信息倫理學(xué)理論的發(fā)展和變化。
3.2.3 研究主題的新興
(1)移動信息服務(wù)。移動信息服務(wù)是從移動用戶信息需求出發(fā),利用移動通信技術(shù)和移動網(wǎng)絡(luò)平臺開展的信息組織、傳遞、開發(fā)、利用等社會化服務(wù),是對傳統(tǒng)信息服務(wù)的整合與拓展[18]。移動信息服務(wù)是現(xiàn)代移動信息技術(shù)與用戶需求協(xié)同驅(qū)動的產(chǎn)物。2017年,針對智慧圖書館、移動圖書館及電子閱讀的移動信息服務(wù)得到大范圍推廣,相關(guān)研究也相繼出現(xiàn),表現(xiàn)出研究主題與領(lǐng)域應(yīng)用緊密結(jié)合的特點。研究重點主要是移動信息服務(wù)的理論基礎(chǔ)、模式構(gòu)建及服務(wù)質(zhì)量評價,且多與新媒體環(huán)境相關(guān)聯(lián)[19]。
(2)智庫大數(shù)據(jù)。隨著云時代的來臨,大數(shù)據(jù)吸引了越來越多科研人員的關(guān)注。2011年開始,部分學(xué)者的文獻(xiàn)主題研究關(guān)注于互聯(lián)網(wǎng)大數(shù)據(jù)的建設(shè)、創(chuàng)新和發(fā)展。近年來,大數(shù)據(jù)產(chǎn)業(yè)保持著高速增長態(tài)勢,從單一的技術(shù)概念逐漸轉(zhuǎn)化為新要素、新戰(zhàn)略、新思維。大數(shù)據(jù)與傳統(tǒng)智庫結(jié)合,建設(shè)成新型智庫。因此,從2017年開始的研究重點趨向于智庫的創(chuàng)新建設(shè),助力中國從“智庫大國”向“智庫強國”轉(zhuǎn)變[20],大力建設(shè)高水平、國際化的智庫,逐步為人類創(chuàng)造更多的價值。
(3)專業(yè)領(lǐng)域信息。隨著大數(shù)據(jù)、云計算、移動互聯(lián)、人工智能等現(xiàn)代信息技術(shù)的發(fā)展,各專業(yè)領(lǐng)域逐漸向信息化發(fā)展。2017年開始,以健康、健康信息為研究主題的文獻(xiàn)逐漸增多。健康醫(yī)療領(lǐng)域信息化對優(yōu)化健康醫(yī)療資源配置、創(chuàng)新健康醫(yī)療服務(wù)的內(nèi)容與形式產(chǎn)生重要影響。研究內(nèi)容主要包括基于可穿戴醫(yī)療設(shè)備等收集個人健康數(shù)據(jù),基于云平臺的分布式存儲與并行計算、臨床決策和精準(zhǔn)醫(yī)學(xué),這為健康醫(yī)療服務(wù)推向智能化時代提供了有力支持。
(4)圖情計量研究。通過文獻(xiàn)梳理可知,圖書情報學(xué)計量研究在2011年以前已經(jīng)存在,但通過對比發(fā)現(xiàn),已有研究中使用聚類分析等方法的文獻(xiàn)數(shù)量較少,未成體系。2011年以后,計量研究方法用于圖情領(lǐng)域的文獻(xiàn)越來越多[21];從2017年起使用較多的方法有CireSpace、VOSviewer、層次分析法、Louvain算法等。計量研究的目的多為分析研究對象領(lǐng)域的現(xiàn)狀及發(fā)展情況,是領(lǐng)域研究自我檢測、自我認(rèn)知的重要手段。
研究主題的弱化、轉(zhuǎn)移及興起在各研究領(lǐng)域皆有可能出現(xiàn),分析其原因有以下兩點:一是受社會大環(huán)境的影響,如新生的科學(xué)技術(shù)帶動傳統(tǒng)產(chǎn)業(yè)發(fā)展、人們對相關(guān)服務(wù)的選擇發(fā)生改變;二是受該研究主題及其所屬領(lǐng)域發(fā)展情況的影響。弱化的主題并不意味著被學(xué)者完全摒棄,而大多是轉(zhuǎn)移或融入其他研究主題中,以適應(yīng)社會發(fā)展及時代需求。因此,研究主題應(yīng)在不同時期尋找不同的增長點,以保證學(xué)科領(lǐng)域的可持續(xù)發(fā)展。
根據(jù)研究主題演變趨勢可知,各領(lǐng)域、各行業(yè)都向著大數(shù)據(jù)、信息化、互聯(lián)網(wǎng)等方向發(fā)展,由此信息服務(wù)已向以物聯(lián)網(wǎng)為核心的智慧服務(wù)升級[22-23]。它是利用信息技術(shù)對傳統(tǒng)服務(wù)業(yè)進(jìn)行改造提升,同時也包括其他因信息經(jīng)濟(jì)發(fā)展催生的各類新興服務(wù)業(yè)。
圖書館智慧服務(wù)、智慧情報服務(wù)、政府智慧服務(wù)、新型科技智庫服務(wù)等新興服務(wù)在國內(nèi)逐步興起并開展,一方面,通過信息技術(shù)推動服務(wù)業(yè)重構(gòu)變革與創(chuàng)新,不斷孕育、催生服務(wù)新模式;另一方面,通過“互聯(lián)網(wǎng)+”持續(xù)推動各行各業(yè)服務(wù)模式的改造升級,促進(jìn)產(chǎn)業(yè)價值鏈向高附加值、高技術(shù)含量環(huán)節(jié)攀升,提升政府、圖書館等部門或機(jī)構(gòu)的智能化服務(wù)水平。當(dāng)前,我國智慧服務(wù)業(yè)發(fā)展在國際上還處于相對較低水平,隨著我國在電子政務(wù)/電子商務(wù)、數(shù)據(jù)開放、隱私保護(hù)、數(shù)據(jù)安全等領(lǐng)域的不斷規(guī)范和完善,智慧服務(wù)業(yè)將蘊藏巨大發(fā)展?jié)摿Γ尅爸腔邸狈?wù)生活,為中國經(jīng)濟(jì)實現(xiàn)趕超式、跨越式發(fā)展提供核心動力。
本研究基于CNKI期刊庫,使用信息服務(wù)相關(guān)主題的CSSCI期刊文獻(xiàn)數(shù)據(jù),將LDA主題模型與TF-IDF結(jié)合,利用時間段的連續(xù)性得到主題-文檔的相關(guān)性和強度規(guī)律,并按每年期刊文獻(xiàn)數(shù)量將1998—2019年劃分為4個時間段,縮小時間粒度,對現(xiàn)有信息服務(wù)文獻(xiàn)相關(guān)研究主題演變趨勢進(jìn)行探討,跟蹤其研究主題的持續(xù)、弱化、轉(zhuǎn)移與新興。
經(jīng)分析,本文得出以下研究結(jié)論:①1998年以來,我國信息服務(wù)領(lǐng)域的熱點研究主題主要有圖書館服務(wù)、信息產(chǎn)業(yè)服務(wù)、資源服務(wù)及學(xué)科服務(wù);②隨著時代演變與技術(shù)變遷,產(chǎn)生了很多新興的研究主題,如移動信息服務(wù)、智庫大數(shù)據(jù)、專業(yè)領(lǐng)域信息以及圖情計量研究等;③圖書館服務(wù)與互聯(lián)網(wǎng)一直是研究熱點,且發(fā)展日趨成熟。信息服務(wù)是改造提升傳統(tǒng)產(chǎn)業(yè)和提高各行各業(yè)技術(shù)水平、效率、競爭力的重要手段。本文根據(jù)實際背景對演化結(jié)果進(jìn)行合理的討論以正確把握信息服務(wù)的研究方向及演變過程,希望提出的信息服務(wù)發(fā)展脈絡(luò)對信息服務(wù)領(lǐng)域可持續(xù)發(fā)展提供一定的借鑒和指導(dǎo)。
由于LDA是詞袋模型,且是一種雙重稀疏模型[24],僅考慮摘要中主題詞出現(xiàn)的頻率,未考慮主題詞權(quán)重,因此對于分析結(jié)果有影響。后期將進(jìn)一步優(yōu)化LDA模型,注重不同主題詞的權(quán)重和同一主題詞在不同語境下內(nèi)涵的差異,提升信息服務(wù)模式主題演變分析結(jié)果的準(zhǔn)確性。
[1] 運行監(jiān)測協(xié)調(diào)局. 2019年上半年互聯(lián)網(wǎng)和相關(guān)服務(wù)業(yè)運行情況[EB/OL].[2019-07-30]. http://www.miit.gov.cn/n1146312/n1146904/n1648355/c7228214/content.html.
[2] 李陽. 適應(yīng)新時代背景的反恐情報信息服務(wù):體系構(gòu)建與實施路徑[J]. 圖書情報知識,2019(4):62-70.
[3] 郭蕾,余波,張妍妍,等. 精準(zhǔn)扶貧中的信息需求及其服務(wù)策略[J]. 圖書館論壇,2018,38(4):39-48.
[4] 何偉林,奉國和,謝紅玲. 基于CSToT模型的科技文獻(xiàn)主題發(fā)現(xiàn)與演化研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(11):64-72.
[5] 熊回香,楊雪萍,高連花. 基于用戶興趣主題模型的個性化推薦研究[J]. 情報學(xué)報,2017,36(9):916-929.
[6] 董克,韓宇姝. 基于Topic Model的我國檔案學(xué)主題結(jié)構(gòu)與演化研究[J]. 信息資源管理學(xué)報,2017,7(3):97-105.
[7] 劉自強,王效岳,白如江. 語義分類的學(xué)科主題演化分析方法研究——以我國圖書情報領(lǐng)域大數(shù)據(jù)研究為例[J]. 圖書情報工作,2016,60(15):76-85,93.
[8] 曲佳彬,歐石燕. 基于主題過濾與主題關(guān)聯(lián)的學(xué)科主題演化分析[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(1):64-75.
[9] 李湘東,張嬌,袁滿. 基于LDA模型的科技期刊主題演化研究[J]. 情報雜志,2014,33(7):115-121.
[10] 王婷婷,王宇,秦琳杰. 基于動態(tài)主題模型的時間窗口劃分研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(10):54-64.
[11] 汪漢清,樊振佳. 我國涉農(nóng)信息服務(wù)政策核心話語演變分析:以1980年以來中央“一號文件”為例[J]. 圖書情報工作,2019,63(8):96-106.
[12] 石欣鷺,田曉膺. 精準(zhǔn)扶貧需用好大數(shù)據(jù)[J]. 人民論壇,2018(22):66-67.
[13] 張琴. 農(nóng)業(yè)扶貧重在信息扶貧[J]. 中國國情國力,2004(12):36-37.
[14] 楊俊麗. 國內(nèi)學(xué)科服務(wù)創(chuàng)新發(fā)展研究[J]. 圖書館工作與研究,2012(4):21-24.
[15] 王煥景,孫興敏. 中外圖書館學(xué)科服務(wù)研究對比分析[J]. 圖書情報工作,2017,61(8):43-53.
[16] 孟令權(quán). 我國信息倫理理論研究現(xiàn)狀述評[J]. 圖書館學(xué)研究,2010(10):23-27.
[17] 楊智慧. 規(guī)范網(wǎng)絡(luò)行為的信息倫理[EB/OL].[2019-10-22].學(xué)習(xí)時報,http://www.china.com.cn/xxsb/txt/2004-10/27/content_5689552.htm.
[18] 趙楊,王娟. 基于用戶體驗的移動信息服務(wù)運作機(jī)制探究[J]. 情報資料工作,2013(2):89-93.
[19] 王博雅,鄧仲華. 移動閱讀服務(wù)質(zhì)量測評——基于ANP-模糊綜合評價法[J]. 圖書館論壇,2018,38(2):71-80.
[20] 陳潭. 從大數(shù)據(jù)到大智庫:大數(shù)據(jù)時代的智庫建設(shè)[J]. 中國行政管理,2017(12):42-45.
[21] 郭衛(wèi)寧. 國內(nèi)圖書情報學(xué)領(lǐng)域知識服務(wù)研究脈絡(luò)探析[J]. 圖書館學(xué)研究,2016(4):2-9.
[22] 羅立群,李廣建. 智慧情報服務(wù)與知識融合[J]. 情報資料工作,2019,40(2):87-94.
[23] 溫有奎. 從數(shù)字信息服務(wù)到智慧服務(wù)——以“淘智”為例[J]. 數(shù)字圖書館論壇,2015(10):2-7.
[24] 張衛(wèi)衛(wèi),胡亞琦,翟廣宇,等. 基于LDA模型和Doc2vec的學(xué)術(shù)摘要聚類方法[J/OL]. 計算機(jī)工程與應(yīng)用:1-8[2019-10-24]. http://kns.cnki.net/kcms/detail/11.2127.TP.20191010.1344.010.html.
Research on Subject Extraction and Evolution of Information Service Literature Based on LDA Topic Model
QIAN DanMin1ZHENG JianMing2
( 1. Department of Medical Informatics of Medical School, Nantong University, Nantong 226001, China;2. School of Information Management, Nanjing University, Nanjing 210023, China )
LDA topic model is used to sort out the evolution of domestic research subject of information service, and provide reference and guidance for sustainable development in this field. Using the CNKI journal database as the information source, the CSSCI journals are searched for the topic of information service, and the non-conformity papers are excluded. A total of 8 908 papers are retrieved and divided into four stages according to the annual literature volume trend. Building an LDA topic model based on TF-IDF, MindMapper is used to draw the subject evolution map to compare and analyze the persistence, weakening, transfer and emerging of the research topic. The results of the model show that since 1998, the main research topics in the field of information services in China include library services, information industry services, resource services and subject services; library service models and information ethics research have gradually weakened and shifted; mobile information services, think tanks data, professional field information, and graph measurement have become hotspots in this field in recent years.
Information Service; LDA Topic Modeling; TF-IDF; Theme Evolution
*本研究得到教育部人文社會科學(xué)研究基金項目“新市民公共衛(wèi)生信息精準(zhǔn)化服務(wù)模式研究”(編號:17YJCZH140)、江蘇省哲學(xué)社會科學(xué)基金項目“居民健康信息精準(zhǔn)服務(wù)模式研究”(編號:18SHB004)、江蘇省高校哲學(xué)社會科學(xué)研究基金項目“新型城鎮(zhèn)化進(jìn)程中公共衛(wèi)生信息精準(zhǔn)化服務(wù)模式研究”(編號:2017SJB1211)和南通大學(xué)博士基金“健康管理智慧信息服務(wù)模式研究”(編號:03082161)資助。
G203
10.3772/j.issn.1673-2286.2019.10.003
錢旦敏,女,1981年生,博士,副教授,研究方向:數(shù)據(jù)建模,E-mail:qdm11@163.com。
鄭建明,男,1960年生,博士,教授,研究方向:信息資源管理。
(2019-10-08)