李永忠 馬 原
(福州大學(xué)經(jīng)濟與管理學(xué)院 福建 福州 350116)
“智慧政府”這一概念是對“智慧城市”的引申和發(fā)展,智慧城市的建設(shè)對未來智慧政府的發(fā)展形勢有著十分深遠的影響。隨著傳統(tǒng)管理方式逐漸難以適應(yīng)政府日趨多樣化的公共事務(wù)管理職能需求,在現(xiàn)代化形勢下表現(xiàn)日漸乏力,智慧政府的構(gòu)建被各國政府提上日程,未來建設(shè)智慧政府將成為構(gòu)建服務(wù)型政府的重要舉措[1]。本文嘗試運用LDA主題詞篩選結(jié)合共詞聚類方法為智慧政府未來的研究領(lǐng)域提供可參考的研究方向。
本文數(shù)據(jù)來源是本文根據(jù)中國知網(wǎng)2010-2019年以智慧政府為主題進行精確檢索得到的國內(nèi)期刊、會議論文以及學(xué)術(shù)論文的共463篇文獻的摘要及關(guān)鍵詞,自2010年來,以智慧政府為主題的研究性學(xué)術(shù)論文發(fā)表量呈現(xiàn)明顯增長并于2017年到達峰值,近兩年呈現(xiàn)下降趨勢。
共詞分析法是研究學(xué)科熱點以及趨勢的一種常用方法,[2]它基于大量文本數(shù)據(jù)中某些詞匯共同出現(xiàn)的頻率來分析文章的研究主題與要點,很多領(lǐng)域都利用該方法進行研究熱點的分析。使用共詞分析方法一般采用以下幾個步驟:1.確定分析的問題,2.確定需要挖掘的文本,3.高頻詞匯的選定,4.構(gòu)建共詞矩陣,5.使用統(tǒng)計方法挖掘關(guān)聯(lián)性,6.得出結(jié)論。
LDA主題模型是一種利用極大后驗概率擬合單詞跟主題以及文檔跟主題的概率分布情況的監(jiān)督學(xué)習(xí)的主題分類模型。[3]筆者利用該方法進行主題詞選定主要由于使用LDA主題模型進行篩選后,一些沒有實際意義的高頻詞匯能夠被排除,[4]提升了共詞分析結(jié)果的實用性,從而帶來更有價值的實驗結(jié)果。
在Python結(jié)巴分詞結(jié)合LDA主題模型下能夠?qū)⒁恍ρ芯繘]有意義的高頻詞匯進行停用選取。基本步驟如下:對文本進行jieba分詞→選取高頻詞→確定停用詞→重新選取高頻詞→LDA模型打分→選取主題詞。
一般對主題詞的選取數(shù)量的確定要根據(jù)實驗數(shù)據(jù)量的大小確定,筆者為了避免主題詞選擇近似或重復(fù),在進行多次實驗后確定了本次實驗的主題選擇數(shù)量為10組,再從每組主題選取打分前10的詞匯作為主題詞,最終得能夠反應(yīng)國內(nèi)智慧政府建設(shè)研究特點的主題詞數(shù)量為61個。
經(jīng)過統(tǒng)計得出國內(nèi)智慧政府研究中所出現(xiàn)的頻次前20的主題詞中,“服務(wù)”、“技術(shù)”、“數(shù)據(jù)”詞頻分別達到258、211、199是除智慧政府建設(shè)以外詞頻數(shù)最高的,應(yīng)當是當下絕大部分研究文獻所涉及的領(lǐng)域。
主題詞提取完成后需要構(gòu)建詞共現(xiàn)頻次矩陣來反映各個主題詞間的關(guān)聯(lián)程度。然而此矩陣中的詞頻由于反映的是絕對數(shù)值且閾值范圍過大,從而難以真正的顯示出各個主題詞之間依賴關(guān)系及聯(lián)系程度的相對性,所以需要對數(shù)據(jù)進行歸一化處理用以反映詞對間的相互關(guān)聯(lián)強度。本文采用的數(shù)據(jù)歸一化處理方式是salton指數(shù)法來顯示詞語之間的相對聯(lián)系緊密程度,其公式為:[5]
公式中S(i,j)的值表示每一對詞之間的緊密程度,其值域分布于(0,1]區(qū)間內(nèi),S越大表示i與j的聯(lián)系強度越大。N表示的是主題詞i與j各自出現(xiàn)的頻次,分母表示的是兩個主題詞共現(xiàn)的頻次,經(jīng)過歸一化處理的矩陣如表1所示。
表1salton歸一化處理后的矩陣(部分)
由于詞共現(xiàn)統(tǒng)計僅僅是主題詞間兩兩聯(lián)系的緊密程度分析,可能不能完全反映研究文獻的研究關(guān)鍵點,所以引入類團分析來幫助將各個主題詞進行大類的劃分,一般使用聚類分析法將相互之間聯(lián)系比較緊密的多個主題詞歸為一個類團從而進行熱點歸類。[6]本次實驗使用了SPSS軟件對歸一化后的共詞矩陣進行聚類分析處理,采用系統(tǒng)聚類方法得到了表2中的四個大類。
表2 主題詞聚類劃分
在上表中,中心詞的選取由各個主題詞與其他主題詞共現(xiàn)頻率的平均值來確定稱作粘合力,粘合力越大即表示該主題詞與其他主題的聯(lián)系越強,即可確定為該類團的中心詞,[7]通過中心的整理歸納能夠?qū)υ擃悎F進行命名。在選取中心詞時筆者并未簡單的挑選粘合度最大的三個詞匯,而是對籠統(tǒng)性的詞匯進行篩除后在選取粘合力大的的主題詞作為中心詞。例如在類團1中,信息化、智能化、現(xiàn)代化的粘合力系數(shù)分別是0.339,0.295,0.273,粘合度是除“電子政務(wù)”、“智慧”2個詞之外位于該類團的前三的,采用其作為中心詞結(jié)合類團其他主題詞,歸納后可將該類團的名稱命名為“架構(gòu)搭建”,同理可以將其他三個類團分別命名為“頂層設(shè)計”、“信息化實施”和“宏觀綜述”。
進一步可以研究各類團的影響力情況,分別計算每個類團內(nèi)主題詞絕對點度中心度的平均值用來表示其影響力程度,最終可得到表3如下:
表3 類團影響力表
從上表可知目前在智慧政府領(lǐng)域的研究中,頂層設(shè)計的研究擁有最大的影響力,架構(gòu)搭建次之,說明我國國內(nèi)電子政務(wù)在智慧政府研究領(lǐng)域的研究還未完全成形;宏觀綜述應(yīng)該在以往的研究中趨于成熟,故而影響力有所下降;而隨著頂層設(shè)計與架構(gòu)搭建的不斷研究發(fā)展,現(xiàn)代的信息化實施可能成為未來主要的研究方向和熱門話題。
本文采用了共詞聚類方法,結(jié)合LDA主題模型對“智慧政府”領(lǐng)域研究現(xiàn)狀進行了分析。首先通過分詞工具將近年研究文獻進行分詞處理,再使用LDA模型對數(shù)據(jù)進行主題詞提取篩選出研究的對象構(gòu)成共詞矩陣,通過聚類方法將主題分為了4類,分別是:頂層設(shè)計、架構(gòu)搭建、宏觀綜述以及信息化實施。更進一步對每個類團進行了中心度計算,反映了類團影響力以及主題詞的重要程度。最后,提出了未來可能具有影響力的研究方向,為今后的智慧政府領(lǐng)域的研究提供一些思路。
本文將共詞聚類方法引入了“智慧政府”研究領(lǐng)域,為該領(lǐng)域的研究補充了更多的研究思路,用更為科學(xué)的方式對領(lǐng)域的熱點進行了分析。本文仍存在的不足是尚未區(qū)分不同來源的研究文獻的主題詞權(quán)重,未來能夠引入權(quán)重概念則會更好地突出重點文獻的研究方向,對今后的發(fā)展趨勢能進行更有效的分析預(yù)測。