羅欣怡
關(guān)鍵詞:k-means聚類算法;知識(shí)擴(kuò)散;圖書情報(bào)學(xué);管理學(xué);經(jīng)濟(jì)學(xué);對(duì)比分析
0 引言
知識(shí)擴(kuò)散最早于1924年由美國(guó)科學(xué)家Learned[1]在《美國(guó)公共圖書館與知識(shí)擴(kuò)散》一書中提出。陳超美等[2]將基于引文分析的知識(shí)擴(kuò)散定義為知識(shí)在科學(xué)文獻(xiàn)與專利中的應(yīng)用和發(fā)展。在信息化社會(huì),知識(shí)發(fā)展生產(chǎn)、創(chuàng)新轉(zhuǎn)化的重要作用日益顯著,知識(shí)擴(kuò)散作為知識(shí)生產(chǎn)和傳播的重要組成部分,在知識(shí)創(chuàng)新過程中發(fā)揮著重要作用[3]。
國(guó)內(nèi)外學(xué)者從不同視角對(duì)知識(shí)擴(kuò)散進(jìn)行了大量研究,其中用基于引文分析的文獻(xiàn)計(jì)量方法來定量研究知識(shí)擴(kuò)散現(xiàn)象持續(xù)升溫,相比國(guó)外研究?jī)A向于計(jì)量指標(biāo)的創(chuàng)新,如Liu和Rousseau定義了學(xué)科知識(shí)擴(kuò)散廣度(Field Diffusion Breadth) 和擴(kuò)散強(qiáng)度(Field Diffu? sion Intensity) [4]。國(guó)內(nèi)學(xué)者更注重于實(shí)證分析,陳吉雨[5]采用LDA主題模型方法,基于語義層次提取并分析主題詞,了解圖情領(lǐng)域和新聞傳播學(xué)間知識(shí)擴(kuò)散情況。王立梅[6]基于引文內(nèi)容構(gòu)建有向網(wǎng)絡(luò),研究老子思想在海外的知識(shí)擴(kuò)散和發(fā)展脈絡(luò)。朱猛男等[7]基于Bass模型進(jìn)行參數(shù)估計(jì),預(yù)測(cè)學(xué)科未來發(fā)展趨勢(shì),驗(yàn)證是否擬合S型曲線。
現(xiàn)有實(shí)證研究主要對(duì)學(xué)科領(lǐng)域使用引文分析的方法為研究單元,宏觀分析某一學(xué)科向其他學(xué)科擴(kuò)散情況,而針對(duì)某一具體知識(shí)在不同領(lǐng)域的擴(kuò)散比較研究較少。k-means聚類算法作為數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法之一,在眾多領(lǐng)域都得到了廣泛應(yīng)用,研究其在不同領(lǐng)域的擴(kuò)散差異是有意義的。本文根據(jù)創(chuàng)新擴(kuò)散理論,從知識(shí)擴(kuò)散的過程角度,采用時(shí)序分析方法,以k-means聚類算法為具體知識(shí)實(shí)例,結(jié)合擴(kuò)散指標(biāo),分析其在圖情學(xué)、管理學(xué)和經(jīng)濟(jì)學(xué)領(lǐng)域的知識(shí)擴(kuò)散差異,有利于了解各學(xué)科目前對(duì)k-means的吸收程度和不同的發(fā)展方向,能夠?yàn)榉治鼍唧w知識(shí)在學(xué)科間的擴(kuò)散情況提供借鑒參考。
1 研究綜述
1.1 創(chuàng)新擴(kuò)散理論
創(chuàng)新擴(kuò)散理論最早由Rogers 提出[8],通過對(duì)人類學(xué)、社會(huì)學(xué)、傳播學(xué)、經(jīng)濟(jì)學(xué)等領(lǐng)域的實(shí)證分析得出:成功擴(kuò)散的過程呈現(xiàn)鐘形正態(tài)曲線,創(chuàng)新的累積采納人數(shù)呈S形曲線分布。創(chuàng)新擴(kuò)散理論的主要概念包括:采納速度、采納加速度、一階拐點(diǎn)和二階拐點(diǎn)。其中,采納速度就是某時(shí)刻新增采納者的數(shù)量;采納加速度就是某時(shí)刻擴(kuò)散速度的變化量;一階拐點(diǎn)就是采納速度最大的點(diǎn),此時(shí)的采納數(shù)約占最終采納數(shù)的50%,新增采納數(shù)最大;二階拐點(diǎn)就是采納加速度最大的點(diǎn),擴(kuò)散在此時(shí)達(dá)到臨界值,此后采納加速度放緩,但仍處于增長(zhǎng)階段,二階拐點(diǎn)可用于預(yù)測(cè)知識(shí)是否成功擴(kuò)散。
1.2 知識(shí)擴(kuò)散研究
學(xué)術(shù)創(chuàng)新的擴(kuò)散就是學(xué)術(shù)領(lǐng)域新知識(shí)的擴(kuò)散[9]。從知識(shí)擴(kuò)散的方向來看,知識(shí)擴(kuò)散分為單向和雙向,通常從知識(shí)單元角度進(jìn)行統(tǒng)計(jì),知識(shí)單元主要有文獻(xiàn)、作者、期刊、學(xué)科等[10]。其中基于單篇文獻(xiàn)的研究是單向的,其余研究單元的擴(kuò)散過程均為雙向?,F(xiàn)有實(shí)證研究主要以學(xué)科為知識(shí)擴(kuò)散的單元,把文獻(xiàn)作為研究最細(xì)力度的分析對(duì)象,著重基礎(chǔ)理論研究,構(gòu)建知識(shí)擴(kuò)散相關(guān)評(píng)價(jià)指標(biāo),描述擴(kuò)散的基本特征進(jìn)行定量分析,以了解知識(shí)在其他領(lǐng)域的擴(kuò)散情況。國(guó)外對(duì)于知識(shí)擴(kuò)散研究起步較早,注重計(jì)量指標(biāo)的創(chuàng)新。相比之下,國(guó)內(nèi)學(xué)者多進(jìn)行實(shí)證分析。
首先,通過擴(kuò)散指標(biāo)研究知識(shí)擴(kuò)散情況是必備步驟。2002年Rowlands首次提出了以期刊為知識(shí)擴(kuò)散的單元的期刊擴(kuò)散指數(shù)(Rowlands Diffusion Index) [11]。Liu和Rousseau[4]基于 ESI 的學(xué)科分類定義了“學(xué)科知識(shí)擴(kuò)散廣度”(Field Diffusion Breadth) 和“學(xué)科知識(shí)擴(kuò)散強(qiáng)度”(Field Diffusion Intensity) ,“廣度”和“強(qiáng)度”分別從覆蓋范圍和采納頻次的角度描述擴(kuò)散過程[10]。國(guó)內(nèi)對(duì)學(xué)科知識(shí)擴(kuò)散的研究,主要基于學(xué)者宋歌定義的相關(guān)擴(kuò)散指標(biāo)[9]。他將擴(kuò)散廣度(diffusion breadth) 和擴(kuò)散強(qiáng)度(diffusion strength) 分別定義為:采納某創(chuàng)新的研究領(lǐng)域數(shù)量和關(guān)于某創(chuàng)新的知識(shí)信息從一個(gè)研究領(lǐng)域到另一個(gè)研究領(lǐng)域的流量,用創(chuàng)新采納學(xué)科對(duì)源發(fā)學(xué)科知識(shí)的引用次數(shù)來衡量;擴(kuò)散速度(diffusion rate) 指一段時(shí)間間隔內(nèi),新增的知識(shí)采納量;擴(kuò)散加速度(diffusion acceleration) 指一段時(shí)間間隔內(nèi),擴(kuò)散速度的變化量;擴(kuò)散延時(shí)(diffusion delay) 指從知識(shí)在源發(fā)領(lǐng)域的提出到其他領(lǐng)域的應(yīng)用必然存在的時(shí)間差。
此外,深入到研究?jī)?nèi)容進(jìn)行知識(shí)擴(kuò)散研究也是必要的。目前基于引文的知識(shí)擴(kuò)散主要利用小世界、引文網(wǎng)絡(luò)和主路徑分析等方法,進(jìn)行基于特征、基于路徑和基于測(cè)度的研究[12]。趙星等通過構(gòu)建引文網(wǎng)絡(luò),定量刻畫我國(guó)文科領(lǐng)域的知識(shí)擴(kuò)散并將結(jié)果可視化[13]。但是已有知識(shí)擴(kuò)散研究多是針對(duì)某個(gè)領(lǐng)域的擴(kuò)散特征進(jìn)行分析,而針對(duì)某一具體知識(shí)在不同領(lǐng)域的擴(kuò)散情況研究相對(duì)較少。宋歌根據(jù)創(chuàng)新擴(kuò)散理論結(jié)合分析時(shí)間流的主路徑分析方法,進(jìn)行了具體知識(shí)擴(kuò)散實(shí)證研究,根據(jù)擴(kuò)散速度和加速度,創(chuàng)造性地將擴(kuò)散分為四個(gè)階段[9],此后又通過繪制主題圖,細(xì)分?jǐn)U散階段探究共被引分析方法在各學(xué)科的創(chuàng)新迭代[14]。孟文靜等[15]從工具視角展現(xiàn)了特定學(xué)科應(yīng)用軟件解決學(xué)科問題的進(jìn)程。朱猛男等[7]運(yùn)用創(chuàng)新擴(kuò)散理論分析同領(lǐng)域不同軟件擴(kuò)散過程。
1.3 k-means 算法
k-means 算法由Mac Queen[16] 在1967 年首次提出,是一種無監(jiān)督學(xué)習(xí),同時(shí)也是基于劃分的聚類算法[17]。他給出了k-means算法的詳細(xì)步驟,并用數(shù)學(xué)方法進(jìn)行了證明。初始需確定簇的個(gè)數(shù)k,通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到質(zhì)心的距離(通常使用歐氏距離),選擇距離最小的質(zhì)心對(duì)應(yīng)的簇作為該數(shù)據(jù)點(diǎn)的劃分,基于該劃分過程后更新簇的質(zhì)心。如此迭代,直至各個(gè)簇的質(zhì)心不再變化即算法收斂為止。
由于k-means算法原理簡(jiǎn)單,實(shí)現(xiàn)方便,聚類效果好,模型可解釋性強(qiáng)等優(yōu)點(diǎn),成功應(yīng)用于文檔聚類[18]、客戶細(xì)分[19]、異常數(shù)據(jù)檢測(cè)[20]、圖像分割[21]等眾多任務(wù),在2006年ICDM大會(huì)上被票選為數(shù)據(jù)挖掘領(lǐng)域的十大經(jīng)典算法第二,廣受各領(lǐng)域?qū)W者的青睞。但k- means算法也存在一些缺陷與不足,比如聚類結(jié)果嚴(yán)重依賴于簇中心的初始化、聚類效果對(duì)噪聲敏感、聚類可能陷入局部最優(yōu)解、聚類個(gè)數(shù)如何確定等,各領(lǐng)域的眾多學(xué)者不斷對(duì)k-means進(jìn)行改進(jìn)[22-24]。
2 研究設(shè)計(jì)和實(shí)驗(yàn)數(shù)據(jù)
2.1 研究思路
本文從擴(kuò)散指標(biāo)和研究主題兩個(gè)方面來研究具體知識(shí)k-means聚類算法在不同領(lǐng)域的擴(kuò)散差異(圖1) 。首先,通過計(jì)算多個(gè)擴(kuò)散指標(biāo),繪制擴(kuò)散曲線,對(duì)k-means整體擴(kuò)散和其在選定的幾個(gè)學(xué)科中的擴(kuò)散情況進(jìn)行縱向時(shí)序分析包括擴(kuò)散廣度、擴(kuò)散強(qiáng)度、擴(kuò)散階段,以此了解所處擴(kuò)散階段。依據(jù)k-means在源發(fā)領(lǐng)域提出的時(shí)間和不同領(lǐng)域首次采納k-means的時(shí)間,計(jì)算擴(kuò)散延時(shí),橫向比較各學(xué)科采納k-means的起步先后順序。然后,利用VOSviewer軟件進(jìn)行共詞聚類,繪制各學(xué)科不同擴(kuò)散階段的研究主題圖,從主題層面探究各學(xué)科擴(kuò)散發(fā)展異同。最后,通過將知識(shí)擴(kuò)散主題演變與學(xué)科論文形式的研究成果相結(jié)合,分析知識(shí)擴(kuò)散趨勢(shì)的原因,進(jìn)行擴(kuò)散對(duì)比,總結(jié)擴(kuò)散指標(biāo)與擴(kuò)散趨勢(shì)的變化關(guān)系。
2.2 數(shù)據(jù)獲取及預(yù)處理
根據(jù)《學(xué)位授予和人才培養(yǎng)學(xué)科目錄》[25](2018年版),圖書情報(bào)與檔案管理屬于管理學(xué)下設(shè)的一級(jí)學(xué)科,管理學(xué)和經(jīng)濟(jì)學(xué)聯(lián)系緊密,因此本研究選取圖書情報(bào)學(xué)領(lǐng)域,以及同屬于管理類的管理學(xué)和相關(guān)的經(jīng)濟(jì)學(xué),作為實(shí)證分析領(lǐng)域。
選取Web of Science(以下簡(jiǎn)稱WOS) 核心合集的SCI-EXPANDED和SSCI數(shù)據(jù)庫(kù)作為數(shù)據(jù)源,采用高級(jí)檢索,在“Topic”字段輸入檢索詞“k-means”O(jiān)R “kmeans”以保證檢全率和檢準(zhǔn)率,文獻(xiàn)類型設(shè)定為“Article”,時(shí)間跨度為1967年至2021年,檢索時(shí)間為2m0e2a3ns年在2所月有1學(xué)日科,的命研中究文題獻(xiàn)錄數(shù),獲1取8 2的75數(shù)篇據(jù),均這為些不是帶k引-文關(guān)系的Excel格式數(shù)據(jù)。進(jìn)一步地,以WOS學(xué)科分類為依據(jù),修改檢索式,Web of Science Categories字段分別設(shè)定為“Information Science & Library Science”“Management”“Economics”分別獲取k-means 在圖情學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)的題錄數(shù)據(jù)97條、610條和115條。
通過對(duì)原始數(shù)據(jù)集進(jìn)行探查,發(fā)現(xiàn)存在兩條Early Access晚于正式出版年份的異常題錄數(shù)據(jù),論文分別于2017年和2021年正式出版,但在線發(fā)表時(shí)間為2020年和2022年。經(jīng)查閱,此處為確保研究成果擴(kuò)散的時(shí)效性不作處理。至此,將上述18275條題錄作為實(shí)驗(yàn)數(shù)據(jù)集。
3 實(shí)證與結(jié)果
3.1 k-means 算法擴(kuò)散廣度及強(qiáng)度
首先計(jì)算擴(kuò)散廣度,了解采納k-means的學(xué)科數(shù)量和知識(shí)擴(kuò)散的總體趨勢(shì),通過分析k-means在不同學(xué)科的領(lǐng)域分布,檢驗(yàn)擴(kuò)散是否服從冪律分布。然后通過比較擴(kuò)散強(qiáng)度,分析不同領(lǐng)域吸收知識(shí)的體量,與后續(xù)的擴(kuò)散階段分析互為印證。
k-means在諸多領(lǐng)域均有應(yīng)用的引證文獻(xiàn),只考慮領(lǐng)域論文占比大于0.1%的學(xué)科,擴(kuò)散廣度為168,可體現(xiàn)k-means算法應(yīng)用于各領(lǐng)域的普適性。繪制散點(diǎn)圖(圖2) ,使用擴(kuò)散強(qiáng)度驗(yàn)證k-means在各領(lǐng)域的擴(kuò)散服從冪律分布,即:k-means在極少數(shù)的學(xué)科領(lǐng)域完成了極大規(guī)模的擴(kuò)散,而絕大部分的學(xué)科領(lǐng)域?qū)ζ湮蛰^少。本研究選取的圖情學(xué)、管理學(xué)和經(jīng)濟(jì)學(xué)擴(kuò)散強(qiáng)度均小于1000,位于冪律曲線的“長(zhǎng)尾”部分,數(shù)據(jù)量相近,表明學(xué)科間知識(shí)擴(kuò)散情況具有可比性。
3.2 k-means 算法擴(kuò)散曲線
根據(jù)擴(kuò)散加速度劃分?jǐn)U散階段,確定各領(lǐng)域目前所處的擴(kuò)散階段,據(jù)此預(yù)測(cè)未來知識(shí)擴(kuò)散走向,同時(shí)參考整體擴(kuò)散情況與之進(jìn)行比較。其中擴(kuò)散速度以各學(xué)科每年應(yīng)用k-means 算法的論文數(shù)計(jì)算,累積文獻(xiàn)數(shù)形成擴(kuò)散曲線。
首先,利用擴(kuò)散速度繪制各學(xué)科擴(kuò)散曲線(圖3) 。根據(jù)曲線識(shí)別得到各領(lǐng)域目前均處于起飛階段,圖情學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)在擴(kuò)散階段的文獻(xiàn)數(shù)分別為51篇、79篇、15篇,起步階段的文獻(xiàn)數(shù)分別為46篇、531篇、100篇。各學(xué)科擴(kuò)散曲線進(jìn)入各個(gè)擴(kuò)散階段均滯后于總擴(kuò)散階段。總體擴(kuò)散于1991年進(jìn)入起飛階段,管理學(xué)、經(jīng)濟(jì)學(xué)和圖情學(xué)于 2009 年、2013年和2017 年先后進(jìn)入起飛階段,成熟階段和衰退階段均未顯現(xiàn)??梢灶A(yù)測(cè)未來幾年,三個(gè)學(xué)科均會(huì)產(chǎn)出大量相關(guān)研究成果。
其次,通過識(shí)別二階拐點(diǎn),將起飛階段劃分為兩個(gè)階段論述。經(jīng)濟(jì)學(xué)和圖情學(xué)分別于2013年和2017 年達(dá)到二階拐點(diǎn),恰為進(jìn)入起飛階段的年份,表明k-means 在兩個(gè)學(xué)科的擴(kuò)散一經(jīng)進(jìn)入起飛階段就跨越了拐點(diǎn),進(jìn)入加速迭代期[14]。由于達(dá)到了臨界值,其累積成果數(shù)在時(shí)間軸上將形成 S 形曲線,可以預(yù)見k-means 算法在經(jīng)濟(jì)學(xué)和圖情學(xué)將實(shí)現(xiàn)成功擴(kuò)散。而總體擴(kuò)散和管理學(xué)的擴(kuò)散加速度在2021年最大,此后擴(kuò)散加速度是否繼續(xù)增大猶未可知,故擴(kuò)散曲線暫未出現(xiàn)二階拐點(diǎn),表明這兩個(gè)學(xué)科的知識(shí)擴(kuò)散的累積采納數(shù)未達(dá)到臨界值,是否成功擴(kuò)散也有待探究。此外,由于各學(xué)科的擴(kuò)散速度仍在不斷增長(zhǎng),無法判斷何時(shí)到達(dá) S 型曲線的一階拐點(diǎn)??偨Y(jié)上述情況,得到表1。
3.3 k-means 算法擴(kuò)散主題識(shí)別
利用VOSviewer軟件[26]對(duì)題錄數(shù)據(jù)中的標(biāo)題和摘要基于共詞進(jìn)行聚類,并通過自定義同義詞詞典合并同義關(guān)鍵詞,分別繪制起步階段和起飛階段研究主題圖,探究各學(xué)科知識(shí)擴(kuò)散的異同。
3.3.1 k-means 算法在圖情學(xué)的擴(kuò)散主題識(shí)別
利用獲取的97條圖情學(xué)題錄數(shù)據(jù),設(shè)置共詞閾值為3,自定義同義詞詞典,例如:將principal component amneaalnyssi聚s和類P算C法A在視圖為情同學(xué)義的詞起,步基階于段共和詞起聚飛類階得段到的k研-究主題。
得到k-means聚類算法在圖情學(xué)的起步階段包含4個(gè)研究主題、61個(gè)關(guān)鍵詞(圖4) 。研究主題1包括的關(guān)鍵詞有:time、accuracy、profile、service等。研究主題2包括的關(guān)鍵詞有:test、sample、behaviour、health 等。研究主題3包括的關(guān)鍵詞有:experimental result、algorithm、effectiveness、retrieval、combination 等,主要是對(duì)具體研究過程的描述。研究主題4包括的關(guān)鍵詞有:principal component analysis、comparison等,主要是將k-means算法與主成分分析等方法相結(jié)合,構(gòu)建優(yōu)化模型,同時(shí)通過對(duì)多種聚類算法的對(duì)比分析,探究各自的優(yōu)劣,該主題可總結(jié)為“算法優(yōu)化”。此外,各主題均將算法應(yīng)用于實(shí)際場(chǎng)景,獲取用戶健康信息,分析用戶行為,有關(guān)信息檢索和確定用戶畫像的部分研究對(duì)k-means算法也有所涉及。
基于共詞聚類得到k-means聚類算法在圖情學(xué)的起飛階段包含4個(gè)研究主題、63個(gè)關(guān)鍵詞(圖5) 。研究主題1包括的關(guān)鍵詞有:experimental result、effec? tiveness、similarity、vector space、K-NN、identification、sentiment analysis等,除了對(duì)k-means類間相似度和聚類效果的評(píng)估外,還將其與其他聚類算法如K-NN進(jìn)行比較,結(jié)合向量空間模型創(chuàng)新算法和進(jìn)行情感分析。研究主題2包括的關(guān)鍵詞有:quality、profile、ser? vice、internet等,主要對(duì)領(lǐng)域內(nèi)不同對(duì)象進(jìn)行實(shí)例分析,重視提升服務(wù)水平和產(chǎn)品質(zhì)量。研究主題3包括的關(guān)鍵詞有:core、correlation等,聚焦互聯(lián)網(wǎng)信息和商業(yè)物聯(lián)網(wǎng)核心知識(shí)產(chǎn)權(quán)。研究主題4包括的關(guān)鍵詞有:company、social network analysis、empirical analysis 等,主要進(jìn)行社會(huì)網(wǎng)絡(luò)的實(shí)證分析,注重企業(yè)建設(shè)??傮w來說,起飛階段利用算法對(duì)具體實(shí)例的分析相比前一階段增加,各主題對(duì)此均有涉及,文檔聚類的成果采納數(shù)較多,這與圖情學(xué)的傳統(tǒng)研究方法多為基于引文的計(jì)量分析有關(guān)。
3.3.2 k-means 算法在管理學(xué)的擴(kuò)散主題識(shí)別
利用獲取的610條管理學(xué)題錄數(shù)據(jù),自定義同義詞詞典,例如:將GAs和genetic algorithm、ANN和arti? ficial neural network 視為同義詞,基于共詞聚類得到k-means聚類算法在管理學(xué)的起步階段和起飛階段的研究主題。
將k-means聚類算法在管理學(xué)起步階段的共詞閾值設(shè)置為3,獲得4個(gè)研究主題、71個(gè)關(guān)鍵詞(圖6) 。
研究主題1 包括的關(guān)鍵詞有:anova、consumer、firm、product、service、supply chain 等,利用方差分析進(jìn)行聚類檢驗(yàn),同時(shí)將模型應(yīng)用于領(lǐng)域?qū)嵗?,從公司、消費(fèi)者、產(chǎn)品、服務(wù)和供應(yīng)鏈多角度進(jìn)行分析,可總結(jié)為“應(yīng)用場(chǎng)景”。研究主題2包括的關(guān)鍵詞有:complex? ity、robustness、ability、accuracy、computational time、Monte Carlo simulation 等,主要從模型復(fù)雜度、準(zhǔn)確性、魯棒性、時(shí)間復(fù)雜度等指標(biāo)對(duì)算法進(jìn)行評(píng)價(jià),使用蒙特卡洛方法模擬數(shù)據(jù),可總結(jié)為“算法分析”。研究主題3包括的關(guān)鍵詞有:artificial neutral network、som network、combination、costumer、market segmentation等,主要描述了知識(shí)擴(kuò)散與其他學(xué)科結(jié)合的相關(guān)主題,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)中的相關(guān)算法如:SOM自組織映射網(wǎng)絡(luò),以提高模型效果。另外在實(shí)際應(yīng)用方面,主要將k-means算法用于解決市場(chǎng)劃分問題,該主題可總結(jié)為“算法優(yōu)化與應(yīng)用”。研究主題4包括的關(guān)鍵詞有:anneal? ing、distance、fuzzy-c、optimal solution、outlier等,將k-means與模糊c-均值等聚類算法比較分析,探究各自的優(yōu)劣,運(yùn)用模擬退火算法,關(guān)注聚類結(jié)果的離群點(diǎn),尋找目標(biāo)函數(shù)全局最優(yōu)解。
將k-means聚類算法在管理學(xué)的起飛階段的共詞閾值設(shè)置為14,自定義同義詞詞典,例如:將particle swarm op? tmimacizhaitnieon視和為P同SO義、詞svm,獲和得su3p個(gè)po主rt 題ve、ct8o5r 個(gè)關(guān)鍵詞(圖7) 。研究主題1包括的關(guān)鍵詞有:case study、company、cost、de? lmatainodn、shpirpod等uc,t主、s要erv描ic述e、了ide實(shí)nt例ific分at析ion的、r主e?題方向,總結(jié)為“應(yīng)用場(chǎng)景”。研究主題t2er包、c括en的tro關(guān)id、鍵di詞sta有nce:、imiteprraotvieomn、epnot、incte no?f innetteirce aslt、gopraitrhtimcl、em sawcahrimne o lpetairmniiznagti等on。、g為e?提高算法的魯棒性,一方面從算法原理出發(fā),關(guān)注特征和中心點(diǎn)的選取,重點(diǎn)討論中心簇距離這一參數(shù);另一方面,在前一階段的基礎(chǔ)上,進(jìn)一步與人工智能算法如:粒子群優(yōu)化算法、遺傳算法結(jié)合,還吸收了機(jī)器學(xué)習(xí)方法進(jìn)一步提高模型性能。研究主題2可總結(jié)為“算法優(yōu)化”。研究主題3 包括的關(guān)鍵詞有:image-based embedded wireless sen? tsuorre 、nsevtmwo、rdkest、ecsteiolfn-、oerxgpanerizt isnygs temma、ps、enfesai?? tivity、accuracy等,涵蓋了具體案例的分析主題,建立完善專家體系,著重追蹤和挖掘用戶興趣點(diǎn),以實(shí)現(xiàn)智能推薦來最大化用戶潛在信息價(jià)值。此外,利用準(zhǔn)確率、靈敏度等指標(biāo)評(píng)價(jià)聚類效果和穩(wěn)定性。該主題可總結(jié)為“算法評(píng)價(jià)與應(yīng)用”。有了更優(yōu)算法作為理論支撐,案例分析的論文體量增大,研究方向趨向多樣化,對(duì)產(chǎn)品等前期較少或未涉及的主體研究增加,更加關(guān)注主體間的關(guān)系。結(jié)合管理學(xué)學(xué)科演進(jìn)過程可知,早在1996年進(jìn)入知識(shí)經(jīng)濟(jì)時(shí)代便提出了知識(shí)管理的理念,管理學(xué)發(fā)展立足于創(chuàng)新、戰(zhàn)略、承諾等關(guān)鍵詞[27],故在起步階段便將算法與其他學(xué)科知識(shí)融合創(chuàng)新。近年用k-means算法進(jìn)行分析建模在房地產(chǎn)、營(yíng)銷等行業(yè)廣受青睞,因此k-means 算法在管理學(xué)擴(kuò)散的主題變化與學(xué)科演變趨勢(shì)相符。
3.3.3 k-means 算法在經(jīng)濟(jì)學(xué)的擴(kuò)散主題識(shí)別
利用獲取的115條經(jīng)濟(jì)學(xué)題錄數(shù)據(jù),自定義同義詞詞典,例如:將 activity 和 choice 均視為 activity choice,基于共詞聚類得到k-means聚類算法在經(jīng)濟(jì)學(xué)的起步階段和起飛階段的研究主題。
將k-means聚類算法在經(jīng)濟(jì)學(xué)的起步階段的共詞閾值設(shè)置為2,獲得3 個(gè)研究主題、25 個(gè)關(guān)鍵詞(圖8) 。
研究主題1包括的關(guān)鍵詞有:difference、time、stu? dent等,研究主題2包括的關(guān)鍵詞有:activity choice、group 等,研究主題3 包括的關(guān)鍵詞有:cdm project、similarity等。各主題沒有對(duì)算法特定方面的集中描述,都涉及算法分析和少量的實(shí)例分析。經(jīng)濟(jì)學(xué)對(duì)k- means的吸收時(shí)間最晚,在起步階段研究成果較少,主題也相比更為單一,停留在算法本身的時(shí)間效率、分類效果、組間差異等方面進(jìn)行研究。少量實(shí)例研究圍繞學(xué)生和清潔發(fā)展機(jī)制主體,k-means算法常應(yīng)用于活動(dòng)選擇模型的構(gòu)建過程。主題識(shí)別結(jié)果可由經(jīng)濟(jì)學(xué)研究熱點(diǎn)得到印證,起步階段應(yīng)用k-means原始算法完成具體場(chǎng)景的分類研究,如:金融系統(tǒng)風(fēng)險(xiǎn)狀態(tài)分類[28]、作物管理分區(qū)研究[29]等,并引入評(píng)價(jià)指標(biāo),對(duì)結(jié)果進(jìn)行了比較和評(píng)價(jià)。
將k-means聚類算法在經(jīng)濟(jì)學(xué)起飛階段的共詞閾值設(shè)置為4,獲得5個(gè)研究主題、74個(gè)關(guān)鍵詞(圖9) 。研究主題1 包括的關(guān)鍵詞有:behaviour、consumer、product、market、quality、willingness 等,主要是在實(shí)際案例中對(duì)不同主體的討論,關(guān)注客戶需求和購(gòu)買意愿、調(diào)研市場(chǎng)、把關(guān)產(chǎn)品質(zhì)量。研究主題2包括的關(guān)鍵詞有:PCA、time,將主成分分析與k-means 相結(jié)合。研究主題3包括的關(guān)鍵詞有:efficiency、evaluation等,主要是對(duì)算法執(zhí)行效率的評(píng)估,可總結(jié)為“算法分析”。研究主題4包括的關(guān)鍵詞有:algorithm、estima? tion、index等,除了評(píng)價(jià)模型算法外,將算法模型與經(jīng)濟(jì)學(xué)指標(biāo)相結(jié)合,進(jìn)行定量分析。研究主題5包括的關(guān)鍵詞有:case study、China、region、density、recommen? dation等,主要是對(duì)案例分析中數(shù)據(jù)來源和研究對(duì)象的描述,市場(chǎng)研究類型多為跨區(qū)域市場(chǎng),以區(qū)域?yàn)閱挝坏姆治鲞^程中考慮人口密度因素,研究主題1和5 可總結(jié)為“案例分析”。進(jìn)入該階段后,除了對(duì)原算法的深入探討,主要將算法應(yīng)用于實(shí)際案例,與前一階段相比,應(yīng)用場(chǎng)景進(jìn)一步豐富。
3.4 k-means 算法在不同學(xué)科的擴(kuò)散對(duì)比分析
橫向比較各學(xué)科知識(shí)擴(kuò)散主題層面的擴(kuò)散趨勢(shì)和相同階段下的異同,可分析得到三個(gè)學(xué)科在吸收知識(shí)和發(fā)展路徑的共性和特點(diǎn)。
1) k-means 聚類算法在圖書情報(bào)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)三個(gè)學(xué)科的相同點(diǎn)分析。各學(xué)科在起步階段大多停留在對(duì)原始k-means算法的應(yīng)用和效果評(píng)估,進(jìn)入起飛階段后,通過吸納、整合多學(xué)科已有理論、方法與技術(shù),提出改進(jìn)算法和優(yōu)化模型,結(jié)合領(lǐng)域具體實(shí)例進(jìn)行研究分析,而且在起飛階段均包含服務(wù)、公司等主題詞。
2) k-means 聚類算法在圖書情報(bào)學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)三個(gè)學(xué)科的不同點(diǎn)分析。首先,根據(jù)學(xué)科發(fā)展方向主題脈絡(luò)可知,對(duì)信息的獲取處理和再利用是圖情學(xué)的核心知識(shí)及發(fā)展方向,共詞聚類得到的關(guān)鍵詞“信息”“網(wǎng)絡(luò)”等是圖情學(xué)相比其他兩個(gè)學(xué)科的特有關(guān)鍵詞,也是該學(xué)科的研究熱點(diǎn)[30],可見知識(shí)擴(kuò)散沿襲本學(xué)科的主流研究主題且存在一定的后效性。但相比其他兩個(gè)學(xué)科,缺乏跨學(xué)科實(shí)現(xiàn)知識(shí)迭代創(chuàng)新。其次,圖情學(xué)在起步階段的研究主題與經(jīng)濟(jì)學(xué)類似,多是基于原始算法的應(yīng)用分析。而前者相比更注重對(duì)算法效率的討論和模型的構(gòu)建。猜想可能由于經(jīng)濟(jì)學(xué)擴(kuò)散延時(shí)晚于圖情學(xué),期間知識(shí)本身也進(jìn)一步發(fā)展,對(duì)原始算法的討論減少,創(chuàng)新采納學(xué)科對(duì)知識(shí)的應(yīng)用更為成熟。此外,相比其他兩個(gè)學(xué)科,經(jīng)濟(jì)學(xué)在起步階段共詞聚類效果較差,主題間存在交叉,說明該階段研究主題較為分散。圖情學(xué)和經(jīng)濟(jì)學(xué)一經(jīng)進(jìn)入起飛階段,對(duì)k-means算法的創(chuàng)新迭代就迅速增加,但對(duì)知識(shí)采納二次創(chuàng)新的發(fā)展路徑大相徑庭。圖情學(xué)對(duì)知識(shí)的二次創(chuàng)新相比其他學(xué)科“后勁不足”——研究主題關(guān)鍵詞的豐富度無明顯增長(zhǎng),且對(duì)知識(shí)的吸收情況與前一階段相似。最后,管理學(xué)的主題關(guān)鍵詞數(shù)在起步階段和起飛階段都顯著多于其他兩個(gè)學(xué)科,且基于原始算法結(jié)合實(shí)際應(yīng)用場(chǎng)景進(jìn)行了較多改進(jìn),其中不乏融合多領(lǐng)域知識(shí)的跨學(xué)科知識(shí)交叉現(xiàn)象??梢妅-means 算法在該領(lǐng)域的研究成果最豐富,擴(kuò)散效果最佳。
4 結(jié)論與展望
為比較k-means算法在圖情學(xué)、管理學(xué)、經(jīng)濟(jì)學(xué)的擴(kuò)散情況,本文首先從擴(kuò)散指標(biāo)的角度定量探究知識(shí)擴(kuò)散的特點(diǎn),然后基于創(chuàng)新擴(kuò)散理論,繪制擴(kuò)散曲線,比較各學(xué)科所處的擴(kuò)散階段,預(yù)測(cè)k-means在各學(xué)科未來的擴(kuò)散趨勢(shì),最后繪制共詞聚類主題圖,在主題層面上定性比較分析各學(xué)科采納k-means的異同,試圖為各學(xué)科吸收融合知識(shí)進(jìn)行創(chuàng)新迭代提供參考建議,并得出以下結(jié)論。首先,知識(shí)擴(kuò)散跨學(xué)科程度越高,創(chuàng)新迭代效果越好。圖情學(xué)相比其他兩個(gè)學(xué)科在各擴(kuò)散階段的研究主題豐富度較低,缺乏對(duì)k- means算法的二次創(chuàng)新。擴(kuò)散延時(shí)越大,學(xué)科對(duì)知識(shí)的吸收應(yīng)用成熟程度越高。經(jīng)濟(jì)學(xué)擴(kuò)散延時(shí)最大,在起步階段對(duì)算法原理的研究相對(duì)其他兩個(gè)學(xué)科較少,多為實(shí)例分析。其次,知識(shí)擴(kuò)散的再轉(zhuǎn)化程度和該學(xué)科的知識(shí)擴(kuò)散強(qiáng)度成正比。管理學(xué)采納k-means算法的成果數(shù)和主題數(shù)都顯著多于其他兩個(gè)學(xué)科,綜合人工智能等新興技術(shù)成果和領(lǐng)域需求對(duì)算法進(jìn)行了優(yōu)化改進(jìn),基于算法的實(shí)例分析更為深入、涉及更廣。最后,本研究的三個(gè)學(xué)科采納k-means的成果數(shù)都處于高速增長(zhǎng)期,為促進(jìn)學(xué)科迭代創(chuàng)新,未來研究要凝練學(xué)科內(nèi)涵,積極拓展學(xué)科外延,學(xué)科間互學(xué)互鑒,加強(qiáng)學(xué)科交叉,將理論成果應(yīng)用于實(shí)際。目前對(duì)各學(xué)科具體擴(kuò)散情況的主題對(duì)比分析中,主要基于共詞聚類,缺少深入主題語義的挖掘,未來研究將結(jié)合語義信息探究知識(shí)擴(kuò)散的異同。