王莉亞
(河南工程學(xué)院管理工程學(xué)院 鄭州 451191)
·情報分析·
基于特征詞突變的信息整合領(lǐng)域主題演化研究
王莉亞
(河南工程學(xué)院管理工程學(xué)院鄭州451191)
以Web of Science數(shù)據(jù)庫2000~2012年收錄的信息整合領(lǐng)域的論文為數(shù)據(jù)源,采用突變點(diǎn)識別方法獲取論文集合中文獻(xiàn)特征詞詞頻突變點(diǎn),以此為基礎(chǔ)將信息整合領(lǐng)域研究的發(fā)展過程劃分為4個階段:基礎(chǔ)期、平穩(wěn)期、活躍期和發(fā)展期,對各個階段的研究主題內(nèi)容進(jìn)行全面、客觀地分析。
突變點(diǎn) 信息整合 主題演化 主題研究
主題演化研究是學(xué)科領(lǐng)域研究的重要內(nèi)容。而主題演化的發(fā)展階段是主題演化研究中首先需要搞清楚的一個問題,只有對所要研究的主題所處的發(fā)展階段有一個準(zhǔn)確的劃分,才能對學(xué)科主題的發(fā)展?fàn)顩r做出正確的判斷。目前,關(guān)于主題演化發(fā)展階段的劃分并沒有統(tǒng)一標(biāo)準(zhǔn),不同學(xué)者從各自的研究角度和研究目的出發(fā)對主題演化的發(fā)展階段提出了各種劃分方法。目前常用的是定長方法,即通常按照2年、5年或10年為單位來劃分演化過程。這種方法操作比較簡單,但是其缺點(diǎn)是分段長度過大,主題內(nèi)容特征為許多特征的匯合;另一方面,如果樣本長度過小,在不同討論時間內(nèi),主題內(nèi)容差異不大,很難得出正確結(jié)論。同時主題內(nèi)容比較集中的時間段可能被強(qiáng)行分散開到不同的時間段內(nèi),另外,主題內(nèi)容差異比較大的文獻(xiàn)可能被分到同一固定長度的時間段內(nèi),使得該時間段內(nèi)的主題內(nèi)容趨向一致,因而不能準(zhǔn)確地衡量主題內(nèi)容變化趨勢。綜上所述,采用上述方法進(jìn)行主題階段劃分缺乏系統(tǒng)嚴(yán)密的數(shù)據(jù)理論基礎(chǔ),有一定的主觀性。
因此,本文提出基于關(guān)鍵詞突變點(diǎn)的主題演化階段的思想,從而更有效地確定階段劃分界限。其中突變詞是指以文獻(xiàn)關(guān)鍵詞為分析對象,根據(jù)詞頻年度分布情況,利用時間序列中突變點(diǎn)識別方法檢測出發(fā)生突變的時間點(diǎn),那么在發(fā)生突變的當(dāng)年該關(guān)鍵詞就稱為突變關(guān)鍵詞,簡稱為突變詞。同時把這種關(guān)鍵詞發(fā)生突變的現(xiàn)象稱為關(guān)鍵詞突變,簡稱為突變。將信息熵變化原理和有序聚類方法相結(jié)合,從而對反映文獻(xiàn)關(guān)鍵詞詞頻突變情況進(jìn)行分析,并以此為基礎(chǔ)劃分研究主題演化過程,即把發(fā)生關(guān)鍵詞突變次數(shù)變化特征比較接近的時間段劃分為一段,把出現(xiàn)突變點(diǎn)數(shù)量較多和較少的相鄰段很好的分開來考慮。
具體來講,將突變點(diǎn)識別引入主題特征分析中,來描述主題演變特點(diǎn)。設(shè)相關(guān)文獻(xiàn)集合為Ti(i=1,2,...,n),從Ti中抽取每個文檔的關(guān)鍵詞,則可將文獻(xiàn)集合轉(zhuǎn)換為關(guān)鍵詞集合Wj(j=1,2,...,q),那么特征詞集合在時間集tm(m=1,2,...,p)上的特征矩陣為:
其中wij(i=1,2,...,p;j=1,2,...,q)表示詞Wj在時間tm上出現(xiàn)的頻次。根據(jù)突變點(diǎn)識別方法[1],可以獲得特征詞集合Wj(j=1,2,...,q)在不同時間段tm(m=1,2,...p)上發(fā)生突變的時間點(diǎn)集合為tj(τ)(2<τ 2.1 數(shù)據(jù)源及其預(yù)處理 筆者于2013年10月20日以“information integration”為主題詞在web of science數(shù)據(jù)庫進(jìn)行檢索,數(shù)據(jù)年限設(shè)置為(2000~2012年),共獲得1 494篇文獻(xiàn),其中選擇具有較高研究價值的“article”和“review”這兩種文獻(xiàn)類型作為研究對象,共計(jì)881篇文獻(xiàn)。另外,由于文本后續(xù)選擇的需要,又刪除了32篇沒有“abstract”的文獻(xiàn),最終獲得有效分析文獻(xiàn)849篇。 考慮到目前文獻(xiàn)關(guān)鍵詞在表征文獻(xiàn)內(nèi)容方面存在的問題,本文利用RefViz軟件對數(shù)據(jù)進(jìn)行預(yù)處理,從文獻(xiàn)的標(biāo)題和摘要中抽取特征詞匯來表征文獻(xiàn)內(nèi)容。然后通過手工方法對其結(jié)果進(jìn)行修正,最終選出代表信息整合研究主題發(fā)展的483個特征詞匯,以此為樣本對信息整合研究領(lǐng)域進(jìn)行演化研究。 2.2 特征詞突變點(diǎn)識別及其演化階段劃分 采用主題領(lǐng)域中關(guān)鍵詞突變程度計(jì)算和處理方法,獲得特征詞突變程度年度分布,最終特征詞有效突變點(diǎn)的年度分布圖,如圖1所示。由于突變點(diǎn)的特征相對于前后兩個時間段均有變化,而2000和2012年作為研究時間的起始結(jié)點(diǎn),均無法判斷其突變情況,因此無法利用突變點(diǎn)識別方法來計(jì)算其突變點(diǎn)數(shù)量, 圖1中的時間范圍是2001~2011年。 圖1 2001~2011年“信息整合”主題特征詞突變點(diǎn)年度分布圖 從突變點(diǎn)的數(shù)量上來看,2001年、2005年、2006年和2007年的突變點(diǎn)比較多,這顯示了這4年中該領(lǐng)域研究主題內(nèi)容變化可能比較大,或者可能是該領(lǐng)域主題研究的轉(zhuǎn)折點(diǎn)。本文將信息整合研究主題過程劃分為4個階段,2000~2003年基礎(chǔ)期、2004年平穩(wěn)期、2005~2007年活躍期、2008~2012年發(fā)展期。 2.3 不同階段主題內(nèi)容特征分析 2.3.1 基礎(chǔ)期(2000~2003年) 該時期的重點(diǎn)內(nèi)容是信息整合的應(yīng)用研究,其應(yīng)用領(lǐng)域主要包括3個方面,首先是神經(jīng)系統(tǒng)領(lǐng)域腦信息整合研究,例如大腦活化過程中腦半球的非對稱性和分類信息的整合[2];行動規(guī)劃過程中皮質(zhì)層上目標(biāo)信息和部位信息的整合[3]。其次是各種信息系統(tǒng)中的應(yīng)用,例如地理信息系統(tǒng)中構(gòu)建新的城市交通數(shù)據(jù)的整合、分析和可視化[4]等。第三是系統(tǒng)間的整合研究,例如整合全球定位系統(tǒng)和地理信息系統(tǒng)用于交通阻塞研究[5]。隨著應(yīng)用研究范圍的不斷拓展,該研究領(lǐng)域的一些核心問題已經(jīng)進(jìn)入人們的研究視野。但是關(guān)于整合理論模型的研究比較少,只有一篇文獻(xiàn)提出構(gòu)建信息整合理論模型來完善信息系統(tǒng)整合。 2.3.2 平穩(wěn)期(2004年) 這個階段研究主要是理論方法的深入研究和理論應(yīng)用的拓展。具體來其研究內(nèi)容主要包括如下4個方面:①神經(jīng)系統(tǒng)科學(xué)領(lǐng)域腦信息整合研究。例如,多模式神經(jīng)導(dǎo)航系統(tǒng)中整合功能信息;人腦中聽覺信息整合等。②信息整合應(yīng)用研究。首先是信息整合在供應(yīng)鏈管理中的應(yīng)用研究[6-7],例如供應(yīng)鏈建設(shè)中的系統(tǒng)整合與信息共享;通過B2B網(wǎng)絡(luò)中心在供應(yīng)鏈管理中進(jìn)行信息整合;供應(yīng)鏈整合和管理中的信息系統(tǒng);評價供應(yīng)鏈信息系統(tǒng)中的整合;在供應(yīng)鏈中通過信息技術(shù)進(jìn)行合作與整合。其次是信息整合在其他領(lǐng)域的應(yīng)用研究,例如遙感、地理信息系統(tǒng)、全球定位系統(tǒng)和電信的整合;應(yīng)急管理中遠(yuǎn)程數(shù)據(jù)和地理信息系統(tǒng)技術(shù)整合研究。③信息整合類別學(xué)習(xí)研究[8]。主要包括延遲反饋對于基于規(guī)則和信息整合的分類學(xué)習(xí)的影響;基于規(guī)則的類別學(xué)習(xí)和基于信息整合的類別學(xué)習(xí)在反饋處理過程中的比較研究。④信息整合方法、模型和系統(tǒng)本身的研究[9-10]。主要包括信息整合中流技術(shù)的應(yīng)用;信息整合的發(fā)展階段——復(fù)用、融合和自動復(fù)用研究;利用元數(shù)據(jù)和本體進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)整合和信息共享。此階段的研究一方面是理論方法的深入研究,主要表現(xiàn)為在腦信息整合、信息整合方法及其應(yīng)用研究,同時,在信息整合方法研究中引入元數(shù)據(jù)和本體,流技術(shù)等。另一方面理論應(yīng)用的拓展集中體現(xiàn)在信息整合思想在類別學(xué)習(xí)中的應(yīng)用研究。 2.3.3 活躍期(2005~2007年) 活躍期的典型特點(diǎn)是研究內(nèi)容、研究主題、研究角度等的分散化。從研究內(nèi)容上來看,首先研究內(nèi)容不斷豐富,研究角度差異性比較大。例如,針對異質(zhì)信息整合這個問題上,2005年主要采用無監(jiān)督抽取和分類方法[11],而2006年則是從融合的角度出發(fā),并將本體[12]引入其中。其次,這個階段信息整合的應(yīng)用研究不斷擴(kuò)展,無論是在腦科學(xué)領(lǐng)域、還是政府網(wǎng)站、或系統(tǒng)發(fā)展,信息整合的應(yīng)用研究逐步受到高度重視,這預(yù)示著信息整合的應(yīng)用研究正在向多方向、多角度發(fā)展。同時,還值得一提的像信息整合類別學(xué)習(xí),雖然相關(guān)的研究比較少,但是也非常值得關(guān)注。這3年該領(lǐng)域主題研究主要內(nèi)容,如表1所示。 表1 2005~2007年信息整合研究主題內(nèi)容 2.3.4 發(fā)展期(2008~2012年) 主題研究范圍比較大,主要是對研究內(nèi)容和方法的拓展。具體來講,近5年信息整合主題研究內(nèi)容主要包括以下5個方面:①神經(jīng)科學(xué)中腦信息整合研究。主要是與大腦功能和意識相關(guān)的信息整合研究。②不同信息系統(tǒng)的整合。地理信息系統(tǒng)整合[13];農(nóng)業(yè)信息系統(tǒng)整合[14];全球供應(yīng)鏈中面向過程的整合系統(tǒng)[15]。③信息整合類別學(xué)習(xí)研究。主要是信息整合類別學(xué)習(xí)評價研究以及多個系統(tǒng)的類別學(xué)習(xí)[16-17]。④信息整合方法研究。主要包括基于本體的語義web整合[18],異構(gòu)數(shù)據(jù)源的信息整合,面向決策支持的web服務(wù)架構(gòu)[19]。⑤信息整合思想應(yīng)用研究。同時整合對象也從數(shù)據(jù)整合、信息整合向知識整合轉(zhuǎn)移,面向數(shù)據(jù)庫的知識整合成為研究的熱點(diǎn)。 從主題研究內(nèi)容來看,基礎(chǔ)期雖然研究內(nèi)容比較單一,但是卻表明了該領(lǐng)域研究的重點(diǎn)——信息整合的應(yīng)用研究,為后期幾個階段的主題研究奠定基礎(chǔ);在平穩(wěn)期主要體現(xiàn)在理論方法的深入研究和應(yīng)用的拓展;活躍期延續(xù)了平穩(wěn)期的特點(diǎn),信息整合的應(yīng)用研究不斷擴(kuò)展,同時研究內(nèi)容不斷豐富,研究角度的差異性較大;發(fā)展期的研究范圍比較大,重點(diǎn)是研究內(nèi)容和方法的拓展。 從文獻(xiàn)信息計(jì)量的角度看,文獻(xiàn)數(shù)量在一定意義上可以反映出某一學(xué)科發(fā)展?fàn)顩r和研究水平,而某一時期文獻(xiàn)中所包含詞語的量的變化,又從側(cè)面體現(xiàn)學(xué)科發(fā)展各個階段的特點(diǎn)。本文首先提出了基于信息熵的時間序列中突變點(diǎn)識別方法,然后將此方法應(yīng)用到文獻(xiàn)計(jì)量領(lǐng)域的特征詞分析中,提出了基于關(guān)鍵詞突變點(diǎn)的主題演化階段的思想,從理論上講,這種劃分形式有利于考慮影響因素作用的大小,提高了劃分精度。最后,在劃分演化階段的基礎(chǔ)上,根據(jù)不同階段特征詞詞頻突變點(diǎn)檢測結(jié)果,結(jié)合不同階段所包含的文獻(xiàn),對信息整合主題文獻(xiàn)的內(nèi)容進(jìn)行分析。通過該實(shí)證分析表明了基于特征詞詞頻突變點(diǎn)的主題演化階段劃分可以更客觀、更公正、更全面地反映一個學(xué)科領(lǐng)域的發(fā)展過程。 [1] 王莉亞. 基于離群數(shù)據(jù)的主題演化研究[D]. 北京: 中國科學(xué)院研究生院, 2012: 40-41. [2] Koivisto M, Laine M. Hemispheric asymmetries in activation and integration of categorical information[J]. Laterality, 2000, 5(1): 1-21. [3] Hoshi E,Tanji J. Integration of target and body-part information in the premotor cortex when planning action[J]. Nature, 2000, 408(6811): 466-470. [4] Claramunt C, Jiang B, Bargiela A. A new framework for the integration, analysis and visualisation of urban traffic data within geographic information systems[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 167-184. [5] Taylor M A P, Woolley J E,Zito R. Integration of the global positioning system and geographical information systems for traffic congestion studies[J]. Transportation Research Part C-Emerging Technologies, 2000, 8(1-6): 257-285. [6] Gunasekaran A,Ngai E W T. Information systems in supply chain integration and management[J]. European Journal of Operational Research, 2004, 159(2): 269-295. [7] Themistocleous M, Irani Z,Love P E D. Evaluating the integration of supply chain information systems: A case study[J]. European Journal of Operational Research, 2004, 159(2): 393-405. [8] Maddox W T, Ashby F G, Ing A D, et al. Disrupting feedback processing interferes with rule-based but not information-integration category learning[J]. Memory & Cognition, 2004, 32(4): 582-591. [9] Motro A, Berlin J,Anokhin P. Multiplex, fusionplex and autoplex - Three generations of information integration[J]. Sigmod Record, 2004, 33(4): 51-57. [10] Sato H, Kanai A. A technical survey of data integration and information sharing using knowledge representation on the Web[J]. Ieice Transactions on Information and Systems, 2004, E87-D(11): 2435-2445. [11] Ben Miled Z, Li N H,Bukhres O. BACIIS: Biological and chemical information integration system[J]. Journal of Database Management, 2005, 16(3): 72-85. [12] Cho J, Han S, Kim H. Meta-ontology for automated information integration of parts libraries[J]. Computer-Aided Design, 2006, 38(7): 713-725. [13] Kamal M M, Passmore P J,Shepherd I D H. Integration of geographic information system and RADARSAT synthetic aperture radar data using a self-organizing map network as compensation for real-time ground data in automatic image classification[J]. Journal of Applied Remote Sensing, 2010(4): 1-13. [14] Gutierrez-Garcia J O, Zaragoza-Rios J A,Ramos-Corchado F.F. Intergration of Agricultural Information Systems Assisted by Knowledge[J]. Intelligent Automation and Soft Computing, 2010, 16(6): 913-922. [15] Thun J H. Angles of Intergration: And Empirical Analysis of the Alignment of Internt-based Information Technolgy and Global Supply Chain Integration[J]. Journal of Supply Chain Management, 2010, 46(2): 30-44. [16] Helie S, Waldschmidt J G, Ashby F G. Automaticity in rule-based and information-integration categorization[J]. Attention Perception & Psychophysics, 2010, 72(4): 1013-1031. [17] Vandist K, De Schryver M, Rosseel Y. Semisupervised category learning: The impact of feedback in learning the information-integration task[J]. Attention Perception & Psychophysics, 2009, 71(2): 328-341. [18] Lu Y M, Liu D. An Ontological Meta-Model Framework for Implementation of IEC 61968[J]. Przeglad Elektrotechniczny, 2012, 88(11A): 4. [19] Yang J J, Li J B, Deng X Z,et al. A web services-based approach to develop a networked information integration service platform for gear enterprise[J]. Journal of Intelligent Manufacturing, 2012, 23(5): 1721-1732. (責(zé)任編校 田麗麗) ThemeMutationintheFieldofInformationIntegration:AStudyBasedon Mutation Wang Liya School of Management Engineering, Henan Institute of Engineering, Zhengzhou 451191, China Employing the mutation detection method, this study has analyzed the literature in the field of information integration, which were collected in the Web of Science database from 2000 to 2012. Based on the analysis, the research process in the field of information integration is divided into four stages: fundamental stage, stable stage, run-in stage and development stage. Research topics at each stage are comprehensively and objectively elucidated. mutation point; information integration; theme evolution; theme research G353.1 *本文系河南省教育廳人文社會科學(xué)研究項(xiàng)目“學(xué)科主題演進(jìn)深度挖掘研究”(項(xiàng)目編號:2013-QN-362)的研究成果之一 王莉亞,女,1979年生,博士,講師,發(fā)表論文17篇,出版論著1部。2 “信息整合”領(lǐng)域研究實(shí)證分析
3 結(jié)語