曲悅
[摘 要]以超星發(fā)現(xiàn)系統(tǒng)和中國知網(wǎng)為基礎,利用文獻追溯法和數(shù)理分析法對近十年發(fā)表的與搜索引擎相關的期刊論文、學位論文、會議論文及圖書進行計量分析,從學術趨勢研究、相關關鍵詞分析、核心作者、核心研究機構、學科與核心期刊分布、高被引論文及高被引圖書幾個方面對搜索引擎的研究現(xiàn)狀進行深入分析,并對研究中存在的問題提出了建議。
[關鍵詞]搜索引擎;計量分析;超星發(fā)現(xiàn);研究現(xiàn)狀
[中圖分類號]G254.928[文獻標志碼]B[文章編號]1005-6041(2017)01-0049-05
1 引 言
搜索引擎(Search Engine)是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統(tǒng)[1]。自從1990年加拿大麥吉爾大學的師生開發(fā)出最早的搜索引擎Archie后,搜索引擎在互聯(lián)網(wǎng)時代得到了迅猛的發(fā)展,現(xiàn)在所有互聯(lián)網(wǎng)用戶,幾乎都離不開搜索引擎的幫助。因此,對于搜索引擎的研究一直都受到學術領域的密切關注,本文即是通過文獻計量的方法對搜索引擎的研究現(xiàn)狀進行研究,希望能對相關研究人員提供一些借鑒。
2 數(shù)據(jù)源及統(tǒng)計工具
本文統(tǒng)計分析主要以中國知網(wǎng)(CNKI)和超星發(fā)現(xiàn)系統(tǒng)中的期刊、學位論文、會議論文及圖書為基本數(shù)據(jù)源,因為中國知網(wǎng)是世界上全文信息量規(guī)模最大的中文數(shù)據(jù)庫,其對于期刊、學位論文和會議論文的收錄量明顯高于其他數(shù)據(jù)庫。而超星發(fā)現(xiàn)平臺的圖書數(shù)據(jù)則來源于目前世界最大的中文電子圖書數(shù)據(jù)庫——超星數(shù)字圖書館。利用這兩個數(shù)據(jù)庫的四種主要文獻類型作為統(tǒng)計源,可以更加全面真實地反映搜索引擎的研究現(xiàn)狀。本次分析以2006—2015年為時間節(jié)點,跨度時間為10年,以“搜索引擎”作為關鍵詞進行分析。分析工具主要采用超星發(fā)現(xiàn)平臺,該平臺除了有強大的后臺數(shù)據(jù)支持,還可以利用分面聚類、引文分析、知識關聯(lián)分析等方式,實現(xiàn)高價值學術文獻發(fā)現(xiàn)、縱橫結(jié)合的深度知識挖掘、可視化的全方位知識關聯(lián)功能[2]。這些功能完全契合了本次研究的目的,能夠全面地反映搜索引擎的研究現(xiàn)狀。
3 統(tǒng)計數(shù)據(jù)聚類分析
3.1 學術趨勢研究
通過科研成果的年產(chǎn)出量,可以判斷出該研究領域的學術研究趨勢和學術關注度。在科研領域,期刊論文、學術專著、學位論文及會議論文四種科研成果最受關注,因此,筆者將以上四種文獻類型科研成果近十年來關于搜索引擎研究的年產(chǎn)出量進行統(tǒng)計,并繪制出趨勢折線圖。由于期刊論文的年產(chǎn)出量較其他三種類型在數(shù)量級上有較大差別,故將其折線圖與其他三種類型分開繪制。
從期刊論文的趨勢圖(圖1)可以看出,近十年來“搜索引擎”一直是一個很熱門的研究內(nèi)容,年發(fā)文量都超過了1 300篇。2006年之后,關于搜索引擎的期刊論文年發(fā)文量逐年增加,并在2010年達到了峰值,之后開始逐年下滑??梢钥闯?,近十年,關于搜索引擎的研究已經(jīng)度過了研究高峰期,進入了平穩(wěn)發(fā)展研究期。
為了證實上述觀點,筆者對所有關于搜索引擎的期刊論文進行了回溯統(tǒng)計,發(fā)現(xiàn)最早一篇關于搜索引擎的論文發(fā)表于1996年,之后逐年增加。2003年年發(fā)文量超過1 000篇,之后年發(fā)文量迅猛增長,在2008—2012年,搜索引擎相關研究進入迅猛發(fā)展期,年發(fā)文量超過2 000篇。2012年以后,相關研究年發(fā)文量雖然出現(xiàn)明顯的下滑趨勢,但是數(shù)量上仍然超過了1 300篇,這從一個側(cè)面證實搜索引擎已經(jīng)不再是一個新生事物,關于搜索引擎的研究也由原來的普遍研究轉(zhuǎn)向為縱深研究。
從學位論文、會議論文和學術專著的曲線圖(圖2)可以看出,學位論文的趨勢曲線圖與期刊論文的曲線圖保持一致。主要原因?qū)W位論文的作者都是碩士和博士研究生,而研究生更加偏好追蹤學術研究熱點,但其研究成果較期刊論文要稍顯滯后,所以學位論文曲線的峰值出現(xiàn)在2011年,再一次證明關于搜索引擎的研究于2010年左右達到高潮,之后熱點開始降低。會議論文作為研究熱點的風向標,一直引領著學術研究的方向,因此,其論文產(chǎn)出一般早于期刊論文和學位論文,從圖2中的會議論文曲線中也驗證了這一點,即2006年至2009年論文產(chǎn)出量較高,同時也表明學術界在此期間開展了多次相關的學術會議。而學術專著的科研產(chǎn)出在相關研究領域初期,一般會滯后于學位論文的產(chǎn)出。但是發(fā)展到一定階段后,其科研產(chǎn)出曲線應該與學位論文的曲線保持一致。從圖2的學術專著曲線中可以看出,同樣于2010年科研產(chǎn)出量達到了峰值,再次驗證,2010年為搜索引擎的研究高潮期。
3.2 相關關鍵詞分析
通過統(tǒng)計搜索引擎相關研究文獻的熱門關鍵詞,可以清晰該研究領域的發(fā)展方向和研究熱點,同時,亦可以根據(jù)統(tǒng)計結(jié)果了解該領域的潛在研究內(nèi)容和方向。利用超星發(fā)現(xiàn)平臺對與搜索引擎相關的關鍵詞按照出現(xiàn)頻次從高到低進行排序,排除“搜索引擎”和“搜索”兩個關鍵詞,出現(xiàn)頻次超過100次的關鍵詞有30個,如表1。
從表1中可以看出,出現(xiàn)頻次最多的關鍵詞是“信息檢索”,表明搜索引擎最直接的用途即是信息檢索,而相關的研究也最普遍。排在第二位的是“Lucene”。Lucene是一個開放源代碼項目,可以為應用程序添加索引和搜索能力,它于2000年發(fā)布第一個版本后,便在搜索引擎領域引起了巨大反響,關于它的研究也一直是搜索引擎領域的熱點。另外關于搜索引擎類型的研究也比較活躍,如“元搜索引擎”“垂直搜索引擎”。關于搜索引擎的相關技術研究也是該領域的核心內(nèi)容,如“中文分詞”“主題爬蟲”“信息抽取”“PageRank”“鏈接分析”等。另外,搜索引擎與其他領域的交叉研究也越來越受到研究者的關注,如“網(wǎng)絡營銷”“電子商務”等。
3.3 核心作者分析
通過個人發(fā)文量及單篇論文被引次數(shù)可以得到搜索引擎領域的核心研究作者,通過對該領域核心作者所發(fā)表的論文進行研究,可以梳理出該領域的大致研究脈絡。利用CNKI數(shù)據(jù)庫對近十年與搜索引擎相關的學術論文的個人發(fā)文總量進行了統(tǒng)計,作者發(fā)表相關論文的總被引次數(shù)也可以從一個側(cè)面反映出該作者在該領域的地位。筆者對搜索引擎領域發(fā)文量較多的作者按被引總次數(shù)進行了統(tǒng)計排序,得到表2。
從統(tǒng)計結(jié)果可以看出,發(fā)文總量超過10篇的作者共有10位,其中,呂學強和劉奕群的發(fā)文量皆超過了20篇,說明這兩人在搜索引擎領域的研究比較深入。而從總被引次數(shù)來看,馬少平、劉奕群和張敏的論文被引次數(shù)皆超過了400次,遠遠高于其他幾位作者,因此,從發(fā)文量和總被引次數(shù)結(jié)合來看,馬少平、劉奕群和張敏三位作者可以認定為該領域的核心研究作者。另外,崔志明的發(fā)文量只有10篇,但是被引次數(shù)卻有248次,表明該作者在搜索引擎領域也有很深的研究造詣。當然也有很多發(fā)文量較少,但是被引次數(shù)很高的研究作者,這一點將會在后文做詳細分析。
3.4 核心研究機構分析
通過對搜索引擎研究領域的核心研究機構所發(fā)表的研究成果進行分析,也可以得到該領域的研究脈絡和方向。利用超星發(fā)現(xiàn)系統(tǒng)對相關研究機構的發(fā)文量進行統(tǒng)計(如表3)可知,北京郵電大學、北京大學和武漢大學三所高校在搜索引擎研究領域的發(fā)文量遙遙領先,發(fā)文量都在380篇以上,說明這三個機構在該研究領域表現(xiàn)突出,起到了引領作用。發(fā)文量超過200篇以上的研究機構有12所。表明該研究領域現(xiàn)在仍然非常受關注。核心研究機構與核心研究作者都有著密切的關聯(lián)[3]。核心研究機構里的研究人員很有可能就是核心研究作者。如王斌教授就來自中國科學院。當然,也有的一些研究機構的發(fā)文數(shù)量不多,但是質(zhì)量很高,比如馬少平、劉奕群、張敏、茹立云這四個核心作者就都來自清華大學,表明清華大學也是搜索引擎研究的一個核心研究機構。這些研究機構與搜索引擎這一研究內(nèi)容的緊密程度,可以由一張相關性氣泡圖表示,如圖3。
3.5 學科及核心期刊分布統(tǒng)計
搜索引擎在很多學科領域都是非常重要的研究對象,因此有必要對其所屬學科分布進行分析。根據(jù)CNKI中各學科期刊收錄的相關文獻量的統(tǒng)計結(jié)果,可以得到圖4。從圖中可以看出計算機軟件及計算機應用學科對于搜索引擎的研究貢獻度最大,該學科的相關文獻收錄量已經(jīng)達到了40%。而信息經(jīng)濟與郵政經(jīng)濟、圖書情報與數(shù)字圖書館、互聯(lián)網(wǎng)技術三個學科也貢獻了37%的相關文獻,從總體來看,凡是與信息相關的學科,對于搜索引擎的研究都非常重視。
期刊收錄相關文獻的數(shù)量,也可以從另外一個側(cè)面反映出該研究領域與哪個學科關系更緊密。所以筆者對于收錄搜索引擎相關文獻最多的15種核心期刊按論文收錄量進行降序排列,并繪制柱形圖,得到圖5。該圖再一次證明,計算機和圖書情報領域?qū)λ阉饕嫜芯康闹匾暢潭取A硗?,通過對核心期刊的統(tǒng)計,發(fā)現(xiàn)《計算機工程與設計》《圖書情報工作》《計算機工程》三種刊物的論文收錄量是最多的。研究人員如果想了解搜索引擎研究的熱點,可以首選這三種期刊。另外,從圖中也可以看出哪些期刊更愿意接受搜索引擎的相關研究成果,這對于研究人員投稿也有一定的參考作用。
3.6 高被引論文及高被引圖書分析
每個研究領域都有其經(jīng)典文獻,而對于什么是經(jīng)典文獻,至今學術界也沒有一個明確定義。但所有經(jīng)典文獻都有一個共同的特點,即在學術界影響力較大,被廣泛認可[4]。對經(jīng)典論文與圖書的確定,被引用率是一個非常重要的風向標,因此,筆者對搜索引擎研究領域被引次數(shù)最高的10篇論文和10本圖書進行了統(tǒng)計,如表4和表5。
從表4可以看出,被引次數(shù)最多的是謝平和鄒傳偉發(fā)表的《互聯(lián)網(wǎng)金融模式研究》,其被引次數(shù)達到了1 980次,這一數(shù)字遙遙領先于其他論文,確定了其經(jīng)典論文的地位,同時也再次印證了信息經(jīng)濟學科領域與搜索引擎研究的緊密關系。另外幾篇論文也從側(cè)面印證了技術研究、互聯(lián)網(wǎng)金融是搜索引擎研究領域的核心研究內(nèi)容。另外,還可以看到,在這10篇高被引論文當中,有一篇碩士學位論文的被引次數(shù)竟然排在了第二位,應該引起相關研究人員的關注。
從表5可以看出,高被引圖書所涉獵的研究內(nèi)容較為集中,主要是搜索引擎相關技術和基本原理。徐寶文與張衛(wèi)豐所著的《搜索引擎與信息獲取技術》被引次數(shù)達到了612次,遠超其他圖書,研究人員在進行圖書的資料收集時,這本著作應該作為首選。從出版社來看,高被引圖書有3本來自人民郵電出版社,科學出版社和電子工業(yè)出版社各自出版了2種相關圖書,研究人員在搜集相關研究資料時,對這些出版社的圖書應該給予重視。從出版時間來看,高被引圖書大多是在2007年左右出版的,因此,對2005—2008年出版的搜索引擎相關的圖書進行研讀,會更容易獲得高質(zhì)量的信息。4 總結(jié)與建議
搜索引擎在多個學科領域都是非常重要的研究內(nèi)容,相關研究于2010年左右達到了高潮期,現(xiàn)在對搜索引擎的研究已經(jīng)進入了平穩(wěn)發(fā)展期。對搜索引擎的核心技術研究和多種類型搜索引擎的開發(fā)是該領域的主要研究內(nèi)容。北京郵電大學、北京大學、武漢大學和清華大學為該領域的核心研究機構。而馬少平、劉奕群、張敏等人為該領域的核心研究作者。計算機軟件及計算機應用、信息經(jīng)濟與郵政經(jīng)濟、圖書情報與數(shù)字圖書館、互聯(lián)網(wǎng)技術四個學科對于搜索引擎的研究貢獻度最大?!队嬎銠C工程與設計》《圖書情報工作》《計算機工程》三種刊物的論文收錄量最多。人民郵電出版社出版的搜索引擎相關圖書質(zhì)量更高,2005—2008年間出版的相關圖書更應受到研究人員的重視。
根據(jù)近十年來的學術趨勢圖可以看出,2010年以后,搜索引擎的研究成果發(fā)表量雖然很大,但有明顯的下降趨勢,這表明2010年以后,在搜索引擎研究領域沒有新的熱點出現(xiàn),因此,需要在已有研究的基礎上尋找新的突破口,比如現(xiàn)在大數(shù)據(jù)、云計算、人工智能、虛擬現(xiàn)實等新技術迅速發(fā)展,如果研究人員將這些技術融入到搜索引擎的研究之中,可能會引起新一輪的研究熱潮。另外多召開一些質(zhì)量和級別較高的學術會議,加強學術研討,也會對搜索引擎的研究有很大的刺激作用。當然,如果能從國家的層面出臺一些相關的評價體系、激勵政策或指導意見[5],也會對搜索引擎的研究起到一定的推動作用。
[參考文獻]
[1]王繼民,李雷明子,鄭玉鳳.基于日志挖掘的移動搜索用戶行為研究綜述[J].情報理論與實踐,2014(3):134—139.
[2]超星發(fā)現(xiàn)系統(tǒng)核心功能[EB/OL].[2016-10-25].http:∥ss.zhizhen.om/about/about.html.
[3]李 爽,王玉香.2006—2015年閱讀推廣研究現(xiàn)狀分析[J].河南圖書館學刊,2016(4):106—108.
[4]姚小鷗.什么是經(jīng)典性文獻[EB/OL][2016-10-25].http:∥blog.sciencenet.cn/blog-531888-788772.html.
[5]馬志杰.我國搜索引擎評價研究的現(xiàn)狀、問題及對策[J].圖書館學研究,2013(4):11—17.