林睿
〔摘 要〕Google Scholar是一種重要的檢索工具。作者從應用角度中抽樣統(tǒng)計并分析了這種工具的一些不足,包括對谷歌學術的自動檢索式擴展,專利檢索,引用功能3個方面,在統(tǒng)計結果分析中可能對用戶產(chǎn)生誤導的地方。
〔關鍵詞〕Google學術搜索;缺陷;文獻;檢索式;專利;引用
DOI:10.3969/j.issn.1008-0821.2014.02.022
〔中圖分類號〕G250.73 〔文獻標識碼〕B 〔文章編號〕1008-0821(2014)02-0103-04
谷歌學術搜索(Google Scholar),簡稱GS,是一種覆蓋范圍全面、功能強大、使用簡便、快捷并且免費的互聯(lián)網(wǎng)學術資源整合利用工具。它不僅適合一般性搜索,而且能滿足嚴謹?shù)膶W術搜索重任。GS以期刊論文為主,其搜索范圍覆蓋了幾乎所有知識領域的高質(zhì)量的學術研究資料。面向中文用戶的中文版“Google學術搜索”將搜索擴大至中文學術文獻領域。其中文版界面(http:∥scholar.google.com.hk)使中國用戶能夠更方便地搜索全球的學術科研信息。相比CNKI、萬方、維普、Science Direct等數(shù)據(jù)庫資源,它的搜索范圍更廣泛,不論是任何學科或者任何的期刊,都可以進行直接搜索,提供一種便捷的全免費的服務[1]。因此,近年來,谷歌學術搜索成為廣大科技工作者的常用的重要檢索工具,也成為一些文獻情報統(tǒng)計分析中常用的工具[1]。但隨之其廣泛應用,其缺點也被逐步發(fā)現(xiàn)和提出,一些不足和缺陷正在被逐步改正;但是隨著GS功能的拓展,仍不斷出現(xiàn)有新的缺陷[1]。作者近年在對谷歌學術搜索的應用中,發(fā)現(xiàn)了一些至今仍然存在的缺陷,包括自動檢索式擴展、專利及引用功能的缺陷,這些不足不僅可能造成一些用戶的理解錯誤,也有可能影響文獻情報統(tǒng)計的準確性;為此,作者隨機抽樣了100名作者,分別應用GS的直接檢索、作者檢索式檢索、專利及引用功能檢索,并參照國家知識產(chǎn)權局的專利檢索結果(數(shù)值均以平均值±標準差表示),應用SPSS 16.0軟件分別進行配對t檢驗,以進一步分析其功能上的缺陷(表1)。表1 應用GS的不同功能和檢索式進行檢索的抽樣結果
當檢索范圍擴大的時候,反而出現(xiàn)了檢索數(shù)目下降的情況,而這個事實上并不應該出現(xiàn);同樣的詞條,國家知識產(chǎn)權局的專利檢索結果是40個相關的結果。同樣問題出現(xiàn)在以人名作為檢索詞的情況,例如以“付賢智”為檢索詞,出現(xiàn)的結果是1 210條,而當勾選“包括專利”的檢索中,出現(xiàn)的結果仍然也是1 210條,當檢索范圍擴大的時候,檢索數(shù)目并沒有增加,是不是意味著“付賢智”并沒有任何專利呢?我們在國家知識產(chǎn)權局的檢索中,可以檢索到以“付賢智”為發(fā)明人的國內(nèi)專利有42條。目前常用的專利檢索網(wǎng)站有:中國國家知識產(chǎn)權局網(wǎng)站,中國專利信息網(wǎng),Soopat專利搜索,Pantentics等,其中中國國家知識產(chǎn)權局網(wǎng)站等網(wǎng)站提供了免費的專利檢索服務。提供免費服務的谷歌學術搜索也在其中增加了這一功能,但是我們從檢索結果中看到,不論是以名稱還是作者,谷歌學術搜索的“包括專利”的計數(shù)結果都有錯誤;那么這個錯誤是不是僅僅是因為計數(shù)結果的模糊所致的呢?我們對一些擁有專利的作者名進行進一步檢索,發(fā)現(xiàn)在結果中,并沒有列出包括其專利的檢索結果。這種“專利”檢索功能常常是完全失效的。目前為止,國內(nèi)也有許多學者對專利檢索系統(tǒng)進行了比較,而尚沒有對谷歌的專利檢索功能的系統(tǒng)的分析[6-7];但由于GS的檢索策略承襲了普通谷歌檢索中應用的PageRank算法,即主要看某項成果在其他文獻中被引用的情況,同時還將文章全文、作者和出版物等因素納入算法,我們推測其專利檢索結果也是同樣運用上述算法,同時由于沒有諸如Soopat等記錄完整的專利數(shù)據(jù)庫作為支持,故而導致其“專利”檢索功能常常是完全失效。所以我們認為目前的谷歌學術搜索不能成為專利檢索的平臺,甚至也不具備參考的價值。
3 引用缺陷與專利檢索功能類似,同樣的問題出現(xiàn)在GS界面中“包含引用”這一選項功能上,雖然沒有像“包括專利”功能出現(xiàn)的例如條目數(shù)不變,甚至條目數(shù)下降的局面。但是在引用功能上,仍存有讓用戶產(chǎn)生誤讀的地方。
3.1 抽樣分析3.2 個例分析同樣,以檢索式“作者:付賢智”為例:在選擇“包含引用”的功能下,搜索條目由201條增加到231條。對于一些非專業(yè)的檢索者就會容易產(chǎn)生一種錯覺——從增加的數(shù)目上估計出引用作者的全部文章大約有30條,但從實際上看,引用的情況遠遠大于30,其一篇文章的被他人引用次數(shù)就超過了80次。那么這多出的30條是什么呢?我們逐條對照發(fā)現(xiàn)其結果與“引用”并無關聯(lián),仍然是一些關于作者文獻的搜索結果。GS可以說是一個大型的引文數(shù)據(jù)庫,其PageRank算法使其某個單條文獻的被引用分析具有比較高的意義,在單條的搜索結果中,每一條記錄都有關于其被引用次數(shù)的統(tǒng)計及其詳細情況,可以了解其結果在其他文獻中被引用的情況。但是對于一個從某個檢索詞檢出的所有檢索結果中分析其有關的引用情況,例如用上述方法試圖分析某個學者發(fā)表的所有成果的整體被引情況,結果會有非常大的偏差。
4 改進中的谷歌學術谷歌學術在設計之初,并沒有像其他檢索數(shù)據(jù)庫一樣,對文獻進行嚴謹?shù)闹饤l入庫分類并提供搜索服務;而是在谷歌搜索引擎的基礎上,在其“爬蟲”程序“抓取”了大量含有文獻資料的數(shù)據(jù)庫的基礎上,對其算法進行深入開發(fā)后進一步衍生出的一種類別搜索工具[1]。從其誕生之初,人們就發(fā)現(xiàn)其缺陷不斷。但是隨著技術的逐漸進步和完善,這些缺陷也得到不斷的改正。Jacso在2009年時曾對當時的谷歌學術測試版(Google Scholar beta)的缺陷做出了說明,當時由于解析器方法的缺陷,谷歌學術存在著嚴重的數(shù)據(jù)夸大,“影子作者”(Ghost authors)現(xiàn)象,識別錯誤等問題[1]。但是隨著搜索方法的改進,谷歌學術測試版(Google Scholar beta)也已經(jīng)下線,取而代之的是其正式版(Google Scholar),在這一版本中,這些問題得到了明顯的改進。我們對當時Jacso提到的幾個問題進行了測試。例如,當輸入“author:Password”搜索時,不再出現(xiàn)將大量的網(wǎng)頁中存在的密碼輸入提示當成作者名字的現(xiàn)象,搜索結果也從原來的910 000條變成1條。而對“author:subscribe”搜索時,也不再出現(xiàn)有將subscribe模糊解析為“SOR RENEW”、”STO AJOG”等并不相干的詞條進行搜索。同時,在對一個作者名進行搜索時,大致和作者的論文情況比較吻合,不再出現(xiàn)之前常常出現(xiàn)的數(shù)十倍甚至數(shù)千倍的無關的搜索結果,“影子作者”現(xiàn)象大致得到了改正。因此,我們可以期待,在未來的谷歌學術中,上述問題有可能得到進一步的改進;同時,我們也應該注意到,由于谷歌學術有可能對算法進一步改進,利用谷歌學術進行相應的數(shù)據(jù)的統(tǒng)計及查詢時,特別是在不同時期,或者對既往文獻進行分析的時候,也存在著因為搜索算法的不同,而發(fā)生數(shù)據(jù)來源不同的差別,從而造成在文獻分析中發(fā)生的方法錯誤的風險。endprint
5 結 語谷歌學術搜索是一種專業(yè)性強、廣泛使用的一種簡便的互聯(lián)網(wǎng)學術文獻搜索工具。自谷歌學術搜索從Beta試用版到如今的正式版,歷經(jīng)多次更新,其功能越發(fā)完善,而其不足也在逐步地得到改進,從而使得更加易于使用。但是目前仍有些方面有待進一步提高和完善。我們在此從基礎的應用角度對目前的一些不足做出了表述,希望目前的用戶避免在使用這個工具中發(fā)生失誤,或者對結果產(chǎn)生誤讀,對于利用谷歌學術進行文獻及情報統(tǒng)計分析上,由于谷歌學術搜索工具自身在不斷更新,我們建議對再分析的過程予以注意,避免增加系統(tǒng)性誤差。而對檢索結果的計數(shù)數(shù)值上,由于其存在上述自動檢索式擴展、專利、引用功能等方面的缺陷,因為其常常存在著結果的明顯偏差,并不適合嚴謹?shù)姆治?。對于普通用戶而言,由于谷歌的自動檢索式擴展仍然存在著缺陷,仍然應該要在檢索式運用等方面加以注意,盡可能使用表述精確的檢索式,以避免檢索結果的錯誤;而對于專利及引用的相關的檢索需求,不建議通過谷歌學術搜索進行檢索。
參考文獻
[1]關于Google學術[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]歐榮,葉孟良,趙文龍.Google學術搜索引文統(tǒng)計功能測評[J].情報探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]張貝妮,王軍.數(shù)字圖書館中的檢索式擴展方法研究[J].計算機應用研究,2006,(4):71-73.
[6]胡曉,魏雪梅.我國網(wǎng)絡專利檢索平臺分析和評價[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方網(wǎng)站免費專利檢索系統(tǒng)之比較研究[J].圖書館理論與實踐,2008,(1):16-18.
(本文責任編輯:孫國雷)endprint
5 結 語谷歌學術搜索是一種專業(yè)性強、廣泛使用的一種簡便的互聯(lián)網(wǎng)學術文獻搜索工具。自谷歌學術搜索從Beta試用版到如今的正式版,歷經(jīng)多次更新,其功能越發(fā)完善,而其不足也在逐步地得到改進,從而使得更加易于使用。但是目前仍有些方面有待進一步提高和完善。我們在此從基礎的應用角度對目前的一些不足做出了表述,希望目前的用戶避免在使用這個工具中發(fā)生失誤,或者對結果產(chǎn)生誤讀,對于利用谷歌學術進行文獻及情報統(tǒng)計分析上,由于谷歌學術搜索工具自身在不斷更新,我們建議對再分析的過程予以注意,避免增加系統(tǒng)性誤差。而對檢索結果的計數(shù)數(shù)值上,由于其存在上述自動檢索式擴展、專利、引用功能等方面的缺陷,因為其常常存在著結果的明顯偏差,并不適合嚴謹?shù)姆治觥τ谄胀ㄓ脩舳?,由于谷歌的自動檢索式擴展仍然存在著缺陷,仍然應該要在檢索式運用等方面加以注意,盡可能使用表述精確的檢索式,以避免檢索結果的錯誤;而對于專利及引用的相關的檢索需求,不建議通過谷歌學術搜索進行檢索。
參考文獻
[1]關于Google學術[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]歐榮,葉孟良,趙文龍.Google學術搜索引文統(tǒng)計功能測評[J].情報探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]張貝妮,王軍.數(shù)字圖書館中的檢索式擴展方法研究[J].計算機應用研究,2006,(4):71-73.
[6]胡曉,魏雪梅.我國網(wǎng)絡專利檢索平臺分析和評價[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方網(wǎng)站免費專利檢索系統(tǒng)之比較研究[J].圖書館理論與實踐,2008,(1):16-18.
(本文責任編輯:孫國雷)endprint
5 結 語谷歌學術搜索是一種專業(yè)性強、廣泛使用的一種簡便的互聯(lián)網(wǎng)學術文獻搜索工具。自谷歌學術搜索從Beta試用版到如今的正式版,歷經(jīng)多次更新,其功能越發(fā)完善,而其不足也在逐步地得到改進,從而使得更加易于使用。但是目前仍有些方面有待進一步提高和完善。我們在此從基礎的應用角度對目前的一些不足做出了表述,希望目前的用戶避免在使用這個工具中發(fā)生失誤,或者對結果產(chǎn)生誤讀,對于利用谷歌學術進行文獻及情報統(tǒng)計分析上,由于谷歌學術搜索工具自身在不斷更新,我們建議對再分析的過程予以注意,避免增加系統(tǒng)性誤差。而對檢索結果的計數(shù)數(shù)值上,由于其存在上述自動檢索式擴展、專利、引用功能等方面的缺陷,因為其常常存在著結果的明顯偏差,并不適合嚴謹?shù)姆治觥τ谄胀ㄓ脩舳?,由于谷歌的自動檢索式擴展仍然存在著缺陷,仍然應該要在檢索式運用等方面加以注意,盡可能使用表述精確的檢索式,以避免檢索結果的錯誤;而對于專利及引用的相關的檢索需求,不建議通過谷歌學術搜索進行檢索。
參考文獻
[1]關于Google學術[EB/OL].http:∥scholar.google.com.hk/intl/zh-CN/scholar/about.html,2013-08-04.
[2]歐榮,葉孟良,趙文龍.Google學術搜索引文統(tǒng)計功能測評[J].情報探索,2007,(4):67-68.
[3]Peter Jacso.As we may search-Comparison of major features of the Web of Science,Scopus,and Google Scholar citation-based and citation-enhanced databases[J].Current Science,2005,(84):15-20.
[4]Peter Jacso.Newswire Analysis:Google Scholars Ghost Authors,Lost Authors,and Other Problems[J].Library Journal,2009,(9):45-50.
[5]張貝妮,王軍.數(shù)字圖書館中的檢索式擴展方法研究[J].計算機應用研究,2006,(4):71-73.
[6]胡曉,魏雪梅.我國網(wǎng)絡專利檢索平臺分析和評價[J].科技管理研究,2010,(14):75-77.
[7]李湖生,康美娟.中外四大官方網(wǎng)站免費專利檢索系統(tǒng)之比較研究[J].圖書館理論與實踐,2008,(1):16-18.
(本文責任編輯:孫國雷)endprint