• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      百度學(xué)術(shù)的數(shù)據(jù)整合
      ——基于學(xué)術(shù)數(shù)據(jù)庫覆蓋率的案例研究

      2018-03-14 05:46:45洪道廣繆靈敏
      現(xiàn)代情報 2018年3期
      關(guān)鍵詞:全文百度檢索

      洪道廣 繆靈敏

      (華東理工大學(xué)圖書館,上海 200237)

      基于互聯(lián)網(wǎng)學(xué)術(shù)數(shù)據(jù)資源整合的百度學(xué)術(shù)平臺具有數(shù)據(jù)來源廣泛、可以在線免費(fèi)檢索、使用方便等特點(diǎn),自2014年6月正式推出以來被越來越多的讀者使用。學(xué)術(shù)界也開展了對百度學(xué)術(shù)的研究與應(yīng)用討論,謝奇等對百度學(xué)術(shù)的功能、檢索方法與技巧等方面進(jìn)行了詳細(xì)的討論[1];張英健應(yīng)用“百度學(xué)術(shù)搜索”,在期刊編輯中用于校核參考文獻(xiàn)、審稿專家的選擇及學(xué)術(shù)熱點(diǎn)的發(fā)現(xiàn),取得了良好的效果[2];覃燕梅等對百度學(xué)術(shù)與其他學(xué)術(shù)搜索系統(tǒng)的收錄數(shù)據(jù)、檢索功能、結(jié)果排序、數(shù)據(jù)挖掘服務(wù)、題錄引用等功能進(jìn)行了比較[3-4]。上述研究中,對于百度學(xué)術(shù)的數(shù)據(jù)來源及數(shù)據(jù)整合僅有簡單的描述,或只是幾個系統(tǒng)的簡單結(jié)果數(shù)比對。本文通過案例對百度學(xué)術(shù)的數(shù)據(jù)來源、整合等作具體的分析探討,尤其對整合的學(xué)術(shù)數(shù)據(jù)庫覆蓋率進(jìn)行比較,以便使用戶對百度學(xué)術(shù)的資源有更全面的了解,同時供平臺數(shù)據(jù)進(jìn)行整合建設(shè)進(jìn)一步的改正與完善。

      1 研究方法

      百度學(xué)術(shù)搜索結(jié)果界面顯示的內(nèi)容包含學(xué)術(shù)文獻(xiàn)的標(biāo)題、作者、摘要、出處、引用次數(shù)及發(fā)表的年份,并提供文獻(xiàn)在各平臺或數(shù)據(jù)庫的來源鏈接,對于可免費(fèi)獲取的文獻(xiàn)提供免費(fèi)下載標(biāo)簽。通過標(biāo)題檢索比對原始來源學(xué)術(shù)數(shù)據(jù)庫的覆蓋率是通常而有效的研究方法[5-8],本研究通過選用高級檢索的題名檢索,檢索式如表1所示的中文與英文文獻(xiàn)檢索:

      表1 百度學(xué)術(shù)的檢索實(shí)例

      選擇“搜索引擎”作檢索詞,涉及的學(xué)科較廣,具有一定的代表性。檢索實(shí)踐中發(fā)現(xiàn),百度學(xué)術(shù)搜索結(jié)果顯示的檢出數(shù)常大于實(shí)際可顯示的結(jié)果數(shù),通常檢索結(jié)果在500條內(nèi)發(fā)現(xiàn)通過翻頁基本上準(zhǔn)確完整顯示,如按上述中文檢索中,顯示約9 580多條相關(guān)結(jié)果,實(shí)際只顯示到第14頁(2017年6月1日檢索,搜索設(shè)置設(shè)定每頁顯示50條記錄)。本研究利用檢索界面提供的二次檢索,進(jìn)一步限制年份及文獻(xiàn)類型使檢索結(jié)果數(shù)在500條以內(nèi),通過復(fù)制每頁顯示的文獻(xiàn)記錄并格式化處理,再導(dǎo)入數(shù)據(jù)庫進(jìn)行數(shù)據(jù)處理及比對。

      英文文獻(xiàn)實(shí)際采用“Search Engine”檢索的結(jié)果數(shù)更多,這里采用復(fù)數(shù)是為了得到適中的結(jié)果數(shù)據(jù),方便處理及比較。

      目前學(xué)術(shù)數(shù)據(jù)庫中,中文全文數(shù)據(jù)庫主要有中國知網(wǎng)(簡稱CNKI)、萬方數(shù)據(jù)資源(簡稱WF)及維普期刊數(shù)據(jù)庫(簡稱VIP)等。外文數(shù)據(jù)庫按照Calis引進(jìn)的西文數(shù)據(jù)庫目錄,就有56個(2017年9月28日查詢結(jié)果)[9],結(jié)合華東理工大學(xué)特點(diǎn)選用理工類全文數(shù)據(jù)庫如Elsevier、Springer、IEEE、Wiley、Emerald等,同時利用了圖書館購買的SCI&SSCI及EI數(shù)據(jù)庫等檢索平臺,數(shù)據(jù)年限自2000-2016年,中文期刊及學(xué)位論文數(shù)據(jù)較多,只選了2010-2016年數(shù)據(jù),通過比對百度學(xué)術(shù)與各個來源數(shù)據(jù)庫的檢索結(jié)果,分析對應(yīng)的覆蓋數(shù)據(jù)及整合情況。

      2 中文數(shù)據(jù)結(jié)果及分析

      2.1 中文期刊的整合

      中文期刊數(shù)據(jù)來源主要集中在中國知網(wǎng)、萬方及維普期刊3個平臺上的期刊數(shù)據(jù)。按表1檢索條件,分別檢索各數(shù)據(jù)庫及百度學(xué)術(shù)(簡稱BD)對應(yīng)該數(shù)據(jù)庫來源的數(shù)據(jù),結(jié)果分布如表2所示(2017年6月1日查詢結(jié)果)。

      結(jié)果表明百度學(xué)術(shù)對中國知網(wǎng)期刊、萬方期刊、維普期刊均有很好的覆蓋率,按上述數(shù)據(jù)對應(yīng)的覆蓋率分別為:98.3%、97.2%、96.4%。

      除維普、萬方資源、中國知網(wǎng)平臺的期刊數(shù)據(jù)外,還有一些未包含在上述3個平臺上的期刊論文,主要為在線科技論文及開放訪問的論文。結(jié)果如表3。

      上述檢索出的結(jié)果數(shù)中,中國科技論文在線平臺實(shí)際有相應(yīng)的16條首發(fā)在線論文;而OAlib/Jourlib為開放期刊的平臺,實(shí)際上此類期刊也被表2所列的數(shù)據(jù)庫收錄,只是由于其中一些文章題目標(biāo)引不一致,如部分采用了中英文并列標(biāo)題,例:“Search Engine Optimization搜索引擎優(yōu)化初探”,實(shí)際出自期刊《計算機(jī)系統(tǒng)應(yīng)用》2010年的文獻(xiàn);華藝線上圖書館(www.airitilibrary.com)集成港臺出版的學(xué)術(shù)論文數(shù)據(jù)庫,一些文獻(xiàn)采用繁體的中文,從檢索結(jié)果看實(shí)際上也包含了一些會議論文或其他類型文獻(xiàn)。

      表2 百度學(xué)術(shù)整合的主要中文期刊

      表3 百度學(xué)術(shù)整合的其他中文期刊論文

      百度學(xué)術(shù)中有大量標(biāo)注免費(fèi)的全文數(shù)據(jù)如來源于道客巴巴、豆丁網(wǎng)的數(shù)據(jù),但去除表2、表3中的來源后,未見來自這些免費(fèi)網(wǎng)站的獨(dú)立數(shù)據(jù)。

      2.2 中文學(xué)位論文的整合

      百度學(xué)術(shù)的中文學(xué)位論文數(shù)據(jù)共1 026條,來自知網(wǎng)平臺、萬方數(shù)據(jù)平臺共1 023條(其中438條為知網(wǎng)與萬方共有數(shù)據(jù)),只有3篇論文來自廈門大學(xué)學(xué)術(shù)典藏庫(dspace.xmu.edu.cn,可免費(fèi)獲取全文)的學(xué)位論文。對應(yīng)具體的百度學(xué)術(shù)數(shù)據(jù)與中國知網(wǎng)、萬方數(shù)據(jù)平臺上的學(xué)位論文數(shù)如表4。

      結(jié)果表明百度學(xué)術(shù)的學(xué)位論文其對CNKI、萬方數(shù)據(jù)平臺的覆蓋率分別為92.6%、90.9%。

      2.3 中文其他文獻(xiàn)

      百度學(xué)術(shù)平臺的中文文獻(xiàn)除學(xué)術(shù)期刊、學(xué)位論文外還有圖書、學(xué)術(shù)會議、專利及其他類型,相比這些文獻(xiàn)的數(shù)據(jù)量較少,按表1的中文檢索(因數(shù)據(jù)量相比少,年限選擇為2000-2016年的結(jié)果數(shù)),其中圖書有219條,其中無來源出處115條,有可鏈接來源出處的104條;會議論文351條,專利記錄287條,其他未明確類型的文獻(xiàn)81條,均有相應(yīng)的出處,見表5的數(shù)據(jù)(2017年6月1日查詢),括號里的數(shù)據(jù)為百度學(xué)術(shù)檢索的總數(shù)及其中前5個數(shù)據(jù)來源的檢出數(shù)。

      表4 百度學(xué)術(shù)中文學(xué)位論文整合

      表5 百度學(xué)術(shù)中文其他文獻(xiàn)的來源

      圖書數(shù)據(jù)有219條記錄,無來源出處115條,可鏈接來源出處的有104條,主要來源有書問平臺(bookask.com)、超星電子圖書等來源的數(shù)據(jù)。無來源出處的圖書只提供了相應(yīng)作者及出版社信息。如《構(gòu)建搜索引擎》一書,作者為李剛,宋偉,邱哲,人民郵電出版社于2006年出版等信息。

      會議論文共有351條,只來源于萬方及中國知網(wǎng),其中萬方數(shù)據(jù)255條,中國知網(wǎng)140條,而實(shí)際在萬方及中國知網(wǎng)平臺檢索的結(jié)果數(shù)分別為282條和150條,覆蓋率分別為90.4%,92%,其中對應(yīng)2010-2016年的。

      專利數(shù)據(jù)270條,只來源于Google Patents及萬方平臺,數(shù)據(jù)不完整,實(shí)際在萬方平臺中可查到694條,而檢索中國國家知識產(chǎn)權(quán)局平臺數(shù)據(jù)(按公開日期2000-2016)可得894條記錄,中國專利覆蓋率只有30.2%,因此專利數(shù)據(jù)收錄不完整。

      其他類別數(shù)據(jù)實(shí)際是百度學(xué)術(shù)平臺抽取數(shù)據(jù)時由于格式等不規(guī)范所致,從檢索結(jié)果看主要是期刊論文,也直接來自網(wǎng)絡(luò)的文章。如表5中來源于chinalibs.net的52條數(shù)據(jù)中,均屬期刊文獻(xiàn),百度學(xué)術(shù)標(biāo)引時把期刊名當(dāng)作者名。

      3 英文數(shù)據(jù)結(jié)果及分析

      3.1 英文文獻(xiàn)的來源分布

      英文學(xué)術(shù)數(shù)據(jù)來源分布廣泛,按表1的英文檢索結(jié)果分別選擇期刊、會議論文、圖書、專利、學(xué)位論文等類型作統(tǒng)計并對數(shù)據(jù)來源進(jìn)行分析。為簡化結(jié)果處理僅對每條文獻(xiàn)數(shù)據(jù)中的第一個出處作統(tǒng)計。

      選擇期刊得到2 336條文獻(xiàn),統(tǒng)計第一條出處就有256條結(jié)果,其中前10個的結(jié)果如下:

      表6百度學(xué)術(shù)英文期刊主要來源

      序號數(shù)據(jù)庫(結(jié)果數(shù))序號數(shù)據(jù)庫(結(jié)果數(shù))1ResearchGate(373)6findarticles.com(88)2知網(wǎng)(297)7CiNii(69)3EBSCO(226)8OALib(68)4ACM(132)9Emerald(66)5Elsevier(102)10questia.com(46)

      英文會議、圖書的百度學(xué)術(shù)檢出數(shù)據(jù)分別有632條、247條,統(tǒng)計第一條來源總數(shù)前6個的記錄數(shù)占來源總數(shù)分別為90.4%、85.0%,專利共173條主要為美國專利,數(shù)據(jù)來源只有FreePatentsOnline及Google Patents。

      英文會議論文對比SCI平臺CPCI數(shù)據(jù)共326條其中檢出數(shù)據(jù)為248條,覆蓋率76.1%;EI中會議論文共537條其中419條檢出,覆蓋率為78%。

      英文學(xué)位論文在百度學(xué)術(shù)中按上述條件檢出的結(jié)果數(shù)只有7條,核查均不是學(xué)位論文,外文學(xué)位論文全文平臺目前可利用的為Proquest(search.proquest.com)平臺數(shù)據(jù)庫,國內(nèi)為鏡像站點(diǎn)(如:http://pqdt.calis.edu.cn),可檢索到26條結(jié)果,百度學(xué)術(shù)未提供相應(yīng)的數(shù)據(jù)出處。另外百度學(xué)術(shù)基于Proquest數(shù)據(jù)6條,實(shí)際是學(xué)位論文,但百度學(xué)術(shù)的歸類屬期刊。

      3.2 英文文獻(xiàn)全文數(shù)據(jù)庫的整合

      許多英文期刊全文數(shù)據(jù)庫平臺提供免費(fèi)開放的檢索,只是閱讀全文數(shù)據(jù)時加以訪問限制,檢索一些著名的英文全文學(xué)術(shù)平臺數(shù)據(jù)與百度學(xué)術(shù)相應(yīng)的檢索結(jié)果(2017年6月15日檢索結(jié)果),如表8。

      表7 百度學(xué)術(shù)中英文會議論文、圖書、專利論文來源

      表8 一些外文全文文獻(xiàn)平臺數(shù)據(jù)比較

      注:*數(shù)據(jù)庫檢索時結(jié)果中包含了“Search Engine”檢索結(jié)果,在比對時先去除這部分?jǐn)?shù)據(jù)。

      對于免費(fèi)開放的全文數(shù)據(jù),如ScienceDirect平臺中,14篇為可開放獲取的免費(fèi)全文(Open Access or Open Archive),百度學(xué)術(shù)在提供對應(yīng)的免費(fèi)標(biāo)記(Elsevier免費(fèi)下載)。從結(jié)果顯示百度學(xué)術(shù)對上述全文數(shù)據(jù)庫平臺覆蓋率均大于95%。

      百度學(xué)術(shù)提供了SCI、SSCI、EI的核心期刊分類,對比我校購買的相應(yīng)數(shù)據(jù)庫進(jìn)行檢索并與百度學(xué)術(shù)查到的數(shù)據(jù)加以比較:

      表9 不同數(shù)據(jù)庫的結(jié)果數(shù)對比

      表9中在SCI、SSCI、EI數(shù)據(jù)庫查詢到的相應(yīng)期刊論文分別為330條、243條、250條,在百度學(xué)術(shù)總的英文期刊論文中,相應(yīng)可檢索到318條、232條、240條,具有良好的覆蓋率分別為95.2%、94.8%、96.7%。

      按百度學(xué)術(shù)平臺的SCI、SSCI、EI分類檢索的結(jié)果,比較對應(yīng)實(shí)際在SCI、SSCI、EI的數(shù)據(jù),結(jié)果說明百度學(xué)術(shù)提供對應(yīng)分類的準(zhǔn)確性。結(jié)果顯示分類準(zhǔn)確性較低SCI、SSCI準(zhǔn)確率只有85%左右,EI的分類由于部分會議論文作為期刊論文而數(shù)據(jù)更低只有64.3%。如《Lecture Notes in Computer Science》,有18條數(shù)據(jù)在百度學(xué)術(shù)里了當(dāng)作期刊論文數(shù)據(jù)實(shí)際為會議論文數(shù)據(jù)在EI中被選用;另外如期刊《Journal of the American Society for Information Science and Technology》,在SCIE、SSCI、EI數(shù)據(jù)庫均有9條數(shù)據(jù)收錄,百度學(xué)術(shù)平臺可以檢索到所有數(shù)據(jù),但平臺沒有將其放入SCIE、SSCI分類里,只有2條歸入EI分類數(shù)據(jù)。Information Processing and Management文獻(xiàn)有15條記錄,百度學(xué)術(shù)均可以檢出,但沒有在百度平臺的EI分類里。

      4 結(jié) 論

      百度學(xué)術(shù)平臺整合的學(xué)術(shù)數(shù)據(jù)包含學(xué)術(shù)期刊、學(xué)位論文、會議論文及專利論文等,檢索結(jié)果與源數(shù)據(jù)庫的比較看:

      1)百度學(xué)術(shù)平臺收集的中文期刊論文數(shù)據(jù)對維普、萬方、CNKI中的中文期刊覆蓋率分別高達(dá)96.4%、97.2%、98.3%,利用百度學(xué)術(shù)可以較全面地檢出這三個平臺的學(xué)術(shù)期刊論文,同時也可以同步檢出其他在線論文如科技在線論文(paper.edu.cn)。

      2)中文學(xué)位論文、會議論文主要來源自萬方、CNKI數(shù)據(jù)庫,百度學(xué)術(shù)整合的數(shù)據(jù)覆蓋率90%~92%;百度學(xué)術(shù)中文圖書主要來源為書問平臺(bookask.com)數(shù)據(jù)、也有超星電子圖書平臺等;中文專利數(shù)據(jù)來源于Google Patents及萬方平臺數(shù)據(jù),集成的中國專利數(shù)據(jù)不完整。對專利文獻(xiàn),需要讀者利用國家知識產(chǎn)權(quán)局或歐州專利局等專門平臺進(jìn)一步進(jìn)行訪問。

      3)百度學(xué)術(shù)平臺收集的英文期刊論文對比SCI、SSCI、EI數(shù)據(jù)的覆蓋率分別達(dá)到95.2%、94.8%、96.7%,對全文數(shù)據(jù)庫Elsevier、Springer、Wiley、ACM、Emerald的數(shù)據(jù)覆蓋率分別為96%、100%、97.8%、95.8%、95.7%。百度對外文核心期刊的論文有很好的收集,也提供SCI、SSCI、EI等的分類,但其分類準(zhǔn)確性還需進(jìn)一步提高,一些核心期刊本身是動態(tài)變化的數(shù)據(jù),讀者在使用時需要在相應(yīng)的專業(yè)數(shù)據(jù)庫里進(jìn)一步確認(rèn)。

      4)百度學(xué)術(shù)整合了全文文獻(xiàn)的來源,極大方便用戶獲取文獻(xiàn)全文。普通用戶利用百度學(xué)術(shù)可以獲取免費(fèi)的全文數(shù)據(jù),而具有全文訪問的用戶可利用百度學(xué)術(shù)搜索到全文頁面的鏈接直接獲得全文,如我校的校園網(wǎng)用戶可直接利用百度學(xué)術(shù)獲取中國知網(wǎng)、萬方資源的中文文獻(xiàn)及Elsevier、Springer、Wiley、ACM、Emerald等英文全文文獻(xiàn),但一些全文數(shù)據(jù)庫不能直接獲取如維普期刊全文、EBSCO全文數(shù)據(jù),比較發(fā)現(xiàn)在校園網(wǎng)訪問這2個數(shù)據(jù)庫時采用的是不同的鏡像站點(diǎn)。

      5)百度學(xué)術(shù)整合的一些元數(shù)據(jù)不規(guī)范或有錯誤。如未將OAlib開放平臺期刊采用的中英文并列標(biāo)題規(guī)范化,標(biāo)引chinalibs.net中期刊文獻(xiàn),把期刊名當(dāng)作者名等。百度學(xué)術(shù)檢出的其他類別數(shù)據(jù)實(shí)際主要是期刊論文,一些文獻(xiàn)實(shí)際上是會議論文也被分類在期刊論文,數(shù)據(jù)的規(guī)范化及有效歸并處理問題既需要數(shù)據(jù)整合建設(shè)者密切注意及時消除,同時也要求使用者在檢索及閱讀結(jié)果時學(xué)會仔細(xì)甄別。

      [1]謝奇,關(guān)晶,楊錯.后GoogleScholar時代新的學(xué)術(shù)利器——百度學(xué)術(shù)搜索[J].農(nóng)業(yè)圖書情報學(xué)刊,2015,27(6):110-114.

      [2]張英健.“百度學(xué)術(shù)搜索”在期刊編輯中的應(yīng)用[J].編輯學(xué)報,2015,27(6):536-539.

      [3]覃燕梅.百度學(xué)術(shù)搜索與超星發(fā)現(xiàn)系統(tǒng)比較分析及評價[J].現(xiàn)代情報,2016,36(3):48-52,60.

      [4]趙功群,王恒.國內(nèi)三大中文發(fā)現(xiàn)系統(tǒng)比較分析及評價[J].圖書館研究,2016,46(6):72-77.

      [5]William H.Walters.Google Scholar Coverage of a Multidisciplinary Field[J].Information Processing & Management,2007,43(4):1121-1132.

      [6]John J.Meier,Thomas W.Conkling.Google Scholar’s Coverage of the Engineering Literature:An Empirical Study[J].The Journal of Academic Librarianship,2008,34(3):196-201.

      [7]洪道廣.Google Scholar的數(shù)據(jù)整合研究[J].現(xiàn)代情報,2010,30 (7):39-41.

      [8]Susanne Mikki.Comparing Google Scholar and ISI Web of Science for Earth Sciences[J].Scientometrics,2010,82(2):321-331.

      [9]Calis西文數(shù)據(jù)庫導(dǎo)航[EB/OL].http://project.calis.edu.cn/calisnew/calis_index.asp?fid=6&class=6.

      猜你喜歡
      全文百度檢索
      全文中文摘要
      Robust adaptive UKF based on SVR for inertial based integrated navigation
      2019年第4-6期便捷檢索目錄
      全文中文摘要
      百度年度熱搜榜
      青年與社會(2018年2期)2018-01-25 15:37:06
      青年再造
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      百度遭投行下調(diào)評級
      IT時代周刊(2015年8期)2015-11-11 05:50:22
      百度“放衛(wèi)星”,有沒有可能?
      太空探索(2014年4期)2014-07-19 10:08:58
      構(gòu)思精巧余味無窮 諷刺鞭撻淋漓盡致——再談“虛榮”貫穿《項鏈》全文
      語文知識(2014年5期)2014-02-28 21:59:59
      壤塘县| 宿松县| 团风县| 浪卡子县| 水富县| 两当县| 福贡县| 格尔木市| 华宁县| 子长县| 凤冈县| 美姑县| 怀远县| 海原县| 榆树市| 类乌齐县| 凤阳县| 长葛市| 石台县| 遵化市| 绥中县| 璧山县| 东丰县| 儋州市| 资溪县| 甘洛县| 峨边| 汉源县| 汝阳县| 怀安县| 江川县| 利川市| 高要市| 永嘉县| 拉萨市| 哈巴河县| 卓资县| 尼玛县| 南城县| 宜春市| 玉树县|