• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      CrossRef文本和數(shù)據(jù)挖掘服務
      ——《浙江大學學報(英文版)》的實踐

      2015-03-26 02:24:10張欣欣繆弈洲張月紅
      中國科技期刊研究 2015年6期
      關鍵詞:英文版出版商浙江大學

      ■張欣欣 繆弈洲 張月紅

      《浙江大學學報(英文版)》編輯部,杭州市浙大路38號 310027

      1 引言

      文本和數(shù)據(jù)挖掘跨越多學科領域,并結合語言學、計算機科學和統(tǒng)計學技術來構建工具,可以有效地檢索和提取數(shù)字化的文本信息。過去,無論是對于開放獲取期刊還是基于訂閱模式的期刊,研究人員進行文本和數(shù)據(jù)挖掘沒有一個簡單普遍的獲取全文的方法。研究人員對學術內容進行數(shù)據(jù)挖掘的興趣和需求與日俱增,這就需要對大量的文章全文進行自動地訪問。研究人員發(fā)現(xiàn),為獲得對已經(jīng)訂閱內容進行數(shù)據(jù)挖掘的授權,他們需要與眾多的基于訂閱購買模式的出版商協(xié)商復雜的雙邊協(xié)議,但這顯然不太實際,并常常被困于曲折的接洽和談判中。比如加利福尼亞大學計算生物學家MaxHaeussler,花費三年多時間與出版商爭論要求獲得許可以便從300萬文章中抽取DNA數(shù)據(jù)為人類基因在線地圖做注釋。出版商也認為與大量的研究人員和眾多的研究機構基于復雜的雙邊協(xié)議進行授權談判,同樣很難實現(xiàn)[1-3]。

      CrossRef公司于2014年5月啟用的CrossRef文本和數(shù)據(jù)挖掘服務提供了一個簡單通行的方法,即可用于文本和數(shù)據(jù)挖掘的標準應用程序界面CrossRef Metadata API(Application Program Interface)。不論出版商的商業(yè)模式如何(開放獲取、訂閱或者二者兼而有之),都可以使用CrossRef Metadata API,而且對于任何研究者都是免費使用的。CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務依托于出版業(yè),不僅滿足了研究人員對文本和數(shù)據(jù)挖掘的迫切需求,支持科學研究,解決了出版商與研究人員進行雙邊協(xié)議的談判問題,同時也擴大了出版商期刊的顯示度[1]。

      中國科技期刊近年來愈發(fā)重視學術影響力的提升與國際化發(fā)展[4]?!墩憬髮W學報(英文版)》一直關注全球期刊行業(yè)的創(chuàng)新動態(tài),爭取與國際出版標準接軌。在中國科技期刊國際影響力提升計劃項目的資助下,繼2014年成為國內首家在網(wǎng)站平臺與論文中同時標注CrossMark、FundRef和ORCID的期刊后[5],《浙江大學學報(英文版)》繼續(xù)研究和實踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務,并藉此擴大期刊的國際顯示度,從多角度增強期刊的國際影響力。本文將著重從出版商的角度介紹如何參與CrossRef文本和數(shù)據(jù)挖掘,并將從研究者角度使用數(shù)據(jù)挖掘應用程序界面CrossRef REST API[1]。

      2 CrossRef文本和數(shù)據(jù)挖掘

      圖1 CrossRef文本和數(shù)據(jù)挖掘流程圖[1]

      對于出版商而言,數(shù)據(jù)挖掘很可能存在一個增長潛力巨大的市場和快速發(fā)展的機遇。英國政府已于2014年6月實現(xiàn)了對非商業(yè)目的的文本挖掘的著作權費用的免除,這使得研究者能夠挖掘他們已付費訂購的任何內容。歐盟等慮及計算式研究的障礙可能阻礙科學創(chuàng)新,也在積極推進數(shù)據(jù)挖掘。這些都為出版業(yè)的數(shù)據(jù)挖掘鋪平道路,給出版業(yè)的蓬勃發(fā)展帶來了新的契機[6-7]。

      出版商希望研究人員可以從他們的在線平臺直接訪問和抓取所需內容,這樣不僅訪問效率更高,同時防止短時間內的大量訪問對其他使用者造成影響[6-7]。CrossRef文本和數(shù)據(jù)挖掘應運而生,并于2014年5月28日正式啟用。發(fā)起和推動這個項目的出版商和贊助者包括American Institute of Physics(AIP)、American Physical Society(APS)、Elsevier、HighWire Press、 Springer、 Taylor&Francis和Wiley等眾多知名出版機構和組織。CrossRef文本和數(shù)據(jù)挖掘服務使用一個可用于文本和數(shù)據(jù)挖掘的標準應用程序界面CrossRef Metadata API。不論何種商業(yè)模式的出版商(開放獲取、訂閱或者二者兼而有之)都可以使用CrossRef API,并對研究人員免費[1]。

      CrossRef擁有多達4000多家的出版商會員,這些會員都使用DOI。每個DOI都有對應的元數(shù)據(jù),帶有描述了不同內容片段的信息片段,比如期刊文章、圖書章節(jié)或者會議論文。這些存儲的元數(shù)據(jù)可以擴展并識別哪些內容片段對應的全文是可以找到的,并且此信息可以被對數(shù)據(jù)挖掘感興趣的研究人員所使用。CrossRef Metadata API使用CrossRef DOI為研究人員提供在出版商頁面的全文鏈接。出版商有義務保證滿足研究人員獲取全文鏈接的請求并可直接批量給予其全文。開放獲取期刊的出版商可以簡單地將請求的內容直接傳送給研究人員,而基于訂閱模式的出版商需要控制訪問權限。CrossRef文本和數(shù)據(jù)挖掘的流程如圖1所示。

      除了CrossRef,Elsevier和IOP Science等也提供對學術內容進行文本和數(shù)據(jù)挖掘的服務[8],并且仍積極更新文本挖掘政策以改善研究人員的獲取狀況[7,9,10]。

      3 《浙江大學學報(英文版)》的參與和實踐

      《浙江大學學報(英文版)》從2014年10月開始,嘗試實踐CrossRef文本和數(shù)據(jù)挖掘服務。首先從出版商角度參與CrossRef文本和數(shù)據(jù)挖掘,包括申請參與CrossRef文本和數(shù)據(jù)挖掘、存儲元數(shù)據(jù)、提供全文鏈接、明示版權信息以及提供Click-through服務等。并從研究者角度使用數(shù)據(jù)挖掘應用程序界面CrossRef REST API且成功獲取所挖掘的全文。

      3.1 注冊

      首先在 CrossRef網(wǎng)站上注冊,網(wǎng)址為 http://www.crossref.org/tdm/contact-form.html,申請參與CrossRef文本和數(shù)據(jù)挖掘(CrossRef Text and Data Mining Contact Form)(見圖2)。

      3.2 元數(shù)據(jù)存儲

      作為出版商參與CrossRef文本和數(shù)據(jù)挖掘,需要做如下兩件事情:(1)為每個DOI存儲帶有全文鏈接的元數(shù)據(jù),使研究人員能夠據(jù)此鏈接找到文章全文;(2)在上述的元數(shù)據(jù)中存儲版權信息,方便研究人員據(jù)此查詢他們是否能夠獲取挖掘此內容片段的許可。存儲上述信息的xml文件需要上傳到CrossRef系統(tǒng)的Metadata處。

      3.2.1 全文鏈接

      根據(jù)出版商自身平臺是否支持內容協(xié)商[12],存儲內容的全文鏈接分為兩種方式。絕大多數(shù)的出版商不在自身平臺支持內容協(xié)商,則使用CrossRef提供的方法1(Method 1:Publisher provides specific URIs for each mime-type they support)[1]。 以《浙江大學學報(英文版)》為例,提供數(shù)據(jù)的xml文件包含文章的基本信息(如 DOI、年、卷和頁碼等)、ORCID和FundRef等信息,并且提供可以直接獲取文章內容的全文鏈接(見圖3)。此xml文件信息高度豐富,直接體現(xiàn)文本和數(shù)據(jù)挖掘的真實價值[6,9,10]。

      3.2.2 版權訪問信息

      元數(shù)據(jù)需要給文本和數(shù)據(jù)挖掘使用者一個明確的指示,告知其是否被允許使用CrossRef DOI所指向的內容。若研究人員不能自動得知其是否被允許訪問全文,那么出版商僅為其提供全文鏈接是沒有意義的。存儲的數(shù)據(jù)中的版權信息部分需提供允許訪問全文鏈接的時間范圍。一般而言,出版商設定的允許訪問時間為一年(見圖3)。開放獲取期刊僅提供開放獲取版權信息即可,如通用的Creative Comments,并沒有時間限制。

      3.3 提供全文

      出版商必須保證存儲內容中所顯示的鏈接與文章的實際鏈接一致。如果訪問鏈接有所變動,必須隨時更新以保證存儲內容中的鏈接的有效性。

      3.4 訪問速度控制

      文本和數(shù)據(jù)挖掘可能會增大網(wǎng)站的訪問量,出版商的服務器必須能夠應對和支持大流量的數(shù)據(jù)下載。出版商可以通過控制訪問速度減輕網(wǎng)站負擔,這取決于其自身情況。

      3.5 附加版權條款

      圖3 《浙江大學學報(英文版)》文本和數(shù)據(jù)挖掘的存儲數(shù)據(jù)(xm l)示例

      出版商可能要求研究人員同意一些額外的版權條款。這就必須使用URI指引使用者到Clickthrough服務。研究人員可以通過Click-through服務閱讀出版商的條款和限制條件(Terms and Conditions(T&Cs)),并判斷是否接受或拒絕。出版商上傳和管理T&Cs,必須提供如下內容:(1)出版商的網(wǎng)站 URI;(2)出版商名稱;(3)T&Cs的簡短描述;(4)T&Cs的全文,并用Markdown格式顯示?!墩憬髮W學報(英文版)》在Click-through中的T&Cs如圖4所示。T&Cs必須申明,文本和數(shù)據(jù)挖掘僅用于非商業(yè)目的,每次挖掘的片段內容不能超過200個字,且必須通過機器挖掘而非人工處理,同時遵守CC-BY 3.0協(xié)議等[13-15]。T&Cs正式上線之后一旦被研究人員閱讀并執(zhí)行了同意或者拒絕命令,將不可修改;除非作廢此T&Cs,并提供新的版本。

      圖4 《浙江大學學報(英文版)》的Click-through頁面(a)及其Terms and Conditions(b)

      出版商使用CrossRef系統(tǒng)的賬號和密碼使用Click-through服務,并獲取其API驗證碼(Publisher APIToken (PAT)),如《浙江大學學報(英文版)》的PAT為 e873add9-f850525e-4d233b2e-xxxxxxxx(最后八位數(shù)字隱去)。研究人員在爬取數(shù)據(jù)時發(fā)送了包含客戶端API驗證碼(Client APIToken(CAT))的內容(如本文作者的 CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx(最后八位數(shù)字隱去))。出版商結合PAT和CAT,可以很容易通過簡單的HTTP請求(比如使用Linux系統(tǒng)中常見的訪問網(wǎng)頁命令curl)來檢查哪些條款被遵守,哪些沒有。研究人員在發(fā)送HTTP請求時,在頭部(header)包含PAT,在URI研究人員對應的部分填寫CAT,形式如下:

      curl-k-H ″CR-Clickthrough-Publisher-Token:e873add9-f850525e-4d233b2e-xxxxxxxx″

      ″https://apps.crossref.org/clickthrough/api/licenses/9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″-D--L-O

      返回信息(為JSON格式,故需在網(wǎng)頁上安裝JSONView插件)給出了研究人員所接受或拒絕的出版商列出的條款。出版商可以通過迭代這樣的結果,查看研究人員是否已簽署相關內容的協(xié)議,以此判斷是否同意其下載所請求的全文[16-17]。

      3.6 研究人員使用CrossRef REST API簡介

      《浙江大學學報(英文版)》扮演研究人員的角色,實踐了如何使用CrossRef API獲取全文。研究人員使用CrossRef API的教程請參見Geoffrey Bilder的報告[17],使用簡介請參見 https://github.com/CrossRef/rest-api-doc/blob/master/rest-api-tour.md,其參數(shù)說明請訪問 https://github.com/CrossRef/rest-api-doc/blob/master/rest-api.md。

      研究人員在 https://apps.crossref.org/clickthrough/researchers/#/login/處使用 ORCID登錄,在Publisher-Specific Agreements處可以查看、接受或拒絕各出版商已經(jīng)發(fā)表的 T&Cs,并可獲取CAT。研究人員將包含接受或拒絕的條款信息的CAT提供給出版商,出版商即可知道該研究人員是否具有相應的許可。一旦研究人員接受或拒絕相應的Click-through許可,在發(fā)送HTTP請求并要求下載文章全文時,在header部分提供一個CR-TDMClient-Token。那些不需要Click-through功能或者開放獲取期刊的出版商,可直接忽略這個頭文件;而需要Click-through服務的出版商可以核對研究人員是否遵守和簽訂了條款。出版商使用研究人員提供的CAT來判斷其是否已經(jīng)接受了相應的條款和協(xié)議,如果研究人員接受,則將給予其全文[1-2]。

      比如本文作者扮演研究人員角色通過Clickthrough服務請求獲取某些特定DOI的文章,示例如下:

      curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400195″-D--L-O

      curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400192″-D--L-O

      curl-k-H ″CR-Clickthrough-Client-Token: 9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx″″http://www.zju.edu.cn/jzus/opentxt.php? doi=10.1631/jzus.A1400263″-D--L-O

      表示本文作者使用的CAT為9a9b2063-b57c021a-7fd7c9dc-xxxxxxxx,請 求 獲 取 DOI為10.1631/jzus.A1400195,10.1631/jzus.A1400192 和10.1631/jzus.A1400263這三篇文章的全文,并得以實現(xiàn)。

      通過CrossRef API及其提供的Click-through服務,可以方便獲取大量數(shù)據(jù)的DOI及其對應的全文鏈接。研究人員通過簡單的HTTP等請求或語言,批量獲取文章的全文。比如研究人員使用CrossRef API,搜索在 CrossRef元數(shù)據(jù)中,包含 “血液(Blood)”這個關鍵詞并且提供版權信息和全文鏈接的記錄有多少條,要求如下所示:http://api.crossref.org/works? filter=has-license:true,has-fulltext:true&query=blood&rows=0,由此可以獲取大量記錄,并可繼續(xù)增加限制條件來縮小獲取數(shù)據(jù)的范圍從而精準地得到最符合要求的文獻。如果需要從API的結果中獲取特定的DOI及其全文鏈接,并且批量下載全文,則需要用Python或Ruby等語言編輯小程序來實現(xiàn),在此不再贅述。

      4 結語

      文本和數(shù)據(jù)挖掘市場增長潛力巨大。CrossRef文本和數(shù)據(jù)挖掘解決了傳統(tǒng)數(shù)據(jù)挖掘手段存在的諸多問題,滿足了研究人員對學術內容進行文本和數(shù)據(jù)挖掘的需求,方便地解決了出版商需要與大量的研究人員和眾多的研究機構基于復雜的雙邊協(xié)議進行授權談判的問題,并且出版商參與方式也簡單便捷,必將會吸引越來越多的期刊加入此創(chuàng)新服務行列?!墩憬髮W學報(英文版)》一直關注全球期刊行業(yè)的動態(tài)并積極追求國際創(chuàng)新服務。在參與和使用 CrossMark、FundRef和 ORCID之后,在科技期刊國際影響力提升計劃的資助成為國內首家實踐CrossRef文本和數(shù)據(jù)挖掘創(chuàng)新服務項目的期刊。這不僅滿足科研人員進行數(shù)據(jù)挖掘的迫切需求,支持科學研究,順應國際出版業(yè)的潮流和發(fā)展;同時藉此擴大期刊的國際顯示度,從國際創(chuàng)新技術服務等多角度提升期刊的國際影響力。

      致謝:感謝浙江大學軟件學院金小剛教授提供技術支持,并感謝CrossRef公司Rachael女士提供詳細的咨詢服務。

      [1]CrossRef.CrossRef Text and Data Mining[EB/OL].[2015-01-21].http://tdmsupport.crossref.org/.

      [2]Lammey R.CrossRef Text and Data Mining Services.CrossRef ALPSPAnnual Meeting,September,2014,London,UK.

      [3]Van Noorden R.Trouble at the textmine[J].Nature,2012,483:134-135.

      [4]任勝利.《中國科技期刊國際化發(fā)展》專題序[J].中國科技期刊研究,2015,26(3):217-217.

      [5]張欣欣,張月紅,繆弈洲,等.創(chuàng)新與“棒”期刊——《浙江大學學報(英文版)》在科技期刊國際影響力提升計劃中的思考與實踐[J].科技與出版,2015,4:28-33.

      [6]ALPSP.Member briefing text and data mining.ALPSP International Conference,2014.London,UK.

      [7]史雙青,彭乃珠.Elsevier更新文本挖掘政策以改善研究人員的獲取狀況[EB/OL].[2015-04-08].http://www.openaccess.net.cn.

      [8]Elsevier.Text mining of Elsevier full-text content[EB/OL].[2015-03-14].http://dev.elsevier.com/text-mining.html.

      [9]Chris Shillum.Elsevier updates text-mining policy to improve access for researchers[EB/OL].[2015-04-08].http://www.elsevier.com/connect/elsevier-updates-text-mining-policyto-improve-access-for-researchers.

      [10]Van Noorden R.Elsevieropens its papers to text-mining[EB/OL].[2015-04-08].Nature News,2014.http://www.nature.com/news/elsevier-opens-its-papers-to-text-mining-1.14659.

      [11]CrossRef.CrossRef Text and Data Ming Contact Form[EB/OL].[2014-10-08].http://www.crossref.org/tdm/contact-form.html.

      [12]張善友.內容協(xié)商[EB/OL].[2015-3-6].http://www.cnblogs.com/shanyou/archive/2012/06/12/2547019.html.

      [13]Springer API.Springer's text-and data-mining policy[EB/OL].[2015-02-13].http://www.springer.com/gp/rightspermissions/springer-s-text-and-data-mining-policy/29056.

      [14]IOPScience.Textand Data Mining(T&DM)[EB/OL].[2015-02-13].http://iopscience.iop.org/info/page/text-anddata-mining.

      [15]Elsevier.Terms and conditions of text and data mining[EB/OL].[2015-2-13].http://www.elsevier.com/about/policies/content-mining-policies conditions-of-text-mining.

      [16]Lammey R.CrossRef Text and Data Mining Webinar,June 3,2014[EB/OL].[2015-03-14].https://www.youtube.com/watch?v=1BX6A0fshDw.

      [17]Bilder G.Geoffrey Bilder's presentation from the 2014 CrossRef Workshops,2014[EB/OL].[2015-03-06].http://rivervalley.zeeba.tv/text-data-mining-api-researcher-use/.

      猜你喜歡
      英文版出版商浙江大學
      2024年《數(shù)學年刊B輯》(英文版) 征訂通知
      《古地理學報》(英文版)2018—2020年總目錄
      古地理學報(2021年6期)2021-04-13 12:16:42
      The Crop Journal 作物學報(英文版) (Started in 2013, Bimonthly)
      浙江大學農(nóng)業(yè)試驗站簡介
      浙江大學作物科學研究所簡介
      歡迎訂閱《浙江大學學報(農(nóng)業(yè)與生命科學版)》
      La jeunesse chinoise d'aujourd'hui
      法語學習(2016年5期)2016-12-18 15:16:23
      歐盟對谷歌新聞征稅毫無意義
      世界知識(2016年22期)2016-12-03 08:01:08
      七成軟件出版商轉向云服務
      了解自己
      柳林县| 新竹县| 沙河市| 丰城市| 子长县| 藁城市| 佛冈县| 抚宁县| 阳原县| 双城市| 梅州市| 昭苏县| 洪湖市| 吴桥县| 罗江县| 南宫市| 灵璧县| 汕头市| 东乡| 灵武市| 自贡市| 恩施市| 买车| 卢湾区| 金阳县| 滕州市| 香河县| 荥阳市| 耒阳市| 闽侯县| 平邑县| 祁阳县| 呼玛县| 梅州市| 舞钢市| 屏东县| 色达县| 舒兰市| 三台县| 永春县| 中山市|