• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)的科學(xué)數(shù)據(jù)正式引用識(shí)別方法研究*

      2022-03-07 08:01:02張志強(qiáng)
      情報(bào)雜志 2022年2期
      關(guān)鍵詞:全文參考文獻(xiàn)分類

      楊 寧 張志強(qiáng)

      (1.中國科學(xué)院成都文獻(xiàn)情報(bào)中心 成都 610041;2.中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報(bào)與檔案管理系 北京 100190)

      0 引 言

      科學(xué)數(shù)據(jù)是指科研活動(dòng)中產(chǎn)生或經(jīng)過再加工得到的數(shù)據(jù),主要類型包括觀察數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)等[1]。一般來說,任意單位的數(shù)據(jù)都可以稱為科學(xué)數(shù)據(jù),但是有一定范圍、可形成完整描述的科學(xué)數(shù)據(jù)集合或科學(xué)數(shù)據(jù)產(chǎn)品才能構(gòu)成科學(xué)數(shù)據(jù)集[2]。科學(xué)數(shù)據(jù)本身是科研活動(dòng)過程的投入與產(chǎn)出要素,是科研活動(dòng)過程的“石油”[3]。科研活動(dòng)過程就是一個(gè)科學(xué)數(shù)據(jù)積累的過程,沒有科學(xué)數(shù)據(jù),就沒有科學(xué)技術(shù)。在數(shù)據(jù)密集型科研范式的大背景下,科學(xué)數(shù)據(jù)已經(jīng)成為知識(shí)發(fā)現(xiàn)和科研創(chuàng)新的重要基礎(chǔ)和驅(qū)動(dòng)力,被全球各國視為科技發(fā)展的新型戰(zhàn)略性資源和科研產(chǎn)出的又一類重要成果。隨著長期保存、數(shù)據(jù)出版、開放共享等工作取得的實(shí)質(zhì)性進(jìn)展,科學(xué)數(shù)據(jù)的共享和重用行為變得日益普遍和重要,而作為數(shù)據(jù)共享和重用的關(guān)鍵前提,科學(xué)數(shù)據(jù)引用問題開始得到科研人員的廣泛關(guān)注[4]。

      科學(xué)數(shù)據(jù)引用指科研工作者將科學(xué)數(shù)據(jù)作為論文研究結(jié)果的支撐要素,通過參考文獻(xiàn)、正文注、腳注、尾注或致謝等形式提供數(shù)據(jù)來源出處的做法[5]。通常,通過參考文獻(xiàn)方式列出的引用被稱為科學(xué)數(shù)據(jù)的正式引用,而通過其他方式列出的引用方法,被稱為科學(xué)數(shù)據(jù)的非正式引用。數(shù)據(jù)引用主要具有兩個(gè)方面的重要作用:一是數(shù)據(jù)溯源,通過數(shù)據(jù)引用追溯并獲取科學(xué)研究的原始數(shù)據(jù),重現(xiàn)并驗(yàn)證研究結(jié)果,促進(jìn)數(shù)據(jù)共享與重用,加快科學(xué)研究進(jìn)程;二是學(xué)術(shù)評(píng)價(jià),數(shù)據(jù)共享和使用情況,可以作為數(shù)據(jù)生產(chǎn)者學(xué)術(shù)產(chǎn)出及數(shù)據(jù)存儲(chǔ)機(jī)構(gòu)服務(wù)能力的評(píng)價(jià)指標(biāo)[6],豐富并完善科研評(píng)價(jià)機(jī)制。自2011年起,一些國際組織如OECD、ESIP、DCC、DataCite等開始致力于數(shù)據(jù)規(guī)范引用的實(shí)踐,紛紛制定了科學(xué)數(shù)據(jù)引用規(guī)范。2012年底,湯森路透推出了數(shù)據(jù)引文索引(Data Citation Index,DCI)數(shù)據(jù)庫[7],提供科學(xué)數(shù)據(jù)的引用信息及原文關(guān)聯(lián)地址。

      盡管眾多科研工作者和國際數(shù)據(jù)組織對數(shù)據(jù)引用研究已經(jīng)做了大量工作,但是由于目前仍然缺乏統(tǒng)一的科學(xué)數(shù)據(jù)引用標(biāo)準(zhǔn)規(guī)范、科研人員共享和重用數(shù)據(jù)缺乏積極性、數(shù)據(jù)隱私及版權(quán)保護(hù)機(jī)制不健全等因素,造成數(shù)據(jù)的引用溯源和統(tǒng)計(jì)數(shù)據(jù)存在一定缺失和滯后。格林納達(dá)大學(xué)EC3文獻(xiàn)計(jì)量小組的研究發(fā)現(xiàn),盡管自 2007 年以來 DCI 數(shù)據(jù)庫每年發(fā)布的數(shù)據(jù)集數(shù)量和被引次數(shù)有所增加,但仍然有約88%的研究數(shù)據(jù)為零引用[8]。另外,當(dāng)前科研工作者大多仍舊采用人工方式來識(shí)別和抽取科學(xué)數(shù)據(jù)引用,很難適用于大規(guī)模文獻(xiàn)集的數(shù)據(jù)引用識(shí)別和全學(xué)科數(shù)據(jù)引用研究。

      因此,本文引入機(jī)器學(xué)習(xí)技術(shù)結(jié)合內(nèi)容分析方法,以生物信息學(xué)領(lǐng)域?qū)W術(shù)論文全文信息作為分析內(nèi)容,以生物信息學(xué)領(lǐng)域科學(xué)數(shù)據(jù)集作為識(shí)別對象,對論文參考文獻(xiàn)中科學(xué)數(shù)據(jù)集的正式引用項(xiàng)進(jìn)行抽取和分類,研究基于機(jī)器學(xué)習(xí)方法的科學(xué)數(shù)據(jù)正式引用自動(dòng)識(shí)別方法并進(jìn)行識(shí)別效果評(píng)價(jià)。

      1 相關(guān)研究

      科學(xué)數(shù)據(jù)引用識(shí)別是數(shù)據(jù)引用研究和影響力評(píng)價(jià)的基礎(chǔ),研究早期主要通過人工閱讀并標(biāo)注的方法來識(shí)別和抽取文獻(xiàn)中的數(shù)據(jù)引用。近年來,隨著機(jī)器學(xué)習(xí)、自然語言處理等技術(shù)的快速發(fā)展,利用文本挖掘來識(shí)別文獻(xiàn)中的數(shù)據(jù)引用也開始得到越來越多的關(guān)注。當(dāng)前,科學(xué)數(shù)據(jù)引用識(shí)別抽取方法可以歸納為四種主要類型,包括:術(shù)語搜索、人工標(biāo)注、基于規(guī)則的識(shí)別和基于監(jiān)督學(xué)習(xí)的識(shí)別[9]。

      1.1基于術(shù)語搜索的識(shí)別方法術(shù)語搜索是識(shí)別和抽取數(shù)據(jù)引用最直接的方法,主要利用數(shù)據(jù)集的名稱、描述信息、DOI、URL等信息,通過字符串匹配來實(shí)現(xiàn)數(shù)據(jù)引用識(shí)別。Major等[10]通過NASA地球觀測系統(tǒng)(EOS)的儀器名稱為關(guān)鍵詞搜索文獻(xiàn)中的數(shù)據(jù)引用,定量化地揭示了EOS數(shù)據(jù)產(chǎn)生的學(xué)術(shù)影響力。Henderson等[11]通過數(shù)據(jù)集名稱、作者、下載地址等信息,搜索并研究了達(dá)特茅斯大學(xué)CRAWDAD無線數(shù)據(jù)集在論文中的被引情況。研究發(fā)現(xiàn)1 281篇使用CRAWDAD數(shù)據(jù)集的論文中,大部分都通過較為規(guī)范的方式引用數(shù)據(jù)集,存在的主要問題包括:引用了論文而非直接引用數(shù)據(jù)集、使用不清晰的標(biāo)識(shí)符來描述數(shù)據(jù)集以及未提供指向數(shù)據(jù)集的URL地址等。Li等[12]提出了通過論文全文分析來識(shí)別科學(xué)項(xiàng)目產(chǎn)生數(shù)據(jù)被引用情況的工作流,并將工作流應(yīng)用于癌癥基因組圖譜(TCGA)項(xiàng)目提供的癌癥基因組數(shù)據(jù)集研究,通過全文文本挖掘識(shí)別并分析了TCCA數(shù)據(jù)集的被引情況。劉小宇等[13]通過平臺(tái)名稱、數(shù)據(jù)引用聲明中的關(guān)鍵詞等信息檢索文獻(xiàn),調(diào)查與分析我國科學(xué)數(shù)據(jù)共享平臺(tái)所提供科學(xué)數(shù)據(jù)的被引用情況,研究了數(shù)據(jù)的可回溯性、被引時(shí)間規(guī)律、被引位置、被引作用與被引句式特點(diǎn)等特征規(guī)律。

      術(shù)語搜索方法具備直接、高效等特點(diǎn),是當(dāng)前科學(xué)數(shù)據(jù)引用識(shí)別應(yīng)用較為廣泛的一種方法。但術(shù)語搜索方法的缺點(diǎn)也較為明顯,如需要提前制定檢索詞、詞匯搜索范圍較為有限、誤檢率較高等。因此,術(shù)語搜索方法通常用于分析已知數(shù)據(jù)集的引用識(shí)別和影響力研究。

      1.2基于人工標(biāo)注的識(shí)別方法人工標(biāo)注是通過人工閱讀文本的方式來識(shí)別數(shù)據(jù)引用的方法,通常需要構(gòu)建任務(wù)語料庫來規(guī)范識(shí)別范圍和術(shù)語特征,如有多名標(biāo)注人員參與,還需對標(biāo)注結(jié)果進(jìn)行一致性檢驗(yàn)。Zenk-M?ltgen等[14]選取140種社會(huì)學(xué)期刊的數(shù)據(jù)政策進(jìn)行研究,并選取其中5種期刊的論文進(jìn)行數(shù)據(jù)引用標(biāo)注。研究發(fā)現(xiàn)社會(huì)學(xué)領(lǐng)域共享和引用數(shù)據(jù)的文章較少,大多集中在具有較高影響因子和數(shù)據(jù)政策的期刊上。Yan等[15]通過人工標(biāo)注方法在文獻(xiàn)中挖掘開放政府?dāng)?shù)據(jù)的引用情況,并分析不同地區(qū)研究人員對開放政府?dāng)?shù)據(jù)的使用特點(diǎn)及目的。Zhao等[16]對PLoS One上600份出版物的內(nèi)容進(jìn)行分析,對多個(gè)學(xué)科論文中數(shù)據(jù)集提及和引用進(jìn)行抽取和分析。研究發(fā)現(xiàn)不同學(xué)科的數(shù)據(jù)集提及和引用差異很大,數(shù)據(jù)正式引用和數(shù)據(jù)重用的比例都很低,研究人員更傾向于在正文中引用自己創(chuàng)建的數(shù)據(jù)集。王雪等[17]對生物信息學(xué)領(lǐng)域的中英文文獻(xiàn)數(shù)據(jù)引用行為特征進(jìn)行分析, 并構(gòu)建了基于文獻(xiàn)計(jì)量和網(wǎng)絡(luò)計(jì)量的數(shù)據(jù)引用行為評(píng)價(jià)模型。研究認(rèn)為英文文獻(xiàn)的數(shù)據(jù)引用更為規(guī)范且重用率較高, 文獻(xiàn)質(zhì)量與數(shù)據(jù)集質(zhì)量之間存在顯著的相關(guān)關(guān)系。丁楠等[18]利用內(nèi)容分析和人工標(biāo)注方法,對我國圖書情報(bào)領(lǐng)域權(quán)威期刊數(shù)據(jù)引用行為進(jìn)行分析,研究發(fā)現(xiàn)我國圖情領(lǐng)域期刊的數(shù)據(jù)引用仍然存在數(shù)據(jù)引用頻次少、數(shù)據(jù)公開程度低、缺乏統(tǒng)一的數(shù)據(jù)引用規(guī)范等問題。

      人工標(biāo)注的優(yōu)點(diǎn)是可以通過人工方式產(chǎn)生可靠性較高的結(jié)果,標(biāo)注過程也可以融入更多個(gè)性化的需求。然而,由于人工標(biāo)注方法的效率較低,無法適用于大規(guī)模文獻(xiàn)集的數(shù)據(jù)引用識(shí)別,對數(shù)據(jù)進(jìn)行抽樣又會(huì)損失大量樣本信息。因此,人工標(biāo)注通常用于小文獻(xiàn)集或特定領(lǐng)域文獻(xiàn)的數(shù)據(jù)引用識(shí)別。

      1.3基于規(guī)則的識(shí)別方法基于規(guī)則的方法主要通過一組靜態(tài)或動(dòng)態(tài)的規(guī)則來識(shí)別抽取數(shù)據(jù)引用語句,這些規(guī)則通過領(lǐng)域?qū)<一驒C(jī)器自動(dòng)推斷方式構(gòu)建,再通過正則表達(dá)式等將符合詞法、句法規(guī)則的數(shù)據(jù)引用語句進(jìn)行識(shí)別并抽取出來。Ghavimi等[19]從社會(huì)科學(xué)數(shù)據(jù)集DOI注冊庫dalra中檢索數(shù)據(jù)集并通過標(biāo)題挖掘其規(guī)則特征,再利用規(guī)則抽取和分析社會(huì)科學(xué)論文中數(shù)據(jù)集的引用情況。Grechkin等[20]利用正則表達(dá)式在全文中識(shí)別和抽取數(shù)據(jù)集引用,并利用數(shù)據(jù)集序列號(hào)檢索數(shù)據(jù)集狀態(tài)是公共還是私有,從而自動(dòng)檢測已被發(fā)表論文引用但仍然保持私有的過期數(shù)據(jù)集,加快數(shù)據(jù)集的公開進(jìn)度。

      基于規(guī)則的識(shí)別方法精確度高、針對性強(qiáng),但建立規(guī)則庫需要領(lǐng)域?qū)<覅⑴c。并且該方法具有一定的局限性,普適性規(guī)則會(huì)造成錯(cuò)誤率較高,而針對性規(guī)則的靈活性和覆蓋性較差。

      1.4基于監(jiān)督學(xué)習(xí)的識(shí)別方法基于監(jiān)督學(xué)習(xí)的方法主要采用機(jī)器學(xué)習(xí)分類器,通過標(biāo)記語料庫的部分?jǐn)?shù)據(jù)進(jìn)行訓(xùn)練,然后通過語料庫的另一部分?jǐn)?shù)據(jù)進(jìn)行應(yīng)用和評(píng)估。Névéol等[21]提出了一種自動(dòng)識(shí)別生物醫(yī)學(xué)論文中科學(xué)數(shù)據(jù)引用的方法,該方法綜合利用條件隨機(jī)場(CRF)、樸素貝葉斯(NB)和支持向量機(jī)(SVM)等機(jī)器學(xué)習(xí)模型和方法,挖掘出PubMed數(shù)據(jù)庫中52 932篇文章的數(shù)據(jù)引用信息。

      基于監(jiān)督學(xué)習(xí)的識(shí)別方法效率高、泛化能力較強(qiáng),適用于當(dāng)前大規(guī)模文獻(xiàn)集的科學(xué)數(shù)據(jù)引用識(shí)別和抽取。但是,由于該方法存在實(shí)現(xiàn)技術(shù)門檻較高、缺乏通用的數(shù)據(jù)訓(xùn)練集和測試集等問題,基于監(jiān)督學(xué)習(xí)的識(shí)別方法的研究和應(yīng)用還較少。

      2 數(shù)據(jù)與方法

      2.1研究思路生物信息學(xué)是一門應(yīng)用計(jì)算機(jī)科學(xué)的方法技術(shù)對生命科學(xué)大數(shù)據(jù)進(jìn)行數(shù)據(jù)處理分析和知識(shí)發(fā)現(xiàn)的專門領(lǐng)域?qū)W科信息學(xué),是具有代表性的以數(shù)據(jù)驅(qū)動(dòng)為核心的典型學(xué)科信息學(xué)研究領(lǐng)域,學(xué)科研究文獻(xiàn)中涉及到大量的科學(xué)數(shù)據(jù)的共享和引用。根據(jù)這一特點(diǎn),本文以生物信息學(xué)領(lǐng)域?yàn)槔?,利用自定義規(guī)則和人工方式將參考文獻(xiàn)分類標(biāo)注為數(shù)據(jù)引用和非數(shù)據(jù)引用,最后比較各類機(jī)器學(xué)習(xí)方法在科學(xué)數(shù)據(jù)引用分類識(shí)別任務(wù)中的表現(xiàn),從而分析判別機(jī)器學(xué)習(xí)方法用于科學(xué)數(shù)據(jù)正式引用自動(dòng)分類和識(shí)別抽取的效果。研究框架如圖1所示。

      圖1 研究框架

      2.2數(shù)據(jù)下載與抽取為使研究具有較好的學(xué)科代表性,本研究通過多渠道綜合確定生物信息學(xué)領(lǐng)域的關(guān)鍵期刊,其中包括期刊引用報(bào)告(JCR)、國際計(jì)算生物學(xué)學(xué)會(huì)、維基百科和相關(guān)的研究論文等[22]。全文文本數(shù)據(jù)來自PubMed Central(PMC),通過檢索期刊名稱獲取期刊全文條數(shù)。為使研究數(shù)據(jù)具備一定代表性,數(shù)據(jù)經(jīng)過去重并篩選掉全文存儲(chǔ)篇數(shù)小于100篇的期刊,最終確定35種期刊作為研究對象。

      數(shù)據(jù)下載采用生物信息學(xué)領(lǐng)域常用的開源工具BioPython[23],該工具包含許多用于生物信息學(xué)數(shù)據(jù)下載和分析的模塊,本研究使用其中的Entrez模塊進(jìn)行全文下載,數(shù)據(jù)下載時(shí)間為2021年1月12日,共獲取全文數(shù)據(jù)38 931篇。

      PMC數(shù)據(jù)庫的全文數(shù)據(jù)基于XML格式存儲(chǔ),標(biāo)準(zhǔn)采用美國國立醫(yī)學(xué)圖書館(NLM)的文件類型定義(DTD)標(biāo)準(zhǔn)[24]。XML全文文本由3個(gè)部分組成,包括文獻(xiàn)基本信息、正文信息和參考文獻(xiàn)信息。各部分的標(biāo)簽及主要內(nèi)容如表1所示。

      表1 PMC數(shù)據(jù)庫全文XML標(biāo)簽結(jié)構(gòu)與主要內(nèi)容

      其中,每一條參考文獻(xiàn)的編號(hào)信息(例如:)都會(huì)在正文的引用位置進(jìn)行標(biāo)識(shí)(例如:),通過參考文獻(xiàn)ref標(biāo)簽的id和正文xref標(biāo)簽的rid即可將二者關(guān)聯(lián)起來。因此,分別建立文獻(xiàn)信息表和參考文獻(xiàn)表。其中文獻(xiàn)信息表存儲(chǔ)PMC編號(hào)、標(biāo)題、類型、期刊、出版年、參考文獻(xiàn)數(shù)量等;參考文獻(xiàn)表存儲(chǔ)PMC編號(hào)、參考文獻(xiàn)編號(hào)、參考文獻(xiàn)類型、參考文獻(xiàn)內(nèi)容、正文中參考文獻(xiàn)所在語句等。文獻(xiàn)信息和參考文獻(xiàn)信息通過PMC唯一編號(hào)進(jìn)行關(guān)聯(lián),最終獲取到38 931篇全文的參考文獻(xiàn)信息1 343 381條。

      2.3數(shù)據(jù)預(yù)處理經(jīng)過對數(shù)據(jù)進(jìn)行分析得知,參考文獻(xiàn)的類型以journal、book和other三種類型為主。其中,標(biāo)識(shí)為other的引用包括了對科學(xué)數(shù)據(jù)、網(wǎng)頁、專利、報(bào)告等多種數(shù)據(jù)類型的引用。因此,數(shù)據(jù)預(yù)處理的第一步就是將標(biāo)識(shí)類型為other的參考文獻(xiàn)條目抽取出來。另外,由于生物信息學(xué)論文涉及到算法和公式較多,文本中存在著大量的LaTeX標(biāo)記,對數(shù)據(jù)抽取結(jié)果產(chǎn)生較大影響,需要通過正則表達(dá)式將無用的LaTeX標(biāo)記和空格清除。

      對于生物信息學(xué)領(lǐng)域,科學(xué)數(shù)據(jù)要具備可訪問和可重用性才有價(jià)值。因此本研究涉及的科學(xué)數(shù)據(jù)要求符合FAIR原則[25],即可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可交互(Interoperable)和可重用(Reusable)。在這一原則的規(guī)范下,數(shù)據(jù)預(yù)處理的第二步是通過規(guī)則將參考文獻(xiàn)內(nèi)容中包含網(wǎng)址或數(shù)字對象唯一標(biāo)識(shí)符(DOI)的參考文獻(xiàn)條目抽取出來,并分別將引文內(nèi)容、引文內(nèi)容與正文中引文所在語句組合保存為最終要分析的文本,經(jīng)過數(shù)據(jù)預(yù)處理最終共得到15 936條引用文本數(shù)據(jù)。

      2.4數(shù)據(jù)標(biāo)注通過對預(yù)處理后的數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),引用文本仍然包含各種類型的數(shù)據(jù),因此需要通過人工方式進(jìn)行數(shù)據(jù)標(biāo)注。該工作由標(biāo)注人員完成,其一是具有領(lǐng)域科學(xué)數(shù)據(jù)管理及分析背景的博士;其二是情報(bào)學(xué)專業(yè)博士研究生。在對數(shù)據(jù)進(jìn)行分類標(biāo)注之前,先對二人進(jìn)行了系統(tǒng)培訓(xùn),包括解讀引用目的、類目歸屬方法、標(biāo)注注意事項(xiàng)等。標(biāo)注規(guī)范主要結(jié)合引文對象、數(shù)據(jù)格式、關(guān)鍵詞匯及正文中對數(shù)據(jù)的使用行為進(jìn)行標(biāo)注。如果引文對象為數(shù)據(jù)集,且使用行為包括下載、共享、檢索、獲取等則標(biāo)注為數(shù)據(jù)引用;對于具有使用行為但引文對象不明確的條目,標(biāo)注人員通過訪問URL地址來確定是否為數(shù)據(jù)引用;其他條目,如明確為其他類型引用、URL地址無法訪問、僅為統(tǒng)計(jì)數(shù)字或作為舉例列出等引用條目則不予標(biāo)注。

      在正式進(jìn)行分類之前隨機(jī)選擇1 000條樣本進(jìn)行練習(xí),對其中分類較為模糊的條目進(jìn)行討論并統(tǒng)一,并總結(jié)生物信息學(xué)常用的各類數(shù)據(jù)庫。由于引用文本類型較多,本文將引用文本數(shù)據(jù)分為“科學(xué)數(shù)據(jù)引用”及“非科學(xué)數(shù)據(jù)引用”兩類,從而將科學(xué)數(shù)據(jù)引用識(shí)別轉(zhuǎn)換為一種文本數(shù)據(jù)向量的二分類問題。部分標(biāo)引數(shù)據(jù)如表2所示。

      表2 部分參考文獻(xiàn)分類標(biāo)引數(shù)據(jù)

      標(biāo)引結(jié)果的一致性檢驗(yàn)采用Carletta的Kappa系數(shù)[26],其計(jì)算公式為:

      (1)

      其中,Po代表一致性檢驗(yàn)的觀察值,而Pe代表一致性檢驗(yàn)的期望值,Kappa系數(shù)的取值范圍是[-1,1]。一般情況下,K≥0.61表明分類結(jié)果具有可靠一致性,K≥0.81表明分類結(jié)果具有高度一致性。經(jīng)過對標(biāo)注結(jié)果進(jìn)行統(tǒng)計(jì)計(jì)算后,一致性檢驗(yàn)的觀察值Po和期望值Pe的值分別為0.95和0.74,代入公式后得到Kappa系數(shù)的值為0.81,表明標(biāo)注結(jié)果具有高度一致性。最終,經(jīng)過對不一致結(jié)果的分析和討論,確定了本文的實(shí)驗(yàn)數(shù)據(jù)集。

      2.5實(shí)驗(yàn)數(shù)據(jù)集經(jīng)過預(yù)處理和數(shù)據(jù)標(biāo)注,本文最終得到由15 936條引用文本構(gòu)成的實(shí)驗(yàn)數(shù)據(jù)集。其中,數(shù)據(jù)引用3 067條,非數(shù)據(jù)引用12 869條。經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),2001年到2020年間發(fā)表的38 931篇論文中有1 570篇存在數(shù)據(jù)正式引用,其中最多的一篇論文參考文獻(xiàn)中包含33項(xiàng)數(shù)據(jù)集的引用[27]。對數(shù)據(jù)進(jìn)行正式引用的論文數(shù)量從2009年到2010年間有了一次跨越式增長,一舉從36篇增長到125篇,并在此后一直保持著穩(wěn)定增長的趨勢。論文發(fā)表總數(shù)及具有數(shù)據(jù)正式引用的論文數(shù)量年度分布如圖2所示。

      圖2 論文發(fā)表總數(shù)及具有數(shù)據(jù)正式引用的論文數(shù)量年度分布圖

      2.6文本分類模型本研究采用文本分類任務(wù)常用的8種機(jī)器學(xué)習(xí)模型進(jìn)行實(shí)驗(yàn),以判別機(jī)器學(xué)習(xí)模型在科學(xué)數(shù)據(jù)正式引用識(shí)別任務(wù)中的應(yīng)用效果。

      2.6.1 樸素貝葉斯 樸素貝葉斯是一種基于概率統(tǒng)計(jì)的分類模型,該模型主要利用貝葉斯定理和特征條件獨(dú)立性假設(shè)進(jìn)行分類。首先分別計(jì)算文本中各單詞屬于某一類別的概率,再根據(jù)條件獨(dú)立性假設(shè)最終得到文本屬于某一類別的概率。

      2.6.2 決策樹 決策樹是一種經(jīng)典的用于分類的機(jī)器學(xué)習(xí)模型,該模型首先建立一個(gè)樹形圖,再利用一系列的分類規(guī)則對樣本點(diǎn)進(jìn)行逐層判斷和剪枝,從而最終實(shí)現(xiàn)分類。決策樹具有簡單快速、計(jì)算過程透明等優(yōu)點(diǎn),在分類領(lǐng)域應(yīng)用較為廣泛。

      2.6.3 隨機(jī)森林 隨機(jī)森林是一種集成學(xué)習(xí)模型,它的基本思想是結(jié)合Bagging算法和隨機(jī)子空間方法,以決策樹為基分類器,最終通過組合多個(gè)決策樹來構(gòu)建一個(gè)集成分類器。隨機(jī)森林解決了決策樹的過擬合問題,并且對噪聲和異常值不敏感,能夠有效解決數(shù)據(jù)不平衡問題。

      2.6.4 邏輯回歸 邏輯回歸屬于判別式分類模型,它的基本思想是將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換成對應(yīng)的結(jié)構(gòu)化數(shù)值,將數(shù)據(jù)擬合進(jìn)一個(gè)邏輯函數(shù)來估計(jì)文本屬于某個(gè)類別的概率。邏輯回歸的優(yōu)點(diǎn)是計(jì)算消耗資源少,計(jì)算結(jié)果便于直接觀測樣本概率分布。

      2.6.5 K-近鄰 K-近鄰屬于一種非參數(shù)的分類模型,它的基本原理是對于一個(gè)給定樣本,學(xué)習(xí)模型會(huì)在訓(xùn)練數(shù)據(jù)中找到與其最相近的k個(gè)樣本,最后將k個(gè)近鄰樣本中的大多數(shù)所屬的類別作為該樣本的類別,K-近鄰算法既可以用于二分類問題也可以應(yīng)用于多分類問題。

      2.6.6 隨機(jī)梯度下降 隨機(jī)梯度下降是一種迭代分類模型,它主要用于凸損失函數(shù)下線性分類器的判別式學(xué)習(xí)。該模型可以很好地解決大規(guī)模稀疏數(shù)據(jù)的計(jì)算學(xué)習(xí)問題,在大數(shù)據(jù)文本分類和自然語言處理中應(yīng)用較為廣泛。

      2.6.7 支持向量機(jī) 支持向量機(jī)是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的模型,它可以針對有限樣本,基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理,將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維特征空間,學(xué)習(xí)并最終得到分類決策函數(shù),支持向量機(jī)可以在小樣本訓(xùn)練集上取得較好的分類效果。

      2.6.8 自適應(yīng)增強(qiáng) 自適應(yīng)增強(qiáng)是一種迭代提升模型,它的核心思想是利用集成學(xué)習(xí)技術(shù),針對同一個(gè)訓(xùn)練集訓(xùn)練不同的弱分類器,再通過融合這些弱分類器構(gòu)成一個(gè)增強(qiáng)的分類器,并將其作為最終的決策分類器。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1實(shí)驗(yàn)方法及評(píng)價(jià)指標(biāo)本實(shí)驗(yàn)采用五折交叉驗(yàn)證,按照4:1的比例通過類型抽樣法將數(shù)據(jù)分為訓(xùn)練集和測試集,二者不含重復(fù)樣本。方法模型分別采用引文文本和引文文本結(jié)合所在句子兩類信息作為輸入,分析比較全文信息對分類結(jié)果的影響。在文本特征表示過程中,采用基于TF-IDF的向量空間模型進(jìn)行文本向量化,通過參數(shù)調(diào)優(yōu)保留在測試集上效果最好的模型結(jié)果。

      評(píng)價(jià)指標(biāo)采用文本分類任務(wù)最常用的精確率(Precision,P)、召回率(Recall,R)和調(diào)和平均值(F1-Meature,F(xiàn)1)作為評(píng)價(jià)指標(biāo),并分別計(jì)算各指標(biāo)的宏平均值(算數(shù)平均值),對各類機(jī)器學(xué)習(xí)模型在文本實(shí)驗(yàn)數(shù)據(jù)集上的計(jì)算結(jié)果進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)的計(jì)算公式為:

      (2)

      (3)

      (4)

      其中,TP表示識(shí)別為某類樣本中正確的樣本數(shù),F(xiàn)P表示識(shí)別為某類樣本中錯(cuò)誤的樣本數(shù),F(xiàn)N表示屬于某類樣本中被識(shí)別為其他類別的樣本數(shù)。

      3.2實(shí)驗(yàn)結(jié)果及分析

      3.2.1 不同模型在引文文本分類識(shí)別上的效果比較 實(shí)驗(yàn)首先利用引文文本進(jìn)行文本分類并進(jìn)行結(jié)果評(píng)價(jià),經(jīng)過分詞后得到文本長度大部分分布在10到60個(gè)詞區(qū)間,分類結(jié)果如表3所示。

      表3 引文文本在不同分類模型中的計(jì)算結(jié)果

      由表3可見,在引文文本自動(dòng)分類任務(wù)中,SVC模型的分類表現(xiàn)最優(yōu),精確率和召回率都能達(dá)到0.8以上,F(xiàn)1值達(dá)到0.829,在所有分類模型中排名最高;SGD模型的表現(xiàn)也較好,F(xiàn)1值達(dá)到0.822,僅次于SVC;LR模型的分類效果不及SVC和SGD模型,但是其取得了較高的精確率,分類效果也較好;NB模型的精確率最高達(dá)到0.875,但召回率也最差,在此類任務(wù)中的效果不夠理想;其余DT、RF、KNN和Adaboost模型在引文文本分類任務(wù)中的效果都較為一般。

      通過結(jié)合錯(cuò)誤分類實(shí)例對分類結(jié)果進(jìn)行更為深入的分析發(fā)現(xiàn),科學(xué)數(shù)據(jù)引用格式不規(guī)范問題是導(dǎo)致引用分類效果不佳的主要原因。由于目前還缺乏統(tǒng)一的數(shù)據(jù)引用標(biāo)準(zhǔn)規(guī)范,論文中的數(shù)據(jù)引用方式仍然較為隨意,大部分的引用以列出數(shù)據(jù)集的URL地址為主。而對于數(shù)據(jù)集的元數(shù)據(jù)信息,如作者、出版時(shí)間、規(guī)范名稱、版本號(hào)等信息均未列出,從引文文本中能夠提取到的特征信息較少。此外,由于訓(xùn)練集和測試集樣本規(guī)模較小,SVC在小樣本分類任務(wù)中的優(yōu)勢體現(xiàn)的較為明顯,而SGD模型的普適性較強(qiáng),在各種規(guī)模數(shù)據(jù)集上都可以取得較好的分類效果。由于數(shù)據(jù)集引用的特征詞如“download”“obtain”等都在正文中才會(huì)得到體現(xiàn),因此下一步的實(shí)驗(yàn)將利用全文信息對數(shù)據(jù)集引用的特征進(jìn)行增強(qiáng)。

      3.2.2 全文信息對文本分類結(jié)果的影響 由于引文文本所能提供的信息十分有限,導(dǎo)致各分類模型中的表現(xiàn)較為一般。為進(jìn)一步提高分類效果,本研究嘗試?yán)萌男畔⒇S富輸入文本,將引文文本結(jié)合其所在語句作為模型輸入進(jìn)行分類計(jì)算。例如,引文文本為“NCBI dataset of human mRNA genes. ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/.”,其所在句為“For simulations we use the dataset of human mRNA genes downloaded from NCBI.”,最終的分類模型輸入文本為“For simulations we use the dataset of human mRNA genes downloaded from NCBI [NCBI dataset of human mRNA genes. ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/].”。經(jīng)過分詞后得到文本長度大部分分布在10到100個(gè)詞區(qū)間,結(jié)合全文信息的引文文本在不同分類模型的計(jì)算結(jié)果如表4所示。

      表4 結(jié)合全文信息的引文文本在不同分類模型的計(jì)算結(jié)果

      由表4可見,經(jīng)過輸入文本優(yōu)化后的分類結(jié)果中,依然以SVC模型的分類表現(xiàn)為最優(yōu),精確率、召回率和F1值都得到了一定的提高,在所有分類模型中仍然排名最高;SGD、KNN、LR模型的分類效果也得到了較為明顯的提升,F(xiàn)1值均超過了0.8;其余分類模型的分類效果也都不同程度的提高,只有NB模型的F1值進(jìn)一步降低。通過深入分析發(fā)現(xiàn)該模型受輸入數(shù)據(jù)的表達(dá)形式和均衡性影響較大,在樣本較少的分類訓(xùn)練結(jié)果中表現(xiàn)較差。按照模型F1值進(jìn)行排序,得到圖3所示的8種模型在利用全文信息優(yōu)化前后的F1值變化對比結(jié)果。

      圖3 利用全文信息優(yōu)化前后F1值變化對比圖

      3.2.3 樣本集數(shù)量對文本分類結(jié)果的影響 由于目前還缺乏可用的數(shù)據(jù)引用標(biāo)注數(shù)據(jù)集,引文文本自動(dòng)分類首先需要利用人工標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練。因此,方法模型在小樣本數(shù)據(jù)下的分類效果也是科學(xué)數(shù)據(jù)引用識(shí)別方法選取的關(guān)鍵。實(shí)驗(yàn)計(jì)算了8種模型從零樣本到全樣本的F1值變化情況,得到了樣本集數(shù)量對文本分類結(jié)果影響變化對比結(jié)果,如圖4所示。

      圖4 樣本集數(shù)量對文本分類結(jié)果影響變化對比圖

      由圖4可見,8種模型在樣本量增加的情況下分類結(jié)果都得到了提升。在樣本量小于3 000的情況下,SGD模型的F1值達(dá)到0.825,超過SVC模型的0.815,并且這種優(yōu)勢一直保持到7 000樣本量的時(shí)候被SVC模型超越,說明SGD模型在小樣本量的情況下就可以得到更好的分類效果。此外, KNN和Adaboost模型在樣本量3 000的時(shí)候F1值也分別達(dá)到0.764和0.757,后續(xù)增長則較為平緩,說明二者在小樣本量的情況也能取得不錯(cuò)的分類效果,但隨樣本量增長得到的分類效果提升較為緩慢。而DT、RF和LR模型受樣本量增長的影響較大,比較適合用于較大規(guī)模樣本的數(shù)據(jù)分類。

      4 結(jié)果討論及展望

      本文針對科學(xué)數(shù)據(jù)正式引用的識(shí)別問題,以生物信息學(xué)領(lǐng)域核心期刊學(xué)術(shù)論文全文信息作為研究對象,利用文本抽取和人工標(biāo)注形成了生物信息學(xué)科學(xué)數(shù)據(jù)正式引用數(shù)據(jù)集。并通過將科學(xué)數(shù)據(jù)引用識(shí)別轉(zhuǎn)化為文本分類問題,對比評(píng)估了機(jī)器學(xué)習(xí)領(lǐng)域8種經(jīng)典分類方法模型在數(shù)據(jù)集上的分類效果。研究結(jié)果表明,SVC和SGD模型在生物信息學(xué)領(lǐng)域科學(xué)數(shù)據(jù)正式引用的識(shí)別效果最優(yōu)、全文信息尤其是引文所在句子對數(shù)據(jù)引用文本分類的提升效果較為明顯、SGD模型在小樣本數(shù)據(jù)上的表現(xiàn)要優(yōu)于SVC模型。

      就全文來看,本研究在科學(xué)數(shù)據(jù)識(shí)別方法上進(jìn)行了有效的嘗試,但也存在一定的局限性。首先,相關(guān)研究領(lǐng)域目前還缺乏可用的權(quán)威數(shù)據(jù)集,本研究雖然通過兩人標(biāo)注并進(jìn)行一致性檢驗(yàn)的方式確定了實(shí)驗(yàn)數(shù)據(jù)集,但由于專業(yè)領(lǐng)域背景和認(rèn)知局限,標(biāo)注結(jié)果難免存在一定的主觀性,還需進(jìn)一步咨詢領(lǐng)域?qū)<彝晟茢?shù)據(jù)集。其次,本研究只涉及了機(jī)器學(xué)習(xí)領(lǐng)域的方法和模型,而近幾年深度學(xué)習(xí)技術(shù)發(fā)展迅速,BERT、XLNet等模型層出不窮并取得了巨大的進(jìn)步,下一步工作中將研究基于深度學(xué)習(xí)的科學(xué)數(shù)據(jù)正式引用識(shí)別方法,以期獲得更優(yōu)的識(shí)別效果。最后,本研究的結(jié)果再次證明科學(xué)數(shù)據(jù)在論文中仍然以提及等非正式引用方式進(jìn)行標(biāo)注,科學(xué)數(shù)據(jù)的正式規(guī)范引用亟待發(fā)展與完善,而這需要首先加大對數(shù)據(jù)引用狀況的識(shí)別研究,提高科技界對數(shù)據(jù)規(guī)范引用的重視,并不斷推動(dòng)科學(xué)數(shù)據(jù)規(guī)范引用規(guī)則的研究與制定,以促進(jìn)科學(xué)數(shù)據(jù)的規(guī)范引用、提高科學(xué)數(shù)據(jù)的價(jià)值、提高科研人員共享和重用數(shù)據(jù)的積極性,這需要科技界的共同努力。

      猜你喜歡
      全文參考文獻(xiàn)分類
      全文中文摘要
      分類算一算
      The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
      全文中文摘要
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      青年再造
      Study on the physiological function and application of γ—aminobutyric acid and its receptors
      東方教育(2016年4期)2016-12-14 13:52:48
      The Review of the Studies of Trilingual Education in inghai
      凤山县| 罗山县| 永嘉县| 陕西省| 大宁县| 临漳县| 桂平市| 瓮安县| 榆社县| 庄河市| 古交市| 信丰县| 凌云县| 金沙县| 合水县| 营口市| 高雄市| 吴桥县| 虹口区| 孝昌县| 邻水| 炉霍县| 库尔勒市| 阳泉市| 如东县| 静安区| 偃师市| 澜沧| 双峰县| 巴彦淖尔市| 吉安市| 扬中市| 栾城县| 岫岩| 甘谷县| 榆林市| 海南省| 城口县| 新邵县| 扎兰屯市| 丹巴县|