• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      科技文獻(xiàn)信息抽取方法淺析*

      2022-04-20 10:21:38謝海先深圳職業(yè)技術(shù)學(xué)院廣東深圳518055
      高校圖書館工作 2022年2期
      關(guān)鍵詞:結(jié)構(gòu)化機(jī)器文獻(xiàn)

      ●敖 龍 謝海先 (深圳職業(yè)技術(shù)學(xué)院 廣東深圳 518055)

      1 引言

      科技文獻(xiàn)記錄了最新的科學(xué)研究進(jìn)展和成果,在科研工作中發(fā)揮著至關(guān)重要的作用。隨著自然科學(xué)、技術(shù)、管理、人文、社會科學(xué)等學(xué)科研究的迅速發(fā)展,越來越多的科技文獻(xiàn)形成了龐大的研究信息群體,提供了豐富的原始研究工作信息,是研究人員交流最新知識的載體。學(xué)者們需要捕捉其中的重點,對它們進(jìn)行有效的檢索,找到相似或相關(guān)的文獻(xiàn)并迅速獲得它們的具體內(nèi)容。因此,有必要開展信息抽取工作。

      信息抽取是指從特定領(lǐng)域的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取具有特定目標(biāo)、有意義的知識,它為獲取科技文獻(xiàn)中的信息內(nèi)容提供了新的途徑。從科技文獻(xiàn)中抽取信息的主要任務(wù)是對文獻(xiàn)內(nèi)容進(jìn)行結(jié)構(gòu)化處理,將其轉(zhuǎn)化為滿足用戶需求并能被用戶有效利用的信息。簡而言之,這是一個將各種原始科技文獻(xiàn)轉(zhuǎn)化為特定格式的、獨(dú)特的信息的過程。

      由于對科技文獻(xiàn)處理的需求多種多樣,信息抽取對于讀者檢索、分析和總結(jié)科技文獻(xiàn)具有重要意義??偨Y(jié)這一領(lǐng)域的現(xiàn)狀和進(jìn)展,有助于讀者對信息抽取如何輔助科技文獻(xiàn)分析有一個清晰的概念,并且了解最先進(jìn)的抽取方法以及這一研究領(lǐng)域的發(fā)展方向。

      2 研究目的和方法

      本文的目的是通過系統(tǒng)地收集不同維度和層面的知識,調(diào)查這一領(lǐng)域的研究進(jìn)展并提供這一領(lǐng)域的概況,同時歸納信息抽取的方法,以幫助讀者深入了解這一領(lǐng)域。

      本文所研究的科技文獻(xiàn),主要是指發(fā)表在學(xué)術(shù)期刊、會議論文、畢業(yè)論文、書籍、技術(shù)報告和專利論文中的文章。所綜述的文獻(xiàn)范圍有:在Web of Science、Elsevier Science Direct、PubMed、ACM Digital Library和IEEE Xplore digital library等國際數(shù)據(jù)庫中檢索主題、標(biāo)題或關(guān)鍵詞中包含“information extraction”(信息抽取)、“l(fā)iterature”(文獻(xiàn))、“scientific literature”(科技文獻(xiàn))、“paper”(論文)、“article”(文章)、“publication”(出版物)和“extract”(抽取)等的文獻(xiàn);發(fā)表時間為2013年1月1日至2019年12月31日。綜合考慮期刊或會議質(zhì)量和影響力、文獻(xiàn)本身質(zhì)量和影響力、文獻(xiàn)與本研究相關(guān)性等因素進(jìn)行篩選,最終獲得的文獻(xiàn)數(shù)量為63篇。

      通過對文獻(xiàn)的閱讀和分析,本文設(shè)定了兩個方面的研究內(nèi)容,具體表述如下。

      (1)在現(xiàn)有的研究中,從科技文獻(xiàn)中抽取的主要信息是什么?關(guān)于此項問題,本文提出了一個三層信息架構(gòu),即將科技文獻(xiàn)中的信息分為不同的類別:結(jié)構(gòu)化信息、顯式信息和隱式信息。

      (2)從科技文獻(xiàn)中抽取信息的最新最先進(jìn)的方法是什么?本文對近年來有關(guān)抽取方法的文獻(xiàn)進(jìn)行研究,發(fā)現(xiàn)統(tǒng)計學(xué)、自然語言處理和機(jī)器學(xué)習(xí)方法是應(yīng)用比較廣泛的方法,其中機(jī)器學(xué)習(xí)方法是應(yīng)用最廣泛的方法。

      3 抽取信息的內(nèi)容

      本文定義的科技文獻(xiàn)中的第一層信息是指它們中的結(jié)構(gòu)化數(shù)據(jù),也稱為結(jié)構(gòu)化信息??萍嘉墨I(xiàn)中的每一章節(jié)都明確地展示了特定的信息。在科技文獻(xiàn)中的每一部分,文本、圖像、圖形和表格是基本的信息符號,在特定的布局中展現(xiàn)了文章中所有的內(nèi)容。它們不包含任何語義信息,提取過程只需要識別它們的標(biāo)簽即可。

      在第一層信息的基礎(chǔ)上,抽取的是科技文獻(xiàn)的顯式信息,如標(biāo)題、摘要、引言、前人研究、方法、數(shù)據(jù)、實驗、結(jié)果、討論和結(jié)論等。這些都是文獻(xiàn)不同部分的具體信息,在一定程度上表明了不同的含義,可以被用來對文獻(xiàn)進(jìn)行索引和分析。此外,它們還為更高級別的信息抽取提供原始數(shù)據(jù)源。最高層的是概念信息,也稱為隱式信息,這種信息的抽取相當(dāng)于文獻(xiàn)中語義信息的抽取和整合。不同層次的信息類別包含不同的內(nèi)容,如表1所示。

      表1 科技文獻(xiàn)中的信息類別

      3.1 結(jié)構(gòu)化信息

      結(jié)構(gòu)化信息可以是文本、圖像、圖形和表格等。結(jié)構(gòu)化信息的抽取只需要識別和區(qū)分文獻(xiàn)不同部分的具體信息,不涉及信息的含義。可擴(kuò)展標(biāo)記語言(XML)是存儲和呈現(xiàn)科技文獻(xiàn)的常見格式,XML使得文獻(xiàn)可以在萬維網(wǎng)上直接被閱讀。XML中的結(jié)構(gòu)識別也屬于結(jié)構(gòu)化信息抽取。與PDF相比,XML更清晰地描述了文獻(xiàn)的邏輯結(jié)構(gòu),并且能夠呈現(xiàn)PDF的幾何排版標(biāo)記、字體和布局等。因此,XML中結(jié)構(gòu)化信息的抽取,本質(zhì)上是標(biāo)記和標(biāo)簽的識別[1]。

      在大多數(shù)情況下,結(jié)構(gòu)化信息的定位和識別是顯式信息抽取的基礎(chǔ)。以往許多研究將結(jié)構(gòu)化信息的抽取和顯式信息的抽取結(jié)合在一起。

      3.2 顯式信息

      顯式信息的抽取包括標(biāo)題、作者、關(guān)鍵詞、參考文獻(xiàn)的抽取等??萍嘉墨I(xiàn)的標(biāo)題是文章的觀點、發(fā)現(xiàn)和貢獻(xiàn)的濃縮,一些標(biāo)題甚至包含了整篇文獻(xiàn)的結(jié)論。標(biāo)題也是科技文獻(xiàn)的一種代表性概念,標(biāo)題的抽取為文獻(xiàn)綜述奠定了基礎(chǔ)。作者信息是抽取工作的另一個焦點。同一作者的文獻(xiàn)在某些方面往往是相互聯(lián)系的。作者信息抽取主要指抽取姓名、機(jī)構(gòu)、國家、資助機(jī)構(gòu)和項目??萍嘉墨I(xiàn)作者的隸屬關(guān)系是重要的元數(shù)據(jù)之一,它可以幫助自動處理和分析出版物記錄[2]。此外,作者的隸屬關(guān)系有助于作者的識別和姓名消歧。關(guān)鍵詞抽取要能夠自動識別重要的、具有代表性的主題術(shù)語或概念,描述并總結(jié)文獻(xiàn)內(nèi)容。關(guān)鍵詞抽取有助于科技文獻(xiàn)的處理和檢索,被證明是輔助數(shù)據(jù)挖掘的有效方法。它也是信息檢索和自然語言處理的關(guān)鍵要素,例如科技文獻(xiàn)分類、總結(jié)、推薦和聚類[3]。參考文獻(xiàn)和引文抽取通常對科技文獻(xiàn)中的內(nèi)容和書目部分進(jìn)行抽取、分段和解析,從而獲得一系列的組成部分,如作者、標(biāo)題、年份、期刊名稱、會場類型、會議地點、地點、卷、頁以及引文主題和內(nèi)容等。從科技文獻(xiàn)中抽取參考文獻(xiàn)信息有三個步驟:第一步是參考文獻(xiàn)段的檢測;第二步是參考文獻(xiàn)的分割;最后是對每個信息字符串(如作者和標(biāo)題)的注釋[4-5]。

      3.3 隱式信息

      在科技文獻(xiàn)內(nèi)容層次信息的基礎(chǔ)上,還可以抽取更高層次的概念信息??萍嘉墨I(xiàn)中包含科學(xué)陳述、新穎發(fā)現(xiàn)和科學(xué)知識。其中,科學(xué)知識包括事實、概念、假設(shè)、猜測、觀點和預(yù)測??萍嘉墨I(xiàn)中的關(guān)鍵概念往往涉及主體思想、技術(shù)和應(yīng)用等,它們有助于將科技文獻(xiàn)的貢獻(xiàn)描述得更加清晰。在本研究中,隱式信息包括主題、新穎發(fā)現(xiàn)、知識、論證、情感等諸多方面,代表了科技文獻(xiàn)中深層的語義信息。

      科技文獻(xiàn)中的知識來源于概念、內(nèi)容詞、實體和實體關(guān)系。知識抽取往往需要探索語義信息。以生物醫(yī)學(xué)文獻(xiàn)為例,從中抽取的知識信息有兩類:既有知識和新興知識,新興知識往往與某一特定領(lǐng)域的新發(fā)現(xiàn)或新觀點有關(guān)[6]。新的科學(xué)假說在解決研究問題方面發(fā)揮著重要作用,它們也可以從科技文獻(xiàn)的結(jié)構(gòu)內(nèi)容中抽取和生成。推測信息通常出現(xiàn)在包含實驗性質(zhì)的科技文獻(xiàn)中,它是基于實驗證據(jù)的假設(shè)表達(dá),也為未來的研究提供了發(fā)展空間。論證是形成知識的關(guān)鍵過程,是科技文獻(xiàn)中的必要內(nèi)容。論證由論點和論證關(guān)系組成,而每個論點又由幾個關(guān)鍵部分組成。論證信息抽取需要自動識別和鑒定前提、結(jié)論和論點之間的關(guān)系[7]。實體和實體關(guān)系的抽取主要是針對生物醫(yī)學(xué)、化學(xué)等領(lǐng)域的文獻(xiàn)。過去的研究探討了生物醫(yī)學(xué)實體與實體之間的關(guān)系,如基因表達(dá)關(guān)系、疾病—突變關(guān)系、藥物—疾病關(guān)系等[8]?;瘜W(xué)文獻(xiàn)中的信息抽取也包含命名實體識別和關(guān)系提取,其中化學(xué)藥物與疾病的關(guān)系是典型的被抽取信息。在隱式信息方面,雖然已經(jīng)在實體和實體關(guān)系抽取上獲取了大量信息,但長短句和符號、部分、整體和瑣碎實體是目前實體識別中的一些挑戰(zhàn)。此外,描述某一特定領(lǐng)域概念的術(shù)語,也是另一類需要抽取的高層次隱式信息。除上述內(nèi)容外,科技文獻(xiàn)的隱式信息抽取還包括事件抽取、情感抽取等。

      4 抽取信息的方法

      從科技文獻(xiàn)中抽取信息最常見的挑戰(zhàn)是準(zhǔn)確性、覆蓋率和可擴(kuò)展性。根據(jù)信息類型和抽取需求,支持科技文獻(xiàn)信息抽取的方法可以分為三個不同的大類:統(tǒng)計學(xué)、自然語言處理和機(jī)器學(xué)習(xí)。

      (1)統(tǒng)計學(xué):統(tǒng)計學(xué)方法是科技文獻(xiàn)中信息抽取的最基本方法。通常以詞為最小單位進(jìn)行抽取處理,如詞頻計算、詞頻—逆向文獻(xiàn)頻次計算等。近年來,統(tǒng)計學(xué)方法在這一領(lǐng)域已很少單獨(dú)使用,通常是與自然語言處理方法和機(jī)器學(xué)習(xí)方法結(jié)合使用。以下方法可以歸類到統(tǒng)計學(xué)方法中:網(wǎng)頁排名、單詞/短語頻次、條件隨機(jī)場、詞頻—逆文本頻率指數(shù)。

      (2)自然語言處理:自然語言處理是一種基于統(tǒng)計方法與人工智能相結(jié)合的方法。一般來說,在所綜述的文獻(xiàn)中,從科技文獻(xiàn)中抽取信息的自然語言處理方法包括斯坦福自然語言處理解析器、Python自然語言處理工具集(NLTK)、詞性、詞嵌入、本體論與詞匯模式、命名實體識別、語義演算、文檔向量、基于本體、分詞、詞干提取、詞形還原、基于詞匯、依存關(guān)系等。

      (3)機(jī)器學(xué)習(xí):在先前的研究中,機(jī)器學(xué)習(xí)已被用來做文本挖掘、文本分類和數(shù)據(jù)挖掘,以識別包含不同類型信息的文本模塊。機(jī)器學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。換句話說,機(jī)器學(xué)習(xí)方法可以分為用標(biāo)記數(shù)據(jù)處理、非標(biāo)記數(shù)據(jù)處理以及兩者的整合。在科技文獻(xiàn)相關(guān)領(lǐng)域的信息抽取中,常用的機(jī)器學(xué)習(xí)方法包括基于網(wǎng)絡(luò)圖、分類器、支持向量機(jī)、邏輯回歸、K均值、邏輯模型樹、多元邏輯回歸、重復(fù)增量剪枝以減少誤差、線性邏輯回歸、隨機(jī)森林、決策樹、縮減誤差修減樹、決策表、隨機(jī)樹、樸素貝葉斯、決策樹樁、神經(jīng)網(wǎng)絡(luò)、向量空間模型、文檔主題生成模型等[9-10]。

      在63篇文獻(xiàn)中,有28篇文獻(xiàn)至少應(yīng)用了三大類方法中的一種。而在三大類方法中,機(jī)器學(xué)習(xí)所占比例最大(占比約47%),其次是自然語言處理(占比約39%),最后是統(tǒng)計學(xué)(占比約14%)。

      5 結(jié)語

      本文首先從抽取內(nèi)容和抽取方法兩個不同的維度,介紹了當(dāng)前科技文獻(xiàn)信息抽取領(lǐng)域的研究內(nèi)容。相關(guān)領(lǐng)域的研究人員進(jìn)行了大量的研究和探索,取得了一定的成果,成果體現(xiàn)了一定的價值。相關(guān)研究從結(jié)構(gòu)化信息、顯式信息和隱式信息三個層面對科技文獻(xiàn)進(jìn)行信息抽取,取得了很多突破。但是,以往的研究并沒有涉及到處理XML格式中具有相同標(biāo)簽的不同內(nèi)容,這會造成文獻(xiàn)內(nèi)部段落歧義的問題;也沒有涉及PDF文件中跨頁表格的抽取等等。這個需要在未來的研究中加以重視。另外,關(guān)鍵詞和引文相關(guān)信息的抽取在這一領(lǐng)域也已經(jīng)有豐富的研究成果,但目前對于方法和算法的抽取研究僅僅停留在“內(nèi)容層面”,即對顯式信息的抽取。未來有必要利用語義相關(guān)的方法來抽取方法和算法,通過識別和整合來挖掘其中的隱式信息。

      其次,本文從方法層面對科技文獻(xiàn)的信息抽取方法進(jìn)行了總結(jié)。研究發(fā)現(xiàn),統(tǒng)計學(xué)、自然語言處理和機(jī)器學(xué)習(xí)三大類方法被廣泛應(yīng)用在相關(guān)研究中。其中,機(jī)器學(xué)習(xí)方法在研究工作中占據(jù)了最大的比例。

      最后,本文對科技文獻(xiàn)信息的抽取內(nèi)容和抽取方法進(jìn)行了整合和總結(jié),認(rèn)為科技文獻(xiàn)信息抽取面臨著新的挑戰(zhàn)。例如,從PDF和XML中抽取結(jié)構(gòu)化信息的研究仍存在一定的進(jìn)步空間。同時,語義信息的抽取具有挑戰(zhàn)性。除了已抽取的信息外,還有很多重要信息的抽取需求,例如,關(guān)鍵發(fā)現(xiàn)、前人研究工作、術(shù)語等。此外,應(yīng)用機(jī)器學(xué)習(xí)和自然語言處理是處理這一問題的趨勢。如何將機(jī)器學(xué)習(xí)和自然語言處理結(jié)合起來,并在科技文獻(xiàn)的信息抽取中獲得良好的準(zhǔn)確性、覆蓋率和可擴(kuò)展性,仍然是一個挑戰(zhàn)。

      猜你喜歡
      結(jié)構(gòu)化機(jī)器文獻(xiàn)
      機(jī)器狗
      機(jī)器狗
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      未來機(jī)器城
      電影(2018年8期)2018-09-21 08:00:06
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      利津县| 威海市| 德清县| 高平市| 阿巴嘎旗| 大姚县| 黄陵县| 南投市| 防城港市| 莆田市| 阿城市| 五莲县| 札达县| 安丘市| 临泽县| 林甸县| 滕州市| 枣阳市| 金秀| 察隅县| 洛浦县| 常山县| 通城县| 准格尔旗| 庄河市| 乾安县| 左权县| 新乐市| 阳原县| 绥江县| 毕节市| 宝鸡市| 合江县| 衡阳市| 军事| 石城县| 太白县| 友谊县| 阳谷县| 文成县| 新沂市|