• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科學(xué)論文內(nèi)的科學(xué)數(shù)據(jù)組織和發(fā)現(xiàn)研究

      2020-08-14 06:16丁培
      現(xiàn)代情報 2020年2期

      摘 要:[目的/意義]科學(xué)論文中的圖、表等科學(xué)數(shù)據(jù)(文內(nèi)數(shù)據(jù))蘊含有豐富的知識內(nèi)容?;诩毩6日Z義組織的文內(nèi)數(shù)據(jù)發(fā)現(xiàn)有效聚合文獻、科學(xué)數(shù)據(jù)兩類科研產(chǎn)出,為未來實現(xiàn)全領(lǐng)域、全維度、全粒度、全類型的深度知識發(fā)現(xiàn)奠定基礎(chǔ)。[方法/過程]梳理、對比、分析現(xiàn)有3類文內(nèi)數(shù)據(jù)的發(fā)現(xiàn)模式,嘗試構(gòu)建面向細粒度內(nèi)容描述的文內(nèi)數(shù)據(jù)本體,揭示文內(nèi)數(shù)據(jù)的顯性特征、內(nèi)容特征以及與其他類型科學(xué)產(chǎn)出的關(guān)聯(lián)特征。[結(jié)果/結(jié)論]從面向應(yīng)用的角度,提出基于本體的文內(nèi)數(shù)據(jù)知識發(fā)現(xiàn)技術(shù)框架,細化“信息抽取—語義標注—關(guān)聯(lián)應(yīng)用”技術(shù)路線,針對關(guān)鍵點技術(shù)進行討論。文內(nèi)數(shù)據(jù)本體為科學(xué)論文內(nèi)科學(xué)數(shù)據(jù)提供語義描述和關(guān)聯(lián)組織依據(jù),人工標注結(jié)合機器學(xué)習(xí)自動標注可以解決文內(nèi)數(shù)據(jù)部分特征發(fā)現(xiàn)問題。

      關(guān)鍵詞:文內(nèi)數(shù)據(jù);科學(xué)數(shù)據(jù);科學(xué)論文;本體組織;數(shù)據(jù)發(fā)現(xiàn)

      DOI:10.3969/j.issn.1008-0821.2020.02.005

      〔中圖分類號〕G254 〔文獻標識碼〕A 〔文章編號〕1008-0821(2020)02-0034-10

      Research on the Organization and Discovery of

      Scientific Data in Scientific Papers

      Ding Pei1,2,3

      (1.National Science Library,Chinese Academy of Sciences,Beijing 100190,China;

      2.School of Economics and Management,University of Chinese Academy of Sciences,

      Beijing 100190,China;

      3.Library,Shenzhen University,Shenzhen 518060,China)

      Abstract:[Purpose/Meaning]The figures,tables and other scientific data in scientific papers(Scientific data in papers,SDIP)contain abundant knowledge.SDIP discovery based on fine-grained semantic organization can effectively aggregate literature and scientific data,laying a foundation for future in-depth knowledge discovery in all fields,all dimensions,all granularity and all types.[Method/Process]By combing,comparing and analyzing the existing organization and discovery patterns of three types of SDIP,this paper attempted to construct SDIP ontology that oriented to fine-grained knowledge description,and revealed SDIPs the explicit characteristics,content characteristics and characteristics correlation with other types of scientific output.[Result/Conclusions]From the perspective of application,this paper proposed an ontology-based framework for SDIP knowledge discovery,elaborated the technical route of“information extraction-semantic annotation-relational application”,and discussed the key technologies.Ontology provided semantic description and relevance discovery basis for SDIP.Manual annotation and automatic annotation using machine learning algorithm could solve the some problem of SDIP feature discovery.

      Key words:scientific data in scientific papers;scientific data;scientific literature;ontology organization;data discovery

      數(shù)據(jù)驅(qū)動的科學(xué)研究范式下,科學(xué)數(shù)據(jù)的共享、發(fā)現(xiàn)毋庸置疑成為全球重視的問題。得益于大規(guī)模科學(xué)數(shù)據(jù)倉儲及共享平臺建設(shè)升級,國家、大學(xué)積極推動制定科學(xué)數(shù)據(jù)開放獲取政策,科研資助機構(gòu)要求科研人員提供數(shù)據(jù)管理計劃,期刊出版社努力推動科學(xué)數(shù)據(jù)引用、數(shù)據(jù)鏈接解析、科學(xué)數(shù)據(jù)提交及科學(xué)數(shù)據(jù)出版,科學(xué)數(shù)據(jù)的共享和發(fā)現(xiàn)在近幾年內(nèi)有巨大的改善。然而,科學(xué)數(shù)據(jù)本身的敏感性、機密性,數(shù)據(jù)出版環(huán)境不成熟,文獻和數(shù)據(jù)相互引用缺少統(tǒng)一規(guī)范,數(shù)據(jù)組織停留在粗粒度數(shù)據(jù)集的簡單描述,科學(xué)文獻和科學(xué)數(shù)據(jù)多基于簡單的科研屬性特征關(guān)聯(lián),這一系列因素導(dǎo)致科學(xué)數(shù)據(jù)的深度內(nèi)容發(fā)現(xiàn)及跨類型的知識發(fā)現(xiàn)進展遲緩。

      當前,基于關(guān)鍵詞搜索、相關(guān)度排序算法的文獻全文檢索發(fā)現(xiàn)技術(shù)已經(jīng)十分成熟。在語義出版浪潮推動下,文獻細粒度語義組織、基于機器學(xué)習(xí)算法的文獻細粒度內(nèi)容的抽取和語義標注、論文語義功能單元的識別和抽取也逐步走向?qū)嶋H應(yīng)用??茖W(xué)文獻的精準、細粒度發(fā)現(xiàn)為科學(xué)數(shù)據(jù)的細粒度發(fā)現(xiàn)提供了很好的思路。

      圖、表、公式等科學(xué)數(shù)據(jù)被大量應(yīng)用于科學(xué)論文中。它們往往是對信息的高度概括,幫助作者清晰簡潔地呈現(xiàn)出詳細的結(jié)果和復(fù)雜的關(guān)系、模式和趨勢,增加了讀者對研究結(jié)果的理解,并減少了論文手稿長度。它們是科學(xué)論文中不可或缺的組成。本研究稱這些數(shù)據(jù)為文內(nèi)數(shù)據(jù)。文內(nèi)數(shù)據(jù)是文獻和科學(xué)數(shù)據(jù)的交叉點,一方面支撐科學(xué)文獻的重要論點,濃縮科研精華,幫助讀者理解研究框架;另一方面作為科學(xué)數(shù)據(jù)“冰山”一角,是科學(xué)工作流過程數(shù)據(jù)、科學(xué)數(shù)據(jù)倉儲的延續(xù),承載科學(xué)數(shù)據(jù)發(fā)現(xiàn)的職責。本研究以文內(nèi)數(shù)據(jù)作為科學(xué)數(shù)據(jù)精準、細粒度發(fā)現(xiàn)的突破口,對文內(nèi)數(shù)據(jù)多維特征進行細粒度語義組織,建立文內(nèi)數(shù)據(jù)與文獻、科學(xué)數(shù)據(jù)集在引用、論證作用、隸屬關(guān)系、研究主張(研究假設(shè)、研究結(jié)果、研究主題等)、科學(xué)方法等方面的關(guān)聯(lián),嘗試解決基于科學(xué)數(shù)據(jù)細粒度特征的文獻搜索聚類和基于文獻主題、研究方法等的多類型數(shù)據(jù)聚合等問題,嘗試以文內(nèi)數(shù)據(jù)為橋梁,建立起數(shù)據(jù)、文獻兩類科學(xué)產(chǎn)出之間的聯(lián)系,促進數(shù)據(jù)的細粒度發(fā)現(xiàn),為更加深刻的文獻分析提供支點,為未來實現(xiàn)全領(lǐng)域、全維度、全粒度的文獻和數(shù)據(jù)關(guān)聯(lián)奠定基礎(chǔ)。

      2020年2月第40卷第2期現(xiàn)代情報Journal of Modern InformationFeb.,2020Vol.40 No.2

      2020年2月第40卷第2期科學(xué)論文內(nèi)的科學(xué)數(shù)據(jù)組織和發(fā)現(xiàn)研究

      www.xdqb.net

      Feb.,2020Vol.40 No.2

      1 科學(xué)論文內(nèi)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)研究現(xiàn)狀

      目前,科學(xué)論文內(nèi)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)采用過3種方式,分別是基于元數(shù)據(jù)的數(shù)據(jù)發(fā)現(xiàn)、基于本體的數(shù)據(jù)發(fā)現(xiàn)以及基于信息抽取技術(shù)的數(shù)據(jù)標注與發(fā)現(xiàn)。

      元數(shù)據(jù)模型常應(yīng)用于大型的數(shù)據(jù)收集和科學(xué)數(shù)據(jù)倉儲的管理中。它是描述信息資源或數(shù)據(jù)對象的數(shù)據(jù)。它通過結(jié)構(gòu)化的描述,對具體的情境進行定制化的解釋,實現(xiàn)對資源的組織、發(fā)現(xiàn)、互操作、歸檔和保藏等。其優(yōu)勢在于表達的多樣化、門檻低,因而,元數(shù)據(jù)是最早應(yīng)用于文內(nèi)數(shù)據(jù)發(fā)現(xiàn)的組織方式。

      Sandusky R J等調(diào)查發(fā)現(xiàn)科研人員希望可以檢索發(fā)現(xiàn)期刊文章內(nèi)的圖、表、地圖、照片等內(nèi)容[1]。劍橋科學(xué)文摘(Cambridge Scientific Abstracts,CSA)創(chuàng)造性地提出“深度索引”方法,抽取文獻中的表格、圖片等數(shù)據(jù),標引其元數(shù)據(jù),建立科學(xué)數(shù)據(jù)的獨立索引數(shù)據(jù)庫,進而提供基于關(guān)鍵詞、作者、單位的元數(shù)據(jù)檢索服務(wù)[2]。BioText Search Engine[3]同樣也采用元數(shù)據(jù)索引方式來標注文獻內(nèi)的圖表數(shù)據(jù)。曹樹金等構(gòu)建細粒度聚合單元元數(shù)據(jù)框架并將其用于數(shù)據(jù)檢索,實現(xiàn)圖片標題、文獻來源、上下文內(nèi)容等檢索,并提供顏色、發(fā)表年度、關(guān)鍵詞、圖片類別分面功能,未深入描述與揭示圖表與章節(jié)、篇章及句群的聯(lián)系[4]。SciData是面向通用科學(xué)數(shù)據(jù)組織的元數(shù)據(jù)模型,其描述了科學(xué)數(shù)據(jù)的方法論、系統(tǒng)、數(shù)據(jù)集、參數(shù)、值、單元等要素[5]。元數(shù)據(jù)發(fā)現(xiàn)方式并不能完全解決數(shù)據(jù)之間的語義異構(gòu)問題,不同領(lǐng)域知識下的元數(shù)據(jù)存在誤解的可能,跨學(xué)科的元數(shù)據(jù)難以交互使用,還存在描述粒度大、數(shù)據(jù)難以被計算機理解和自動處理、無法實現(xiàn)語義化檢索和知識推理等缺點。

      本體能解決元數(shù)據(jù)的上述不足,它以一種明確、形式化的方式表示信息資源,通過賦予異構(gòu)數(shù)據(jù)以統(tǒng)一的語義信息,使得機器能夠理解信息并自動處理信息之間的語義聯(lián)系,從而提高異構(gòu)數(shù)據(jù)之間的互操作性。

      在本體組織方面,目前與科學(xué)數(shù)據(jù)相關(guān)的本體大都將科學(xué)數(shù)據(jù)作為整體對象,粗粒度描述其特征,并基于粗粒度特征建立科學(xué)數(shù)據(jù)和科學(xué)文獻的關(guān)聯(lián)?,F(xiàn)有科學(xué)數(shù)據(jù)的本體組織又可分為4類。第一類是在科學(xué)研究的本體中,將數(shù)據(jù)(或數(shù)據(jù)集)作為整體對象納入本體,描述其在科研屬性方面的特征。VIVO本體,引用本體Citation Typing Ontology(CITO)、CiTO4Data本體等,工作流本體如Open Provenance Model(OPM)來源模型,Janus科研工作流本體,科研證據(jù)本體Evidence Ontology(ECO)分別在粗粒度層次揭示科學(xué)數(shù)據(jù)的科研屬性特征,如機構(gòu)、項目、科學(xué)工作流、數(shù)據(jù)引用、證據(jù)作用等[6]。李丹丹探索將這些屬性都集成在一個本體設(shè)計中[7]。第二類是通用的科學(xué)實驗本體或科學(xué)數(shù)據(jù)本體。這類本體對科學(xué)數(shù)據(jù)的科學(xué)過程場景抽象化,通過重用已有本體屬性,描述科學(xué)數(shù)據(jù)在科研屬性(機構(gòu)、作者)、主題及與文獻關(guān)聯(lián)等方面的特征。如Brahaj A設(shè)計的科學(xué)調(diào)查核心本體(Core Ontology for Scientific Investigations,COSI)[8]、Chalk S J提出的Scientific Data Model[5],鮮國建提出的農(nóng)業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)與科技文獻語義關(guān)聯(lián)模型[9]、馬雨萌等設(shè)計的科學(xué)數(shù)據(jù)語義組織框架[10]均是屬于此類關(guān)聯(lián)本體。第三類本體是面向具體學(xué)科領(lǐng)域的科學(xué)數(shù)據(jù)本體,這類本體多結(jié)合具體的領(lǐng)域知識(敘詞表或分類法),重點關(guān)注領(lǐng)域知識間的相互關(guān)系,數(shù)據(jù)僅是知識的載體形式,海洋領(lǐng)域本體MarineTLO[11],中醫(yī)胃病科學(xué)數(shù)據(jù)本體[12]、水稻基因?qū)嶒灡倔w[13],植物學(xué)基因表達實驗元數(shù)據(jù)模型[14]均是此類本體或描述。第四類本體與文內(nèi)數(shù)據(jù)有關(guān)。科學(xué)論文內(nèi)容本體揭示科學(xué)論文各部分的屬性,部分本體對文內(nèi)數(shù)據(jù)提供簡單描述。DoCo[15],Discourse Elements Ontology(DEO)[16]等本體定義了文獻內(nèi)部的圖、表等組件,描述它們的標簽、圖表框,未深入描述圖表的內(nèi)容??茖W(xué)論文功能單元本體[17]嘗試定義文內(nèi)數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)描述內(nèi)容,并匹配文內(nèi)數(shù)據(jù)的知識類型屬性(如確定性程度、情感傾向、來源),但未進一步細粒度分解文內(nèi)數(shù)據(jù)內(nèi)容。上述4類本體均不是專門面向文內(nèi)數(shù)據(jù)組織,未能解決文內(nèi)數(shù)據(jù)細粒度描述及發(fā)現(xiàn)問題。

      近年來,得益于自然語言處理技術(shù)和機器學(xué)習(xí)算法的不斷改進,加之機器學(xué)習(xí)在處理細粒度、大規(guī)模數(shù)據(jù)挖掘上的天然優(yōu)勢,許多研究者嘗試基于計算機機器學(xué)習(xí)技術(shù),并結(jié)合相關(guān)本體對科學(xué)論文中的圖表實施信息抽取及語義標注,實現(xiàn)圖表發(fā)現(xiàn)。Siegel N等設(shè)計了FigureSeer工具,它是一種新穎的端到端框架,該框架可以自動地定位、分類研究論文中的折線圖、散點圖、流程圖、Graph Plots圖塊、數(shù)學(xué)算法、條形圖、表格等格式圖形,實現(xiàn)折線圖數(shù)據(jù)和數(shù)據(jù)標簽內(nèi)容的準確提取[18]。WebPlotDigitizer(條形圖、二維折線圖、極坐標圖、三元相位圖、地圖)[19]、ChartSense(線圖、面積圖、雷達圖、條形圖、餅圖)[20]、ReVision(柱狀圖、餅圖)[21]、Scatteract(散點圖)[22]等半自動工具,在人工幫助確定坐標軸、顏色、基點位置等信息后,也可抽取和標注圖表數(shù)據(jù)。Kembhavi A等引入了一種圖解析圖(Diagram Parse Graphs,DPG)的方法,識別文獻中視覺插圖(如食物鏈圖、大氣循環(huán)圖等)的插圖元素,并建立元素之間的語義關(guān)系,使之用于知識問答系統(tǒng)[23]。Lee P等提出一種從系統(tǒng)樹圖(Dendrograms)中提取信息的新方法,自動識別科學(xué)文獻中的系統(tǒng)樹圖,提取樹結(jié)構(gòu)的關(guān)鍵成分,重建樹,恢復(fù)樹的層次關(guān)系[24]。SemAnn利用PDF文檔解析工具PDF.js和自定義抽取算法將PDF文檔中人工選中的表格轉(zhuǎn)換為CSV格式,然后利用CSV-To-RDF轉(zhuǎn)換工具結(jié)合嵌入本體(如DBpedia、FOAF或自定義)實現(xiàn)對抽取出來的表格數(shù)據(jù)進行半自動的語義標注[25]。Cao H等通過構(gòu)建觀測事件模型,借助本體工具,利用規(guī)范化的觀測術(shù)語、實體對象,將觀測數(shù)據(jù)表格轉(zhuǎn)化為可理解的事件,從而進行語義標注[26]。

      機器學(xué)習(xí)、抽取、標注的方法在文內(nèi)數(shù)據(jù)識別、抽取、顯性信息理解等方面有一定優(yōu)勢,但廣范圍應(yīng)用受到限制。提取和理解數(shù)據(jù)內(nèi)容需要借助本體,尤其是數(shù)據(jù)理解。同時由于面向特定對象,且機器分類、提取精準度低于85%,現(xiàn)有技術(shù)方法并不能移植到實際應(yīng)用中。此外,現(xiàn)有技術(shù)也無法讓機器理解文內(nèi)數(shù)據(jù)和科學(xué)論文在研究屬性(如論證作用、假設(shè)、結(jié)果、方法等)上的隱性關(guān)聯(lián)。

      綜合上述調(diào)研發(fā)現(xiàn),現(xiàn)有的3種方式均存在自身局限性。本研究試圖結(jié)合本體構(gòu)建和機器語義標注兩種方式,構(gòu)建專門面向細粒度內(nèi)容描述的文內(nèi)數(shù)據(jù)本體,提出基于本體的文內(nèi)數(shù)據(jù)細粒度發(fā)現(xiàn)及關(guān)聯(lián)科學(xué)論文的技術(shù)路線,推動科學(xué)數(shù)據(jù)細粒度發(fā)現(xiàn)。

      2 文內(nèi)數(shù)據(jù)定義及發(fā)現(xiàn)場景

      文內(nèi)數(shù)據(jù)是指在論文、專著、專利、會議文獻、網(wǎng)絡(luò)信息資源等科學(xué)文獻中用以描述示例、內(nèi)容解釋、論述佐證、信息展示的異構(gòu)媒體內(nèi)容,比如圖、表、公式、數(shù)據(jù)集等。它是科學(xué)數(shù)據(jù)在文獻中的表現(xiàn)形式之一。文內(nèi)數(shù)據(jù)是一個復(fù)合化的信息載體,它具有文章內(nèi)容片段,科學(xué)數(shù)據(jù)片段的雙重身份的特點,也是整個科學(xué)研究的重要組成部分。因此從復(fù)合的信息內(nèi)容看,文內(nèi)數(shù)據(jù)包括文章信息(例如章節(jié)位置、上下文內(nèi)容、論證支持),數(shù)據(jù)信息(如數(shù)據(jù)引用,數(shù)據(jù)來源方式),科學(xué)研究信息(如支持假設(shè)、數(shù)據(jù)結(jié)論、研究方法、主題等),此外文內(nèi)數(shù)據(jù)本身有固有特征(如媒體類型)。

      科研人員在查看文獻中的圖表數(shù)據(jù)時,通常需要結(jié)合圖表標題、圖例、圖注(包括圖內(nèi)和圖后)、數(shù)據(jù)標簽、圖表的上下文解釋理解圖表內(nèi)涵。此外,從圖表數(shù)字中得出的關(guān)鍵推論有時不會在文本中明確地表述出來(因為人們可以很容易地從視覺上推斷出來)??蒲腥藛T希望可以通過圖表來訪問圖表的原始數(shù)據(jù),能夠檢索到圖表中隱藏的推論(例如數(shù)據(jù)趨勢、特征點),基于關(guān)鍵詞檢索找到含有相同研究結(jié)論、使用相同研究方法的其他數(shù)據(jù)或論文,抑或是根據(jù)圖表中的某個數(shù)據(jù)參數(shù)來追蹤后續(xù)研究。上述需求場景涉及文內(nèi)數(shù)據(jù)的多個屬性以及與科學(xué)論文、科學(xué)數(shù)據(jù)集以及科學(xué)研究的關(guān)聯(lián)交互。

      從科研人員利用文內(nèi)數(shù)據(jù)的角度,筆者描述3種文內(nèi)數(shù)據(jù)發(fā)現(xiàn)場景。

      1)基于文內(nèi)數(shù)據(jù)顯性特征的發(fā)現(xiàn)。文內(nèi)數(shù)據(jù)顯性特征主要包括媒體特征(圖表類型)、圖例,元數(shù)據(jù)(如標題、關(guān)鍵詞)??蒲腥藛T可以基于這些特征縮小發(fā)現(xiàn)范圍,查找特定類型、含特定圖例信息的文內(nèi)數(shù)據(jù)。

      2)基于文內(nèi)數(shù)據(jù)內(nèi)容屬性的發(fā)現(xiàn)。文內(nèi)數(shù)據(jù)的內(nèi)容屬性包括數(shù)據(jù)參數(shù)、數(shù)據(jù)特征、數(shù)據(jù)結(jié)果、主題、學(xué)科等。既涵蓋在上下文或圖注部分容易獲取的內(nèi)容(數(shù)據(jù)結(jié)論、主題、學(xué)科),也包括需要深度理解才能得到的隱藏知識內(nèi)容,如數(shù)據(jù)參數(shù)、數(shù)據(jù)特征。

      3)基于關(guān)聯(lián)研究屬性的發(fā)現(xiàn)擴展。文內(nèi)數(shù)據(jù)通過引用、論證作用、隸屬關(guān)系(如數(shù)據(jù)隸屬于某篇文章、某個研究)、研究主張(研究假設(shè)、研究結(jié)果、研究主題等)、科學(xué)方法等與其他類型的科學(xué)產(chǎn)出(如科學(xué)論文、科學(xué)數(shù)據(jù)集)建立關(guān)聯(lián)。研究人員可以基于這些特征擴展檢索范圍,實現(xiàn)跨類型的知識發(fā)現(xiàn)。

      基于上述理解,本研究采用本體構(gòu)建的方式,嘗試將文內(nèi)數(shù)據(jù)所包含的多方面的信息內(nèi)容形式化,以反映核心內(nèi)容及其背景、語境信息、關(guān)聯(lián),方便知識的集成、推理和發(fā)現(xiàn)。

      3 本體框架構(gòu)建

      借助本體構(gòu)建編輯工具Protégé,在明確本體范圍和應(yīng)用范圍的前提下,筆者分析、總結(jié)并抽象化實際科學(xué)論文中文內(nèi)數(shù)據(jù)所包含、關(guān)聯(lián)的相關(guān)信息,咨詢領(lǐng)域?qū)<?,結(jié)合文獻調(diào)研,借鑒已有的科學(xué)數(shù)據(jù)相關(guān)本體和描述,并復(fù)用相關(guān)本體類目和屬性,構(gòu)建一個專門面向文內(nèi)數(shù)據(jù)發(fā)現(xiàn)的應(yīng)用本體。

      文內(nèi)數(shù)據(jù)的本體框架:通過語義建模,將上文中3種場景抽象概念化,建立概念實體間的語義關(guān)系,形成細粒度文內(nèi)數(shù)據(jù)的描述本體。本體主要組織框架如圖1所示。

      設(shè)計的本體從顯性特征、內(nèi)容特征以及文內(nèi)數(shù)據(jù)與其他類型的科學(xué)產(chǎn)出的關(guān)聯(lián)特征3個維度對文內(nèi)數(shù)據(jù)進行描述。

      揭示顯性特征的概念包括媒體特征、圖例、元數(shù)據(jù)等。在媒體類型部分,文內(nèi)數(shù)據(jù)本體定義了圖、表格、復(fù)合圖、公式、圖片5大類45種格式的數(shù)據(jù)類型,并嘗試建立數(shù)據(jù)媒體類型和數(shù)據(jù)特征之間的關(guān)系。元數(shù)據(jù)描述是對信息實體的簡單描述,這里的信息實體包括文內(nèi)數(shù)據(jù)、科學(xué)數(shù)據(jù)、科學(xué)論文、科學(xué)研究。如文內(nèi)數(shù)據(jù)的元數(shù)據(jù)有標題、關(guān)鍵詞、引用、數(shù)據(jù)來源等,科學(xué)研究的元數(shù)據(jù)有角色、機構(gòu)、基金、關(guān)鍵詞等。

      揭示內(nèi)容特征的概念包括數(shù)據(jù)特征、數(shù)據(jù)參數(shù)、數(shù)據(jù)結(jié)果、主題、學(xué)科等。主題、學(xué)科是描述

      領(lǐng)域知識及建立領(lǐng)域知識關(guān)聯(lián)時常用的概念,在文內(nèi)數(shù)據(jù)本體內(nèi),將其列入科學(xué)研究的科學(xué)主張概念下,用于揭示不同科學(xué)產(chǎn)出類型的領(lǐng)域知識。

      數(shù)據(jù)特征、數(shù)據(jù)參數(shù)、數(shù)據(jù)結(jié)果揭示文內(nèi)數(shù)據(jù)的深度理解內(nèi)容。數(shù)據(jù)特征用于描述圖表所特有的表達特性,例如折線圖表達的趨勢,柱狀圖表達的數(shù)值最大、最小,散點圖表達的數(shù)值集中、分散情況,流程圖表達的對象相關(guān)關(guān)系等。數(shù)據(jù)特征通常結(jié)合數(shù)據(jù)參數(shù)內(nèi)容,共同揭示文內(nèi)數(shù)據(jù)的數(shù)據(jù)結(jié)論內(nèi)容。

      文內(nèi)數(shù)據(jù)的數(shù)據(jù)展示部分比較復(fù)雜,它有不同類型,如數(shù)值、流程、關(guān)系、成像特征等,也有多重信息,如數(shù)據(jù)標題、圖注標簽、坐標軸標簽信息。為了讓計算機能夠理解這些信息,本研究在本體中將其描述為參數(shù)對象在某條件下,某個度量單位的值,即數(shù)據(jù)參數(shù)概念。參數(shù)對象是指文內(nèi)數(shù)據(jù)描述內(nèi)容、特征的主體對象,條件則限定了參數(shù)對象所處的實驗或者測量環(huán)境,一個參數(shù)可以限定零到多個條件。度量是文內(nèi)數(shù)據(jù)參數(shù)對象所要衡量的維度,而度量值是在度量維度下的取值,兩者共同組成了參數(shù)對象的數(shù)值描述部分。度量分為不同的類型,其對應(yīng)度量值的不同類型。例如圖2左側(cè)第一條的數(shù)據(jù)可以描述為基因左側(cè)大腦皮層顳中回BA21(參數(shù)對象)在健康情況下的(條件)左腦(條件)其激活中值(度量)為100(度量值)。又如圖2中的對象可以描述為文內(nèi)數(shù)據(jù)(參數(shù)對象)有屬性(度量)是科學(xué)主張(度量值)。

      數(shù)據(jù)結(jié)果指文內(nèi)數(shù)據(jù)所闡釋的研究結(jié)果。部分作者會直接在文內(nèi)數(shù)據(jù)下方的圖注部分或者論文的數(shù)據(jù)描述部分闡釋關(guān)鍵的數(shù)據(jù)結(jié)果,但也存在作者不在科學(xué)論文內(nèi)解釋那些能從文內(nèi)數(shù)據(jù)視覺特征中獲取的數(shù)據(jù)結(jié)果的情況。面對這種情況,數(shù)據(jù)結(jié)果需要結(jié)合文內(nèi)數(shù)據(jù)的數(shù)據(jù)特征以及數(shù)據(jù)參數(shù)推論獲得。

      關(guān)聯(lián)特征主要揭示了文內(nèi)數(shù)據(jù)和科學(xué)論文、科學(xué)數(shù)據(jù)集在引用、論證作用、隸屬關(guān)系、研究主張

      (研究假設(shè)、研究結(jié)果、研究主題等)、科學(xué)方法等方面的關(guān)聯(lián)。文內(nèi)數(shù)據(jù)隸屬于科學(xué)論文,它為不同的科學(xué)論文功能模塊提供多樣化的論證作用(如解釋說明、證據(jù)支撐、反駁觀點等),文內(nèi)數(shù)據(jù)是科學(xué)數(shù)據(jù)的一種類型,它和外部科學(xué)數(shù)據(jù)集存在可能的隸屬、引用或相關(guān)(基于數(shù)據(jù)集數(shù)據(jù)加工而來等)關(guān)系。此外,文內(nèi)數(shù)據(jù)、科學(xué)論文、科學(xué)數(shù)據(jù)集都屬于科學(xué)研究的產(chǎn)出,它們都具有科研的屬性,因此在科學(xué)主張、科學(xué)方法上存在關(guān)聯(lián),例如擁有同樣主題或包含的主題存在領(lǐng)域相關(guān)關(guān)系,擁有同樣的研究假設(shè),所產(chǎn)生的研究結(jié)果存在繼承、論證及相關(guān)關(guān)系,使用類似的科學(xué)方法(包括方法和流程)等。

      4 基于本體的文內(nèi)數(shù)據(jù)知識發(fā)現(xiàn)技術(shù)框架及路線

      文內(nèi)數(shù)據(jù)本體為科學(xué)論文內(nèi)科學(xué)數(shù)據(jù)提供語義描述和關(guān)聯(lián)組織依據(jù),可以應(yīng)用在專業(yè)文獻發(fā)現(xiàn)平臺或綜合性的學(xué)術(shù)搜索引擎的語義組織層,幫助實現(xiàn)基于科學(xué)數(shù)據(jù)細粒度特征的文內(nèi)數(shù)據(jù)檢索及文獻聚類,以及為面向跨類型、細粒度的學(xué)科知識發(fā)現(xiàn)、關(guān)聯(lián)、推薦奠定基礎(chǔ)。

      基于所設(shè)計的文內(nèi)數(shù)據(jù)本體,本研究提出基于本體的文內(nèi)數(shù)據(jù)知識發(fā)現(xiàn)技術(shù)框架路線,如圖3所示。

      文內(nèi)數(shù)據(jù)信息抽取是文內(nèi)數(shù)據(jù)發(fā)現(xiàn)的基礎(chǔ),基于本體的文內(nèi)數(shù)據(jù)標注則是將現(xiàn)實應(yīng)用中的文內(nèi)數(shù)據(jù)實例和抽象化的本體概念進行關(guān)聯(lián)的過程,基于領(lǐng)域知識及數(shù)據(jù)組織關(guān)系的文內(nèi)數(shù)據(jù)細粒度檢索及關(guān)聯(lián)發(fā)現(xiàn)是本體面向應(yīng)用的最終目的。

      4.1 信息抽取

      信息抽取的精準度直接影響到文內(nèi)數(shù)據(jù)發(fā)現(xiàn)的查全率及查準率。文內(nèi)數(shù)據(jù)信息來源分兩部分,一部分來自數(shù)據(jù)本身,如數(shù)據(jù)點、坐標軸、數(shù)據(jù)內(nèi)圖注、圖例等,這部分內(nèi)容以非文本內(nèi)容為主,一部分來自數(shù)據(jù)上下文,這部分內(nèi)容以純文本為主,包括數(shù)據(jù)區(qū)域外的數(shù)據(jù)解釋,科學(xué)論文上下文中的數(shù)據(jù)描述、分析及結(jié)論。因而,針對不同格式的信息,將抽取任務(wù)細分為非文本類型的文內(nèi)數(shù)據(jù)信息抽取和文本類型的文內(nèi)數(shù)據(jù)信息抽取兩類。

      非文本類型的文內(nèi)數(shù)據(jù)信息抽取過程是識別文獻中科學(xué)數(shù)據(jù)的邊界,區(qū)分數(shù)據(jù)類型,基于數(shù)據(jù)的類型特征抽取其結(jié)構(gòu)、數(shù)據(jù)點等信息,并借助一定的組織模式(如本體)建立可理解的信息展示。從技術(shù)實施看,分為數(shù)據(jù)檢測、數(shù)據(jù)分類、數(shù)據(jù)內(nèi)文本識別、數(shù)據(jù)提取及理解4個步驟。而基于不同數(shù)據(jù)類型,信息抽取分不同技術(shù)方法。表1對文內(nèi)數(shù)據(jù)常見的圖、表兩類數(shù)據(jù)的抽取技術(shù)進行總結(jié)。

      文本類型的文內(nèi)數(shù)據(jù)信息抽取相比非文本類型抽取較為簡單。其步驟有數(shù)據(jù)上下文內(nèi)容識別、文本處理、實體抽取、實體標注。目前已有諸多自然語言處理技術(shù)方法用于文本信息抽取,本文也不在此進行贅述。

      4.2 數(shù)據(jù)標注

      文內(nèi)數(shù)據(jù)標注是賦予信息抽取內(nèi)容以語義,建立本體概念或?qū)嵗痛龢俗⒃~匯之間映射的過程。此模塊涉及文內(nèi)數(shù)據(jù)本體構(gòu)建,基于本體的數(shù)據(jù)標注兩方面。

      本體詳盡程度會直接影響到標注的關(guān)聯(lián)及發(fā)現(xiàn)效果。文內(nèi)數(shù)據(jù)本體對文內(nèi)數(shù)據(jù)及其關(guān)聯(lián)的特征進行通用化的定義,而應(yīng)用于具體領(lǐng)域知識發(fā)現(xiàn)時,需要結(jié)合相關(guān)的領(lǐng)域知識本體(如MESH、GO本體)等來標注文內(nèi)數(shù)據(jù)的領(lǐng)域知識屬性。

      人工標注和基于機器學(xué)習(xí)的自動標注是語義標注可選的兩種方式。面對大規(guī)模、細粒度的數(shù)據(jù)、論文標注任務(wù)時,自動標注具有明顯的優(yōu)勢。但自動標注并不適合所有的標注任務(wù)。在文內(nèi)數(shù)據(jù)的標注任務(wù)中,文內(nèi)數(shù)據(jù)的媒體類型、元數(shù)據(jù)、部分科學(xué)主張屬性(如主題、方法、研究結(jié)論)可以采用機器學(xué)習(xí)算法(如支持向量機、卷積神經(jīng)網(wǎng)絡(luò)等)來幫助自動標注,而數(shù)據(jù)特征、數(shù)據(jù)參數(shù)、論證作用等內(nèi)容的標注,目前適合借助GATE、Annotea等標注工具來人工標注。標注結(jié)果以RDF三元組的形式進行存儲。

      4.3 應(yīng) 用

      基于標注數(shù)據(jù)集和本體推理機,借助語義檢索發(fā)現(xiàn)工具,可以實現(xiàn)文內(nèi)數(shù)據(jù)的細粒度語義檢索,跨類型的知識發(fā)現(xiàn)與推薦,知識深度聚合以及輔助檢測文內(nèi)數(shù)據(jù)重復(fù)。

      細粒度的文內(nèi)數(shù)據(jù)組織可以使文內(nèi)數(shù)據(jù)能夠像文獻一樣,通過主題詞或者數(shù)據(jù)特征來直接檢索特定數(shù)據(jù),例如可以檢索發(fā)現(xiàn)含有“精神病患者、不同大腦皮層激活區(qū)域、數(shù)據(jù)對比”或“運用本體構(gòu)建方法并含有科學(xué)數(shù)據(jù)元素”的圖或者表格,并關(guān)聯(lián)到圖表所在的文章,若圖表與外部科學(xué)數(shù)據(jù)集存在引用等關(guān)系,也可建立起文章—文內(nèi)數(shù)據(jù)—科學(xué)數(shù)據(jù)集的關(guān)聯(lián)。在此基礎(chǔ)上,可以實現(xiàn)特定知識的科學(xué)文獻片段、文內(nèi)數(shù)據(jù)以及數(shù)據(jù)集的聚合,幫助發(fā)現(xiàn)新研究思路及跨學(xué)科的研究。

      此外,文內(nèi)數(shù)據(jù)的細粒度組織描述還可以幫助發(fā)現(xiàn)在不同論文中重復(fù)使用同一個圖片或表格的現(xiàn)象,有助于出版社檢測發(fā)現(xiàn)剽竊抄襲圖表數(shù)據(jù)等學(xué)術(shù)不端行為,這是目前出版行業(yè)需要的功能。

      5 結(jié) 語

      未來的知識發(fā)現(xiàn)是面向細粒度、跨類型、分布式倉儲、計算機可理解及語義聚合。文內(nèi)數(shù)據(jù)作為知識單元的一環(huán),其價值正逐漸被重新重視。本研究對細粒度的文內(nèi)數(shù)據(jù)發(fā)現(xiàn)進行初步探索,通過構(gòu)建文內(nèi)數(shù)據(jù)本體并提出基于本體的知識發(fā)現(xiàn)框架,嘗試同時解決文內(nèi)數(shù)據(jù)的深度語義理解和文內(nèi)數(shù)據(jù)—文獻—數(shù)據(jù)集跨類型關(guān)聯(lián)發(fā)現(xiàn)兩個問題。本研究的不足在于未深入驗證文內(nèi)數(shù)據(jù)本體的效果以及未對文內(nèi)數(shù)據(jù)發(fā)現(xiàn)的技術(shù)進行實證研究,這是下一步研究工作的方向。

      參考文獻

      [1]Sandusky R J,Tenopir C,Casado M M.Figure and Table Retrieval from Scholarly Journal Articles:User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-13.

      [2]Sandusky R J.Deep Indexing and Discovery of Tables and Figures[EB/OL].http://www.niso.org/news/events/2008/discovery08/agenda/sandusky.pdf,2019-05-02.

      [3]Hearst M A,Divoli A,Guturu H,et al.Biotext Search Engine:Beyond Abstract Search[J].Bioinformatics,2007,23(16):2196-2197.

      [4]曹樹金,李潔娜,王志紅.面向網(wǎng)絡(luò)信息資源聚合搜索的細粒度聚合單元元數(shù)據(jù)研究[J].中國圖書館學(xué)報,2017,43(4):74-92.

      [5]Chalk S J.Scidata:A Data Model and Ontology for Semantic Representation of Scientific Data[J].Journal of Cheminformatics,2016,8(1):54.

      [6]丁培.科學(xué)文獻與科學(xué)數(shù)據(jù)細粒度語義關(guān)聯(lián)研究[J].圖書館論壇,2016,36(7):24-33.

      [7]李丹丹.基于科學(xué)工作流的研究數(shù)據(jù)組織關(guān)聯(lián)模型研究[D].北京:中國科學(xué)院大學(xué),2013.

      [8]Brahaj A.Semantic Representation of Provenance and Contextual Information in Scientific Research[D].Humboldt-Universitt zu Berlin,Philosophische Fakultüt I,2016.

      [9]鮮國建.農(nóng)業(yè)科技多維語義關(guān)聯(lián)數(shù)據(jù)構(gòu)建研究[D].北京:中國農(nóng)業(yè)科學(xué)院,2013.

      [10]馬雨萌,郭進京,王昉.e-Science 環(huán)境下科學(xué)數(shù)據(jù)語義組織模型框架研究[J].現(xiàn)代圖書情報技術(shù),2015,(Z1):48-57.

      [11]Farcas C,Meisinger M,Stuebe D,et al.Ocean Observatories Initiative Scientific Data Model[C]//Oceans11 MTS/IEEE KONA.IEEE,2011:1-10.

      [12]徐坤,蔚曉慧,畢強.基于數(shù)據(jù)本體的科學(xué)數(shù)據(jù)語義化組織研究[J].圖書情報工作,2015,59(17):120-126.

      [13]徐瀟潔,何琳,陳雅玲,等.面向關(guān)聯(lián)數(shù)據(jù)的科學(xué)實驗數(shù)據(jù)語義描述模型研究——以水稻基因?qū)嶒灋槔齕J].圖書館,2017,(1):61-66.

      [14]常穎聰,何琳.科學(xué)實驗數(shù)據(jù)元數(shù)據(jù)模型構(gòu)建研究——以植物學(xué)基因表達實驗為例[J].圖書情報工作,2015,59(13):117-125.

      [15]Constantin A,Peroni S,Pettifer S,et al.The Document Components Ontology(Doco)[J].Semantic Web,2016,7(2):167-181.

      [16]The Discourse Elements Ontology(DEO)[EB/OL].https://sparontologies.github.io/deo/current/deo.html,2019-05-02.

      [17]王曉光,李夢琳,宋寧遠.科學(xué)論文功能單元本體設(shè)計與標引應(yīng)用實驗[J].中國圖書館學(xué)報,2018,(4):73-88.

      [18]Siegel N,Horvitz Z,Levin R,et al.Figureseer:Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision.Springer,Cham,2016:664-680.

      [19]Rogatgi A.WebPlotDigitizer[EB/OL].https://automeris.io/WebPlotDigitizer/,2019-05-02.

      [20]Jung D,Kim W,Song H,et al.Chartsense:Interactive Data Extraction from Chart Images[C]//Proceedings of the 2017 Chi Conference on Human Factors In Computing Systems.ACM,2017:6706-6717.

      [21]Savva M,Kong N,Chhajta A,et al.Revision:Automated Classification,Analysis and Redesign of Chart Images[C]//Proceedings of the 24th Annual Acm Symposium on User Interface Software and Technology.ACM,2011:393-402.

      [22]Cliche M,Rosenberg D,Madeka D,et al.Scatteract:Automated Extraction of Data from Scatter Plots[C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases.Springer,Cham,2017:135-150.

      [23]Kembhavi A,Salvato M,Kolve E,et al.A Diagram is Worth a Dozen Images[C]//European Conference on Computer Vision.Springer,Cham,2016:235-251.

      [24]Lee P,Yang S T,West J D,et al.Phyloparser:A Hybrid Algorithm for Extracting Phylogenies from Dendrograms[C]//2017 14th Iapr International Conference on Document Analysis and Recognition(Icdar).IEEE,2017,(1):1087-1094.

      [25]Takis J,Islam A Q M,Lange C,et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in Pdf[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM,2015:1-8.

      [26]Cao H,Bowers S,Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2011:526-541.

      [27]Ray Choudhury S,Giles C L.An Architecture for Information Extraction from Figures in Digital Libraries[C]//Proceedings of the 24th International Conference on World Wide Web.ACM,2015:667-672.

      [28]唐皓瑾.一種面向PDF文件的表格數(shù)據(jù)抽取方法的研究與實現(xiàn)[D].北京:北京郵電大學(xué),2014.

      [29]Huang W,Zong S,Tan C L.Chart Image Classification Using Multiple-Instance Learning[C]//2007 Ieee Workshop on Applications of Computer Vision(Wacv07).IEEE,2007:27-27.

      [30]Prasad V S N,Siddiquie B,Golbeck J,et al.Classifying Computer Generated Charts[C]//2007 International Workshop on Content-Based Multimedia Indexing.IEEE,2007:85-92.

      [31]Tang B,Liu X,Lei J,et al.Deepchart:Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing,2016,124:156-161.

      [32]Crestan E,Pantel P.Web-Scale Table Census and Classification[C]//Proceedings of the Fourth Acm International Conference on Web Search and Data Mining.ACM,2011:545-554.

      [33]Fang J,Mitra P,Tang Z,et al.Table Header Detection and Classification[C]//Twenty-Sixth Aaai Conference on Artificial Intelligence,2012.

      [34]Kim S,Liu Y.Functional-Based Table Category Identification in Digital Library[C]//2011 International Conference on Document Analysis and Recognition.IEEE,2011:1364-1368.

      [35]蔣夢迪,程江華,陳明輝,等.視頻和圖像文本提取方法綜述[J].計算機科學(xué),2017,(2):8-18.

      [36]Ye Q,Doermann D.Text Detection and Recognition in Imagery:A Survey[J].Ieee Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.

      [37]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//Proceedings of the 21st International Conference on Pattern Recognition(Icpr2012).IEEE,2012:1554-1557.

      [38]Seth S,Nagy G.Segmenting Tables Via Indexing of Value Cells By Table Headers[C]//2013 12th International Conference on Document Analysis and Recognition.IEEE,2013:887-891.

      [39]Berkley C,Bowers S,Jones M B,et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex,Intelligent and Software Intensive Systems.Fukuoka:IEEE,2009:1152-1159.

      [40]Bischof S,Martin C,Polleres A,et al.Collecting,Integrating,Enriching and Republishing Open City Data As Linked Data[C]//International Conference on the Semantic Web-Iswc 2015.Berlin:Springer,2015:58-75.

      (責任編輯:陳 媛)

      淮阳县| 承德市| 博野县| 鲁甸县| 普陀区| 北宁市| 大厂| 浦县| 延川县| 通渭县| 中超| 洛浦县| 广水市| 昌邑市| 温泉县| 吕梁市| 门源| 峡江县| 鲁甸县| 安新县| 北宁市| 丰台区| 珲春市| 维西| 苍梧县| 梧州市| 高州市| 色达县| 马关县| 澄城县| 理塘县| 黄梅县| 桂平市| 宣恩县| 聂拉木县| 土默特右旗| 青海省| 浮山县| 和硕县| 荆门市| 城市|