• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      科技文獻(xiàn)中學(xué)術(shù)圖表標(biāo)注研究進(jìn)展

      2021-04-02 12:08丁培葉蘭
      現(xiàn)代情報 2021年4期

      丁培 葉蘭

      收稿日期:2020-10-10

      基金項(xiàng)目:廣東省哲學(xué)社會科學(xué)規(guī)劃學(xué)科共建項(xiàng)目“支持深度知識發(fā)現(xiàn)的文內(nèi)數(shù)據(jù)與文獻(xiàn)關(guān)聯(lián)研究”(項(xiàng)目編號:GD18XTS07);教育部人文社會科學(xué)研究青年基金項(xiàng)目“基于成熟度視角的高校圖書館科學(xué)數(shù)據(jù)管理服務(wù)能力評價研究”(項(xiàng)目編號:19YJC870028);國家社會科學(xué)基金項(xiàng)目“科技論文全景式摘要知識圖譜構(gòu)建與應(yīng)用研究”(項(xiàng)目編號:19BTQ61)。

      作者簡介:丁培(1987-),男,館員,博士研究生,研究方向:知識組織,科學(xué)數(shù)據(jù)管理。

      通訊作者:葉蘭(1983-),女,副研究館員,碩士,研究方向:數(shù)字圖書館,科學(xué)數(shù)據(jù)管理。

      摘要:[目的/意義]科研用戶需要學(xué)術(shù)圖表助力精準(zhǔn)知識發(fā)現(xiàn)服務(wù)。圖表標(biāo)注是學(xué)術(shù)圖表融入學(xué)術(shù)知識發(fā)現(xiàn)體系需要解決的核心問題。[方法/過程]定義學(xué)術(shù)圖表標(biāo)注范疇,以歷史研究為脈絡(luò),梳理學(xué)術(shù)圖表發(fā)現(xiàn)研究及實(shí)踐發(fā)展階段,重點(diǎn)研究圖表標(biāo)注的兩個核心問題:圖表標(biāo)注組織和圖表標(biāo)注實(shí)現(xiàn)。[結(jié)果/結(jié)論]總結(jié)現(xiàn)存研究問題,指出基于本體的學(xué)術(shù)圖表自動語義標(biāo)注是支撐未來大規(guī)模學(xué)術(shù)圖表精準(zhǔn)語義發(fā)現(xiàn)的圖表標(biāo)注形態(tài)。未來還需要在學(xué)術(shù)圖表本體構(gòu)建、學(xué)術(shù)圖表異構(gòu)信息抽取等方面深入開展研究。

      關(guān)鍵詞:科技文獻(xiàn);學(xué)術(shù)圖表;圖表標(biāo)注;知識組織;信息抽取;語義標(biāo)注

      DOI:10.3969/j.issn.1008-0821.2021.04.017

      〔中圖分類號〕G254〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2021)04-0165-13

      Research Progress of Academic Figures and

      Tables Annotation in Scientific Literature

      Ding PeiYe Lan*

      (Library,Shenzhen University,Shenzhen 518060,China)

      Abstract:[Purpose/Significance]Researchers need academic figures and tables to facilitate precise knowledge discovery services.Academic figures and tables annotation is a core problem to be solved when academic figures and tables are integrated into academic knowledge service system.[Method/Process]The authors define scope of academic figures and tables annotation.Taking the historical research as the context,the paper sorted out the development stage of academic figures and tables discovery in research and practical dimension,and then focued on the two core issues of academic figures and tables annotation:annotations organizational structure and annotating implementation.[Result/Conclusion]On the basis of summarizing the existing research problems,the paper pointed out that ontology-based automatic semantic annotation of academic figures and tables was the form of academic figures and tables annotation supporting the accurate semantic discovery of large-scale academic figures and tables in the future.In next,further research should be carried out in academic figures and tables ontology construction and heterogeneous information extraction of academic figures and tables.

      Key words:scientific literature;academic figures and tables;academic figures and tables annotation;knowledge organization;information extraction;semantic annotation

      學(xué)術(shù)圖表大量存在于科技文獻(xiàn)中。相關(guān)研究統(tǒng)計(jì)發(fā)現(xiàn),學(xué)術(shù)圖表正成為STEM期刊論文標(biāo)配內(nèi)容[1-2]。學(xué)術(shù)圖表是一系列、多步驟科學(xué)研究過程的最終產(chǎn)物。它被作者用于體現(xiàn)不同的用途,如多維指標(biāo)對比(表),復(fù)雜對象論證(復(fù)合圖),特殊對象展示(DNA圖),直觀實(shí)驗(yàn)展示(照片、成像圖),對比/趨勢/統(tǒng)計(jì)數(shù)據(jù)分析等,助力讀者直觀理解論文,提供比正常摘要更多的信息內(nèi)容。通常STEM論文中,重要的科學(xué)研究結(jié)果需要借助圖表解釋說明;另一方面,讀者通過閱讀查看文獻(xiàn)內(nèi)學(xué)術(shù)圖表評估文檔的相關(guān)性,并借助圖表信息來提高檢索效率。同時,相當(dāng)部分的學(xué)術(shù)圖表和學(xué)術(shù)研究中產(chǎn)生的科學(xué)數(shù)據(jù)同源,甚至是科學(xué)數(shù)據(jù)精華所在,因而學(xué)術(shù)圖表成為科技文獻(xiàn)和科學(xué)數(shù)據(jù)間關(guān)聯(lián)的紐帶。總之,提供給定信息快速發(fā)現(xiàn)相關(guān)學(xué)術(shù)圖表成為科研發(fā)現(xiàn)中越來越重要的需求。

      學(xué)術(shù)圖表具有表現(xiàn)類型多樣化、信息內(nèi)容高度濃縮、與科學(xué)文獻(xiàn)內(nèi)容高度相關(guān)的特征。類型多樣化帶來圖表識別挑戰(zhàn),信息內(nèi)容高度濃縮需要構(gòu)建有效的模型來幫助知識呈現(xiàn),而與科學(xué)文獻(xiàn)內(nèi)容高度相關(guān)則帶來異構(gòu)內(nèi)容融合發(fā)現(xiàn)及建立文本內(nèi)容與圖表間關(guān)系的問題。這些致使學(xué)術(shù)圖表檢索發(fā)現(xiàn)難以融入當(dāng)前學(xué)術(shù)知識發(fā)現(xiàn)體系。

      未來學(xué)術(shù)知識服務(wù)體系需要細(xì)粒度知識組織、基于語義的知識關(guān)聯(lián)、面向全資源類型的知識發(fā)現(xiàn)以及有效支持智能問答、意圖精準(zhǔn)刻畫的認(rèn)知計(jì)算。學(xué)術(shù)圖表作為重要的學(xué)術(shù)知識表現(xiàn)對象,要融入未來學(xué)術(shù)知識服務(wù)體系,則需要解決學(xué)術(shù)圖表標(biāo)注這一關(guān)鍵瓶頸問題。

      1學(xué)術(shù)圖表標(biāo)注

      “標(biāo)注”一詞的含義很多,如標(biāo)注是對文本特定部分所添加的形式注釋[3],又如附加數(shù)據(jù)到其他類型的數(shù)據(jù)[4],筆者認(rèn)為標(biāo)注是為數(shù)字對象(包括文本對象和非文本對象)添加注釋數(shù)據(jù),這些注釋或是自身內(nèi)容語義深度挖掘,或是系統(tǒng)化組織,或是與其他對象關(guān)聯(lián),其目的是增強(qiáng)人或機(jī)器對數(shù)字對象理解。學(xué)術(shù)圖表標(biāo)注指為科技文獻(xiàn)中的學(xué)術(shù)圖表添加形式化或形式化語義注釋內(nèi)容的過程及結(jié)果,其目的是理解學(xué)術(shù)圖表,發(fā)現(xiàn)學(xué)術(shù)圖表。

      根據(jù)形式不同,標(biāo)注可分為非形式化標(biāo)注(如手寫筆記)、形式化標(biāo)注及語義標(biāo)注3種。形式化標(biāo)注和語義標(biāo)注按照一定的信息組織模式,均可用于機(jī)器理解,其中元數(shù)據(jù)組織標(biāo)注作為一類形式化標(biāo)注,已廣泛應(yīng)用于計(jì)算機(jī)信息處理和信息資源發(fā)現(xiàn)過程中。形式化標(biāo)注解決簡單的圖表語義描述問題,但其靈活性同時產(chǎn)生“信息孤島”,因此無法解決資源集合之間的相互關(guān)系問題,這需要語義標(biāo)注的幫助。

      語義標(biāo)注是指為信息資源增加形式化、語義注釋,其形式化語義內(nèi)容來源于本體(此處本體涵蓋領(lǐng)域敘詞表等語義組織體系),為信息資源提供標(biāo)準(zhǔn)化、形式化、抽象化的描述,也稱之為基于本體的語義標(biāo)注。語義標(biāo)注既是表示本體知識轉(zhuǎn)化為語義注釋的過程(包括信息抽取和實(shí)例標(biāo)注),也是上述過程產(chǎn)生的語義注釋數(shù)據(jù)。通過語義形式化描述,它能幫助解決不同資源集合因不同描述產(chǎn)生的難以關(guān)聯(lián)問題,同時它將信息資源所隱藏的語義知識顯現(xiàn)地揭示出來,使這些內(nèi)容更加容易被發(fā)現(xiàn)、關(guān)注及應(yīng)用。學(xué)術(shù)圖表的語義標(biāo)注是指基于本體對科技文獻(xiàn)中圖表信息內(nèi)容實(shí)施語義組織、揭示語義關(guān)聯(lián),形成語義標(biāo)注內(nèi)容。

      2學(xué)術(shù)圖表發(fā)現(xiàn)歷史

      早在20世紀(jì)末數(shù)字圖書館興起之時,Bishop A P研究者就嘗試通過搜索特定期刊文章組成部分(圖、表格標(biāo)題以及表格文字)來支持檢索科技期刊文章[5]。Futrelle R P發(fā)現(xiàn)在生物學(xué)領(lǐng)域中將近50%的論文文本內(nèi)容與圖形相關(guān)[6]。Stelmaszewska H等研究計(jì)算機(jī)科學(xué)家閱讀文章行為及需求時發(fā)現(xiàn),用戶閱讀文章時會重點(diǎn)查看圖、表、公式等非文本內(nèi)容,以此快速評估論文是否符合自身需求[7]。CSA通過期刊論文組件索引及檢索系統(tǒng)用戶需求的調(diào)查發(fā)現(xiàn),在檢索系統(tǒng)內(nèi)搜索表格、圖形、圖表和地圖對研究、教學(xué)均非常重要,期刊文章中包含的表格及圖像能使判斷文章的相關(guān)性變得更加容易。此外需求分析還發(fā)現(xiàn)用戶要求在支持圖表檢索的系統(tǒng)應(yīng)具有高精準(zhǔn)度、靈活的檢索頁面、支持聯(lián)邦檢索、提供無縫的論文獲取、提供用于處理符號和支持符號檢索的標(biāo)準(zhǔn)化解決方案等功能[8]。

      學(xué)術(shù)圖表的文本及視覺異物特征致使學(xué)術(shù)圖表的發(fā)現(xiàn)研究演進(jìn)分化成兩條研究路徑。路徑一以學(xué)術(shù)圖表所涉及的文本信息為語義來源,通過信息抽取、知識組織將來源信息轉(zhuǎn)換為形式化標(biāo)注內(nèi)容,進(jìn)而實(shí)施圖表發(fā)現(xiàn)。路徑二以學(xué)術(shù)圖表自身的特征內(nèi)容(既包括圖像視覺特征,也包括圖表內(nèi)文本特征)為語義來源,借助信息抽取和視覺識別等技術(shù),并通過知識組織將來源信息轉(zhuǎn)換為形式化標(biāo)注或語義標(biāo)注內(nèi)容來實(shí)現(xiàn)圖表發(fā)現(xiàn)。表1對部分學(xué)術(shù)圖表發(fā)現(xiàn)研究進(jìn)行了對比。

      歷經(jīng)數(shù)十年的發(fā)展,學(xué)術(shù)圖表發(fā)現(xiàn)經(jīng)歷了三方面的轉(zhuǎn)變,分別是發(fā)現(xiàn)對象從單一表或圖轉(zhuǎn)向綜合性的圖表,語義來源從簡單的標(biāo)題等內(nèi)容擴(kuò)展到多模態(tài)信息復(fù)合,檢索支持從單一的關(guān)鍵詞檢索到關(guān)鍵詞檢索復(fù)合圖表分類及關(guān)聯(lián)發(fā)現(xiàn)。從發(fā)展歷史看,學(xué)術(shù)圖表發(fā)現(xiàn)總體經(jīng)歷三階段的發(fā)展變化。

      第一階段的發(fā)現(xiàn)研究主要關(guān)注于單一圖或單一表的發(fā)現(xiàn),語義來源較為簡單,如標(biāo)題、表?xiàng)l目、圖特征等,通過元數(shù)據(jù)方式組織所抽取信息,并提供基于關(guān)鍵詞的檢索發(fā)現(xiàn)。第二階段的發(fā)現(xiàn)研究將學(xué)術(shù)圖表作為統(tǒng)一發(fā)現(xiàn)對象,語義來源擴(kuò)展到圖表上下文,圖表所在論文的元數(shù)據(jù)信息。此階段以元數(shù)據(jù)組織方式為主,配合以關(guān)鍵詞檢索。第三階段嘗試融合路徑一和路徑二,將學(xué)術(shù)圖表的文本特征、視覺特征、外部關(guān)聯(lián)信息綜合為語義信息來源,借助信息抽取、視覺識別、機(jī)器學(xué)習(xí)等技術(shù),基于元數(shù)據(jù)、圖表分類等組織方式形成形式化標(biāo)注,并提供關(guān)鍵詞、簡單分類、主題語義等多維的圖表發(fā)現(xiàn)方式。

      通過歷史研究發(fā)現(xiàn),無論哪個階段,學(xué)術(shù)圖表發(fā)現(xiàn)需要借助標(biāo)注實(shí)現(xiàn),而標(biāo)注需要解決兩個核心問題:圖表標(biāo)注組織和圖表標(biāo)注實(shí)現(xiàn)。前者為學(xué)術(shù)圖表標(biāo)注提供結(jié)構(gòu)化、形式化內(nèi)容組織框架,幫助人和機(jī)器理解圖表的語義,后者通過技術(shù)建立學(xué)術(shù)圖表語義來源信息和組織模型間關(guān)聯(lián),并轉(zhuǎn)換為結(jié)構(gòu)化標(biāo)注內(nèi)容。

      3學(xué)術(shù)圖表標(biāo)注組織

      學(xué)術(shù)圖表發(fā)現(xiàn)過程需要將圖表涉及的將雜亂無序的語義信息來源內(nèi)容轉(zhuǎn)化為有序、結(jié)構(gòu)化的形式標(biāo)注內(nèi)容,這一過程需要標(biāo)注組織框架的幫助?,F(xiàn)有學(xué)術(shù)圖表標(biāo)注組織框架涉及元數(shù)據(jù)組織、圖表分類組織及本體組織3種方式。

      3.1元數(shù)據(jù)

      元數(shù)據(jù)通過結(jié)構(gòu)化描述,對具體的情境進(jìn)行定制化的解釋,實(shí)現(xiàn)對資源的組織、發(fā)現(xiàn)、互操作、歸檔和保藏等?;谄浔磉_(dá)的多樣化、靈活、門檻低的優(yōu)勢,元數(shù)據(jù)是最早應(yīng)用于學(xué)術(shù)圖表標(biāo)注的信息組織方式,也是實(shí)踐中應(yīng)用最多的方式。

      TableSeer[13]將學(xué)術(shù)表格信息組織為表格環(huán)境元數(shù)據(jù)(如文檔類型,表格所在文檔頁碼,文檔標(biāo)題等)、表格框架元數(shù)據(jù)(記錄表格四周是否有框)、表格附屬元數(shù)據(jù)(表格標(biāo)題、腳注、參考文獻(xiàn))、表格布局元數(shù)據(jù)(如表寬、表長、行數(shù)、列數(shù)、分割線等)、表格內(nèi)容元數(shù)據(jù)(表格中的值)、表格內(nèi)容類型元數(shù)據(jù)(數(shù)值或非數(shù)值)等五類元數(shù)據(jù)。

      CSA[14]通過深度索引技術(shù),抽取文獻(xiàn)中的表格、圖片等數(shù)據(jù),人工標(biāo)引其元數(shù)據(jù)。標(biāo)引的元數(shù)據(jù)框架包括圖表標(biāo)題、圖表類別、DOI、地理術(shù)語、文獻(xiàn)作者、文獻(xiàn)標(biāo)題、文獻(xiàn)摘要、期刊名稱、文獻(xiàn)主題等。

      PMC[18]同樣基于元數(shù)據(jù)方式對論文中的學(xué)術(shù)圖進(jìn)行增強(qiáng)表示,其學(xué)術(shù)圖的元數(shù)據(jù)包括圖標(biāo)題、圖注、圖所在文章DOI、文章出版時間、同文圖片等。

      CNKI[19]單獨(dú)抽取科技文獻(xiàn)中的學(xué)術(shù)圖片,使用15個元數(shù)據(jù)項(xiàng)描述圖片信息,包括圖片ID、圖片標(biāo)題、圖片說明、圖片關(guān)鍵詞、圖詞、分類、圖片尺寸、圖片大小、圖片清晰度、圖片頁碼、圖片地址、同文圖片、語義相關(guān)圖片、讀者推薦圖片。

      Open-i[22]是NIH開發(fā)的科研圖片數(shù)據(jù)庫,綜合來自Pubmed Central、Medpix、USC Orthopedic Surgical Anatomy、Images from the History of Medicine(NLM)、Indiana U.Chest X-rays等來源的科研圖片,其中Pubmed Central集合均是科技論文中的學(xué)術(shù)圖。其元數(shù)據(jù)組織內(nèi)容包括圖片標(biāo)題、圖片注釋、圖片上下文提及文本、圖片分類、論文標(biāo)題、論文摘要、所屬機(jī)構(gòu)、期刊名稱、MESH主題擴(kuò)展等。

      3.2圖表分類組織

      圖表分類組織針對圖表視覺特征,從圖表類型上組織學(xué)術(shù)圖表信息。早在20世紀(jì)80年代,遙感領(lǐng)域[25]以及醫(yī)學(xué)領(lǐng)域[26]就研究各自領(lǐng)域中的學(xué)術(shù)圖像分類。圖表分類組織依賴計(jì)算機(jī)視覺識別和機(jī)器學(xué)習(xí)技術(shù),而組織體系尚無通用性的標(biāo)準(zhǔn),研究人員基于任務(wù)需求、領(lǐng)域特征、分類算法建立不同的圖表分類組織模型。表2列舉部分研究使用的圖像分類組織模型等信息。

      3.3本體組織

      本體是一種形式化組織方式,通過賦予異構(gòu)數(shù)據(jù)以統(tǒng)一的語義信息,使得機(jī)器能夠理解信息并自動處理信息之間的語義聯(lián)系,從而提高異構(gòu)數(shù)據(jù)之間的互操作性。

      學(xué)術(shù)圖表作為文獻(xiàn)的重要組成部分,較早出現(xiàn)于文獻(xiàn)組織本體中。DoCo[32]、Discourse Elements Ontology(DEO)[33]等文獻(xiàn)本體將學(xué)術(shù)圖表作為單獨(dú)類目描述。學(xué)術(shù)圖表類目僅描述圖表標(biāo)題、注釋(Lable、表格框Box)等內(nèi)容??茖W(xué)論文功能單元本體[34]嘗試組織學(xué)術(shù)圖表上下文內(nèi)容,將其組織數(shù)據(jù)分析、數(shù)據(jù)描述內(nèi)容,并匹配學(xué)術(shù)圖表的知識類型屬性(如確定性程度、情感傾向、來源),但未進(jìn)一步細(xì)粒度分解學(xué)術(shù)圖表內(nèi)容。

      學(xué)術(shù)表格有固有組織特性(橫縱坐標(biāo)分明),因而部分研究者采用自定義本體或者領(lǐng)域本體來對其進(jìn)行語義組織。Madin J等構(gòu)建了可擴(kuò)展的觀測本體(Extensible Observation Ontology,OBOE),該本體由觀測、度量、實(shí)體、特征和度量標(biāo)準(zhǔn)5個核心概念構(gòu)成,不僅可以描述每項(xiàng)觀測變量的上下文環(huán)境以及觀測值之間的相互關(guān)系,還支持魯棒性的單位描述和換算以及領(lǐng)域詞匯擴(kuò)展[35]。開放城市數(shù)據(jù)平臺利用城市數(shù)據(jù)模型本體(City Data Model Ontology)將不同來源的數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù),轉(zhuǎn)換時根據(jù)一維表數(shù)據(jù)的特點(diǎn)(每一行對應(yīng)一個城市和每一列對應(yīng)一個統(tǒng)計(jì)指標(biāo)),將每一行的數(shù)據(jù)映射到CityDataContext類的一個實(shí)例,每一列映射到一個屬性[36]。

      領(lǐng)域敘詞表利用“用、代、屬、分、參、族”等關(guān)系對領(lǐng)域知識實(shí)施形式化組織,可看作一類簡單的領(lǐng)域知識本體。部分研究人員嘗試?yán)脵C(jī)器視覺識別、自然語言處理、機(jī)器學(xué)習(xí)算法等技術(shù),結(jié)合領(lǐng)域敘詞表對學(xué)術(shù)圖表實(shí)施語義標(biāo)注。結(jié)構(gòu)化文本圖片發(fā)現(xiàn)系統(tǒng)(Structured Literature Image Finder System,SLIF)最早嘗試?yán)脭⒃~表語義組織圖表。它關(guān)注生物文獻(xiàn)中的顯微鏡成像圖,通過機(jī)器視覺識別的方法來發(fā)現(xiàn)成像圖中的基因、蛋白質(zhì)概念[11]。Human Brain Project(HBP)將大腦成像圖片的特定區(qū)域和受控詞表中的概念關(guān)聯(lián)[37]。EMAP(The Edinburgh Mouse Atlas Project)利用解剖學(xué)詞表概念對老鼠胚胎的3D圖片和2D組織切面進(jìn)行標(biāo)注[38]。

      筆者早期研究學(xué)術(shù)圖表的專門本體組織,將學(xué)術(shù)圖表的視覺信息、內(nèi)外文本信息、學(xué)術(shù)圖表的外部關(guān)聯(lián)信息作為增強(qiáng)信息來源,梳理異構(gòu)信息間語義關(guān)系,基于Protégé工具構(gòu)建簡單文內(nèi)數(shù)據(jù)本體框架[39]。后續(xù)基于語義標(biāo)注任務(wù)構(gòu)建水稻領(lǐng)域的學(xué)術(shù)圖表知識庫,并將其應(yīng)用于學(xué)術(shù)圖表發(fā)現(xiàn)任務(wù)中。

      3.4知識圖譜

      知識圖譜(Knowledge Graph)是近年以來的熱點(diǎn),它是一種知識表示方式。學(xué)界對于知識圖譜并沒有明確的定義。有研究者認(rèn)為知識圖譜是一個知識庫,如Rospocher M等認(rèn)為知識圖譜是從結(jié)構(gòu)化知識庫或百科知識中抽取實(shí)體組成的事實(shí)知識庫[40]。部分研究者認(rèn)為知識圖譜是基于圖的知識表示方式,如阮彤等定義知識圖譜是模式圖、數(shù)據(jù)圖及兩者關(guān)系組成的圖[41]。還有研究者把知識圖譜認(rèn)為是一個本體,如認(rèn)為知識圖譜是由實(shí)體、實(shí)體類型、屬性及關(guān)系構(gòu)成的大型網(wǎng)狀網(wǎng)絡(luò)[42]。Paulheim H等認(rèn)為圖譜包括實(shí)例A-box和模式T-box,其中A-box數(shù)據(jù)量遠(yuǎn)大于T-box[43]。

      本研究認(rèn)為知識圖譜是包含大量實(shí)體、關(guān)系、屬性的結(jié)構(gòu)化知識系統(tǒng)[44],它既包括模式層面的本體組織,也包括數(shù)據(jù)層的語義標(biāo)注知識庫。簡而言之,知識圖譜包括本體和本體約束的實(shí)例內(nèi)容(可稱為知識庫),本體為圖譜提供抽象表達(dá),知識庫是本體的實(shí)例化。基于知識范圍,圖譜分為通用知識圖譜和行業(yè)知識圖譜兩大類[45]。通用知識圖譜如普林斯頓大學(xué)的Wordnet、谷歌的Freebase、維基百科的Dbpedia、微軟的Concept Graph等。行業(yè)知識圖譜如地理領(lǐng)域的Geonames、生物領(lǐng)域的UniprotKB、腦科學(xué)領(lǐng)域的Linked Brain Data知識庫、旅游領(lǐng)域的中國旅游景點(diǎn)知識圖譜等。學(xué)術(shù)資源領(lǐng)域也有知識圖譜應(yīng)用,如微軟學(xué)術(shù)知識圖譜(MAKG)[46]、Springer Nature SciGraph[47]、學(xué)者網(wǎng)知識圖譜[48]、TechKG科技知識圖譜[49]等。目前暫未發(fā)現(xiàn)面向?qū)W術(shù)圖表知識組織的知識圖譜。

      圖表標(biāo)注實(shí)現(xiàn)的2個重點(diǎn)問題分別是學(xué)術(shù)圖表語義來源信息如何獲得,如何將無序的來源信息轉(zhuǎn)換為結(jié)構(gòu)化語義內(nèi)容,簡單而言,即信息抽取和實(shí)例標(biāo)注。

      4.1圖表信息抽取

      信息抽取的覆蓋面及精準(zhǔn)度直接影響到學(xué)術(shù)圖表標(biāo)注的范圍和效果。學(xué)術(shù)圖表語義來源信息構(gòu)成較為復(fù)雜,包括3個方面內(nèi)容。第一方面內(nèi)容來自圖表本身,如圖表類型、圖表內(nèi)文本及數(shù)據(jù)(數(shù)據(jù)點(diǎn)、坐標(biāo)軸、圖例、圖內(nèi)對象)等;第二方面是圖表內(nèi)容信息,包括圖表標(biāo)題、圖表注釋、圖表上下文等;第三部分是圖表擴(kuò)展信息,此部分信息能夠擴(kuò)展圖表發(fā)現(xiàn)范圍,發(fā)現(xiàn)更多隱性關(guān)聯(lián)。包括論文信息、數(shù)據(jù)信息等。不同研究者基于不同來源信息對圖表實(shí)施信息抽取任務(wù),具體而言可分為學(xué)術(shù)圖表自身信息抽取、學(xué)術(shù)圖表內(nèi)容信息抽取、學(xué)術(shù)圖表擴(kuò)展信息抽取。

      4.1.1學(xué)術(shù)圖表自身信息抽取

      學(xué)術(shù)圖表自身具有視覺信息和文本信息共存的特性。視覺信息一方面可用于增強(qiáng)表示為學(xué)術(shù)圖表類型;另一方面部分類型圖像視覺信息可以用于實(shí)體或概念標(biāo)注(如成像圖、蛋白質(zhì)序列圖)。文本信息(如坐標(biāo)軸、圖例、圖內(nèi)注釋等)則用于細(xì)粒度的知識描述。

      1)圖像視覺信息抽取

      視覺信息的抽取和標(biāo)注通常結(jié)合在一起。抽取視覺信息標(biāo)注圖表類型在3.2部分已有闡述。部分研究者針對照片、醫(yī)學(xué)圖像、成像圖等類型學(xué)術(shù)圖像,基于底層視覺信息,將視覺特征和文本特征共同考慮,利用視覺單詞或者領(lǐng)域術(shù)語來對圖像進(jìn)行標(biāo)注。Shamna P等將視覺信息位置信息補(bǔ)充到主題模型算法LDA中來抽取圖像視覺單詞,提高醫(yī)學(xué)成像圖的檢索精準(zhǔn)度[50]。Kurtz C等基于圖像的顏色、位置、邊緣等特征,使用支持向量機(jī)(SVM)和Riesz小波自動學(xué)習(xí)方法,從醫(yī)學(xué)本體中自動注釋放射圖片[51]。深度卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模視覺對象識別任務(wù)中獲得了廣泛的普及,尤其是在通用圖像檢索和醫(yī)學(xué)圖像檢索任務(wù)的多模(文本特征、圖像特征)特征學(xué)習(xí)上表現(xiàn)優(yōu)異[52-54]。

      2)圖像文本信息抽取

      圖像文本信息抽取可歸納為4個步驟。

      第一步是文本檢測,測定圖像中文本存在。蔣夢迪等總結(jié)現(xiàn)存6種文本區(qū)域檢測算法:基于邊緣、基于紋理、基于連通分量、基于筆畫、基于深度學(xué)習(xí)和其他算法[55]。

      第二步是文本定位,確定圖像中文本位置并且生成文本邊界框。顏色、邊、紋理特征及文本特征是文本定位常規(guī)使用的特征,點(diǎn)、區(qū)域、角色外觀等特征也被部分研究者關(guān)注和探索[56-57]。

      第三步是文本分割階段,從圖像背景中分割文本,提取字符塊精確輪廓[58]。鑒于學(xué)術(shù)圖像分辨率偏低的特點(diǎn),此過程容易產(chǎn)生噪音,需要進(jìn)行文本圖像增強(qiáng)。

      第四步是使用光學(xué)字符識別OCR技術(shù)將提取的文本圖像轉(zhuǎn)換成純文本。

      3)圖像數(shù)值信息抽取

      對于統(tǒng)計(jì)類型圖像,研究者不僅研究文本抽取,還研究圖內(nèi)數(shù)據(jù)提取。學(xué)術(shù)圖像的數(shù)據(jù)提取可以分解為多個任務(wù)。在經(jīng)過文本檢測和識別步驟獲得坐標(biāo)軸標(biāo)簽、圖例、數(shù)據(jù)點(diǎn)值后,需要建立數(shù)據(jù)標(biāo)簽和數(shù)據(jù)內(nèi)容之間的對應(yīng)關(guān)系。已有學(xué)者研究不同類型圖表的數(shù)據(jù)內(nèi)容提取,并嘗試開發(fā)相應(yīng)的數(shù)據(jù)提取工具。數(shù)據(jù)提取工具對比如表3所示。

      4)表格文本信息抽取

      表格中文本抽取分兩類方式。一類是將表格轉(zhuǎn)換為圖片格式,基于圖像文本抽取步驟實(shí)施;一類是基于表格特征抽取表格文本。

      表格特征指表頭、數(shù)據(jù)區(qū)的布局、文本特征,當(dāng)前基于表格特征抽取文本內(nèi)容又分為:

      1)基于布局和樣式特征的自動抽取:將表格分為不同類型的布局,采用貝葉斯分類算法或者樹形遍歷算法,基于單詞間距、空格位置、文字大小、文字粗細(xì)、文字位置、縮進(jìn)等特征,對表格的標(biāo)題、表頭、數(shù)據(jù)區(qū)域做區(qū)分[64-65]。

      2)半監(jiān)督學(xué)習(xí)的抽?。和ㄟ^人工干預(yù),確定表格的部分特征,利用機(jī)器分類算法來幫助識別表頭、數(shù)據(jù)區(qū)域。如Nagy G等早期使用半自動的方式,借助WNT、TAT、VeriClick工具來協(xié)助表格結(jié)構(gòu)內(nèi)容的理解[66]。

      4.1.2學(xué)術(shù)圖表內(nèi)容信息抽取

      學(xué)術(shù)圖表的文本型信息包括圖表標(biāo)題、注釋、上下文(論文正文中提及圖表的段落)。學(xué)術(shù)圖表的文本信息抽取的難點(diǎn)在于需要保證盡可能找到圖表所涉及的文本內(nèi)容,同時盡量少引入無關(guān)的文本信息。

      早期研究關(guān)注圖表標(biāo)題的抽取。例如ACM檢索系統(tǒng)[67],MARIE項(xiàng)目[68]。隨著對圖表精確檢索需求顯化,與此同時自然語言處理技術(shù)取得突破進(jìn)展,研究人員更關(guān)注正文中圖表提及文本內(nèi)容的抽取。Demnerfushman D等強(qiáng)調(diào)分析與圖像關(guān)聯(lián)文本以理解圖像,并抽取醫(yī)學(xué)圖像的標(biāo)題及論文中討論部分的圖表提及文本來增強(qiáng)醫(yī)學(xué)圖像的圖像注釋及檢索[69]。圖形摘要系統(tǒng)FigSum嘗試從醫(yī)學(xué)文獻(xiàn)中抽取出圖形的結(jié)構(gòu)性文本摘要,并將文本分類為簡介、方法、結(jié)果和討論[70]。

      現(xiàn)有研究提出了幾種圖表上下文抽取的方法,分別是:

      1)明確提示法:基于標(biāo)示性文字來識別明確引用圖表的句子或者段落,例如借助Fig、Table等關(guān)鍵詞,識別圖表所引用的句子或者段落。

      2)基于信息檢索的方法:以圖表標(biāo)題、圖例信息、參考語句或段落(明確引用的語句)為基準(zhǔn),基于主題相關(guān)性來查找與圖表標(biāo)題最相似的句子來查找與圖表關(guān)聯(lián)的語句。

      3)基于位置的抽取方法:以明確引用語句為參考語句,抽取與參考語句間距離為N句的內(nèi)容。

      Balaji P R等在生物學(xué)領(lǐng)域的圖像文本標(biāo)注實(shí)驗(yàn)中對比不同方法,發(fā)現(xiàn)明確提示法在精準(zhǔn)度上獲得最好表現(xiàn),而基于信息檢索的方法在召回率上表現(xiàn)最佳,而混合兩者方法則在F值上表現(xiàn)最佳[71]。

      4.1.3學(xué)術(shù)圖表外部關(guān)聯(lián)信息抽取

      學(xué)術(shù)圖表外部關(guān)聯(lián)信息主要是指論文中的與圖表發(fā)現(xiàn)相關(guān)但并非對圖表進(jìn)行直接描述的內(nèi)容,如論文信息(論文標(biāo)題、論文作者、作者機(jī)構(gòu)、論文引用、論文關(guān)鍵詞等),數(shù)據(jù)信息(如補(bǔ)充數(shù)據(jù)標(biāo)題、補(bǔ)充數(shù)據(jù)描述)和圖表引用信息(圖表引用文獻(xiàn)、圖表引用數(shù)據(jù))等。

      針對論文信息抽取,薛歡歡[72]總結(jié)論文信息抽取3種方式,并指出基于規(guī)則的論文信息抽取方法準(zhǔn)確度高但可擴(kuò)展性差,基于模板的論文信息抽取方法下效率高但受制于模板構(gòu)建,基于機(jī)器學(xué)習(xí)的論文信息抽取方法靈活性、魯棒性最佳,但需要構(gòu)建訓(xùn)練語料。李朝光等利用正則表達(dá)式直接從PDF文檔中抽取首頁元數(shù)據(jù),包括標(biāo)題、作者、摘要和關(guān)鍵字[73]。更多的研究者利用工具將PDF轉(zhuǎn)換為XML格式文檔,基于XML規(guī)則來抽取論文信息,抽取信息有標(biāo)題、作者名、地址、電子郵箱、摘要、關(guān)鍵字、引文[74-75]。Day M Y等采用模板匹配方法,設(shè)計(jì)層次化知識描述框架的InfoMap抽取論文中的引文元數(shù)據(jù)[76]。黃澤武也基于模板的方法識別與抽取標(biāo)題、作者、摘要、參考文獻(xiàn)等信息[77]。機(jī)器學(xué)習(xí)的興起為論文信息抽取帶來新格局,研究者們采用包括SVM[78]、條件隨機(jī)場[79]、隱馬爾可夫模型[80]、深度神經(jīng)網(wǎng)絡(luò)[81]等分類算法,通過訓(xùn)練語料并建立樣本的輸入與輸出之間的關(guān)系來預(yù)測論文信息所屬分類。

      數(shù)據(jù)信息主要指論文中補(bǔ)充數(shù)據(jù)材料信息。由于現(xiàn)有科技文獻(xiàn)中補(bǔ)充數(shù)據(jù)并非必須字段,且不同數(shù)據(jù)庫平臺對補(bǔ)充數(shù)據(jù)表示不一,因而尚未有人專門研究補(bǔ)充數(shù)據(jù)信息抽取。Kafkas S等挖掘Europe PMC FTP上41萬篇XML格式論文,通過元素和數(shù)據(jù)庫登錄號等方式篩選,發(fā)現(xiàn)16.8%的文章包含可轉(zhuǎn)換格式的補(bǔ)充數(shù)據(jù)[82]。Li J等[83]、Zhao M N等[84]均基于XML全文分析模式對文章中引用科學(xué)數(shù)據(jù)情況實(shí)施統(tǒng)計(jì),但未針對補(bǔ)充材料項(xiàng)實(shí)施抽取。

      盡管尚未有專門針對圖表引用信息的抽取研究,但此任務(wù)與文本中引文發(fā)現(xiàn)和抽取類似。多數(shù)學(xué)者關(guān)注引文數(shù)據(jù)的抽取,如Cortez E等從已經(jīng)存在的領(lǐng)域訓(xùn)練集元數(shù)據(jù)中自動生成模板,從而實(shí)現(xiàn)無監(jiān)督的引文元數(shù)據(jù)抽取[85],Peng F C等基于條件隨機(jī)場算法從Cora數(shù)據(jù)集中抽取引文元數(shù)據(jù)取得不錯效果[86]。部分學(xué)者對引文發(fā)現(xiàn)進(jìn)行研究,如高良才等通過構(gòu)建融合序號規(guī)則、內(nèi)容規(guī)則、標(biāo)點(diǎn)符號規(guī)則的特征集合從文本中發(fā)現(xiàn)、分割及標(biāo)注引文信息[87]。還有學(xué)者研究引文上下文的抽取,如He Q等采用語言模型來定位引文內(nèi)容,并采用了文獻(xiàn)不同部分的上下文相似度以及給定的引文內(nèi)容聚類及概率模型的主題相關(guān)性來計(jì)算引文相關(guān)度值[88]。

      4.2圖表實(shí)例標(biāo)注

      圖表實(shí)例標(biāo)注是建立圖表標(biāo)注組織模型和圖表語義信息內(nèi)容關(guān)聯(lián),產(chǎn)生標(biāo)注數(shù)據(jù)的過程。其中圖表標(biāo)注組織模型為實(shí)例標(biāo)注提供語義描述框架。不同組織模型產(chǎn)生不同的圖表標(biāo)注數(shù)據(jù)。學(xué)術(shù)圖表元數(shù)據(jù)標(biāo)注采用元數(shù)據(jù)組織模型描述學(xué)術(shù)圖表的語義信息來源,以形式化標(biāo)注方式展示于HTML或XML頁面中,例如CNKI學(xué)術(shù)圖片知識庫中的圖片條目。學(xué)術(shù)圖表分類標(biāo)注是將圖表視覺信息標(biāo)注為人和機(jī)器可讀的文本型形式化標(biāo)注內(nèi)容,例如ReVision工具產(chǎn)生的圖類型標(biāo)注結(jié)果。學(xué)術(shù)圖表語義標(biāo)注以本體為組織模型,通過語義標(biāo)注產(chǎn)生形式化語義標(biāo)注內(nèi)容,最終以XML、RDF、關(guān)聯(lián)數(shù)據(jù)等方式呈現(xiàn)。

      元數(shù)據(jù)標(biāo)注是目前主流的學(xué)術(shù)圖表標(biāo)注方式。上文研究提到的CSA llustrata、Open-i、TableSeer、CNKI圖片檢索等均實(shí)踐了元數(shù)據(jù)標(biāo)注方式。圖表分類標(biāo)注通常會和元數(shù)據(jù)方式結(jié)合,共同展示于圖表發(fā)現(xiàn)平臺中,例如CNKI圖片檢索提供學(xué)術(shù)圖像分類的元數(shù)據(jù)標(biāo)注。語義標(biāo)注方面,現(xiàn)有研究多數(shù)以領(lǐng)域敘詞表或者領(lǐng)域本體為語義組織框架對學(xué)術(shù)圖表進(jìn)行語義標(biāo)注。

      從實(shí)現(xiàn)方式看,圖表實(shí)例標(biāo)注可分為人工標(biāo)注和自動標(biāo)注兩大類型。學(xué)術(shù)圖像的實(shí)例標(biāo)注多采用人工標(biāo)注方式。例如CSA llustrata[21]、Human Brain Project(HBP)[37]、EMAP(The Edinburgh Mouse Atlas Project)[38]。自動實(shí)例標(biāo)注在學(xué)術(shù)表格中實(shí)踐較多。例如SemAnn利用PDF文檔解析工具PDF.js和自定義抽取算法將PDF文檔中人工選中的表格轉(zhuǎn)換為CSV格式,然后利用CSV-To-RDF轉(zhuǎn)換工具結(jié)合嵌入本體(如DBpedia、FOAF或自定義)實(shí)現(xiàn)對抽取出來的表格數(shù)據(jù)進(jìn)行自動的語義標(biāo)注[89]。Cao H等通過構(gòu)建觀測事件模型,借助本體工具,利用規(guī)范化的觀測術(shù)語、實(shí)體對象,將觀測數(shù)據(jù)表格轉(zhuǎn)化為可理解的事件,進(jìn)行自動語義標(biāo)注[90]。Berkley C等對生態(tài)學(xué)領(lǐng)域用EML描述的一維表數(shù)據(jù)進(jìn)行語義描述,采用的方法是首先采用OBOE本體描述數(shù)據(jù)的結(jié)構(gòu)(即區(qū)分觀測、度量、上下文和實(shí)體并識別它們之間的關(guān)系),然后識別每個度量的特性、標(biāo)準(zhǔn)、度量值和條件,最后進(jìn)行領(lǐng)域本體擴(kuò)展[91]。

      5學(xué)術(shù)圖表標(biāo)注的未來研究展望

      學(xué)術(shù)圖表是一個復(fù)雜的數(shù)字對象,其兼具視覺及文本兩方面特征,同時與科技文獻(xiàn)、科學(xué)數(shù)據(jù)存在緊密關(guān)聯(lián)。未來圖表發(fā)現(xiàn)需要融入支持全類型資源發(fā)現(xiàn)、支持語義關(guān)聯(lián)、支持細(xì)粒度精準(zhǔn)知識發(fā)現(xiàn)的學(xué)術(shù)知識服務(wù)體系,圖表標(biāo)注作為圖表發(fā)現(xiàn)的基礎(chǔ),需要采用支持上述需求的圖表標(biāo)注組織框架,并需要在面向海量圖表資源的自動圖表標(biāo)注實(shí)現(xiàn)方面有所突破。

      5.1構(gòu)建支持全類型資源發(fā)現(xiàn)、語義關(guān)聯(lián)、細(xì)粒度精準(zhǔn)知識發(fā)現(xiàn)學(xué)術(shù)圖表本體

      圖表標(biāo)注組織框架方面,現(xiàn)有3種圖表組織模式各有所長,適用于不同階段、不同需求的圖表發(fā)現(xiàn)任務(wù)中。元數(shù)據(jù)組織表達(dá)多樣化、靈活、門檻低,但不同領(lǐng)域元數(shù)據(jù)模型造成的“信息孤島”阻礙了知識融合和交互。圖像分類組織方式解決學(xué)術(shù)圖表視覺特征語義表示的問題,但無法凸顯學(xué)術(shù)圖表的綜合知識內(nèi)容。本體組織以一種明確、形式化的方式表示信息資源,統(tǒng)一語義信息,但目前圖表的本體組織依托于其他學(xué)術(shù)知識本體或領(lǐng)域敘詞表知識組織,描述粒度粗,或僅表示領(lǐng)域知識,或未建立圖表與其他類型學(xué)術(shù)資源語義關(guān)聯(lián),難以滿足支持全類型資源發(fā)現(xiàn)、語義關(guān)聯(lián)、細(xì)粒度知識組織、精準(zhǔn)知識發(fā)現(xiàn)需要。

      從組織方式看,本體有支持跨學(xué)科形式化表達(dá)、支持細(xì)粒度語義關(guān)系擴(kuò)展及支持語義推理等優(yōu)勢。本體結(jié)合知識圖譜等技術(shù)應(yīng)用,可形成結(jié)構(gòu)化、語義化、富關(guān)聯(lián)、可發(fā)現(xiàn)、可應(yīng)用的知識庫。故而本文以為基于本體對學(xué)術(shù)圖表實(shí)施語義組織更適應(yīng)未來發(fā)展趨勢。

      一方面,可結(jié)合自上而下及自下而上的方式探索構(gòu)建內(nèi)容完整、關(guān)系清晰、知識可擴(kuò)展、動態(tài)進(jìn)化、機(jī)器可理解的學(xué)術(shù)圖表本體。通過解構(gòu)學(xué)術(shù)圖表的形式結(jié)構(gòu)(圖表本身、圖表內(nèi)容、圖表關(guān)聯(lián)信息),按照圖表語義邏輯重新構(gòu)造為圖表類型、圖表論證對象、圖表論證維度、圖表論證實(shí)驗(yàn)內(nèi)容(如實(shí)驗(yàn)背景、實(shí)驗(yàn)?zāi)康?、?shí)驗(yàn)方法、實(shí)驗(yàn)結(jié)果、實(shí)驗(yàn)結(jié)論)、圖表論證關(guān)鍵特征(如對比、觀察、流程、分布等)、圖表外延內(nèi)容(如同文圖表、同證圖表、同項(xiàng)目圖表、同作者圖表、同被引圖表、同數(shù)據(jù)來源圖表、同主題圖表、引用文獻(xiàn)、引用數(shù)據(jù)等)等內(nèi)容,根據(jù)圖表語用邏輯,描繪學(xué)術(shù)圖表本體應(yīng)用于圖表發(fā)現(xiàn)場景,定義核心概念、關(guān)系、屬性,形成學(xué)術(shù)圖表本體,豐富本體實(shí)例,在領(lǐng)域?qū)W術(shù)圖表語義標(biāo)注實(shí)踐中應(yīng)用本體,構(gòu)建可用于圖表發(fā)現(xiàn)的學(xué)術(shù)圖表領(lǐng)域知識庫,并基于本體的標(biāo)注任務(wù)中對本體不斷進(jìn)化;另一方面,可以采取自下而上的知識圖譜構(gòu)架模式,抽取圖表的實(shí)體、關(guān)系、屬性,對異構(gòu)數(shù)據(jù)進(jìn)行實(shí)體消歧、實(shí)體共指消解、實(shí)體鏈接、關(guān)系融合等步驟,最后通過知識推理、邏輯公理總結(jié)形成學(xué)術(shù)圖表本體。

      5.2深入研究面向海量圖表資源的自動圖表語義標(biāo)注實(shí)現(xiàn)

      海量學(xué)術(shù)圖表資源標(biāo)注需要自動技術(shù)的支持。這包含圖表信息自動抽取和基于本體的自動標(biāo)注。

      圖表信息抽取是圖表標(biāo)注的內(nèi)容基礎(chǔ),需要從工程化、自動化實(shí)現(xiàn)方面深化研究。PDF格式文檔中的圖表信息抽取要解決圖表的識別與提取的問題。將文檔轉(zhuǎn)換為圖片,基于圖像識別的位圖分割技術(shù)、區(qū)域分類或連接組件等技術(shù)方法可解決部分類型學(xué)術(shù)圖像和表格識別及提取問題,可以在新的神經(jīng)網(wǎng)絡(luò)算法支持下研究不同類型圖像識別的特征。

      圖表自身信息抽取的4個子任務(wù)中,圖像中文本抽取、表格內(nèi)文本信息抽取兩個任務(wù)的技術(shù)相對更加成熟,自動抽取準(zhǔn)確度較高。而另外兩個任務(wù)則還有較大的發(fā)展空間。

      在圖像視覺信息抽取及標(biāo)注任務(wù)方面,目前未有工具實(shí)現(xiàn)所有類型圖表的分類標(biāo)注,并且部分類型圖像的分類準(zhǔn)確度不足以用于大規(guī)模應(yīng)用。因而在圖表類型覆蓋以及分類精準(zhǔn)度等方面還需深入研究。鑒于圖表類型在不同領(lǐng)域分類和分布不一,可結(jié)合圖表展示的視覺特征和圖表論證的內(nèi)容特征,形成特定領(lǐng)域的圖表分類,再從領(lǐng)域分類中歸納出部分通用圖表分類,并基于機(jī)器學(xué)習(xí)算法提取相關(guān)特征。此外,圖像分類中要關(guān)注復(fù)合圖識別和子圖分類問題??蓮幕趶?fù)合圖文本特征、復(fù)合圖視覺特征、混合特征等角度來研究復(fù)合圖識別。復(fù)合圖的子圖識別是多標(biāo)簽的分類任務(wù),可從復(fù)合圖分割并分類或多標(biāo)簽學(xué)習(xí)方法的角度識別子圖類型。分類精準(zhǔn)度方面,新的卷積神經(jīng)網(wǎng)絡(luò)算法相比傳統(tǒng)基于圖像低層特征的算法而言,可以獲得更高的分類精準(zhǔn)度,其可擴(kuò)展性和穩(wěn)定性都優(yōu)于傳統(tǒng)的分類算法??梢詫D像底層特征和圖表文本特征(如圖像的標(biāo)題及圖注文本等)結(jié)合,基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法提升圖表類型分類精準(zhǔn)度。

      學(xué)術(shù)圖像中數(shù)值信息抽取是一個具有挑戰(zhàn)性的任務(wù),已有研究多數(shù)針對折線圖、條形圖、散點(diǎn)圖、餅圖等圖像,其他圖像類型(如直方圖、氣泡圖、箱形圖、雷達(dá)圖、面積圖)的數(shù)據(jù)抽取精準(zhǔn)度較低,需要基于這些圖形特征研究其數(shù)值信息的自動提取。此外,上述圖像數(shù)值抽取工具以半自動方式為主,需要人工輸入或者確定圖像的坐標(biāo)軸信息(如起點(diǎn)、終點(diǎn)、截距等),應(yīng)進(jìn)一步結(jié)合圖像視覺識別技術(shù),研究圖像內(nèi)數(shù)值信息的全自動抽取。

      圖表內(nèi)容信息抽取技術(shù)相對成熟,在以下3個方面需要繼續(xù)研究。圖表標(biāo)題和圖表本身匹配是重要的研究問題。自動抽取PDF格式論文內(nèi)圖表標(biāo)題時需要基于不同的圖表—標(biāo)題布局(如1-to-1、N-to-N、N-to-M)確定對應(yīng)關(guān)系。注釋內(nèi)容抽取,需要關(guān)注學(xué)術(shù)復(fù)合圖中子圖標(biāo)題和子圖注釋抽取問題,可總結(jié)和構(gòu)建相關(guān)規(guī)則幫助抽取。重點(diǎn)關(guān)注圖表上下文提及內(nèi)容自動抽取的準(zhǔn)確率及召回率,深入研究圖表所在篇章位置和抽取模式的關(guān)系。

      當(dāng)下,論文中的補(bǔ)充數(shù)據(jù)信息抽取和論文文本中的圖表引用信息抽取暫且空白,可借鑒現(xiàn)有論文元數(shù)據(jù)抽取及論文引文抽取的思路,通過構(gòu)建抽取規(guī)則、定義抽取模式或基于文本特征的機(jī)器學(xué)習(xí)方法來實(shí)現(xiàn)論文內(nèi)數(shù)據(jù)信息自動抽取和圖表引用信息自動抽取。

      基于本體的自動標(biāo)注是建立抽取內(nèi)容和學(xué)術(shù)圖表本體間關(guān)聯(lián)的過程。自動語義標(biāo)注過程需要綜合圖表不同特征及本體中的概念、屬性、關(guān)系定義實(shí)施不同的語義實(shí)例標(biāo)注方式。例如圖表標(biāo)題、主題、圖表實(shí)驗(yàn)信息等內(nèi)容的自動語義標(biāo)注可基于文本特征或利用規(guī)則或借助機(jī)器學(xué)習(xí)分類算法來獲得,而圖表類型的語義標(biāo)注要融合視覺特征及文本特征來實(shí)現(xiàn)。

      6結(jié)語

      基于本體的學(xué)術(shù)圖表自動語義標(biāo)注是支撐未來大規(guī)模學(xué)術(shù)圖表精準(zhǔn)語義發(fā)現(xiàn)的圖表標(biāo)注形態(tài)。它通過學(xué)術(shù)圖表本體對科技文獻(xiàn)中圖表信息內(nèi)容實(shí)施多角度、深度語義組織,揭示學(xué)術(shù)圖表—論文—人—機(jī)構(gòu)—項(xiàng)目—基金—補(bǔ)充材料等科學(xué)實(shí)體間語義關(guān)聯(lián),借助自動信息抽取、自動語義標(biāo)注等技術(shù)支持,最終形成支撐圖表內(nèi)容精準(zhǔn)發(fā)現(xiàn),異構(gòu)科學(xué)實(shí)體的統(tǒng)一發(fā)現(xiàn)的語義標(biāo)注內(nèi)容?,F(xiàn)有研究和技術(shù)為基于本體的學(xué)術(shù)圖表自動語義標(biāo)注創(chuàng)造部分條件,未來還需要在學(xué)術(shù)圖表本體構(gòu)建、學(xué)術(shù)圖表異構(gòu)信息抽取等方面深入開展研究。

      參考文獻(xiàn)

      [1]Siegel N,Lourie N,Power R,et al.Extracting Scientific Figures with Distantly Supervised Neural Networks[C]//ACM IEEE Joint Conference on Digital Libraries,2018:223-232.

      [2]Lee P S,West J D,Howe B,et al.Viziometrics:Analyzing Visual Information in the Scientific Literature[J].IEEE Transactions on Big Data,2018,4(1):117-129.

      [3]米楊.基于頂級本體整合的醫(yī)學(xué)領(lǐng)域語義標(biāo)注研究[D].長春:吉林大學(xué),2012.

      [4]于曉繁.基于本體和元數(shù)據(jù)的語義標(biāo)注平臺模型與系統(tǒng)架構(gòu)研究[D].淄博:山東理工大學(xué),2012.

      [5]Bishop A P.Document Structure and Digital Libraries:How Researchers Mobilize Information in Journal Articles[J].Information Processing and Management,1999,35(3):255-279.

      [6]Futrelle R P.Handling Figures in Document Summarization[C]//Proceedings of the ACL-04 Workshop:Text Summarization Branches Out,2004:61-65.

      [7]Stelmaszewska H,Blandford A.From Physical to Digital:A Case Study of Computer Scientists Behaviour in Physical Libraries[J].International Journal on Digital Libraries,2004,4(2):82-92.

      [8]Sandusky R J,Tenopir C,Casado M M.Figure and Table Retrieval from Scholarly Journal Articles:User Needs for Teaching and Research[J].Proceedings of the American Society for Information Science and Technology,2007,44(1):1-13.

      [9]Pyreddy P,Croft W B.TINTIN:A System for Retrieval in Text Tables[C]//ACM International Conference on Digital Libraries,1997:193-200.

      [10]Futrelle R P.Summarization of Diagrams in Documents[J].Advances in Automated Text Summarization,1999:403-421.

      [11]Murphy R F,Velliste M,Yao J,et al.Searching Online Journals for Fluorescence Microscope Images Depicting Protein Subcellular Location Patterns[C]//Bioinformatics and Bioengineering,2001:119-128.

      [12]Wang Y,Hu J.A Machine Learning Based Approach for Table Detection on the Web[C]//The Web Conference,2002:242-250.

      [13]Liu Y,Bai K,Mitra P,et al.TableSeer:Automatic Table Metadata Extraction and Searching in Digital Libraries[C]//ACM/IEEE Joint Conference on Digital Libraries,2007:91-100.

      [14]Carol T,Robert J S,Margaret C.The Value of CSA Deep Indexing for Researchers(Executive Summary)[EB/OL].https://trace.tennessee.edu/cgi/viewcontent.cgi?article=1001&context=utk_infosciepubs,2020-08-31.

      [15]Hearst M A,Divoli A,Guturu H,et al.BioText Search Engine:Beyond Abstract Search[J].Bioinformatics,2007;23(16):2196-2197.

      [16]Ahmed A,Arnold A,Coelho L P,et al.Invited Paper:Structured Literature Image Finder:Parsing Text and Figures in Biomedical Literature[J].Journal of Web Semantics,2010,8(2):151-154.

      [17]Charbonnier J,Sohmen L,Rothman J,et al.NOA:A Search Engine for Reusable Scientific Images Beyond the Life Sciences[C]//European Conference on Information Retrieval,2018:797-800.

      [18]PMC[EB/OL].https://www.ncbi.nlm.nih.gov/pmc/,2020-08-31.

      [19]CNKI學(xué)術(shù)知識圖片庫[EB/OL].http://image.cnki.net/Default.aspx,2020-08-31.

      [20]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.

      [21]Simpson M S,Demner-fushman D,Antani S K,et al.Multimodal Biomedical Image Indexing and Retrieval Using Descriptive Text and Global Feature Mapping[J].Information Retrieval,2014,17(3):229-264.

      [22]Open-i[EB/OL].https://openi.nlm.nih.gov/,2020-08-31.

      [23]Ramesh B P,Sethi R J,Yu H,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).

      [24]Siegel N,Horvitz Z,Levin R,et al.FigureSeer:Parsing Result-Figures in Research Papers[C]//European Conference on Computer Vision,2016:664-680.

      [25]王一達(dá),沈熙玲,謝炯.遙感圖像分類方法綜述[J].遙感信息,2006,(5):67-71.

      [26]李莉,木拉提·哈米提.醫(yī)學(xué)影像數(shù)據(jù)分類方法研究綜述[J].中國醫(yī)學(xué)物理學(xué)雜志,2011,28(6):3007-3011.

      [27]Savva M,Kong N,Chhajta A,et al.ReVision:Automated Classification,Analysis and Redesign of Chart Images[C]//User Interface Software and Technology,2011:393-402.

      [28]Prasad V S,Siddiquie B,Golbeck J,et al.Classifying Computer Generated Charts[C]//Content Based Multimedia Indexing,2007:85-92.

      [29]Huang W,Zong S,Tan C L,et al.Chart Image Classification Using Multiple-Instance Learning[C]//Workshop on Applications of Computer Vision,2007:27-27.

      [30]Tang B,Liu X,Lei J,et al.DeepChart:Combining Deep Convolutional Networks and Deep Belief Networks in Chart Classification[J].Signal Processing,2016:156-161.

      [31]Kim D,Ramesh B P,Yu H,et al.Automatic Figure Classification in Bioscience Literature[J].Journal of Biomedical Informatics,2011,44(5):848-858.

      [32]Constantin A,Peroni S,Pettifer S,et al.The Document Components Ontology(DoCO)[J].Semantic Web,2016,7(2):167-181.

      [33]The Discourse Elements Ontology(DEO)[EB/OL].https://sparontologies.github.io/deo/current/deo.html,2020-05-02.

      [34]王曉光,李夢琳,宋寧遠(yuǎn).科學(xué)論文功能單元本體設(shè)計(jì)與標(biāo)引應(yīng)用實(shí)驗(yàn)[J].中國圖書館學(xué)報,2018,(4):73-88.

      [35]Madin J,Bowers S,Schildhauer M,et al.An Ontology for Describing and Synthesizing Ecological Observation Data[J].Ecological Informatics,2007,(2):279-296.

      [36]Bischof S,Martin C,Polleres A,et al.Collecting,Integrating,Enriching and Republishing Open City Data as Linked Data[C]//International Conference on the Semantic Web-ISWC 2015.Berlin:Springer,2015:58-75.

      [37]Gertz M,Sattler K U,Gorin F,et al.Annotating Scientific Images:A Concept-based Approach[C]//Scientific and Statistical Database Management,IEEE,2002:59-68.

      [38]EMAGE.Data Annotation Methods[EB/OL].http://www.emouseatlas.org/emage/about/data_annotation_methods.html#auto_eurexpress,2015-11-02.

      [39]丁培.科學(xué)論文內(nèi)的科學(xué)數(shù)據(jù)組織和發(fā)現(xiàn)研究[J].現(xiàn)代情報,2020,40(2):34-43.

      [40]Rospocher M,Erp M V,Vossen P,et al.Building Event-Centric Knowledge Graphs from News[J].Web Semantic:Science,Service and Agent on the World Wide Web,2016:132-151.

      [41]阮彤,王夢婕,王昊奮,等.垂直知識圖譜的構(gòu)建與應(yīng)用研究[J].知識管理論壇,2016,(3):226-234.

      [42]Kroetsch M,Weikum G.Journal of Web Semantics:Special Issue on Knowledge Graphs[EB/OL].http://www.websemanticsjournal.org/2019/05/cfp-jws-special-issue-on-language.html,2020-11-16.

      [43]Paulheim H,Cimiano P.Knowledge Graph Refinement:A Survey of Approaches and Evaluation Methods[J].Semantic Web,2017,8(3):489-508.

      [44]Su Y,Zhang C,Li J,et al.Cross-Lingual Entity Query from Large-Scale Knowledge Graphs[C]//APWeb 2015 Workshops,2015:139-150.

      [45]白林林.基于知識圖譜的領(lǐng)域知識結(jié)構(gòu)構(gòu)建方法研究[D].北京:中國科學(xué)院大學(xué),2019.

      [46]Microsoft Academic Knowledge Graph[EB/OL].http://ma-graph.org/,2020-11-10.

      [47]SN SciGraph[EB/OL].https://www.springernature.com/gp/researchers/scigraph,2020-11-10.

      [48]SCHOLAT學(xué)者網(wǎng)[EB/OL].http://www.scholat.com/,2020-11-10.

      [49]東北大學(xué)-知識圖譜研究組[EB/OL].http://www.techkg.cn/,2020-11-10.

      [50]Shamna P,Govindan V K,Nazeer K A,et al.Content Based Medical Image Retrieval Using Topic and Location Model[J].Journal of Biomedical Informatics,2019.

      [51]Kurtz C,Depeursinge A,Napel S,et al.On Combining Image-based and Ontological Semantic Dissimilarities for Medical Image Retrieval Applications[J].Medical Image Analysis,2014,18(7):1082-1100.

      [52]Frome A,Corrado G S,Shlens J,et al.DeViSE:A Deep Visual-Semantic Embedding Model[C]//Neural Information Processing Systems,2013:2121-2129.

      [53]Weston J,Bengio S,Usunier N,et al.Large Scale Image Annotation:Learning to Rank with Joint Word-image Embeddings[C]//European Conference on Machine Learning,2010,81(1):21-35.

      [54]Pereira J C,Vasconcelos N.Cross-modal Domain Adaptation for Text-based Regularization of Image Semantics in Image Retrieval Systems[J].Computer Vision and Image Understanding,2014:123-135.

      [55]蔣夢迪,程江華,陳明輝,等.視頻和圖像文本提取方法綜述[J].計(jì)算機(jī)科學(xué),2017,(2):8-18.

      [56]Bschen F,Scherp A.A Comparison of Approaches for Automated Text Extraction from Scholarly Figures[C]//Conference on Multimedia Modeling,2017:15-27.

      [57]Ye Q,Doermann D.Text Detection and Recognition in Imagery:A Survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.

      [58]De S,Stanley R J,Cheng B,et al.Automated Text Detection and Recognition in Annotated Biomedical Publication Images[J].International Journal of Healthcare Information Systems and Informatics,2014,9(2):34-63.

      [59]Jung D,Kim W,Song H,et al.ChartSense:Interactive Data Extraction from Chart Images[C]//Human Factors in Computing Systems,2017:6706-6717.

      [60]Ankit Rohatgi.WebPlotDigitizer[EB/OL].https://automeris.io/WebPlotDigitizer,2020-09-02.

      [61]Méndez G G,Nacenta M A,Vandenheste S,et al.iVoLVER:Interactive Visual Language for Visualization Extraction and Reconstruction[C]//Human Factors in Computing Systems,2016:4073-4085.

      [62]DataThief III[EB/OL].https://www.datathief.org/,2020-09-02.

      [63]Gross A,Schirm S,Scholz M,et al.Ycasd-A Tool for Capturing and Scaling Data from Graphical Representations[J].BMC Bioinformatics,2014,15(1):219-219.

      [64]Nagy G.Learning the Characteristics of Critical Cells from Web Tables[C]//International Conference on Pattern Recognition,2012:1554-1557.

      [65]Seth S C,Nagy G.Segmenting Tables via Indexing of Value Cells by Table Headers[C]//International Conference on Document Analysis and Recognition,2013:887-891.

      [66]Nagy G,Tamhankar M.VeriClick:An Efficient Tool for Table Format Verification[C]//Document Recognition and Retrieval,2012.

      [67]Guglielmo E J,Rowe N C.Natural-language Retrieval of Images Based on Descriptive Captions[J].ACM Transactions on Information Systems,1996,14(3):237-267.

      [68]Rowe N C.Precise and Efficient Retrieval of Captioned Images:The MARIE Project[J].Library Trends,1999,48(2):475-495.

      [69]Demner-fushman D,Antani S,Simpson M S,et al.Annotation and Retrieval of Clinically Relevant Images[J].International Journal of Medical Informatics,2009,78(12):59-67.

      [70]Agarwal S,Yu H.FigSum:Automatically Generating Structured Text Summaries for Figures in Biomedical Literature[C]//American Medical Informatics Association Annual Symposium,2009:6-10.

      [71]Balaji P R,Sethi R J,Hong Y,et al.Figure-associated Text Summarization and Evaluation[J].Plos One,2015,10(2).

      [72]薛歡歡.基于條件隨機(jī)場的中文期刊論文信息識別與抽取[D].北京:中國農(nóng)業(yè)科學(xué)院,2019.

      [73]李朝光,張銘,鄧志鴻,等.論文元數(shù)據(jù)信息的自動抽取[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(21):189-191.

      [74]Constantin A,Pettifer S,Voronkov A,et al.PDFX:Fully-automated PDF-to-XML Conversion of Scientific Literature[C]//Document Engineering,2013:177-180.

      [75]陳俊林,張文德.基于XSLT的PDF論文元數(shù)據(jù)的優(yōu)化抽取[J].現(xiàn)代圖書情報技術(shù),2007,(2):18-23.

      [76]Day M Y,Tsai R T H,Sung C L,et al.Reference Metadata Extraction Using a Hierarchical Knowledge Representation Framework[J].Decision Support Systems,2007,43(1):152-167.

      [77]黃澤武.基于語義的科技文獻(xiàn)共享平臺的信息抽取系統(tǒng)[D].武漢:華中科技大學(xué),2007.

      [78]Kovacevic A,Ivanovic D,Milosavljevic B,et al.Automatic Extraction of Metadata from Scientific Publications for CRIS Systems[J].Program:Electronic Library and Information Systems,2011,45(4):376-396.

      [79]Lopez P.GROBID:Combining Automatic Bibliographic Data Recognition and Term Extraction for Scholarship Publications[C]//European Conference on Research and Advanced Technology for Digital Libraries,2009:473-474.

      [80]Cui B,Chen X.An Improved Hidden Markov Model for Literature Metadata Extraction[C]//International Conference on Intelligent Computing,2010:205-212.

      [81]Liu R,Gao L,An D,et al.Automatic Document Metadata Extraction Based on Deep Networks[C]//Natural Language Processing and Chinese Computing,2018:305-317.

      [82]Kafkas S,Kim J H,Pi X,et al.Database Citation in Supplementary Data Linked to Europe PubMed Central Full Text Biomedical Articles[J].Journal of Biomedical Semantics,2015,6(1).

      [83]Li J,Zheng S,Kang H,et al.Identifying Scientific Project-generated Data Citation from Full-text Articles An Investigation of TCGA Data Citation[J].Journal of Data and Information Science,2016,(2):32-44.

      [84]Zhao M N,Yan E,Li K.Data Set Mentions and Citations:A Content Analysis of Full-text Publication[J].Journal of the Association for Information Science & Technology,2017,69(1):32-46.

      [85]Cortez E,Silva A S D,Mesquita F,et al.FLUX-CiM:Flexible Unsupervised Extraction of Citation Metadata[C]//Proceedings of the 7th ACM/IEEE-CS Joint Conference on Digital Libraries,ACM,2007:215-224.

      [86]Peng F C,McCallum A.Accurate Information Extraction from Research Papers Using Conditional Random Fields[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2004:329-336.

      [87]高良才,湯幟,陶欣,等.一種自動發(fā)現(xiàn)、分割與標(biāo)注引文元數(shù)據(jù)的方法[J].北京大學(xué)學(xué)報:自然科學(xué)版,2010,46(6):893-900.

      [88]He Q,Kifer D,Pei J,et al.Citation Recommendation Without Author Supervision[C]//Proceedings of the Fourth ACM International Conference on Web Search and Data Mining,ACM,2011:755-764.

      [89]Takis J,Islam A Q M,Lange C,et al.Crowdsourced Semantic Annotation of Scientific Publications and Tabular Data in PDF[C]//Proceedings of the 11th International Conference on Semantic Systems.ACM,2015:1-8.

      [90]Cao H,Bowers S,Schildhauer M P.Approaches for Semantically Annotating and Discovering Scientific Observational Data[C]//Database and Expert Systems Applications.Springer Berlin Heidelberg,2011:526-541.

      [91]Berkley C,Bowers S,Jones M B,et al.Improving Data Discovery for Metadata Repositories Through Semantic Search[C]//International Conference on Complex,Intelligent and Software Intensive Systems.Fukuoka:IEEE,2009:1152-1159.

      (責(zé)任編輯:孫國雷)

      纳雍县| 建湖县| 阳西县| 永春县| 喀喇沁旗| 屏山县| 宁化县| 时尚| 获嘉县| 慈溪市| 甘泉县| 长垣县| 莱阳市| 手游| 香港| 且末县| 汉寿县| 保德县| 海南省| 辽宁省| 阳春市| 湖州市| 和田县| 余姚市| 中宁县| 龙山县| 马关县| 繁峙县| 思茅市| 呼图壁县| 交口县| 金华市| 德州市| 文山县| 马鞍山市| 马山县| 措勤县| 防城港市| 宽城| 保山市| 信宜市|