• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向循證醫(yī)學(xué)的科技文獻(xiàn)摘要結(jié)構(gòu)化表示研究

      2018-02-14 05:58:08杜圣梅朱禮軍
      中國(guó)科技資源導(dǎo)刊 2018年6期
      關(guān)鍵詞:類別分類器分類

      杜圣梅 朱禮軍 徐 碩

      (1. 中國(guó)科學(xué)技術(shù)信息研究所,北京 100038;2. 北京工業(yè)大學(xué),北京 100124)

      0 引言

      循證醫(yī)學(xué)(Evidence Based Medicine,EBM)[1-2]源于臨床實(shí)踐,對(duì)醫(yī)療模式的轉(zhuǎn)變產(chǎn)生了巨大影響,傳統(tǒng)以疾病為中心的生物醫(yī)療模式已經(jīng)轉(zhuǎn)變?yōu)橐曰颊邽橹行牡摹艾F(xiàn)代生物—心理—社會(huì)—醫(yī)療”模式。作為一種新的醫(yī)療模式,循證醫(yī)學(xué)概念的內(nèi)涵和外延歷經(jīng)了長(zhǎng)期的發(fā)展,已經(jīng)日趨完善。其核心思想是:當(dāng)臨床醫(yī)師在進(jìn)行醫(yī)療決策時(shí),必須以客觀真實(shí)的臨床科學(xué)研究為依據(jù),并結(jié)合自身的臨床專業(yè)知識(shí)和患者本人的意愿[3]。臨床醫(yī)師若要基于EBM做出高效判斷,全面、可靠、相關(guān)和及時(shí)地獲取證據(jù)至關(guān)重要。

      隨著全球科技的進(jìn)步,知識(shí)更新的速度越來越快,生物醫(yī)學(xué)領(lǐng)域的科技文獻(xiàn)呈爆炸式增長(zhǎng)。盡管這些科技文獻(xiàn)大多都經(jīng)過了同行評(píng)議,但是質(zhì)量卻良莠不齊。作為臨床醫(yī)師決策時(shí)至關(guān)重要的證據(jù)通常埋藏于海量的科技文獻(xiàn)中。因此,新的醫(yī)療模式對(duì)臨床醫(yī)師及研究人員提出了新的要求:(1)需要培養(yǎng)擁有持續(xù)從科學(xué)研究中學(xué)習(xí)汲取相關(guān)新知識(shí)的能力;(2)能夠迅速定位相關(guān)醫(yī)學(xué)文獻(xiàn),并能客觀、準(zhǔn)確地評(píng)價(jià)其質(zhì)量和適用性,尋找到目前最佳的臨床證據(jù)并最終應(yīng)用到解決臨床問題中。

      根據(jù)循證醫(yī)學(xué)的臨床指南,生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)的組織結(jié)構(gòu)通常遵循PICO模型[4],即Population(P)、Intervention(I)、Comparison(C)、Outcome(O)。臨床醫(yī)師在判定臨床研究(例如隨機(jī)對(duì)照試驗(yàn),RCT)是否與待解決的問題相關(guān)時(shí),也通常參考該模型或其變種。隨著人工智能和機(jī)器學(xué)習(xí)的飛速發(fā)展,其方法和思想已成功應(yīng)用于多個(gè)領(lǐng)域,并取得了良好的效果。生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)所表現(xiàn)的PICO組織結(jié)構(gòu)模式,為基于機(jī)器學(xué)習(xí)方法自動(dòng)提取相關(guān)信息提供了方便。

      筆者通過實(shí)際訪談發(fā)現(xiàn),臨床醫(yī)師往往通過科技文獻(xiàn)摘要部分的閱讀,即可初步判斷證據(jù)資源的相關(guān)性和有效性。因此本文嘗試識(shí)別生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)摘要部分的關(guān)鍵句子,將其映射到特定組織結(jié)構(gòu)模型中的各個(gè)部分,從而實(shí)現(xiàn)摘要內(nèi)容的建模及語(yǔ)義關(guān)系的量化表示,為具體實(shí)踐循證醫(yī)學(xué)的相關(guān)研究提供支撐。

      本文其余部分的組織結(jié)構(gòu)如下:第1節(jié)概述分析循證醫(yī)學(xué)領(lǐng)域里科技文獻(xiàn)表示模型和科技文獻(xiàn)結(jié)構(gòu)化表示的相關(guān)研究,并分析對(duì)比本文方法與其他研究的不同和進(jìn)步;第2節(jié)是對(duì)科技文獻(xiàn)建模表示所展開的具體研究,其中包括科技文獻(xiàn)表示模型PIBOSO的概述、分類特征向量的構(gòu)建和分類模型的選擇與設(shè)計(jì);第3節(jié)是實(shí)驗(yàn)及結(jié)果分析;第4節(jié)是總結(jié)全文。

      1 相關(guān)工作

      1.1 科技文獻(xiàn)表示模型

      表1 循證醫(yī)學(xué)科技文獻(xiàn)表示模型

      臨床醫(yī)生往往需要在大量已發(fā)表的文獻(xiàn)中定位、總結(jié)出有效信息,以便于全面客觀地了解臨床問題的相關(guān)狀況,從而迅速明智地做出醫(yī)療決策。早期的研究集中于如何構(gòu)建有效的信息檢索模型,以便于臨床醫(yī)生及科研人員進(jìn)行更有效的檢索,取得更多的有效的信息。這些模型也為科技文獻(xiàn)的自動(dòng)分析和智能鑒別奠定了基礎(chǔ),表1中列舉了現(xiàn)今常用于檢索、歸類、識(shí)別科技文獻(xiàn)的表示模型。最初設(shè)計(jì)PICO模型主要是為了輔助臨床人員將臨床問題轉(zhuǎn)化為可進(jìn)行檢索的關(guān)鍵詞,并且自從PICO被提出后,一些基于PICO的擴(kuò)展模型相繼被提出,如加入“時(shí)間”的PICOT模型[5],加入“環(huán)境”和“利益相關(guān)者”的PESICO模型[6],加入“持續(xù)時(shí)間”和“結(jié)果”的PECODR模型[7]以及加入“研究設(shè)計(jì)”和“背景”的PIBOSO模型[8]。

      其中的PIBOSO作為PICO檢索標(biāo)準(zhǔn)的一種擴(kuò)展,其設(shè)計(jì)的初衷是為了實(shí)現(xiàn)已發(fā)表文獻(xiàn)摘要的自動(dòng)抽取,為應(yīng)用機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)摘要內(nèi)容的結(jié)構(gòu)化表示提供了有效借鑒,因此本文決定采用該模型展開對(duì)科技文獻(xiàn)摘要的結(jié)構(gòu)化表示的研究。

      1.2 科技文獻(xiàn)摘要結(jié)構(gòu)化表示方法

      隨著醫(yī)學(xué)領(lǐng)域知識(shí)更新速度越來越快,生物醫(yī)學(xué)相關(guān)的科技文獻(xiàn)呈爆炸式增長(zhǎng),使得臨床醫(yī)生在海量科技文獻(xiàn)中能夠迅速找到與某臨床問題密切相關(guān)的研究變得越來越困難,因此尋求一種自動(dòng)識(shí)別生物醫(yī)學(xué)文獻(xiàn)句子類型的方法已經(jīng)引起了眾多研究人員的關(guān)注。

      Demner-Fushman等[9]首次提出了基于PICO標(biāo)準(zhǔn)的句子自動(dòng)分類模型,該模型通過基于規(guī)則的方法建立了句子分類器,而對(duì)Outcome類別構(gòu)建特征向量,包括n元語(yǔ)法、位置、語(yǔ)義等特征,進(jìn)行有監(jiān)督分類。該分類器對(duì)275篇手動(dòng)標(biāo)注的文獻(xiàn)摘要進(jìn)行訓(xùn)練,其準(zhǔn)確率達(dá)到了0.74~0.93,但局限性在于訓(xùn)練數(shù)據(jù)集較少且其中一些類別要依靠手動(dòng)構(gòu)建規(guī)則的方法。Kim等[8]基于細(xì)化的PIBOSO模型將句子分類過程分為兩個(gè)階段:第一步構(gòu)建分類器識(shí)別包括PIBOSO概念的句子;第二步構(gòu)建另外一個(gè)分類器將PIBOSO的標(biāo)簽類型分配給句子。該研究采用條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)作為分類模型,并結(jié)合醫(yī)學(xué)摘要特點(diǎn)構(gòu)建了特征向量,包括領(lǐng)域知識(shí)、語(yǔ)義、結(jié)構(gòu)及順序等特征。Sarker等[10]將多類分類問題轉(zhuǎn)化為多個(gè)二分類問題,采用SVM作為分類器,構(gòu)建了包括二元語(yǔ)法、句子位置、句子長(zhǎng)度、節(jié)標(biāo)題、領(lǐng)域知識(shí)和語(yǔ)義信息的特征向量,最終使F值達(dá)到了0.80。與上述研究不同的是,本文在構(gòu)建特征向量時(shí)嘗試不借用外部資源[11],并在此基礎(chǔ)上進(jìn)行擴(kuò)展,融入了句子的統(tǒng)計(jì)信息特征,從而進(jìn)一步利用句子的模式信息對(duì)句子進(jìn)行分類,以達(dá)到對(duì)摘要文本進(jìn)行結(jié)構(gòu)化表示的目的。

      2 科技文獻(xiàn)摘要結(jié)構(gòu)化表示方法研究

      2.1 科技文獻(xiàn)摘要表示模型

      科克倫協(xié)作網(wǎng)(Cochrane Collaboration)在制定系統(tǒng)評(píng)價(jià)時(shí)因其方法的科學(xué)性及嚴(yán)謹(jǐn)性,使Cochrane臨床指南被譽(yù)為循證醫(yī)學(xué)領(lǐng)域中最為權(quán)威的證據(jù)來源之一。其納入標(biāo)準(zhǔn)綜合了所提出臨床問題的各個(gè)方面以及回答這些臨床問題的研究類型。其中,關(guān)于防治性研究系統(tǒng)評(píng)價(jià)中,高質(zhì)量科技文獻(xiàn)及臨床試驗(yàn)研究的選擇納入標(biāo)準(zhǔn)主要包含了4個(gè)方面[12]:研究設(shè)計(jì)類型、研究對(duì)象、干預(yù)措施和對(duì)照措施、結(jié)局指標(biāo)。該納入標(biāo)準(zhǔn)蘊(yùn)含了對(duì)醫(yī)學(xué)文獻(xiàn)進(jìn)行篩選和鑒別時(shí)的基本流程和標(biāo)準(zhǔn)。而科技文獻(xiàn)摘要表示模型PIBOSO所包含的6種信息類型恰能將納入標(biāo)準(zhǔn)的4個(gè)方面完全覆蓋。B(Background):交代本次研究的來源及現(xiàn)狀。P(Population):構(gòu)成研究樣本的個(gè)體、對(duì)象或者項(xiàng)。I(Intervention):研究過程中改變條件或者改變流程的干預(yù)行為。O(Outcome):總結(jié)干預(yù)措施的影響和結(jié)果。S(Study Design):摘要中用于描述研究的部分。O(Other):不屬于上面任何一個(gè)類別,并且已經(jīng)假定對(duì)臨床決策提供的幫助很少,即非關(guān)鍵性和不相關(guān)的句子。

      除此之外,醫(yī)學(xué)領(lǐng)域文獻(xiàn)的摘要提取的有效信息往往包含:背景、研究對(duì)象及臨床特點(diǎn)、干預(yù)措施、結(jié)果、研究設(shè)計(jì)等??紤]到后續(xù)研究中信息抽取的可行性,本次研究選用PIBOSO模型,研究摘要句子自動(dòng)分類方案,用于醫(yī)學(xué)領(lǐng)域文獻(xiàn)摘要的建模表示及語(yǔ)義關(guān)系的量化。

      2.2 分類特征分析

      該部分內(nèi)容是基于PIBOSO文獻(xiàn)摘要建模過程中進(jìn)行句子分類時(shí)所展開的特征選擇研究。本文基于對(duì)生物醫(yī)學(xué)科技文獻(xiàn)摘要的分析,確定使用以下3組特征對(duì)分類器進(jìn)行訓(xùn)練。

      (1)詞匯特征

      詞匯特征作為句子表述的基本信息被納入到本文的方法中。該特征主要包含詞性標(biāo)注和Lemma特征。詞性(POS)標(biāo)注特征是指每個(gè)句子中所標(biāo)記的POS標(biāo)簽作為一個(gè)特征。標(biāo)簽包括名詞、形容詞、副詞、動(dòng)詞、連詞、介詞和代詞,動(dòng)詞的否定形式也被納入其中。為了適應(yīng)詞匯的各種變形,本文將詞形進(jìn)行還原后作為特征納入到方法中,并且實(shí)驗(yàn)數(shù)據(jù)集在預(yù)處理時(shí)已經(jīng)將數(shù)據(jù)的詞形進(jìn)行了還原。

      (2)統(tǒng)計(jì)特征

      統(tǒng)計(jì)特征指的是動(dòng)詞和非動(dòng)詞的分布。Waard等[13]指出動(dòng)詞信息可以作為科技文獻(xiàn)分類中一個(gè)很好的指標(biāo),此外句子的一些模式信息也在動(dòng)詞中得以體現(xiàn),比如動(dòng)詞的過去時(shí)往往存在于Population和Intervention的句子類別中,而動(dòng)詞的否定式常出現(xiàn)在Outcome句子類別中。所以本文將動(dòng)詞的不同語(yǔ)態(tài)、時(shí)態(tài)以及否定形式的統(tǒng)計(jì)數(shù)量進(jìn)行歸一化后作為特征納入到方法中。

      (3)位置特征

      生物醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)的摘要敘述遵循一定的標(biāo)準(zhǔn)形式,即:闡述背景信息,陳述問題,如何解決該問題,最后以結(jié)果描述結(jié)束。該結(jié)構(gòu)信息可以很好地與PIBOSO模型分類的目標(biāo)類別關(guān)聯(lián)。因此,摘要中句子的位置信息可以作為句子分類的特征。

      本文基于上述分析,通過舉例具體說明了以上特征。下面選取了PMID=10819426該文章的摘要前4句內(nèi)容及每句對(duì)應(yīng)的分類標(biāo)簽,并詳細(xì)展示了第三句抽取的詞匯特征、統(tǒng)計(jì)特征和位置特征,如圖1所示。

      綜上所述,本文結(jié)合醫(yī)學(xué)領(lǐng)域科技文獻(xiàn)句子的特征,給出了用于構(gòu)建分類器模型的整體特征向量,如表2所示。

      2.3 基于SVM的句子分類模型

      圖1 摘要文本特征抽取示例

      表2 訓(xùn)練分類模型所構(gòu)建的特征向量

      支持向量機(jī)(SVM)[14]自1995年被提出以來得到了迅速的發(fā)展。由于SVM遵循結(jié)構(gòu)化風(fēng)險(xiǎn)最小的原則,使得推廣泛化能力明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法,其核心思想是通過核函數(shù)將特征映射到高維特征空間,在此空間尋找最優(yōu)的劃分超平面,巧妙地將求解過程轉(zhuǎn)化為著名的凸二次規(guī)劃問題,保證存在全局最優(yōu)解。常用的核函數(shù)通常包含四類:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基(RBF)核函數(shù)和Sigmoid核函數(shù)。本文選用的是RBF核函數(shù),原因主要為以下3點(diǎn):一是Sigmoid核函數(shù)是非正定的,且在對(duì)某些參數(shù)設(shè)置時(shí),Sigmoid核函數(shù)的性能與RBF核函數(shù)差不多。二是多項(xiàng)式核函數(shù)由于其具有較多的參數(shù),使得在模型選擇時(shí)更為困難一些。除此之外,多項(xiàng)式核函數(shù)還存在數(shù)值問題,比如數(shù)值的上溢和下溢[15]。三是相比較而言,RBF核函數(shù)具有良好的光滑性,通常在缺少先驗(yàn)知識(shí)的情況下成為較理想的選擇[16]。圖2給出了面向循證醫(yī)學(xué)的科技文獻(xiàn)摘要句子分類的流程圖。

      圖2 面向EBM的科技文獻(xiàn)摘要句子分類流程圖

      圖3 NICTA-PIBOSO的句子類別樣本量分布

      3 實(shí)驗(yàn)及結(jié)果分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文的實(shí)驗(yàn)數(shù)據(jù)集為澳大利西亞語(yǔ)言技術(shù)協(xié)會(huì)(Australasian Language Technology Association,ALTA)2012年公布的比賽數(shù)據(jù)NICTAPIBOSO[8,17],該數(shù)據(jù)集包含1000篇不同主題領(lǐng)域的文獻(xiàn)摘要,由一位醫(yī)學(xué)專業(yè)的學(xué)生歷經(jīng)80小時(shí)按照特定分類標(biāo)準(zhǔn)(PIBOSO)對(duì)摘要句子進(jìn)行了標(biāo)注,最終通過了一致性檢驗(yàn)。為了訓(xùn)練和評(píng)測(cè)分類器,該數(shù)據(jù)集被分成兩份,其中800篇已標(biāo)注的文獻(xiàn)摘要為訓(xùn)練集,另外200篇為測(cè)試集。圖3是對(duì)數(shù)據(jù)集中各類別的句子樣本數(shù)量分布的統(tǒng)計(jì)。

      3.2 實(shí)驗(yàn)結(jié)果及討論

      在實(shí)驗(yàn)過程中,本文對(duì)上述數(shù)據(jù)集進(jìn)行預(yù)處理并構(gòu)建特征向量,所應(yīng)用的機(jī)器學(xué)習(xí)分類工具是LibSVM。由于本文基于PIBOSO模型對(duì)摘要句子進(jìn)行分類,實(shí)質(zhì)上是一個(gè)多類別分類實(shí)驗(yàn),所以采用了一對(duì)多的分類方式,其中SVM分類器選用徑向基函數(shù),懲罰因子采用默認(rèn)值0.001。在進(jìn)行參數(shù)尋優(yōu)后,結(jié)合樣本數(shù)量分布,訓(xùn)練得到6個(gè)二分類器,并應(yīng)用P、R、F作為評(píng)價(jià)分類器的指標(biāo)對(duì)預(yù)測(cè)結(jié)果進(jìn)行了分析。其中,P為準(zhǔn)確率,R為召回率,F值作為綜合評(píng)價(jià)指標(biāo),計(jì)算公式為,從而可以使每個(gè)類別的分類結(jié)果更加明確直觀。表3中給出了本文方法在6個(gè)類別上分類結(jié)果的準(zhǔn)確率、召回率及F值。

      由于數(shù)據(jù)集中樣本數(shù)量分布差異較為明顯,所以分類器在樣本量較大的類別上(即Background,Outcome,Other類別)能夠得到較為理想的分類結(jié)果,F值達(dá)到了0.72~0.87,但是在樣本數(shù)量較少的類別上分類效果較差。本文在實(shí)驗(yàn)過程中通過參數(shù)尋優(yōu)以及設(shè)置正負(fù)類的懲罰權(quán)重的方法對(duì)分類器進(jìn)行了優(yōu)化,有效地提高了分類器的準(zhǔn)確率、召回率及F值。

      除此之外,為了了解本次實(shí)驗(yàn)設(shè)計(jì)的分類器的性能,表 4中也給出了與以往方法[8,10]分類結(jié)果的比較,其中由于Kim等[8]在研究中將該數(shù)據(jù)集分成結(jié)構(gòu)化和非結(jié)構(gòu)化兩部分,所以本文在比較F值時(shí),對(duì)該研究在兩部分?jǐn)?shù)據(jù)集上所得的F值進(jìn)行加權(quán)求均值的計(jì)算,最終得出表4中的綜合F值。

      我們可以看出,本文方法在大多數(shù)句子類別的分類效果上表現(xiàn)優(yōu)于A-MQ和Kim等提出的研究方法,即Background、Intervention、Outcome和Population 4個(gè)類別,只有Other和Study Design兩個(gè)類別的分類效果不太理想,但識(shí)別摘要中非關(guān)鍵性句子(Other類別)的F值也達(dá)到了0.72。本文方法在上述4個(gè)類別上較好的表現(xiàn)說明加入的統(tǒng)計(jì)特征在句子分類時(shí)是有效的,這在一定程度上提高了句子類別的辨識(shí)度。也從側(cè)面說明了其他兩種方法使用外部標(biāo)注工具得到的醫(yī)學(xué)領(lǐng)域知識(shí)特征,對(duì)區(qū)分句子類別,尤其是對(duì)上述4個(gè)類別的貢獻(xiàn)較小,但在Intervention類別上表現(xiàn)較為顯著。

      4 結(jié)語(yǔ)

      為實(shí)現(xiàn)科技文獻(xiàn)摘要文本的建模表示及語(yǔ)義關(guān)系的量化,本文使用SVM分類器對(duì)科技文獻(xiàn)進(jìn)行知識(shí)挖掘并對(duì)摘要文本進(jìn)行句子分類,構(gòu)建了包含詞匯、統(tǒng)計(jì)及位置的特征向量來訓(xùn)練分類模型。通過實(shí)驗(yàn)得出分類結(jié)果,對(duì)比現(xiàn)有的句子分類方法,本文方法在大多數(shù)類別上獲得了較高的F值,表明了該方法的有效性。如果能進(jìn)一步考慮上下文信息和數(shù)據(jù)分布的不平衡性,將會(huì)得到更好的分類結(jié)果。

      表3 本文方法在各類別得到的P、R及F值

      表4 本文方法與其他方法在各類別上的F值對(duì)比

      在循證醫(yī)學(xué)領(lǐng)域,科技文獻(xiàn)的結(jié)構(gòu)化表示尚處于探索階段,本文僅僅是在摘要層次實(shí)現(xiàn)了摘要文本的細(xì)粒度表示。若要從真正意義上幫助臨床醫(yī)生及研究人員解決從大量科技文獻(xiàn)中迅速明確地定位總結(jié)出有效臨床證據(jù)的需求,還需要從全文出發(fā),尋找結(jié)構(gòu)化表示的方案,深入分析科技文獻(xiàn)表述臨床研究的特征,抽取有用的證據(jù)信息,為醫(yī)生在臨床決策和相關(guān)研究人員展開進(jìn)一步研究時(shí)提供明確、有效而全面的證據(jù)。

      猜你喜歡
      類別分類器分類
      分類算一算
      分類討論求坐標(biāo)
      數(shù)據(jù)分析中的分類討論
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      教你一招:數(shù)的分類
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      服務(wù)類別
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      沾益县| 齐河县| 黄山市| 双柏县| 台前县| 灵寿县| 封开县| 土默特左旗| 辛集市| 崇阳县| 西贡区| 枣阳市| 镇原县| 望城县| 蒲城县| 仙桃市| 浦东新区| 砚山县| 永兴县| 岐山县| 荥阳市| 紫金县| 永胜县| 鹤壁市| 盐津县| 舞钢市| 当雄县| 新巴尔虎左旗| 临沂市| 三原县| 噶尔县| 绥江县| 旅游| 西安市| 历史| 阿尔山市| 博客| 双江| 台南市| 海原县| 且末县|