• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向生物文本挖掘的語義標注研究

      2015-07-18 09:28:16魏小梅
      湖北文理學院學報 2015年7期
      關(guān)鍵詞:有向圖三元組后置

      陳 波,呂 晨,魏小梅

      (1.湖北文理學院 文學院,湖北 襄陽 441053;2.武漢大學 計算機學院,湖北 武漢 430072)

      生物文本的語義標注在生物文本挖掘和信息抽取領(lǐng)域非常重要。它有助于提高自動檢索的精度和有效性[1-3]。但是,不含語義信息的資源為進一步的實體識別和關(guān)鍵詞提取帶來了很多難題,而這些信息是醫(yī)生亟需的,比如:基因表觀遺傳學(Gene Epigenetics)、腫瘤(Oncology)等。

      近年來,語義標注在生物標注領(lǐng)域越來越受到重視[4-6]。面向生物文本挖掘(Biomedical Text Mining),本文提出了一個新的語義表示模型“遞歸有向圖”。該模型可以很好地描述或推導(dǎo)出生物文本復(fù)雜句型中的生物概念關(guān)系。本文致力于建構(gòu)一個大規(guī)模的標注生物語料庫——“the biomedical token semantic association(bioTSA)”,可以表示出文本中所有詞語(tokens)的語義關(guān)系。該語料庫的語料數(shù)據(jù)來源于BioNLP2009公開評測任務(wù)和BioNLP2013 GE公開評測任務(wù)的訓練集。

      當前依存結(jié)構(gòu)是最流行的分析方法之一,基于依存結(jié)構(gòu)的許多文本分析研究都取得了很大的進展[7-8]。其他相關(guān)的標注研究,例如Kulick[2]研發(fā)的Framework,集成了樹庫(Treebank)和命題庫(Propbank),包含了句法結(jié)構(gòu)和謂詞論元結(jié)構(gòu);又如Kim[3]研發(fā)的語義標注和事件標注系統(tǒng)。然而在分析生物文本時遇到了很多難題,其中有很多特殊句式,例如:后置定語、復(fù)雜名詞短語、動補結(jié)構(gòu)等,很難分析出正確的中心詞,這就導(dǎo)致下一步的實體關(guān)系抽取的錯誤傳播。

      我們對面向生物文本的分析提出了一個新的方法——“遞歸有向圖”。在前期的工作中,我們已經(jīng)耗費了三年時間建構(gòu)了一個基于特征結(jié)構(gòu)的三萬句規(guī)模的中文句子級語義標注語料庫[9],它大大豐富了中文語義資源。本文嘗試運用遞歸有向圖來進行英文的生物文本的語義標注。本文中,我們選取后置定語作為研究對象。第一部分討論了我們提出的標注方法;第二部分對生物文本中的后置定語句進行了標注;第三部分總結(jié)了整個標注研究,包括標注數(shù)據(jù)、標注的一致性問題等;第四部分是結(jié)論。

      一、遞歸有向圖的語義標注

      特征結(jié)構(gòu)并非一個新的術(shù)語,在很多領(lǐng)域都常見,比如生成語音學[10]、生成短語結(jié)構(gòu)語法[11]、詞匯功能語法[12]等。我們借用特征結(jié)構(gòu)的術(shù)語來提出一個新的模型,它可以形式化為遞歸有向圖。我們關(guān)注于更好的語義關(guān)系的描述,運用該方法針對生物文本可以更完整地表示語義關(guān)系。

      一個短語或者句子可以表示為若干個特征結(jié)構(gòu)的集合。一個特征結(jié)構(gòu)可表示成一個由實體(Entity)、特征(Feature)和特征值(Value)組成的三元組(Triple)的集合:[實體,特征,特征值]。遞歸有向圖詳見圖1。

      一個特征三元組(feature structure triple)形式上可以表示為兩個“節(jié)點”(node)和連接它們的一條“邊”(edge)。實體或特征值表示為兩個“節(jié)點”,特征表示為兩個“節(jié)點”之間的“邊”。這樣,一個特征結(jié)構(gòu)三元組可看成是一個“圖”(graph),兩個節(jié)點之間的方向是從特征值指向?qū)嶓w,因此表現(xiàn)為一個“有向圖”(directed graph)。一個特征三元組反映一對語義關(guān)聯(lián),實體作為中心詞(the head),特征值依存于實體[13]。由于特征結(jié)構(gòu)允許嵌套和多重關(guān)聯(lián),因此可表示為“有向的遞歸圖”(recursive directed graph)。根據(jù)前期的研究[9,13],它更適用于復(fù)雜語義關(guān)系的抽取。

      (1)gene expression①加粗并加下劃線的詞語為中心詞,僅加粗的詞語為文章討論的詞語,下同。from the HTLV-I LTR

      圖1 特征結(jié)構(gòu):遞歸有向圖

      圖2 例1特征結(jié)構(gòu)圖

      例1是帶有介詞短語的復(fù)雜名詞短語,在生物文本中該類結(jié)構(gòu)很常見。該例中,實體是“gene expression”,特征是“from”,特征值是“the HTLV-I LTR”。例1由三個特征三元組構(gòu)成,圖2是例1的特征結(jié)構(gòu)圖。

      Triple1-1:[expression, ,gene];

      Triple1-2:[expression,from,the HTLV - I LTR];

      Triple1-3:[HTLV -I LTR, ,the].

      (2)Regulation of T1expression during induction of monocytic differentiation by okadaic acid

      例2是一篇生物論文的標題,由連續(xù)的8個名詞構(gòu)成的復(fù)雜名詞短語,這個句型比例1更加復(fù)雜,其中,很多語義關(guān)系是相互關(guān)聯(lián)、交錯復(fù)雜的。例2由6個特征三元組構(gòu)成:

      Triple2-1:[regulation,during,induction];

      Triple2-2:[regulation,of,expression];

      Triple2-3:[induction,of,differentiation];

      Triple2-4:[differentiation,by,okadaic acid];

      Triple2-5:[expression, ,T1];

      Triple2-6:[differentiation,,monocytic].

      在 Triple2-2中,“expression”是實體“regulation”的特征值,同時,在 Triple2-5中,“expression”是實體,它的特征值是“T1”。單詞“differentiation”也是同樣的情況,在Triple2-3中充當特征值,在Triple2-4中充當實體。因此,在特征結(jié)構(gòu)模型中,一個節(jié)點可以是多重語義關(guān)系的節(jié)點。圖3是例2的特征結(jié)構(gòu)圖。

      圖3 例2特征結(jié)構(gòu)圖

      二、生物文本后置定語句型的語義標注

      跟形容詞相似,后置定語的功能是修飾和描寫名詞或名詞短語[14],后置定語的用法是復(fù)雜多變的。在生物文本中后置定語句型非常常見。從句法來說,它大致可分為三種類型:1、小句充當后置定語,例如:who,whom,which,whose等等;2、短語充當后置定語,例如:不定式短語、現(xiàn)在分詞短語、過去分詞短語、形容詞短語、介詞短語等等;3、單個詞充當后置定語。在三種類型中,現(xiàn)在分詞短語、過去分詞短語和介詞短語充當后置定語的情況會為自動分詞帶來很多難題。特別是很難確定后置定語修飾的到底是哪一個中心詞,這會導(dǎo)致下一步的實體關(guān)系的抽取。我們標注了113篇生物文本,包含906個句子,其中有82個后置定語句,比例占9%。例3至例5是標注生物文本數(shù)據(jù)中典型的后置定語例句:

      (3)T10 mRNA levels were superinduced in cellstreated with both okadaic acid and cycloheximide,whereas inhibition of protein synthesis had little,if any,effect on okadaic acid -induced T11 transcription.

      例3中,后置定語是過去分詞短語“treated with both okadaic acid and cycloheximide”,它修飾的中心詞“cell”,兩者的語義關(guān)系是“受事——謂語”。例3中的后置定語可以描述為3個特征結(jié)構(gòu)三元組,圖4是例3的特征結(jié)構(gòu)圖。

      Triple3-1:[treated, ,cells];

      Triple3-2:[treated,with,okadaic acid];

      Triple3-3:[treated,with,cycloheximide].

      (4)Suppression of signals required for activation of transcription factor NF-kappa B in cellsconstitutively expressing the HTLV -I Tax protein.

      圖4 例3特征結(jié)構(gòu)圖

      例4中,后置定語由現(xiàn)在分詞短語“constitutively expressing the HTLV-I Tax protein”充當,但是它的中心詞不能確定,有3個名詞可能是中心詞:“activation”,或“transcription factor”,或“cells”。如果僅僅考慮距離,應(yīng)該是“cells”;但是根據(jù)語義關(guān)系,“transcription factor”應(yīng)該是正確的中心詞。例4中的后置定語可以描述為6個特征結(jié)構(gòu)三元組,圖5是例4的特征結(jié)構(gòu)圖。

      Triple4-1:[expressing, ,the HTLV -I Tax protein];

      Triple4-2:[expressing, ,constitutively];

      Triple4-3:[expressing, ,transcription factor];

      Triple4-4:[transcription factor, ,NF -kappa B];

      Triple4-5:[transcription factor,in,cells];

      Triple4-6:[activation,of,transcription factor].

      圖5 例4特征結(jié)構(gòu)圖

      (5)In contrast,in a number of multiple myeloma cell lines,representing differentiated,plasma cell- like B cells,PU.1DNA binding activity,mRNA expression,and Pu box-dependent transactivation were absent or detectable at a very low level.

      例5中,很難確定充當后置定語的動詞“binding”的賓語是哪個單詞,有可能是單詞“activity”,或者“activity,mRNA expression”,或者“activity,mRNA expression,and Pu box-dependent transactivation”。根據(jù)語義關(guān)系,“binding”的主語是“DNA”,因此它的賓語應(yīng)該是“activity”。例5中的后置定語可以描述為3個特征結(jié)構(gòu)三元組,圖6是例5的特征結(jié)構(gòu)圖。

      Triple5-1:[DNA, ,PU.1];

      Triple5-2:[binding, ,DNA];

      Triple5-3:[binding, ,activity].

      圖6 例5特征結(jié)構(gòu)圖

      后置定語比其他句型更容易導(dǎo)致錯誤。我們僅僅標注了82個后置定語句并總結(jié)了主要的三種情況。運用特征結(jié)構(gòu)模型可以解決這個難題,并且可以表示生物文本中更多的語義信息。

      我們從BioNLP’09公開評測任務(wù)中選擇了113篇生物語料,11篇摘要,從BioNLP2013 GE評測任務(wù)中選擇了102篇文本。我們建構(gòu)了一個包含906句的小規(guī)模生物語義標注資源,關(guān)注的是句子中語義關(guān)系的標注。

      標注人員小組包括20名博士和碩士,分別來自語言學、生物信息和計算機專業(yè)。標注培訓包括標注方法、標注的一致性、標注平臺的使用和標注語例。標注者獨立工作,因為特征結(jié)構(gòu)的標注僅需要確定語義關(guān)系,標注的一致性達到95%,這個結(jié)果是比較好的。每周我們會交叉檢查該階段的標注結(jié)果以避免人為錯誤。

      我們提出的特征結(jié)構(gòu)模型可以形式化為表示語義關(guān)系的“可遞歸的有向圖”。它是一個成功的嘗試用于生物的文本。下一步的工作,我們將擴大生物語料庫。與其他方法相比,特征結(jié)構(gòu)更適合于抽取生物文本中的服裝語義關(guān)系,可以描述更多的語義關(guān)系,并允許多重語義關(guān)聯(lián)。標注結(jié)構(gòu)表明,特征結(jié)構(gòu)的標注更有效,精度也更高。應(yīng)用方面,我們的研究對生物文本挖掘有一定的意義,研究結(jié)果可以用于自動問答、關(guān)系抽取等領(lǐng)域。

      [1] PYYSALO S,GINTER F,HEIMONEN J,et al.BioInfer:A corpus for information extraction in the biomedical domain[J].BMC Bioinformatics,2007,8(1):50-73.

      [2] KULICK S,BIES A,LIBERMAN M,et al.Integrated annotation for biomedical information extraction[C]//Proc of the Human Language Technology Conference and the Annual Meeting of the North American Chapter of the Association for Computational Linguistics(HLT/NAACL).Boston:Association for Computational Linguistics,2004:61 -68.

      [3] KIM J D,OHTA T,TSUJII J.Corpus annotation for mining biomedical events from literature[J].BMC Bioinformatics,2008,9(1):10 -34.

      [4] YAKUSHIJI A,MIYAO Y,TATEISI Y,et al.Biomedical infor-mation extraction with predicate-argument structure pat-terns[C]//Proceedings of the first International Symposium on Semantic Mining in Biomedicine(SMBM),Hinxton,Cambridgeshire,UK,April.2005.

      [5] SPASIC I,ANANIADOU S,MCNAUGHT J,et al.Text mining and ontologies in biomedicine:making sense of raw text[J].Briefings in bioinformatics,2005,6(3):239 -251.

      [6] COHEN A M,HERSH W R.A survey of current work in bio-medical text mining[J].Briefings in bioinformatics,2005,6(1):57-71.

      [7] ZHANG Y,NIVRE J.Transition-based dependency parsing with rich non-local features[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies:short papers-Volume 2.Boston:Association for Computational Linguistics,2011:188 -193.

      [8] MELUK I.Dependency Syntax:Theory and Practice[M].Herndon:SUNY Press,1988.

      [9] CHEN B,WU H M,LV C,et al.Semantic labeling of Chinese serial verb sentences based on feature structure[J].Lecture Notes in Computer Science,2013,8229(1):784 -790.

      [10] KENSTOWICZ M,KISSEBERTH C.Generative Phonology[M].New York:Academic Press,1979.

      [11] GAZDAR G.Generalized Phrase Structure Grammar[M].Cambridge:Harvard University Press,1985.

      [12] DALRYMPLE M.Lexical Functional Grammar[M].New York:Academic Press,2001.

      [13] CHEN B,JI D,LV C.Building a Chinese semantic resource based on feature structure[J].International Journal of Computer Processing of Languages,2012,24(1):95 -101.

      [14] LU J,LU K.Research on syntactic characteristics of computer English and its English to Chinese translation Strategy[C]//Proc of 2013 Fifth International Conference on the Computational and Information Sciences(ICCIS).Los Alamitos:IEEE Computer Society,2013:1867-1870.

      猜你喜歡
      有向圖三元組后置
      基于帶噪聲數(shù)據(jù)集的強魯棒性隱含三元組質(zhì)檢算法*
      有向圖的Roman k-控制
      特征標三元組的本原誘導(dǎo)子
      非正交五軸聯(lián)動數(shù)控機床后置處理算法開發(fā)
      關(guān)于余撓三元組的periodic-模
      超歐拉和雙有向跡的強積有向圖
      關(guān)于超歐拉的冪有向圖
      沉淀后置生物處理組合工藝的工程應(yīng)用
      Review of Research on the Prevention of HPV Infection and Cervical Cancer
      后置式自動發(fā)卡機系統(tǒng)應(yīng)用
      元谋县| 晋宁县| 大余县| 茶陵县| 永兴县| 新龙县| 茶陵县| 奉节县| 灌云县| 思茅市| 山东省| 东城区| 阿拉善右旗| 龙山县| 临夏县| 崇信县| 衡山县| 彰武县| 梁山县| 北碚区| 丹巴县| 建宁县| 拜城县| 长海县| 通化市| 阳城县| 交城县| 石景山区| 阿克| 青神县| 浦城县| 丰镇市| 乌兰察布市| 厦门市| 崇义县| 淮北市| 洪洞县| 哈密市| 上杭县| 平罗县| 遵化市|