• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于有監(jiān)督學(xué)習(xí)的醫(yī)古文敘述性術(shù)語語義標(biāo)注

      2015-04-21 09:44:28丁長林蔡?hào)|風(fēng)
      中文信息學(xué)報(bào) 2015年2期
      關(guān)鍵詞:敘述性短句規(guī)約

      丁長林,白 宇,蔡?hào)|風(fēng)

      (沈陽航空航天大學(xué) 知識(shí)工程研究中心 計(jì)算機(jī)學(xué)院,遼寧 沈陽 110136)

      ?

      基于有監(jiān)督學(xué)習(xí)的醫(yī)古文敘述性術(shù)語語義標(biāo)注

      丁長林,白 宇,蔡?hào)|風(fēng)

      (沈陽航空航天大學(xué) 知識(shí)工程研究中心 計(jì)算機(jī)學(xué)院,遼寧 沈陽 110136)

      對(duì)自由文本形式的中醫(yī)古籍文獻(xiàn)(醫(yī)古文)進(jìn)行標(biāo)注,是對(duì)其進(jìn)行深入分析的前提,語義標(biāo)注技術(shù)是實(shí)現(xiàn)該目的的方法之一。該文將中醫(yī)古籍文獻(xiàn)中包含的術(shù)語分為名稱性術(shù)語以及敘述性術(shù)語。在分析敘述性術(shù)語特點(diǎn)的基礎(chǔ)上,將對(duì)其語義標(biāo)注轉(zhuǎn)化為基于有監(jiān)督學(xué)習(xí)的短句序列標(biāo)注或分類問題,并提出了名詞性術(shù)語規(guī)約操作以及基于知網(wǎng)的替換操作兩種預(yù)處理方法。最后該文通過實(shí)驗(yàn)對(duì)比了三種學(xué)習(xí)模型及四種特征選擇算法,并證明了問題轉(zhuǎn)化的可行性以及兩種預(yù)處理方法的有效性。

      語義標(biāo)注;敘述性術(shù)語;有監(jiān)督學(xué)習(xí);中醫(yī)古籍文獻(xiàn)

      1 引言

      語義標(biāo)注技術(shù)作為自然語言處理領(lǐng)域中的基礎(chǔ)技術(shù),其結(jié)果廣泛應(yīng)用于知識(shí)發(fā)現(xiàn)等各種深層研究與應(yīng)用中。同時(shí),中醫(yī)古籍文獻(xiàn)(下稱醫(yī)古文)作為我國中醫(yī)文化精華的載體,針對(duì)其分析和處理也引起了越來越多學(xué)者的關(guān)注。如果缺少醫(yī)古文中的類別信息,對(duì)其研究只能建立在大量的人為干預(yù)或僅停留在簡(jiǎn)單的統(tǒng)計(jì)層面,語義標(biāo)注(Semantic Annotation,SA)正是獲取自由文本類別信息的方法之一。

      SA是一個(gè)特殊的元數(shù)據(jù)生成和使用的模型,這一模型的目標(biāo)是能夠吸收新的信息,并擴(kuò)展原有信息[1]。根據(jù)SA所使用的方法,可將其分為人工標(biāo)注、自動(dòng)標(biāo)注兩種。而后者又可分為基于模板、有監(jiān)督以及無監(jiān)督的學(xué)習(xí)三種[2]。例如,KIM[1]是采用基于規(guī)則的方法,利用模板進(jìn)行標(biāo)注的;MnM[3]以標(biāo)注完成的語料為基礎(chǔ),采用有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行標(biāo)注;而文獻(xiàn)[4]介紹了一種面向特定領(lǐng)域的、基于Bootstrapping算法的無監(jiān)督學(xué)習(xí)方法?;谝?guī)則的SA往往需要利用大規(guī)模的語料來彌補(bǔ)規(guī)則不足帶來的低覆蓋率;而無監(jiān)督方法很難保證識(shí)別的準(zhǔn)確率。雖然有監(jiān)督的學(xué)習(xí)方法需要大規(guī)模的標(biāo)注語料,但其更能保證標(biāo)注結(jié)果的可用性。同時(shí),目前的SA算法及平臺(tái)多基于大規(guī)模語料(如Web)并面向通用領(lǐng)域。

      目前針對(duì)醫(yī)古文的研究主要集中在基于人工標(biāo)注或簡(jiǎn)單統(tǒng)計(jì)基礎(chǔ)上的關(guān)聯(lián)規(guī)則挖掘[5]。為了提高關(guān)聯(lián)規(guī)則挖掘等研究的效率和準(zhǔn)確率,必須對(duì)醫(yī)古文中包含的多種術(shù)語進(jìn)行自動(dòng)標(biāo)注。這些術(shù)語中,一部分是描述特定事物名稱,如中藥名稱、方劑名稱等;另一部分是描述特定事物屬性,如癥狀、病機(jī)、病因等。這些術(shù)語正是醫(yī)古文語義標(biāo)注的對(duì)象。本文將前者定義為名稱性術(shù)語。對(duì)于名稱性術(shù)語的識(shí)別[6]可借鑒于命名實(shí)體識(shí)別的方法[7]。而后者,本文將其定義為敘述性術(shù)語。

      本文通過分析敘述性術(shù)語的特點(diǎn),發(fā)現(xiàn)該類內(nèi)容多以整句中的分句形式出現(xiàn),也就是說,只要獲取的短句與敘述性術(shù)語能夠擬合,短句的標(biāo)注結(jié)果就可以被視為敘述性術(shù)語的標(biāo)注結(jié)果。因此本文提出將敘述性術(shù)語的標(biāo)注問題轉(zhuǎn)化為短句的分類或序列標(biāo)注問題。針對(duì)古文缺乏特征的標(biāo)注難點(diǎn),以減少數(shù)據(jù)稀疏為主要目的,本文提出了兩種預(yù)處理方法。最終利用實(shí)驗(yàn)對(duì)比了不同轉(zhuǎn)化方法、參數(shù)設(shè)置對(duì)標(biāo)注的影響,證明了兩種預(yù)處理方法的有效性。

      2 敘述性術(shù)語標(biāo)注的任務(wù)轉(zhuǎn)化

      根據(jù)領(lǐng)域?qū)<姨峁┑男g(shù)語類別,本文將醫(yī)古文中的敘述性術(shù)語定義為描述特定事物屬性或具體過程的內(nèi)容,具體包括癥狀、病因、病機(jī)、針灸、體質(zhì)、治則、治法、調(diào)護(hù)等八類。由于現(xiàn)有語料的限制,本文利用癥狀(ZZ)、病因(BY)、病機(jī)(BJ)三類作為敘述性術(shù)語識(shí)別的范例。而以上三類中醫(yī)術(shù)語均是表述疾病的某方面屬性。分析可知,同一疾病的同一屬性未必相同,例如,不同人在傷風(fēng)時(shí)的癥狀不同。同時(shí),同一屬性也有可能對(duì)應(yīng)多種疾病,例如,咳嗽的癥狀可出現(xiàn)在多種疾病中。而在描述屬性時(shí),即使某些用詞是固定的,由于寫作習(xí)慣的不同,具體的表述形式也因人而異。因此疾病與其屬性形成了多對(duì)多的關(guān)系,并且敘述性術(shù)語的表達(dá)方式較為靈活,可見對(duì)其識(shí)別的難度。同時(shí)將不屬于以上三類的內(nèi)容標(biāo)注為其他類(OT),如下例所示,其中粗體為癥狀、斜體為病因、下劃線部分為病機(jī)、無變化的內(nèi)容屬于其他類。

      一男子年近五十,久病痰嗽,忽一日感風(fēng)寒,食酒肉,遂厥氣走喉,病暴喑。與灸足陽明別豐隆二穴各三壯,足少陰照海穴各一壯,其聲立出。

      2.1 敘述性術(shù)語的特點(diǎn)

      分析現(xiàn)有語料中的敘述性術(shù)語后發(fā)現(xiàn),該類術(shù)語具有以下特點(diǎn)。

      (1) 內(nèi)容無明顯邊界。在敘述性術(shù)語中,除了部分中醫(yī)用語外,相當(dāng)大部分的內(nèi)容與口語相近,其表達(dá)方式也較為靈活。例如,癥狀: “膿水淋漓,發(fā)熱吐痰”。這種接近口語的表達(dá)方式致使敘述性術(shù)語的前后并沒有明顯的邊界,其內(nèi)容已經(jīng)融入了整個(gè)無結(jié)構(gòu)的文本中,因此利用標(biāo)記邊界的方法對(duì)其進(jìn)行標(biāo)注是不可行的。

      (2) 內(nèi)容不連續(xù)出現(xiàn)。在理想情況下,一個(gè)獨(dú)立單元中,屬于同一類的敘述性術(shù)語應(yīng)該連續(xù)出現(xiàn),例如在一篇醫(yī)案中,描述癥狀的句子為1~3句,描述病機(jī)的為第5句,描述病因的為8~9句。但是如上例所示,在真實(shí)文本中,由于其寫作的口語化和隨意性,幾類術(shù)語經(jīng)常交叉出現(xiàn),并無特定規(guī)律。因此利用文本分割方法標(biāo)注敘述性術(shù)語也是不可行的。

      (3) 內(nèi)容相對(duì)獨(dú)立。敘述性術(shù)語所描述的是一個(gè)完整的事件,比如某疾病的癥狀。如果在將篇章劃分為待標(biāo)注單元時(shí),保證了切分的合理性,使待標(biāo)注單元與具有獨(dú)立意義的敘述性術(shù)語重合,就可以利用對(duì)人工切分單元的標(biāo)注獲得對(duì)應(yīng)單元的標(biāo)注。

      (4) 內(nèi)容上下文相關(guān)。雖然敘述性術(shù)語在表述過程中沒有明顯的順序性,但是篇章或整句作為一個(gè)整體,每個(gè)分割后形成短句的標(biāo)注是上下文相關(guān)的。

      2.2 樣本粒度

      利用標(biāo)點(diǎn)對(duì)自由文本進(jìn)行切分是最可行、最有效的方法?,F(xiàn)有語料中共包含句子(以句號(hào)、感嘆號(hào)以及問號(hào)結(jié)束)3 878個(gè),字?jǐn)?shù)為93 858,那么平均每句包含24字。古文中一般單字成詞,每個(gè)字都表示豐富的含義。所以在將敘述性術(shù)語的標(biāo)注轉(zhuǎn)化為短句標(biāo)注時(shí),以24字的長句作為單位顯然不合理。經(jīng)分析,除上述三個(gè)表示句子結(jié)束的標(biāo)點(diǎn)符號(hào)外,本文還選擇了逗號(hào)、冒號(hào)以及分號(hào)作為切分標(biāo)點(diǎn)以獲得短句,原因如下。

      逗號(hào)(,): 逗號(hào)在整句中頻繁出現(xiàn),其在數(shù)量上非常適合做分割標(biāo)點(diǎn),并能很好地避免不同的標(biāo)記內(nèi)容出現(xiàn)在同一短句中。

      冒號(hào)(:): 冒號(hào)多起引出下文的作用,如在古文中“因悟曰: 諸脈皆屬于目”。其中冒號(hào)后屬于病機(jī)類。利用冒號(hào)分隔后,冒號(hào)之前(包含冒號(hào))的內(nèi)容明顯屬于其他類(OT)。

      分號(hào)(;): 分號(hào)一般表示兩部分內(nèi)容的并列,但是并列的內(nèi)容未必同屬一類,因此也將分號(hào)作為分隔標(biāo)點(diǎn)。

      以上三種標(biāo)點(diǎn)的總數(shù)為10 374個(gè),則每個(gè)短句的平均字?jǐn)?shù)約為6~7個(gè)字。在長度上較為合理,下面將證明人工切分單元與敘述性術(shù)語的契合性。

      經(jīng)分析發(fā)現(xiàn),敘述性術(shù)語多以短句的形式出現(xiàn),本文將此類短句稱為規(guī)則化敘述性短句實(shí)例(簡(jiǎn)稱規(guī)則化短句),除此之外,其他包含敘述性術(shù)語的短句同時(shí)包含以下幾類內(nèi)容。

      (1) 古文虛詞: 如病機(jī)“此腎經(jīng)虛火”。 虛詞多在敘述性術(shù)語與其他內(nèi)容承接或敘述性術(shù)語相互承接時(shí)出現(xiàn)。由于虛詞多無實(shí)際意義,所以將該類短句同稱為規(guī)則化短句。

      (2) 人物代詞: 如癥狀“一老婦兩臂不遂”。該類情況多出現(xiàn)在敘述性術(shù)語的開始,用來明確該段內(nèi)容的指向者。

      (3) 包含其他內(nèi)容: 如病因“時(shí)冬忽有風(fēng)氣暴至”,該類情況多在敘述性與其他內(nèi)容承接或一段敘述性短句相互承接時(shí)出現(xiàn),以起到連接或補(bǔ)充說明的作用。

      統(tǒng)計(jì)現(xiàn)有語料得出表1,該表顯示了包含人物代詞與包含其他內(nèi)容的兩種非規(guī)則短句在所有短句中所占比重。

      表1 不規(guī)則短句在各標(biāo)注類別中所占比例/%

      由表1可知,以上兩種非規(guī)則短句只占很小的一部分,這使將敘述性術(shù)語的標(biāo)注問題轉(zhuǎn)化為短句的分類或序列標(biāo)注問題成為可能。而在切分過程中,由于病因類的不規(guī)則性最強(qiáng),致使病因類對(duì)問題轉(zhuǎn)化的適應(yīng)性相對(duì)較差。

      2.3 語料偏置

      利用2.2節(jié)的分割粒度對(duì)現(xiàn)有語料進(jìn)行分割后發(fā)現(xiàn)語料中存在嚴(yán)重的偏置,如表2所示。

      由表2可知,所要標(biāo)注的三類的總量與其他類數(shù)量持平,同時(shí)病因類實(shí)例過少。嚴(yán)重的語料偏置會(huì)使學(xué)習(xí)器在訓(xùn)練過程中,為了提高擬合率而偏向于實(shí)例較多的類別。這一點(diǎn)在實(shí)驗(yàn)中也得到了驗(yàn)證。

      表2 各類短句在語料中的所占比例/%

      3 敘述性術(shù)語標(biāo)注特征的分析

      3.1 短句切詞的粒度 據(jù)統(tǒng)計(jì),除專有名詞外,古文中80%以上為單音詞。所謂單音詞是指一個(gè)字就是一個(gè)事物概念,可以單獨(dú)作為一個(gè)語義單元,如古文中“妻子”表示現(xiàn)代文“妻子”和“子女”的意思。因此,在古文中,可以直接利用字作為切分單位。也就是說,對(duì)于古文的處理,在學(xué)習(xí)器的訓(xùn)練過程中,以短句中的字作為特征是有效、可行的。

      3.2 學(xué)習(xí)算法的選擇

      如2.1節(jié)所述,短句是上下文相關(guān)的,能夠利用動(dòng)態(tài)標(biāo)注結(jié)果的模型即序列標(biāo)注模型更適合于解決該問題。在自然語言處理的多數(shù)領(lǐng)域中,條件隨機(jī)場(chǎng)(Conditional Random Fields,CRF)的效果要優(yōu)于其他的序列標(biāo)注模型[8]。同時(shí),也可將短句的標(biāo)注問題轉(zhuǎn)化為短句的分類問題,在分類模型中最大熵(Maximum Entropy,ME)、支持向量機(jī)(Support Vector Machine,SVM)較為常用。以上提到算法為代表的兩種轉(zhuǎn)換方法的對(duì)比如表3所示。

      表3 兩種短句標(biāo)注任務(wù)轉(zhuǎn)換方法對(duì)比

      其中,是否有篇章概念是指,在學(xué)習(xí)器的訓(xùn)練過程中,能否在段落或篇章內(nèi)考慮待標(biāo)注單元的標(biāo)注結(jié)果。在本文中體現(xiàn)為在醫(yī)案的篇章范圍內(nèi)考慮每個(gè)短句的標(biāo)注結(jié)果。

      3.3 名稱性術(shù)語的處理

      在進(jìn)行短句分類時(shí),名詞性術(shù)語既可以被視為一個(gè)整體,又可以將其視為字的序列。為了降低語料的稀疏程度,可將同類名詞性術(shù)語用同一符號(hào)代替。本文將對(duì)名詞性術(shù)語的該類操作稱為名詞性術(shù)語的規(guī)約(規(guī)約操作)。具體如下例所示(例中對(duì)方劑、中藥類術(shù)語進(jìn)行了規(guī)約,并分別用“F”、“Z”替換了語料中出現(xiàn)的方、藥名稱)。

      規(guī)約操作前: OT 朝用補(bǔ)中益氣加黃柏、知母、麥門、五味,

      規(guī)約操作后: OT 朝用F加Z、Z、Z、Z,

      規(guī)約操作的主要作用如下:

      (1) 排除名詞性術(shù)語對(duì)短句標(biāo)注的影響,降低語料的稀疏度。如下例所示。

      規(guī)約操作前規(guī)約操作后再用加味歸脾湯加麥冬、五味,再用F加Z、Z,遂用六君加炮姜、肉果,遂用F加Z、Z,

      (2) 通過規(guī)約操作突出名詞性術(shù)語對(duì)敘述性術(shù)語標(biāo)注的區(qū)分性,具體數(shù)據(jù)見表4。

      表4 兩類名詞性術(shù)語在各類待標(biāo)注短句中的出現(xiàn)比例

      但是在該操作的具體過程中,難免會(huì)存在以下影響:

      (1) 規(guī)約不徹底帶來的混亂

      對(duì)于每類名詞性術(shù)語,其對(duì)應(yīng)的術(shù)語詞典都不能窮盡語料中所有屬于該類的術(shù)語。這就造成了同類術(shù)語的類內(nèi)部分規(guī)約,該現(xiàn)象必將導(dǎo)致對(duì)未規(guī)約短句識(shí)別能力的減弱。其次,在中醫(yī)語料中還包含了多類通用領(lǐng)域術(shù)語,如人名、地名等。要獲得全部的類別的術(shù)語詞典顯然很困難。本文把該種情況稱為類間部分規(guī)約。

      (2) 規(guī)約操作中的歧義

      該情況多出現(xiàn)在較短(1~2字)的術(shù)語中。如下例所示。

      久服知(中藥知母)、柏之類, ||殊不知(清楚、曉得)腎臟風(fēng),

      若要屏蔽掉對(duì)該類詞語的規(guī)約會(huì)造成類內(nèi)部分規(guī)約,如果在規(guī)約時(shí)進(jìn)行消歧,不只會(huì)增加處理時(shí)間,同時(shí)消歧結(jié)果有待修正。因此本文僅規(guī)約了人為挑選出的無歧義術(shù)語。

      3.4 基于知網(wǎng)的特征擴(kuò)充

      古文中句子短小,同時(shí)也缺乏現(xiàn)代文處理中的詞法、句法特征。擴(kuò)展短句特征的可行方法之一就是利用領(lǐng)域詞典中對(duì)切分單元的解釋代替該單元。但是,目前尚無可直接使用、計(jì)算的數(shù)字化古文詞典,而針對(duì)中醫(yī)領(lǐng)域的上述詞典更是難以獲得。同時(shí),在查詞典時(shí),必然要涉及到詞義消歧的相關(guān)工作,而在缺乏特征情況下的消歧,結(jié)果很難保證。

      因此,對(duì)于詞典的缺乏問題,本文利用現(xiàn)代文的面向通用領(lǐng)域的知網(wǎng)[9]來代替本文需要的中醫(yī)領(lǐng)域古文詞典。在知網(wǎng)中,對(duì)詞的解釋以DEF的形式出現(xiàn),如下例所示。

      癰 DEF={disease|疾病}

      口DEF={Age|年齡:host={livestock|牲畜}}

      DEF={NounUnit|名量:host={physical|物質(zhì)}}……

      本文提出以下假設(shè): DEF越多的切分單元,歧義越嚴(yán)重,該單元詞義消歧越困難,而在不計(jì)語義的情況下,該單元在語料中出現(xiàn)次數(shù)較多,則該單元的數(shù)據(jù)稀疏程度也較輕。

      根據(jù)如上假設(shè),本文利用知網(wǎng)替換了語料中DEF唯一的切分單元,即利用切分單元對(duì)應(yīng)的DEF中的詞語替換該單元。本文將該操作稱為替換操作。而除了DEF唯一的切分單元外,語料中還存在DEF不唯一或知網(wǎng)沒有收錄的切分單元。具體比例如表5所示。

      表5 根據(jù)對(duì)應(yīng)DEF數(shù)量對(duì)字切分單元的分類結(jié)果

      由于標(biāo)點(diǎn)會(huì)對(duì)短句標(biāo)注起重要作用,因此并未對(duì)其進(jìn)行規(guī)約。可見利用知網(wǎng),在語料中可替換的有將近30%的字切分單元。具體過程如下(以字切詞為例)。

      替換操作的主要作用在于以下幾點(diǎn)。

      (1) 豐富短句特征。一個(gè)切分單元對(duì)應(yīng)的DEF中通常包含多個(gè)詞語,如此就起到了擴(kuò)充特征的作用。

      (2) 降低稀疏程度。首先,有多個(gè)詞語對(duì)應(yīng)同一DEF的情況,對(duì)該類詞語的替換與前文介紹的名詞性術(shù)語替換的作用相似。同時(shí)經(jīng)過特征選擇操作后,可屏蔽掉不同切分單元對(duì)應(yīng)DEF中的某些詞語,而使剩下的詞語一致,同樣可以降低稀疏程度。

      由于在替換的過程中,沒有詞義消歧的相關(guān)操作,必然會(huì)導(dǎo)致該過程中的如下弊端。

      (1) 替換不徹底。如表5所示,除少部分知網(wǎng)未收錄的詞語外,有盡60%的切分單元有多個(gè)DEF,也就不能進(jìn)行替換操作。

      (2) 替換錯(cuò)誤。即使僅僅替換DEF唯一的切分單元,也會(huì)出現(xiàn)替換錯(cuò)誤。該類錯(cuò)誤對(duì)于單個(gè)詞是沒有影響的,因?yàn)橐辉~若被替換則在整個(gè)語料范圍內(nèi)都會(huì)被替換。但是會(huì)引起特征錯(cuò)誤的泛化,經(jīng)過特征選擇后,這種錯(cuò)誤泛化還將擴(kuò)大。導(dǎo)致替換錯(cuò)誤的主要原因如下。

      ? 作為面向現(xiàn)代文的針對(duì)通用領(lǐng)域的知網(wǎng),并不包含古文的中醫(yī)領(lǐng)域解釋;

      ? 對(duì)中醫(yī)術(shù)語外的通用領(lǐng)域術(shù)語替換不當(dāng),如通用術(shù)語中的人名、地名等。

      4 實(shí)驗(yàn)與分析

      本文實(shí)驗(yàn)中所用的語料出自《名醫(yī)類案》以及《續(xù)名醫(yī)類案》,共包含519篇醫(yī)案。本文共設(shè)置了三組實(shí)驗(yàn),并利用十則交叉驗(yàn)證的準(zhǔn)確率、召回率以及F值來評(píng)價(jià)實(shí)驗(yàn)結(jié)果。

      實(shí)驗(yàn)一: 選擇合適的任務(wù)轉(zhuǎn)化方法、學(xué)習(xí)算法以及短句切詞方法。

      實(shí)驗(yàn)二: 選擇標(biāo)注效果最優(yōu)的特征選擇算法。

      實(shí)驗(yàn)三: 分析規(guī)約操作以及替換操作的效果。

      4.1 實(shí)驗(yàn)一

      如上文所述,對(duì)于短句的標(biāo)注任務(wù)有兩種轉(zhuǎn)化方法。一是將其轉(zhuǎn)換為短句分類問題;二是將其轉(zhuǎn)換為短句序列標(biāo)注問題。實(shí)驗(yàn)一中利用ME、 SVM和CRF分別作為兩種轉(zhuǎn)化方式的學(xué)習(xí)器。同時(shí),如上文所述古文多單字成詞,為證明以字為切詞單元更符合對(duì)古文的處理,本實(shí)驗(yàn)對(duì)比了二元切詞與字切詞的實(shí)驗(yàn)效果。由于二元切詞會(huì)導(dǎo)致特征急速上升,因此在字切詞的實(shí)驗(yàn)中,特征維數(shù)由200到 2 000階梯增長,但是在二元切詞時(shí),特征維數(shù)由500到5 000階梯增長。同樣由于二元切詞后特征數(shù)的激增,而CRF對(duì)特征維數(shù)有嚴(yán)格限制,因此本實(shí)驗(yàn)利用SVM、ME對(duì)比了兩種切詞方法,實(shí)驗(yàn)結(jié)果如圖1所示。

      分析圖1可知,CRF分類器的效果要明顯好于其他兩種分類器,其主要原因是在短句標(biāo)注過程中上下文信息起到了重要作用。ME比SVM的效果更優(yōu),主要原因是,SVM較擅長于解決二分類問題。結(jié)果說明將短句標(biāo)注問題轉(zhuǎn)化為短句分類或短句序列標(biāo)注問題都是可行的,不過序列標(biāo)注模型更適合于短句標(biāo)注任務(wù)。同時(shí)圖1表明,無論使用SVM還是ME二元切詞的標(biāo)注效果劣于字切詞的效果,這也證明了以字為單位處理古文是合理的。

      圖1 三種模型標(biāo)注短句的平均F值

      4.2 實(shí)驗(yàn)二

      常用的特征選擇算法有DF、IG、MI、CHI、WLLR、BNS[10]。DF易于實(shí)現(xiàn),但權(quán)值難以設(shè)定,而BNS計(jì)算過于復(fù)雜。因此本文實(shí)現(xiàn)了其余四種方法,采用CRF、字切詞方法以及100到1 000的特征維數(shù)增長,以對(duì)比四種特征選擇算法優(yōu)劣。實(shí)驗(yàn)結(jié)果如圖2所示。

      圖2 四種特征選擇算法標(biāo)注短句的平均F值

      分析圖2可知,MI方法的效果較差,其他三種方法的效果非常接近。本文選擇了特征為900維時(shí)F值達(dá)到最高值(80.48%)的WLLR作為實(shí)驗(yàn)三的特征選擇方法。

      4.3 實(shí)驗(yàn)三

      利用之前實(shí)驗(yàn)中得到的最優(yōu)參數(shù)組合,即以字切詞方式切分短句,WLLR的特征選擇方法,并利用CRF完成本實(shí)驗(yàn)。同時(shí)為了避免替換操作時(shí),對(duì)名詞性術(shù)語的錯(cuò)誤替換,替換操作是建立在規(guī)約操作基礎(chǔ)上的,實(shí)驗(yàn)結(jié)果如圖3~7所示。

      圖3說明在特征為600維時(shí),三種方法均取得較好識(shí)別效果,表6中為三種方法在該維數(shù)對(duì)于各類的識(shí)別效果。

      圖3 三種標(biāo)注方法標(biāo)注各類的平均F值

      圖4 三種標(biāo)注方法對(duì)標(biāo)注OT類的F值

      圖5 三種標(biāo)注方法對(duì)標(biāo)注ZZ類的F值

      圖6 三種標(biāo)注方法對(duì)標(biāo)注BJ類的F值

      圖7 三種標(biāo)注方法對(duì)標(biāo)注BY類的F值

      類別組別準(zhǔn)確率/%召回率/%F值/%類別組別準(zhǔn)確率/%召回率/%F值/%179.5284.2181.42178.2477.6077.48OT280.2484.1081.83BJ277.6078.9277.99379.5483.9081.39377.3376.4376.65176.5968.9271.74148.5714.1821.69ZZ276.8969.6672.53BY259.1915.2223.39377.5170.5873.28354.4423.2431.67

      分析實(shí)驗(yàn)結(jié)果可知,雖然識(shí)別的最優(yōu)效果依然由無預(yù)處理操作的第一組獲得,但是該組較不穩(wěn)定。這說明規(guī)約操作以及替換操作增強(qiáng)了識(shí)別的穩(wěn)定性。而BY類的識(shí)別結(jié)果最不理想,該狀況主要由于語料偏置,以及上文指出的,BY類較其他類別短句對(duì)問題轉(zhuǎn)化的不適應(yīng)性。

      對(duì)比規(guī)約操作前后(第1、2組)的實(shí)驗(yàn)結(jié)果可知,除個(gè)別特征維數(shù)外,規(guī)約后四類的F值均有提高。取得該結(jié)果的原因是前文介紹的名詞性術(shù)語在各個(gè)待標(biāo)注類別中的分布差異??梢?,規(guī)約操作對(duì)于短句的識(shí)別是有效的。若想進(jìn)一步提高,必須深入解決上文中規(guī)約操作的類內(nèi)部分規(guī)約以及類間部分規(guī)約問題。

      對(duì)比替換操作前后(第2、3組)的實(shí)驗(yàn)結(jié)果可知,替換操作對(duì)ZZ和BY類的短句是有效的,特別對(duì)于BY類來說,適當(dāng)緩解了語料偏置問題。而對(duì)于OT和BJ類來說,替換操作后,一些如“腎、腎水”等BJ類的特征詞被泛化了,削弱了BJ類的自身特點(diǎn)。造成BJ類和OT類的混淆,從而導(dǎo)致兩類的識(shí)別效果均有下降。不可否認(rèn)的是,本文使用的替換操作中的部分替換問題以及替換錯(cuò)誤較為嚴(yán)重,但是替換操作帶來的特征擴(kuò)充,對(duì)于實(shí)例較少的類別是有利的。替換操作完善后,必將進(jìn)一步提高標(biāo)注效果。

      4.4 錯(cuò)誤實(shí)例分析

      除上文分析的規(guī)約、替換操作帶來的錯(cuò)誤,在整個(gè)識(shí)別過程中共性錯(cuò)誤包括以下幾類。

      (1) 短句本身特征不明顯,或包含過多虛詞,致使學(xué)習(xí)器將其分入實(shí)例較多的OT類。例如,“而所患自若也”。

      (2) 兩個(gè)類別間部分內(nèi)容相近,造成其用詞與表達(dá)方式較為相近。類似的情況就會(huì)造成學(xué)習(xí)器的錯(cuò)誤標(biāo)注。如描述服藥之后狀況的句子(OT)與描述疾病癥狀的句子(ZZ)。

      (3) 短句本身缺乏特征,根據(jù)上下文信息得出錯(cuò)誤標(biāo)注。此種情況多導(dǎo)致連續(xù)的錯(cuò)誤。

      上述多數(shù)錯(cuò)誤均與短句本身特征不足有關(guān)。統(tǒng)計(jì)三組實(shí)驗(yàn)均取得較好效果的以600為特征維數(shù)的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),短句長度與其在語料中所占比例及識(shí)別正確比例的關(guān)系如表7所示。

      表7 識(shí)別正確與錯(cuò)誤百分比與短句長度的關(guān)系

      續(xù)表

      其中,短句長度為2的句子主要包括“曰: ”,以及每篇醫(yī)案的第一句,特征明顯,方便識(shí)別。除短句字?jǐn)?shù)為2時(shí),正確識(shí)別的短句約占97%,其他其他均在80%左右,甚至更低,并且該類短句在語料中占很大比例。

      由短句長度問題帶來的識(shí)別錯(cuò)誤可有兩種解決方案: 一是對(duì)切分粒度進(jìn)行改進(jìn),使其能夠避免標(biāo)點(diǎn)切分產(chǎn)生的句子碎片;二是尋找更多的特征以支持標(biāo)注過程。

      5 結(jié)語

      本文通過對(duì)中醫(yī)古籍文獻(xiàn)中敘述性術(shù)語特點(diǎn)的深入分析,將敘述性術(shù)語的標(biāo)注問題轉(zhuǎn)化為了利用有監(jiān)督學(xué)習(xí)方法對(duì)短句進(jìn)行序列標(biāo)注或分類的問題,并解決了轉(zhuǎn)化過程中出現(xiàn)的問題,同時(shí)提出了針對(duì)名詞性術(shù)語的規(guī)約操作以及基于知網(wǎng)的替換操作兩種預(yù)處理方法。通過實(shí)驗(yàn)首先證明了上述的問題轉(zhuǎn)化方法的可行性,選擇了效果最好的CRF序列標(biāo)注模型以及適用于古文的字切詞方法;其次選擇了合適的特征選擇方法;最終證明了兩種預(yù)處理操作的可用性。進(jìn)一步的研究將集中于該方法在其他敘述類別上的應(yīng)用,以及規(guī)約操作、替換操作的完善,并尋找其他可擴(kuò)充短句特征,降低稀疏程度的方法。

      [1] Popov b, Kiryakov a, Kirilov a, et al. KIM-Semantic Annotation Platform[C]//Proceedings of the 2nd International Semantic Web Conference (ISWC2003). Berlin: Springer, 2003: 484-499.

      [2] Uren v s, Cimiano p, Iria j, et al. Semantic Annotation for Knowledge Management: Requirements and a Survey of the State of the Art [J]. Journal of Web Semantics, 2006,4:14-28.

      [3] Vargas-vera m, Motta e, Domingue j, et al. MnM: A Tool for Automatic Support on Semantic Markup, KMI Technical Report, TR Number133, 2003.

      [4] Huang rh, Riloff e. Inducing Domain-specific Semantic Class Taggers from (Almost) Nothing[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL 2010), USA: Association for Computational Linguistics, 2010: 275-285.

      [5] 麥喬智.數(shù)據(jù)挖掘模型的創(chuàng)建及其在中醫(yī)藥文獻(xiàn)中的應(yīng)用研究[D]南京:南京中醫(yī)藥大學(xué),2009.

      [6] 范巖.基于條件隨機(jī)場(chǎng)模型的中醫(yī)文獻(xiàn)知識(shí)發(fā)現(xiàn)方法研究[D]北京:北京交通大學(xué),2009.

      [7] Nadeau d, Sekine s. A Survey of Name Entity Recognition and Classification [J]. Lingvisticae Investigationes, 2003, 30: 1-20.

      [8] Zhao j, Liu k, Wang g. Adding Redundant Features for CRFs-based Sentence Sentiment Classification[C]//Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Honolulu, USA: Association for Computational Linguistics, 2008: 117-126.

      [9] 董振東, 董強(qiáng), 郝長伶. 知網(wǎng)的理論發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào), 2007,21(4): 4-9.

      [10] Li s, Xia r, Zong cq, et al. A Framework of Feature Selection Methods for Text Categorization[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP. Singapore: ACL and AFNLP, 2009: 692-700.

      丁長林(1987—),碩士研究生,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:dcl19871208@126.com白宇(1982—),博士研究生,講師,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:baiyu@sau.edu.cn蔡?hào)|風(fēng)(1958—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,人工智能。E?mail:caidf@vip.163.com

      第四屆全國社會(huì)媒體處理大會(huì)(SMP2015)

      第四屆全國社會(huì)媒體處理大會(huì)(SMP2015)由中國中文信息學(xué)會(huì)社會(huì)媒體處理專委會(huì)主辦,華南理工大學(xué)軟件學(xué)院和華南理工大學(xué)南校區(qū)大學(xué)城管委會(huì)承辦。該系列會(huì)議每年舉辦一次,現(xiàn)已成為社會(huì)媒體處理的重要學(xué)術(shù)活動(dòng)。社會(huì)媒體處理大會(huì)專注于以社會(huì)媒體處理為主題的科學(xué)研究與工程開發(fā),為傳播社會(huì)媒體處理最新的學(xué)術(shù)研究與技術(shù)展示提供廣泛的交流平臺(tái),旨在構(gòu)建社會(huì)媒體處理領(lǐng)域的產(chǎn)學(xué)研生態(tài)圈,成為中國乃至世界社會(huì)媒體處理的風(fēng)向標(biāo),會(huì)議將以社交網(wǎng)絡(luò)的形式顛覆傳統(tǒng)的學(xué)術(shù)會(huì)議交流體驗(yàn)。

      SMP 2015征集各類與社會(huì)媒體相關(guān)方面的原創(chuàng)研究和應(yīng)用論文。論文包括但不限于以下內(nèi)容:

      ? 面向社會(huì)媒體的自然語言處理

      ? 社會(huì)網(wǎng)絡(luò)分析與復(fù)雜系統(tǒng)

      ? 社會(huì)媒體處理與社會(huì)科學(xué)

      ? 社會(huì)媒體挖掘、預(yù)測(cè)與推薦

      ? 社會(huì)多媒體分析與可視化

      ? 社會(huì)媒體輿情分析與精準(zhǔn)營銷

      ? 社會(huì)媒體安全、隱私保護(hù)與計(jì)算支撐平臺(tái)

      ? 社會(huì)化媒體營銷與整合品牌傳播

      ? 大數(shù)據(jù)營銷與品牌的網(wǎng)絡(luò)形象研究

      重要日期:

      投稿截止日期:2015年6月30日

      錄用通知日期:2015年8月10日

      會(huì)議召開日期:2015年11月16-17日

      投稿要求:

      1. SMP 2015同時(shí)接受中文和英文投稿。

      2. 論文必須沒有公開發(fā)表過,字?jǐn)?shù)要求在8頁內(nèi),內(nèi)容充實(shí)的論文要求最多不超過12頁。

      3. 論文盲審,提交的時(shí)候不用帶作者信息,錄用后再補(bǔ)充。

      4. 英文格式要求參照Springer的論文模板;中文格式要求參照《中文信息學(xué)報(bào)》:

      http://www.cipsc.org.cn/jsip/tougao.php。

      5. 投稿系統(tǒng)將在4月20日開通。

      論文出版:

      錄用的稿件分為兩類:口頭報(bào)告(Oral)和海報(bào)張貼(Poster)。被錄用的英文文章擬由Springer結(jié)集出版(EI檢索),被錄用的中文稿件將被推薦至《中國科學(xué)》和《中文信息學(xué)報(bào)》,經(jīng)《中國科學(xué)》和《中文信息學(xué)報(bào)》編輯部再審?fù)ㄟ^后發(fā)表。優(yōu)秀英文文章將被推薦至IEEE Transactions on Big Data,經(jīng)該期刊編輯部再審?fù)ㄟ^后發(fā)表。

      Supervised Learning Based Semantic Annotation of Descriptive Terms in Chinese Medical Literatures

      DING Changlin, BAI Yu, CAI Dongfeng

      (Research Center for Knowledge Engineering, Shenyang Aerospace University, Shenyang, Liaoning 110136, China)

      The semantic annotation is a promising solution to process the free texts of Ancient Chinese Medical Literature (ACML). Terms in such textx are further divided into Named Terms (NTs) and Descriptive Terms (DTs) in this paper. By analyzing the DT, this paper treat the annotating DTs as the problem of sequence labeling or classifying short sentences based on supervised learning. Two pre-processing methods named NT reduction and Hownet-based substitution are proposed. The experiments compare three learning models and four feature selecting methods, demonstrating the feasibility the proposed method.

      semantic annotation; descriptive terms; supervised learning; ancient Chinese medical literatures

      1003-0077(2015)02-0049-09

      2012-09-27 定稿日期: 2013-01-15

      國家基礎(chǔ)科研973計(jì)劃(2010CB530401)

      TP391

      A

      猜你喜歡
      敘述性短句規(guī)約
      短句,讓表達(dá)更豐富
      十幾歲(2022年34期)2022-12-06 08:06:24
      設(shè)計(jì)學(xué)視角下服務(wù)設(shè)計(jì)中的敘述性表達(dá)研究
      短句—副詞+謂語
      短句—謂語+賓語
      試析商標(biāo)權(quán)的合理運(yùn)用
      藏戲的“敘述性”表演藝術(shù)特色分析
      電力系統(tǒng)通信規(guī)約庫抽象設(shè)計(jì)與實(shí)現(xiàn)
      一種在復(fù)雜環(huán)境中支持容錯(cuò)的高性能規(guī)約框架
      從文藝復(fù)興到現(xiàn)代具象:架上繪畫的價(jià)值探析
      美術(shù)界(2018年8期)2018-09-03 18:47:46
      一種改進(jìn)的LLL模糊度規(guī)約算法
      望城县| 洛阳市| 镇赉县| 谢通门县| 邓州市| 彭阳县| 高碑店市| 定南县| 花莲市| 平潭县| 台江县| 清原| 瑞金市| 崇阳县| 通道| 图片| 公主岭市| 江油市| 会理县| 和静县| 太谷县| 福建省| 巨野县| 五华县| 罗江县| 西华县| 江陵县| 弥勒县| 凤山县| 虞城县| 清镇市| 佛山市| 百色市| 邵阳市| 汝州市| 周至县| 肇庆市| 绥阳县| 津市市| 婺源县| 承德市|