沈潔+彭敦陸
摘要:隨著信息化的深入發(fā)展,各應(yīng)用領(lǐng)域積累了大量采用半結(jié)構(gòu)化方式記錄的文本數(shù)據(jù)。為了快速有效地從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取有用信息,信息抽取技術(shù)應(yīng)運(yùn)而生。文本信息抽取的核心算法之一是計(jì)算詞或短語的相似度,針對(duì)面向領(lǐng)域的半結(jié)構(gòu)化文本中的中文短語相似度計(jì)算,先采用模式匹配算法從原始半結(jié)構(gòu)化文本中抽取中文短語,然后結(jié)合領(lǐng)域語義依存關(guān)系,對(duì)基于公共子串的短語相似度計(jì)算方法進(jìn)行改進(jìn),以此提高短語相似度計(jì)算的可靠性。實(shí)驗(yàn)結(jié)果表明,所提算法具有較好的計(jì)算效果。關(guān)鍵詞:領(lǐng)域半結(jié)構(gòu)化文本;公共子串;依存關(guān)系(DOI)DOI:10.11907/rjdk.162708中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A(文章編號(hào))文章編號(hào):16727800(2017)0040006030 引言 在信息爆炸的今天,各大領(lǐng)域都產(chǎn)生了大規(guī)模的半結(jié)構(gòu)化文本。在醫(yī)療領(lǐng)域,產(chǎn)生了大量的電子病歷文本[1];在司法領(lǐng)域,產(chǎn)生了大量的審判案件法律文書。對(duì)領(lǐng)域文本進(jìn)行高效地信息抽取,是實(shí)現(xiàn)文本數(shù)據(jù)結(jié)構(gòu)化和領(lǐng)域數(shù)據(jù)分析的基礎(chǔ),而短語相似度計(jì)算又是進(jìn)行正確信息抽取的前提。 通常,由于缺乏背景知識(shí),直接從面向領(lǐng)域的半結(jié)構(gòu)文本中抽取的短語不夠準(zhǔn)確,難以與領(lǐng)域知識(shí)相對(duì)應(yīng)。一種可能的方法是從領(lǐng)域知識(shí)庫中查找與抽取短語相似的短語來提高信息抽取的準(zhǔn)確性。由此,需要高效地計(jì)算從文本中抽取出的短語與領(lǐng)域知識(shí)庫中的短語相似度。迄今為止,短語相似度的計(jì)算已應(yīng)用于諸多方面,例如文本聚類[2]、文本檢索[3]和機(jī)器翻譯[4]等。 在司法領(lǐng)域,為了對(duì)大量案件進(jìn)行有效的數(shù)據(jù)分析,首先需要對(duì)審判案件的法律文書進(jìn)行信息抽取,形成結(jié)構(gòu)化數(shù)據(jù)。在針對(duì)法律文書(如判決書)抽取的大量數(shù)據(jù)項(xiàng)中,有一類數(shù)據(jù)項(xiàng)是由一組連續(xù)詞語組成的短語,例如,針對(duì)“案由”這個(gè)數(shù)據(jù)項(xiàng),在判決書中可能會(huì)抽取到“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識(shí)庫(取自我國《刑法》)中的對(duì)應(yīng)短語是“走私、販賣、運(yùn)輸、制造毒品罪”,兩者之間不完全相同,但相比其它短語則更加相似。研發(fā)出高效計(jì)算文本中抽取出的短語與領(lǐng)域知識(shí)庫中短語的相似度計(jì)算方法,有助于提高領(lǐng)域信息抽取的準(zhǔn)確度和抽取效率。1 準(zhǔn)備工作1.1 面向領(lǐng)域的中文短語抽取〖ST〗〖WT〗 與領(lǐng)域相關(guān)的中文短語抽取是面向領(lǐng)域的半結(jié)構(gòu)化文本信息抽取的重要任務(wù)之一。抽取出的短語以結(jié)構(gòu)化的形式進(jìn)行存儲(chǔ),為后期的數(shù)據(jù)分析服務(wù)。在短語抽取中,先使用基于模式匹配的結(jié)構(gòu)化信息抽取方法[5],從面向領(lǐng)域的半結(jié)構(gòu)化文本中抽取中文短語。 下面以實(shí)現(xiàn)來說明該算法的執(zhí)行過程。例如,對(duì)短語“指控被告人王某犯販賣毒品罪一案”,首先進(jìn)行分詞,然后選取案件案由的抽取模式(見圖1)對(duì)分詞序列進(jìn)行模式匹配得到目標(biāo)短語。其中,keyword、itemword、objphrase分別表示關(guān)鍵詞、普通詞和目標(biāo)短語。通過增加關(guān)鍵詞同義詞的方式對(duì)案件案由的抽取模式進(jìn)行優(yōu)化,這樣該算法就可以克服傳統(tǒng)模式的不足,準(zhǔn)確地匹配包括同義詞在內(nèi)的短語表達(dá)。< pattern keyword ="指控" pos ="v" >< keyword-synonym >< synonym name ="控告" pos ="v" / >< / keyword-synonym >< Cluster id ="1" >< patternStr >< pattern id ="1" value =" \\s keyword/v 被告人/n itemword/nr 犯/v objphrase/n 一/m 案/ng \\b" >< / patternStr >< / Cluster >< / pattern >1.2 構(gòu)建領(lǐng)域知識(shí)庫 法律文書由司法相關(guān)工作人員人工進(jìn)行書寫,書寫過程中會(huì)出現(xiàn)書寫不規(guī)范的情況。例如使用上節(jié)闡述的算法從法律文書中抽取的案件案由為“販賣毒品罪”,而這一短語在面向司法領(lǐng)域的知識(shí)庫(取自我國《刑法》)中的對(duì)應(yīng)短語是“走私、販賣、運(yùn)輸、制造毒品罪”。所以需要構(gòu)建領(lǐng)域知識(shí)庫,從知識(shí)庫中選取與抽取短語相似程度最高的短語作為最后的使用短語,這樣可以使抽取結(jié)果更加專業(yè)化。 本文采用主成分分析算法過濾法律文書中的噪聲信息,然后通過深度學(xué)習(xí)算法抽取領(lǐng)域特征詞和領(lǐng)域特征短語,構(gòu)建領(lǐng)域知識(shí)庫。司法領(lǐng)域的審判案件法律文書中有很多法律方面的知識(shí),例如,審判案件類型、案件案由、結(jié)案方式等,其中案由又分為刑事案件案由、民事案件案由和行政案件案由,刑事案件案由如表1所示。3類案件在知識(shí)庫中共1 470條具體的案由數(shù)據(jù)。領(lǐng)域知識(shí)庫中的專業(yè)知識(shí)蘊(yùn)含了該領(lǐng)域?qū)氋F的信息,對(duì)于提高信息抽取的準(zhǔn)確性和有效性有巨大幫助。2 短語相似度應(yīng)用實(shí)驗(yàn) 2.1 基于公共子串的短語相似度計(jì)算 基于編輯距離的短語相似度計(jì)算方法,沒有考慮字符與字符之間的連續(xù)性。例如“販賣毒品罪”通過編輯距離計(jì)算得到的相似短語是“非法買賣制毒物品罪”,而實(shí)際上“販賣毒品罪”相似的司法領(lǐng)域短語是“走私、販賣、運(yùn)輸、制造毒品罪”。短語“販賣毒品罪”與短語“非法買賣制毒物品罪”相同的字符為“賣”、“毒”、“品罪”,而短語“販賣毒品罪”與短語“走私、販賣、運(yùn)輸、制造毒品罪”相同的字符為“販賣”、“毒品罪”,由此可以看出短語與短語的相同字符越連續(xù),越具有語義含義。為了解決相同字符不連續(xù)導(dǎo)致相似短語選取錯(cuò)誤的情況,本文提出基于公共子串的短語相似度計(jì)算方法(Common Substring,CS)。 定義1 子串:字符串S中任意個(gè)數(shù)的連續(xù)字符所組成的子序列稱為該字符串的子串。 定義2 公共子串:如果字符串C既是字符串S的子串又是字符串T的子串,則字符串C是字符串S和字符串T的一個(gè)公共子串。 定義3 最長公共子串:指字符串S和T的公共子串中長度最長的一個(gè)公共子串D。 動(dòng)態(tài)規(guī)劃算法是解決最長公共子串[6]問題的經(jīng)典算法,通過式(1)可以計(jì)算出原始短語和目標(biāo)短語的最長公共子串,進(jìn)而可以得到不包含重復(fù)字符的公共子串(包含空字符串)。原始短語S和目標(biāo)短語T的公共子串(不包含重復(fù)字符)個(gè)數(shù)為k,公共子串集合按長度從大到小排序,可以通過式(2)計(jì)算基于公共子串的短語相似度。其中,|Vm|表示公共子串的字符個(gè)數(shù),|S|表示原始短語的字符個(gè)數(shù)。 通過基于公共子串的短語相似度計(jì)算方法給連續(xù)的字符賦予更高的權(quán)重,可以解決通過編輯距離計(jì)算短語相似度時(shí),字符不連續(xù)情況導(dǎo)致的相似短語選取錯(cuò)誤的情況,從而提高算法的準(zhǔn)確度。2.2 結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算 在上節(jié)提出的短語相似度計(jì)算方法考慮了連續(xù)字符的重要性,通過賦予連續(xù)字符更高的權(quán)重增加了連續(xù)字符的重要程度,但是沒有考慮短語中詞語與詞語之間的依存關(guān)系(Dependency Relationship,DR)。例如短語“制造、販賣毒品罪”中包含動(dòng)賓關(guān)系,強(qiáng)調(diào)的是賓語“毒品”,而上節(jié)中提出的算法給連續(xù)字符“制造販賣”賦予了更高的權(quán)重,而忽略了賓語“毒品”的重要性。通過分析司法領(lǐng)域知識(shí)庫中的短語,可以發(fā)現(xiàn)知識(shí)庫中的短語都是名詞性短語,主要包括3種關(guān)系:主謂關(guān)系、動(dòng)賓關(guān)系和定中關(guān)系。在司法領(lǐng)域,對(duì)于主謂關(guān)系,主語依存于謂語動(dòng)詞,多數(shù)在語義上強(qiáng)調(diào)的是主語;對(duì)于動(dòng)賓關(guān)系,賓語依存于動(dòng)詞,強(qiáng)調(diào)的是賓語;對(duì)于定中關(guān)系,定語依存于中心詞(名詞),強(qiáng)調(diào)的是定語。通過分析領(lǐng)域短語中詞語與詞語之間的語義依存關(guān)系,可以發(fā)現(xiàn)短語的主語、賓語和定語是短語的語義重心,應(yīng)該給語義重心賦予更高的權(quán)重,更好地體現(xiàn)領(lǐng)域的特征。 在計(jì)算短語相似度時(shí),考慮短語語義重心可以使選取相似短語的結(jié)果更加準(zhǔn)確,在此提出結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算方法(DR-CS)。為了找到短語的語義重心,需要對(duì)短語進(jìn)行依存句法分析。本文通過語言技術(shù)平臺(tái)(LTP)[7]得到短語中的主謂關(guān)系、動(dòng)賓關(guān)系和定中關(guān)系,進(jìn)而得到句子的主語、賓語和定語。如圖1所示,SBV表示主謂關(guān)系,VOB表示動(dòng)賓關(guān)系,ATT表示定中關(guān)系。對(duì)目標(biāo)短語中的主語、賓語和定語分別賦予權(quán)重,并結(jié)合上節(jié)中提出的算法計(jì)算短語相似度,可以體現(xiàn)短語的語義重心,提高短語相似度計(jì)算的準(zhǔn)確度。主語、賓語和定語的權(quán)重如式(3)所示,其中WG分別表示主語、賓語和定語的權(quán)重之和,λ1、λ2、λ3表示權(quán)重的系數(shù),需要通過實(shí)驗(yàn)進(jìn)行調(diào)整,|Gsub|、|Gobj|、|Gatt|分別表示主語、賓語和定語的字符個(gè)數(shù)。將主語、賓語和定語的權(quán)重與基于公共子串的短語相似度計(jì)算方法相結(jié)合得到式(4)。 結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算方法不僅考慮了字符與字符之間的連續(xù)性,還考慮了領(lǐng)域依存關(guān)系,增加了領(lǐng)域詞語的重要程度,體現(xiàn)了短語的語義重心,提高了相似短語查找的準(zhǔn)確性和有效性。2.3 實(shí)驗(yàn)方法實(shí)驗(yàn)數(shù)據(jù)來自江蘇省全省人民法院在2014年1月-2014年12月公開審判案件的裁判文書 ,包括4 000篇刑事案件裁判文書、4 000篇民事案件裁判文書和4 000篇行政案件裁判文書,總共12 000篇文檔。 實(shí)驗(yàn)采用對(duì)比的方法,驗(yàn)證本文提出算法的準(zhǔn)確性和有效性。結(jié)合司法領(lǐng)域知識(shí)庫中的刑事、民事和行政案件案由,計(jì)算抽取短語與案件案由列表中短語的相似度。將結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算結(jié)果與基于編輯距離的短語相似度計(jì)算方法和基于公共子串的短語相似度計(jì)算方法的計(jì)算結(jié)果進(jìn)行對(duì)比,驗(yàn)證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法的有效性。〖JP+2〗表2展示了3種方法的短語相似度計(jì)算結(jié)果。原始短語就是抽取短語,目標(biāo)短語是知識(shí)庫中的短語。第3、4、5列分別表示基于編輯距離的短語相似度計(jì)算方法、基于公共子串的短語相似度計(jì)算方法和結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算方法的計(jì)算結(jié)果。對(duì)于基于編輯距離的短語相似度計(jì)算方法,選取編輯距離最小的目標(biāo)短語作為原始短語的相似短語,而對(duì)于基于公共子串的短語相似度計(jì)算方法和結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法,應(yīng)該選取相似度值最大的目標(biāo)短語作為原始短語的相似短語。從表2可以看出,結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法具有更好的區(qū)分度。2.4 實(shí)驗(yàn)結(jié)果與分析 本文對(duì)12 000篇審判案件裁判文書的案件案由進(jìn)行了人工標(biāo)注,通過對(duì)比3種算法的結(jié)果和人工標(biāo)注的結(jié)果來驗(yàn)證算法的準(zhǔn)確性和有效性。 實(shí)驗(yàn)過程中,對(duì)權(quán)重系數(shù)進(jìn)行調(diào)整,當(dāng)λ1=0.8,λ2=0.6,λ3=0.3時(shí),結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法得到較好結(jié)果。實(shí)驗(yàn)使用準(zhǔn)確率來評(píng)估算法在不同規(guī)模下的準(zhǔn)確性和有效性。通過對(duì)比結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法與基于編輯距離的短語相似度計(jì)算方法和基于公共子串的短語相似度計(jì)算方法的計(jì)算結(jié)果,可以驗(yàn)證結(jié)合領(lǐng)域語義依存關(guān)系的短語相似度計(jì)算方法具有更好的效果。從實(shí)驗(yàn)結(jié)果(見圖1)可知,橫坐標(biāo)表示實(shí)驗(yàn)所用數(shù)據(jù)集的大小,縱坐標(biāo)表示ED、CS和DR-CS算法在相應(yīng)數(shù)據(jù)集上準(zhǔn)確率的大小。另外,從圖中還可以看到,在不同規(guī)模的數(shù)據(jù)集下,結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算方法的準(zhǔn)確性比其它兩種算法的準(zhǔn)確性要高,準(zhǔn)確率維持在90%左右。3 結(jié)語隨著互聯(lián)網(wǎng)的發(fā)展,電子化辦公方式越來越普及,各領(lǐng)域都產(chǎn)生了大量文本數(shù)據(jù),如何從大規(guī)模面向領(lǐng)域的半結(jié)構(gòu)化文本中挖掘有價(jià)值的信息是研究者所關(guān)注的。有效地信息抽取對(duì)后期的數(shù)據(jù)挖掘和分析效果會(huì)生產(chǎn)較大影響。本文從面向領(lǐng)域的半結(jié)構(gòu)化文本出發(fā),先采用模式匹配算法抽取的中文短語,運(yùn)用結(jié)合領(lǐng)域語義依存關(guān)系的公共子串短語相似度計(jì)算方法計(jì)算抽取短語與領(lǐng)域知識(shí)庫中短語的相似度,查找出領(lǐng)域知識(shí)庫中與抽取短語最相似的短語作為結(jié)果保存到結(jié)果數(shù)據(jù)中,保證了抽取的信息更加符合領(lǐng)域?qū)嶋H情況。實(shí)驗(yàn)結(jié)果展示了所提算法具有較好的計(jì)算效果。如何在分布式環(huán)境下對(duì)大規(guī)模面向領(lǐng)域的文本信息抽取技術(shù)及文本數(shù)據(jù)挖掘算法進(jìn)行探索,則是下一步研究的重點(diǎn)。endprint
參考文獻(xiàn):[1]KREUZTHALER M,SCHULZ S,BERGHOLD A.Secondary use of electronic health records for building cohort studies through topdown information extraction[J].Journal of biomedical informatics,2015(53):188195.
[2][CHO Y H,PARK S H,LEE S K.Phraserank for document clustering:reweighting the weight of phrase[C].Proceedings of the 2nd International Conference on Interaction Sciences:Information Technology,Culture and Human,2009:168174.
[3][PASCA M. Asking what no one has asked before:using phrase similarities to generate synthetic web search queries\[C].Proceedings of the 20th ACM International Conference on Information and Knowledge Management,2011: 13471352.
[4][ZENS R,OCH F J,NEY H.Phrasebased statistical machine translation[C].Annual Conference on Artificial Intelligence.Springer Berlin Heidelberg,2002:1832.
[5][邵堃,楊春磊,錢立賓,等.基于模式匹配的結(jié)構(gòu)化信息抽取[J].模式識(shí)別與人工智能,2014,27(8):758768.
[6][DEOROWICZ S,GRABOWSKI S.Efficient algorithms for the longest common subsequence in klength substrings\[J]. Information Processing Letters,2014,114(11):634638.[7][W CHE,Z LI,T LIU.Ltp:a Chinese language technology platform[C].Beijing:in Coling 2010:Demonstrations,2010:1316.(責(zé)任編輯:孫娟)