俞琰,尚明杰,趙乃瑄
(1.南京工業(yè)大學(xué)信息管理與技術(shù)研究所,南京 210009;2.東南大學(xué)成賢學(xué)院電子與計(jì)算機(jī)學(xué)院,南京 211816)
專利關(guān)鍵詞是表明專利文獻(xiàn)主題內(nèi)容的一組詞或者短語,被廣泛應(yīng)用于專利文獻(xiàn)自動(dòng)文摘、分類、檢索、翻譯、聚類等專利分析之中。而專利文獻(xiàn)通常不包含關(guān)鍵詞,需要人工標(biāo)引。由于專利文獻(xiàn)篇幅較長、內(nèi)容專業(yè),且近年來專利文獻(xiàn)的數(shù)量急劇增長,使得人工標(biāo)引專利關(guān)鍵詞的方法已無法滿足專利分析的需要。因此,如何利用計(jì)算機(jī)自動(dòng)、高效、準(zhǔn)確地抽取專利關(guān)鍵詞成為一個(gè)重要的研究課題。
詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-ⅠDF)[1]是目前使用較為廣泛的關(guān)鍵詞抽取方法之一。該方法首先通過詞性規(guī)則匹配選取候選關(guān)鍵詞,然后利用候選關(guān)鍵詞在文檔中的詞頻和數(shù)據(jù)集中的逆文檔頻率對(duì)候選關(guān)鍵詞重要性進(jìn)行評(píng)估,選擇權(quán)重最大的若干候選關(guān)鍵詞作為關(guān)鍵詞。研究表明,該方法在專利關(guān)鍵詞抽取方法中具有有效性[2]。
然而,目前的專利關(guān)鍵詞抽取主要依據(jù)通用文本的關(guān)鍵詞抽取方法,沒有考慮專利文獻(xiàn)自身的特征,關(guān)鍵詞抽取結(jié)果仍有較大提升空間。具體來說,TF-ⅠDF方法在專利關(guān)鍵詞抽取中主要存在兩個(gè)問題。
問題1:基于人工制定的詞性規(guī)則匹配方法費(fèi)時(shí)、費(fèi)力,且選取的候選關(guān)鍵詞遺漏較多。例如,最常使用的詞性匹配規(guī)則為依據(jù)形容詞(a)和名詞(n)的詞性組合選取候選關(guān)鍵詞[3],這可能漏選包含動(dòng)詞(v)的“前饋/v神經(jīng)網(wǎng)絡(luò)/n”“命名/n實(shí)體/n識(shí)別/v”“自由基/n引發(fā)/v劑/n”,包含語素(g)“最大/a熵/g”,包含數(shù)詞(m)的“二/m羥基/n乙基/n二甲基/n乙烯/n”“喹賽/n多/m”等關(guān)鍵詞。
問題2:候選關(guān)鍵詞權(quán)重TF-ⅠDF不能很好地反映專利的創(chuàng)造性和新穎性。例如,在本文示例專利“基于最大熵和神經(jīng)網(wǎng)絡(luò)模型的韓語命名實(shí)體識(shí)別方法”(申請(qǐng)?zhí)枺篊N201710586675.2)中,非專利關(guān)鍵詞“實(shí)體 標(biāo)簽”“模板 選擇 規(guī)則”的TF-ⅠDF值高于專利關(guān)鍵詞“前綴樹字典”“神經(jīng)網(wǎng)絡(luò)模型”和“實(shí)體 字典”的TF-ⅠDF值。
實(shí)際上,專利文獻(xiàn)包括標(biāo)題、摘要、權(quán)利要求、說明書和附圖等部分內(nèi)容。其中,權(quán)利要求既是技術(shù)文獻(xiàn),也是法律文書,是專利文獻(xiàn)的核心,在內(nèi)容和格式上不同于普通文獻(xiàn),有其特定的要求。一方面,在內(nèi)容上,權(quán)利要求需要包含體現(xiàn)專利新穎性、創(chuàng)造性與實(shí)用性的全部必要技術(shù)特征,以說明要保護(hù)的專利范圍,而專利關(guān)鍵詞正是體現(xiàn)專利新穎性、創(chuàng)造性與實(shí)用性的詞語或短語;另一方面,在格式上,權(quán)利要求至少包含一項(xiàng)獨(dú)立權(quán)利要求,還可以包含若干從屬權(quán)利要求。從屬權(quán)利要求通常會(huì)選出重要的、對(duì)申請(qǐng)專利新穎性、創(chuàng)造性和實(shí)用性起作用的必要技術(shù)特征加以限定,以增強(qiáng)專利的法律穩(wěn)定性。因此,本文通過權(quán)力要求特征的分析,提出權(quán)力要求特征驅(qū)動(dòng)的專利關(guān)鍵詞抽取方法,以提高專利關(guān)鍵詞抽取的準(zhǔn)確性。
具體地,本文提出的權(quán)利要求特征驅(qū)動(dòng)的專利關(guān)鍵詞抽取方法具有如下主要?jiǎng)?chuàng)新點(diǎn):①從專利關(guān)鍵詞抽取任務(wù)出發(fā),對(duì)權(quán)利要求特征進(jìn)行分析;②基于權(quán)利要求特征,提出基于最長公共子串的候選關(guān)鍵詞選取方法;③引入信息增益比概念,提出一種去除冗余候選關(guān)鍵詞的方法;④基于權(quán)利要求特征,提出特指度指標(biāo),將其融入傳統(tǒng)的TF-ⅠDF候選關(guān)鍵詞權(quán)重之中;⑤通過實(shí)驗(yàn)數(shù)據(jù)比較分析,證明本文所提出的方法的可行性與有效性。
目前,關(guān)鍵詞抽取方法主要分為有監(jiān)督方法和無監(jiān)督方法兩大類。
有監(jiān)督方法通常將關(guān)鍵詞抽取問題看作一個(gè)分類問題,使用機(jī)器學(xué)習(xí)方法,通過事先給定的包含樣本的訓(xùn)練語料學(xué)習(xí)分類模型,然后使用學(xué)習(xí)得到的分類模型進(jìn)行關(guān)鍵詞抽取。典型的有監(jiān)督方法包括樸素貝葉斯[4]、支持向量機(jī)[5-7]、條件隨機(jī)場(chǎng)[8-9]等。近年來,隨著深度學(xué)習(xí)方法的興起,一些研究嘗試使用深度學(xué)習(xí)方法自動(dòng)學(xué)習(xí)文本特征,并結(jié)合條件隨機(jī)抽取關(guān)鍵詞[10-11]??偟膩碚f,有監(jiān)督方法抽取關(guān)鍵詞優(yōu)于無監(jiān)督方法,但存在依賴訓(xùn)練語料的規(guī)模與質(zhì)量、大規(guī)模人工標(biāo)注的訓(xùn)練語料難以獲取、抽取效果受到訓(xùn)練語料的領(lǐng)域性影響較大、模型較為復(fù)雜,可能存在過擬合等問題[12]。
無監(jiān)督方法通常包括候選關(guān)鍵詞選取和候選關(guān)鍵詞權(quán)重兩個(gè)主要步驟。其中,候選關(guān)鍵詞選取通常采用詞性規(guī)則匹配方法,其認(rèn)為關(guān)鍵詞的詞性序列遵循特定排列規(guī)則,如“形容詞+名詞”[3]等規(guī)則;候選關(guān)鍵詞權(quán)重則利用各種評(píng)分指標(biāo)對(duì)候選關(guān)鍵詞的重要性進(jìn)行評(píng)估,以選取排名最前的若干候選關(guān)鍵詞作為關(guān)鍵詞。由于無監(jiān)督方法不需要事先標(biāo)注數(shù)據(jù),模型直觀明了,從而一直得到研究者的廣泛關(guān)注,是近年來研究和應(yīng)用的重點(diǎn)。其中,候選關(guān)鍵詞權(quán)重主要包括基于統(tǒng)計(jì)的方法和基于圖模型的方法等。
基于統(tǒng)計(jì)的方法根據(jù)文本中詞語的詞頻、位置、詞性和長度等統(tǒng)計(jì)特征權(quán)重候選關(guān)鍵詞。其中,TF-ⅠDF方法[1]因其簡單有效而被廣泛使用。TF-ⅠDF方法認(rèn)為詞語的重要性與其在目標(biāo)文本中出現(xiàn)的次數(shù)正相關(guān),與其出現(xiàn)的總文本負(fù)相關(guān)。然而,TF-ⅠDF單純以詞頻衡量一個(gè)詞的重要性,不夠全面。因此,有些研究者嘗試?yán)迷~語的位置[13]、類內(nèi)信息[14]、詞跨度[15]、詞性[16]、詞聚類[17]和國際專利分類號(hào)等[18]特征對(duì)其進(jìn)行改進(jìn)。
基于圖模型的方法將文本中的詞構(gòu)建為圖模型,評(píng)估圖中起重要作用和中心作用的詞或者短語,將這些詞或者短語作為關(guān)鍵詞。其中,TextRank方法[19]因其簡潔有效、適應(yīng)性強(qiáng)、無需訓(xùn)練數(shù)據(jù)、擴(kuò)展性強(qiáng)、速度快等特點(diǎn)而被廣泛應(yīng)用。TextRank方法以詞作為圖模型的頂點(diǎn),詞語間的關(guān)聯(lián)作為邊進(jìn)行隨機(jī)游走,根據(jù)得分高低選擇關(guān)鍵詞。一些研究者嘗試?yán)迷~位置[20-23]、主題[24-26]、語義[27-29]等信息,以提高TextRank方法的關(guān)鍵詞抽取準(zhǔn)確率。
總之,目前的專利關(guān)鍵詞抽取通常沿用傳統(tǒng)通用文本的關(guān)鍵詞抽取方法,沒有充分考察和利用專利特征,抽取結(jié)果仍有較大提升空間。因此,利用專利特征以提高專利關(guān)鍵詞抽取的結(jié)果仍有待進(jìn)一步深入研究。
專利權(quán)利要求是一種法律文件,說明要求專利保護(hù)范圍,是專利申請(qǐng)文件的核心,在專利申請(qǐng)和專利訴訟中都起著至關(guān)重要的作用。
權(quán)利要求不同于一般文本,在內(nèi)容和格式上都具有特定的要求。在內(nèi)容上,權(quán)利要求需要包含體現(xiàn)專利新穎性、創(chuàng)造性與實(shí)用性的全部必不可少的技術(shù)手段或技術(shù)方案,即必要技術(shù)特征,以說明要保護(hù)的專利范圍。在格式上,至少包含一項(xiàng)獨(dú)立權(quán)利要求,還可以包含若干從屬權(quán)利要求。獨(dú)立權(quán)利要求從整體上說明專利權(quán)利范圍,從屬權(quán)利要求必須依從于一個(gè)獨(dú)立權(quán)利要求或者在前的從屬權(quán)利要求,用附加的技術(shù)特征對(duì)引用的權(quán)利要求作進(jìn)一步限定。從屬權(quán)利要求通常會(huì)選出重要的、對(duì)申請(qǐng)新穎性和創(chuàng)造性起作用的必要技術(shù)特征作限定,以增強(qiáng)專利的法律穩(wěn)定性。為了避免這些反復(fù)出現(xiàn)技術(shù)特征的歧義性,常冠以“所述”“所述的”(英文“the”“said”)等特指詞,確認(rèn)所提技術(shù)特征。
圖1為示例專利的權(quán)利要求。其中,權(quán)利要求1是獨(dú)立權(quán)利要求,權(quán)利要求2~9為從屬權(quán)利要求。從屬權(quán)利要求2~4均引用獨(dú)立權(quán)利要求1,對(duì)獨(dú)立權(quán)利要求1中的技術(shù)特征進(jìn)一步限定,從屬權(quán)利5則引用從屬權(quán)利要求4,對(duì)其中技術(shù)特征做進(jìn)一步限定。圖1虛線表明引用權(quán)利要求使用特指詞“所述”對(duì)被引用權(quán)利要求做進(jìn)一步限定,以避免歧義。
圖1 示例專利權(quán)利要求
根據(jù)權(quán)利要求特征,本文提出了權(quán)利要求特征驅(qū)動(dòng)的專利關(guān)鍵詞抽取方法。該方法主要包括預(yù)處理(第4.1節(jié))、基于最長公共子串的候選關(guān)鍵詞選?。ǖ?.2節(jié))、基于信息增益比的冗余候選關(guān)鍵詞去除(第4.3節(jié))和融入特指度的候選關(guān)鍵詞權(quán)重(第4.4節(jié))4個(gè)主要步驟。
預(yù)處理主要包括分詞、去除停用詞等工作。其中,由于中文文本詞與詞之間沒有明顯的切分標(biāo)記,需要通過分詞把一個(gè)句子按照其中詞的含義進(jìn)行切分。去除停用詞則通過通用停用詞表以及人工篩選去除頻率高但是信息量少的詞,如“發(fā)明”等詞。此外,預(yù)處理工作還包括英文大小寫格式轉(zhuǎn)換、去除特殊符號(hào)等工作。
根據(jù)第3節(jié)分析的權(quán)利要求特征,本文提出了基于最長公共子串的候選關(guān)鍵詞選取方法。該方法首先構(gòu)建專利樹PatentTree,然后依據(jù)專利樹的父節(jié)點(diǎn)與子節(jié)點(diǎn)的最長公共子串選取候選關(guān)鍵詞。
具體地,PatentTree=(V,E,root),其中,V是PatentTree的節(jié)點(diǎn)集合;每個(gè)節(jié)點(diǎn)vi對(duì)應(yīng)專利權(quán)利要求ci;E?(V×V)是PatentTree的邊集合;E中元素<vi,vj>表示權(quán)利要求cj引用權(quán)利要求ci;root表示PatentTree根結(jié)點(diǎn),對(duì)應(yīng)專利標(biāo)題和摘要,與獨(dú)立權(quán)利要求相連。圖2為示例專利的PatentTree。
根據(jù)PatentTree,選取PatentTree的父節(jié)點(diǎn)與子節(jié)點(diǎn)的最長公共子串(longest common string,LCS)作為候選關(guān)鍵詞[30]。如示例專利父節(jié)點(diǎn)獨(dú)立權(quán)利要求1中經(jīng)過預(yù)處理的連續(xù)詞串“構(gòu)建前綴樹字典”,與其子節(jié)點(diǎn)權(quán)利要求2中經(jīng)過預(yù)處理的連續(xù)詞串“所述前綴樹字典”的最長公共子串為“前綴樹字典”。表1為示例專利中父節(jié)點(diǎn)與子節(jié)點(diǎn)的最長公共子串。
圖2 示例專利PatentTree
表1 示例專利最長公共子串
所有的最長公共子串構(gòu)成了候選關(guān)鍵詞集合,表2為示例專利基于詞性規(guī)則匹配方法[3]與基于最長公共子串方法選取的候選關(guān)鍵詞比較,其中人工標(biāo)注的關(guān)鍵詞使用粗體表示。由表2可見,基于最長公共子串選取的候選關(guān)鍵詞具有更高的關(guān)鍵詞覆蓋率、領(lǐng)域獨(dú)立性和簡單易行等優(yōu)點(diǎn)。
第4.2節(jié)選取的候選關(guān)鍵詞中,存在較多嵌套候選關(guān)鍵詞,所謂嵌套候選關(guān)鍵詞,是指候選關(guān)鍵詞y(稱為父串)包含候選關(guān)鍵詞x(稱為子串),如“利用前綴樹”和“前綴樹”。表3第1列子串和第2列母串為示例專利中的部分嵌套候選關(guān)鍵詞。嵌套候選關(guān)鍵詞具有一定的普遍性,一些嵌套候選關(guān)鍵詞均具有較高權(quán)重值,如在示例專利中,“最大熵”“基于 最大熵”“最大熵 模型”等嵌套候選關(guān)鍵詞均具有較高權(quán)重,從而造成關(guān)鍵詞抽取錯(cuò)誤。
在這些嵌套候選關(guān)鍵詞中,一方面,一些母串包含比子串更多信息,如母串“韓語命名實(shí)體識(shí)別”和子串“命名實(shí)體識(shí)別”,應(yīng)予以保留;另一方面,一些母串并沒有比子串包含更多信息,甚至是錯(cuò)誤的候選關(guān)鍵詞,為冗余候選關(guān)鍵詞,如母串“基于最大熵”相較于子串“最大熵”,應(yīng)予以去除。
表2 示例專利候選關(guān)鍵詞選取比較
據(jù)此,本文提出指標(biāo)I(Ⅰnformation),以衡量一個(gè)詞w的信息量:
其中,|D|表示數(shù)據(jù)集文檔數(shù);|Dw|表示詞w在數(shù)據(jù)集中出現(xiàn)的文檔頻率。一個(gè)詞在數(shù)據(jù)集中出現(xiàn)的文檔頻率越低,其包含的信息量越大。
基于信息量Ⅰ的定義,給定母串y和子串x,使用信息增益比(information gain ratio,ⅠGR)衡量母串相較于子串增加的信息量的多寡,其定義為
其中,|x|表示子串x中包含的詞語個(gè)數(shù);y-x表示包含在y中但不包含在x中的詞語;|y-x|表示包含在y中但不包含在x中詞語個(gè)數(shù)。公式(2)分母表示子串x的平均詞語信息量;分子表示母串y相較于子串x新增加詞語的平均信息量。由公式(2)可知,ⅠGR是一個(gè)正實(shí)數(shù),當(dāng)其值小于1時(shí),表示母串中新增加的詞語的平均信息量少于子串的平均信息量。ⅠGR的值越小,表明新增加詞語的平均信息量越少;反之,表明新增詞語的平均信息量越多。通過設(shè)定閾值(本文閾值設(shè)定為0.5),可以去除一些添加信息量少的冗余候選關(guān)鍵詞。表3為示例專利信息增益比,其中,母串相對(duì)于子串中新增的詞語使用粗體表示。由表3可知,通過信息增益比,可以保留“韓語命名實(shí)體識(shí)別”等嵌套候選關(guān)鍵詞,同時(shí)去除“基于最大熵”等冗余候選關(guān)鍵詞。
表3 示例專利信息增益比
TF-ⅠDF[1]是一種常用的度量候選關(guān)鍵詞重要性的方法,該方法假設(shè)一個(gè)候選關(guān)鍵詞在目標(biāo)文本中出現(xiàn)頻次越多,在文本集中出現(xiàn)越少,則越能夠表示目標(biāo)文本的主題思想,從而作為目標(biāo)文本的關(guān)鍵詞。其計(jì)算公式為
其中,TF(x)表示x在文本中的出現(xiàn)頻次。
但TF-ⅠDF指標(biāo)不能很好地反映專利中具有新穎性和創(chuàng)造性的候選關(guān)鍵詞,如示例專利中反映創(chuàng)新性和新穎性的候選關(guān)鍵詞“前綴樹字典”的TF-ⅠDF值,低于候選關(guān)鍵詞“模板選擇 規(guī)則”。根據(jù)第3節(jié)權(quán)利要求特征的分析,本文提出特指度(specific degree,SD)度量候選關(guān)鍵詞被特指詞特指的次數(shù),并將特質(zhì)度信息融入候選關(guān)鍵詞權(quán)重之中,形成TF-ⅠDF-SD候選關(guān)鍵詞權(quán)重指標(biāo):
TF-ⅠDF-SD=TF-ⅠDF(x)×(SD(x)+1) (4)
在示例專利中,“前綴樹字典”“神經(jīng)網(wǎng)絡(luò)模型”和“實(shí)體字典”等候選關(guān)鍵詞具有較高的特指度,使得其TF-ⅠDF-SD權(quán)重值大于候選關(guān)鍵詞“模板 選擇 規(guī)則”“實(shí)體 標(biāo)簽”的TF-ⅠDF-SD值。
目前,由于沒有正式公開的專利關(guān)鍵詞標(biāo)注數(shù)據(jù)集,本文的實(shí)驗(yàn)從國家知識(shí)產(chǎn)權(quán)局網(wǎng)站分別檢索主題為“命名實(shí)體識(shí)別(named entity recognition,NER)”的計(jì)算機(jī)領(lǐng)域相關(guān)中文發(fā)明專利和主題為“納米”的化學(xué)領(lǐng)域相關(guān)中文發(fā)明專利,分別隨機(jī)下載1500篇作為目標(biāo)專利。以“命名實(shí)體識(shí)別”和“納米”為相關(guān)主題分別隨機(jī)下載20000篇專利作為輔助數(shù)據(jù)集。每個(gè)數(shù)據(jù)集的目標(biāo)專利分別由3位領(lǐng)域?qū)<要?dú)立人工標(biāo)注5~10個(gè)關(guān)鍵詞,使用兩兩交集作為目標(biāo)文本最終關(guān)鍵詞標(biāo)注結(jié)果[31-32],并對(duì)人工標(biāo)注結(jié)果使用kappa值進(jìn)行評(píng)測(cè),兩個(gè)數(shù)據(jù)集上的kappa得分均大于0.8,當(dāng)kappa值超過0.8則被認(rèn)為數(shù)據(jù)集標(biāo)注是有效的[33]。數(shù)據(jù)集信息如表4所示。
表4 數(shù)據(jù)集信息
本實(shí)驗(yàn)采用結(jié)巴分詞工具[34]對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞與詞性標(biāo)注,使用哈爾濱工業(yè)大學(xué)停用詞表[35]去除停用詞等進(jìn)行預(yù)處理工作,對(duì)目標(biāo)專利進(jìn)行候選關(guān)鍵詞選取,再利用輔助數(shù)據(jù)集,計(jì)算信息增益比,去除冗余候選關(guān)鍵詞,并計(jì)算候選關(guān)鍵詞權(quán)重。對(duì)抽取的專利關(guān)鍵詞使用準(zhǔn)確率(precision,P)、召回率(recall,R)和F值(F1-score,F(xiàn))進(jìn)行評(píng)估,計(jì)算公式為
5.3.1 基于最長公共子串的候選關(guān)鍵詞選取評(píng)估
實(shí)驗(yàn)首先評(píng)估基于最長公共子串的候選關(guān)鍵詞生成方法。為此,通過實(shí)驗(yàn)比較表5所示的兩種關(guān)鍵詞抽取方法。
表5 兩種候選關(guān)鍵詞選取方法的比較
實(shí)驗(yàn)結(jié)果如圖3所示。從圖3可知,在兩個(gè)數(shù)據(jù) 集 中,LCS+TF-ⅠDF方 法 的P、R和F值 均 高 于Rule+TF-ⅠDF方法。在NER數(shù)據(jù)集中,LCS+TF-ⅠDF方法的P、R和F值比Rule+TF-ⅠDF方法分別高7%、8%和7.5%;在納米數(shù)據(jù)集中,LCS+TF-ⅠDF方法的P、R和F值比Rule+TF-ⅠDF方法分別高6%、8%和7.2%。實(shí)驗(yàn)結(jié)果表明,使用最長公共子串方法比基于規(guī)則的方法生成的候選關(guān)鍵詞具有更好的候選關(guān)鍵詞生成結(jié)果。
5.3.2 基于信息增益比的冗余候選關(guān)鍵詞去除評(píng)估
實(shí)驗(yàn)評(píng)估了基于信息增益比去除冗余候選關(guān)鍵詞的有效性。為此,通過實(shí)驗(yàn)比較如表6所示的兩種方法。
實(shí)驗(yàn)結(jié)果如圖4所示。由圖4可知,兩個(gè)數(shù)據(jù)集結(jié)果類似。LCS+R+TF-ⅠDF的P、R和F值均高于LCS+TF-ⅠDF方 法。在 納米數(shù) 據(jù)集,P、R和F分 別提高了7%、6%和6.5%;在NER數(shù)據(jù)集,P、R和F分別提高了8%、5%和6.3%。LCS+R+TF-ⅠDF比LCS+TF-ⅠDF增加了去除冗余候選關(guān)鍵詞的步驟,表明通過去除冗余關(guān)鍵詞可以提高關(guān)鍵詞抽取的準(zhǔn)確率、召回率和F值。
表7列出了示例專利中使用兩種方法抽取的關(guān)鍵詞,其中人工標(biāo)注關(guān)鍵詞使用粗體表示。由表7可知,如果不去除冗余候選關(guān)鍵詞,一些冗余候選關(guān)鍵詞會(huì)具有較高的TF-ⅠDF,如“基于 最大 熵”“最大熵模型”等,造成錯(cuò)誤抽取。而通過去除冗余候選關(guān)鍵詞,可以使得其他正確關(guān)鍵詞有機(jī)會(huì)被正確抽取,從而提高關(guān)鍵詞抽取的準(zhǔn)確性。
圖3 候選關(guān)鍵詞選取方法比較結(jié)果
表6 兩種去除冗余候選關(guān)鍵詞方法的比較
圖4 基于信息增益比去除冗余候選關(guān)鍵詞有效性評(píng)估結(jié)果
表7 示例專利基于信息增益比去除冗余候選關(guān)鍵詞有效性評(píng)估
5.3.3 融入特指度的候選關(guān)鍵詞權(quán)重評(píng)估
實(shí)驗(yàn)評(píng)估了融入特指度的候選關(guān)鍵詞權(quán)重有效性。為此,通過實(shí)驗(yàn)比較如表8所示的兩種方法。
圖5為兩種方法比較結(jié)果。由圖5可知,在兩個(gè) 數(shù) 據(jù)集 中,LCS+R+TF-ⅠDF-SD方 法 的P、R和F值均高于LCS+R+TF-ⅠDF的P、R和F值。其中,在NER數(shù)據(jù)集中,LCS+R+TF-ⅠDF-SD方法的P、R和F較LCS+R+TF-ⅠDF提高了6%、5%和5.5%;在納米 數(shù) 據(jù)集 中,LCS+R+TF-ⅠDF-SD方 法 的P、R和F值較LCS+R+TF-ⅠDF提高了8%、5%和6.3%。LCS+R+TF-ⅠDF-SD方 法 相 較 于LCS+R+TF-ⅠDF方 法,在計(jì)算候選關(guān)鍵詞時(shí)融入了特指度特征SD,用于提高專利中被反復(fù)特指的候選關(guān)鍵詞的權(quán)重。實(shí)驗(yàn)結(jié)果表明,該特征能夠有效地提高專利抽取的準(zhǔn)確率、召回率和F值。
表9列出了示例專利使用兩種方法抽取的關(guān)鍵詞。由表9可知,通過在權(quán)重候選關(guān)鍵詞計(jì)算時(shí)添加特指度信息,可以提高反映專利創(chuàng)新性和新穎性的必要技術(shù)特征的候選關(guān)鍵詞權(quán)重,如“前綴樹字典”“神經(jīng)網(wǎng)絡(luò)模型”和“實(shí)體字典”,從而提高專利抽取的準(zhǔn)確性。
表8 兩種候選關(guān)鍵詞權(quán)重方法的比較
圖5 候選關(guān)鍵詞權(quán)重方法比較結(jié)果
表9 示例專利候選關(guān)鍵詞權(quán)重方法比較
5.3.4 與其他無監(jiān)督關(guān)鍵詞抽取方法比較
實(shí)驗(yàn)將本文提出的方法與常見的無監(jiān)督關(guān)鍵詞抽取方法進(jìn)行比較。欲比較的方法如表10所示。
表10 三種無監(jiān)督關(guān)鍵詞抽取方法的比較
圖6 與其他無監(jiān)督關(guān)鍵詞抽取方法比較結(jié)果
實(shí)驗(yàn)結(jié)果如圖6所示。由圖6可知,兩個(gè)數(shù)據(jù)集中,Ours方法均獲得了最高的P、R和F值。在NER數(shù)據(jù)集中,Ours方法的P、R和F值比Rule+TF-ⅠDF分別 提高 了20%、19%和19.5%;比Rule+TextRank方法分別提高了23%、22%和22.5%;在納米數(shù)據(jù)中,Ours方法的P、R和F值比Rule+TF-ⅠDF方法分別提高了20%、16%和17.8%;比Rule+TextRank方法提高了24%、18%和20.6%。實(shí)驗(yàn)結(jié)果表明,本文提出的專利關(guān)鍵詞抽取方法具有有效性。通過專利關(guān)鍵部分權(quán)利要求特征的分析,利用權(quán)利要求特征,采用最長公共子串選取候選關(guān)鍵詞、基于信息增益比去除冗余候選關(guān)鍵詞,以及在TF-ⅠDF方法中融入特指度信息,能夠有效提高專利關(guān)鍵詞抽取的準(zhǔn)確率、召回率和F值。
表11為示例專利使用3種方法抽取的關(guān)鍵詞,其中人工標(biāo)注的關(guān)鍵詞使用粗體表示。由表11可知,使用本文提出方法抽取的關(guān)鍵詞的準(zhǔn)確率明顯高于傳統(tǒng)的無監(jiān)督關(guān)鍵詞抽取方法,表明本文提出方法的有效性。
表11 示例專利與其他無監(jiān)督關(guān)鍵詞抽取比較
5.3.5 與有監(jiān)督關(guān)鍵詞抽取方法比較
實(shí)驗(yàn)將本文提出的關(guān)鍵詞方法與一些有監(jiān)督關(guān)鍵詞抽取方法進(jìn)行比較,數(shù)據(jù)集按照5∶1隨機(jī)分為訓(xùn)練集與測(cè)試集,進(jìn)行交叉驗(yàn)證。欲比較的方法為:
(1)NB[4]:使用詞性規(guī)則匹配[3]選取候選關(guān)鍵詞,使用樸素貝葉斯模型,選擇TF-ⅠDF特征和候選關(guān)鍵詞首詞出現(xiàn)的位置特征。
(2)SVM[6]:使用詞性規(guī)則匹配[3]選取候選關(guān)鍵詞,使用支持向量機(jī)模型,選擇與NB方法一樣的特征,核函數(shù)參數(shù)為RBF。
(3)BiLSTM+CRF[11]:使用word2vec模型中的skip-gram模型訓(xùn)練詞向量,使用BiLSTM網(wǎng)絡(luò),得到包含前后文本序列的雙向表達(dá),通過CRF預(yù)測(cè)最終的標(biāo)簽序列。定義B、M、E和O作為標(biāo)簽集合,其中B表示關(guān)鍵詞的開頭、M表示關(guān)鍵詞的中間、E表示關(guān)鍵詞的結(jié)尾、O表示其他。預(yù)訓(xùn)練的詞向量大小為200維,學(xué)習(xí)速率為0.001,BiLSTM模型層數(shù)為2,隱藏層為128,激活函數(shù)為tanh。
(4)Ours:本文提出的無監(jiān)督關(guān)鍵詞抽取方法。
實(shí)驗(yàn)結(jié)果如圖7所示。由圖7可知,在兩個(gè)數(shù)據(jù)集中,本文提出方法的P、R和F值均取得了最高值。在NER數(shù)據(jù)集中,Ours方法的P、R和F值比NB方法分別提高了15%、15%和15%;比SVM方法提高了13%、12%和12.5%;比BiLSTM+CRF-1方法分別提高9%、11%和10.1%。在納米數(shù)據(jù)集中,本文提出的方法比NB方法分別提高14%、11%和12.3%;比SVM方 法 提 高15%、9%和11.6%;比BiLSTM+CRF方 法 提 高12%、6%和8.6%。實(shí)驗(yàn)結(jié)果表明,本文提出的方法通過利用專利權(quán)利要求的特征,可以獲得比有監(jiān)督方法更好的關(guān)鍵詞抽取準(zhǔn)確率、召回率和F值,且相比于有監(jiān)督方法,本文提出的方法更加簡單可行,具有更高的可行性和實(shí)用性。
圖7 與有監(jiān)督關(guān)鍵詞抽取方法比較結(jié)果
表12列出了示例專利與有監(jiān)督關(guān)鍵詞抽取方法的比較。由表12可知,在NB和SVM方法中,候選關(guān)鍵詞首次出現(xiàn)的位置特征以及TF-ⅠDF特征對(duì)關(guān)鍵詞抽取起到了重要作用。然而,在考慮這些特征屬性時(shí),很多錯(cuò)誤緣于這些特征值較高,但本身并不是關(guān)鍵詞的候選關(guān)鍵詞,而BiLST+CRF則與訓(xùn)練集數(shù)據(jù)選取有較大關(guān)系。相比而言,利用權(quán)利要求特征的關(guān)鍵詞抽取方法則更具有針對(duì)性,簡單易行,具有更好的關(guān)鍵詞抽取效果。
專利關(guān)鍵詞是表明專利文獻(xiàn)主題內(nèi)容的一組詞或者短語,被廣泛應(yīng)用于專利分析之中。目前,專利關(guān)鍵詞抽取主要依據(jù)通用文本關(guān)鍵詞抽取方法,沒有充分利用專利特征,專利關(guān)鍵詞抽取的結(jié)果準(zhǔn)確性仍有較大提升空間。專利文本既是一種技術(shù)文獻(xiàn),也是一種法律文書,具有嚴(yán)密獨(dú)特的邏輯表述。因此,本文著眼于分析專利權(quán)利要求特征,并利用專利權(quán)利要求特征,提出一種權(quán)利要求特征驅(qū)動(dòng)的專利關(guān)鍵詞抽取方法,以提高專利關(guān)鍵詞抽取的準(zhǔn)確性。具體地,方法包括預(yù)處理、基于最長公共子串的候選關(guān)鍵詞選取、基于信息增益比的冗余候選關(guān)鍵詞去除和融入特指度的候選關(guān)鍵詞權(quán)重4個(gè)主要步驟。實(shí)驗(yàn)結(jié)果表明,本文提出方法具有可行性與有效性。
表12 示例專利與有監(jiān)督關(guān)鍵詞抽取方法比較
在實(shí)驗(yàn)中,本文所提出的方法存在一定的局限,主要體現(xiàn)在無法正確選取一些包含特殊字符的候選關(guān)鍵詞,如“2,2′-聯(lián)吡啶”。此外,在計(jì)算特指度時(shí),由于語言描述的靈活性,目前的特指度指標(biāo)還不夠精準(zhǔn),無法正確評(píng)估一些候選關(guān)鍵詞的特指度,這將是本課題組后續(xù)研究的重點(diǎn)。