摘要:[目的/意義]無監(jiān)督的專利實體抽取方法可以有效解決之前方法高度依賴標注資源的痼疾,進而推動智能技術在專利數據上的廣泛應用并提升專利信息服務的能力和水平。[方法/過程] 將專利文獻固有的技術分類號與主題模型相結合,利用技術分類號指導專利詞匯上的主題分配過程,進而提出一種無需實體標注信息的專利實體抽取方法。[結果/結論] 利用硬盤驅動器薄膜磁頭領域專利數據集和IPC技術分類體系進行實證分析,實驗結果顯示,不同層級的技術分類號在實體抽取上效果差異巨大,而基于IPC第五層級技術分類號方法的實體抽取效果遠優(yōu)于常規(guī)的SAO方法。
關鍵詞:實體抽?。恢黝}模型;專利挖掘;技術分類號
分類號:G202; TP181
引用格式:陳亮, 尚瑋姣, 余池, 等. 利用技術分類號輔助的無監(jiān)督專利實體抽取方法研究[J/OL]. 知識管理論壇, 2024, 9(4): 422-436 [引用日期]. http://www.kmf.ac.cn/p/403/. (Citation: Chen Liang, Shang Weijiao, Yu Chi, et al. Research on Unsupervised Patent Entity Extraction Method Assisted by Technology ClassifiR+SZbWRDsLlIlfjAu0Is9WR2TEoHsTTruKGGmh3RVHQ=cation Codes[J/OL]. Knowledge Management Forum, 2024, 9(4): 422-436 [cite date]. http://www.kmf.ac.cn/p/403/.)
1 引言/Introduction
當前企業(yè)、科研院所等技術創(chuàng)新主體對專利情報的需求不僅包括宏觀數據統(tǒng)計,更需要在理解專利內容的基礎上,直接為其提供專利侵權風險規(guī)避、技術機會發(fā)現、技術路線選擇等決策支持服務。傳統(tǒng)通過人工閱讀來理解專利內容的方式,受制于稀缺的專家資源,耗時耗力、效率低下,而作為計算機理解文本內容之根基的信息抽取技術,則凸顯出重要的研究價值和廣闊的應用前景。
信息抽取旨在將自由文本轉化為結構化語義信息,實體抽取是其中的關鍵環(huán)節(jié)。然而相比常規(guī)文本(如新聞、論文等),專利文本從形式上更加冗長復雜,大量科技術語形式缺乏規(guī)范,且新術語層出不窮;從內容上講,專業(yè)知識高度密集,實體類型、數量繁多,語義關系錯綜復雜,從而導致直接套用面向常規(guī)文本的自然語言處理技術會出現一定程度的性能下降;此外,當前效果最好的實體抽取方法均為有監(jiān)督學習方法,然而標注數據是一種極為稀缺、昂貴的信息資源,尤其以專利挖掘領域為甚,截至目前,可公開獲取的專利信息抽取標注數據集僅有3個,即CPC-2014[1]、ChemProt[2]和TFH-2020[3]。不僅如此,由于專利的領域特定(domain-specific)屬性,不同技術領域的專利無論技術內容還是語言特性均存在較大差別。以技術內容為例,在硬盤磁頭驅動器專利標注數據集TFH-2020中的實體類型包括零件、原材料、形狀、功能、物理流、信息流等,而醫(yī)藥化學專利標注數據集ChemProt中的實體類型則是化合物、基因、蛋白質,從而造成不同技術領域的標注數據難以跨領域使用。
在這種情況下,研究者更青睞無標注的實體抽取方法,諸如利用句法解析軟件從專利文本中獲取詞性、句法依存關系等特征,并在此基礎上制定相關規(guī)則以獲取專利實體,從而使專利實體抽取不再受到標注數據的限制。然而,L. Chen等[3]發(fā)現,這種方法在專利文本上的實體抽取效果并不盡如人意,在精確匹配標準下實體抽取的F1值僅為1.7%。如何在無標注數據集的條件下提升實體抽取效果,成為一個亟待解決的問題。實際上,專利文獻具有豐富的題錄數據,如專利家族、法律狀態(tài)和技術分類號等,尤其技術分類號,指示了當前專利所屬的技術領域或所實現的功能應用,當該專利具備多種多技術交叉屬性時,會被同時賦予多個技術分類號。這些技術分類號雖然面向整篇專利,但在專利文本中均有相應的技術內容,如果智能算法能將這些技術分類號與專利文本中的技術內容自動對應起來,則可以形成一套無需實體標注信息的專利實體抽取方法。
因此,筆者將專利文獻固有的技術分類號與主題模型相結合,利用技術分類號指導專利詞匯上的主題分配過程,進而提出一種新的無標注專利實體抽取方法。實驗結果表明,在精確匹配標準下該方法將實體抽取的F1值提升至13.2%,而在將停用詞去除后F1值能進一步提升至15.4%,提升幅度巨大。本文研究思路如下:①對相關研究內容進行文獻調研和梳理;②闡述筆者提出的基于主題模型的專利實體抽取方法;③以TFH-2020數據集為基礎,形成擴展數據集TFH-2020-extension,進而展開實證分析;④總結本方法的優(yōu)勢和不足,并對下一步工作進行展望。
2 相關研究/Literature review
2.1 專利實體內涵辨析
實體抽取任務旨在從文本中識別具有特定意義的實體的邊界和類型。在自然語言處理技術通常處理的文本(如新聞、評論)中,常見的實體類型包括地址、人物、機構、貨幣、百分數、日期、時間等[4-5]。然而專利文本中包含著對發(fā)明創(chuàng)新及其技術背景、實現細節(jié)和權利要求等內容的描述,其所定義的實體類型會因分析目的和所在領域不同而有所差異,通常有兩種定義方式:①根據分析目標劃分,比如為識別行業(yè)創(chuàng)新方向和可能的技術機會,S. Dewulf[6]、H. Park等[7]將可標記物劃分為功能、屬性兩類,進而從不同專利文本中提取出技術組成、功能效果、新穎性、先進性等核心內容以拼接出技術發(fā)展趨勢;S. Y. Yang等[8]從工藝流程角度分析技術的發(fā)展變化,將機械領域實體類型劃分為方法、步驟、方式、屬性、實體、值,將實體之間關系劃分為動作、包含、前置,實體和關系可進一步細分為實際類型(real)、輔助類型(auxiliary)、領域依賴(dependent)、領域無關(independent)等;S. Choi等[9]側重實體的句法特征和保存狀態(tài),將實體分為概念、主語概念、賓語概念、事實類型、部分事實類型、效果事實類型、概念狀態(tài)、固體、氣體、液體、場等。②根據所在領域的技術特點劃分,比如薛馳等[10]將機械領域的可標記物劃分為技術系統(tǒng)、流、屬性,技術系統(tǒng)分為系統(tǒng)、零部件,流分為物流、能量流、信息流,屬性分為性狀、位置、方向等;I. Bergmann等[11]針對化學生物專利提出一套包含疾病、蛋白質靶向、行為模式(mode of action, MOA)、公式等12種類型的可標記物劃分標準。
2.2 專利實體抽取方法的發(fā)展
專利領域的實體抽取方法研究以應用為導向,除了考量方法本身的效率、效果、可解釋性、可移植性等,方法執(zhí)行所需的支撐資源(如句法解析器、領域詞表、標注數據集等)和方法的處理對象(專利數據)的特點也在考慮范圍之內。由于專利的領域特定特點,即不同技術領域專利的語言特點和描述對象差別較大、標注數據集難以作為訓練集跨領域使用,以及標注數據集規(guī)模有限、領域覆蓋面嚴重不足等問題,專利實體通常在句法解析工具對專利文本進行句法解析和詞性標注的基礎上,使用規(guī)則匹配加以識別。當然,隨著深度學習技術的崛起和成熟,這些方法逐漸被用于進行領域適配或任務適配并應用于專利實體抽取工作中,現已成為重要的研究方向。
(1)基于規(guī)則的方法。長期以來,專利實體抽取是在使用句法解析工具、詞表資源等對專利文本處理后,采用人工規(guī)則篩選出其中的實體信息。這一流程共有技術信息獲取、技術信息規(guī)范化和技術信息分類3個步驟,具體為:①技術信息獲取即從專利文本中初步識別實體邊界,具體方法以句法解析工具和規(guī)則匹配為主,即使用句法解析工具完成對專利文本的句法解析、詞性識別和語義角色標注,進而結合人工規(guī)則來獲取文本中的實體和語義關系[12-16];②技術信息規(guī)范化就是將具有相同、相近含義的技術信息用一種統(tǒng)一的形式表示出來,以消除上一步所獲技術信息的不確定性,目前技術信息標準化主要借助領域詞典[17]或知識庫[18]等信息資源中的層次結構和關系結構來計算兩個實體的語義相似度[19],或者將某實體泛化為其上位實體來判斷兩個實體是否屬于同一實體,并進一步推斷與之相關的實體組合是否具有相同含義[18,20];③經過上述處理后的實體仍然存在信息粒度不一的問題,即便經過規(guī)范化處理后仍然不宜分析解讀,因而需要將其進一步分門別類,常見的分類方法包括借助自定義規(guī)則,如詞匯組合[18]或詞性組合[21]將實體劃分到對應類別上。
(2)深度學習方法。與自然語言處理領域龐大的實體抽取方法家族不同,專利實體抽取所使用的深度學習方法集中于歷經驗證的少數經典方法,如BiLSTM(Bidirectional Long Short-Term Memory,雙向長短期記憶網絡)[22]、BiLSTM-CRF(Bidirectional Long Short-Term Memory-Conditional Random Field,雙向長短期記憶網絡—條件隨機場)[3]、BiLSTM-CNN-CRF(Bidirectional Long Short-Term Memory-Convolutional Neural Networks- Conditional Random Field,雙向長短期記憶網絡—卷積神經網絡—條件隨機場)[23]等。在這些方法中專利實體抽取均被作為序列標引問題加以建模,研究者重點探索能夠提升專利領域實體識別的特征,并將這些特征集成到深度學習模型之中,L. Chen等[3]發(fā)現相比基于新聞、百科等通用語料訓練的靜態(tài)詞嵌入向量,基于全領域專利語料訓練的靜態(tài)詞嵌入向量并未提升專利實體抽取效果,但用與實證領域相同或者臨近領域的專利語料訓練的靜態(tài)詞嵌入向量,則可以使專利實體抽取獲得0.3%的提升(以加權平均F1值測度);Z. Zhai等[23]發(fā)現該結論在化學領域專利上同樣成立,相應的提升幅度在0.61%—1.68%之間,不僅如此,還發(fā)現針對領域語料優(yōu)化后的分詞器更能適應目標領域專利文本的分詞特點,將其集成進來同樣可以提升專利實體的識別效果。
但詞匯本身具有一詞多義現象,且其含義也會隨著上下文語境不同而有所差別,靜態(tài)詞嵌入向量將詞匯映射到某個固定向量的做法并不符合這一詞匯特點,而BERT(Bidirectional Encoder Representations from Transformers,雙向基于變形器網絡的編碼器表示)、GPT(Generative Pre-Training,生成式預訓練網絡)、ELMo(Embeddings from Language Models,基于語言模型的詞嵌入網絡)等所產生的動態(tài)詞嵌入向量則可以捕捉到同一詞匯在不同語境的差異,因此具有更加強大的實體抽取能力。Z. Zhai等[23]發(fā)現,當將基于CNN(Convolutional Neural Networks,卷積神經網絡)所獲取的靜態(tài)詞嵌入向量替換為基于ELMo所產生的動態(tài)詞嵌入向量后,專利實體抽取在BioSemantics[24]和Reaxys Gold[25]上分別取得了1.3%和4.8%的提升(以微平均F1值測度)。邢曉昭等[26]以類腦智能領域專利為例,通過消融實驗發(fā)現當將基于通用語料訓練的BERT與BiLSTM-CRF模型拼接后,專利實體抽取效果從72%急劇提升至78%(以加權平均F1值測度),而將上述BERT替換為使用專利語料的BERT-for-Patents后,這一效果上升到80%。
雖然利用深度學習技術開展專利實體抽取的研究日漸增多,但這種技術需要高質量標注數據集來保障其強大的實體識別能力[27-28],而標注高質量數據集需要耗費大量時間和人力,成本高昂,同時不同技術領域的實體類型也互不相同,這使得高質量標注數據集難以跨領域共用。針對這些困難,學者們嘗試各種方法,以期在減少標注數據的條件下開展專利實體抽取。例如,白如江等[29]利用提示模板將專利實體識別任務包裝為問題,通過向大語言模型ChatGPT提問以實現基于小樣本標注數據的專利實體抽取;原之安等[30]提出一種基于預訓練模型的半監(jiān)督專利實體抽取方法,即讓預訓練模型先在小樣本標注數據上識別實體,之后將識別結果中的高置信度實體合并到標注數據中以提升實體識別效果。但這些方法并未充分利用專利本身富含題錄信息的優(yōu)勢,同時也沒有使用公開數據基準進行方法評測,方法效果的可復現性和方法先進性的可驗證程度上存在一定不足。
3 方法/Methodology
3.1 基本思想
筆者將專利所包含的技術分類號作為類別標簽、將技術分類號在技術分類體系中的相關節(jié)點作為主題標簽,以指導專利文本的主題分配進而抽取專利實體(見圖1)。具體步驟如下:①利用專利語料庫訓練主題模型PC-LDA(Patent Classification - Latent Dirichlet Allocation,專利分類—潛在狄里克萊分配)[15],獲取每個主題標簽對應的主題—詞匯概率分布;②當對一篇專利進行實體抽取時,首先獲取這個專利的類別標簽和主題標簽,以CN107427363B及其IPC(International Patent Classification,國際專利分類)號碼為例,其類別標簽包括A61F2/18、A61F11/00、A61F11/04、H01R25/00,而主題標簽A61F2/18、A61F11/00、A61F11/04、H01R25/00及其上層的A61F2、A61F11、H01R25、A61F、H01R、A61、H01、A、H;
③利用訓練好的PC-LDA對這個專利執(zhí)行折入查詢(fold-in query),即計算這個專利中每個詞匯在各個主題標簽下的概率值;④對每個主題標簽下的詞匯按照概率降序排列;⑤按照主題標簽層次分配該專利中詞匯的主題,進而識別專利實體。
3.2 PC-LDA模型
使用主題模型PC-LDA[31]來計算專利主題標簽的主題—詞匯概率分布,PC-LDA的概率圖表示見圖2。在該模型中,專利文本的撰寫過程被設定如下:需要預先拿到標引所使用技術分類體系以及這篇專利所分配的技術分類號集合Sd(集合中元素數量通常多于1個),并為這個技術分類體系的頂級節(jié)點設立一個虛擬父節(jié)點,從而將技術分類體系連成一個完整的樹。當撰寫專利時,首先從Sd中等概率抽取一個分類號Y;之后獲取從技術分類體系根節(jié)點到Y這條通路上的主題列表,并隨機從對應的分類號—主題分布θ(Y)中抽取一個主題;最后,從被選中主題對應的主題—詞匯概率分布φ中抽取一個詞匯w,從而生成該專利的第一個詞匯;依此類推最終生成該專利的全部內容。
以圖3為例加以說明。在該例中,一件專利被分配了A1、A2、B1三個技術分類號,這3個技術分類號在技術分類體系中的位置如圖3(a)所示;當撰寫專利的一個詞匯時,首先從這3個技術分類號中隨機抽取一個分類號作為要撰寫的技術方向,假設是A1如圖3(b)所示;此時從技術分類體系的根節(jié)點root到A1會確定一條通路,即rootAA1如圖3(c)所示,這條通路上的不同節(jié)點代表著從不同抽象層次上撰寫A1的技術內容;隨機從這條通路上抽取一個節(jié)點,假設是A如圖3(d)所示,表示從第二個層次上撰寫A1的技術內容;從A所對應的主題—詞匯分布上隨機抽取一個詞匯,至此完成專利中一個詞匯的撰寫過程。
在PC-LDA中有兩類待估參數,分別是S個分類號—主題概率分布θ和T個主題—詞匯概率分布φ。使用慣常的坍縮吉布斯采樣方法(Collapsed Gibbs Sampling)進行參數估計,具體采樣公式見公式(1)、公式(2)、公式(3),各個模型符號的含義見表1。
3.3 折入查詢和詞匯排序
在利用PC-LDA抽取專利中的實體時設立一個假設:專利中的實體偏向于具體內容的描述,而非對技術領域的總體概括,舉例來說,實體并非“人類生活必需品”“智能技術”“運輸”這種高度抽象的概括性內容,而是“褲子”“深度神經網絡”“直升飛機”這種指向明確物品(無論物理物品還是虛擬物品)的實詞,這些實詞所對應的技術分類號標簽通常處于技術分類體系的較低層次?;谠摷僭O,當對一個新專利進行實體抽取時,需要執(zhí)行兩個子步驟:①獲取該專利在各個主題標簽上的主題分布,即折入查詢;②在不同主題標簽下對該專利中的詞匯進行重要性排序,進而將層次較低主題標簽下較為重要的詞匯標識出來。由于層次越低的主題標簽(或技術分類號)越具有明確、具體的技術指向,而在該技術分類號下越重要的詞匯,它的技術指向就越明確、越具體,越可能是表示技術內容的實體。因此,當將技術分類體系最低層次標簽下的所有重要詞匯都被標識出來后,就獲取了這一專利上的實體列表。
在折疊查詢上,相比將新專利加入訓練集重新運行主題模型的做法,筆者提出的策略更加高效:固定主題—詞匯概率分布不變,只在新文檔上應用坍縮吉布斯采樣方法,來產生每個詞匯所分配的主題和分類號。在PC-LDA中,新文檔包括專利文本及其所屬分類號,首先將新文檔中各個詞匯隨機分配到其所屬分類號及其相關主題上,然后利用坍縮吉布斯采樣方法對這些詞匯抽取其所屬分類號及其相關主題,抽樣公式同樣是公式(1),在專利m中,主題標簽z下詞匯w的重要性計算方法如公式(4)所示:
其含義是獲取專利m中的3類概率分布,即專利—技術標簽分布、技術標簽—主題標簽分布、主題標簽—詞匯分布,進而在將主題標簽和詞匯設定為z和w的條件下對不同技術標簽下的概率值進行累加,以消除技術標簽變量s并得到t=z和w=w時的聯合概率分布。
3.4 模型評價
在主題模型評價上,除了常規(guī)用于語言模型的困惑度評價指標外,鑒于本文專利實體抽取任務的特殊性,筆者采用另外一種模型評價方法,即對照實體標注數據的評價方法。
(1)困惑度(perplexity)評價方法。困惑度是評價語言模型泛化能力的標準指標,其通用公式為(5),困惑度越小的模型泛化能力越強[32]。具體到PC-LDA模型中,對測試集中文檔Dtest的困惑度計算公式為(6)。其中G是坍縮吉布斯采樣方法的重復執(zhí)行次數,通過多次執(zhí)行坍縮吉布斯采樣方法然后求平均,以使困惑度結果相對穩(wěn)定;|Dtest|是測試集的文檔數量;|Sm|是測試文檔m所包含的技術分類號數量;θijg是在第g次折疊查詢時所推導出在技術分類號i上主題j的概率值。
(2)對照實體標注的評價方法。隨著可公開獲取的專利文本標注數據集的日益增多,以專利實體標注作為金標準的評價方法成為可能。本文提供兩種匹配策略:①精確匹配,只有標注實體和主題詞完全一致時,才被認為是一次正確識別;②重疊匹配,只要標注實體和主題詞存在重疊詞匯,就被認為是一次正確識別。為清楚起見,以圖4中的句子為例加以說明,該句子包含3個實體,即inductive head、leading write pole、and trailing write pole. 根據精確匹配策略,只有inductive head被正確識別, 但當標準換成重疊匹配時,3個實體均被認為被正確識別出來。
金標準 The inductive head includes a leading write pole and a trailing write pole
主題詞 The inductive head includes a leading write pole and atrailing write pole
4 實證分析/Experiment and result analysis
4.1 實驗數據準備
為驗證筆者提出的專利實體抽取方法的效果,本研究基于硬盤磁頭領域的專利標注數據集TFH-2020[3]展開實證分析,該數據集由美國專利商標局的1 010篇專利摘要經過人工精心標注而成。但由于該數據集中僅包含1 010篇專利摘要,數量偏少,又從美國專利商標局檢索平臺上另外檢索得到硬盤磁頭相關專利10 000件,將其中信息缺失、內容重復專利去除后,得到有效專利8 648件,將其作為訓練集,TFH-2020作為測試集,形成最終包含9 658條記錄的英文專利數據集TFH-2020-extention。
在TFH-2020-extention中,用于標注的IPC號碼共8 781個,上鉆到大組、小類、大類、部層級后,分別包含IPC號碼2 360個、488個、129個和8個。以圖3為例加以說明,在該例中專利被分配了A1、A2、B1三個原始分類號,當將其上鉆到第二層級時該專利的分類號是A、B,繼續(xù)上鉆后分類號歸并為root。從中看到不同IPC號碼上的專利分布嚴重不均衡,以部層級為例,A-H中包含的專利數量分別為585個、2 092個、1 062個、79個、79個、273個、3 311個;下探到大類、小類、大組、小組后的專利分布情況如圖5(a)-(d)所示,其中橫軸是包含同一IPC號的專利數量,縱軸是具有相同專利數量的IPC號的數量。舉例來說,假設4個專利包含的IPC號分別是(A,B,C)、(B,C、D)、(A,C、D)、(D),那么包含A、B、C、D的專利數量就對應著橫軸坐標上的2、2、3、3,而具有相同專利數量2的IPC號的數量為2,具有相同專利數量3的IPC號的數量也為2,它們對應著縱軸上的相應坐標。從圖中可以看到,在這4個層次上大多數IPC只存在于5件專利以內,存在于1 000件專利以上的IPC數量在10以下。
4.2 模型設置
為探索各個主題模型在不同IPC層級上的效果,除了使用原始IPC標簽,筆者同時將IPC標簽上鉆到大組、小類級別,形成了IPC大組標簽和IPC小類標簽,以在不同層次分類號的處理策略下分別展開實證分析。在模型超參數設置上,按照慣例將α、β分別設置為0.5和0.1,迭代輪次設置為100。由于對照實體標注的評價方法需要將主題標簽分配到原始文本的每個詞匯,以識別命名實體并與金標準進行比對,所以文本預處理僅去除標點符號,不再執(zhí)行刪除停用詞、低頻詞、抽詞干等常規(guī)操作。
4.3 模型評價
4.3.1 困惑度評價
在不同層次技術分類號的處理策略下,PC-LDA模型的困惑度變化曲線見圖6??梢婋S著IPC上鉆層次的提升,困惑度在不斷增長。IPC上鉆層次越高,專利中所包含的IPC號碼就越少,而困惑度通常會隨主題數量的減少而增長,反映到單一主題上來說,就是隨著IPC上鉆層次的提升,主題的指向愈發(fā)抽象、模糊,內容逐漸混雜。
為進一步探索PC-LDA的主題抽取效果,隨機選出兩個技術標簽G11B5/596、H01L27/146及其上層標簽,并輸出這些標簽對應的重要詞匯(見表2)。從中可以明顯看到,高層級的IPC標簽,其主題內容多為沒有實際含義的冠詞、介詞、連詞等,而隨著層級的下探,相應主題愈發(fā)貼近具體技術內容。雖然低層次主題標簽對應的詞匯與PC-LDA的預期相符,但高層次主題標簽并沒有對應相關技術領域的寬泛概念,諸如G對應物理學的寬泛概念、H對應電學的寬泛概念并不相符。其原因在于文本預處理未將停用詞去除造成了對主題結果的干擾,為方便對比分析,將語料庫中的停用詞去掉后,重新訓練PC-LDA,得到G11B5/596、H01L27/146及其上層標簽對應的重要詞匯(見表3),從中不難發(fā)現G主題中signal、system、circuit、apparatus、device、output、include、first、data、signals占據排名前10的位置,H主題中film、thin、metal、substrate、least、amorphous、layer、electrode、said、device占據排名前10的位置,符合PC-LDA的設計預期。
4.3.2 實體標注評價
該評價方法利用實體識別的評價指標,即準確率、召回率和F1值來度量PC-LDA的性能表現。由前面所述得知,層級較高的IPC號中主題詞匯多為通用詞匯,其作用在于過濾無關詞匯;而層級較低的IPC號中主題詞匯偏向具體、細節(jié)的技術術語,具有一定的命名實體識別能力。因此,對照實體標注的模型評價從兩個方面開展:①沿用Recall@K的思路,探討在不同層級IPC號上,隨著K值的增加專利中重要性得分位于前K位置的詞匯在命名實體識別準確率、召回率和F1值上的變化情況;②確定K值,并將此時PC-LDA的命名實體識別效果與專利中常用的免標注命名實體識別方法,即SAO(Subject Action Object,主語—行為—賓語)方法進行對比分析,以評價PC-LDA的模型表現。
(1)不同層級IPC號的命名實體識別。由于部、大類層級較高,所抽主題中無實際含義的詞匯較多,筆者將分析目標限定在層級較低的小類、大組、小組上(見圖7)。其中,精確匹配策略下命名實體識別的準確率、召回率和F1值隨K值變化情況見圖7(a)-(c),重疊匹配策略下的對應情況見圖7(d)-(f)。從中可見,無論是精確匹配策略還是重疊匹配策略,小類、大組層級的命名實體識別效果均相差細微,不僅如此,它們隨K值的變化情況也高度一致;與此相對,小類層級的命名實體識別效果要明顯優(yōu)于前兩者。從匹配策略上來說,不同匹配策略下命名實體識別效果的差別不大,以小組層級為例,它在精確匹配下的最優(yōu)召回率和F1值分別為9.73%和13.2%,而在重疊匹配下的最優(yōu)召回率和F1值分別為19.2%和26.1%,約為前者的2倍。由于小組準確率在重疊匹配策略和精確匹配下變化趨勢不同,所以這里不做比較。
(2)PC-LDA與SAO的對比分析。選定K=100來獲取PC-LDA模型在命名實體識別上固定的準確率、召回率和F1值,以開展對比分析。之所以選擇K為100,是因為當取該值時除重疊匹配策略下的準確率外,PC-LDA在其他命名實體識別指標的得分均為最優(yōu)值。同時,筆者也用基線方法(SAO方法)對測試集進行命名實體識別,這些實驗結果匯總見表4。從中可見,與PC-LDA模型完全不同,SAO方法在不同匹配策略下的命名實體識別效果存在極大差異。在精確匹配策略下,SAO方法在3種命名實體識別指標上的得分均在4%以下;但在重疊匹配策略下,SAO方法卻在準確率和F1值上取得了最高值,即74.2%和41.4%。
SAO方法的這種矛盾性表現反映了兩個事實:①命名實體的組成方式靈活多樣,但SAO方法僅將部分組成方式納入考量范圍,從而造成抽取結果準確率高、召回率低;②SAO方法雖然能有效識別存在于專利中的命名實體線索,
但在根據這些線索判斷命名實體邊界時也引入了大量錯誤,并對識別準確度造成了災難性的影響??紤]到專利命名實體識別中精確匹配的價值遠大于重疊匹配,可以得出結論:在不需要命名實體標注語料的命名實體識別方法中,PC-LDA的效果要顯著優(yōu)于SAO方法。
4.4 錯誤分析
錯誤分析是智能算法研究中至關重要的步驟,能夠幫助研究者理解和識別模型預測失敗的原因,從而優(yōu)化模型性能。從表2中可以看出,模糊匹配模式下PC-LDA的命名實體識別效果約為精確匹配的2倍,這反映出PC-LDA在抽取實體時候容易出現邊界判斷錯誤的問題,同時實體識別的準確率也遠高于召回率。為深入探究這些現象,筆者分別在未去停用詞和去掉停用詞的語料庫中訓練PC-LDA,進而對比分析在精確匹配和重疊匹配模式下的實體抽取效果,其中IPC層次設置為小組,詳情見圖8。這里需要指出的是,由于PC-LDA中實體類型以IPC號碼表示,并非TFH-2020中人工設置的實體類型,因此需要利用召回率測度實體識別效果。
從圖8中不難看出,當使用去掉停用詞后的語料訓練后,PC-LDA在實體識別效果普遍得到了提高,精確匹配模式下基于去掉停用詞的語料訓練的PC-LDA相比未去停用詞訓練的PC-LDA,其識別效果從13.2%提升至15.4%(F1值),而重疊匹配模式下的識別效果則從26.1%提升至30.1%(F1值)。這顯示出PC-LDA會在一定程度上將停用詞錯判為實體或實體的一部分。
具體到單一專利文本上,這里以專利US4740855A為例,PC-LDA在該專利的摘要文本上所識別的重要詞匯如藍色字體所示。為方便對比,金標準中的實體用灰底方框標出。
A magnetic thin-film head with layer-wise buildup on a nonmagnetic substrate is provided for a recording medium which can be magnetized perpendicularly (vertically), and contains a conduction body which carries the magnetic flux, and the magnet legs of which form a mainand an auxiliary pole. With these magnet legs which are arranged on the substrate with predetermined spacing side by side, a write/read coil windingis associated, the conductor turns of which extend through a spaceformed between the magnet legs. This magnetic head should be able to fly at a very small flying altitude above the recording and should at the same time be easy to realize in a thin film technique. To this end, it is provided that only the partially overlapping magnet legs serve as the magnetic conduction body, which are connected together in their common overlap zone, forming a magnetic return in a partial regionand are spaced outside of this return region, forming the intermediate space for the conductors.
從上面結果可以觀察到3種錯誤類型:①完全漏標,如recording medium、small flying altitude、conductors等。②部分漏標,如magnetic thin-film head,其中head被遺漏;nonmagnetic substrate,其中substrate被遺漏。③將非實體的形容詞、副詞、動詞等標注出來,如main、vertically、fly、carries等。對于第前兩種錯誤類型,其原因在于使用IPC小組(在本專利US4740855A中,即G11B5/31和G11B5/127)對應的詞匯分布進行實體標注,使得標注內容更加關注技術具體細節(jié),但實際上有些實體(如recording medium、conductor)由較為宏觀、上位的詞匯構成,而這些詞匯存在于表1中G11B對應的詞匯或者表2的G、G11、G11B對應的詞匯列表中,因此在實體識別時,需要將不同層次技術分類號對應的重要詞匯進行綜合考量后,才能覆蓋更多不同特點的實體;對于第三種錯誤,其原因在于主題模型本身并未考慮詞匯的詞性屬性,但詞匯在構成實體時需要遵從一定的規(guī)則,比如實體必須是名詞或名詞性短語,形容詞、副詞、動詞無法獨自構成實體,因此在基于PC-LDA模型進行實體抽取時,需要輔以規(guī)則方法、通過后處理將不符合實體構成要求的識別結果排除掉。
5 總結和前瞻/Conclusions and future work
對專利文本進行實體識別以反映發(fā)明創(chuàng)新的實質內容是技術情報分析的基礎工作之一,然而在當前實體識別范式下,識別工作需要代價高昂的標注數據做支持才能獲得良好的效果,而且不同技術領域的標注數據也難以跨領域共用,從而限制了專利實體識別技術的應用和推廣。針對該問題,筆者利用PC-LDA主題模型抽取不同層次技術分類號所對應的主題—詞匯概率分布的特點,提出一種無需實體標注信息也可以進行專利實體抽取的方法,即利用低層級技術分類號所對應的重要詞匯中富含具體技術和實現細節(jié)的現象,將這些詞匯提取并拼接起來以實現無標注信息的專利文本實體自動識別。
在基于公開專利數據基準TFH-2020的實證分析中,基于PC-LDA的實體識別方法展示出遠優(yōu)于SAO的性能;同時研究發(fā)現,低層級技術分類號所訓練出的PC-LDA在困惑度上要低于高層級技術分類號,而最低層級技術分類號(即IPC的小組層級)在這方面尤為明顯,基于最低技術分類號所訓練出的PC-LDA在實體識別正確率上也遠超其他層次技術分類號所訓練的PC-LDA。這也從一個側面反映出隨著技術層級分類體系的復雜化,最低層級技術分類號提供的信息量要遠大于其他層級,在這一層級上準確標注和識別出對應實體尤為重要。
不過,基于PC-LDA的無標注專利實體識別方法的識別效果還有較大提升空間,尤其在實體識別召回率上,通過錯誤分析發(fā)現,其原因一方面在于部分實體由較為宏觀、上位的詞匯構成,這些詞匯并沒有出現在低層級技術分類號所對應的重要詞匯中,而是存在于其上位技術分類號所對應的重要詞匯中,因此在實體識別時,需要將不同層次技術分類號對應的重要詞匯綜合考量后,才能覆蓋更多不同特點的實體;另一方面,PC-LDA會將一些形容詞、副詞、動詞和無實際含義的虛詞識別為實體或實體的組成部分,因此需要使用規(guī)則或詞表方法來輔助PC-LDA方法,以進一步提升方法效果,這也是下一步工作的重點方向。
參考文獻/References:
[1] AKHONDI S A, KLENNER A G, TYRCHAN C, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): 1-8.
[2] PéREZ-PéREZ M, PéREZ-RODRíGUEZ G, VAZQUEZ M, et al. Evaluation of chemical and gene/protein entity recognition systems at BioCreative V.5: the CEMP and GPRO patents tracks[EB/OL].[2024-07-22]. https://biocreative.bioinformatics.udel.edu/media/store/files/2017/BioCreative_V5_paper2.pdf.
[3] CHEN L, XU S, ZHU L, et al. A deep learning based method for extracting semantic information from patent documents[J]. Scientometrics, 2020, 125(1): 289-312.
[4] The Stanford Natural Language Processing Group. Stanford Named Entity Recognizer (NER)[EB/OL].[2024-06-08].http://nlp.stanford.edu/software/CRF-NER.shtml.
[5] 英格索爾, 莫頓, 法里斯.駕馭文本:文本的發(fā)現、組織和處理[M].王斌, 譯.北京:電子工業(yè)出版社, 2015. (INGERSOLL G S, MORTON T S, FARRIS A L. Taming text: how to find, organize and manipulate it[M].Shelter Island: Manning Publications.)
[6] DEWULF S. Directed variation of properties for new or improved function product DNA: a base for connect and develop[J]. Procedia engineering, 2011(9): 646-652.
[7] PARK H, YOON J, KIM K. Identifying patent infringement using SAO based semantic technological similarities[J]. Scientometrics, 2012, 90(2): 515-529.
[8] YANG S Y, SOO V W. Extract conceptual graphs from plain texts in patent claims[J]. Engineering applications of artificial intelligence, 2012, 25(4): 874-887.
[9] CHOI S, KANG D, LIM J, et al. A fact-oriented ontological approach to SAO-based function modeling of patents for implementing function-based technology database[J]. Expert system with application, 2012, 39(10): 9129-9140.
[10] 薛馳, 邱清盈, 馮培恩, 等. 機械產品專利作用結構知識提取方法研究[J]. 農業(yè)機械學報, 2013, 44(1): 222-229. (XUE C, QIU Q Y, FENG P E, et al. Acquisition method for principle solution of mechanical patent[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(1): 222-229.)
[11] BERGMANN I, BUTZKE D, WALTER L, et al. Evaluating the risk of patent infringement by means of semantic patent analysis: the case of DNA chips[J]. R&D management, 2008, 38(5): 550-562.
[12] YANG C, ZHU D, WANG X, et al. Requirement-oriented core technological components’ identification based on SAO analysis[J]. Scientometrics, 2017, 112(3): 1229-1248.
[13] MOEHRLE M G, WALTER L, GERITZ A, et al. Patent‐based inventor profiles as a basis for human resource decisions in research and development[J]. R&d management, 2005, 35(5): 513-524.
[14] GUO J, WANG X, LI Q, et al. Subject-action-object-based morphology analysis for determining the direction of technological change[J]. Technological forecasting and social change, 2016, 105:27-40.
[15] AN J, KIM K, MORTARA L, et al. Deriving technology intelligence from patents: preposition-based semantic analysis[J]. Journal of informetrics, 2018, 12(1): 217-236.
[16] 胡菊香, 呂學強, 劉秀磊, 等.專利技術功效短語獲取研究[J].科學技術與工程, 2016, 16(14): 228-235.(HU J X, LV X Q, LIU X L, et al. Extracting technologies efficacy phrases of patent for research[J]. Science technology and engineering, 2016, 16(14): 228-235.)
[17]馬建紅, 張明月, 趙亞男.面向創(chuàng)新設計的專利知識抽取方法[J].計算機應用, 2016, 36(2): 465-471.(MA J H, ZHANG M Y, ZHAO Y N. Patent knowledge extraction method for innovation design[J]. Journal of computer applications , 2016, 36(2): 465-471.)
[18] YOON J, KO N, KIM J. A function-based knowledge base for technology intelligence[J].Industrial engineering & management systems, 2015, 14(1): 73-87.
[19] HOI S, PARK H, KANG D, et al. An SAO-based text mining approach to building a technology tree for technology planning[J].Expert system with application, 2012, 39(13): 11443-11455.
[20] 王琰炎, 王裴巖, 蔡東風.一種用于專利實體的實體消歧方法[J].沈陽航空航天大學學報, 2015, 32(1): 77-83.(WANG Y Y, WANG P Y, CAI D F. An entity disambiguation method for patent entity[J].Journal of Shenyang Aerospace University, 2015, 32(1): 77-83.)
[21] WANG X, QIU P, ZHU D, et al. Identification of technology development trends based on subject-action-object analysis: the case of dye-sensitized solar cells[J].Technological forecasting and social change, 2015, 98: 24-46.
[22] SAAD F. Named entity recognition for biomedical patent text using Bi-LSTM variants[C]//Proceedings of the 21st International Conference on Information Integration and Web-based Applications & Services. New York: ACM Press, 2019: 617-621.
[23] ZHAI Z, NGUYEN D Q, AKHONDI S A, et al. Improving chemical named entity recognition in patents with contextualized word embeddings[J]. arXiv preprint, 2019, arXiv:1907.02679.
[24] SABER A, ALEXANDER G K, CHRISTIAN T, et al. Annotated chemical patent corpus: a gold standard for text mining[J]. Plos one, 2014, 9(9): e107477.
[25] SABER A, HINNERK R, MARKUS S, et al. Automatic identification of relevant chemical compounds from patents[EB/OL]. [2024-06-30]. https://academic.oup.com/database/article-pdf/doi/10.1093/database/baz001/27636778/baz001.pdf.
[26] 邢曉昭, 苑朋彬, 陳亮, 等.面向技術識別的專利實體抽取研究——以類腦智能領域為例[J].情報雜志, 2024, 43(6): 126-133, 144.(XING X Z, YUAN P B, CHEN L, et al. Research on patent entity extraction for technology recognition: a case study of brain-inspired intelligence[J].Journal of intelligence, 2024, 43(6): 126-133, 144.)
[27] ZHANG H, ZHANG C, WANG Y, et al. Revealing the technology development of natural language processing: a scientific entity-centric perspective[J]. Information processing and management, 2024, 61(1): 103574.
[28] 章成志, 謝雨欣, 張恒, 等.學術文獻全文內容中的方法實體細粒度抽取及演化分析研究[J].情報學報, 2023, 42(8): 952-966. (ZHANG C Z, XIE Y X, ZHANG H, et al. Extraction and evolution analysis of fine-grained method entities from full text of academic articles[J]. Journal of the China Society for Scientific and Technical Information, 2023, 42(8): 952-966.)
[29] 白如江, 陳啟明, 張玉潔, 等.基于ChatGPT+Prompt的專利技術功效實體自動生成研究[J].數據分析與知識發(fā)現, 2024, 8(4): 14-25. ( BAI R J, CHEN Q M, ZHANG Y J, et al. Generating effectiveness entities of patent technology based on ChatGPT+Prompt[J]. Data analysis and knowledge discovery, 2024, 8(4): 14-25.)
[30] 原之安, 彭甫镕, 谷波, 等. 面向標注數據稀缺專利文獻的科技實體抽取[J].鄭州大學學報(理學版), 2021, 53(4): 61-68. (YUAN Z A, PENG F R, GU B, et al. Technology entity extraction of patent literature with limited annotated data[J]. Journal of Zhengzhou University(natural science edition), 2021, 53(4): 61-68.)
[31] 陳亮. 面向專利分析的Patent Classification LDA模型[J]. 情報學報, 2016, 35(8): 864-874. (CHEN L. Patent classification LDA: topic model for patent analysis[J]. Journal of the China Society for Scientific and Technical Information, 2016, 35(8): 864-874.)
[32] JELINEK F, MERCER R L, BAHL L R, et al. Perplexity: a measure of the difficulty of speech recognition tasks[J]. The journal of the Acoustical Society of America, 1977, 62(S1): S63-S63.
作者貢獻說明/Author contributions:
陳 亮:論文構思與方法設計,文獻調研,代碼編寫,實證分析和論文撰寫;
尚瑋姣:論文思路梳理,實驗數據整理與分析,論文撰寫;
余 池:文獻調研,材料整理和論文撰寫;
牟 琳:文獻調研,專利數據集整理和統(tǒng)計,論文撰寫;
夏春姊:文章審閱,提出修改意見及論文修改;
葛 川:實體抽取相關算法的調研和梳理。
Research on Unsupervised Patent Entity Extraction Method Assisted by Technology Classification Codes
Chen Liang Shang Weijiao Yu Chi Mou Lin Xia Chunzi Ge Chuan
1Institute of Scientific and Technical Information of China, Beijing 100038
2Research Institute of Forestry Policy and Information, Chinese Academy of Forestry, Beijing 100091
3Shanxi Center of Science and Technology Intelligence and Strategic Studies, Taiyuan 030032
Abstract: [Purpose/Significance] Unsupervised method of patent entity extraction is capable of addressing the issue of previous methods that are highly dependent on labeled resources, thus promoting the widespread of artificial intelligence technology in the intellectual property field and improving the ability of patent information service. [Method/Process] By combining the inherent technology classification codes of patent documents with topic modeling, this study proposed a new method that utilizes patent classification code to guide the topic allocation process in patent text, thus extracting entities without annotation dataset. [Result/Conclusion] To demonstrate the advantages of our method, the empirical analysis was conducted using a patent dataset from the field of thin-film magnetic heads in hard disk drives, along with the IPC technology classification system. The experimental results show that there is a significant difference in the performance of entity extraction for different levels of technology classifications. Moreover, the entity extraction performance based on the fifth-level IPC technology classification code is far superior to the conventional Subject-Action-Object (SAO) method.
Keywords: entity extraction topic model patent mining patent classification code
Fund project(s): This work is supported by Shanxi Province Science and Technology Cooperation and Communication Special Project titled “Research and Development of Shanxi Province Research Project Similarity Monitoring Technology Based on Big Data and its Application Demonstration” (Granted No. 202204041101034).
Author(s): Chen Liang, associate research fellow, PhD; Shang Weijiao, engineer, master; Yu Chi, master candidate; Mou Lin, senior engineer, PhD; Xia Chunzi, assistant research fellow, master; Ge Chuan, research fellow, master, corresponding author, E-mail: 10600491@qq.com.
Received: 2024-03-12 Published: 2024-08-29