何喜軍 張 佑 孟 雪 武玉英
(北京工業(yè)大學 經濟與管理學院 北京 100124)
知識圖譜(Knowledge Graph,KG)是大數據時代用于海量知識管理和智能服務的新興技術[1],能捕捉和呈現領域概念之間錯綜復雜的關系,為解決“知識孤島”提供理想的技術手段[2-3]。專利作為科技創(chuàng)新成果的主要表現形式,蘊含豐富的知識且具有重要的經濟價值[4-5],是知識圖譜構建的重要數據源[6]。目前,專利知識圖譜(Patent KG,P-KG)的構建主要包括公開號、申請人等結構化信息,以及專利的技術點、技術功效等非結構化信息,并通過多維關系實現實體關聯,例如:專利與申請人間的申請關系、專利與技術點的包含關系等。P-KG的應用則聚焦知識服務,包括:領域本體構建[7]、專利檢索[8]、技術熱點及空白點分析[9,10]等。
目前已有P-KG的研究,其知識圖譜的構建多依賴于基于規(guī)則的方法與基于傳統機器學習的方法[11]。但基于規(guī)則的方法需要依賴領域專家來構造規(guī)則,不僅需要耗費大量人力,且規(guī)則的可移植性很差[12];而基于傳統機器學習的方法雖然可以自動識別實體,但仍需要圖譜的構建者從原始數據出發(fā)人工構造特征[13]。大規(guī)模結構化和非結構化專利供需信息中自動化或半自動化提取可靠和一致的知識,并構建專利供需知識圖譜(Patent Supply-Demand KG,PSD-KG)仍面臨挑戰(zhàn)[14]。
此外,由于獲取專利信息的重要數據源—德溫特創(chuàng)新索引(Derwent Innovations Index,DII)數據庫中轉讓及許可等信息缺失,現有的P-KG均未融合交易信息,例如:專利的轉/受讓人、轉/受讓日期。交易信息的缺失使得目前基于P-KG的應用多局限于專利信息的檢索、挖掘技術熱點及空白點等[15]。而技術成果轉化所需要的供需挖掘、技術交易推薦等重要應用難以開展。
燃料電池具有污染小、能量轉化效率高、可靠性高等優(yōu)點,成為各國科研機構和產業(yè)關注的熱點領域[16-17]。2019年全球燃料電池出貨量約為1.1GW,較2018年增長40%,技術需求旺盛,但燃料電池領域PSD-KG的構建及應用研究還未多見。于是本文以DII和IncoPat數據庫為數據源,探索燃料電池領域PSD-KG的半自動化構建方法,并在技術供需熱點挖掘、交易網絡演化、信息檢索等方面挖掘應用場景,也為基于PSD-KG的交易推薦提供知識庫。
P-KG是以專利涉及的多種實體為節(jié)點,以實體間關系為邊的語義網絡,用來構建、描述、分析和挖掘專利知識及知識之間的相互關系[18],其基本單元由兩節(jié)點及其關系所構成的三元組組成。通過文獻研究,對現有P-KG中包括的實體、關系及應用場景總結如下(見表1)。
表1 P-KG中實體、關系及應用場景
由表1發(fā)現,上述領域的P-KG均未包含專利交易方面的實體及關系信息。
P-KG的構建主要包括實體識別、關系抽取、知識存儲與可視化等步驟。其中:語義實體存在于專利標題以及摘要中,包括技術點和技術功效等;非語義實體存在于專利著錄項中,包括申請人、IPC等。語義關系指通過計算語義相似度建立的關系,如:技術點間相似關系;非語義關系包括專利與轉讓人間的轉讓關系,專利與技術點之間的包含關系等。
a.實體識別方法。
實體識別是從專利文本中識別出指定的技術實體,將它們歸類到預先定義好的類別中[26]。其中:技術點和技術功效是兩類重要的語義實體,常通過標題及摘要等短文本記錄,主題特征不顯著[27],且申請人在專利的撰寫中會盡可能少地披露信息[28],使得該類實體識別需要相當多的領域經驗和知識,是P-KG構建的重點和難點。主要方法包括三類:
基于詞典與規(guī)則的方法:該方法主要依賴語言學家手工構造的實體詞典和規(guī)則模版,需要耗費較大的人力和時間,且對于詞典和規(guī)則中未涵蓋的實體識別效果不明顯,不同知識領域間無法移植[29]。
基于機器學習的方法:該方法將實體識別視為序列標注問題,利用大規(guī)模語料來學習標注模型,有較好的移植性,但對特征抽取的要求較高。特征抽取是從文本中選擇對實體識別有影響的各種特征,并加入到特征向量中[30]。主要包括隱馬爾可夫模型(HMM)、最大熵模型(MEM)和條件隨機場(CRF)[31]等。其中:HMM不能考慮上下文的特征,限制了特征的選擇;MEM可以任意選擇特征,但只能找到局部最優(yōu)值,并具有標注偏執(zhí)問題,即訓練語料中未出現的情況將被忽略;CRF能夠將所有特征進行全局歸一化,求得全局最優(yōu)值。該類方法在特征抽取時仍需大量人工參與,且依賴于語料庫,識別效果有待提升。
基于深度學習的方法:該方法通過獲取數據特征和分布式表示,避免繁瑣的人工特征抽取,具有良好的泛化能力[32]。Hammerton等[33]使用單向的長短期記憶網絡(LSTM),進行序列建模,彌補了CRF中人工抽取特征的不足。Guillaume Lample 等[34]提出雙向長短期記憶網絡(BiLSTM)和CRF結合的神經網絡模型,能夠獲取上下文的序列信息,在實體識別中被廣泛應用[35-36]。
上述基于機器學習或深度學習的方法,多采用Word2idx、Word2Vec、GloVe等方法將文本轉化為詞向量,以便于機器識別,但受限于模型的表征能力,得到的詞向量無法充分考慮詞序信息和一詞多義[37]。谷歌團隊Jacob Devlin等[38]提出一種BERT(Bidirectional Encoder Representation from Transformers)語言預處理模型來表征詞向量,能進一步增強詞向量模型的泛化能力,充分描述字符級、詞級、句子級甚至句間關系特征,更好地表征不同語境中的句法與語義信息。
b.關系抽取方法。
關系抽取旨在發(fā)現并建立兩個實體間的聯系,包括基于規(guī)則、共現、本體和統計機器學習的方法?;谝?guī)則的方法依靠領域專家定義的規(guī)則抽取關系[39];基于共現的方法認為如果各類實體在同一專利著錄項中共同出現,則認為實體間存在聯系[18];基于本體的方法將抽取到的新實體與本體中已有實體進行映射,并基于本體中的實體及其關系為新實體建立聯系[40]?;诮y計機器學習的方法分為無監(jiān)督、半監(jiān)督、有監(jiān)督的方法[41],其本質是分類問題,首先基于機器學習模型學習已有語料的特征,然后進行特定關系的匹配識別和抽取,適用于實體間關系類型具有不確定性的場景,常用于通用知識圖譜的關系抽取。
c.知識存儲及可視化技術。
KG有多種存儲方案,包括:基于Disk或Main Memory的原生數據庫、關系型數據庫、非關系型數據庫等。其中:非關系型數據庫中圖數據庫的存儲結構有利于發(fā)現實體之間的潛在關系,且提供了更有效的關系和網絡建模方法,應用廣泛。目前主流的圖數據庫有美國Neo Technology開發(fā)的 Neo4j 數據庫、微軟開發(fā)的 Graph Engine 數據庫、北京大學開發(fā)的Gstore數據庫[42]等。其中:Neo4j是一個原生的圖數據庫引擎,支持分布式,對Java平臺具有很好的兼容性,有利于后期的工程開發(fā)。
綜上,本文重點研究燃料電池領域PSD-KG的半自動化構建方法及創(chuàng)新應用場景。
PSD-KG半自動化構建主要包括4個步驟,①規(guī)劃PSD-KG的實體以及關系;②構建專利技術領域詞典,基于BERT-BiLSTM-CRF模型,識別語義實體,提高PSD-KG構建的自動化程度;③利用共現方法抽取實體間非語義關系,并利用詞嵌入方法進行語義關系計算;④利用Neo4j進行知識圖譜存儲和可視化,挖掘應用場景,流程圖如圖1所示。
構建BERT-BiLSTM-CRF模型進行語義實體識別,是實現PSD-KG半自動化構建的關鍵步驟。模型結構如圖2所示。
圖1 PSD-KG構建框架
圖2 BERT-BiLSTM-CRF模型結構
該模型分為3層,首先,標注語料經過BERT預訓練語言模型獲得相應的序列向量,然后,把序列向量輸入到BiLSTM層對上下文的語義特征進行建模,最后,利用CRF層對BiLSTM層的輸出結果進行解碼,得到一個預測標注序列,通過對序列中的各個實體進行提取分類,完成實體識別。
BERT是一種以雙向Transformer為特征編碼器的預訓練語言模型,Transformer是一種基于自注意力機制的深度神經網絡[43]。BERT利用Transformer學習文本中詞語之間的上下文關系,并利用關系調節(jié)權重提取文本的重要特征[44]。
專利摘要中的每個句子在領域詞典的基礎上,首先經過BIEO模式的自動化標注,然后經過WordPiece操作[45],將單句分割成更小的單元以壓縮詞表大小,處理未登錄詞,并在句子首尾分別嵌入[CLS]和[SEP]標記句子的開始和結束。經過上述操作的句子被轉化成詞序列W=(w1,w2,…,wn-1,wn) (n為專利摘要中詞的個數),然后經過Token Embedding、Segment Embedding和Position Embedding進行詞、句子、位置嵌入后得到初始的輸入向量V=(v1,v2,…,vn-1,vn),并通過Transformer 進行特征提取,得到含有豐富語義特征的序列向量X=(x1,x2,…,xn-1,xn)。BERT模型的結構如圖3所示。
圖3 BERT模型結構
圖4 BiLSTM模型結構
BiLSTM對序列中各個標簽進行獨立分類,無法處理相鄰標簽間的依賴關系,可能出現實體標簽混淆問題。CRF同時考慮輸入的當前狀態(tài)特征和各個標簽類別轉移特征[53],通過鄰近標簽的關系獲得一個最優(yōu)的預測序列來彌補BiLSTM的缺點[54-55],實現全局最優(yōu)解。因此,在BERT-BiLSTM之后引入CRF對序列上下文標簽關系進行建模。
CRF層引入轉移概率矩陣A約束輸出標簽,Aij代表標簽i轉移為j的概率,標簽得分矩陣L作為狀態(tài)概率矩陣,對于詞序列W=(w1,w2,…,wn),預測的標簽序列Y=(y1,y2,…,yn) 的得分為轉移概率和狀態(tài)概率之和,公式如下[34]:
(1)
利用softmax函數對所有可能的序列路徑進行歸一化,得到標簽序列Y產生的概率:
(2)
為簡便運算,兩邊取對數得到標簽序列Y的似然函數:
(3)
查閱燃料電池相關資料包括(《GB/T 20042.1-2017質子交換膜燃料電池第1部分:術語Proton exchange membrane fuel cell - Part 1: Terminology》、《GB/T 28816-2012燃料電池術語 Fuel cell - Terminology》、《GB/T 24548-2009 燃料電池電動汽車術語 Fuel cell electric vehicles - Terminology》)等,人工篩選領域詞匯,構建專利檢索表達式?;诘聹靥財祿鞕z索專利信息,并通過IncoPat數據庫映射并采集專利轉讓及許可等供需信息。由于IncoPat中僅包括中國和美國專利的轉讓信息,因此篩選公開國別為中國、美國的有效發(fā)明授權專利,共16040件進行實證研究。
為保證PSD-KG構建的準確性和完整性,檢驗數據檢索的查準率和查全率。
(4)
“檢索到的領域相關專利數量”的確定方法為:人工閱讀樣本專利的標題和摘要,若描述內容為燃料電池領域的技術或功效,則屬于領域相關專利,否則為無關專利。通過多次從檢索結果中隨機抽取其中的1%作為數據子集[56],經人工判斷,平均查準率為96.38 %。多次檢索結果,查準率及具體判斷示例如表2、表3所示。
表2 多次檢索結果及查準率
表3 領域相關/無關專利判定示例
(5)
首先,選擇專利申請數量排名前5的申請人作為查全率的抽樣對象[56];然后,分別在IncoPat和本文專利庫中(16040件)檢索每個抽樣對象在燃料電池領域申請的專利,其中:在IncoPat的檢索結果為“母樣本”,本文專利庫的檢索結果與母樣本的交集為“子樣本”;最后計算所有抽樣對象的查全率的平均值,得出查全率為96.31%。表4為抽樣對象情況。
表4 抽樣對象申請專利及查全率
借鑒已有P-KG中包括的實體及關系[7-8,20],并擴展供需實體及關系,規(guī)劃本文PSD-KG中包括的實體及關系。本文PSD-KG共包括12類實體,14類關系,具體如表5所示。
表5 PSD-KG的實體及關系
a.語義實體識別。
基于BERT-BiLSTM-CRF 模型進行技術點及技術功效識別,步驟包括:專利領域詞典構建、語料半自動化標注、語義實體識別、模型評價。
第1步,專利領域詞典構建:首先,對國家標準《GB/T 28816-2012燃料電池術語 Fuel cell - Terminology》中的術語進行總結,獲得105個技術術語作為技術點種子詞典。然后,對IncoPat數據庫中“技術功效TRIZ參數”和“技術功效1級”字段中包含的技術功效詞進行人工篩選和分類,構造技術功效種子詞典,共224個功效術語。由于種子詞典中包含的詞匯多為基礎術語,如:catalyst、cost,難以覆蓋復合技術點和技術功效詞,如:alloy catalyst、graphene catalyst、processing cost、manufacturing cost。利用StanfordNLP工具對專利摘要進行依存句法分析,獲取依存關系為“compound”的詞構建復合術語表。最后,在復合術語表中篩選包含技術點、技術功效種子詞的復合名詞,與技術點、技術功效種子詞進行合并,得到18155個技術點和14931個技術功效詞匯。
第2步,語料半自動化標注:目前,對于特定領域的實體識別,多通過人工標注數據[4,55],耗費大量人力和時間。本文參考Wang等[57]的研究,基于專利領域詞典實現半自動化數據標注。選擇BIEO標注模式[36],并以“Technology”和“Effect”區(qū)分技術點和技術功效兩類語義實體。具體為:對專利摘要進行分詞,遍歷技術點和技術功效詞典,將匹配到的詞視為實體,按照表5的模式標注,不屬于實體的詞標記為O,樣例見表6。
表6 數據標注模式及示例
第3步,語義實體識別準確性:由于在訓練集和測試集劃分過程中,如果訓練集的比例過大,可能會導致訓練出的模型更接近于用總樣本訓練出的模型;比例較小,結果又會不夠準確[58]。于是本文按照留出法以研究常用[59]的8∶2比例將16 040個專利數據隨機劃分為訓練集和測試集。其中:基于領域詞典自動標注訓練集,測試集由人工標注。針對自動標注的訓練集,提出BERT-BiLSTM-CRF模型進行實體識別,采用準確率P、召回率R、F1指數[40]評價模型精度,并與CRF和BiLSTM-CRF模型對比。P=識別正確的實體數/識別的實體總數,R=識別正確的實體數/文本中包含的實體總數,F1=(2×P×R)/(P+R)。結果如表7所示。
表7 實體識別結果評價與對比
基于上表得出:BERT-BiLSTM-CRF模型的實體識別精度最優(yōu)。
b.非語義實體識別。
組織類型實體識別:構建組織分類的關鍵詞表,將組織劃分為6類包括:企業(yè)、高校、科研機構、政府機構、個人、金融機構,利用Python實現類型映射。
組織所在城市識別:利用JavaScript語言調用百度地圖API和谷歌地圖API,通過模糊查詢和人工檢索的方式檢索出組織所在的城市信息。
表5中其他非語義實體識別均通過“正則表達式+爬蟲技術”從結構化數據中獲取。
綜上,識別12類實體的數量如表8所示。
利用共現的方法抽取實體間的非語義關系,并利用詞嵌入方法進行語義關系計算[60],抽取14類關系的數量如表8所示。
表8 實體及關系數量
5PSD-KG應用
總結已有研究中P-KG的應用場景,并與本文構建的PSD-KG可實現的應用場景進行對比,結果見表9。其中P和O分別表示可實現和不可實現的應用。
表9 傳統P-KG與PSD-KG的應用場景對比
下面將從宏觀-中觀-微觀等多維度挖掘PSD-KG的新應用場景。
圖5 技術供給熱點演化圖
圖6 技術需求熱點演化圖
從圖5、6發(fā)現:第一,專利技術供給和需求熱點具有一致性,按照上述熱點篩選規(guī)則,圖6中15個技術需求熱點在圖5的供給圖中出現了14個,說明在燃料電池領域的專利市場中,篩選出屬于技術需求熱點的技術點,同時也屬于技術供給熱點的程度較高。第二,根據供需熱點演化趨勢,將技術點分為3類:持續(xù)熱門技術點、新興熱門技術點和潛在熱點技術。
持續(xù)熱門技術點:指供需兩圖中長期處于高熱度的技術點,也代表燃料電池領域的基礎性核心技術,包括:Anode Catalyst、Cathode Catalyst、Catalyst、Membrane Electrode、Membrane Electrode Assembly等。其中:催化劑(Catalyst)是影響燃料電池效率的關鍵技術,能夠通過鉑納米粒子催化氧化還原反應。催化劑中的關鍵元素鉑是一種稀有資源,其提取成本占燃料電池制造成本的30%至40%[64]。因此,降低催化劑的鉑含量或提高鉑的重復利用率,一直是科研機構和企業(yè)關注的重點問題[65]。通過碳基、鈀合金基等進行催化來擺脫催化劑對鉑基依賴的相關研究,也一直是當前燃料電池領域尋求突破的重要方向[66]。但非鉑基物質如何為氧還原反應提供出高活性、低成本的催化劑仍處在探索階段[67]。膜電極組件(Membrane Electrode Assembly,MEA)作為質子交換膜燃料電池(Proton Exchange Membrane Fuel Cell,PEMFC)的重要組件,直接決定PEMFC的性能、壽命和成本[68]。制備高功率密度、長壽命、低成本的MEA,對PEMFC大規(guī)模商業(yè)化發(fā)展來說尤為關鍵。綜上,上述兩類技術點是燃料電池的關鍵性和基礎性的技術和組件,屬于持續(xù)熱門的技術點。
新興熱門技術點:指在某時間點后供給與需求熱度快速上升的技術點,代表燃料電池領域的熱點技術,例如:Fuel Cell Vehicle(燃料電池汽車)。雖然早在2000年,燃料電池汽車就開始示范運行和技術攻關研究[69-70],但直到2008年正式發(fā)布了燃料電池汽車的概念車后,該領域才開始迅速發(fā)展[71]。伴隨基礎設施(如加氫站)的建設,以及2015年豐田Mirai和Clarity的發(fā)售和租賃,燃料電池汽車正式進入市場[72]。該領域的相關技術也得到快速發(fā)展,如對燃料電池汽車的控制系統、能量管理等成為熱門研究領域[73]。
潛在熱點技術:指技術需求熱度長期高于供給熱度的技術點。最新研究表明,增材制造(Additive Manufacturing)是一種快速成型技術,具有縮短制造時間、提高原材料利用率和降低制備成本低等優(yōu)勢,增材制造不銹鋼雙極板(Additive Manufactured Stainless Steel Bipolar Plate,AMSSBP)是經濟高效生產PEMFC的方式之一[74]。2015年增材制造技術快速發(fā)展,帶動雙極板的需求增長快速,供給略顯不足,因此,基于增材制造技術制造的AMSSBP或將成為未來研究的潛在熱點。
基于PSD-KG進行技術交易網絡挖掘是又一特色。首先,統計2000-2019年參與專利技術交易網絡的賣方、買方數量以及交易頻次,如圖7所示,揭示該領域專利交易網絡規(guī)模的演化趨勢及市場交易的活躍度,發(fā)現:在買方和賣方數量穩(wěn)定的基礎上,買賣頻次在2009年和2014年出現兩個高峰,進一步研究發(fā)現,2009年美國海軍研究實驗室(NRL)的離子虎(Ion Tiger)試飛成功,其關鍵技術是利用氫為動力的燃料電池;2014年ix35 FCEV汽車投入量產,標志著氫燃料電池車在美進入商業(yè)發(fā)展階段,這或許是推動燃料電池領域專利交易活躍度的重要因素之一。此外,輸入技術點,可以繪制各年的交易網絡圖,研究包括某技術點的專利技術供需交易的演化趨勢,例如:輸入技術點“Cathode Electrode”,圖8、9展示了包含該技術點并且發(fā)生交易的專利以及買賣雙方,相比2018,2019年的交易活躍度較弱。
圖7 2000-2019年專利技術交易網絡規(guī)模
圖8 2018年技術供需交易圖
圖9 2019年技術供需交易圖
已有研究中構建的P-KG在專利信息檢索方面應用豐富[4,8-19],為專利導航在內的諸多專利服務提供決策支持。本文構建的PSD-KG,除了能夠完成P-KG的檢索功能之外,還可實現多維度的供需信息檢索。例如:輸入“技術點”,可檢索出包含該技術點的專利的供給組織或需求組織及組織所屬城市,以辨識賣方和買方及區(qū)域分布,幫助用戶尋找潛在交易及合作伙伴;輸入“組織名稱”,可檢索該組織轉出、轉入專利以及交易伙伴等,識別組織的技術需求或技術優(yōu)勢;輸入“時間”和“技術點”,可檢索該時間周期內,在某技術點的活躍買方和賣方以及區(qū)域分布等,識別城市的技術需求、技術優(yōu)勢以及關鍵組織等,為政府政策制定提供支持。舉例如下:輸入技術點“Cathode Electrode”,檢索2000-2019年其技術供方、需方及所在城市如圖10和11所示。
圖1 0 供方信息檢索結果
本文提出了PSD-KG半自動化構建的方法,以燃料電池領域為例構建圖譜,并與已有研究中圖譜構建的方法以及應用場景對比,驗證了PSD-KG的優(yōu)勢。主要結論如下。
圖1 1 需方信息檢索結果
第一,在傳統P-KG基礎上,通過多個數據庫的信息采集與融合,拓展專利交易方面的實體及關系,規(guī)劃了由12類實體和14類關系組成的PSD-KG,提出面向供需信息挖掘與交易推薦的專利知識圖譜構建思路。
第二,建立專利領域詞典以實現語料自動化標注,并提出了基于BERT-BiLSTM-CRF模型識別語料庫中的專利語義實體,彌補了傳統P-KG構建中語義實體識別時規(guī)則覆蓋不全面、過度依賴專家知識等局限。通過與CRF和BiLSTM-CRF兩類方法對比,驗證了基于BERT-BiLSTM-CRF模型的語義實體識別精度最高(均高于85%)。同時,通過語料自動化標注增強了圖譜構建的半自動化水平。
第三,構建燃料電池領域的PSD-KG,從宏觀、中觀、微觀多維度挖掘圖譜的新應用場景,其中,基于技術供需熱點識別及演化,識別出三類技術熱點,包括:持續(xù)熱門技術點、新興熱門技術點和潛在熱點技術;同時,在交易網絡分析、供需信息檢索等方面挖掘新應用場景,拓展了專利圖譜的應用空間,為專利推薦和交易推薦提供知識庫。
后續(xù)研究將聚焦燃料電池領域PSD-KG,探索基于路徑和基于圖結構的專利及交易伙伴推薦算法以及應用研究。