張 彪 吳 紅 高道斌 李劍飛 崔 哲
(山東理工大學信息管理研究院 淄博 255049)
高校是國家創(chuàng)新體系的重要組成部分,承擔著突破原創(chuàng)性基礎研究、攻克關鍵核心技術、破解創(chuàng)新發(fā)展難題的重任,每年有大量的科技成果產(chǎn)出,且多以專利的形式存在,專利轉移是高校技術創(chuàng)新成果轉化為現(xiàn)實生產(chǎn)力的主要途徑。然而現(xiàn)實中,高校專利與市場經(jīng)濟的融合并不理想,2020年專利產(chǎn)業(yè)化率僅為3%[1],遠低于美國等西方發(fā)達國家,科研資源浪費嚴重。高校專利只有落在產(chǎn)業(yè)上,才能真正發(fā)揮其價值。近年來,我國為促進高校專利轉移,已經(jīng)相繼推出眾多法律政策,如教科技〔2020〕1號文件《提升高等學校專利質量促進轉化運用的若干意見》就明確指出,要樹立高校專利等科技成果只有轉移才能實現(xiàn)創(chuàng)新價值、不轉移是最大損失的理念;《知識產(chǎn)權強國建設綱要(2021—2035年)》明確指出,要打通知識產(chǎn)權創(chuàng)造、運用、保護、管理和服務全鏈條,加大創(chuàng)新成效轉化力度。由于不是所有高校專利都具有轉移潛力,所以如何快速而準確地從高校專利中識別出具有轉移潛力的技術成果,就成為高校合理進行專利運營、推動科技成果與市場對接迫切解決的嚴峻問題。
目前國內(nèi)外學者就如何識別可轉移專利已經(jīng)進行了廣泛研究,取得了豐富成果。雖然成果的稱謂有所差異,如潛在技術轉移專利識別、專利技術轉移價值評估等,但就其目的而言大同小異,研究內(nèi)容主要分為指標評價方法和專利分析方法[2]。
此類研究多是在選取評估指標的基礎上,通過定量分析或機器學習模型進行識別。a.定量分析。Marco等[3]提出可以通過專利的獨立權利要求數(shù)量及其字數(shù)判斷專利價值,專利權力范圍越大,其轉移的可能性越高。Zhang等[4]采用信息熵對發(fā)明人數(shù)量、IPC數(shù)量等指標進行加權,并使用協(xié)同過濾技術排除創(chuàng)造性低的專利,進而識別可轉移專利。李振亞等[5]選取科技文獻引用數(shù)、專利引證量、訴訟次數(shù)等評估指標,通過專家討論和AHP等方法對指標賦權、計算專利綜合價值,進而篩選可轉移專利。b.機器學習模型。Kim[6]選取了相似專利數(shù)、簡單同族數(shù)量、權利人專利歷史被引數(shù)、權利人專利歷史轉讓數(shù)等指標,使用隨機森林、邏輯回歸等方法構建了可轉移專利識別模型。武玉英等[7]分別構建了用于專利可轉移性評價的說明書頁數(shù)、申請人數(shù)量等內(nèi)部指標和專利權人類型、專利權人擁有的IPC個數(shù)等外部指標,結合高階神經(jīng)元將深度神經(jīng)網(wǎng)絡方法應用于可轉移專利識別。冉從敬等[8]利用LDA主題模型對專利文本進行聚類,將專利主題融入專利評估指標,利用AdaBoost算法構建了高校可轉移專利識別模型。上述研究選取的指標較為多樣,但數(shù)據(jù)多是源自專利文獻自身,沒有考慮技術供給方、行業(yè)環(huán)境等其他專利轉移影響因素。另外,雖有學者使用技術主題代表專利文本語義特征,并基于機器學習構建了可轉移專利識別模型,但技術主題的粗粒度降低了語義特征的完整性,更遑論專利文本蘊含的深層次語義特征,識別結果的準確度仍有待于進一步提高。
該類研究主要以引文分析法、社會網(wǎng)絡分析法、TRIZ分析法為主[9]。a.引文分析法。Park等[10]基于美國專利商標局的韓國航空產(chǎn)業(yè)專利數(shù)據(jù),從知識流動和流出的視角出發(fā),使用專利引文對相關指標進行量化測度專利轉移的可能性。楊冠燦等[11]基于矩陣轉化方法對直接引用、間接引用、耦合、共引4種單一專利引用關系進行合并、重組,篩選高價值專利。b.社會網(wǎng)絡分析法。劉雯等[12]基于中國高校專利出售數(shù)據(jù)和合作專利信息,通過社會網(wǎng)絡節(jié)點、密度、最大連通度等變量探究了高校科研人的社會網(wǎng)絡對專利轉移的影響。崔斌等[13]基于科研院所的專利數(shù)據(jù)構造了合作網(wǎng)絡,分析了校企合作對專利轉移的主要影響因素及其作用路徑。c.TRIZ分析法。Park等[14]提出采用TRIZ演化趨勢作為專利價值評估的標準,并分析專利文本中的SAO結構確定可轉移專利。詹文青等[15]基于TRIZ方法標注專利文獻和技術需求的技術問題、技術功能、技術效果三種技術特征詞組,計算專利文獻和技術需求的相似性,根據(jù)相似度排序識別潛在的可轉移專利。上述研究使用方法較為多樣,但仍存在以下不足:引文分析法側重對已發(fā)生轉移的回顧總結,預見性不強;社會網(wǎng)絡分析法多是就高校專利轉移的影響因素進行研究,無法準確測度專利的具體轉移潛力;TRIZ分析法采用文本挖掘技術,從專利文獻內(nèi)容與市場需求的相似度出發(fā)識別可轉移專利,但識別過于理想簡單,未能考慮到專利轉移的復雜性,研究還有待進一步完善。
基于此,本研究擬提出一種基于特征融合的高??赊D移專利識別方法,旨在通過改進機器學習訓練的特征質量從而提高識別準確率。為保證專利文本信息的完整性,研究采用Word2vec自然語言處理技術細粒度抽取專利文本的內(nèi)部語義特征,并且基于多源數(shù)據(jù)選取外圍評估指標,將內(nèi)部語義特征和外圍評估指標進行融合處理,篩除冗余信息,創(chuàng)建內(nèi)容全面、綜合的新特征,在此基礎上構建高??赊D移專利識別模型,以期更全面、客觀、準確地識別高??赊D移專利。
專利轉移作為將發(fā)明引入市場并作用于經(jīng)濟增長的商業(yè)行為,涉及需求、開發(fā)、推廣等眾多要素。能否成功轉移除了技術內(nèi)容自身(內(nèi)部語義特征),還要受到專利質量、高校研發(fā)實力和社會信譽等外圍特征的影響。一方面,《專利法》規(guī)定專利說明書要對技術方案作出清楚完整的描述,與專利摘要、權利要求書等文本內(nèi)容相比,專利說明書包括技術領域、背景技術、發(fā)明內(nèi)容、具體實施方式等內(nèi)容,具有更豐富的語義信息,通過自然語言處理技術深層次挖掘得到的語義特征,是判斷專利能否轉移的關鍵內(nèi)部特征。另一方面,高校的研發(fā)實力及社會信譽(如專利產(chǎn)出數(shù)量、科學文獻數(shù)量、基金數(shù)量)、存在于專利著錄項目中的多維信息、領域企業(yè)數(shù)據(jù)、行業(yè)發(fā)展前景等,都是判斷專利能否轉移的重要外圍信息,它們能夠從不同維度、多個視角對專利的轉移潛力進行判斷[16],是本研究用于展示外圍特征的重要評估指標。將兩者進行融合與集成,可以在增加信息量的同時排除各類信息帶來的不確定性影響,篩除冗余、消除數(shù)據(jù)噪音,生成內(nèi)容全面、綜合的新特征[17],更有利于提高模型訓練的特征質量,實現(xiàn)對高校專利轉移潛力進行全方位科學判斷。
特征融合的前提是數(shù)據(jù)類型的統(tǒng)一,自然語言處理中的Word2Vec可以將文本型的專利語義信息轉化為數(shù)值型的向量來表征語義特征,這為特征融合提供了必要的技術支持。因此,本研究的設計如下:首先,基于Word2Vec進行專利文本內(nèi)部語義特征的提?。黄浯?,綜合考慮各類信息從多個數(shù)據(jù)源獲取外圍評估指標;然后,借助主成分分析方法將內(nèi)外特征降維融合重組,提取數(shù)據(jù)的主要特征分量,得到凝練的新特征;最后,借助機器學習構建可轉移專利識別模型驗證本方法的有效性。
a.詞語向量化處理。獲取專利文本語義特征,首先需要考慮詞語在計算機中的表示。在自然語言處理中,詞語的表示已經(jīng)從最初的離散表示發(fā)展為常見的分布式表示,Word2Vec[18]是常用的單詞分布式表示模型,其思想是將單詞從原先所屬的空間嵌入到一個新的多維空間中,使得語義上相似的單詞在該空間內(nèi)呈現(xiàn)較近的距離。通過學習文本可以把語義信息的處理簡化為多維向量空間中的向量運算,相比于One-hot等高維、稀疏的表示法,Word2Vec訓練出的詞向量是低維、稠密的,而且利用詞的上下文信息,語義信息更加豐富,解決了向量稀疏和語義聯(lián)系兩個問題。本研究在實際操作中使用Li[19]等在Github公開的300維中文預訓練詞向量模型進行專利文本的詞語轉化,該模型基于中文維基百科語料進行訓練,能夠滿足專利文本中各種詞匯的向量化表示。
b.語義特征提取。在詞語向量化的基礎上進行語義特征的提取,本研究采用Arora等[20]提出的SIF(smooth inverse frequency,平滑倒詞頻)加權平均詞向量,該方法與平均詞向量、TF-IDF加權平均詞向量等相比能夠在文本表示上取得更優(yōu)的效果,計算過程分為兩步:
第1步,通過公式(1)(2)對句子中的所有詞向量進行加權求和取平均得到句向量vs。
(1)
(2)
式中,a是參數(shù),本研究設置為0.001,p(w)是單詞在文本中出現(xiàn)的頻率,對于詞頻率越小的詞語w,SIF權值bw越大,即頻率越低的詞語在當前文本的重要性越大,n代表文本s中的詞語數(shù)。
第2步,計算vs向量矩陣的第一個主成分u,用每個句向量vs減去其在u上的投影即為最終的專利文本內(nèi)部語義特征。
高校專利能否轉移受多種外圍特征的影響,具體可以從專利著錄項目、高校研發(fā)實力、區(qū)域行業(yè)發(fā)展狀況三個方面得以體現(xiàn)。從專利著錄項目選取的專利文獻特征能夠在一定程度上表征專利質量[21],專利質量越高,其轉移的潛力越大;研發(fā)實力強的高校其專利質量通常會更高,更容易獲得企業(yè)的青睞;就具體行業(yè)而言,某一區(qū)域的行業(yè)發(fā)展越成熟,意味著該區(qū)域在行業(yè)內(nèi)整體技術研發(fā)水平越高,區(qū)域內(nèi)與該行業(yè)相關的高校專利更容易獲得企業(yè)的認可。對于專利著錄項目,指標選取參考《專利價值分析指標體系操作手冊》及文獻[9],注重指標的易獲取性和可量化性,排除被引數(shù)量、存活壽命等時滯性指標,數(shù)據(jù)源自智慧芽。對于高校研發(fā)實力,用高校在領域內(nèi)的基金數(shù)目、基金金額、期刊文獻數(shù)量表征,數(shù)據(jù)源自LetPub國家自然科學基金數(shù)據(jù)庫和中國知網(wǎng)期刊數(shù)據(jù)庫。對于區(qū)域行業(yè)成熟度,用地區(qū)產(chǎn)業(yè)競爭力指數(shù)和區(qū)域相關企業(yè)數(shù)量表征高校所在地的產(chǎn)業(yè)競爭力、技術市場化水平,數(shù)據(jù)來源于行業(yè)報告和天眼查企業(yè)查詢系統(tǒng)(具體見表1)。
特征融合的目的是將內(nèi)外特征進行壓縮、凝練,去除噪音,生成內(nèi)容豐富、質量優(yōu)異的新特征,從而提高模型的性能,在進行特征融合之前需要先對內(nèi)部語義特征與外圍評估指標的數(shù)據(jù)類型進行統(tǒng)一。研究采用300維的特征向量表示抽取的內(nèi)部語義特征;使用12維的特征向量表示每項專利的外圍評估指標,即[X11,X12,X13,X14,X15,X16,X17,X21,X22,X23,X31,X32]。
特征融合的常規(guī)做法是將所有特征向量拼接,但這樣會使得整個特征矩陣過于龐大、增加冗余信息對模型性能的干擾,而且不同的特征之間可能會存在某種相關性,導致后續(xù)構建模型消耗時間過長且難以獲得最優(yōu)的參數(shù),降低模型性能。主成分分析(Principal Component Analysis,PCA)是一種常用的降維融合方法[22],其目的是以最少的信息丟失將原始高位矩陣的多變量轉換為少數(shù)幾個綜合變量,從而將數(shù)據(jù)投射到一個低維空間,達到降低特征空間維度、獲取新特征的效果,實現(xiàn)提升特征質量的目的。本研究的特征融合架構如圖1所示,首先將內(nèi)部語義特征與外圍評估指標進行橫向拼接作為原始特征,然后通過PCA對原始特征進行降維融合處理,最終得到凝練、內(nèi)容全面的新特征。
表1 外圍評估指標
圖1 特征融合架構
設Xm×n是一個由m條專利數(shù)據(jù)和n個特征組成的矩陣,其中n=a+b,a代表內(nèi)部語義特征的維度,b代表外圍評估指標的數(shù)量,用PCA對矩陣Xm×n的降維融合計算過程可用如下步驟表示:
第1步,對矩陣Xm×n進行特征歸一化處理得到矩陣Am×n,計算協(xié)方差矩陣Rn×n;
第2步,求出協(xié)方差矩陣Rn×n的特征向量e1,e2,…,en和對應的特征值λ1,λ2,…,λn,將特征值從大到小排序;
第3步,根據(jù)特征值的大小計算協(xié)方差矩陣第p列的方差貢獻率θp和前p列矩陣的累計方差貢獻率Τp,計算方法分別為公式(3)(4);
(3)
(4)
第4步,根據(jù)累計方差貢獻率Τp的大小確定降維矩陣的維數(shù)r,其中r≤n;
第5步,將前r個特征值對應的特征向量作為投影矩陣Sn×r,最后將需要降維的矩陣Xm×n與Sn×r相乘即可得到降維后的矩陣Zm×r,即由m條專利數(shù)據(jù)和r個新特征組成的矩陣。
本研究基于機器學習構建可轉移專利識別模型。機器學習是人工智能的關鍵技術,通過對當前數(shù)據(jù)的特征進行學習,尋找出最優(yōu)的目標函數(shù)用以預測數(shù)據(jù)的類別或趨勢,可以提升解決問題的效率。在眾多機器學習算法中,人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,ANN)[23]優(yōu)秀的性能受到普遍重視,它是對人腦神經(jīng)網(wǎng)絡若干基本特性的抽象和模擬,學習過程包括信號的正向傳播和誤差的反向傳播兩個過程,具有較強的容錯、非線性映射能力。因此,本研究使用ANN驗證所提方法的有效性?;谌斯ど窠?jīng)網(wǎng)絡構建的可轉移專利識別模型架構如圖2所示,包括輸入層、若干個隱藏層、輸出層,輸入為特征融合處理后的新特征[Z1,Z2,… ,Zr],輸出層神經(jīng)元個數(shù)為2,即專利可轉移與專利難以轉移兩種情況。
圖2 可轉移專利識別模型架構圖
采用準確率Accuracy、查準率Precision、查全率Recall和調和平均值F1對模型的性能進行評估,計算方法如公式(5)—公式(8)所示。式中M表示測試集中預測正確的數(shù)目,N表示測試集總數(shù)目,TP表示測試集中實際發(fā)生轉移且被預測正確的數(shù)目,PN表示測試集中預測可能發(fā)生轉移的數(shù)目,TN表示測試集中實際發(fā)生轉移的數(shù)目。
(5)
(6)
(7)
(8)
本研究以石墨烯領域進行實證分析。以智慧芽數(shù)據(jù)庫中的中國發(fā)明專利和實用新型專利為專利數(shù)據(jù)源,以“TA:(石墨烯 OR graphene*) AND ANS:(大學 OR 學院)”為檢索式,檢索時間為2021年7月13日。剔除存在缺失信息的專利后共得到10 539項專利。以LetPub國家自然科學基金數(shù)據(jù)庫、中國知網(wǎng)期刊數(shù)據(jù)庫為高校研發(fā)實力信息源,通過爬蟲手段根據(jù)高校專利權人信息獲取高校在石墨烯領域的基金、期刊數(shù)據(jù);在天眼查企業(yè)查詢系統(tǒng)按照省份收集區(qū)域的企業(yè)數(shù)據(jù),在中國電子信息產(chǎn)業(yè)發(fā)展研究院和國家新材料資源共享平臺收集到《2020年中國石墨烯產(chǎn)業(yè)發(fā)展競爭力指數(shù)》報告。
3.2.1數(shù)據(jù)集劃分
對收集到的10 539項高校專利數(shù)據(jù)依據(jù)法律狀態(tài)和法律事件抽取模型構建所需要的數(shù)據(jù)集。類別一:發(fā)生過權力轉移或許可的專利1 008項,代表可轉移專利;類別二:失效且沒發(fā)生過權力專利或許可的專利2 040項,代表難以轉移的專利。為避免數(shù)據(jù)類別分布不平衡降低模型效果,對類別二的專利進行欠采樣,隨機去掉部分樣本,得到1 008項。將類別一和類別二的專利合并,按照7:3的比例隨機劃分模型構建的訓練集和測試集。
3.2.2特征提取
a.內(nèi)部語義特征抽取。
首先使用Python語言的jieba分詞工具包對專利說明書進行分詞、去停用詞等預處理操作,獲得以詞語為單位的文本信息;然后調用Gensim庫加載預訓練的詞向量,根據(jù)2.1的方法使用編程語言將每項專利的說明書轉化為一個300維的特征向量用以表征專利內(nèi)部語義特征。
b.外圍評估指標計算。
分別從專利著錄項目、高校研發(fā)實力、區(qū)域行業(yè)成熟度3個維度計算外圍評估指標。對于專利著錄項目的相關指標,可從專利文獻中直接計算得到X11~X17;對于高校研發(fā)實力的相關指標,先通過收集到的期刊、基金信息計算X21~X23,然后依據(jù)專利權人名稱、基金單位名稱、期刊第一作者單位名稱將X21~X23與各項專利對應;對于區(qū)域行業(yè)成熟度,先通過行業(yè)報告、企業(yè)信息計算X31~X32,然后根據(jù)智慧芽專利數(shù)據(jù)庫提供的專利權人地址確定專利所屬區(qū)域,將相關指標依據(jù)區(qū)域位置進行對應。最后統(tǒng)一將每項專利的外圍評估指標轉化為12維的特征向量。
3.2.3特征融合
將內(nèi)部語義特征和外圍評估指標橫向拼接后得到特征矩陣。在使用PCA算法進行降維融合之前需要進行KMO檢驗和Bartlett球形檢驗,將訓練集和測試集的數(shù)據(jù)分別導入到SPSS中,檢驗結果如表2所示。
表2 KMO檢驗和Bartlett球形檢驗結果
根據(jù)檢驗結果,訓練集和測試集的KMO檢驗系數(shù)都大于0.9,且Bartlett球形檢驗顯著性都小于0.05,非常適合做主成分分析。使用Python語言調用PCA算法對特征矩陣進行融合重組,計算累計方差貢獻率與特征數(shù)的關系,結果如圖3所示。
圖3 累計方差貢獻率-特征數(shù)目關系圖
使用Scikit-learn機器學習庫,基于人工神經(jīng)網(wǎng)絡(ANN)構建可轉移專利識別模型,在具體構建過程中,由于訓練集數(shù)據(jù)樣本較少,因此采用五折交叉驗證進行模型訓練,即將訓練集分成5份,輪流將其中4份作為訓練數(shù)據(jù),1份作為驗證數(shù)據(jù),進行試驗,最后求5次實驗的平均準確率評估模型的性能。為驗證融合后獲得的新特征以及由其構建的模型的有效性,研究將其與特征1和特征2進行對比,其中特征1是借鑒文獻[8]、以技術主題代表專利文本的語義信息,即在外圍評估指標的基礎上加上專利技術主題類別,并進行歸一化,特征2為歸一化的外圍評估指標。同時,使用現(xiàn)有研究常用的邏輯回歸(LR)、高斯樸素貝葉斯(GaussianNB)、支持向量機(SVM)3種機器學習算法與ANN的性能進行對比,驗證ANN在本研究中的性能優(yōu)異性。
基于新特征構建模型,首先需要確定降維融合最適合模型的特征數(shù),本研究在參數(shù)未調優(yōu)的情況下計算累計方差貢獻率對機器學習算法準確率的影響,選取使得測試集準確率最高的特征數(shù),經(jīng)計算得,基于ANN、LR、GaussianNB、SVM建模的最優(yōu)特征數(shù)分別為99、99、52、52,結合圖3可以看出,以上特征數(shù)分別能反映原始數(shù)據(jù)95%、95%、90%、90%的信息,在此基礎上進行模型的參數(shù)調優(yōu)?;谔卣?構建模型,首先需要采用LDA主題模型確定各項專利所屬的主題類別,為避免因使用的專利文本差異帶來的實驗誤差,此處與新特征保持一致,使用專利說明書進行主題建模,主題數(shù)目的確定參考圖4的困惑度變化曲線,可以看到當主題數(shù)目為21時曲線趨于平緩,因此最終主題數(shù)目定為21。
圖5 困惑度—主題數(shù)目變化
將新特征、特征1、特征2分別作為機器學習算法的輸入構建模型,各模型的最優(yōu)參數(shù)如表3所示。
表3 機器學習算法相關參數(shù)設置
以Accuracy值作為評估指標,對比使用新特征與使用特征1、特征2的模型性能,結果如圖5所示。新特征與特征1相比,ANN算法提升3.96%、LR算法提升3.465%、GaussinaNB算法提升2.228%、SVM算法提升3.713%,這說明本研究對專利文本語義特征的挖掘比現(xiàn)有的主題方法粒度更細,新特征能夠包含更多的語義信息;新特征與特征2相比,ANN算法提升9.158%、LR算法提升4.455%、GaussinaNB算法提升0.743%、SVM算法提升5.445%,這說明使用新特征會比常規(guī)僅使用外圍評估指標構建的模型分類性能更強,專利文本中的語義特征對識別可轉移專利具有不可忽視的重要作用。綜上,本方法能夠有效改進機器學習訓練的特征質量,具有很好的可行性和科學性。
圖5 特征融合對分類算法性能的影響
使用Precision、Recall、F1對使用新特征的模型進行評估,結果如表4所示。可以看出,基于人工神經(jīng)網(wǎng)絡構建的高??赊D移專利識別模型查準率、查全率、調和平均值全部為73.430%,相比于其他模型都能夠取得最優(yōu)的效果,能夠證明人工神經(jīng)網(wǎng)絡算法在本研究的有效性。
表4 各模型評估結果 %
高校在國家的創(chuàng)新驅動發(fā)展中發(fā)揮著重要的技術供給作用,準確識別高??赊D移專利,對于促進高??蒲信c市場對接具有積極意義。本研究為改進機器學習訓練的特征質量,提高識別結果的準確率,提出一種基于特征融合的高校可轉移專利識別方法。實證結果表明,本研究將專利內(nèi)部語義特征與外圍評估指標融合,生成內(nèi)容更為全面、綜合的新特征,能有效改進機器學習訓練的特征質量,可以從更深、更廣、更全面、綜合的角度挖掘專利轉移潛力,能夠精準、快速定位高校專利中具有轉移潛力的技術成果,提高了高??赊D移專利識別結果的準確性和科學性,為高??赊D移專利識別提供了新的研究思路。