李 穎,吳增源,陳 亮
(1.中國計(jì)量大學(xué) 經(jīng)濟(jì)與管理學(xué)院,浙江 杭州 310018;2.中國計(jì)量大學(xué) 光學(xué)與電子科技學(xué)院,浙江 杭州 310018)
核心技術(shù),是在某一技術(shù)領(lǐng)域中處于關(guān)鍵地位,對(duì)技術(shù)發(fā)展具有突出貢獻(xiàn)、對(duì)其他專利或者技術(shù)具有重大影響且具有較強(qiáng)創(chuàng)新性的技術(shù)[1]。專利是技術(shù)進(jìn)步與產(chǎn)業(yè)發(fā)展的重要載體[2],包含著技術(shù)發(fā)展等關(guān)鍵信息。通過對(duì)專利數(shù)據(jù)進(jìn)行分析、挖掘,可了解本領(lǐng)域的核心技術(shù)前沿和動(dòng)態(tài),對(duì)企業(yè)明確研發(fā)方向、實(shí)現(xiàn)技術(shù)突破進(jìn)而形成核心競(jìng)爭(zhēng)力至關(guān)重要。近十年,全球?qū)@暾?qǐng)量、授權(quán)量激增,2021年,全球?qū)@暾?qǐng)量持續(xù)突破300萬,國際專利數(shù)量同比增長3.5%,但對(duì)某領(lǐng)域的發(fā)展起到關(guān)鍵決定性作用的核心專利數(shù)量[3]卻只占極少數(shù)。因此,如何從海量專利數(shù)據(jù)中及時(shí)、準(zhǔn)確地識(shí)別出核心專利,成為理論界和實(shí)踐界關(guān)注的熱點(diǎn)問題。
Zhong等[4]使用社交網(wǎng)絡(luò)分析法和文本聚類識(shí)別光伏領(lǐng)域的技術(shù)演化路徑與前沿核心技術(shù)。Kwon等[5]利用技術(shù)積累、技術(shù)生命周期、技術(shù)保護(hù)范圍等專利指標(biāo),識(shí)別單一技術(shù)領(lǐng)域內(nèi)的核心技術(shù)。陳祥[6]以技術(shù)發(fā)展規(guī)律為基礎(chǔ),并基于專利技術(shù)知識(shí)擴(kuò)散視角構(gòu)建核心專利識(shí)別模型。但現(xiàn)有研究依然存在以下兩方面的不足:1)核心專利指標(biāo)體系構(gòu)建不夠完善,識(shí)別準(zhǔn)確率低;2)對(duì)于核心專利與非核心專利數(shù)據(jù)分布上的不平衡,現(xiàn)有模型處理效果欠佳、穩(wěn)定性較差。
指標(biāo)選取和識(shí)別方法是核心專利識(shí)別的兩個(gè)關(guān)鍵。指標(biāo)選取直接影響專利識(shí)別效果。羅立國[7]利用多元回歸模型驗(yàn)證引用專利數(shù)量、IPC分類號(hào)數(shù)量、同族專利數(shù)量、同族專利被引用數(shù)指標(biāo)與核心專利呈顯著正相關(guān)關(guān)系;王曰芬[8]通過行為效果和動(dòng)機(jī)目的兩大維度構(gòu)建指標(biāo)體系,證實(shí)引用專利數(shù)、科學(xué)關(guān)聯(lián)度以及權(quán)利要求數(shù)對(duì)人工智能領(lǐng)域核心專利識(shí)別結(jié)果影響較大;馬瑞敏[9]證實(shí)四年被引頻次、同族專利數(shù)、專利寬度、權(quán)利要求數(shù)和科學(xué)關(guān)聯(lián)度五個(gè)指標(biāo)構(gòu)建核心專利預(yù)測(cè)模型的合理性?,F(xiàn)有核心專利識(shí)別研究中,大部分學(xué)者只考慮專利本身的因素,很少有學(xué)者將專利發(fā)明人自身實(shí)力構(gòu)建到核心專利識(shí)別體系中。但最新研究表明專利所處的地位和影響力很大程度上取決于專利發(fā)明人。喬永忠[10]通過專利引證分析證明不同的主體人對(duì)專利質(zhì)量水平有顯著影響;筱雪[11]通過波音公司和空客集團(tuán)的專利分析證實(shí)專利發(fā)明人的技術(shù)實(shí)力越強(qiáng),越有可能創(chuàng)造出核心專利。
核心專利識(shí)別方法方面,主要包括專利指標(biāo)頻次統(tǒng)計(jì)法[12]、改進(jìn)的專家打分法[13]、專利共類分析法[14]等。專利指標(biāo)頻次統(tǒng)計(jì)法簡(jiǎn)單易行,但可靠性較差。選擇不同的專利指標(biāo)直接影響核心專利識(shí)別結(jié)果,其中專利被引頻次從技術(shù)影響力上反映出專利技術(shù)的重要性,被引次數(shù)高的專利往往影響力大,因此部分學(xué)者使用該指標(biāo)識(shí)別核心專利[15]。改進(jìn)的專家打分法不需要考慮較多制約因素的影響,在專家熟悉的領(lǐng)域內(nèi)識(shí)別準(zhǔn)確率較高,但是該方法的指標(biāo)體系構(gòu)建過程繁瑣,并且每項(xiàng)指標(biāo)的賦權(quán)過程受主觀因素影響大。專利共類分析法通過構(gòu)建專利IPC分類號(hào)的共現(xiàn)網(wǎng)絡(luò),并計(jì)算節(jié)點(diǎn)中心度,認(rèn)為中心度高的節(jié)點(diǎn)對(duì)應(yīng)的是核心IPC,核心IPC所對(duì)應(yīng)的技術(shù)領(lǐng)域的專利是核心專利。隨著人工智能技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)開始運(yùn)用到核心專利識(shí)別研究中,該方法充分考慮核心專利評(píng)價(jià)指標(biāo)的多元性,并且可以輕松處理大量專利數(shù)據(jù),適用性較強(qiáng)。但大部分學(xué)者直接使用機(jī)器學(xué)習(xí)進(jìn)行核心專利識(shí)別,然而準(zhǔn)確率較低,所以在實(shí)際的應(yīng)用中,需要進(jìn)一步對(duì)指標(biāo)的選取和算法進(jìn)行改進(jìn)。從本質(zhì)上看,核心專利識(shí)別是一個(gè)數(shù)據(jù)不平衡的二分類問題,即非核心專利與核心專利數(shù)量差異較大,直接使用機(jī)器學(xué)習(xí)算法進(jìn)行識(shí)別,難以克服數(shù)據(jù)不平衡導(dǎo)致的分類性能較差問題?,F(xiàn)有對(duì)于不平衡數(shù)據(jù)的處理方法主要有兩類:數(shù)據(jù)級(jí)處理和算法級(jí)處理。數(shù)據(jù)級(jí)處理方法主要是重采樣技術(shù),分為欠采樣和過采樣。欠采樣通過隨機(jī)地移除多數(shù)類樣本,使樣本分布均勻,但可能會(huì)丟失重要的信息,常見的欠采樣算法有剔除最近鄰法(edited nearest neighbor,ENN)[16]、Tomek links[17]等。過采樣技術(shù)通過隨機(jī)地復(fù)制少數(shù)類樣本使數(shù)據(jù)達(dá)到平衡,該技術(shù)的缺點(diǎn)是會(huì)使信息變得冗余,模型訓(xùn)練復(fù)雜度增大,容易造成過擬合問題,典型的隨機(jī)過采樣方法是合成少數(shù)類過采樣(synthetic minority oversampling,SMOTE)[18]。這兩種采樣方法比較容易操作、具有較好的適應(yīng)性,但是對(duì)數(shù)據(jù)的刪減與擴(kuò)充并未遵循原始數(shù)據(jù)的分布規(guī)律,可能導(dǎo)致有價(jià)值的信息丟失或模型過擬合問題。算法級(jí)處理是直接對(duì)算法進(jìn)行改進(jìn)。單一的分類算法在處理數(shù)據(jù)量大、較為復(fù)雜的問題時(shí),效果不理想。為了提升分類性能,學(xué)者對(duì)分類算法進(jìn)行改進(jìn),主要包括代價(jià)敏感學(xué)習(xí)[19]和集成學(xué)習(xí)[20]等。常用的集成學(xué)習(xí)算法[21]是將多個(gè)分類器組合起來形成一個(gè)強(qiáng)分類器,以提高分類性能。但是單獨(dú)使用集成算法容易導(dǎo)致過擬合問題,并且魯棒性不強(qiáng),算法訓(xùn)練時(shí)間長。因此,部分學(xué)者提出使用組合模型來提升分類性能,張陽等[22]將SMOTE過采樣算法分別與多種集成算法進(jìn)行組合,比較分析模型有效性;周杰英[23]將隨機(jī)森林和梯度提升樹進(jìn)行融合,解決網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù)不平衡的多分類問題;王文博[24]使用SMOTE-XGBoost組合模型對(duì)變壓器缺陷進(jìn)行預(yù)測(cè)。這些組合方法大多在數(shù)據(jù)級(jí)層面僅使用單一的采樣算法,可能導(dǎo)致數(shù)據(jù)存在噪聲樣本,訓(xùn)練效果不佳。
基于上述分析,科學(xué)合理地構(gòu)建核心專利指標(biāo)體系,設(shè)計(jì)適用的優(yōu)化算法對(duì)核心專利識(shí)別至關(guān)重要。首先,針對(duì)核心專利識(shí)別準(zhǔn)確率低的問題,本文在初選指標(biāo)體系的基礎(chǔ)上加上專利發(fā)明人的兩個(gè)指標(biāo):發(fā)明人技術(shù)實(shí)力和發(fā)明人技術(shù)影響力。其次,對(duì)于不平衡數(shù)據(jù)的處理,現(xiàn)有的算法在模型的穩(wěn)定性和準(zhǔn)確性上效果不佳,而本文使用自適應(yīng)綜合采樣算法(adaptive synthetic sampling, ADASYN)對(duì)原始數(shù)據(jù)進(jìn)行過采樣,平衡數(shù)據(jù)集;并對(duì)生成的新樣本使用局部離群因子(local outlier factor, LOF)算法進(jìn)行降噪處理,可克服簡(jiǎn)單的數(shù)據(jù)過采樣帶來的信息冗余和模型過擬合等問題;使用隨機(jī)森林(random forest, RF)集成算法進(jìn)行分類,構(gòu)建組合模型ADASYN-LOF-RF,并與其它模型進(jìn)行比較,驗(yàn)證其有效性。
ADASYN是He等[25]在2008年提出的一種過采樣算法。該算法使用密度分布參數(shù)作為分布標(biāo)準(zhǔn),根據(jù)不同的少數(shù)類樣本學(xué)習(xí)的難易程度,對(duì)其進(jìn)行加權(quán)分布,使較難學(xué)習(xí)的少數(shù)類樣本比較容易學(xué)習(xí)的少數(shù)類樣本生成更多的合成樣本。ADASYN算法從兩方面改善學(xué)習(xí):1)減少數(shù)據(jù)不平衡帶來的偏差;2)自適應(yīng)地將分類決策邊界向困難的樣本實(shí)例轉(zhuǎn)移。LOF是針對(duì)離群點(diǎn)的檢測(cè)方法。大部分離群點(diǎn)檢測(cè)都是借助密度、夾角和距離等來劃分超平面找出異常點(diǎn),這些方法都是從數(shù)據(jù)點(diǎn)相似度出發(fā)。不同于上述算法,LOF算法是從樣本點(diǎn)周圍的數(shù)據(jù)密度基礎(chǔ)出發(fā)的檢測(cè)算法,它給每個(gè)樣本點(diǎn)分配一個(gè)局部可達(dá)密度,通過可達(dá)密度的離群因子分析該樣本的離群程度,判斷其是否為離群點(diǎn)。LOF算法簡(jiǎn)單直觀,同時(shí)考慮數(shù)據(jù)集局部和全局的屬性。ADASYN-LOF算法先對(duì)原始數(shù)據(jù)進(jìn)行采樣,采樣后的數(shù)據(jù)必然存在噪聲樣本,再通過LOF進(jìn)行降噪處理,最終得到的平衡數(shù)據(jù)集更有助于進(jìn)行分類處理,具體訓(xùn)練過程如表1。
表1 ADASYN-LOF算法訓(xùn)練步驟
隨機(jī)森林是Breiman[26]在2001年提出的分類算法,它以決策樹為基分類器進(jìn)行集成。從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取n個(gè)樣本生成新的訓(xùn)練樣本集訓(xùn)練決策樹,再按以上步驟生成m棵決策樹組成隨機(jī)森林,數(shù)據(jù)分類結(jié)果按照分類樹投票分?jǐn)?shù)而定。隨機(jī)森林算法簡(jiǎn)單易實(shí)現(xiàn),在實(shí)際解決問題的時(shí)候展現(xiàn)出強(qiáng)大的性能,其基分類器的多樣性不僅來自樣本擾動(dòng),也來自屬性擾動(dòng),能夠提升集成分類器的泛化性能。隨機(jī)森林算法每次隨機(jī)選取樣本和特征,提高模型抗干擾能力,泛化能力也較強(qiáng),適用性較廣。隨機(jī)森林的主要算法步驟如表2。
表2 RF算法訓(xùn)練步驟
但是,單獨(dú)的隨機(jī)森林算法難以有效處理數(shù)據(jù)不平衡問題,會(huì)導(dǎo)致分類性能差?;诖?本文在數(shù)據(jù)級(jí)方面使用ADASYN-LOF算法使數(shù)據(jù)達(dá)到平衡,進(jìn)一步提升分類性能,并且與隨機(jī)森林構(gòu)成ADASYN-LOF-RF組合模型,可以提高預(yù)測(cè)結(jié)果的精確性能。該模型先通過ADASYN采樣算法增加少數(shù)類樣本的數(shù)量,使數(shù)據(jù)達(dá)到平衡。針對(duì)數(shù)據(jù)集中存在的噪聲樣本,使用LOF算法對(duì)新增加的合成樣本去噪,提升平衡數(shù)據(jù)集的質(zhì)量,提高其分類性能。最后使用隨機(jī)森林算法對(duì)最終數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)。該模型的主要流程如圖1。
圖1 ADASYN-LOF-RF算法流程圖
基于現(xiàn)有研究,本文構(gòu)建核心專利指標(biāo)體系,包含9個(gè)指標(biāo),如表3。具體指標(biāo)含義以及指標(biāo)與核心專利之間的關(guān)系解釋如下。
表3 專利指標(biāo)體系
同族專利數(shù)指同一專利在不同國家或地區(qū),以及地區(qū)間專利組織多次申請(qǐng)、多次公布或批準(zhǔn)的內(nèi)容相同或基本相同的一組專利文獻(xiàn)的數(shù)量。已有研究表明同族專利數(shù)與核心專利顯著正相關(guān)[9]。同族專利被引用數(shù)是指目標(biāo)專利和其同族專利總的被引用數(shù)量,該項(xiàng)指標(biāo)體現(xiàn)目標(biāo)專利在領(lǐng)域內(nèi)的核心程度,同時(shí)也體現(xiàn)該專利的技術(shù)影響力。同族專利被引用數(shù)越高,對(duì)其它專利技術(shù)的參考價(jià)值越大,越有可能是核心專利[7]??茖W(xué)關(guān)聯(lián)度指目標(biāo)專利引用非專利文獻(xiàn)的數(shù)量,馬瑞敏[9]發(fā)現(xiàn)科學(xué)關(guān)聯(lián)度指標(biāo)數(shù)值越大,專利的技術(shù)水平也越高,兩者呈現(xiàn)顯著正相關(guān)。專利引證數(shù)是目標(biāo)專利引用其它專利的數(shù)量,反映其技術(shù)關(guān)聯(lián)程度。專利引證數(shù)越高,就越有可能是核心專利[8]。技術(shù)覆蓋范圍一般用專利IPC分類號(hào)數(shù)量來衡量。Lerner[27]認(rèn)為IPC分類號(hào)數(shù)量越多,專利技術(shù)越為復(fù)雜,也就越有可能成為核心專利。權(quán)利要求數(shù)指一項(xiàng)專利要求的權(quán)利保護(hù)數(shù)量。專利要求數(shù)越多,專利的技術(shù)特征越多,技術(shù)創(chuàng)新能力越強(qiáng),專利也就越重要[28]。發(fā)明人數(shù)指目標(biāo)專利發(fā)明人數(shù)量的總和,它反映企業(yè)對(duì)該項(xiàng)專利技術(shù)的重視程度。一般而言,發(fā)明人數(shù)量越多,則技術(shù)研發(fā)成本投入越大,越有可能突破技術(shù)壁壘,成為核心技術(shù)[29]。發(fā)明人技術(shù)實(shí)力[30]使用專利發(fā)明人在該領(lǐng)域內(nèi)發(fā)布的專利數(shù)總和進(jìn)行衡量,該指標(biāo)反映專利發(fā)明人對(duì)該領(lǐng)域知識(shí)的了解程度。通常,專利發(fā)明人在該領(lǐng)域內(nèi)發(fā)布的專利數(shù)越多,該發(fā)明人的實(shí)力就越強(qiáng),其發(fā)布的專利也就越有可能成為核心專利。發(fā)明人技術(shù)影響力[30]一般用專利發(fā)明人在某一領(lǐng)域內(nèi)所發(fā)布專利的總被引次數(shù)來衡量。被引次數(shù)越多,技術(shù)影響力越大,越有可能成為核心專利。
本文使用的光伏專利數(shù)據(jù)來源于智慧芽專利檢索平臺(tái),根據(jù)光伏領(lǐng)域相關(guān)的專利信息并綜合使用專利檢索方法,確定專利檢索策略為:TAC:(photovoltaic* OR PV System* OR solar cell* OR Solar Batter* OR Solar module*),篩選出已授權(quán)的發(fā)明專利,并將搜索時(shí)間定為2012—2016年,共檢索到22 077條該領(lǐng)域相關(guān)的專利數(shù)據(jù)。
數(shù)據(jù)預(yù)處理主要是對(duì)各項(xiàng)專利指標(biāo)數(shù)據(jù)的處理。整理發(fā)現(xiàn)發(fā)明人數(shù)量和IPC分類號(hào)數(shù)量均存在缺失值,將缺失值刪除后得到21 802條數(shù)據(jù)。根據(jù)核心專利的定義并參考以往的實(shí)踐研究,將總被引次數(shù)排在前百分之十的專利標(biāo)記為核心專利[10],數(shù)據(jù)不平衡比1∶9。使用Python軟件,選擇imbalanced-learn中的ADASYN進(jìn)行數(shù)據(jù)采樣處理,擴(kuò)充后的數(shù)據(jù)集達(dá)到39 246條,再使用LOF對(duì)數(shù)據(jù)集進(jìn)行降噪處理,最終得到32 896條數(shù)據(jù)。
本研究所采用的數(shù)據(jù)劃分方法是十折交叉驗(yàn)證法,即將所有的數(shù)據(jù)劃分成十份數(shù)量相等、大小相似的互斥子集,再將所得到的數(shù)據(jù)中九份作為訓(xùn)練集,一份作為測(cè)試集,依次迭代,進(jìn)行十次訓(xùn)練和測(cè)試。從模型準(zhǔn)確性和模型穩(wěn)定性兩個(gè)方面,將組合模型與SVM、RF、ADASYN-RF三種分類算法來進(jìn)行比較。
2.4.1 評(píng)價(jià)指標(biāo)介紹
實(shí)驗(yàn)所預(yù)測(cè)的是一個(gè)二分類問題,因此采用準(zhǔn)確率(accuracy,A)、R召回率(Recall,R)和F1值三個(gè)評(píng)價(jià)指標(biāo)對(duì)模型效果進(jìn)行評(píng)價(jià)。對(duì)于二分類問題,可以將數(shù)據(jù)集中的真實(shí)類別和分類器預(yù)測(cè)的類別進(jìn)行組合,劃分成四類,用混淆矩陣來表示(如表4)。
表4 混淆矩陣
1)準(zhǔn)確率A
ACC表示的是分類正確的樣本數(shù)占樣本總數(shù)的比例,在本研究中即為分類正確的核心專利占總專利的比例。在數(shù)據(jù)不平衡的分類任務(wù)中,它是比較常用的性能度量指標(biāo)。由表中的二分類混淆矩陣可以將ACC表示為
(1)
2)召回率R
Recall召回率也叫查全率,表示原樣本集中有多少是被預(yù)測(cè)正確的。在本研究中表示被正確識(shí)別出來的核心專利占原樣本核心專利的比例。
(2)
3)F1值
F1值是精確率和召回率的調(diào)和平均數(shù),可以用混淆矩陣將F1得分表示為
(3)
2.4.2 模型準(zhǔn)確性分析
本研究使用的是十折交叉驗(yàn)證法,通過A均值、R均值和F1均值對(duì)ADASYN-LOF-RF進(jìn)行分類性能驗(yàn)證,并將該模型與SVM、RF、ADASYN-RF對(duì)比,進(jìn)行有效性驗(yàn)證。通過表5,可以看出每種算法的分類效果。
表5 模型準(zhǔn)確性均值
ADASYN-LOF-RF和SVM、RF、ADASYN-RF等算法分類性能的對(duì)比結(jié)果如表5。結(jié)果表明,RF的各項(xiàng)指標(biāo)明顯高于SVM,說明集成算法優(yōu)于單一算法。通過ADASYN-RF和RF的對(duì)比,可以看到雖然ADASYN-RF的ACC均值略低于RF,但總體性能明顯優(yōu)于RF,說明對(duì)數(shù)據(jù)采樣處理是有效的。在采樣基礎(chǔ)上進(jìn)行LOF降噪處理的ADASYN-LOF-RF模型要比直接使用采樣的ADASYN-RF更有效果,各項(xiàng)指標(biāo)得到明顯提升。
通過表5中A均值對(duì)比,可以看到ADASYN-LOF-RF的A均值為0.922 8,其它模型的ACC均值較低,說明該模型的區(qū)分能力較強(qiáng),能夠準(zhǔn)確識(shí)別出核心專利。對(duì)于R這一指標(biāo),SVM的R值僅為0.368 6,RF的R值為0.731 7,經(jīng)過采樣后的ADASYN-RF算法達(dá)到0.974 4,而ADASYN-LOF-RF的Recall為0.980 4,說明該模型能夠識(shí)別出更多的核心專利。SVM的F1均值為0.486 2,RF的F1均值為0.779 7,ADASYN-RF的F1均值為0.918 9,經(jīng)過降噪后的ADASYN-LOF-RF模型的F1均值達(dá)到0.931 5,表明該模型整體性能優(yōu)于其它模型。
綜上所述,ADASYN-LOF-RF模型的A均值、R均值和F1均值均優(yōu)于其它幾個(gè)模型,這說明該模型在核心專利識(shí)別時(shí)具有更高的準(zhǔn)確性。
2.4.3 模型穩(wěn)定性分析
模型預(yù)測(cè)結(jié)果的波動(dòng)程度也是評(píng)價(jià)模型性能的重要指標(biāo)。本研究使用十折交叉驗(yàn)證法,直接通過十次測(cè)試結(jié)果計(jì)算標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差越小,說明模型越穩(wěn)定。通過表6可以看到ADASYN-LOF-RF的標(biāo)準(zhǔn)差值最小,說明該模型識(shí)別性能最穩(wěn)定。同時(shí)我們也可以看出標(biāo)準(zhǔn)差值中SVM>RF>ADASYN-RF>ADASYN-LOF-RF,說明單一算法穩(wěn)定性最差;對(duì)數(shù)據(jù)進(jìn)行采樣處理后的ADASYN-RF模型穩(wěn)定性要優(yōu)于單獨(dú)使用集成算法;在采樣基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行降噪處理的ADASYN-LOF-RF模型要比ADASYN-RF更穩(wěn)定。
表6 模型穩(wěn)定性
綜合以上分析,本文提出的模型不僅在A、R、F1值上都優(yōu)于其它分類模型,具有較高的準(zhǔn)確性,并且在模型穩(wěn)定性上,波動(dòng)程度小,穩(wěn)定性更強(qiáng)。因此,ADASYN-LOF-RF在核心專利的識(shí)別中更具有優(yōu)勢(shì)。
通過隨機(jī)森林算法,我們可以直接導(dǎo)出所選取的指標(biāo)相對(duì)于核心專利的重要性程度,如圖2,常見的技術(shù)覆蓋范圍、發(fā)明人數(shù)量、權(quán)利要求數(shù)量等指標(biāo)與核心專利的關(guān)聯(lián)程度不強(qiáng),而本研究中新加入的發(fā)明人技術(shù)實(shí)力和發(fā)明人技術(shù)影響力這兩個(gè)指標(biāo)排序比較靠前,這也進(jìn)一步驗(yàn)證新加入指標(biāo)的合理性和有效性。
圖2 指標(biāo)重要性排序
如何從海量專利中識(shí)別出核心專利,是企業(yè)開展技術(shù)研發(fā)、提升創(chuàng)新能力的關(guān)鍵環(huán)節(jié)。針對(duì)現(xiàn)有研究在指標(biāo)選取和不平衡數(shù)據(jù)處理方面的不足,本文通過增加專利發(fā)明人指標(biāo)重構(gòu)指標(biāo)體系,同時(shí)結(jié)合采樣技術(shù)和集成算法,提出組合模型ADASYN-LOF-RF。通過與SVM、RF、ADASYN-RF進(jìn)行對(duì)比,證實(shí)ADASYN-LOF-RF在模型準(zhǔn)確性和模型穩(wěn)定性上都具有較好的分類性能;并通過指標(biāo)重要性排序證實(shí)新加入的兩個(gè)專利發(fā)明人指標(biāo)的合理性。
基于本文的模型對(duì)比實(shí)驗(yàn)結(jié)果以及實(shí)證分析,可以得出以下兩點(diǎn)結(jié)論:第一,使用采樣技術(shù)和集成算法的組合模型能夠提高核心專利識(shí)別的準(zhǔn)確率,并且穩(wěn)定性較好;第二,在梳理現(xiàn)有相關(guān)文獻(xiàn)的基礎(chǔ)上,本研究構(gòu)建的核心專利識(shí)別指標(biāo)體系是有效的。
本研究也具有一定的局限性:第一,每種算法都有優(yōu)缺點(diǎn),為提高核心專利識(shí)別的準(zhǔn)確率,未來可嘗試對(duì)集成算法進(jìn)行改進(jìn),如加入代價(jià)敏感學(xué)習(xí)等。第二,在未來的研究中,有必要考慮引入專利網(wǎng)絡(luò)中心度的概念,將其作為機(jī)器學(xué)習(xí)模型的輸出指標(biāo),對(duì)核心專利進(jìn)行標(biāo)記。第三,核心專利的早期識(shí)別對(duì)企業(yè)實(shí)施專利布局具有更高的價(jià)值,未來研究需關(guān)注核心專利的早期識(shí)別問題。