• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于機器學習的專利質(zhì)量分析與分類預(yù)測研究

      2021-07-15 17:14符川川陳國華袁勤儉
      現(xiàn)代情報 2021年7期
      關(guān)鍵詞:機器學習區(qū)塊鏈

      符川川 陳國華 袁勤儉

      摘?要:[目的/意義]本研究在一定程度上可以減少專利審查員的時間成本和主觀性并提高業(yè)務(wù)素質(zhì),也可以為專利申請者的專利布局提供參考。[方法/過程]本研究在專利質(zhì)量界定與指標體系構(gòu)建的基礎(chǔ)上,提出基于機器學習的組合模型用于專利質(zhì)量的分析與分類預(yù)測,并以新興產(chǎn)業(yè)的區(qū)塊鏈技術(shù)專利為例展開研究。該模型由自組織映射、核主成分分析以及支持向量機3種方法組成,其實現(xiàn)過程包括兩階段。第一階段通過自組織映射(SOM)對從國家知識產(chǎn)權(quán)局專利數(shù)據(jù)庫收集的21?496項區(qū)塊鏈技術(shù)專利數(shù)據(jù)進行分析并界定專利質(zhì)量類別;第二階段,通過核主成分分析(KPCA)對專利數(shù)據(jù)進行降維降噪處理,經(jīng)過處理的專利數(shù)據(jù)再由支持向量機(SVM)得出分類結(jié)果。[結(jié)果/結(jié)論]在對區(qū)塊鏈技術(shù)專利質(zhì)量分類模型進行訓練后,基于3?306項區(qū)塊鏈專利歷史數(shù)據(jù)來驗證訓練模型的性能,實驗結(jié)果的匹配度達到87.26%。因此,本研究提出的組合模型能夠有效地對專利質(zhì)量進行分類與預(yù)測。

      關(guān)鍵詞:專利質(zhì)量;機器學習;區(qū)塊鏈;專利質(zhì)量分析;分類預(yù)測

      DOI:10.3969/j.issn.1008-0821.2021.07.011

      〔中圖分類號〕G255.53?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)07-0110-11

      Research?on?Patent?Quality?Analysis?and?Classification

      Forecast?Based?on?Machine?Learning

      ——Taking?Blockchain?as?an?Example

      Fu?Chuanchuan1?Chen?Guohua2*?Yuan?Qinjian1

      (1.School?of?Information?Management,Nanjing?University,Nanjing?210023,China;

      2.School?of?Engineering?Management,Nanjing?University,Nanjing?210029,China)

      Abstract:[Purpose/Significance]This?research,to?a?certain?extent,could?reduce?the?time?cost?and?subjectivity?of?patent?examiners?and?improve?their?professional?quality.It?would?also?provide?reference?for?patent?applicants?patent?layout.[Method/Process]This?research?defined?the?meaning?of?patent?quality?and?constructed?a?patent?quality?indicator?system.It?proposed?a?combination?model?based?on?machine?learning?for?the?analysis?and?classification?prediction?of?patent?quality,and?took?blockchain?patents?in?emerging?industries?as?an?example?to?conduct?the?research.The?model?was?composed?of?three?methods:self-organizing?map,kernel?principal?component?analysis?and?support?vector?machine.Its?realization?process?included?two?stages.At?first?stage,self-organizing?map(SOM)was?employed?to?analyze?the?collected?21496?blockchain?patent?data?from?the?patent?database?of?the?State?Intellectual?Property?Office?and?define?the?patent?quality?category;at?second?stage,dimension?reduction?and?noise?reduction?processing?on?patent?data?were?performed?through?kernel?principal?component?analysis(KPCA),the?processed?patent?data?was?then?classified?by?the?support?vector?machine(SVM).[Result/Conclusion]After?training?the?blockchain?patent?quality?classification?model,historical?data?of?3306?blockchain?patents?was?used?to?verify?the?performance?of?the?training?model?and?the?matching?degree?of?the?experimental?results?reached?87.26%.Therefore,the?combined?model?proposed?in?this?research?can?effectively?classify?and?predict?patent?quality.

      Key?words:patent?quality?index?system;machine?learning;blockchain;patent?quality?analysis;classification?prediction

      日趨激烈的國際競爭大部分圍繞著科技展開,科技能反映一個國家的創(chuàng)新能力,而專利是科技創(chuàng)新能力的集中體現(xiàn)。專利中蘊含著豐富的技術(shù)、法律和經(jīng)濟信息,能引領(lǐng)國家的創(chuàng)新發(fā)展。自2018年開始的中美貿(mào)易爭端多在專利領(lǐng)域角逐,尤其高科技企業(yè)華為屢屢遭美國打壓,究其原因就是華為擁有許多核心專利,美國繞不開華為高質(zhì)量的核心專利的布局。專利已經(jīng)成為我國的高科技企業(yè)提高核心競爭力的利器,我國采取一系列激勵性政策鼓勵專利的申請,逐漸超越占據(jù)申請量前3的美、德、日,一躍成為世界第一專利大國并逐漸產(chǎn)生國際影響[1]。然而,在數(shù)量激增的背后,我國的專利質(zhì)量還有待提高。低質(zhì)量的專利會阻礙科技進步,浪費申請、審查、授權(quán)的人力、物力和財力。專利競賽理論[2]認為,專利質(zhì)量比專利數(shù)量更重要,高質(zhì)量的專利能產(chǎn)生較大的經(jīng)濟和法律價值。因此,專利質(zhì)量的提升是我國從專利大國邁向?qū)@麖妵谋亟?jīng)之路。提高專利質(zhì)量的重要前提是明確什么樣的專利是高質(zhì)量專利以及對已經(jīng)申請的海量專利的質(zhì)量分類進行初步研判。為此,本研究在專利質(zhì)量的內(nèi)涵界定與特征刻畫的基礎(chǔ)上,以新興產(chǎn)業(yè)的區(qū)塊鏈技術(shù)為例,運用機器學習方法對專利質(zhì)量進行分析與分類預(yù)測。

      學界關(guān)于專利質(zhì)量沒有統(tǒng)一的內(nèi)涵,現(xiàn)有研究主要從3個視角闡述專利質(zhì)量:基于專利審查員審查的專利質(zhì)量;基于專利申請者申請的專利質(zhì)量;基于專利使用者獲得許可或者轉(zhuǎn)讓的專利質(zhì)量?;趯@麑彶閱T審查的專利質(zhì)量取決于專利審查員的業(yè)務(wù)素質(zhì)[3],本身具備較強專業(yè)背景的審查員能進行完整而全面的檢索,且審查過程把關(guān)嚴格則授權(quán)后的專利質(zhì)量高?;谏暾堈呱暾埖膶@|(zhì)量與技術(shù)本身高度相關(guān)[4],該視角的專利質(zhì)量較能反映專利質(zhì)量的內(nèi)在本質(zhì)并且能增強風險共擔者的信心?;谑褂谜攉@得許可或者轉(zhuǎn)讓的專利質(zhì)量從使用者使用專利以后的競爭力來表征[5],如荷蘭的阿斯麥在獲得一些國家的專利授權(quán)后生產(chǎn)的用于制造高精度芯片的光刻機在全球市場具有極強的競爭力,則這些授權(quán)的專利質(zhì)量較高。本研究根據(jù)研判專利質(zhì)量需要考慮專利的時間跨度[6]、專利涉及的產(chǎn)業(yè)類型[7]以及可操作性[8]界定專利質(zhì)量為基于技術(shù)本身的專利質(zhì)量。

      1?文獻綜述

      國內(nèi)外基于構(gòu)建專利質(zhì)量指標體系刻畫專利質(zhì)量特征的研究主要以專利范圍、專利引證、專利維持以及其他專利質(zhì)量指標體系來評估專利質(zhì)量。

      基于專利范圍的專利質(zhì)量指標體系主要包括技術(shù)保護范圍和區(qū)域保護范圍,其中,技術(shù)保護范圍是專利技術(shù)覆蓋的范圍,涉及專利權(quán)利要求數(shù)量、國際專利分類號個數(shù);區(qū)域保護范圍是申請專利的國家和地區(qū),包含專利家族數(shù)量、專利優(yōu)先權(quán)、美國專利數(shù)量、專利合作條約申請數(shù)量。權(quán)利要求數(shù)量能表征專利質(zhì)量,權(quán)利要求數(shù)量越多,專利質(zhì)量越高[9]。國際專利分類號個數(shù)反映專利寬度,其數(shù)量越多則技術(shù)覆蓋范圍越廣,創(chuàng)新的集成度越高,與專利質(zhì)量成正相關(guān)關(guān)系[10]。由此可見,該類指標能表征早期以及后續(xù)的專利質(zhì)量。專利家族數(shù)量也叫同族專利數(shù)量,由于專利具有區(qū)域性,某類專利若想保持競爭力就需要在不同國家和地區(qū)申請一系列專利從而形成專利家族,實驗證明專利家族數(shù)量與專利質(zhì)量具有一致性[11]。專利優(yōu)先權(quán)數(shù)量[12]、美國專利數(shù)量[13]、專利合作條約申請數(shù)量[14]均與專利質(zhì)量具有正相關(guān)關(guān)系,但是美國專利數(shù)量和專利合作條約申請數(shù)量指標只測度后續(xù)的專利質(zhì)量,無法測度早期的專利質(zhì)量?;诖?,本研究采用專利權(quán)利要求數(shù)量、國際專利分類號個數(shù)、專利家族數(shù)量、專利優(yōu)先權(quán)構(gòu)建專利質(zhì)量指標體系。

      基于專利引證的專利質(zhì)量指標體系借鑒文獻計量學指標體系,主要包括引用和被引用專利質(zhì)量指標。其中,引用指標也叫后向引用[15],反映專利技術(shù)對先前技術(shù)的依賴程度,包括引用專利文獻和引用科學文獻次數(shù);被引用指標也叫前向引用[16],反映專利技術(shù)對后續(xù)技術(shù)的啟發(fā)程度,包括被引用專利文獻和被引用科學文獻次數(shù)。后向引用與科學關(guān)聯(lián)度密切相關(guān),引用次數(shù)多則科學關(guān)聯(lián)度強,專利質(zhì)量也就越高[17]。前向引用次數(shù)多則對后續(xù)申請專利影響大,具有較高的技術(shù)和經(jīng)濟價值[18]。前向和后向引用指標均在一定程度上揭示專利質(zhì)量特征,由于專利從申請到授權(quán)至少需要18個月,早期專利如果采用前向引用指標則不能評估專利質(zhì)量,而后向引用指標適合于早期和后續(xù)專利的質(zhì)量評估。鑒于此,本研究采用后向引用指標來構(gòu)建專利質(zhì)量指標體系。

      基于專利維持的專利質(zhì)量指標體系主要包括專利壽命和專利有效率。一般情況下,專利壽命維持越長,專利有效率保持越高,專利質(zhì)量越高。但是由于專利具有時效性,這些指標只能評估后續(xù)專利質(zhì)量,無法表征早期專利質(zhì)量。

      其他專利質(zhì)量指標主要包括代理人數(shù)量[19]、申請人數(shù)量[20]、發(fā)明人數(shù)量[21]、說明書頁數(shù)[22]、技術(shù)循環(huán)周期[23]、訴訟次數(shù)[24]等。代理人數(shù)量、申請人數(shù)量、發(fā)明人數(shù)量、說明書頁數(shù)越多,則專利技術(shù)的復(fù)雜度越高,創(chuàng)造性越強,需要團隊來完成申請工作,往往授權(quán)后的專利質(zhì)量也就越高。訴訟次數(shù)反映專利授權(quán)后的法律活躍度,訴訟次數(shù)多的專利屬于重點專利,其法律、技術(shù)和經(jīng)濟價值也就越高。專利技術(shù)循環(huán)周期反映專利借鑒專利文獻的平均年齡,能體現(xiàn)專利技術(shù)更新速度,專利技術(shù)循環(huán)周期越短,專利的競爭力越強,其質(zhì)量越高。代理人數(shù)量、申請人數(shù)量、發(fā)明人數(shù)量、說明書頁數(shù)、技術(shù)循環(huán)周期均適合早期和后續(xù)的專利質(zhì)量評估,訴訟次數(shù)適于后續(xù)的專利質(zhì)量評估。因此,本研究采用代理人數(shù)量、申請人數(shù)量、發(fā)明人數(shù)量、說明書頁數(shù)、技術(shù)循環(huán)周期構(gòu)建專利質(zhì)量指標體系。

      綜上所述,可以從專利引證、專利范圍以及其他指標構(gòu)建專利質(zhì)量指標體系,這些指標體系又包括單指標和多指標并在一定程度上能表征專利質(zhì)量[25]。一些學者基于專利質(zhì)量指標體系運用不同方法對專利質(zhì)量進行評估,這些方法主要集中在傳統(tǒng)的統(tǒng)計學[26]、文獻計量學[27]、專家打分[28]等方面,也有部分方法關(guān)注機器學習[29-30]方面。當處理海量專利質(zhì)量信息時,傳統(tǒng)方法帶有一定的主觀性,人工成本高,效率和精度會打折扣并且需要一些先驗性理論。由于資源限制,其可操作性有時也會受到一定制約,如只能獲取一些后續(xù)專利質(zhì)量指標數(shù)據(jù)進行事后評估而不能進行事前預(yù)估。部分研究運用機器學習單一模型方法[31]對專利質(zhì)量進行評估研究,其指標選取的層次劃分清晰度和實驗結(jié)果精度有進一步提高的空間?;诖?,本研究以新興產(chǎn)業(yè)的區(qū)塊鏈技術(shù)為例,根據(jù)專利質(zhì)量指標選取的科學性、易操作性原則篩選出屬于專利引證、專利范圍以及其他指標體系的專利權(quán)利要求數(shù)量、國際專利分類號個數(shù)、專利家族數(shù)量、專利優(yōu)先權(quán)、引用專利文獻次數(shù)、引用科學文獻數(shù)量、代理人數(shù)量、申請人數(shù)量、發(fā)明人數(shù)量、說明書頁數(shù)、技術(shù)循環(huán)周期質(zhì)量指標,運用機器學習的組合模型提取出區(qū)塊鏈技術(shù)專利質(zhì)量的主要特征并對區(qū)塊鏈技術(shù)專利質(zhì)量進行分類預(yù)測,以期為專利審查員節(jié)省精力、提高效率,并為專利申請者提前進行專利布局提供參考。

      2?研究方法

      本研究提出一個結(jié)合自組織映射(Self-organization?Mapping—SOM)、核主成分分析(Kernal?Principal?Components?Analysis—KPCA)和支持向量機(Support?Vector?Machine—SVM)的區(qū)塊鏈技術(shù)專利質(zhì)量自動分類模型。該質(zhì)量分類模型分兩個階段實現(xiàn):第一階段是區(qū)塊鏈技術(shù)專利分析和質(zhì)量分類的界定,第二階段是區(qū)塊鏈技術(shù)專利質(zhì)量分類模型的建立,如圖1所示。在第一階段,本研究從國家知識產(chǎn)權(quán)專利數(shù)據(jù)庫中收集與區(qū)塊鏈技術(shù)相關(guān)的專利數(shù)據(jù),然后基于自組織映射將區(qū)塊鏈技術(shù)專利聚類成幾個質(zhì)量組,并通過每個質(zhì)量組的質(zhì)量指標來界定每一組的質(zhì)量等級。第二階段,本研究首先基于核主成分分析從區(qū)塊鏈技術(shù)專利數(shù)據(jù)集提取主要特征,然后基于支持向量機分類器并利用區(qū)塊鏈技術(shù)專利質(zhì)量的非線性特征建立區(qū)塊鏈技術(shù)專利質(zhì)量的分類模型,以提高分類效果。最后,本研究預(yù)測區(qū)塊鏈技術(shù)專利質(zhì)量的分類,并評估區(qū)塊鏈技術(shù)專利質(zhì)量分類的效果。

      2.1?區(qū)塊鏈技術(shù)專利質(zhì)量的分析與界定

      2.1.1?區(qū)塊鏈技術(shù)專利數(shù)據(jù)的收集和區(qū)塊鏈技術(shù)專利質(zhì)量特征的處理

      從國家知識產(chǎn)權(quán)局獲得區(qū)塊鏈技術(shù)專利數(shù)據(jù),國家知識產(chǎn)權(quán)局提供區(qū)塊鏈技術(shù)專利的相關(guān)信息,包括分類號、說明書、著錄項目和摘要等。本研究的區(qū)塊鏈技術(shù)專利質(zhì)量特征使用最小—最大法進行標準化處理。

      2.1.2?基于自組織映射的區(qū)塊鏈技術(shù)專利質(zhì)量分析

      相較于K-means算法,自組織映射接近人腦自組織特性。該算法在聚類過程中引入競爭鄰域,通過某個神經(jīng)元及鄰近神經(jīng)元的競爭關(guān)系來動態(tài)調(diào)整權(quán)重,經(jīng)過若干次調(diào)整得到聚類結(jié)果。該算法相對歐式距離作為聚類判定有一定程度的改進,因此本研究選取該聚類算法。本研究使用自組織映射對區(qū)塊鏈技術(shù)專利質(zhì)量進行分析和分類的界定以區(qū)分不同的質(zhì)量組。該自組織映射神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由輸入層和輸出層組成,其中輸入層神經(jīng)元個數(shù)設(shè)置為11,輸出層神經(jīng)元個數(shù)為9,初始學習率為0.8,迭代次數(shù)為1?000。

      本研究按照以下步驟使用自組織映射將各類區(qū)塊鏈技術(shù)專利質(zhì)量進行分組:

      第一步:初始化類神經(jīng)網(wǎng)絡(luò),并隨機為鏈接值賦予權(quán)重。

      第二步:將各項區(qū)塊鏈專利質(zhì)量的特征作為輸入變量,并記錄每項數(shù)據(jù)與其他項數(shù)據(jù)的鄰近關(guān)系。接著通過歐幾里得距離計算各特征向量與各神經(jīng)元的鏈接權(quán)重,所得最短距離的神經(jīng)元稱為優(yōu)勝神經(jīng)元。

      第三步:以優(yōu)勝神經(jīng)元為中心,調(diào)整優(yōu)勝神經(jīng)元及鄰近神經(jīng)區(qū)域的權(quán)重鏈接向量。

      第四步:反復(fù)進行第二步和第三步,直到滿足設(shè)定的收斂條件,完成所有質(zhì)量的分組。根據(jù)每項區(qū)塊鏈專利數(shù)據(jù)的專利質(zhì)量指標,將具有相似質(zhì)量指標的專利分組在一起。

      2.2?預(yù)測區(qū)塊鏈技術(shù)專利質(zhì)量的分類

      2.2.1?核主成分分析萃取區(qū)塊鏈技術(shù)專利質(zhì)量特征

      核主成分分析可以過濾區(qū)塊鏈技術(shù)專利數(shù)據(jù)噪聲、降低數(shù)據(jù)維數(shù),有助于提高分類模型的預(yù)測準確率并減少運算時間。將所有區(qū)塊鏈技術(shù)專利數(shù)據(jù)依據(jù)公開年份分為訓練數(shù)據(jù)和測試數(shù)據(jù),并對訓練數(shù)據(jù)集中的區(qū)塊鏈技術(shù)專利質(zhì)量特征進行核主成分分析,提取出區(qū)塊鏈技術(shù)專利質(zhì)量的特征值。

      本研究首先利用核函數(shù)將原始數(shù)據(jù)映射至高維的特征空間中,將具有11個維度的區(qū)塊鏈專利質(zhì)量特征通過核函數(shù)進行轉(zhuǎn)換,并計算該核函數(shù)的核矩陣,接著找出特征空間中的平均中心點,再將核矩陣去中心化。將去中心化后的核矩陣代入主成分分析公式計算,求解特征值,得到其特征值及對應(yīng)的特征向量。通過區(qū)塊鏈專利特征數(shù)據(jù)的平均中心萃取出非線性關(guān)系的主成分并得到新的特征向量以及區(qū)塊鏈專利質(zhì)量的主要的特征值。

      2.2.2?預(yù)測區(qū)塊鏈技術(shù)專利質(zhì)量的分類

      訓練支持向量機的輸入變量為經(jīng)過核主成分分析得到的區(qū)塊鏈專利質(zhì)量特征。首先使用核函數(shù)將測試數(shù)據(jù)轉(zhuǎn)換至高維度的向量空間,并在訓練過程中利用支持向量與邊界找尋最佳的線性超平面。

      使用區(qū)塊鏈技術(shù)專利訓練數(shù)據(jù)建立非線性支持向量機分類模型時,若將區(qū)塊鏈專利訓練數(shù)據(jù)分到不合適的質(zhì)量組,會影響分類模型的效果。因此需適當?shù)剡x擇超平面與目標函數(shù)并建立分類模型。

      建立預(yù)測區(qū)塊鏈技術(shù)專利質(zhì)量分類的模型后,從區(qū)塊鏈專利訓練數(shù)據(jù)集中抽取一部分測試的區(qū)塊鏈專利數(shù)據(jù)進行區(qū)塊鏈專利質(zhì)量的分類。采用從訓練數(shù)據(jù)中所取得的核函數(shù)、特征向量在非線性的區(qū)塊鏈技術(shù)專利質(zhì)量特征空間中進行區(qū)塊鏈技術(shù)專利質(zhì)量的轉(zhuǎn)換并萃取主要特征。

      2.2.3?區(qū)塊鏈技術(shù)專利質(zhì)量分類效果評價

      為評價區(qū)塊鏈技術(shù)專利質(zhì)量分類效果,用混淆矩陣記錄區(qū)塊鏈技術(shù)專利質(zhì)量的分類情況。表1中,混淆矩陣的4個主要元素用于表征測試集的區(qū)塊鏈技術(shù)專利質(zhì)量分類情況,其中真正向(True?Positive-TP)表示屬于類別k所有的區(qū)塊鏈技術(shù)專利,被正確分類到該類別的區(qū)塊鏈技術(shù)專利數(shù)量;真負向(True?Negative-TN)表示屬于非類別k所有的區(qū)塊鏈技術(shù)專利,被正確分類到非類別k的區(qū)塊鏈技術(shù)專利數(shù)量;偽正向(False?Positive-FP)表示屬于非類別k所有的區(qū)塊鏈技術(shù)專利,被錯誤分類到類別k的區(qū)塊鏈技術(shù)專利數(shù)量;偽負向(False?Negative-FN)表示屬于類別k所有的區(qū)塊鏈技術(shù)專利,被錯誤分類到非類別k的區(qū)塊鏈技術(shù)專利數(shù)量。

      3?實驗結(jié)果

      本研究設(shè)計一系列測試來評估提出的自組織映射—核主成分分析—支持向量機(SOM-KPCA-SVM)組合模型。本實驗有3組參數(shù),一是時間尺度上有5年、10年、20年3個不同時期的區(qū)塊鏈技術(shù)專利數(shù)據(jù)集;二是區(qū)塊鏈技術(shù)專利質(zhì)量組的數(shù)量有3種,即3個質(zhì)量組、5個質(zhì)量組和7個質(zhì)量組;最后,特征提取的數(shù)目有4個百分點,分別是40%、60%、80%和100%。

      3.1?區(qū)塊鏈技術(shù)專利數(shù)據(jù)集與統(tǒng)計分析

      本研究從國家知識產(chǎn)權(quán)局收集時間跨度從2001—2020年的21?496項中國區(qū)塊鏈技術(shù)專利數(shù)據(jù)。圖2的統(tǒng)計數(shù)據(jù)顯示2001—2020年與中國區(qū)塊鏈技術(shù)相關(guān)的年度申請專利,從統(tǒng)計圖可以看出近年來中國區(qū)塊鏈專利數(shù)量增長迅速,之所以到2020年出現(xiàn)下滑是因為統(tǒng)計的是2020年的前幾個月,但比2019年同時期的要多。截至2020年7月9日,中國共有33個省級行政區(qū)申請區(qū)塊鏈專利,其中廣東、北京、浙江、上海、江蘇、山東、四川、福建、湖北、陜西、安徽、重慶、湖南、河南、天津占據(jù)全部區(qū)塊鏈技術(shù)專利申請量90%以上,而這些省級行政區(qū)大多位于長三角、珠三角、京津冀三大經(jīng)濟帶上,這也間接反映經(jīng)濟發(fā)達區(qū)的區(qū)塊鏈技術(shù)專利申請量較大。根據(jù)前文梳理的專利質(zhì)量指標體系,篩選出表征區(qū)塊鏈技術(shù)專利質(zhì)量的11個特征,如表2所示,專利組的質(zhì)量分數(shù)由這11個特征經(jīng)式(4)計算所得。這些特征作為自組織映射的輸入變量,將區(qū)塊鏈技術(shù)專利質(zhì)量聚類到不同的質(zhì)量組中。

      3.2?區(qū)塊鏈技術(shù)專利質(zhì)量分析結(jié)果

      專利質(zhì)量類別。其中,區(qū)塊鏈技術(shù)專利數(shù)量是影響區(qū)塊鏈技術(shù)專利質(zhì)量分組數(shù)量的一個重要因素。為對區(qū)塊鏈技術(shù)專利質(zhì)量進行適當?shù)木垲?,本研究設(shè)計不同的質(zhì)量組,即3個質(zhì)量組(3QG)、5個質(zhì)量組(5QG)和7個質(zhì)量組(7QG)。此外,本研究還對每組區(qū)塊鏈技術(shù)專利進行探究,并檢查每個專利的質(zhì)量指標,以確保分類的一致性。表3顯示3個不同的區(qū)塊鏈技術(shù)專利質(zhì)量組的分類情況,其中3個質(zhì)量組短期(ST)數(shù)據(jù)分析的最低質(zhì)量分數(shù)為0.0799,屬于低質(zhì)量組(G1);中等質(zhì)量分數(shù)為0.5580,屬于分類的中等質(zhì)量組(G2);最大質(zhì)量分數(shù)為1.1545,因此屬于優(yōu)質(zhì)組(G3)。由上述分析可知,所有G1組均為劣質(zhì)專利,且在不同時期的平均質(zhì)量最低。所有G3在3QG、G5在5QG以及G7在7QG是最高的區(qū)塊鏈專利質(zhì)量組。本研究分別在短期(ST)、中期(MT)和長期(LT)3個數(shù)據(jù)集劃分訓練數(shù)據(jù)集和測試數(shù)據(jù)集,所有不同年份的數(shù)據(jù)都使用2018—2020年區(qū)塊鏈技術(shù)專利數(shù)據(jù)作為測試數(shù)據(jù)來驗證模型效果。訓練數(shù)據(jù)的年度范圍各不相同,短期數(shù)據(jù)集的訓練數(shù)據(jù)范圍為2013—2017年,中期數(shù)據(jù)集的訓練數(shù)據(jù)集為2008—2017年,長期數(shù)據(jù)集的年度訓練數(shù)據(jù)范圍為2001—2017年。在訓練數(shù)據(jù)集中,以區(qū)塊鏈技術(shù)專利的質(zhì)量特征作為輸入變量訓練區(qū)塊鏈技術(shù)專利質(zhì)量分類器,然后通過測試數(shù)據(jù)進行區(qū)塊鏈技術(shù)專利質(zhì)量分類預(yù)測。表4闡明訓練集和測試集的區(qū)塊鏈技術(shù)專利數(shù)量分布情況,其中包括3個不同組的區(qū)塊鏈技術(shù)質(zhì)量分類指標值差異與3個不同年份范圍的數(shù)據(jù)。

      在模型效果評估階段,使用不同類型的核函數(shù)提取出不同的區(qū)塊鏈技術(shù)專利質(zhì)量特征會影響區(qū)塊鏈專利質(zhì)量預(yù)測的效果。本研究采用3種方法,即:①用于核主成分分析的高斯核函數(shù)(Gauss);②用于核主成分分析的多項式核函數(shù)(Poly);③非核主成分分析(Non-KPCA)建立支持向量機的分類模型并評估不同的區(qū)塊鏈技術(shù)專利質(zhì)量特征提取方法的效果。高斯核函數(shù)(Gauss)和多項式核函數(shù)(Poly)提取不同比例的主要成分并進一步觀察不同比例的主要成分對效果的影響。表5比較高斯核函數(shù)和多項式核函數(shù)對3個不同年度數(shù)據(jù)集的可解釋性。當高斯核函數(shù)取前40%的主成分時,3個數(shù)據(jù)集的專利質(zhì)量特征解釋率分別為52.16%、54.23%和48.72%;采用前80%的主成分時,解釋率分別高達92.45%、95.01%和92.21%。當多項式核函數(shù)取40%的主成分時,解釋量分別達到90.17%、93.26%和91.82%;當主成分占80%時,各數(shù)據(jù)集的解釋率達到92%以上。從這一結(jié)果可以判斷,利用多項式核函數(shù)分析核主成分可以有效地降低區(qū)塊鏈技術(shù)專利質(zhì)量特征的維數(shù)。

      基于上述分析,本研究驗證自組織映射—核主成分分析—支持向量機(SOM-KPCA-SVM)的效果,并評估選取40%、60%、80%、100%的主成分的效果,以混淆矩陣計算各組區(qū)塊鏈技術(shù)專利質(zhì)量每個類別的準確率(AC)、精度(PR)、召回率(RE),此處表示各區(qū)塊鏈專利質(zhì)量組的平均準確率、平均精度與平均召回率。表6為自組織映射—核主成分分析—支持向量機(SOM-KPCA-SVM)采用高斯核函數(shù)(Gauss)萃取區(qū)塊鏈專利特征的分類效果,在短期數(shù)據(jù)集中取前80%的主成分時具有較高的準確率;中期取60%或取80%的主成分時能有較高的準確率;長期則需取前60%的主成分可得到較高的準確率。由該表可得知,不同區(qū)塊鏈專利質(zhì)量組在短期均具有較高的準確率,接著是中期,最后是長期,可見數(shù)據(jù)量過多會影響分類的準確性,若分組過多即聚類數(shù)目大,其準確率會下降。

      4?研究結(jié)論

      本研究在界定專利質(zhì)量含義并構(gòu)建專利質(zhì)量指標體系基礎(chǔ)上,以新興產(chǎn)業(yè)的區(qū)塊鏈技術(shù)專利為例,運用機器學習的組合模型進行專利質(zhì)量分析和分類預(yù)測,對學術(shù)界和產(chǎn)業(yè)界客觀評價當前區(qū)塊鏈技術(shù)專利質(zhì)量和捕捉潛在專利價值信息具有一定參考價值。對區(qū)塊鏈技術(shù)專利質(zhì)量的分析與分類預(yù)測研究有以下結(jié)論:

      影響分析的合理性。當采用3組進行聚類時,這些組在區(qū)塊鏈技術(shù)專利質(zhì)量上的相似度太高,因此組之間的差異小;采用7組聚類時又產(chǎn)生由于分組較多導(dǎo)致的對比混亂問題;分5組聚類時,各組內(nèi)區(qū)塊鏈技術(shù)專利質(zhì)量較為接近,并且不同的區(qū)塊鏈技術(shù)專利質(zhì)量組間差異明顯。

      2)非線性特征變換能提高分類性能。在非線性特征變換中,多項式核函數(shù)的準確率、精度和召回率高于高斯核函數(shù)。

      3)不同核函數(shù)提取的不同的主要專利質(zhì)量特征會影響實驗的精度。

      4)本研究提出的專利質(zhì)量分類模型相較于之前單一機器學習模型能在缺少事后(專利授權(quán)后)指標的情況下判定早期(新申請)的專利質(zhì)量類型。因此,本研究可能會幫助專利申請者提前進行專利布局。此外,本研究的自動專利質(zhì)量分析和分類盡可能減少專利審查員的人工處理時間并提高部分專利申請者對市場趨勢的反應(yīng)靈敏度。

      本研究提出基于機器學習的專利質(zhì)量分析和分類預(yù)測的自組織映射—核主成分分析—支持向量機(SOM-KPCA-SVM)模型。一方面,自組織映射可以區(qū)分不同區(qū)塊鏈技術(shù)專利質(zhì)量組間的質(zhì)量指標差異,具有一定的統(tǒng)計學意義;另一方面,核主成分分析有效地改變區(qū)塊鏈技術(shù)專利文獻的非線性特征空間以提高分類效果。此外,支持向量機建立一個有效的區(qū)塊鏈技術(shù)專利質(zhì)量問題分類模型,該模型可以在短時間內(nèi)確定區(qū)塊鏈技術(shù)專利質(zhì)量類別并提高分析效率。綜上所述,本研究使用區(qū)塊鏈技術(shù)專利的21?496項專利數(shù)據(jù)集并結(jié)合11個專利質(zhì)量特征來訓練自組織映射—核主成分分析—支持向量機(SOM-KPCA-SVM)模型,最后使用3?306項區(qū)塊鏈技術(shù)專利歷史數(shù)據(jù)來測試模型。該實驗在區(qū)塊鏈技術(shù)專利質(zhì)量分類預(yù)測中的準確率達87.26%,表明通過增加區(qū)塊鏈專利質(zhì)量評估的其他標準和因素,可以進一步完善區(qū)塊鏈技術(shù)專利質(zhì)量分類預(yù)測的方法。本研究在一定程度上幫助專利審查員提高業(yè)務(wù)素質(zhì),協(xié)助專利申請者提前進行專利布局并啟發(fā)未來的專利使用者產(chǎn)品研發(fā)的方向。本研究未來可以在專利質(zhì)量指標的選取以及模型的優(yōu)化上進行深度探索。

      參考文獻

      [1]閔超,步一,孫建軍.基于專利大數(shù)據(jù)的中國國際專利技術(shù)流動分析[J].圖書與情報,2017,(5):33-39.

      [2]Schankerman?M,Pakes?A.Estimates?of?the?Value?of?Patent?Rights?in?European?Countries?During?the?Post-1950?Period[J].Social?Science?Electronic?Publishing,1986,96(384):1052-1076.

      [3]Alcácer?J,Gittelman?M,Sampat?B.Applicant?and?Examiner?Citations?in?US?Patents:An?Overview?and?Analysis[J].Research?Policy,2008,38(2):415-427.

      [4]Hirschey?M,Richardson?V?J.Are?Scientific?Indicators?of?Patent?Quality?Useful?to?Investors?[J].Journal?of?Empirical?Finance,2003,11(1):91-107.

      [5]朱雪忠,萬小麗.競爭力視角下的專利質(zhì)量界定[J].知識產(chǎn)權(quán),2009,19(4):7-14.

      [6]Putnam?J?D.The?Value?of?International?Patent?Rights[D].PhD?Thesis.Yale?University,1996.

      [7]張克群,牛悾悾,夏偉偉.高被引專利質(zhì)量的影響因素分析——以LED產(chǎn)業(yè)為例[J].情報雜志,2018,37(2):81-87.

      [8]吳菲菲,米蘭,黃魯成.關(guān)于標準必要專利與高質(zhì)量專利關(guān)系的研究[J].科學學與科學技術(shù)管理,2018,39(9):89-102.

      [9]陳海秋,韓立巖.專利質(zhì)量表征及其有效性:中國機械工具類專利案例研究[J].科研管理,2013,34(5):93-101.

      [10]Lerner?J.The?Importance?of?Patent?Scope:An?Empirical?Analysis[J].The?RAND?Journal?of?Economics,1994,25(2):319-333.

      [11]Gay?C,Bas?C?L.Uses?Without?Too?Many?Abuses?of?Patent?Citations?or?the?Simple?Economics?of?Patent?Citations?as?a?Measure?of?Value?and?Flows?of?Knowledge[J].Economics?of?Innovation?and?New?Technology,2005,14(5):333-338.

      [12]劉夏,黃燦.專利審查的誤差檢測及影響因素分析[J].科學學研究,2019,37(7):1183-1192.

      [13]馬廷燦,李桂菊,姜山,等.專利質(zhì)量評價指標及其在專利計量中的應(yīng)用[J].圖書情報工作,2012,56(24):89-95.

      [14]歐陽雪宇,何杰,馬秋娟,等.醫(yī)藥領(lǐng)域?qū)@献鳁l約申請現(xiàn)狀及策略[J].中國藥學雜志,2014,49(14):1274-1280.

      [15]Yoshikane?F,Suzuki?Y,Tsuji?K.Analysis?of?the?Relationship?Between?Citation?Frequency?of?Patents?and?Diversity?of?Their?Backward?Citations?for?Japanese?Patents[J].Scientometrics,2012,92(3):721-733.

      [16]Lee?J,Sohn?S?Y.What?Makes?the?First?Forward?Citation?of?a?Patent?Occur?Earlier?[J].Scientometrics,2017,113(1):279-298.

      [17]Narin?F,Noma?E,Perry?R.Patents?as?Indicators?of?Corporate?Technological?Strength[J].Research?Policy,1987,16(2):143-155.

      [18]Rogers?M,Bethel?A,Briscoe?S.Resources?for?Forwards?Citation?Searching?for?Implementation?Studies?in?Dementia?Care:A?Case?Study?Comparing?Web?of?Science?and?Scopus[J].Research?Synthesis?Methods,2020,11(3):379-386.

      [19]谷麗,閻慰椿,丁堃.專利質(zhì)量視角的專利代理人勝任特征模型研究[J].科研管理,2018,39(12):179-188.

      [20]喬亞麗,汪雪鋒,侯雨佳,等.基于技術(shù)多樣性的專利申請人與審查員的引證行為差異[J].北京理工大學學報:社會科學版,2019,21(1):103-108.

      [21]蔣仁愛,張路路,石皓月.專利發(fā)明人合作對中國專利質(zhì)量的影響研究[J].科學學研究,2020,38(7):1215-1226.

      [22]谷麗,閻慰椿,丁堃.專利申請質(zhì)量及其測度指標研究綜述[J].情報雜志,2015,34(5):17-22.

      [23]吳菲菲,欒靜靜,黃魯成,等.基于新穎性和領(lǐng)域交叉性的知識前沿性專利識別——以老年福祉技術(shù)為例[J].情報雜志,2016,35(5):85-90.

      [24]宋河發(fā),穆榮平,陳芳,等.基于中國發(fā)明專利數(shù)據(jù)的專利質(zhì)量測度研究[J].科研管理,2014,35(11):68-76.

      [25]李春燕,石榮.專利質(zhì)量指標評價探索[J].現(xiàn)代情報,2008,28(2):146-149.

      [26]孫玉濤,欒倩.專利質(zhì)量測度“三階段—兩維度”模型及實證研究——以C9聯(lián)盟高校為例[J].科學學與科學技術(shù)管理,2016,37(6):23-32.

      [27]吳菲菲,張廣安,張輝,等.專利質(zhì)量綜合評價指數(shù)——以我國生物醫(yī)藥行業(yè)為例[J].科技進步與對策,2014,31(13):124-129.

      [28]宋河發(fā),穆榮平,陳芳.專利質(zhì)量及其測度方法與測度指標體系研究[J].科學學與科學技術(shù)管理,2010,31(4):21-27.

      [29]楊美妮,沈靜,張建軍.基于機器學習的專利質(zhì)量評估研究[J].計算機與數(shù)字工程,2019,47(7):1743-1747.

      [30]劉夏,黃燦,余驍鋒.基于機器學習模型的專利質(zhì)量預(yù)測初探[J].情報學報,2019,38(4):402-410.

      [31]冉從敬,宋凱.高校可轉(zhuǎn)化專利識別模型構(gòu)建——以人工智能領(lǐng)域為例[EB/OL].http://kns.cnki.net/kcms/detail/11.1762.G3.20200629.0820.002.html,2020-08-10.

      [32]周成,魏紅芹.專利價值評估與分類研究——基于自組織映射支持向量機[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(5):117-124.

      (責任編輯:郭沫含)

      猜你喜歡
      機器學習區(qū)塊鏈
      區(qū)塊鏈技術(shù)的應(yīng)用價值分析
      “區(qū)塊鏈”的茍且、詩和遠方
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機的金融數(shù)據(jù)分析研究
      用“區(qū)塊鏈”助推中企走出去
      长治市| 山东省| 万安县| 夹江县| 佛山市| 南京市| 宁乡县| 岚皋县| 武夷山市| 伊川县| 油尖旺区| 新宾| 松原市| 商都县| 项城市| 寿阳县| 滦平县| 隆子县| 石门县| 巴塘县| 宝清县| 绥滨县| 方城县| 中西区| 六盘水市| 东阳市| 泾川县| 孝感市| 且末县| 濮阳县| 博爱县| 武陟县| 沭阳县| 湄潭县| 罗江县| 康保县| 巨野县| 天峻县| 迁安市| 嫩江县| 科尔|