柳炳祥??付振康??貝汶瑜
摘要:[目的/意義]基于機(jī)器學(xué)習(xí)算法,對(duì)行業(yè)標(biāo)準(zhǔn)專利構(gòu)建多模態(tài)特征融合的自動(dòng)分類篩選模型,探究侵權(quán)訴訟背景下標(biāo)準(zhǔn)必要專利價(jià)值分類指標(biāo)體系。[方法/過(guò)程]首先利用美國(guó)專利商標(biāo)局的發(fā)生侵權(quán)訴訟后的標(biāo)準(zhǔn)必要專利作為標(biāo)記數(shù)據(jù),將文本數(shù)據(jù)和指標(biāo)數(shù)據(jù)進(jìn)行降維融合后,建立基于機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型專利分類篩選模型,最后對(duì)數(shù)字創(chuàng)意產(chǎn)業(yè)的標(biāo)準(zhǔn)專利進(jìn)行分類篩選。[結(jié)果/結(jié)論]基于機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)模型算法構(gòu)建一套較為完整的多特征融合專利價(jià)值自動(dòng)分類篩選模型。構(gòu)建的4種模型在測(cè)試集上的平均F1值均在0.8以上,其中偽標(biāo)簽隨機(jī)森林模型表現(xiàn)最優(yōu),平均F1值達(dá)到0.871 06。
關(guān)鍵詞:侵權(quán)訴訟;標(biāo)準(zhǔn)專利;機(jī)器學(xué)習(xí);自然語(yǔ)言處理;分類篩選
分類號(hào):G306
引用格式:彭啟寧, 柳炳祥, 付振康, 等. 侵權(quán)訴訟背景下標(biāo)準(zhǔn)必要專利價(jià)值分類識(shí)別體系構(gòu)建[J/OL]. 知識(shí)管理論壇, 2023, 8(6): 461-475[引用日期]. http://www.kmf.ac.cn/p/364/.
專利是反映科技創(chuàng)新成果的主要客體,是知識(shí)產(chǎn)權(quán)的重要部分之一。近幾年,隨著經(jīng)濟(jì)全球化的不斷深入,各國(guó)針對(duì)行業(yè)的標(biāo)準(zhǔn)必要專利研究也在不斷加強(qiáng),擁有行業(yè)標(biāo)準(zhǔn)必要專利,意味著能在相關(guān)技術(shù)領(lǐng)域中占領(lǐng)重要地位。標(biāo)準(zhǔn)必要專利(standard essential patent, SEPs)是指包含在國(guó)際標(biāo)準(zhǔn)、國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)中,且在實(shí)施標(biāo)準(zhǔn)時(shí)必須使用的專利,國(guó)內(nèi)學(xué)者馬麗婧等[1]指出,利用標(biāo)準(zhǔn)必要專利能夠快速掌握行業(yè)的技術(shù)標(biāo)準(zhǔn)、企業(yè)戰(zhàn)略和市場(chǎng)競(jìng)爭(zhēng)等信息。2010年版《國(guó)家標(biāo)準(zhǔn)涉及專利的規(guī)定》[2]中指出,允許標(biāo)準(zhǔn)中有條件地含有專利。與此同時(shí),隨著標(biāo)準(zhǔn)必要專利申請(qǐng)數(shù)量的不斷增加,專利侵權(quán)和專利無(wú)效宣告案件發(fā)生的數(shù)量在不斷增長(zhǎng),涉及國(guó)際的專利侵權(quán)糾紛也在不斷增加,《知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)建設(shè)綱要(2021-2035年)》[3]提出要深度參與全球知識(shí)產(chǎn)權(quán)治理,積極參與知識(shí)產(chǎn)權(quán)全球治理體系改革和建設(shè),要建設(shè)知識(shí)產(chǎn)權(quán)涉外風(fēng)險(xiǎn)防控體系。因此,構(gòu)建一套完整標(biāo)準(zhǔn)必要專利分類識(shí)別體系,識(shí)別行業(yè)內(nèi)標(biāo)準(zhǔn)必要重點(diǎn)專利以及易發(fā)生侵權(quán)訴訟的風(fēng)險(xiǎn)專利,對(duì)于提高我國(guó)相關(guān)創(chuàng)新主體的創(chuàng)新能力以及研判產(chǎn)業(yè)發(fā)展方向具有重要意義。
筆者以侵權(quán)無(wú)效宣告專利為切入點(diǎn),通過(guò)整理已經(jīng)發(fā)生侵權(quán)專利技術(shù)特征,利用數(shù)據(jù)挖掘模型進(jìn)行侵權(quán)專利識(shí)別分類訓(xùn)練,獲取最優(yōu)參數(shù)模型,構(gòu)建標(biāo)準(zhǔn)必要專利侵權(quán)識(shí)別分類識(shí)別體系。筆者在綜合分析侵權(quán)專利無(wú)效宣告的訴訟風(fēng)險(xiǎn)特征影響因素的前提下,結(jié)合標(biāo)準(zhǔn)必要專利的特點(diǎn),選取新興產(chǎn)業(yè)中數(shù)字創(chuàng)意產(chǎn)業(yè)在新一代信息技術(shù)產(chǎn)業(yè)中的應(yīng)用作為研究主題,從專利計(jì)量指標(biāo)和文本特征兩個(gè)方面建立較為精準(zhǔn)的標(biāo)準(zhǔn)必要專利識(shí)別分類體系,構(gòu)建多特征融合的標(biāo)準(zhǔn)必要專利分類識(shí)別模型。
1? 相關(guān)研究綜述
1.1? 侵權(quán)無(wú)效宣告相關(guān)研究
經(jīng)閱讀文獻(xiàn)可以發(fā)現(xiàn),目前國(guó)內(nèi)對(duì)侵權(quán)專利無(wú)效宣告的研究主要集中在以下幾個(gè)方面:①在專利法視域下,主要針對(duì)專利無(wú)效宣告制度的特點(diǎn)進(jìn)行一系列討論。李曉鳴[4]認(rèn)為,相關(guān)法律法規(guī)對(duì)專利無(wú)效宣告各類程序的期限規(guī)定不完善并提出一系列完善建議;王瑞龍[5]指出了侵權(quán)訴訟中專利權(quán)無(wú)效抗辯制度弊端,認(rèn)為專利無(wú)效抗辯制度導(dǎo)致專利侵權(quán)訴訟周期長(zhǎng)并提出了解決方式。然而,上述文獻(xiàn)主要涉及無(wú)效宣告判別的各類程序,未涉及導(dǎo)致無(wú)效宣告發(fā)生的指標(biāo)研究。②在創(chuàng)新經(jīng)濟(jì)學(xué)視野下,主要針對(duì)專利無(wú)效宣告對(duì)市場(chǎng)份額影響進(jìn)行一系列研究。S. Alessandro[6]認(rèn)為,專利無(wú)效宣告傾向與專利市場(chǎng)份額增長(zhǎng)率呈正相關(guān),專利的市場(chǎng)份額越高,專利發(fā)生無(wú)效宣告的可能性越大;但上述文獻(xiàn)主要探討了專利無(wú)效宣告與市場(chǎng)價(jià)值的關(guān)系,未涉及各類指標(biāo)對(duì)無(wú)效宣告結(jié)果的影響。③在情報(bào)學(xué)視野下,在競(jìng)爭(zhēng)情報(bào)學(xué)中將申請(qǐng)宣告競(jìng)爭(zhēng)對(duì)手的專利無(wú)效視作是一種重要的專利戰(zhàn)略手段。李睿等[7]指出,在技術(shù)市場(chǎng)權(quán)益的爭(zhēng)奪中,優(yōu)質(zhì)專利通常是競(jìng)爭(zhēng)對(duì)手申請(qǐng)無(wú)效宣告的主要目標(biāo);周克放[8]指出專利異議通常由競(jìng)爭(zhēng)對(duì)手提出,能夠成功抵御異議的專利往往可以被定義為該領(lǐng)域價(jià)值相對(duì)較高的專利。此外,專利無(wú)效宣告傾向在不同技術(shù)領(lǐng)域所表現(xiàn)的程度不盡相同,J. R. Allison等[9]指出專利無(wú)效宣告行為的經(jīng)濟(jì)屬性暗示了其為市場(chǎng)價(jià)值的低質(zhì)量專利。與此同時(shí),P. A. Patel等[10]發(fā)現(xiàn)專利異議率在不同的領(lǐng)域所占比例不同,其中在電氣工程領(lǐng)域的異議率在5.3%至9.7%左右;但上述文獻(xiàn)并未涉及從侵權(quán)專利無(wú)效宣告的角度對(duì)專利的價(jià)值進(jìn)行分類預(yù)測(cè)。
通過(guò)以上文獻(xiàn)可以看出,學(xué)術(shù)界對(duì)于侵權(quán)專利無(wú)效宣告識(shí)別分類可以得出以下結(jié)論:在侵權(quán)案件發(fā)生后,依舊被判定為“有效”的專利可視為該行業(yè)的重點(diǎn)且質(zhì)量較高專利,與之相反,被判定為“無(wú)效”的專利可視為該行業(yè)市場(chǎng)中存在較大競(jìng)爭(zhēng)爭(zhēng)議的專利。因此,筆者主要從侵權(quán)專利無(wú)效宣告出發(fā),提出對(duì)此兩種類型的專利進(jìn)行分類模型的構(gòu)建,進(jìn)而實(shí)現(xiàn)對(duì)兩種類型專利的自動(dòng)分類篩選。
1.2? 標(biāo)準(zhǔn)必要專利相關(guān)研究
經(jīng)閱讀文獻(xiàn)可以發(fā)現(xiàn),國(guó)內(nèi)外對(duì)于標(biāo)準(zhǔn)必要專利的定義主要涉及兩個(gè)方面:①標(biāo)準(zhǔn)必要專利涉及的技術(shù)市場(chǎng)壟斷研究。王曉曄[11]探討了標(biāo)準(zhǔn)必要專利涉及的反壟斷訴訟問(wèn)題,認(rèn)為FRAND(Fair, Reasonable and Non-Discriminatory)許可條件沒(méi)有可操作性,以至于越來(lái)越多的涉及標(biāo)準(zhǔn)必要專利的案件進(jìn)入了反壟斷執(zhí)法機(jī)構(gòu)和法院;R. Bekkers等[12]認(rèn)為標(biāo)準(zhǔn)必要專利所披露的信息存在大量的信息不對(duì)稱;李宗輝[13]指出標(biāo)準(zhǔn)必要專利在通信技術(shù)領(lǐng)域較為集中,相關(guān)的國(guó)際平行訴訟體現(xiàn)在各國(guó)技術(shù)、產(chǎn)業(yè)和市場(chǎng)競(jìng)爭(zhēng)的司法層面,以及J. L. Contrera[14]也同樣指出標(biāo)準(zhǔn)必要專利涉及的技術(shù)壟斷在5G無(wú)線通信標(biāo)準(zhǔn)的背景下尤為突出。此外,在標(biāo)準(zhǔn)必要專利的市場(chǎng)價(jià)值研究上,葉若思等[15]認(rèn)為一個(gè)必要標(biāo)準(zhǔn)專利具有唯一性和不可替代性,標(biāo)準(zhǔn)必要專利權(quán)人在必要專利許可市場(chǎng)均擁有完全的份額,具有阻礙或影響其他經(jīng)營(yíng)者進(jìn)入相關(guān)市場(chǎng)的能力;M. V. Laer等[16]指出標(biāo)準(zhǔn)必要專利在國(guó)內(nèi)保持了較高的增值份額,加入全球價(jià)值鏈需要吸收能力,但中國(guó)進(jìn)入SEPs市場(chǎng)較晚,SEPs對(duì)中國(guó)的貿(mào)易效應(yīng)不同于對(duì)成熟經(jīng)濟(jì)體的貿(mào)易效應(yīng),其SEPs的初始值較低。②標(biāo)準(zhǔn)必要專利的特征識(shí)別研究。馬麗婧等[1]指出潛在標(biāo)準(zhǔn)必要專利在引用次數(shù)、被引用次數(shù)、權(quán)利要求數(shù)量、審查時(shí)長(zhǎng)、同族成員個(gè)數(shù)等計(jì)量指標(biāo)上顯著高于普通專利;李婳婧等[17]基于TF-DIF方法進(jìn)行權(quán)重計(jì)算,優(yōu)化標(biāo)準(zhǔn)關(guān)鍵詞并建立檢索式,建立隱含在標(biāo)準(zhǔn)里面的潛在標(biāo)準(zhǔn)必要專利信息識(shí)別路徑。
通過(guò)以上文獻(xiàn)可以看出,學(xué)術(shù)界對(duì)于標(biāo)準(zhǔn)必要專利的研究主要集中在標(biāo)準(zhǔn)必要專利的市場(chǎng)價(jià)值或是其特征研究上,鮮有文獻(xiàn)通過(guò)專利侵權(quán)的角度對(duì)標(biāo)準(zhǔn)必要專利中的價(jià)值較高專利、易發(fā)生侵權(quán)訴訟專利兩者相結(jié)合同時(shí)進(jìn)行分類篩選的研究。
1.3? 專利識(shí)別模型相關(guān)研究
隨著學(xué)科融合的進(jìn)一步發(fā)展,現(xiàn)今針對(duì)專利的各種特征的識(shí)別模型各不相同。對(duì)于專利識(shí)別的研究主要集中在兩個(gè)角度,具體如下:
一是利用傳統(tǒng)的數(shù)學(xué)統(tǒng)計(jì)分析方法進(jìn)行研究。孫玉艷等[18]利用市場(chǎng)法、成本法、收益法和修正收益法對(duì)專利價(jià)值進(jìn)行線性組合和非線性組合預(yù)測(cè),得到加權(quán)算數(shù)平均值組合預(yù)測(cè)和加權(quán)調(diào)和平均組合預(yù)測(cè)兩種評(píng)估模型;徐晨倩等[19]采用量化研究與案例研究相結(jié)合的方法,構(gòu)建了訴訟專利特征與337調(diào)查的回歸模型,并將模型運(yùn)用至其他專利侵權(quán)訴訟案件中,從而達(dá)到專利情報(bào)預(yù)警的目的;王子焉等[20]利用文獻(xiàn)計(jì)量、社會(huì)網(wǎng)絡(luò)分析方法從專利價(jià)值的內(nèi)涵、評(píng)估指標(biāo)體系、評(píng)估方法3個(gè)方面對(duì)專利價(jià)值進(jìn)行評(píng)估。
二是利用數(shù)據(jù)挖掘方法(如深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等)對(duì)專利各類特征進(jìn)行識(shí)別。張杰等[21]采用AdaBoost算法對(duì)訴訟專利的專利質(zhì)量進(jìn)行評(píng)價(jià);李靜等[22]采用深度學(xué)習(xí)算法模型對(duì)新興主題進(jìn)行分析,從而了解新興主題發(fā)展趨勢(shì);翟東升等[23]利用SAO結(jié)構(gòu)對(duì)專利語(yǔ)義特征進(jìn)行抽取,并將其表示為圖的形式,再將圖轉(zhuǎn)換為鄰接矩陣,通過(guò)計(jì)算鄰接矩陣的相似性進(jìn)而達(dá)到判定專利侵權(quán)的目的;國(guó)外學(xué)者J. Jee 等[24]利用人工神經(jīng)網(wǎng)絡(luò)方法對(duì)制藥技術(shù)領(lǐng)域?qū)@M(jìn)行分類,達(dá)到識(shí)別高質(zhì)量專利的目的;I. S. Kang等[15]提出建立聚類模型來(lái)對(duì)侵權(quán)專利進(jìn)行檢索,從而建立侵權(quán)專利的特征模型,但上述研究均未涉及利用專利特征指標(biāo)構(gòu)建風(fēng)險(xiǎn)識(shí)別體系。K.V. Indukuri等[25]利用自然語(yǔ)言處理技術(shù)通過(guò)句法和語(yǔ)義匹配計(jì)算不同專利權(quán)利要求項(xiàng)之間的相似性,得出專利之間的相似性。
通過(guò)總結(jié)上述文獻(xiàn)的研究方法可以看出,學(xué)術(shù)界目前的研究主要利用統(tǒng)計(jì)學(xué)模型,將單個(gè)或多個(gè)模型結(jié)合進(jìn)行單一類型數(shù)據(jù)的分類或預(yù)測(cè),但對(duì)于專利質(zhì)量與專利風(fēng)險(xiǎn)結(jié)合分析研究較為欠缺。因此,筆者在基于傳統(tǒng)侵權(quán)專利的分析研究下,從侵權(quán)專利無(wú)效宣告的特征角度出發(fā),結(jié)合美國(guó)專利商標(biāo)局(United States Patent and Trademark Office, USPTO)中必要標(biāo)準(zhǔn)專利的特征,采用多特征融合的方法,對(duì)文旅行業(yè)的必要標(biāo)準(zhǔn)專利進(jìn)行分類識(shí)別,以篩選出文旅行業(yè)內(nèi)高質(zhì)量專利以及易發(fā)生侵權(quán)訴訟風(fēng)險(xiǎn)專利。
2? 特征選取與研究設(shè)計(jì)
2.1? 研究思路
圖 1為專利風(fēng)險(xiǎn)識(shí)別模型。首先,通過(guò)閱讀國(guó)內(nèi)外的大量研究文獻(xiàn),對(duì)標(biāo)準(zhǔn)專利的概念進(jìn)行界定,結(jié)合指標(biāo)的可獲取性、科學(xué)性等因素,選取標(biāo)準(zhǔn)專利的文本內(nèi)容和數(shù)據(jù)指標(biāo);通過(guò)文獻(xiàn)檢索的方法,獲取美國(guó)專利商標(biāo)局(USPTO)[26]標(biāo)準(zhǔn)專利中發(fā)生侵權(quán)訴訟后被判定為“有效”或“無(wú)效”的標(biāo)準(zhǔn)專利作為標(biāo)記數(shù)據(jù)和選定待預(yù)測(cè)的未標(biāo)記數(shù)據(jù)集。其次,對(duì)文本數(shù)據(jù)和指標(biāo)數(shù)據(jù)進(jìn)行降維數(shù)據(jù)融合,形成新指標(biāo)特征。最后,選取機(jī)器學(xué)習(xí)的監(jiān)督學(xué)習(xí)中K近鄰、樸素貝葉斯模型和半監(jiān)督學(xué)習(xí)算法中半監(jiān)督向量機(jī)、偽標(biāo)簽隨機(jī)森林等模型,對(duì)未標(biāo)記數(shù)據(jù)進(jìn)行專利的分類預(yù)測(cè)篩選,其中被判定為“有效”的專利即為行業(yè)標(biāo)準(zhǔn)專利內(nèi)的重點(diǎn)具有核心價(jià)值的專利,被判定為“無(wú)效”的專利即為行業(yè)標(biāo)準(zhǔn)內(nèi)極易發(fā)生侵權(quán)訴訟的專利。最終,通過(guò)從專利侵權(quán)無(wú)效宣告的角度出發(fā),達(dá)到對(duì)不同領(lǐng)域標(biāo)準(zhǔn)必要專利中的潛在重點(diǎn)專利識(shí)別的最優(yōu)選算法指標(biāo)選取目的,進(jìn)而建立較為精準(zhǔn)的潛在重點(diǎn)專利自動(dòng)篩選體系。
2.2? 指標(biāo)選取
2.2.1? 語(yǔ)義特征提取
學(xué)術(shù)界對(duì)于專利文本的選取各不相同,但主要包含專利摘要、專利權(quán)利要求書(shū)和專利說(shuō)明書(shū)。筆者選取專利摘要進(jìn)行語(yǔ)義特征提取,專利摘要是對(duì)專利說(shuō)明書(shū)內(nèi)容的概述,主要包括發(fā)明或?qū)嵱眯滦蛯@拿Q、專利所屬的技術(shù)領(lǐng)域和需要解決的技術(shù)問(wèn)題、發(fā)明或?qū)嵱眯滦蜕婕暗闹饕夹g(shù)特征和用途。在專利摘要研究方面,繆建明等[27]在專利摘要的基礎(chǔ)上,采用類中心向量分類算法對(duì)專利進(jìn)行快速自動(dòng)分類;吳潔等[28]利用專利摘要生成專利的核心詞匯網(wǎng)絡(luò),搭建基于圖卷積網(wǎng)絡(luò)的高質(zhì)量專利自動(dòng)識(shí)別模型;周群芳等[29]利用摘要對(duì)中文專利的新技術(shù)術(shù)語(yǔ)進(jìn)行識(shí)別。
因此,在語(yǔ)義識(shí)別方面,筆者利用自然語(yǔ)言識(shí)別中Word2vec模型對(duì)文本內(nèi)容進(jìn)行詞語(yǔ)向量化處理,主要涉及兩種模型:CBOW模型和Skip-gram模型(見(jiàn)圖2)。筆者主要采用CBOW模型,具體訓(xùn)練方法為:輸入層由one-hot編碼的輸入文本組成,隱藏層是n維的向量,最后輸出層是由one-hot編碼的輸出文本向量。
2.2.2? 計(jì)量指標(biāo)選取
學(xué)術(shù)界對(duì)于專利的各類特性的評(píng)估指標(biāo)選取方式也各不相同,馮君[30]從專利技術(shù)質(zhì)量、專利權(quán)保護(hù)質(zhì)量、產(chǎn)業(yè)高度和社會(huì)經(jīng)濟(jì)效益4個(gè)方面對(duì)單件專利質(zhì)量進(jìn)行評(píng)價(jià);劉亞杰等[31]從法律風(fēng)險(xiǎn)、技術(shù)風(fēng)險(xiǎn)、組織管理風(fēng)險(xiǎn)、合作因素風(fēng)險(xiǎn)、環(huán)境因素風(fēng)險(xiǎn)5個(gè)方面構(gòu)建高校專利運(yùn)營(yíng)風(fēng)險(xiǎn)評(píng)估指標(biāo)體系。因此,筆者結(jié)合國(guó)內(nèi)對(duì)專利質(zhì)量評(píng)價(jià)和專利風(fēng)險(xiǎn)評(píng)估兩方面的研究選取重點(diǎn)專利篩選指標(biāo),主要從技術(shù)層面、法律層面和市場(chǎng)層面3個(gè)維度選取構(gòu)建專利篩選模型指標(biāo)。
在技術(shù)層面,筆者主要選取8個(gè)計(jì)量指標(biāo),首先是專利技術(shù)方面,涉及單件利的“技術(shù)先進(jìn)性”“技術(shù)穩(wěn)定性”和“IPC個(gè)數(shù)”,此類指標(biāo)主要體現(xiàn)了專利的技術(shù)覆蓋范圍,J. Lerner 等[32]提出用專利文件中的IPC(國(guó)際專利分類號(hào))小類的數(shù)量來(lái)衡量專利覆蓋的技術(shù)范圍;其次是專利引證方面,主要涉及單件專利的“引證次數(shù)”“家族引證次數(shù)”,張嫻等[33]指出根據(jù)專利的引證關(guān)系可以看出專利之間的累積與繼承關(guān)系;最后是專利的被引證方面,主要涉及單件專利的“被引證次數(shù)”和“家族被引證次數(shù)”,李春燕等[34]指出如果專利的被引用次數(shù)越多,則該專利越能代表該領(lǐng)域的基礎(chǔ)技術(shù),可以反映出該專利的技術(shù)先進(jìn)性。在法律層面,筆者主要選取“權(quán)利要求數(shù)量”“保護(hù)范圍”“轉(zhuǎn)讓次數(shù)”和“首權(quán)字?jǐn)?shù)”,主要涉及專利權(quán)法律效力所涉及的發(fā)明創(chuàng)造的范圍,郭青等[35]認(rèn)為權(quán)利要求數(shù)量越多,專利的保護(hù)范圍越廣;“保護(hù)范圍”主要涉及專利權(quán)法律效力所涉及的發(fā)明創(chuàng)造的范圍,“轉(zhuǎn)讓次數(shù)”反映專利的交易次數(shù),劉強(qiáng)[36]認(rèn)為重大技術(shù)的專利轉(zhuǎn)讓會(huì)給企業(yè)帶來(lái)大額的經(jīng)濟(jì)效益,極易發(fā)生轉(zhuǎn)讓合同生效與解除、合同權(quán)利與義務(wù)等法律問(wèn)題;“首權(quán)字?jǐn)?shù)”反映專利保護(hù)的技術(shù)特征數(shù)量。在市場(chǎng)層面,筆者主要選取“簡(jiǎn)單同族個(gè)數(shù)”“擴(kuò)展同族個(gè)數(shù)”和“DocDB同族個(gè)數(shù)”,楊秀財(cái)[37]認(rèn)為同族專利數(shù)量可以反映專利家族學(xué)術(shù)影響力。重點(diǎn)專利篩選指標(biāo)如表1所示:
2.3? 研究方法
2.3.1? 模型選取
(1)模型降維融合。在模型文本特征和計(jì)量指標(biāo)數(shù)據(jù)降維融合方面,筆者選取目前較為常用的降維方法——PCA主成分分析法(principal component analysis),它是一種非監(jiān)督的機(jī)器學(xué)習(xí)算法。一般使用方差(variance)來(lái)定義樣本之間的間距,公式如下:
(2)訓(xùn)練模型選取。在數(shù)據(jù)模型建立方面,筆者選取機(jī)器學(xué)習(xí)中分類模型,主要涉及監(jiān)督和半監(jiān)督學(xué)習(xí)中以下幾種模型:一方面是半監(jiān)督學(xué)習(xí)中半監(jiān)督向量機(jī)(transductive support vector machine, TSVM),TSVM是支持向量機(jī)在半監(jiān)督學(xué)習(xí)上的推廣,穿過(guò)數(shù)據(jù)低密度區(qū)域的劃分超平面將兩類有標(biāo)記樣本分開(kāi);其次是利用偽標(biāo)簽(pseudo-labelling)算法和集成學(xué)習(xí)中隨機(jī)森林(random forest)算法結(jié)合,利用隨機(jī)森林訓(xùn)練標(biāo)記數(shù)據(jù)建立模型,再利用該模型為未標(biāo)記數(shù)據(jù)集生成偽標(biāo)簽,將原始標(biāo)簽和偽標(biāo)簽的數(shù)據(jù)集組合在一起進(jìn)行最終分類模型訓(xùn)練。另一方面是監(jiān)督學(xué)習(xí)K近鄰(K-Nearest Neighbor,KNN),KNN是將已知類別的樣本作為參照,計(jì)算未標(biāo)記數(shù)據(jù)集與標(biāo)記數(shù)據(jù)集的距離,將未標(biāo)記數(shù)據(jù)與K個(gè)最鄰近標(biāo)記數(shù)據(jù)集中所屬類別占比較多的歸為一類;樸素貝葉斯算法(Na?ve Bayesian)根據(jù)貝葉斯公式來(lái)對(duì)未標(biāo)記進(jìn)行分類,把未標(biāo)記數(shù)據(jù)判別為概率最大的一類。
2.3.2? 模型評(píng)估
筆者采用多模態(tài)模型最終完成的任務(wù)是專利無(wú)效宣告的二分類問(wèn)題,故采用準(zhǔn)確率(accuracy)、平均精確率(precision)、平均召回率(recall)、平均F1值(F1)以及ROC曲線下方的面積(area under ROC the curve)5個(gè)指標(biāo)對(duì)模型的性能進(jìn)行評(píng)價(jià)。對(duì)于二分類問(wèn)題,將樣例數(shù)據(jù)根據(jù)機(jī)器學(xué)習(xí)的預(yù)測(cè)類別與實(shí)際類別相結(jié)合分為真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative)4種情況。
準(zhǔn)確率是指模型分類正確的專利樣本數(shù)量與所有的專利樣本數(shù)量的比值,其計(jì)算公式如下:
精確率是指檢測(cè)出某類特征的數(shù)量與檢測(cè)出的所有特征數(shù)量之間的比率,衡量的是模型的查準(zhǔn)率,其計(jì)算公式下:
平均召回率是指檢測(cè)出的某類特征的數(shù)量和數(shù)據(jù)集中所有的該類特征數(shù)量的比率,衡量的是檢索系統(tǒng)的查全率,其計(jì)算公式如下:
F1是基于查準(zhǔn)率與查全率的調(diào)和平均(harmonic mean)定義的,一般情況下,當(dāng)F1較高時(shí)則說(shuō)明試驗(yàn)方法比較有效,其計(jì)算公式如下:
AUC(Area Under Curve)可通過(guò)ROC曲線下各部分的面積求和而得,假定ROC曲線(receiver operating characteristic)是由坐標(biāo)為{(x1, y1), (x2, y2)……(xm, ym)}特征值組成,ROC曲線的y代表“真正準(zhǔn)確率”(true positive rate),x代表“假正例率”(false positive rate),其計(jì)算公式如下:
3? 實(shí)證分析
3.1? 數(shù)據(jù)來(lái)源與數(shù)據(jù)處理
《“十四五”文化和旅游科技創(chuàng)新規(guī)劃》[38]中指出開(kāi)展信息技術(shù)在文化和旅游領(lǐng)域應(yīng)用示范,推動(dòng)行業(yè)開(kāi)發(fā)信息技術(shù)應(yīng)用新場(chǎng)景。因此,筆者選取新興產(chǎn)業(yè)中數(shù)字創(chuàng)意產(chǎn)業(yè)在新一代信息技術(shù)產(chǎn)業(yè)中的應(yīng)用作為研究主題,利用機(jī)器學(xué)習(xí)中分類模型,對(duì)該主題必要標(biāo)準(zhǔn)專利中的潛在高質(zhì)量專利和易發(fā)生侵權(quán)訴訟的專利進(jìn)行分類識(shí)別。模型主要涉及以下兩個(gè)方面:首先是標(biāo)記數(shù)據(jù)庫(kù),筆者選用美國(guó)專利商標(biāo)局(USPTO)[27]標(biāo)準(zhǔn)專利中侵權(quán)專利數(shù)據(jù)庫(kù)作為標(biāo)記數(shù)據(jù),該數(shù)據(jù)為USPTO官方網(wǎng)站公布的1963—2016年在美國(guó)聯(lián)邦地區(qū)法院提起的專利訴訟數(shù)據(jù)集,王春博等[39]認(rèn)為通過(guò)分析美國(guó)專利訴訟的發(fā)生原因,能為中國(guó)企業(yè)提前降低專利訴訟風(fēng)險(xiǎn)提供一定的參考;其次是未標(biāo)記數(shù)據(jù),筆者選取歐洲電信標(biāo)準(zhǔn)化協(xié)會(huì)(European Telecommunications Standards Institute)和國(guó)際電信聯(lián)盟(International Telecommunication Union)標(biāo)準(zhǔn)專利數(shù)據(jù)庫(kù)中該主題的國(guó)內(nèi)標(biāo)準(zhǔn)必要專利,構(gòu)建檢索式為:INDUSTRY1=(8 AND 1) AND STD-TYPE=(ETSI OR ITU),其中,INDUSTRY為戰(zhàn)略性新興產(chǎn)業(yè)類型(1:新一代信息技術(shù);8:數(shù)字創(chuàng)意產(chǎn)業(yè)),STD-TYPE為標(biāo)準(zhǔn)必要專利類型。綜上所述,標(biāo)記數(shù)據(jù)為422件,未標(biāo)記數(shù)據(jù)1 972件專利。
3.2? 分類模型構(gòu)建
3.2.1? 特征轉(zhuǎn)化融合
首先,利用2.2.1節(jié)所述的文本向量模型對(duì)專利摘要進(jìn)行詞向量處理,將專利摘要轉(zhuǎn)化為一個(gè)300維的特征向量用以表征專利文本特征;其次,再將文本向量和數(shù)據(jù)指標(biāo)橫向拼接后得到特征矩陣,再利用PCA成分分析法對(duì)特征向量矩陣進(jìn)行降維處理,利用PCA算法對(duì)所構(gòu)建的特征矩陣進(jìn)行融合重組,得出解釋方差比例和主成分個(gè)數(shù)之間的關(guān)系。如圖3所示,當(dāng)主成分個(gè)數(shù)在50左右時(shí),解釋方差的比例開(kāi)始趨近于穩(wěn)定。因此,在模型構(gòu)建時(shí),將主成分個(gè)數(shù)設(shè)定為50進(jìn)行特征合并。
3.2.2? 分類模型
首先,使用Word2vec對(duì)專利摘要進(jìn)行文本詞向量化轉(zhuǎn)換,再利用PCA主成分分析法對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,將融合后的數(shù)據(jù)分別建立半監(jiān)督向量機(jī)、K近鄰、樸素貝葉斯算法、偽標(biāo)簽隨機(jī)森林4種機(jī)器學(xué)習(xí)模型,利用“留出法”(hold out)按照8:2的比例,將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。在訓(xùn)練集上進(jìn)行單獨(dú)訓(xùn)練,其中KNN模型利用交叉驗(yàn)證繪制錯(cuò)誤率走勢(shì)圖,如圖4所示,當(dāng)neighbors為8左右時(shí),整體模型錯(cuò)誤率最低,僅為0.17左右。
其余模型均采用交叉驗(yàn)證結(jié)合網(wǎng)格搜索以及學(xué)習(xí)曲線的方式尋找最優(yōu)超參數(shù)組合,各個(gè)分類器的參數(shù)組合見(jiàn)表2。由表2可以看出,集成學(xué)習(xí)的模型參數(shù)劃分相比較于單個(gè)學(xué)習(xí)模型劃分要更加細(xì)致,這主要是由于集成模型會(huì)對(duì)原始數(shù)據(jù)進(jìn)行有放回的隨機(jī)采樣,所以在模型的參數(shù)劃分上更加細(xì)致。
3.3.1? 特征重要程度評(píng)估
圖5為訓(xùn)練集模型指標(biāo)的特征重要程度。在訓(xùn)練模型構(gòu)建完成后,由于不同特征對(duì)于模型的影響程度不同,為了防止個(gè)別指標(biāo)重要性較高,影響模型其他指標(biāo)效果,則需要對(duì)所選取特征的信息熵進(jìn)行分別計(jì)算,選取最優(yōu)指標(biāo)。筆者將訓(xùn)練集數(shù)據(jù)進(jìn)行特征重要程度可視化,由圖5可以看出,首先是特征重要程度排名前三的指標(biāo),排在第一位的是“11DocDB同族個(gè)數(shù)”,對(duì)于模型分類結(jié)果的重要程度最高,重要程度為0.16左右;排在第二位的是“3引證次數(shù)”,重要程度為0.15左右;排在第三位的是“4被引證次數(shù)”,重要程度為0.10左右。其次,“6技術(shù)先進(jìn)性”重要程度在14項(xiàng)指標(biāo)中排名最低,僅為0.02左右。最后,其余指標(biāo)的重要程度均在0.05左右。
根據(jù)特征的重要程度可以看出,所選取的14項(xiàng)指標(biāo)的特征重要程度分布相對(duì)較為均衡,不存在個(gè)別指標(biāo)主導(dǎo)整體模型情況。因此,所構(gòu)建模型選取的14項(xiàng)指標(biāo)均可放入多特征融合的必要標(biāo)準(zhǔn)專利分類當(dāng)中。
3.3.2? 參數(shù)評(píng)估
為了評(píng)估筆者構(gòu)建的機(jī)器學(xué)習(xí)模型的性能,采用2.2.3節(jié)所述的評(píng)估指標(biāo),對(duì)半監(jiān)督向量機(jī)、K近鄰、樸素貝葉斯算法、偽標(biāo)簽隨機(jī)森林4個(gè)模型在測(cè)試集上的Accuracy(準(zhǔn)確率)、Precision(精準(zhǔn)率)、Recall(召回率)、F1-score(F1分?jǐn)?shù))以及AUC(可分離測(cè)度)在測(cè)試集上的表現(xiàn)進(jìn)行評(píng)分對(duì)比。如表3所示,從表中可以看出,在測(cè)試集中,Random Forest的Accuracy、Precision、Recall、F1以及AUC的評(píng)分是所有模型當(dāng)中最高的,其評(píng)分均在0.85以上。由此可見(jiàn),筆者構(gòu)建的數(shù)據(jù)在偽標(biāo)簽隨機(jī)森林集成模型上的表現(xiàn)相較于其他單個(gè)模型表現(xiàn)較優(yōu),將計(jì)量指標(biāo)和文本特征進(jìn)行融合后,對(duì)標(biāo)準(zhǔn)專利識(shí)別分類模型所涉及的內(nèi)容更加全面,對(duì)于專利的分類識(shí)別也就更加準(zhǔn)確。另外,本文數(shù)據(jù)主要來(lái)源于美國(guó)USPTO中標(biāo)準(zhǔn)專利侵權(quán)案件,根據(jù)上述5種模型的運(yùn)行和評(píng)估情況,均可以將模型運(yùn)用在不同領(lǐng)域的專利不同類別的識(shí)別。
3.4? 專利分類篩選
模型構(gòu)建完成后,再將“未標(biāo)記”數(shù)據(jù)集放入模型進(jìn)行無(wú)效宣告預(yù)測(cè),結(jié)果為341件專利被預(yù)測(cè)為“有效”,即為行業(yè)內(nèi)重點(diǎn)必要標(biāo)準(zhǔn)專利;1 631件專利被預(yù)測(cè)為“無(wú)效”專利,即為行業(yè)內(nèi)極易發(fā)生侵權(quán)訴訟專利。表4為未標(biāo)記數(shù)據(jù)特征平均值,表5為模型預(yù)測(cè)結(jié)果為“有效”的專利清單,表6為模型預(yù)測(cè)結(jié)果為“無(wú)效”的專利清單(僅展示部分?jǐn)?shù)據(jù))。
根據(jù)表4可以看出,其中被預(yù)測(cè)為“有效”的高質(zhì)量專利的主要計(jì)量指標(biāo)特征的取值分別為:平均被引證次數(shù)為0.243左右、平均首權(quán)字?jǐn)?shù)為258、平均技術(shù)先進(jìn)性為9.65、平均技術(shù)穩(wěn)定性為8.95、平均同族個(gè)數(shù)為17.77、權(quán)利要求數(shù)量為24.29;而被預(yù)測(cè)為“無(wú)效”的極易發(fā)生侵權(quán)訴訟的主要計(jì)量指標(biāo)特征的取值分別為:平均被引證次數(shù)0.91、平均首權(quán)字?jǐn)?shù)為288、平均技術(shù)先進(jìn)性為9.21、平均技術(shù)穩(wěn)定性為8.76、平均同族個(gè)數(shù)為19.21、權(quán)利要求數(shù)量為19.42。由此可以看出,兩者的相差主要集中在被引次數(shù)、首權(quán)字?jǐn)?shù)和權(quán)利要求數(shù)量,其余指標(biāo)的相差較小。因此,企業(yè)應(yīng)多注重自身被引次數(shù)較高、首權(quán)字?jǐn)?shù)較多的專利,該類專利易發(fā)生侵權(quán)訴訟風(fēng)險(xiǎn)。
根據(jù)表5所預(yù)測(cè)結(jié)果為“有效”的專利主題可以看出,近5年,在文化和旅游科技創(chuàng)新領(lǐng)域的高質(zhì)量重點(diǎn)標(biāo)準(zhǔn)專利主要集中在涉及網(wǎng)絡(luò)安全監(jiān)視、網(wǎng)絡(luò)密鑰、信息處理等技術(shù)主題中。同時(shí),根據(jù)表6所預(yù)測(cè)結(jié)果為“無(wú)效”的專利主題可以看出,近5年,在文化和旅游科技創(chuàng)新領(lǐng)域的標(biāo)準(zhǔn)專利在移動(dòng)通信系統(tǒng)、信息終端接入、移動(dòng)數(shù)據(jù)處理等技術(shù)主題中極易存在訴訟競(jìng)爭(zhēng)的風(fēng)險(xiǎn)。結(jié)合崔維軍[40]所指出的5G標(biāo)準(zhǔn)必要專利分布特征主要集中在內(nèi)部固定網(wǎng)絡(luò)、LTE和無(wú)線電技術(shù)等領(lǐng)域。因此,行業(yè)內(nèi)企業(yè)在后續(xù)專利研發(fā)、布局中可以參考標(biāo)準(zhǔn)必要重點(diǎn)專利清單,同時(shí)根據(jù)訴訟風(fēng)險(xiǎn)清單盡可能規(guī)避該類技術(shù)主題存在的訴訟風(fēng)險(xiǎn)。
4? 研究發(fā)現(xiàn)與結(jié)果討論
4.1? 研究發(fā)現(xiàn)
筆者首先根據(jù)前人對(duì)于專利無(wú)效宣告和必要標(biāo)準(zhǔn)專利的相關(guān)研究,提出了從專利侵權(quán)無(wú)效宣告視角出發(fā),基于多模態(tài)融合的專利分類方法;其次,利用Word2vec對(duì)文本進(jìn)行數(shù)據(jù)轉(zhuǎn)換,再采用集成學(xué)習(xí)模型和機(jī)器學(xué)習(xí)中二分類模型,對(duì)專利無(wú)效宣告傾向進(jìn)行分類,進(jìn)行模型對(duì)比驗(yàn)證;最后,在數(shù)據(jù)庫(kù)的選取上,將美國(guó)標(biāo)準(zhǔn)專利數(shù)據(jù)庫(kù)和國(guó)內(nèi)新興產(chǎn)業(yè)標(biāo)準(zhǔn)專利相結(jié)合,對(duì)模型進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證筆者構(gòu)建的專利分類模型的有效性及準(zhǔn)確性。通過(guò)實(shí)證分析得出如下結(jié)論:
(1)模型構(gòu)建方面。在對(duì)文本和數(shù)據(jù)的處理上,由于數(shù)據(jù)向量形成較多,則需要對(duì)融合向量進(jìn)行數(shù)據(jù)合并和數(shù)據(jù)降維處理,可選用主成分分析法對(duì)向量進(jìn)行降維。與此同時(shí),在模型分化時(shí),為了防止模型的過(guò)擬合,含有過(guò)多的不必要信息,需要計(jì)算模型的最佳節(jié)點(diǎn)和最
佳分化方法,可利用交叉驗(yàn)證方法繪制錯(cuò)誤率、網(wǎng)格搜索法以及繪制學(xué)習(xí)曲線的方式來(lái)獲取所選取模型的各類最優(yōu)參數(shù)。另外,根據(jù)模型的評(píng)估結(jié)果可以看出,偽標(biāo)簽和隨機(jī)森林相結(jié)合模型效果較好,準(zhǔn)確率為0.86左右,F(xiàn)1為0.85左右。在模型構(gòu)建后,為了防止個(gè)別指標(biāo)出現(xiàn)主導(dǎo)整體預(yù)測(cè)結(jié)果的現(xiàn)象出現(xiàn),需要對(duì)所選取的特征指標(biāo)進(jìn)行特征重要程度的分析。根據(jù)特征重要程度排序可以看出,集成學(xué)習(xí)模型的整體表現(xiàn)要優(yōu)于單個(gè)模型的訓(xùn)練。
(2)識(shí)別結(jié)論。通過(guò)構(gòu)建模型識(shí)別可以看出,文化和旅游科技創(chuàng)新領(lǐng)域的高質(zhì)量重點(diǎn)標(biāo)準(zhǔn)專利主要集中在涉及網(wǎng)絡(luò)安全監(jiān)視、網(wǎng)絡(luò)密鑰、信息處理等技術(shù)主題,在移動(dòng)通信系統(tǒng)、信息終端接入、移動(dòng)數(shù)據(jù)處理等技術(shù)主題中極易存在訴訟競(jìng)爭(zhēng)的風(fēng)險(xiǎn),為后續(xù)國(guó)內(nèi)文旅企業(yè)專利布局提供一定的參考。并且根據(jù)模型的整體呈現(xiàn)效果,建立一套較為完整的專利分類篩選體系,可以應(yīng)用于多個(gè)領(lǐng)域,快速定位行業(yè)內(nèi)的重點(diǎn)專利的同時(shí),達(dá)到很好的專利預(yù)警效果。
4.2? 結(jié)果討論
筆者主要以美國(guó)專利商標(biāo)局(USPTO)披露的各行業(yè)必要標(biāo)準(zhǔn)專利為參考標(biāo)準(zhǔn),選取當(dāng)中發(fā)生的侵權(quán)專利,對(duì)國(guó)內(nèi)新興產(chǎn)業(yè)行業(yè)內(nèi)專利進(jìn)行重點(diǎn)專利和易發(fā)生訴訟專利進(jìn)行分類篩選,同時(shí)實(shí)現(xiàn)兩種不同類型專利的分類篩選。綜上所述,筆者構(gòu)建的必要標(biāo)準(zhǔn)專利預(yù)測(cè)模型以及專利無(wú)效宣告的預(yù)警體系對(duì)我國(guó)專利的研究具有一定的參考性以及現(xiàn)實(shí)意義,可以為企業(yè)以及其他創(chuàng)新主體對(duì)于自身專利的情況提供一定的判斷依據(jù),為保護(hù)自身專利的穩(wěn)定性提供相應(yīng)的數(shù)據(jù)支持。
但是,筆者構(gòu)建的預(yù)測(cè)模型和預(yù)警體系也存在一定的局限性:①在數(shù)據(jù)識(shí)別指標(biāo)的選取上,主要選取部分定量指標(biāo)進(jìn)行模型構(gòu)建,并未充分考慮其他外部因素指標(biāo)對(duì)于侵權(quán)無(wú)效宣告預(yù)測(cè)的影響,識(shí)別預(yù)測(cè)指標(biāo)體系也需進(jìn)一步完善。并且選取數(shù)據(jù)二分類較為均衡,且本文數(shù)據(jù)模型是對(duì)已經(jīng)涉及侵權(quán)案例中最終有效或無(wú)效進(jìn)行判定,并未充分考慮是否侵權(quán)判定。②在文本類別的識(shí)別上,筆者主要選取摘要作為本文數(shù)據(jù),并未涉及專利的說(shuō)明書(shū)和權(quán)利要求書(shū),對(duì)于專利文本的提取不夠全面。③在模型的選取上,筆者僅采用機(jī)器學(xué)習(xí)中偽標(biāo)簽、支持向量機(jī)、K近鄰、樸素貝葉斯以及集成學(xué)習(xí)中隨機(jī)森林對(duì)專利進(jìn)行分類篩選的構(gòu)建,模型選擇較為單一,并未嘗試?yán)脭?shù)據(jù)挖掘中其他模型對(duì)專利進(jìn)行分類預(yù)測(cè)的構(gòu)建。因此,在后續(xù)的研究過(guò)程中,筆者將根據(jù)以上三點(diǎn)進(jìn)行更加深入的研究,不斷完善專利預(yù)警預(yù)測(cè)模型,進(jìn)而構(gòu)建更加精準(zhǔn)的專利無(wú)效宣告的預(yù)警體系,進(jìn)一步改進(jìn)模型,使分析結(jié)果更為準(zhǔn)確。
參考文獻(xiàn):
[1] 馬麗婧, 劉婷, 趙亞娟, 等. 潛在標(biāo)準(zhǔn)必要專利特征研究[J]. 中國(guó)發(fā)明與專利, 2021, 18(7): 3-12. (MA L J, LIU T, ZHAO Y J, et al. Research on the characteristics of potential standard essential patents[J]. CHINA invention & patent, 2021, 18(7): 3-12.)
[2] 孫茂宇, 蘇志國(guó), 毛琎. 標(biāo)準(zhǔn)涉及專利問(wèn)題研究[C]//專利法研究(2013). 北京: 知識(shí)產(chǎn)權(quán)出版社, 2015: 263-273. (SUN M Y, SU Z G, MAO J. Standards research on patent issues [C]//Patent Law Research (2013). Beijing: Intellectual Property Publishing House, 2015: 263-273.)
[3] 知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)建設(shè)綱要(2021—2035年)[J]. 知識(shí)產(chǎn)權(quán), 2021(10): 3-9. (Outline for building a strong intellectual property country (2021—2035)[J]. Intellectual property, 2021(10): 3-9.)
[4] 李曉鳴. 我國(guó)專利無(wú)效宣告制度的不足及其完善[J]. 法律科學(xué)(西北政法大學(xué)學(xué)報(bào)), 2021, 39(1): 149-159. (LI X M. The deficiency and perfection of patent invalidation system in China [J]. Science of law (Journal of Northwest University of Political Science and Law), 2021, 39(1): 149-159.)
[5] 王瑞龍. 侵權(quán)訴訟中專利權(quán)無(wú)效抗辯制度弊端及解決路徑[J]. 中南民族大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2018, 38(2): 126-131. (WANG R L. The drawbacks and solutions of the patent invalidation defense system in infringement litigation [J]. Journal of South-Central Minzu University (humanities and social sciences edition), 2018, 38 (2): 126-131.)
[6] STERLACCHINI A. Trends and determinants of energy innovations: patents, environmental policies and oil prices[J]. Journal of economic policy reform, 2020, 23(1): 49-66.
[7] 李睿, 徐璇. 宣告無(wú)效專利的引文特征及其情報(bào)學(xué)意義[J]. 情報(bào)理論與實(shí)踐, 2019, 42(2): 25-30. (LI R, XU X. Citation characteristics and information science significance of invalid patents [J]. I Information studies: theory & application, 2019, 42(2): 25-30.)
[8] 周克放, 喬永忠. 基于無(wú)效程序的ICT領(lǐng)域?qū)@|(zhì)量影響因素研究[J]. 科研管理, 2021, 42(10): 148-155. (ZHOU K F, QIAO Y Z. Research on the influencing factors of patent quality in ICT field based on invalid procedures [J]. Scientific research management, 2021, 42(10): 148-155.)
[9] RAI A K, ALLISON J R, SAMPAT B N. University software ownership and litigation: a first examination[J]. North Carolina law review, 2009, 87(5): 1519.
[10] PATEL P A, HALL A, AUGOUSTIDES J G T, et al. Dynamic shunting across a patent foramen ovale in adult cardiac surgery—perioperative challenges and management[J]. Journal of cardiothoracic and vascular anesthesia, 2018, 32(1): 542-549.
[11] 王曉曄. 標(biāo)準(zhǔn)必要專利反壟斷訴訟問(wèn)題研究[J]. 中國(guó)法學(xué), 2015(6): 217-238. (WANG X Y. Research on antitrust litigation of standard essential patents [J]. China legal science, 2015(6): 217-238.)
[12] BEKKERS R, MARTINELLI A, TAMAGNI F. The impact of including standards-related documentation in patent prior art: Evidence from an EPO policy change[J]. Research policy, 2020, 49(7): 104007.
[13] 李宗輝. 標(biāo)準(zhǔn)必要專利跨國(guó)訴訟中禁訴令的適用標(biāo)準(zhǔn)研究[J]. 法商研究, 2022, 39(4): 187-200. (LI ZH. Research on the applicable standards of injunction in transnational litigation of standard essential patents[J]. Legal quotient research, 2022, 39(4): 187-200.)
[14] CONTRERAS J L. Patents on 5G standards are not matters of national security[J]. IIC-International review of intellectual property and competition law, 2022, 53(6): 849-852.
[15] KANG I S, NA S H, KIM J, et al. Cluster-based patent retrieval[J]. Information processing & management, 2007, 43(5): 1173-1182.
[16] LAER M V, BLIND K, RAMEL F. Standard essential patents and global ICT value chains with a focus on the catching-up of China[J]. Telecommunications policy, 2022, 46(2): 102110.
[17] 李婳婧, 謝秋琪, 李聞?dòng)? 潛在標(biāo)準(zhǔn)必要專利信息識(shí)別路徑研究——以5G標(biāo)準(zhǔn)為例[J]. 中國(guó)標(biāo)準(zhǔn)化, 2022(15): 81-87. (LI H J, XIE Q Q, LI W Y. Research on the identification path of potential standard essential patent information-taking 5G standard as an example[J]. China standardization, 2022(15): 81-87.)
[18] 孫玉艷, 張文德. 基于組合預(yù)測(cè)模型的專利價(jià)值評(píng)估研究[J]. 情報(bào)探索, 2010(6): 73-76. (SUN Y Y, ZHANG W D. Research on patent value evaluation based on combined forecasting model[J]. Information research, 2010(6): 73-76.)
[19] 徐晨倩, 朱雪忠. 基于訴訟專利情報(bào)的美國(guó)337調(diào)查風(fēng)險(xiǎn)預(yù)警研究[J]. 情報(bào)雜志, 2021, 40(9): 37-44. (XU CQ, ZHU XZ. Research on risk early warning of US 337 investigation based on litigation patent information[J]. Journal of intelligence, 2021, 40(9): 37-44.)
[20] 王子焉, 劉文濤, 倪淵, 等. 專利價(jià)值評(píng)估研究綜述[J]. 科技管理研究, 2019, 39(16): 181-190. (WANG Z Y, LIU W T, NI Y, et al. Review of patent value evaluation research[J]. Science and technology management research, 2019, 39(16): 181-190.)
[21] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質(zhì)量評(píng)價(jià)方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)
[22] 李靜, 徐路路. 基于機(jī)器學(xué)習(xí)算法的研究熱點(diǎn)趨勢(shì)預(yù)測(cè)模型對(duì)比與分析——BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)與LSTM模型[J]. 現(xiàn)代情報(bào), 2019, 39(4): 23-33. (LI J, XU LR. Comparison and analysis of research hotspot trend prediction models based on machine learning algorithms-BP neural network, support vector machine and LSTM model [J]. Journal of modern information, 2019, 39(4): 23-33.)
[23] 張杰, 孫超, 翟東升, 等. 基于訴訟專利的專利質(zhì)量評(píng)價(jià)方法研究[J]. 科研管理, 2018, 39(5): 138-146. (ZHANG J, SUN C, ZHAI D S, et al. Research on patent quality evaluation method based on litigation patents[J]. Scientific research management, 2018, 39(5): 138-146.)
[24] JEE J, SHIN H, KIM C, et al. Six different approaches to defining and identifying promising technology through patent analysis[J]. Technology analysis & strategic management, 2022, 34(8): 961-973.
[25] INDUKURI K V, AMBEKAR A A, SUREKA A. Similarity analysis of patent claims using natural language processing techniques[C]//International conference on computational intelligence and multimedia applications (ICCIMA 2007). Piscataway: IEEE, 2007: 169-175.
[26] Patent litigation data from US district court electronic records (1963-2015)[EB/OL]. [2023-09-20]. https://www. uspto.gov/.
[27] 繆建明, 賈廣威, 張運(yùn)良. 基于摘要文本的專利快速自動(dòng)分類方法[J]. 情報(bào)理論與實(shí)踐, 2016, 39(8): 103-105, 91. (MIAO J M, JIA G W, ZHANG Y L. Rapid automatic classification of patents based on abstract text[J]. Information studies: theory & application, 2016, 39(8): 103-105, 91.)
[28] 吳潔, 桂亮, 劉鵬, 等. 多維特征視角下基于圖卷積網(wǎng)絡(luò)的專利技術(shù)領(lǐng)域自動(dòng)識(shí)別研究[J]. 中國(guó)管理科學(xué), 2023, 30(12): 185-197. (WU J, GUI L, LIU P, et al. Research on automatic identification of patent technology field based on graph convolutional network from the perspective of multi-dimensional features[J]. Chinese journal of management science, 2023, 30(12): 185-197.)
[29] 周群芳, 吳婕, 谷俊. 基于本體的專利語(yǔ)義檢索研究[J]. 情報(bào)探索, 2013(9): 71-74. (ZHOU Q F, WU J, GU J. Research on ontology-based patent semantic retrieval[J]. Information research, 2013(9): 71-74.)
[30] 馮君. 基于專利信息分析的高??萍紕?chuàng)新能力評(píng)價(jià)指標(biāo)體系初探[J]. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì), 2010, 20(10): 193-194, 204. (FENG J. Evaluation index system of university science and technology innovation ability based on patent information analysis[J]. Sci-tech information development & economy 2010, 20(10): 193-194, 204.)
[31] 劉亞杰, 陳朝暉, 謝薇. 高校專利運(yùn)營(yíng)風(fēng)險(xiǎn)指標(biāo)體系構(gòu)建研究[J]. 中國(guó)發(fā)明與專利, 2018, 15(1): 20-24. (LIU Y J, CHEN Z H, XIE W. Research on the construction of patent operation risk index system in universities [J]. China invention and patent, 2018, 15(1): 20-24.)
[32] LERNER J, SERU A. The use and misuse of patent data: Issues for finance and beyond[J]. The review of financial studies, 2022, 35(6): 2667-2704.
[33] 張嫻, 田鵬偉, 茹麗潔, 等. 專利前向引用遵循Logistic擴(kuò)散模型再驗(yàn)證[J]. 知識(shí)管理論壇, 2017, 2(2): 110-119. (ZHANG X, TIAN P W, RU L J, et al. Patent forward citations follow the Logistic diffusion model for re-verification [J]. Knowledge management forum, 2017, 2(2): 110-119.)
[34] 李春燕, 石榮. 專利質(zhì)量指標(biāo)評(píng)價(jià)探索[J]. 現(xiàn)代情報(bào), 2008(2): 146-149. (LI C Y, SHI R. Evaluation of patent quality indicators [J]. Modern intelligence, 2008(2): 146-149.)
[35] 郭青, 戚湧, 高盼軍. 基于技術(shù)、法律和經(jīng)濟(jì)三位一體的專利質(zhì)量評(píng)價(jià)及應(yīng)用研究[J]. 中國(guó)發(fā)明與專利, 2021, 18(1): 21-29. (GUO Q, QI Y, GAO P J. Research on patent quality evaluation and application based on the trinity of technology, law and economy[J]. China invention & patent, 2021, 18(1): 21-29.)
[36] 劉強(qiáng). 專利開(kāi)放許可費(fèi)認(rèn)定問(wèn)題研究[J]. 知識(shí)產(chǎn)權(quán), 2021(7): 3-23. (LIU Q. Research on the determination of patent open license fee [J]. Intellectual property, 2021(7): 3-23.)
[37] 楊秀財(cái), 林波, 王園. 專利家族學(xué)術(shù)影響力的影響因素研究[J]. 科技與經(jīng)濟(jì), 2020, 33(3): 46-50. (YANG X C, LIN B, WANG Y. Research on the influencing factors of the academic influence of patent family [J]. Science & technology and economy, 2020, 33(3): 46-50.)
[38] 文化和旅游部發(fā)布《“十四五”文化和旅游發(fā)展規(guī)劃》[J]. 中國(guó)會(huì)展(中國(guó)會(huì)議), 2021(12): 26-29. (The Ministry of Culture and Tourism issued the “14th Five-Year Plan for Cultural and Tourism Development” [J]. China convention and exhibition (China conference), 2021(12): 26-29.)
[39] 王春博, 王宇開(kāi), 杜偉, 等. 基于美國(guó)專利數(shù)據(jù)的涉訴專利申請(qǐng)?zhí)卣餮芯縖J]. 情報(bào)雜志, 2022, 41(12): 64-70, 15. (WANG C B, WANG Y K, DU W, et al. Research on the characteristics of patent applications involving litigation based on US patent data [J]. Intelligence journal, 2022, 41(12): 64-70, 15.)
[40] 崔維軍, 李璐, 韓碩, 等. 5G標(biāo)準(zhǔn)必要專利分布特征: 國(guó)際比較研究[J]. 科技管理研究, 2022, 42(5): 162-169. (CUI W J, LI L, HAN S, et al. Distribution characteristics of 5G standard essential patents: international comparative study [J]. Science and technology management research, 2022, 42(5): 162-169.)
作者貢獻(xiàn)說(shuō)明:
彭啟寧:數(shù)據(jù)分析與論文撰寫(xiě);
柳炳祥:數(shù)據(jù)分析與論文指導(dǎo);
付振康:數(shù)據(jù)收集與整理;
貝汶瑜:數(shù)據(jù)收集與整理。
Construction of Standard Essential Patent Value Classification Recognition System Under the Background of Infringement Litigation
Peng Qining1? Liu Bingxiang1,2? Fu Zhenkang3? Bei Wenyu1
1Intellectual Property Information Service Center, Jingdezhen Ceramic University, Jingdezhen 333001
2School of Information Engineering, Jingdezhen Ceramic University, Jingdezhen 333403
3School of Information Management, Nanjing University, Nanjing 210008
Abstract: [Purpose/Significance] Based on machine learning algorithm, an automatic classification and screening model based on multi-modal feature fusion is constructed for industry standard patents. The research also explores a classification indicator system for the value of standard-essential patents in the context of infringement litigation. [Method/Process] First, standard necessary patents after infringement litigation in USPTO are used as marker data. Then, the text data and indicator data are integrated with dimensionality reduction, and the patent classification and screening model based on supervised and semi-supervised learning machine model is established. Finally, the standard patents of digital creative industry are classified and screened. [Result/Conclusion] The average F1 value of the four models constructed in this paper is above 0.8 on the test set, among which the pseudo-labeled random forest model has the best performance and the average F1 value reaches 0.871 06.
Keywords: patent infringement litigation? ? standard patent? ? machine learning? ? natural language processing? ? classification screening
基金項(xiàng)目:本文系2022年度文化和旅游部提質(zhì)培優(yōu)計(jì)劃專業(yè)研究生重點(diǎn)扶持項(xiàng)目(MLIS類)“中小型文化創(chuàng)意企業(yè)知識(shí)產(chǎn)權(quán)創(chuàng)造能力影響因素研究——以景德鎮(zhèn)陶瓷文創(chuàng)企業(yè)為例”(項(xiàng)目編號(hào):Mlis-003)和江西省研究生創(chuàng)新基金項(xiàng)目“江西省新材料產(chǎn)業(yè)核心專利識(shí)別研究”(項(xiàng)目編號(hào):JYC202207)研究成果之一。
作者簡(jiǎn)介:彭啟寧,碩士研究生;柳炳祥,教授,博士,通信作者,E-mail: 1093624070@qq.com;付振康,博士研究生;貝汶瑜,碩士研究生。
收稿日期:2023-05-08? ? ? ? 發(fā)表日期:2023-11-20? ? ? ? 本文責(zé)任編輯:劉遠(yuǎn)穎