• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于內(nèi)容理解與指標(biāo)融合的高價(jià)值專(zhuān)利識(shí)別*

      2024-04-25 01:50:08張星星汪滿容
      情報(bào)雜志 2024年4期
      關(guān)鍵詞:專(zhuān)利分類(lèi)價(jià)值

      唐 恒 張星星 汪滿容

      (1.江蘇大學(xué)知識(shí)產(chǎn)權(quán)學(xué)院 鎮(zhèn)江 212013;2.江蘇大學(xué)科技信息研究所 鎮(zhèn)江 212013)

      0 引 言

      隨著中國(guó)經(jīng)濟(jì)步入高質(zhì)量發(fā)展階段,創(chuàng)新成為關(guān)鍵驅(qū)動(dòng)力。創(chuàng)新實(shí)力的重要體現(xiàn)就是專(zhuān)利,其中高價(jià)值專(zhuān)利對(duì)高質(zhì)量發(fā)展作用不斷凸顯,它不僅代表著技術(shù)創(chuàng)新的高度,更是推動(dòng)經(jīng)濟(jì)和社會(huì)高質(zhì)量發(fā)展的核心因素。多項(xiàng)研究顯示,專(zhuān)利價(jià)值呈現(xiàn)顯著的偏態(tài)分布[1],只有約10%的專(zhuān)利具有較高的價(jià)值[2],這些高價(jià)值專(zhuān)利承載著重要的創(chuàng)新和技術(shù)突破,對(duì)于企業(yè)和社會(huì)的發(fā)展具有巨大影響。因此,科學(xué)、客觀和精確地識(shí)別這些高價(jià)值的專(zhuān)利,是政府及創(chuàng)新主體開(kāi)展高價(jià)值專(zhuān)利培育和布局工作的基礎(chǔ),對(duì)推動(dòng)我國(guó)知識(shí)產(chǎn)權(quán)高質(zhì)量發(fā)展和知識(shí)產(chǎn)權(quán)強(qiáng)國(guó)建設(shè)具有重要意義。在當(dāng)前機(jī)器學(xué)習(xí)算法支撐下,學(xué)者們已研發(fā)出了一套完善的發(fā)明專(zhuān)利價(jià)值自動(dòng)識(shí)別方案進(jìn)行專(zhuān)利價(jià)值評(píng)估[3-5]。然而,這些方法還存在一定的局限性。大部分方法主要依賴于專(zhuān)利指標(biāo)來(lái)識(shí)別高價(jià)值專(zhuān)利,較少探討專(zhuān)利文本對(duì)高價(jià)值專(zhuān)利的影響。因此,除研究發(fā)明專(zhuān)利指標(biāo)特征外,還需要進(jìn)一步挖掘和提煉專(zhuān)利文本中與價(jià)值相關(guān)的特征。本文結(jié)合數(shù)據(jù)驅(qū)動(dòng)理論和深度學(xué)習(xí)技術(shù),旨在設(shè)計(jì)一種能挖掘?qū)@谋咎卣鞯膬r(jià)值評(píng)估方法,通過(guò)將文本特征與專(zhuān)利指標(biāo)特征融合,從多個(gè)維度更準(zhǔn)確地評(píng)估專(zhuān)利價(jià)值,進(jìn)而增強(qiáng)高價(jià)值專(zhuān)利的識(shí)別精準(zhǔn)性。

      1 相關(guān)研究

      隨著技術(shù)創(chuàng)新和機(jī)器智能的進(jìn)步,使用機(jī)器學(xué)習(xí)和人工智能評(píng)估專(zhuān)利價(jià)值已成趨勢(shì),此類(lèi)方法不僅能快速準(zhǔn)確評(píng)價(jià)專(zhuān)利的市場(chǎng)價(jià)值與發(fā)展?jié)摿?還能克服主觀性的缺陷。王思培等[14]選擇用于潛在高價(jià)值專(zhuān)利預(yù)測(cè)的指標(biāo),構(gòu)建了基于隨機(jī)森林算法的潛在高價(jià)值專(zhuān)利預(yù)測(cè)模型。Jie等[15]基于卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建了英文機(jī)械專(zhuān)利分類(lèi)模型。Choi等[16]提出一種利用前饋神經(jīng)網(wǎng)絡(luò)來(lái)評(píng)估單個(gè)專(zhuān)利的商業(yè)潛力的方法。上述研究?jī)H采用機(jī)器學(xué)習(xí)對(duì)專(zhuān)利指標(biāo)進(jìn)行模型構(gòu)建和評(píng)估,忽略了專(zhuān)利文本內(nèi)容對(duì)專(zhuān)利價(jià)值的影響。Lim等[17]提出了一種基于多項(xiàng)式樸素貝葉斯方法,將專(zhuān)利文檔中的技術(shù)部分和背景部分轉(zhuǎn)換為術(shù)語(yǔ)-文檔矩陣進(jìn)行多標(biāo)簽IPC分類(lèi),模型精度達(dá)到了87.2%。Zhu F等[18]提出了一種根據(jù)用戶定義的分類(lèi)法對(duì)專(zhuān)利進(jìn)行分類(lèi)的方法。根據(jù)本領(lǐng)域?qū)<翌A(yù)設(shè)的標(biāo)簽,對(duì)系統(tǒng)芯片上(SoC)專(zhuān)利進(jìn)行分類(lèi),將專(zhuān)利標(biāo)題和摘要轉(zhuǎn)換為術(shù)語(yǔ)矩陣,并將其作為分類(lèi)模型的輸入,證明與專(zhuān)利指標(biāo)(如反向引用)相比,使用文本數(shù)據(jù)可以更好地提高專(zhuān)利分類(lèi)的性能。此外,將現(xiàn)有的專(zhuān)利指標(biāo)和專(zhuān)利文本數(shù)據(jù)結(jié)合使用,可以更好地提高分類(lèi)問(wèn)題的性能。

      文本分類(lèi)方法同樣適用于專(zhuān)利高價(jià)值識(shí)別,專(zhuān)利文本包含豐富的信息,反映專(zhuān)利價(jià)值相關(guān)的諸多特征,包括技術(shù)創(chuàng)新性、實(shí)用性、保護(hù)范圍和法律穩(wěn)定性等,體現(xiàn)在文本中的明確技術(shù)領(lǐng)域、詳細(xì)的技術(shù)方案描述、明確的權(quán)利要求和實(shí)施例等方面。在理解專(zhuān)利背景、評(píng)估創(chuàng)新性和實(shí)用性,及衡量法律保護(hù)力度的基礎(chǔ)上,可以利用文本分類(lèi)方法有效地對(duì)專(zhuān)利進(jìn)行高價(jià)值識(shí)別。大多數(shù)研究者在使用文本數(shù)據(jù)時(shí),通常會(huì)選取專(zhuān)利標(biāo)題、摘要、權(quán)利要求等內(nèi)容作為研究對(duì)象,但提取的特征僅基于特定詞語(yǔ)的存在或頻率,缺乏對(duì)其語(yǔ)義和上下文意義的深入分析[19]。因此,為確保專(zhuān)利價(jià)值評(píng)價(jià)能夠基于對(duì)技術(shù)內(nèi)容的深入理解進(jìn)行,進(jìn)而提高分類(lèi)預(yù)測(cè)的準(zhǔn)確性,有必要獲取表明專(zhuān)利文本上下文意義的特征。

      2 研究設(shè)計(jì)與研究方法

      2.1 高價(jià)值專(zhuān)利界定

      目前,學(xué)術(shù)界尚無(wú)高價(jià)值專(zhuān)利的統(tǒng)一定義或權(quán)威說(shuō)法。學(xué)者們指出高價(jià)值專(zhuān)利有狹義與廣義之分,狹義的高價(jià)值專(zhuān)利是指具備高經(jīng)濟(jì)價(jià)值的專(zhuān)利,廣義的高價(jià)值專(zhuān)利除高經(jīng)濟(jì)價(jià)值外,還包括高市場(chǎng)價(jià)值、戰(zhàn)略價(jià)值、技術(shù)價(jià)值和法律價(jià)值[20-22]。也有學(xué)者認(rèn)為高價(jià)值專(zhuān)利特征為有用性和有益性[23],是眾多因素綜合作用的結(jié)果,不僅對(duì)企業(yè)和社會(huì)有經(jīng)濟(jì)發(fā)展貢獻(xiàn),還能帶來(lái)預(yù)期收益和額外回報(bào)[24-25]。還有學(xué)者認(rèn)為高價(jià)值專(zhuān)利的高價(jià)值指的是具備較高的使用價(jià)值、交換價(jià)值和附加價(jià)值,能夠?yàn)閷?zhuān)利權(quán)人、其他主體、國(guó)家乃至社會(huì)帶來(lái)積極效果[26]。綜上可以發(fā)現(xiàn),關(guān)于高價(jià)值專(zhuān)利的研究,大都涉及技術(shù)、法律、市場(chǎng)、戰(zhàn)略和經(jīng)濟(jì)五個(gè)價(jià)值維度。其中,高經(jīng)濟(jì)價(jià)值是顯著特征,高技術(shù)價(jià)值和高法律價(jià)值是必要條件,實(shí)現(xiàn)高市場(chǎng)價(jià)值和高戰(zhàn)略價(jià)值,方可最終成為高價(jià)值專(zhuān)利。本文所述的高價(jià)值專(zhuān)利為廣義概念,指具有良好文本質(zhì)量,集較高的技術(shù)創(chuàng)新、穩(wěn)定的法律保障、較大的市場(chǎng)潛力、戰(zhàn)略競(jìng)爭(zhēng)力及經(jīng)濟(jì)效益于一體的專(zhuān)利,不僅具有技術(shù)的深度與廣度,還具有法律上的堅(jiān)固地位,可滿足并驅(qū)動(dòng)市場(chǎng)需求,為持有者確立長(zhǎng)期的戰(zhàn)略優(yōu)勢(shì),并帶來(lái)顯著的經(jīng)濟(jì)效益。

      2.2 專(zhuān)利指標(biāo)選取

      專(zhuān)利價(jià)值具有不確定性、時(shí)效性以及模糊性[27],且影響專(zhuān)利價(jià)值的因素眾多,故需要科學(xué)選取高價(jià)值專(zhuān)利評(píng)估指標(biāo),從而準(zhǔn)確、高效識(shí)別高價(jià)值專(zhuān)利。學(xué)者們基于不同視角構(gòu)建了多種高價(jià)值專(zhuān)利評(píng)估體系[28-32],例如技術(shù)和市場(chǎng)、技術(shù)和經(jīng)濟(jì)、技術(shù)和法律等二維評(píng)估體系,法律、技術(shù)和市場(chǎng)/經(jīng)濟(jì)等三維評(píng)估體系,技術(shù)、法律、市場(chǎng)和戰(zhàn)略/競(jìng)爭(zhēng)/風(fēng)險(xiǎn)等四位評(píng)估體系以及技術(shù)、法律、市場(chǎng)、戰(zhàn)略、經(jīng)濟(jì)/應(yīng)用等的五維評(píng)估體系。為全面反映專(zhuān)利的價(jià)值,提取專(zhuān)利的特征,本文根據(jù)高價(jià)值內(nèi)涵及前人研究,從五個(gè)維度選取了12項(xiàng)計(jì)量指標(biāo),指標(biāo)名稱(chēng)及含義如表1所示。

      表1 高價(jià)值專(zhuān)利評(píng)估指標(biāo)

      2.3 基于BERT-BiLSTM-XGBoost模型的高價(jià)值專(zhuān)利識(shí)別

      專(zhuān)利文本的豐富性和復(fù)雜性為專(zhuān)利價(jià)值評(píng)估帶來(lái)挑戰(zhàn)。本文的高價(jià)值專(zhuān)利評(píng)估模型,如圖1所示,利用深度學(xué)習(xí)理解專(zhuān)利文本的專(zhuān)業(yè)術(shù)語(yǔ)和邏輯結(jié)構(gòu),提取專(zhuān)利價(jià)值的關(guān)鍵信息,結(jié)合其他專(zhuān)利指標(biāo)數(shù)據(jù),如引用量和權(quán)項(xiàng)數(shù)等,模型構(gòu)建了一個(gè)全面評(píng)估專(zhuān)利技術(shù)、商業(yè)和法律價(jià)值的體系,有效處理復(fù)雜的專(zhuān)利文本,提供科學(xué)、客觀和精準(zhǔn)的評(píng)估工具。具體而言,本研究的模型包含四個(gè)主要部分。首先,利用BERT模型對(duì)專(zhuān)利文本進(jìn)行預(yù)訓(xùn)練,然后將每段文本送入預(yù)訓(xùn)練后的BERT模型中,實(shí)現(xiàn)特征提取。其次,將經(jīng)過(guò)表征的文本按照順序(即摘要、權(quán)利要求1、權(quán)利要求2、……、權(quán)利要求k)輸入到基于BiLSTM的文本分類(lèi)模型中,進(jìn)行進(jìn)一步的特征提取。隨后,將上一步所提取的特征作為專(zhuān)利文本的內(nèi)容理解特征,并與專(zhuān)利指標(biāo)特征進(jìn)行融合。最后,將融合后的特征輸入到XGBoost模型中,實(shí)現(xiàn)高價(jià)值專(zhuān)利的分類(lèi)任務(wù)。

      圖1 BERT-BiLSTM-XGBoost的模型結(jié)構(gòu)

      本文整合了BERT、BiLSTM和XGBoost技術(shù),基于各組件在信息處理方面的特性,構(gòu)建了一個(gè)多層次的模型,旨在精確地識(shí)別高價(jià)值專(zhuān)利。BERT具有深度雙向特性,在多種NLP任務(wù)中已展現(xiàn)出優(yōu)異的預(yù)訓(xùn)練和特征捕獲能力,為深入解析專(zhuān)利文本的語(yǔ)義提供了有力支持。BiLSTM在捕獲文本的長(zhǎng)序列關(guān)系具有明顯的優(yōu)勢(shì),特別適合處理結(jié)構(gòu)化的專(zhuān)利文檔。XGBoost作為一種高效的梯度增強(qiáng)算法,保證了在融合多種特征后模型能夠達(dá)到最佳的分類(lèi)效果。通過(guò)這三種技術(shù)的結(jié)合,該模型不僅能夠深度解讀文本中的關(guān)鍵信息,還可以充分利用多樣的專(zhuān)利指標(biāo),極大提高了對(duì)高價(jià)值專(zhuān)利的識(shí)別準(zhǔn)確性。專(zhuān)利的文本特征主要反映其技術(shù)內(nèi)容、創(chuàng)新程度和法律保護(hù)范圍,而指標(biāo)特征則展示其在市場(chǎng)上的表現(xiàn)、被引頻次及專(zhuān)利家族等信息,兩種特征互為補(bǔ)充,滿足了本文定義的高價(jià)值專(zhuān)利內(nèi)涵,二者的結(jié)合可以實(shí)現(xiàn)對(duì)專(zhuān)利真實(shí)價(jià)值和市場(chǎng)地位更為全面的綜合評(píng)估。

      2.3.1基于BERT-BiLSTM的文本分類(lèi)模型

      專(zhuān)利的權(quán)利要求部分詳細(xì)描述了其核心技術(shù)內(nèi)容,確保專(zhuān)利的獨(dú)特性和技術(shù)特點(diǎn)得到保護(hù)。本文針對(duì)該關(guān)鍵部分,結(jié)合BERT與BiLSTM的特點(diǎn)進(jìn)行深入的文本信息抽取,確保專(zhuān)利文本的深度語(yǔ)義特征得到了精確的抽取,為高價(jià)值專(zhuān)利的分類(lèi)構(gòu)建了堅(jiān)實(shí)的特征基礎(chǔ)。

      公共英語(yǔ)課程作為學(xué)生在校期間的必修課,教學(xué)應(yīng)當(dāng)遵循“實(shí)用為主,夠用為度”的原則,以就業(yè)崗位所需為目標(biāo),培養(yǎng)學(xué)生目標(biāo)崗位的綜合能力。既要重基礎(chǔ),也要重需求——強(qiáng)調(diào)職業(yè)需求的牽引作用。例如,在文秘專(zhuān)業(yè)學(xué)生的公共英語(yǔ)教學(xué)上,除了讓學(xué)生掌握基礎(chǔ)英語(yǔ)知識(shí),培養(yǎng)基本英語(yǔ)素養(yǎng),還應(yīng)該在各個(gè)學(xué)習(xí)模塊中補(bǔ)充相關(guān)行業(yè)禮儀等知識(shí)。

      首先,利用BERT[33]模型,特別是其為中文設(shè)計(jì)的BERT-base-Chinese版本,為每一段摘要和權(quán)利要求生成768維的特征向量。這些向量不僅反映了文本的局部信息,還融入了全文的上下文信息,從而提供了語(yǔ)義豐富的基礎(chǔ)。針對(duì)文本的邏輯和順序關(guān)系,BiLSTM的引入變得尤為關(guān)鍵。與傳統(tǒng)LSTM的單向信息捕獲不同,BiLSTM從兩個(gè)方向上獲取上下文信息。如圖2所示,BERT輸出的特征向量被輸入到BiLSTM中,進(jìn)一步強(qiáng)化了摘要與權(quán)利要求的雙向上下文關(guān)系。這對(duì)于揭示權(quán)利要求的邏輯和順序尤為重要。模型的后續(xù)部分包括全連接層Fc1和分類(lèi)層Fc2。Fc1層旨在降維并平衡文本與專(zhuān)利指標(biāo)特征的數(shù)量差異,以防止模型在處理時(shí)過(guò)度偏重某一特征。經(jīng)過(guò)訓(xùn)練后,全連接層和分類(lèi)層的特征通過(guò)concat拼接,得到綜合文本特征,為下游模型提供了豐富的信息。

      圖2 BiLSTM文本分類(lèi)模型結(jié)構(gòu)

      2.3.2基于特征融合的高價(jià)值專(zhuān)利分類(lèi)

      為更全面地利用專(zhuān)利文本的語(yǔ)義信息與具體的專(zhuān)利指標(biāo),本文采納了一種綜合的特征融合方法。首先,從BiLSTM模型中得到了一個(gè)18維的特征向量,該向量捕獲了專(zhuān)利文本中的高級(jí)語(yǔ)義特征。此外,還有一個(gè)12維的向量代表從五大維度(技術(shù)、法律、市場(chǎng)、戰(zhàn)略和經(jīng)濟(jì)價(jià)值)提煉的專(zhuān)利指標(biāo)。為了在模型中同時(shí)考慮這兩種信息,本文選擇直接串聯(lián)這兩組特征,形成一個(gè)30維的特征向量。然而,由于這兩組特征來(lái)自不同的數(shù)據(jù)源,尺度和分布可能會(huì)有所不同。為確保模型能夠平等地考慮每個(gè)特征,對(duì)整個(gè)30維的特征向量進(jìn)行了Z-score歸一化處理,使其均值為0,標(biāo)準(zhǔn)差為1。在完成特征融合和處理后選擇了XGBoost作為分類(lèi)器,該分類(lèi)器是一個(gè)高效的梯度提升決策樹(shù)模型,可以計(jì)算出每個(gè)特征的重要性分?jǐn)?shù),處理冗余和不重要的特征[34],特別適用于本文的特征融合策略。

      通過(guò)這種綜合的特征融合策略,本文模型不僅捕獲了專(zhuān)利文本的細(xì)致語(yǔ)義信息,還確保了五大維度的專(zhuān)利指標(biāo)得到充分考慮。此方法提供了一個(gè)均衡且信息豐富的特征空間,進(jìn)一步增強(qiáng)了模型在專(zhuān)利價(jià)值分類(lèi)上的判斷力,為未來(lái)相關(guān)領(lǐng)域的研究提供了新的思路和方向。

      3 實(shí)驗(yàn)過(guò)程與結(jié)果分析

      3.1 數(shù)據(jù)來(lái)源

      本文數(shù)據(jù)庫(kù)為壹專(zhuān)利(Patyee)數(shù)據(jù)庫(kù),其依托于奧凱專(zhuān)利大數(shù)據(jù)中心,涵蓋全球159個(gè)國(guó)家的1.65億多條專(zhuān)利數(shù)據(jù),檢索性能高效,搜索引擎穩(wěn)定,檢索結(jié)果精準(zhǔn)。當(dāng)下我國(guó)明確將獲得國(guó)家科學(xué)技術(shù)獎(jiǎng)或中國(guó)專(zhuān)利獎(jiǎng)的發(fā)明專(zhuān)利納入高價(jià)值發(fā)明專(zhuān)利擁有量統(tǒng)計(jì)范圍。故本研究采用獲得中國(guó)專(zhuān)利獎(jiǎng)(專(zhuān)利類(lèi)型為發(fā)明授權(quán))作為高價(jià)值專(zhuān)利的正樣本,近五屆中國(guó)專(zhuān)利獎(jiǎng)(專(zhuān)利類(lèi)型為發(fā)明授權(quán))的獲獎(jiǎng)情況如表2所示。

      表2 中國(guó)專(zhuān)利獎(jiǎng)近五屆獲獎(jiǎng)情況(發(fā)明授權(quán))

      通過(guò)表2的數(shù)據(jù)可以得知,在所有IPC分類(lèi)中,電學(xué)(H)領(lǐng)域獲獎(jiǎng)個(gè)數(shù)最多增幅最大,這表明國(guó)家在電學(xué)領(lǐng)域,尤其是基本電氣原件(H01)和電通信技術(shù)(H04)方面,給予了相對(duì)更多的支持和重視?;倦姎庠碗娡ㄐ偶夹g(shù)的創(chuàng)新技術(shù)發(fā)展有助于國(guó)家解決“卡脖子”技術(shù)難題,對(duì)推動(dòng)國(guó)家自主創(chuàng)新,促進(jìn)國(guó)家經(jīng)濟(jì)高質(zhì)量發(fā)展和保障國(guó)家安全具有重要意義[35]。本研究專(zhuān)注于研究基本電氣元件和電通信領(lǐng)域的專(zhuān)利,這些專(zhuān)利不僅代表了技術(shù)的前沿,而且在促進(jìn)產(chǎn)業(yè)升級(jí)和社會(huì)經(jīng)濟(jì)發(fā)展方面具有實(shí)際的應(yīng)用價(jià)值。實(shí)驗(yàn)選取H01和H04這兩個(gè)大類(lèi)里近五屆中國(guó)專(zhuān)利獎(jiǎng)的302件專(zhuān)利作為高價(jià)值專(zhuān)利正樣本,另外隨機(jī)選取相同IPC內(nèi)3000件沒(méi)有獲獎(jiǎng)的專(zhuān)利作為負(fù)樣本。從壹專(zhuān)利數(shù)據(jù)庫(kù)下載需要的專(zhuān)利數(shù)據(jù)作為數(shù)據(jù)集,其中包含專(zhuān)利的摘要、權(quán)利要求書(shū)以及各項(xiàng)專(zhuān)利指標(biāo)等信息。在構(gòu)建好包含專(zhuān)利文本和專(zhuān)利指標(biāo)的數(shù)據(jù)集后,將其按照8∶1∶1的比例劃分為訓(xùn)練集,驗(yàn)證集和測(cè)試集來(lái)用于模型的訓(xùn)練和測(cè)試。

      3.2 模型評(píng)價(jià)指標(biāo)

      根據(jù)真實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽可以得到如表3所示的混淆矩陣。其中TP表示真正例、FP表示假正例、TN表示真反例、FN表示假反例。

      表3 分類(lèi)結(jié)果混淆矩陣

      本文根據(jù)數(shù)據(jù)集類(lèi)別不均衡特性選擇精確度P(Precision)、召回率R(Recall)和F1值(F1-Score)這3個(gè)指標(biāo)對(duì)實(shí)驗(yàn)?zāi)P瓦M(jìn)行評(píng)估。根據(jù)混淆矩陣,各個(gè)評(píng)價(jià)指標(biāo)的計(jì)算方式分別為:

      P=TP/(TP+FP)

      (1)

      R=TP/(TP+FN)

      (2)

      F1=(2×P×R)/(P+R)

      (3)

      3.3 文本特征提取對(duì)比實(shí)驗(yàn)

      本文所有實(shí)驗(yàn)平臺(tái)的處理器為i7-10875H,內(nèi)存為16G,模型搭建框架為PyTorch,GPU為RTX2060S,以Bert-base-Chinese作為BERT預(yù)訓(xùn)練模型。BERT-BiLSTM專(zhuān)利文本特征提取模型包含兩個(gè)階段,第一階段為BERT在專(zhuān)利數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,第二階段為使用預(yù)訓(xùn)練的BERT表征文本后送入基于BiLSTM的文本分類(lèi)模型進(jìn)行專(zhuān)利價(jià)值二分類(lèi)。模型參數(shù)如表4所示。

      表4 特征提取模型參數(shù)設(shè)置

      選擇TextCNN、TextRNN和BERT-CNN[36]與BERT-BiLSTM方法進(jìn)行對(duì)比,對(duì)比模型訓(xùn)練參數(shù)與本文模型參數(shù)設(shè)置保持一致。為提高實(shí)驗(yàn)結(jié)果的可信度,采用五次重復(fù)實(shí)驗(yàn),以減少偶然性和誤差,并將五次實(shí)驗(yàn)的結(jié)果取平均值作為最終結(jié)果。實(shí)驗(yàn)結(jié)果如表5所示。

      表5 文本特征提取對(duì)比實(shí)驗(yàn)結(jié)果

      TextCNN:對(duì)輸入文本進(jìn)行卷積、池化操作,得到卷積特征圖;再對(duì)多個(gè)卷積核得到的特征圖進(jìn)行池化操作,得到多通道池化特征圖;將池化特征圖通過(guò)全連接層映射到分類(lèi)標(biāo)簽空間,使用Softmax函數(shù)得到最終的分類(lèi)結(jié)果。

      TextRNN:對(duì)輸入文本進(jìn)行循環(huán)神經(jīng)網(wǎng)絡(luò)處理,得到每個(gè)時(shí)間步的隱狀態(tài);對(duì)隱狀態(tài)進(jìn)行池化操作,得到池化特征向量;將池化特征向量通過(guò)全連接層映射到分類(lèi)標(biāo)簽空間,使用softmax函數(shù)得到最終的分類(lèi)結(jié)果。

      BERT-CNN:使用預(yù)訓(xùn)練的BERT模型對(duì)輸入文本進(jìn)行編碼,得到每個(gè)詞的BERT向量表示;通過(guò)卷積和池化操作提取文本特征;將特征向量通過(guò)全連接層映射到分類(lèi)標(biāo)簽空間,使用Softmax函數(shù)得到最終的分類(lèi)結(jié)果。

      根據(jù)表5的結(jié)果,TextCNN在本文中的數(shù)據(jù)集上體現(xiàn)優(yōu)于TextRNN,精度提高了7.01%,但兩種模式的精確度、召回率和F1值都相對(duì)較低。TextCNN和TextRNN在中文發(fā)明專(zhuān)利高價(jià)值分類(lèi)問(wèn)題上的體現(xiàn)不盡如人意,這說(shuō)明中文發(fā)明專(zhuān)利文本與日常文章相比存在顯著差異,其中專(zhuān)有名詞和新造詞語(yǔ)較多,句子相互之間的邏輯性和聯(lián)系更加密切,而且內(nèi)容上對(duì)價(jià)值的體現(xiàn)也更加抽象。因此,模型提煉文章中詞與詞、句與句相互聯(lián)系特點(diǎn)的能力所需更高。BERT-CNN模型在中文專(zhuān)利文本高價(jià)值分類(lèi)方面表現(xiàn)出色,其準(zhǔn)確率遠(yuǎn)超TextCNN和TextRNN,表明BERT模型即便處理綜合性較強(qiáng)、邏輯性較嚴(yán)密的文字,亦能獲得良好的語(yǔ)義表征效果。使用BiLSTM取代CNN進(jìn)行分類(lèi)任務(wù)后,本文提出的BERT-BiLSTM的分類(lèi)精度顯著提高,達(dá)到72.41%,比傳統(tǒng)的BERT-CNN提升了8%以上,而且召回率和F1值也都超過(guò)了70%,主要源于BiLSTM是一種時(shí)間序列數(shù)據(jù)的網(wǎng)絡(luò)架構(gòu),它的“記憶”功能在提取專(zhuān)利文本上下文信息的中發(fā)揮了重要作用。此外,從表5中也可以看出同時(shí)使用摘要和權(quán)利要求書(shū)比單獨(dú)使用摘要或權(quán)利要求書(shū)效果更好,并且權(quán)利要求書(shū)中包含更多能反映專(zhuān)利價(jià)值的特征。

      3.4 分類(lèi)器對(duì)比實(shí)驗(yàn)

      為驗(yàn)證本文基于內(nèi)容理解與指標(biāo)融合方法的有效性和優(yōu)越性,選取多層感知機(jī)(MLP)、支持向量機(jī)(SVM)作為XGBoost的對(duì)比模型,通過(guò)實(shí)驗(yàn)嘗試獲得這3個(gè)機(jī)器學(xué)習(xí)模型的最佳參數(shù)。MLP配置包含四個(gè)隱藏層,每層由64個(gè)神經(jīng)元組成,優(yōu)化策略采用隨機(jī)梯度下降,損失函數(shù)選擇交叉熵?fù)p失函數(shù),而迭代次數(shù)則設(shè)定為100次。SVM懲罰系數(shù)定為1,選用徑向基函數(shù)作為核函數(shù),同時(shí)設(shè)定gamma值為0.2。對(duì)于XGBoost模型,選擇gbtree作為基模型,學(xué)習(xí)率定為0.1,設(shè)定樹(shù)的最大深度為6,且n_estimators參數(shù)設(shè)定為100。實(shí)驗(yàn)結(jié)果如圖3所示,圖中N代表僅使用專(zhuān)利指標(biāo)進(jìn)行分類(lèi),而未使用BERT-BiLSTM提取文本特征,Y代表使用BERT-BiLSTM提取專(zhuān)利文本特征并融合了專(zhuān)利指標(biāo)特征。

      (a)P(精確度)

      由上述結(jié)果可知,本文提出的BERT-BiLSTM-XGBoost方法精確度達(dá)到了74.19%,召回率達(dá)到了76.66%,F1值達(dá)到了75.4%。在僅使用專(zhuān)利指標(biāo)特征的模型中,XGBoost模型效果最好,準(zhǔn)確率達(dá)到70%。不論何種分類(lèi)模型,在融合專(zhuān)利文本特征后,精確率,召回率和F1值都得到較大提升。以精確率為例,提升最小的是SVM模型增加了10.14%,提升最大的是XGBoost模型增加了16.13%,平均增加13.82%。本文提出的模型在中文專(zhuān)利高價(jià)值分類(lèi)這一任務(wù)上的表現(xiàn)優(yōu)于其他對(duì)比模型,將專(zhuān)利文本內(nèi)容特征和指標(biāo)特征進(jìn)行融合能夠有效提升專(zhuān)利高價(jià)值分類(lèi)精度、召回率和F1值。

      4 結(jié) 語(yǔ)

      本文使用專(zhuān)利文本與指標(biāo),以高價(jià)值專(zhuān)利識(shí)別為目標(biāo),采用基于特征融合的方法構(gòu)建了高價(jià)值專(zhuān)利識(shí)別模型。本文模型能夠提取專(zhuān)利的文本特征并與專(zhuān)利指標(biāo)特征進(jìn)行融合,然后通過(guò)樹(shù)模型自動(dòng)化地進(jìn)行高價(jià)值專(zhuān)利識(shí)別。具體而言,該方法先使用BERT-BiLSTM模型學(xué)習(xí)專(zhuān)利的摘要和權(quán)利要求書(shū)的內(nèi)容來(lái)挖掘出專(zhuān)利文本的上下文、順序特征和邏輯特征,然后與專(zhuān)利指標(biāo)特征進(jìn)行融合,最后使用XGBoost進(jìn)行高價(jià)值分類(lèi)。本文以基本電氣原件和電通信技術(shù)這兩個(gè)大類(lèi)里近五屆中國(guó)專(zhuān)利獎(jiǎng)的專(zhuān)利作為樣本進(jìn)行實(shí)證分析,驗(yàn)證了模型的有效性和可靠性。研究結(jié)果表明:

      a.本文提出的基于內(nèi)容理解與指標(biāo)融合的高價(jià)值專(zhuān)利識(shí)別方法,可以很好地對(duì)高價(jià)值專(zhuān)利進(jìn)行識(shí)別。該方法優(yōu)越性主要在于專(zhuān)利的文本特征揭示了專(zhuān)利的技術(shù)細(xì)節(jié)、創(chuàng)新水平以及法律保障的邊界等信息,指標(biāo)特征體現(xiàn)了專(zhuān)利在市場(chǎng)上的表現(xiàn)、被引用的狀況以及專(zhuān)利家族的相關(guān)信息。這兩種特征相輔相成,將其融合能更有效地挖掘出專(zhuān)利的潛在價(jià)值和市場(chǎng)競(jìng)爭(zhēng)力,有效改善了僅依賴指標(biāo)特征而忽視深層次的信息導(dǎo)致評(píng)價(jià)不準(zhǔn)確的問(wèn)題。

      b.BERT-BiLSTM結(jié)構(gòu)能夠有效的提取專(zhuān)利的文本特征。在處理專(zhuān)利文本時(shí),BERT 可以提供強(qiáng)大的上下文感知能力,而 BiLSTM 可以幫助捕捉文本中的序列信息。故BERT-BiLSTM 結(jié)構(gòu)可以有效地提取專(zhuān)利的文本特征。此外,在對(duì)專(zhuān)利文本特征進(jìn)行提取時(shí),綜合使用摘要和權(quán)利要求書(shū)通常會(huì)帶來(lái)效果更好。摘要反映了專(zhuān)利的核心思想,權(quán)利要求書(shū)包含了關(guān)于專(zhuān)利具體內(nèi)容和保護(hù)范圍的深入信息,結(jié)合使用不僅能為專(zhuān)利分析提供更全面視角,還能更準(zhǔn)確地反映專(zhuān)利的真正價(jià)值和重要性。

      c.在特征融合分類(lèi)器方面,本文共構(gòu)建了多層感知機(jī)、支持向量機(jī)、梯度提升決策樹(shù)三種機(jī)器學(xué)習(xí)模型,研究發(fā)現(xiàn)梯度提升決策樹(shù)模型,在處理文本和指標(biāo)特征的拼接時(shí)表現(xiàn)出顯著優(yōu)勢(shì)。其樹(shù)結(jié)構(gòu)算法能夠適應(yīng)不同數(shù)據(jù)域的異構(gòu)性,尤其對(duì)高維文本特征展現(xiàn)出穩(wěn)健性,在高價(jià)值專(zhuān)利識(shí)別方面具有較好的魯棒性和準(zhǔn)確性。

      本文的貢獻(xiàn)主要為基于專(zhuān)利文本和指標(biāo)的視角,構(gòu)建出了融合文本特征和指標(biāo)特征的高價(jià)值專(zhuān)利識(shí)別方法,為專(zhuān)利高價(jià)值評(píng)估探索了新的理論視角,深化了專(zhuān)利文本特征提取的理論基礎(chǔ),為企業(yè)、學(xué)術(shù)界和政府部門(mén)在高價(jià)值專(zhuān)利篩選與培育中提供了有力的技術(shù)支持。實(shí)驗(yàn)結(jié)果表明該方法能夠有效提升高價(jià)值專(zhuān)利分類(lèi)的準(zhǔn)確性,為進(jìn)一步識(shí)別高價(jià)值專(zhuān)利奠定了理論和方法基礎(chǔ)。然而,本研究仍存在局限與不足。一方面,文本特征和指標(biāo)特征選用的完備性仍不夠,未來(lái)研究中將考慮融合更多的文本信息,挖掘出更多能表明專(zhuān)利價(jià)值的指標(biāo),進(jìn)一步提升模型的適用性和分類(lèi)準(zhǔn)確性。另一方面,本文模型采取了BERT-BiLSTM的深度學(xué)習(xí)模型和XGBoost模型結(jié)合的方案,其算法時(shí)間復(fù)雜度和計(jì)算復(fù)雜度較高,未來(lái)研究可以考慮輕量化網(wǎng)絡(luò)結(jié)構(gòu),對(duì)模型進(jìn)行剪枝、量化和知識(shí)蒸餾。

      猜你喜歡
      專(zhuān)利分類(lèi)價(jià)值
      專(zhuān)利
      分類(lèi)算一算
      發(fā)明與專(zhuān)利
      傳感器世界(2019年4期)2019-06-26 09:58:44
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      一粒米的價(jià)值
      “給”的價(jià)值
      專(zhuān)利
      節(jié)能——環(huán)?!獙?zhuān)利
      軸承(2010年2期)2010-04-04 09:23:11
      财经| 吉林市| 廉江市| 罗山县| 武隆县| 宜州市| 望都县| 元氏县| 牙克石市| 陇川县| 兴义市| 肇庆市| 怀化市| 襄城县| 南通市| 丰城市| 循化| 梁山县| 阳西县| 洞口县| 南皮县| 遵义县| 方城县| 吴江市| 老河口市| 顺平县| 涟水县| 永顺县| 稻城县| 双鸭山市| 高青县| 瓮安县| 体育| 昔阳县| 黑龙江省| 绥宁县| 安阳市| 龙州县| 宜川县| 门头沟区| 嘉荫县|