馬雨萌 黃金霞 王 昉 芮 嘯
(1.中國科學(xué)院文獻情報中心 北京 100190;2.北京大學(xué)信息管理系 北京 100871)
在科技創(chuàng)新已成為國家轉(zhuǎn)型發(fā)展的根本驅(qū)動力和國家間競爭制高點的今天,科技政策層出不窮??萍颊呤菄覟閷崿F(xiàn)一定歷史時期的科技任務(wù)而規(guī)定的基本行動準(zhǔn)則,是指導(dǎo)整個科技事業(yè)的戰(zhàn)略和策略原則[1]??萍颊呶谋臼侵竾一虻胤綖榘l(fā)展科技事業(yè),各級權(quán)力或行政機關(guān)以文件形式頒布的法律、法規(guī)、部門規(guī)章等官方文獻[2]。網(wǎng)絡(luò)信息時代決策過程日益開放,大數(shù)據(jù)帶來的沖擊更加劇了對政府決策的影響,政府如何利用大數(shù)據(jù)完善決策過程是適應(yīng)時代和把握機遇的關(guān)鍵[3]。政策文本是政府處理公共事務(wù)的真實記錄和行為印跡,具有數(shù)據(jù)挖掘、趨勢分析、執(zhí)政參考等多重決策支持價值[4]。對于科技政策決策者和研究者而言,科技政策文本涵蓋領(lǐng)域廣,蘊含了大量復(fù)雜多元的指導(dǎo)性內(nèi)容,能夠支持豐富決策知識的發(fā)現(xiàn),成為大數(shù)據(jù)時代政府科技決策的重要依據(jù)和工具。
當(dāng)前政府決策過程對科技政策結(jié)構(gòu)化內(nèi)容的分類需求越來越強烈,對大規(guī)模、碎片化的政策內(nèi)容進行有效分類,能夠幫助決策者從不同科技創(chuàng)新領(lǐng)域視角組織管理政策措施,是揭示領(lǐng)域政策演化脈絡(luò)、開展區(qū)域間政策對比等進一步分析的基礎(chǔ)。隨著大規(guī)模政策文本分析環(huán)境的轉(zhuǎn)變,傳統(tǒng)的人工定性編碼方式難以滿足快速決策的需求,文本自動分類方法在政策分類中的應(yīng)用得到了越來越多的關(guān)注。政策文本具有信息密度大與內(nèi)涵分布不均衡等特點[5],如何完整和準(zhǔn)確地表達分類語義是提升政策分類準(zhǔn)確性的關(guān)鍵問題。傳統(tǒng)的基于詞袋模型或其變體方法的分類模型,由于忽略了詞的相對位置信息,在表征文本的上下文信息和語義特征上存在局限性[6],因此如果傳統(tǒng)文本分類模型直接遷移應(yīng)用于政策文本領(lǐng)域,將無法充分捕獲政策文本的復(fù)雜語義與多層次特征。此外,科技政策措施涉及了人才建設(shè)、基礎(chǔ)設(shè)施、財政稅收、市場監(jiān)管等眾多領(lǐng)域,通過多種政策工具的組合共同支持國家科技創(chuàng)新發(fā)展。然而傳統(tǒng)的科技政策分類,多以科技計劃、農(nóng)村科技、國際科技合作等科技政策的作用領(lǐng)域為標(biāo)簽,從政策文件層面給予單標(biāo)簽分類[7-8],未能有效地揭示出政策內(nèi)容的多主題特征。
針對以上問題,本文以科技政策文本為研究對象,基于BERT預(yù)訓(xùn)練模型和卷積神經(jīng)網(wǎng)絡(luò)相融合的深度學(xué)習(xí)方法,構(gòu)建科技政策文本的多標(biāo)簽分類模型。一方面通過BERT學(xué)習(xí)政策內(nèi)容句的語義特征表示,充分提取文本的上下文信息;另一方面利用多尺度、多通道的卷積模塊提取更多尺度的特征,增強政策分類語義特征表示和不同層次信息獲取的準(zhǔn)確性,從而提升模型在多標(biāo)簽分類任務(wù)上的性能,為實現(xiàn)科技政策文本內(nèi)容的自動化編碼與多主題分類提供參考。
公共政策文本內(nèi)容分析領(lǐng)域經(jīng)歷了從質(zhì)性文本解讀到定量數(shù)據(jù)分析的變化,定量分析方法的應(yīng)用與拓展豐富了政策研究范式,在一定程度上有助于政府在決策過程中科學(xué)地調(diào)整或制定相關(guān)政策。科技政策作為蘊含了豐富科技決策知識的敘述性文本,近年來學(xué)者們積極探索了文本內(nèi)容分析方法在科技政策領(lǐng)域的應(yīng)用。自然語言處理、數(shù)據(jù)挖掘與文本計算等技術(shù)的研究與應(yīng)用,通過關(guān)注政策內(nèi)容的深層語義,為支持大規(guī)模政策文本的隱性特征發(fā)現(xiàn)與知識規(guī)律揭示提供了方法基礎(chǔ)。目前文本內(nèi)容分析與挖掘方法在科技政策應(yīng)用的主要領(lǐng)域包括:
a.文本內(nèi)容分類:當(dāng)前研究通常以政策工具理論為依據(jù)建立類目,采用內(nèi)容分析法進行分類編碼和計量,將政策內(nèi)容語句轉(zhuǎn)化為帶有政策工具分類標(biāo)簽的可量化數(shù)據(jù),有助于決策者梳理與把握議題領(lǐng)域政策工具體系的結(jié)構(gòu)特征[9]。
b.領(lǐng)域新詞發(fā)現(xiàn):為了準(zhǔn)確識別科技政策文本中出現(xiàn)的領(lǐng)域新詞、專有名詞術(shù)語,基于規(guī)則的方法根據(jù)政策文本的語言規(guī)律和句法特征,通過構(gòu)建規(guī)則模板來識別政策領(lǐng)域詞語[10]。深度學(xué)習(xí)的發(fā)展提供了特征的自動提取,針對科技政策領(lǐng)域缺乏標(biāo)注語料的問題,目前有學(xué)者探索了無監(jiān)督方法,利用較少的標(biāo)注語料達到了較好的識別性能[11]。
c.文本主題分析:主題分析提供了一種深入語義層面的文本挖掘方法,發(fā)現(xiàn)大規(guī)模政策文本中的主題特征和語義內(nèi)涵。早期通過政策文本詞語關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建,能夠直觀地展示科技政策文本主題的分布與關(guān)聯(lián)結(jié)構(gòu)[12]。更進一步,學(xué)者們將主題模型和文本聚類技術(shù)引入科技政策內(nèi)容分析中,揭示科技政策文本中的隱含主題信息及主題強度變化規(guī)律[13]。
d.知識圖譜構(gòu)建:科技政策涉及政策工具、創(chuàng)新主體、適用條件、實現(xiàn)目標(biāo)等要素的協(xié)同合作,對政策文本中這些關(guān)鍵知識的解析與關(guān)聯(lián)可以借助知識圖譜解決。通過采用知識抽取、鏈接、存儲等知識圖譜技術(shù),能夠提取政策內(nèi)容中關(guān)鍵表述的知識實體、實體屬性及實體間關(guān)系,以知識網(wǎng)絡(luò)圖形式實現(xiàn)政策內(nèi)容的關(guān)系分析與推理[14]。
基于深度學(xué)習(xí)的分類方法,由于能夠從樣本中主動學(xué)習(xí)文本特征,且具有強大的特征選擇、抽取與表達能力,目前在政策文本分類領(lǐng)域得到應(yīng)用。根據(jù)待分類對象的類型與顆粒度,政策主題分類研究涉及了政策文件或其內(nèi)容語句的分類任務(wù)。一是在政策文件的主題分類方面,李志鵬引入LSTM模型解決政策文本分類的語義抽象及上下文環(huán)境保留問題,提高政策分類精度和挖掘效果[15]。越來越多的學(xué)者通過探索分類模型的融合或改進,以取得更好的分類效果。胡吉明等通過CNN模型提取政策文本的局部特征,利用BiLSTM模型整合政策文本的上下文特征,最大程度上保證政策文本語義完整性[16]。王濤利用深度學(xué)習(xí)中的注意力機制,根據(jù)正文與標(biāo)題二者的重要程度來對教育政策文本進行建模,得到文本的最優(yōu)向量表示,解決政策文本語義分布不均衡的問題[17]。另一方面,由于自動分類技術(shù)的應(yīng)用可以減少傳統(tǒng)政策內(nèi)容分析法所需的勞動量,目前有學(xué)者嘗試開展了基于機器學(xué)習(xí)的政策內(nèi)容自動編碼實踐,張維沖等利用自動分類和加權(quán)算法對政策條文進行開放式編碼,快速得到以政策目標(biāo)、研發(fā)與應(yīng)用、政策工具為主要維度的芯片產(chǎn)業(yè)政策內(nèi)容分析編碼表[18]。
目前基于深度學(xué)習(xí)的政策分類研究,分類對象仍主要集中于政策文件層面,由于缺乏政策領(lǐng)域的標(biāo)注數(shù)據(jù)和科學(xué)、細(xì)致的主題分類體系,因此在政策內(nèi)容的分類研究上應(yīng)用較少。此外,一個完整的政策措施句通常具有多方面的主題,尤其對于科技政策而言,圍繞國家創(chuàng)新體系涉及了要素、環(huán)境、需求等科技創(chuàng)新多維度領(lǐng)域。然而,因為目前多數(shù)政策分類研究忽視了科技政策內(nèi)容的這種多主題特征,所以科技政策信息在不同視角、維度下的空間定位難以得到有效揭示。因此,探索深度學(xué)習(xí)方法在實現(xiàn)政策多標(biāo)簽分類任務(wù)上的應(yīng)用,是科技政策分類研究的重要發(fā)展方向。
隨著文本分類粒度的細(xì)化程度越來越高,一個樣本可能與多個類別標(biāo)簽相關(guān),多標(biāo)簽文本分類的主要任務(wù)是通過特定的分類器為某個文本賦予多個標(biāo)簽[19]。如何高效地從文本中提取特征是多標(biāo)簽文本分類面臨的首要問題,相比于傳統(tǒng)的以詞袋模型作為文本特征表示的方法,深度學(xué)習(xí)方法通過學(xué)習(xí)文本的向量表示,能夠充分捕捉文本的上下文信息和語義特征,因此在文本多標(biāo)簽分類中取得了較好的效果[6]。按照網(wǎng)絡(luò)結(jié)構(gòu)的不同,基于深度學(xué)習(xí)的多標(biāo)簽文本分類包括基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和基于Transformer的算法[20]?;贑NN的方法一般通過改進CNN結(jié)構(gòu)來適應(yīng)多標(biāo)簽文本分類,Baker等提出了一種基于改進CNN結(jié)構(gòu)的多標(biāo)簽文本分類方法,通過初始化神經(jīng)網(wǎng)絡(luò)模型的最終隱藏層來利用標(biāo)簽共現(xiàn)關(guān)系[21]?;赗NN的多標(biāo)簽文本分類方法大多采用Seq2Seq結(jié)構(gòu)來實現(xiàn),將多標(biāo)簽分類任務(wù)視為序列生成問題,以此來考慮標(biāo)簽之間的相關(guān)性[22]。隨著具有注意力機制的Transformer在自然語言處理領(lǐng)域的廣泛應(yīng)用,尤其基于雙向Transformer的文本表示模型BERT在文本分類、信息抽取等任務(wù)中達到了領(lǐng)先水平[23],Transformer模型在多標(biāo)簽分類領(lǐng)域也得到了大量應(yīng)用。Lee等利用預(yù)訓(xùn)練的BERT模型,對以權(quán)力要求書為主要內(nèi)容的專利文本進行分類,實驗證明BERT模型針對多標(biāo)簽的專利文本有更好的分類效果[24]。
上述研究為科技政策內(nèi)容的多標(biāo)簽分類提供了一定的參考思路,但是存在如下問題:①目前基于CNN、RNN的分類模型在提取特征前,多使用Word2Vec等傳統(tǒng)詞向量模型將預(yù)處理文本進行向量化表示,但是這些詞向量忽視了詞語的多義性,對文本的表征依然存在局限性[25];②對CNN或RNN的單獨使用存在著一些問題,例如CNN因為網(wǎng)絡(luò)變深而出現(xiàn)性能飽和,RNN會疊加錯誤標(biāo)簽帶來的影響,而且目前神經(jīng)網(wǎng)絡(luò)模型獲取文本的特征有限,相對于BERT等預(yù)訓(xùn)練模型仍有差距[20];③科技政策內(nèi)容句具有信息密度大、涉及主題領(lǐng)域多、內(nèi)涵分布不均衡等特點,如未充分考慮這些問題就將通用分類模型進行移植應(yīng)用,則難以實現(xiàn)對語句局部特征和關(guān)鍵有效信息的捕獲。
本文提出了基于深度學(xué)習(xí)模型的科技政策多標(biāo)簽分類方法,依據(jù)政策工具理論建立科技政策分類體系,將科技政策內(nèi)容語句歸屬于相應(yīng)的若干政策工具類型。本文的整體研究框架包括:①實驗數(shù)據(jù)準(zhǔn)備:采集科技政策文本并進行預(yù)處理,依據(jù)分類體系,準(zhǔn)備訓(xùn)練數(shù)據(jù)。②BERT-多尺度CNN模型訓(xùn)練:本文使用BERT提取政策語句特征,提高對文本語義的表示能力,然后為了獲得不同層次的信息,設(shè)計了多尺度卷積模塊Text Inception,在不同尺度上提取句子中的關(guān)鍵語義特征,最后通過Sigmoid對語句進行多標(biāo)簽分類。③對比實驗:通過與僅使用BERT的分類實驗對比,驗證融合多尺度CNN方法的有效性。④分類效果評價:計算與分析BERT-多尺度CNN模型和單一BERT模型的分類結(jié)果,對模型進行評價。
政策工具是由政府所掌握的、用以實現(xiàn)政策目標(biāo)的各類手段和措施[26]。在科技政策體系研究中,當(dāng)前學(xué)者們通常以政策工具理論作為定義科技政策內(nèi)容分析框架的依據(jù),揭示科技創(chuàng)新特定領(lǐng)域下的政策工具特征,指出政策體系結(jié)構(gòu)存在的問題,并提出相應(yīng)建議[27]。本文依據(jù)經(jīng)典的Rothwell等提出的供給型、環(huán)境型和需求型政策工具分類法[28],界定和劃分科技政策內(nèi)容語句所屬的政策工具類型,共15個類別,并以此作為科學(xué)的、較細(xì)粒度的、覆蓋科技創(chuàng)新重點領(lǐng)域的科技政策分類體系??萍颊叩墓┙o型政策工具指政府通過對人才、設(shè)施、技術(shù)、資金等方面的支持,直接擴大或改善科技創(chuàng)新相關(guān)要素的供給,可細(xì)分為資金投入、技術(shù)研發(fā)、人才隊伍建設(shè)、項目計劃、科創(chuàng)基地與平臺、科技基礎(chǔ)設(shè)施建設(shè)、公共服務(wù)??萍颊叩沫h(huán)境型政策工具指政府通過影響科技創(chuàng)新發(fā)展的環(huán)境因素,為促進科技活動、提高創(chuàng)新主體積極性營造有利的政策環(huán)境,可分為創(chuàng)造和知識產(chǎn)權(quán)保護、金融支持、科技成果轉(zhuǎn)移轉(zhuǎn)化、市場監(jiān)管、稅收激勵。科技政策的需求型政策工具指政府積極開拓并穩(wěn)定技術(shù)和產(chǎn)品應(yīng)用的市場,減少與創(chuàng)新相關(guān)的市場不確定性,通過擴大市場需求對新產(chǎn)品、新技術(shù)開發(fā)等創(chuàng)新活動產(chǎn)生拉動作用,較為常見的有貿(mào)易協(xié)定、政府采購、宣傳推廣[29]。
本文提出了基于BERT與多尺度CNN融合的多標(biāo)簽分類模型,如圖1所示,模型結(jié)構(gòu)主要包括BERT文本表示層、多尺度卷積層和多標(biāo)簽分類層。首先將政策語句輸入BERT文本表示層進行語義編碼、補充;然后在多尺度卷積層中,利用多種尺度的卷積核得到不同尺度的語義特征,通過最大池化獲取最優(yōu)特征;在分類層通過Sigmoid函數(shù)計算不同類別的概率,從而輸出多標(biāo)簽的預(yù)測序列。該模型既通過BERT充分提取文本的上下文信息,又具備了多尺度卷積核提取文本的局部特征的特點。
圖1 BERT-多尺度CNN模型結(jié)構(gòu)
a.BERT文本表示層。
BERT采用雙向Transformer編碼器作為特征提取器,以多頭注意力機制融合了上下文信息[30]。BERT通過自動隨機掩碼機制來預(yù)測文本中的缺失詞,同時利用上下句關(guān)系預(yù)測來聯(lián)合表達文本的語句序列表示,分別獲取詞語和句子級別的語義信息[31]。因此,相比于Word2Vec等傳統(tǒng)的詞向量,BERT充分考慮了文本的上下文關(guān)系,具有良好的語義多樣性[32]。在BERT的輸出層,可以結(jié)合具體的任務(wù)做參數(shù)微調(diào),完成文本分類等自然語言處理任務(wù)。
在BERT-多尺度CNN模型的文本表示層,采用BERT對輸入長度為n的政策句子進行編碼。BERT首先對輸入文本做詞向量嵌入表示,包括單詞嵌入(Token Embedding)、句子嵌入(Segment Embedding)和位置嵌入(Position Embedding),將句子通過“[CLS]”和“[SEP]”標(biāo)記同時輸入到模型中表示為En,每個詞的嵌入維度為768,如圖1所示,E1、E2、…、En表示模型的輸入向量;然后再通過12層Transformers Encoder結(jié)構(gòu),將每個詞轉(zhuǎn)換成富含句法語義特征的Tn,如圖1所示,T1、T2、…、Tn表示模型的輸出向量,作為下游多尺度CNN模型的輸入。
b.多尺度卷積層。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以學(xué)習(xí)到文本的局部特征,結(jié)構(gòu)通常由卷積層、池化層和全連接層組成。CNN模型通過不同卷積核來提取多種深層特征,為了提取高維度特征,主要是進行更深層卷積,但隨之帶來網(wǎng)絡(luò)變深、性能飽和的問題[33]。因此,Google提出了Inception卷積模塊[34],增加了網(wǎng)絡(luò)的寬度,Inception網(wǎng)絡(luò)中并行使用多個不同尺度的卷積核,將輸出結(jié)果拼接成一個更深的特征圖,充分提取多尺度的特征,可更加全面地利用隱藏的特征信息[35]。本文針對科技政策內(nèi)容句的特征,借鑒Inception V1網(wǎng)絡(luò)結(jié)構(gòu)的思想,設(shè)計了多尺度卷積模塊(CNN-Inception),對CNN模型增加卷積層和通道數(shù),通過不同尺度的卷積核學(xué)習(xí)文本的不同特征信息,更好地捕獲文本的局部特征與高階特征,將這些多尺度特征進行拼接來獲得政策句的關(guān)鍵語義特征。
CNN-Inception模塊對BERT輸出的向量并行地執(zhí)行多個卷積運算和池化處理,如圖1所示,模型中有四個卷積通道,使用不同大小的卷積核,可以從不同尺度視角下獲得文本的特征信息。第一通道和第四通道為一層卷積,第一通道的卷積核尺寸為1×768,輸出數(shù)量為256;第四通道的卷積核尺寸為3×768,輸出數(shù)量為256。為了獲得更深層的多尺度高維特征,第二個和第三個卷積通道使用兩層卷積,這兩個通道之間加入BatchNorm并使用ReLU為激活函數(shù)。其中,第二通道中第一層卷積核的尺寸為1×768,第二層卷積核尺寸為1×1,兩層輸出數(shù)量均為256;第三通道中第一層卷積核的尺寸為3×768,第二層卷積核的尺寸為5×1,兩層輸出數(shù)量均為256。模型利用最大池化方式進行特征選擇,選取主要特征作為最后的輸出特征。經(jīng)過最大池化層后將4個通道的特征拼接在一起得到一個256×4維的政策句向量,再將這個向量輸入到一個全連接層,全連接層的輸出維度等于分類數(shù)目。
c.多標(biāo)簽分類層。
不同于多類別分類,多標(biāo)簽分類由于每個實例的標(biāo)簽數(shù)量不同,模型將不對預(yù)測的概率進行歸一化處理[6]。本文在分類層使用Sigmoid函數(shù)預(yù)測多標(biāo)簽分類任務(wù)中每個標(biāo)簽的獨立分布,將全連接層輸出的特征向量轉(zhuǎn)換為不同標(biāo)簽的概率,對不同政策工具類別的概率進行獨立計算,概率大于0.5就屬于該標(biāo)簽,從而得到多標(biāo)簽的預(yù)測序列。
本實驗于2022年1—2月期間使用后羿采集器,采集了國家部委、各省、自治區(qū)、直轄市及其省會城市的各級政府部門網(wǎng)站公開發(fā)布的2021、2020年科技政策文本。本文將這些采集數(shù)據(jù)作為實驗數(shù)據(jù)集,一方面由于數(shù)據(jù)來源于政府部門官網(wǎng),具有權(quán)威性;另一方面,各級政策制定是對上層政策的響應(yīng)和細(xì)化[36],因此國家級、省級及重要城市頒布的政策文件在政策擴散路徑上通常作為上層政策,其主題基本涵蓋了我國科技政策的體系結(jié)構(gòu)及布局重點。
表1 政策內(nèi)容句數(shù)據(jù)集分布
首先,對采集數(shù)據(jù)集進行遴選與去HTML標(biāo)簽等數(shù)據(jù)清洗操作,對政策全文做分句處理和篩選,剔除非措施內(nèi)容的無關(guān)語句。然后,對得到的政策內(nèi)容句數(shù)據(jù)集進行多標(biāo)簽分類標(biāo)注,優(yōu)先標(biāo)注2021年的政策句,對于樣本量過少的分類標(biāo)簽,補充標(biāo)注2020年的政策句,使各標(biāo)簽下的語句數(shù)量盡量平衡,共得到11 096條科技政策標(biāo)注數(shù)據(jù),每種類別下的政策句數(shù)量如表1所示。本實驗對各分類標(biāo)簽下的樣本進行隨機抽取,按6∶2∶2將數(shù)據(jù)集劃分為訓(xùn)練集、測試集和驗證集。
與其他多標(biāo)簽分類方法使用的評價指標(biāo)相同,本文采用精確率(Precision)、召回率(Recall)以及Micro-F1值作為模型評價指標(biāo)。精確率是指預(yù)測正確的樣本占數(shù)據(jù)中真正例與錯誤預(yù)測正例的樣本中比例,召回率表示分類預(yù)測正確的樣本占所有真實正確樣本的比例。Micro-F1值是衡量多標(biāo)簽分類任務(wù)效果的重要指標(biāo),由于多標(biāo)簽文本分類賦予文本的標(biāo)簽數(shù)量不是固定的,micro對同一類別下的文本給予相同權(quán)重,將micro-precision和micro-recall調(diào)和平均后求得micro-F1,計算公式[37]如式(1)-(3)所示,這種方式可以部分消除多標(biāo)簽文本分類因為數(shù)據(jù)不平衡帶來的影響。
(1)
(2)
(3)
本文在以下環(huán)境進行實驗:PyTorch 1.10.1,Python 3.8,操作系統(tǒng)Red Hat 4.8.5,CPU為Intel Xeon@2.4GHZx4,GPU為Quadro RTX 5000(16G),運行內(nèi)存12G。
本文使用BERT-Base的中文預(yù)訓(xùn)練模型進行實驗,該模型結(jié)構(gòu)包含12層Transformers,隱藏層維度為768,注意力頭(Head)數(shù)量為12,BERT模型其他參數(shù)通過微調(diào)后作為正式實驗使用的參數(shù),如表2所示。
表2 BERT參數(shù)設(shè)置
在多尺度卷積層,采用Adam優(yōu)化器加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,CNN的模型參數(shù)包括批尺寸(Batch_size)為4,隨機失活率(Dropout)為0.5,學(xué)習(xí)率(Learning_rate)為3×10-5,激活函數(shù)為ReLU。
本文模型在測試集上各個類別和平均的精確率、召回率和Micro-F1值如表3所示。為了驗證本文模型融合多尺度CNN的有效性,開展僅使用BERT的多標(biāo)簽分類實驗,將文本輸入BERT模型中,經(jīng)全連接層映射到標(biāo)簽維度,通過Sigmoid分別對每個維度計算所有標(biāo)簽的分布,并與BERT-CNN的實驗結(jié)果進行對比。
表3 多標(biāo)簽分類的實驗結(jié)果比較
實驗結(jié)果表明,本文提出的BERT-多尺度CNN模型,由于融合了Text Inception多尺度、多通道、更深層的卷積特性,相比于僅使用BERT的分類模型,能夠有效獲得不同尺度語句的特征,在平均精確率、召回率、Micro-F1值3個指標(biāo)上分別取得了75.33%、69.12%、72.09%的效果,都要優(yōu)于單一BERT模型,且平均召回率提升了17.28%,Micro-F1值提升了11.15%,因此BERT-多尺度CNN模型提升了多標(biāo)簽分類模型的整體性能。
通過對比模型在各個類上的結(jié)果,除“項目計劃”類外,BERT-多尺度CNN模型在其他所有類別上的Micro-F1值均高于單一BERT模型,其中有超過一半的分類標(biāo)簽提升幅度超過了10%。BERT-多尺度CNN模型顯著提升了一些樣本量偏少的類別Micro-F1值,例如提升幅度前兩位的“政府采購”類(35.18%)和“貿(mào)易協(xié)定”類(31.02%),由于在一定程度上解決了因樣本量少所造成的特征提取不充分的問題,因此該模型能夠彌補多標(biāo)簽數(shù)據(jù)分布不均的缺點。
對于“項目計劃”這樣錯誤較多且提升效果不理想的類,通過深入分析其對應(yīng)的樣本數(shù)據(jù),發(fā)現(xiàn)這些類的標(biāo)注數(shù)據(jù)中多標(biāo)簽樣本較少,可能由于人工標(biāo)注語料的問題,機器未能充分學(xué)習(xí)到這類語句的多維度特征,未來可通過提高多標(biāo)簽標(biāo)注數(shù)據(jù)的質(zhì)量來改善分類性能。此外,在模型的多標(biāo)簽分類層,本文以概率是否大于0.5為依據(jù)來判斷語句是否屬于該標(biāo)簽,這種判別方法本身就存在較大的誤差,未來將探索判別方法的改進來提高分類的準(zhǔn)確率。
本文面向當(dāng)前科技政策文本內(nèi)容的自動編碼與多領(lǐng)域分類的需求,針對科技政策內(nèi)容句具有信息密度大、涉及主題多、內(nèi)涵分布不均衡等特點,提出了一種融合BERT與多尺度CNN的多標(biāo)簽文本分類方法。本文依據(jù)政策工具理論建立科技政策類別體系,構(gòu)建的多標(biāo)簽分類模型結(jié)合了BERT和多尺度CNN的優(yōu)點,通過捕獲文本的局部特征與組合不同尺度的語句特征得到更加豐富的語義特征信息,從而提升模型在多標(biāo)簽分類任務(wù)上的性能。實驗結(jié)果表明,該模型與單一BERT分類模型相比效果顯著提升,為科技政策內(nèi)容句的自動分類編碼工作提供了參考。
利用本文提出的自動分類方法,可將科技政策內(nèi)容中有決策價值的信息快速轉(zhuǎn)化為定量數(shù)據(jù),幫助決策者從政策工具視角把握政策體系結(jié)構(gòu)?;诳萍颊邇?nèi)容的多標(biāo)簽分類結(jié)果,實現(xiàn)不同政策工具視角的交叉與關(guān)聯(lián),反映了該政策信息在科技政策體系的空間定位,便于根據(jù)不同決策任務(wù)從不同維度對科技政策措施進行分類匯總,為支撐科技決策服務(wù)提供覆蓋科技創(chuàng)新重點領(lǐng)域的政策數(shù)據(jù)資源。在未來工作中,將通過繼續(xù)收集與遴選國家和地方各級政策文本,擴大政策分類數(shù)據(jù)集規(guī)模,針對當(dāng)前樣本數(shù)據(jù)較少的類別增加訓(xùn)練樣本數(shù)量,進一步提高政策分類效果;另外,通過引入實體識別、知識圖譜等技術(shù),結(jié)合抽取到的科技創(chuàng)新主體、活動、條件等其他實體,進一步豐富科技政策內(nèi)容的描述維度,能夠從更多視角對政策數(shù)據(jù)進行組織管理。