王金鳳 閻競博 馮立杰 李 康 林國義
(1.上海海事大學(xué)中國(上海)自貿(mào)區(qū)供應(yīng)鏈研究院 上海 201306;2.上海海事大學(xué)經(jīng)濟(jì)管理學(xué)院 上海 201306;3.上海海事大學(xué)物流工程學(xué)院 上海 201306;4.上海海事大學(xué)物流科學(xué)與工程研究院 上海 201306;5.桂林電子科技大學(xué)商學(xué)院 桂林 541004)
技術(shù)創(chuàng)新作為提高企業(yè)核心競爭力的不二法寶[1],其中,技術(shù)機(jī)會識別是精準(zhǔn)開展技術(shù)創(chuàng)新的關(guān)鍵[2]、知識挖掘是技術(shù)機(jī)會識別的前提與核心環(huán)節(jié)[3]。隨著技術(shù)迭代速度的日益加快,加之急劇膨脹的海量技術(shù)知識,傳統(tǒng)的經(jīng)由人工進(jìn)行知識挖掘預(yù)判技術(shù)機(jī)會變得愈加困難[4]。因此,直面數(shù)量日益龐雜的技術(shù)知識,如何在把握技術(shù)發(fā)展趨勢的同時準(zhǔn)確識別新的技術(shù)機(jī)會繼而降低創(chuàng)新風(fēng)險,成為企業(yè)亟待解決的一個重要現(xiàn)實問題[5]。本文將構(gòu)建一種從知識元視角出發(fā)的技術(shù)元抽取與技術(shù)機(jī)會識別路徑,基于技術(shù)元理論在收集并處理數(shù)據(jù)的基礎(chǔ)上,挖掘技術(shù)知識中影響技術(shù)創(chuàng)新的技術(shù)要素并抽取要素間的關(guān)系,繼而進(jìn)行子技術(shù)類別研判和技術(shù)機(jī)會識別,旨在為企業(yè)精準(zhǔn)預(yù)判技術(shù)機(jī)會、不斷提升創(chuàng)新效率提供有益的參考。
為了簡化知識獲取的難度,有學(xué)者引入知識元理論[6],將知識元視為組成知識的具有獨(dú)立性、完整性和單一性的最小單元作為知識管理的出發(fā)點(diǎn)[7],嘗試建立了基于知識元的分層描述結(jié)構(gòu)和線性描述結(jié)構(gòu)的語義描述模型[8]。利用資源描述框架(Resource Description Framework,RDF),以主體(Subject)、謂詞(Predicate)和客體(Object)構(gòu)成的語義三元組對知識元進(jìn)行了表述[9],并廣泛應(yīng)用于社交媒體[10]、文物資源[11]、學(xué)術(shù)文獻(xiàn)[12]和藝術(shù)[13]等領(lǐng)域。通過提取文本或圖像中蘊(yùn)含的知識要素和屬性特征等構(gòu)建知識元網(wǎng)絡(luò),開展知識管理、知識挖掘和知識推理,進(jìn)而提高了技術(shù)知識的利用效率。但是,盡管知識元理論在多個領(lǐng)域得到了較為廣泛的應(yīng)用,在技術(shù)創(chuàng)新尤其是在技術(shù)機(jī)會識別方面的應(yīng)用卻較少,如何基于知識元視域依托現(xiàn)有技術(shù)知識精準(zhǔn)預(yù)判技術(shù)機(jī)會,有待開展深入的研究。
專利文本作為技術(shù)知識的重要載體,其中蘊(yùn)含的豐富技術(shù)信息是技術(shù)機(jī)會分析的關(guān)鍵數(shù)據(jù)源[14],最常用的方法是基于機(jī)器學(xué)習(xí)算法對文本內(nèi)容中的關(guān)鍵技術(shù)信息進(jìn)行挖掘,進(jìn)而完成潛在技術(shù)機(jī)會的識別[15]。其中,可通過關(guān)鍵詞挖掘技術(shù)創(chuàng)新機(jī)會[16],或利用SAO語義分析方法對結(jié)構(gòu)化專利文本進(jìn)行創(chuàng)新要素間的關(guān)系研究[17]。然而,在此過程中難以厘清具體創(chuàng)新要素的屬性及歸類,同時也難以準(zhǔn)確全面地對創(chuàng)新要素之間的復(fù)雜關(guān)系進(jìn)行準(zhǔn)確完整的詮釋。
而深度學(xué)習(xí)方法可以實現(xiàn)在精準(zhǔn)抽取技術(shù)知識中包含的創(chuàng)新要素及其關(guān)系的同時[18],克服過分依賴專家參與難以保證抽取結(jié)果客觀性的缺陷[19]。程為等[20]使用BERT模型和ERNIE模型對南海維權(quán)證據(jù)知識元進(jìn)行識別;Meng F等[21]構(gòu)建了基于BERT-BiLSTM-CRF模型用于知識元中的實體抽取;Hou J等[22]構(gòu)建了BERT模型用于知識元中的關(guān)系抽取。同時,相較于利用規(guī)則或模板進(jìn)行知識元抽取,基于深度學(xué)習(xí)的方法在自動化程度和精確度方面具有更加優(yōu)異的性能[23]。然而,在構(gòu)建深度學(xué)習(xí)模型進(jìn)行知識抽取時,還需引入一種針對專利文本中技術(shù)要素間的關(guān)系進(jìn)行統(tǒng)一標(biāo)注的規(guī)則對其整理和分類,從而更好地開展技術(shù)機(jī)會的識別。綜上,由于現(xiàn)有知識元抽取和技術(shù)機(jī)會識別方法自身存在的局限性,其研究結(jié)果的準(zhǔn)確性和客觀性有待進(jìn)一步完善。因此,本文從知識元視角出發(fā)進(jìn)行技術(shù)元抽取與技術(shù)機(jī)會識別,引入了深度學(xué)習(xí)、鏈路預(yù)測、支持向量機(jī)等方法展開了分析。
基于上述分析,本文提出一種知識元視角下的技術(shù)元抽取與技術(shù)機(jī)會識別研究路徑,如圖1所示。
圖1 研究框架
a.技術(shù)元抽取過程采用的方法主要包括:
①確定檢索式并從專利數(shù)據(jù)庫中搜索相關(guān)專利,然后依據(jù)專利說明書文本構(gòu)建技術(shù)元語料庫。
②構(gòu)建基于對抗訓(xùn)練的BERT-BiLSTM-CRF模型以抽取具象技術(shù)領(lǐng)域的技術(shù)要素,同時構(gòu)建BERT模型抽取技術(shù)要素間的關(guān)系,然后將前述結(jié)果以技術(shù)元三元組表示并建立知識網(wǎng)絡(luò)。
③分別運(yùn)用Word2Vec和K-means算法,構(gòu)建基于語義向量的技術(shù)要素子技術(shù)識別方法并進(jìn)行技術(shù)要素詞聚類,然后對聚類結(jié)果進(jìn)行分析,確定子技術(shù)的名稱。
b.技術(shù)機(jī)會識別過程采用的方法主要包括:
①根據(jù)現(xiàn)有技術(shù)要素間的關(guān)系,利用鏈路預(yù)測方法研判技術(shù)元知識網(wǎng)絡(luò)中要素之間的潛在關(guān)系。
②利用SVM算法對潛在關(guān)系進(jìn)行分類以確定其類別,得到潛在的技術(shù)元三元組。
③對前述潛在關(guān)系進(jìn)行有效性識別,進(jìn)而依據(jù)識別結(jié)果,結(jié)合現(xiàn)有三元組,完成對子技術(shù)創(chuàng)新機(jī)會的預(yù)判。
本文在知識元的基礎(chǔ)上引申出了技術(shù)元的概念。技術(shù)元是技術(shù)組成的基本單元,反映了技術(shù)包含的基本信息,不僅包含技術(shù)要素實體,同時包含技術(shù)要素間的關(guān)系。因此,本文對技術(shù)元進(jìn)行抽取以實現(xiàn)對技術(shù)知識的全面獲取與管理。
為了保證全面準(zhǔn)確地獲取目標(biāo)技術(shù)所涵蓋的技術(shù)信息,首先需要制定數(shù)據(jù)收集與預(yù)處理方案,如圖2所示。
圖2 數(shù)據(jù)收集及預(yù)處理
首先,針對目標(biāo)技術(shù)制定專利檢索式,從專利數(shù)據(jù)庫中檢索相關(guān)專利,并去除重復(fù)、無關(guān)專利。其次,在檢索到的專利中獲取專利說明書,并提取文本內(nèi)容。最后,對得到的文本進(jìn)行數(shù)據(jù)清洗,去除無意義的數(shù)字、符號等噪聲數(shù)據(jù),并對文本進(jìn)行分句處理以構(gòu)建技術(shù)元語料庫。
技術(shù)元抽取包括技術(shù)要素抽取和技術(shù)要素間的關(guān)系抽取。
為便于計算機(jī)處理,本文將技術(shù)元以的三元組形式表示。其中:S為技術(shù)要素主體;P為技術(shù)要素間的關(guān)系;O為受影響的技術(shù)要素客體。
3.2.1技術(shù)要素的抽取
首先,研判技術(shù)要素的類別并加以標(biāo)注。然而,有鑒于不同技術(shù)大多分屬不同的類別,加之目前尚沒有可供遵循的通用標(biāo)注規(guī)則,所以,本文引入FENG L.J.等[24]針對專利提出的多維技術(shù)創(chuàng)新圖譜中的9個創(chuàng)新維度對技術(shù)要素進(jìn)行了標(biāo)注。相關(guān)維度的具體含義見表1。
表1 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新維度劃分
其次,在完成技術(shù)要素的維度標(biāo)注后,構(gòu)建基于對抗學(xué)習(xí)的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取。具體流程如圖3所示。
圖3 技術(shù)要素抽取過程
技術(shù)要素的抽取過程主要包括:
一是BERT層的構(gòu)建。本文使用基于雙向Transformer編碼構(gòu)建的預(yù)訓(xùn)練語言模型BERT,可以精準(zhǔn)捕捉到句子的特征信息[25]。經(jīng)過雙向Transformer編碼后可得到句子字符級特征向量序列X=(x1,x2,…,xn)。
三是CRF層的構(gòu)建。在完成技術(shù)要素抽取后,本文利用條件隨機(jī)場(conditional random fields,CRF)處理BiLSTM的輸出,同時借鑒相鄰標(biāo)簽中的關(guān)系進(jìn)行序列標(biāo)注,進(jìn)而可得到最優(yōu)的預(yù)測序列[27]。
四是基于FGM對抗訓(xùn)練方法的數(shù)據(jù)特征增強(qiáng)。為了提高技術(shù)要素抽取模型的性能,本文引入對抗訓(xùn)練方法使數(shù)據(jù)特征增強(qiáng),即通過引入噪聲對樣本增加擾動的方式,提高模型的泛化性和魯棒性[28]。
c.對模型進(jìn)行評估。即在完成技術(shù)要素的識別后,還需以準(zhǔn)確率P、召回率R、F1值評估模型的優(yōu)劣,具體計算公式如下:
(1)
(2)
(3)
其中,TP表示預(yù)測類型與實際類型相同的數(shù)量,FP表示預(yù)測類型與實際類型不同的數(shù)量,FN表示實際類型與預(yù)測類型不同的數(shù)量。
3.2.2技術(shù)要素之間的關(guān)系抽取
首先,為了抽取前述技術(shù)要素之間的關(guān)系,簡化要素間關(guān)系標(biāo)注的難度,本文引入FENG L.J.等[24]針對專利提出多維技術(shù)創(chuàng)新圖譜中的9種創(chuàng)新法則對技術(shù)要素之間的關(guān)系進(jìn)行了標(biāo)注,相關(guān)創(chuàng)新法則的具體含義見表2。
表2 多維技術(shù)創(chuàng)新圖譜的創(chuàng)新法則
其次,利用BERT模型抽取技術(shù)要素之間的關(guān)系。具體流程如圖4所示。
圖4 技術(shù)要素之間的關(guān)系抽取過程
在圖4中,利用BERT模型抽取技術(shù)要素之間的關(guān)系主要包括:
一是與命名要素識別過程中的BERT操作相同,通過Transformer編碼得到字符級特征向量序列X=(x1,x2,…,xn)。
二是將編碼得到的字符級特征向量序列輸入到全連接層中,并將字符級別的特征向量轉(zhuǎn)換為句子級別的特征向量。然后利用ReLU激活函數(shù)進(jìn)行線性變化。
三是將全連接層輸出的結(jié)果輸入到softmax 層中,利用softmax函數(shù)進(jìn)行關(guān)系分類,并將多分類輸出值轉(zhuǎn)換為[0,1]的概率分布。
四是待關(guān)系抽取完成后,本文以準(zhǔn)確率P、召回率R、F1值評估模型的優(yōu)劣。
最后,將技術(shù)元以三元組形式表示,并將得到的技術(shù)元三元組以技術(shù)知識網(wǎng)絡(luò)的形式保存,便于后續(xù)開展技術(shù)知識分析。
在技術(shù)元抽取基礎(chǔ)上,還需將技術(shù)要素進(jìn)一步整理和分類。對此,本文構(gòu)建了一種基于語義向量的技術(shù)要素子技術(shù)類別研判方法,利用Word2vec提取技術(shù)要素的詞向量,利用K-means算法對技術(shù)要素進(jìn)行聚類,并結(jié)合聚類結(jié)果對子技術(shù)進(jìn)行命名。子技術(shù)類別的研判過程如圖5所示。
依據(jù)圖5中對子技術(shù)類別的研判,在具體實施中:
a.獲取技術(shù)要素的詞向量。為了獲取技術(shù)要素詞的語義信息,本文選用Word2vec模型中的Skip-gram模型提取技術(shù)要素詞的詞向量[29]。主要包括:
一是對提取的技術(shù)要素構(gòu)建用戶詞典,并利用Python中的jieba工具包對包含技術(shù)要素的技術(shù)元語句進(jìn)行分詞處理。
二是將分詞后的語句輸入到Word2Vec模型中,并利用skip-gram模型進(jìn)行訓(xùn)練,得到各詞的語義向量。
三是將技術(shù)要素詞與得到的詞向量匹配,得到具有語義信息的技術(shù)要素詞向量。
b.對技術(shù)要素詞進(jìn)行聚類。在獲取具有語義信息的技術(shù)要素詞向量基礎(chǔ)上,還需利用K-means算法對技術(shù)要素詞進(jìn)行聚類[30]。主要包括:
一是對于Word2vec模型所提取出的技術(shù)要素詞向量序列V=(v1,v2,…,vn),可通過將技術(shù)要素詞劃分到k個子集中判定子技術(shù)的類別。
二是在聚類過程中,對于一個類Vi=(vl,vl+1,…,vk)以技術(shù)要素詞vi到所屬類的中心距離之和為損失函數(shù),μl表示第l個類的質(zhì)心,則最優(yōu)目標(biāo)函數(shù)為:
(5)
c.為了提高聚類的有效性,還需對k的取值進(jìn)行實驗,同時選取可解釋性最佳的k值作為聚類個數(shù),最終完成對子技術(shù)的命名。
在技術(shù)知識抽取基礎(chǔ)上,還需對現(xiàn)有的技術(shù)知識網(wǎng)絡(luò)進(jìn)行分析,進(jìn)而識別相應(yīng)的技術(shù)機(jī)會。在具體實施中,鑒于鏈路預(yù)測方法能夠準(zhǔn)確預(yù)判未來技術(shù)的發(fā)展方向,本文首先利用隨機(jī)游走算法對整個技術(shù)元網(wǎng)絡(luò)進(jìn)行計算,并以Cos+指標(biāo)確定技術(shù)要素間是否具有潛在關(guān)系[31];然后根據(jù)Cos+指標(biāo)的計算結(jié)果,在去除Cos+小于0.5的連邊后,將剩余連邊作為具有要素間潛在關(guān)系的連邊,并作為蘊(yùn)含未來技術(shù)發(fā)展方向的技術(shù)信息予以保留。
SVM是一種性能優(yōu)越的分類算法,相較于樸素貝葉斯、邏輯回歸等模型具有更好的效果[32]。因此,在識別技術(shù)要素間的潛在關(guān)系后,為了提高技術(shù)機(jī)會識別的客觀性,本文利用SVM算法對識別出的具有潛在關(guān)系的技術(shù)要素進(jìn)行了分類。
在完成潛在關(guān)系識別和潛在關(guān)系分類基礎(chǔ)上,還需進(jìn)一步預(yù)判具象技術(shù)的創(chuàng)新機(jī)會。在具體實施中:
a.識別技術(shù)要素潛在關(guān)系的有效性。識別完成后,還需對識別出的潛在技術(shù)元三元組進(jìn)行篩選,以判斷其是否具有技術(shù)創(chuàng)新價值。
b.進(jìn)行技術(shù)機(jī)會分析。在對技術(shù)要素潛在關(guān)系進(jìn)行有效性識別基礎(chǔ)上,還需結(jié)合現(xiàn)有技術(shù)元三元組和識別出的潛在技術(shù)元三元組,完成對技術(shù)機(jī)會的識別,具體流程如圖6所示。
圖6 技術(shù)機(jī)會的識別
圖6中,TE表示技術(shù)要素;TR表示現(xiàn)有技術(shù)要素間的關(guān)系類型;TR'表示預(yù)測得到技術(shù)要素間的潛在關(guān)系;具有同樣形狀的TE表示其同屬于一個子技術(shù)。
水質(zhì)濁度檢測技術(shù)在水域治理中起著舉足輕重的作用,亟待進(jìn)行技術(shù)創(chuàng)新。因此,本文將以水質(zhì)濁度檢測技術(shù)創(chuàng)新機(jī)會識別為例,對本文提出的方法進(jìn)行驗證。
5.1.1水質(zhì)濁度檢測技術(shù)專利數(shù)據(jù)的獲取
本文選用壹專利檢索分析數(shù)據(jù)庫進(jìn)行專利檢索。
首先,本文確定檢索式為:“TA=(濁度檢測) AND (TA=(水) OR TA=(水質(zhì))) AND (TA=(裝置) OR TA=(方法) OR TA=(設(shè)備) OR TA=(傳感器)) and (IPC=(G) OR IPC=(C))”。在數(shù)據(jù)庫中檢索到381條專利數(shù)據(jù)。
其次,通過人工閱讀并剔除與水質(zhì)濁度檢測無關(guān)或關(guān)系不大的專利后,共得到355條專利數(shù)據(jù)。
最后,提取355條數(shù)據(jù)的專利說明書文本。
5.1.2水質(zhì)濁度檢測技術(shù)專利的預(yù)處理
為保證技術(shù)元抽取的效果,在標(biāo)注數(shù)據(jù)之前還需要進(jìn)行文本的預(yù)處理。
首先,利用正則表達(dá)式去除專利說明書文本中無意義的字符和數(shù)字。
其次,利用SnowNLP對專利文本進(jìn)行斷句處理,拆分標(biāo)識符為中文句號。其中,文本段落應(yīng)小于300字符,若超出300字符則利用正則表達(dá)式對句子切分,多余部分視為另一個句子。
最后,構(gòu)建技術(shù)元語料庫,并刪除語料庫中重復(fù)且句子長度小于10的句子。
經(jīng)預(yù)處理后,本文共從355篇專利說明書文本中提取出11 787條語句。
為便于進(jìn)行技術(shù)元的自動化處理,本文利用語義描述模型將技術(shù)元表示為三元組形式,見表3。
表3 水質(zhì)濁度檢測技術(shù)的技術(shù)元表示
本文構(gòu)建了相關(guān)模型進(jìn)行技術(shù)要素和要素間關(guān)系的抽取。
5.2.1水質(zhì)濁度檢測技術(shù)的技術(shù)要素抽取
據(jù)前文所述,本文構(gòu)建了基于對抗學(xué)習(xí)的BERT-BiLSTM-CRF模型用于技術(shù)要素抽取。
首先,依據(jù)專利說明書,本文從前述提取出的11 787條語句中選取了1 624條以人工方式對技術(shù)要素進(jìn)行了BIO標(biāo)注,具體標(biāo)注方式如圖7所示。
圖7 水質(zhì)濁度檢測技術(shù)要素的BIO標(biāo)注
其次,對技術(shù)要素的抽取結(jié)果進(jìn)行定量評估。本文以8∶2比例劃分訓(xùn)練集與測試集,用于該模型的訓(xùn)練與測試。經(jīng)訓(xùn)練后,該模型在測試集上的精確度為0.789、召回率為0.784、F1值為0.786,抽取效果較好。
再次,將本模型與三種命名要素識別模型進(jìn)行對比,具體結(jié)果見表4。結(jié)果表明,本文構(gòu)建的模型在技術(shù)要素抽取上優(yōu)于其他三種模型。
表4 水質(zhì)濁度檢測技術(shù)要素識別模型的有效性比較
最后,利用訓(xùn)練完成的技術(shù)要素抽取模型進(jìn)行要素抽取。在抽取完成后,為了保證抽取的質(zhì)量,還需進(jìn)行人工去重與消岐,最終共得到3 672個所屬不同類別的技術(shù)要素,具體分析結(jié)果見表5。
表5 水質(zhì)濁度檢測技術(shù)要素抽取的結(jié)果
5.2.2水質(zhì)濁度檢測技術(shù)要素關(guān)系抽取
首先,采用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取。本文從前述提取出的11 787條語句,對其中1 624條語句以人工方式進(jìn)行了技術(shù)要素關(guān)系標(biāo)注。
其次,對技術(shù)要素關(guān)系的抽取結(jié)果進(jìn)行定量評估。本文以8∶2比例劃分訓(xùn)練集與測試集,用于BERT關(guān)系抽取模型的訓(xùn)練與測試。經(jīng)訓(xùn)練后,該模型在測試集上的精確度為0.727、召回率為0.712、F1值為0.719,抽取的效果較好。
再次,利用訓(xùn)練完成的抽取模型抽取技術(shù)要素間的關(guān)系。為保證識別質(zhì)量,還需進(jìn)行人工去重并刪除無意義要素間的關(guān)系組,最終共識別出5 348條關(guān)系,具體結(jié)果見表6。
表6 技術(shù)要素之間關(guān)系抽取的結(jié)果
最后,為便于對技術(shù)元進(jìn)行管理,還需將前述結(jié)果導(dǎo)入到Neo4j圖數(shù)據(jù)庫進(jìn)行存儲,進(jìn)而得到技術(shù)元知識圖譜。
有鑒于前文中抽取的技術(shù)要素僅為單獨(dú)的個體,為了提高技術(shù)知識的管理效率,還需進(jìn)一步分析每個個體的子技術(shù)類別。
5.3.1技術(shù)要素詞向量的獲取
首先,將識別的技術(shù)要素定義為用戶詞典,鑒于同一要素可能對應(yīng)不同的技術(shù)要素類別,因此在構(gòu)建用戶詞典時本文從前述3 672個所屬不同類別的技術(shù)要素中共篩選到3 360個唯一技術(shù)要素詞。
其次,利用Jieba分詞將技術(shù)元語料庫進(jìn)行分詞處理,分詞后的句子作為Word2Vec模型的輸入,然后利用skip-gram模型對完成分詞的句子進(jìn)行訓(xùn)練,并輸出分詞后句子中每個詞的詞向量。
最后,將技術(shù)要素詞與Word2Vec模型輸出的詞向量進(jìn)行匹配,進(jìn)而得到技術(shù)要素詞向量。
5.3.2技術(shù)要素詞的聚類
在完成技術(shù)要素詞向量提取后,還需利用K-means算法進(jìn)行技術(shù)要素詞聚類。此外,為了提高聚類效果,本文對不同聚類數(shù)k,聚類所得到的結(jié)果進(jìn)行比較后發(fā)現(xiàn),當(dāng)聚類數(shù)k=5時,聚類結(jié)果的可解釋性最好。
在聚類后,本文對聚類結(jié)果進(jìn)行分析,并對子技術(shù)類別進(jìn)行命名,結(jié)果見表7。
表7 水質(zhì)濁度檢測技術(shù)子技術(shù)類別的識別結(jié)果
由表7可以看出技術(shù)要素詞主要聚類在以下5個方面:
一是子技術(shù)1表征的濁度檢測裝置結(jié)構(gòu)。濁度檢測裝置結(jié)構(gòu)[33]作為濁度檢測技術(shù)中最常見的一類技術(shù),因此包含技術(shù)要素的數(shù)量最多。二是子技術(shù)2表征的控制系統(tǒng)??刂葡到y(tǒng)[34]包含電路控制、光路控制、信號傳輸控制等,是濁度檢測技術(shù)中的重要技術(shù)之一。三是子技術(shù)3表征的檢測相關(guān)功能。主要涉及到濁度檢測的一些其它功能[35]。四是子技術(shù)4表征的檢測用組件。在進(jìn)行濁度檢測時常常需要一些部件輔助濁度檢測[36]。五是子技術(shù)5表征的檢測方法。檢測方法作為水質(zhì)檢測技術(shù)的核心內(nèi)容,在檢測不同環(huán)境水樣時需要靈活選用不同的方法[37]。
5.4.1水質(zhì)濁度檢測技術(shù)要素的潛在技術(shù)元三元組確定
本文利用鏈路預(yù)測算法識別技術(shù)元間的潛在關(guān)系。通過對現(xiàn)有的5 348個技術(shù)元三元組進(jìn)行技術(shù)要素之間潛在關(guān)系的確定,本文共識別出了2 409個具有潛在關(guān)系的技術(shù)要素,然后利用SVM算法將識別出的技術(shù)要素劃分為九大類,以此確定潛在關(guān)系所屬的具體類別,進(jìn)而可得到技術(shù)要素的潛在技術(shù)元三元組。
5.4.2水質(zhì)濁度檢測子技術(shù)機(jī)會分析
針對識別出的技術(shù)類別中所包含的潛在技術(shù)元三元組,結(jié)合現(xiàn)有的技術(shù)元三元組,對前文識別出的5個子技術(shù)類進(jìn)行技術(shù)機(jī)會分析。
5.4.3水質(zhì)濁度檢測子技術(shù)類技術(shù)機(jī)會確定
在前述分析基礎(chǔ)上,本文以得到的3個子技術(shù)類的技術(shù)機(jī)會為例進(jìn)行分析,見表8。
表8 水質(zhì)濁度檢測技術(shù)機(jī)會
由表8可以看出水質(zhì)濁度檢測子技術(shù)類的技術(shù)機(jī)會主要包括:
一是水質(zhì)濁度檢測裝置結(jié)構(gòu)子技術(shù)的技術(shù)機(jī)會——友好化檢測裝置。友好化產(chǎn)品設(shè)計作為未來技術(shù)發(fā)展的重要發(fā)展方向之一,同樣也適用于水質(zhì)濁度檢測技術(shù)裝置。必然的,操作友好化[38]、視覺友好化[39]、環(huán)境友好化[36]等是目前濁度檢測裝置的重要發(fā)展方向。
二是水質(zhì)濁度檢測控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會——智能控制。智能控制一直以來作為水質(zhì)濁度檢測裝置的研發(fā)重點(diǎn),同樣也是值得重點(diǎn)關(guān)注的技術(shù)機(jī)會。為了滿足不同時間、空間和環(huán)境等條件的限制,需要利用現(xiàn)有或研發(fā)新的控制技術(shù)實現(xiàn)對濁度檢測裝置的智能控制[34],進(jìn)而實現(xiàn)更精確的水質(zhì)濁度檢測。
三是水質(zhì)濁度檢測控制系統(tǒng)子技術(shù)的技術(shù)機(jī)會——智能檢測。與智能控制相同,智能檢測是水質(zhì)濁度檢測技術(shù)重要的研發(fā)方向。隨著計算機(jī)、傳感器和通訊等技術(shù)的不斷發(fā)展,檢測技術(shù)將不再局限于傳統(tǒng)水質(zhì)的濁度檢測[37],急需更便捷、更準(zhǔn)確地進(jìn)行檢測的方法。同時,在水質(zhì)濁度檢測基礎(chǔ)上,還可嘗試?yán)脵C(jī)器學(xué)習(xí)算法實現(xiàn)對水質(zhì)濁度的預(yù)測[40],從而為進(jìn)一步提升水質(zhì)監(jiān)測與管理水平提供可資借鑒的參考思路。
在完成技術(shù)機(jī)會識別后,可根據(jù)現(xiàn)有技術(shù)元三元組,結(jié)合潛在技術(shù)元三元組制定相應(yīng)的技術(shù)方案,進(jìn)而實現(xiàn)水質(zhì)濁度檢測技術(shù)產(chǎn)品的創(chuàng)新研發(fā)。
綜上所述,為了彌補(bǔ)已有技術(shù)機(jī)會識別文獻(xiàn)中對技術(shù)知識抽取方法研究的不足,提高分析結(jié)果的客觀性,本文提出了一種依托知識元理論開展技術(shù)元抽取與技術(shù)機(jī)會識別的方法。首先根據(jù)知識元理論引出技術(shù)元的概念,為技術(shù)知識管理提供理論支持,并利用基于對抗訓(xùn)練的BERT-BiLSTM-CRF模型進(jìn)行技術(shù)要素抽取,利用BERT模型進(jìn)行技術(shù)要素間關(guān)系抽取,識別出完整的技術(shù)元三元組;其次,利用基于語義信息的技術(shù)要素聚類方法識別相關(guān)技術(shù)的子技術(shù)類別;再次,利用鏈路預(yù)測方法,結(jié)合SVM算法,識別技術(shù)要素間的潛在關(guān)系,并發(fā)現(xiàn)技術(shù)機(jī)會;最后,以水質(zhì)濁度檢測技術(shù)為例驗證了本框架的有效性。
本文在簡化技術(shù)知識獲取難度的同時,拓展了技術(shù)創(chuàng)新理論的研究范疇。為了簡化技術(shù)知識獲取的難度,本文依托知識元理論,通過引入多維技術(shù)創(chuàng)新圖譜對技術(shù)要素及其關(guān)系進(jìn)行了標(biāo)注歸類,并構(gòu)建了相應(yīng)的深度學(xué)習(xí)模型,既彌補(bǔ)了已有技術(shù)機(jī)會識別文獻(xiàn)中對技術(shù)知識抽取方法研究的不足,又彌補(bǔ)了過分依賴專家參與難以保證分析結(jié)果客觀性的缺陷。同時,在提升技術(shù)機(jī)會分析客觀性的同時,也彌補(bǔ)了原有利用鏈路預(yù)測方法進(jìn)行技術(shù)分析的不足。但是,本研究也存在一定的局限性。盡管本文依據(jù)鏈路預(yù)測結(jié)果,對潛在的技術(shù)機(jī)會進(jìn)行了分析,但由于識別出的潛在技術(shù)元三元組較多,一定程度上會受專業(yè)知識所限,難以快速準(zhǔn)確識別。因此,在未來的研究中還需進(jìn)一步對識別出的技術(shù)機(jī)會進(jìn)行量化評價,以提高技術(shù)機(jī)會識別的自動化程度和客觀性。