基于BiLSTM模型的冶金領域國家標準指標識別研究

2023-12-03 10:22:51夏磊方思怡解凌蔡焱顧曉虹

中國標準化 2023年3期

夏磊方思怡解凌蔡焱顧曉虹

摘要：冶金行業(yè)為集成電路、人工智能、航空航天等重要領域提供必不可少的金屬原材料。冶金國家標準是重要的基礎性戰(zhàn)略資源，在冶金產(chǎn)業(yè)的高質(zhì)量發(fā)展中發(fā)揮技術性支撐作用。國家標準文本中蘊含大量的關鍵技術性指標，人工逐一識別并抽取的模式在大數(shù)據(jù)時代已無法滿足數(shù)字化轉型的需求。本研究采用深度學習算法，對冶金領域的國家標準文本分別開展RNN、GRU和BiLSTM模型的對比實驗，根據(jù)模型性能擇優(yōu)選取最優(yōu)模型。研究結果顯示BiLSTM模型在冶金領域國家標準指標識別的表現(xiàn)上最好，由此采用BiLSTM為該領域標準指標識別的深度學習模型。

關鍵詞：冶金，國家標準，標準指標識別，深度學習，BiLSTM

DOI編碼：10.3969/j.issn.1002-5944.2023.03.014

基金項目：本文受上海市市場監(jiān)督管理局科技項目“標準指標智能抽取和比對技術在政府監(jiān)管和‘企標領跑者制度實施中的研究與應用”（項目編號：2021-47）資助。

Research on the Identifi cation of National Standard Indicator in Metallurgical Field Based on BiLSTM Model

XIA Lei FANG Si-yi* XIE Ling CAI Yan GU Xiao-hong

（Shanghai Institute of Quality and Standardization）

Abstract： Metallurgy plays a fundamental role in providing indispensable metal raw materials for important industries such as integrated circuit， artificial intelligence and aerospace. Metallurgical national standards are basic strategic resources of great importance， supporting the high-quality development of metallurgy. The contents of national standards contain a large number of critical technical indicators. Manually identifying and extracting indicators fail to meet the requirement of digital transformation after the advent of the Big Data Era. The deep learning models are used to conduct 3 experiments based on RNN， GRU， and BiLSTM model on metallurgical national standards to fi nd an optimal solution. The results suggested that BiLSTM model performed best in the identification of indicators in metallurgical national standards， thus making BiLSTM the solution to the identifi cation of standard indicator in this fi eld.

Keywords： metallurgy， national standard， identifi cation of national standard indicator， deep learning， BiLSTM

1 引言

作為現(xiàn)代材料體系的重要組成，金屬是國民經(jīng)濟、社會生活和科技發(fā)展中必不可少的基礎材料和戰(zhàn)略物資[1]。以鉛金屬和稀有金屬為代表的有色金屬是大量尖端武器和信息技術產(chǎn)品構件的重要原材料。隨著集成電路、人工智能等高新技術產(chǎn)業(yè)的快速發(fā)展，各國逐漸開始對其金屬原材料開展戰(zhàn)略儲備。長久以來，標準是產(chǎn)業(yè)發(fā)展的重要技術支撐，標準數(shù)據(jù)是重要的基礎性戰(zhàn)略資源。冶金領域的標準文本蘊含大量的技術性指標，挖掘并比對標準指標將對冶金行業(yè)的標準化發(fā)展提供一定的依據(jù)。

在大數(shù)據(jù)時代，人工抽取標準指標的模式已日益無法滿足產(chǎn)業(yè)數(shù)字化轉型的需求。近年來，基于文本挖掘技術的方法在標準指標識別領域開始興起。標準指標識別在本質(zhì)上屬于文本挖掘領域中的實體命名識別（Named entity recognition， NER）任務，國家標準指標識別為中文實體命名識別（Chinese named entity recognition， CNER）在標準領域的應用。中文文本為序列數(shù)據(jù)，已有的實證研究表明循環(huán)神經(jīng)網(wǎng)絡模型（Recurrent neural network， RNN）及其相關變式在序列數(shù)據(jù)的NER問題上有杰出表現(xiàn)，這些變式包括長短期記憶網(wǎng)絡（Long- and short-term memory， LSTM）、門控循環(huán)單元網(wǎng)絡（Gated recurrent unit，GRU）等，其中雙向長短時記憶模型（Bidirectional LSTM， BiLSTM）在醫(yī)療、金融、科技文獻等多種中文文本中均效果良好[2- 5]。

為了探尋冶金領域國家標準指標識別的最佳模型，本研究采用基于RNN及其重要變種的深度學習模型，通過運行RNN、GRU和BiLSTM這3組模型的訓練實驗，比較不同深度學習模型的性能優(yōu)劣，最終確定了適用于冶金領域國家標準指標識別的深度學習模型，提出了解決冶金領域國家標準指標識別的智能化方案，為冶金領域國家標準的數(shù)字化轉型和標準化戰(zhàn)略制定提供一定的參考依據(jù)。

2 方法

2.1 實驗環(huán)境

2.1.1 硬件環(huán)境參數(shù)

本研究的實驗硬件環(huán)境為Intel（R） Xeon（R） Gold 6226R CPU 2.90GHz和2.89 GHz處理器，機帶RAM為128 GB，操作系統(tǒng)為Windows 10的64 Bit，采用的GPU型號為RTX 3090-24G。

2.1.2 軟件環(huán)境參數(shù)

本研究的實驗平臺為Anaconda 3，Python版本為3.8.8，采用的深度學習框架為Keras 2.7.0。該深度學習框架運行于TensorFlow 2.7.0上，以基于Python的TensorFlow為后端。

2.2 數(shù)據(jù)處理

本研究的數(shù)據(jù)處理流程包含數(shù)據(jù)采集與識別、數(shù)據(jù)序列標注、數(shù)據(jù)預處理和數(shù)據(jù)結構化加工4個步驟。數(shù)據(jù)處理流程的框架圖如圖1所示。

2.2.1 數(shù)據(jù)采集與識別

所有標準文本數(shù)據(jù)均來自于上海市質(zhì)量和標準化研究院標準文獻館有版權保護的館藏紙質(zhì)資源，經(jīng)人機協(xié)作的OCR處理后將紙質(zhì)文本統(tǒng)一轉化為doc格式的電子文本65篇，約56萬余字符，形成冶金領域國家標準文本數(shù)據(jù)集。

2.2.2 數(shù)據(jù)序列標注

本研究邀請具有標準化經(jīng)驗的冶金行業(yè)專家對冶金領域國家標準中的產(chǎn)品類標準開展標準指標的數(shù)據(jù)標注，在結合冶金領域國家標準指標實體特性的基礎上經(jīng)專家協(xié)商制定標注方案，從而完成標準文本數(shù)據(jù)的序列標注工作。

本研究的標準指標標注方案包括標準指標標注符號集和標準指標標注規(guī)則。標注符號集是指對文本數(shù)據(jù)進行標注時采用的符號或者字符集合。不同的標注任務往往對應不同的標注符號集。本研究從標準指標的內(nèi)容和類型分布入手制定標準指標的標注符號集，如表1所示。

標注規(guī)則是指在進行數(shù)據(jù)標注時所遵循的一系列一般原則或具體要求。它決定了標注數(shù)據(jù)集的構成形式，進而決定了機器學習和深度學習模型的數(shù)據(jù)輸入。已有的研究指出，不同的標注規(guī)則或導致不同的模型性能[6]。因此，擇取適用的標準指標的標注規(guī)則對構建有效的標準指標標注模型而言具有重要的意義。目前命名實體識別領域的常見標注規(guī)則包括BIO模式、BIOES模式以及其它自定義標注模式。與BIO模式相比，BIOES模型對于命名實體的邊界信息分辨得更為清晰。本研究采用基于BIOES模式的標注規(guī)則，具體說明如表2所示。

2.2.3 數(shù)據(jù)預處理

在數(shù)據(jù)預處理階段，主要是結合通用停用詞庫和冶金領域國家標準文本的文本編寫情況構建適用于冶金領域國家標準的停用詞庫，在去除停用詞和無意義符號后約45萬余字符。

2.2.4 數(shù)據(jù)結構化加工

本研究以字符為數(shù)據(jù)顆粒度單位對冶金領域的國家標準文本進行文本切分，對數(shù)據(jù)進行結構化的加工，構建冶金領域的國家標準文本結構化數(shù)據(jù)集。

2.3 模型設計

本研究的標準指標識別模型框架包括輸入層、中間層、輸出層等若干部分。模型總體架構設計如圖2所示。

本研究的標準指標識別模型采用Word2vec對輸入層的文本數(shù)據(jù)進行索引化處理。Word2vec是一種較為成熟的預訓練嵌入（Embedding）模型，在各個領域得到廣泛應用。與稀疏、高維、硬編碼型的獨熱向量（One-hot encoding）相比，在較大語料庫上預訓練習得的嵌入模型更為低維、密集，且能表征向量間的有效聯(lián)系[7]，將此類預訓練模型加載到數(shù)據(jù)量較大的任務中能起到數(shù)據(jù)降維的作用[8]。Word2vec有2種預訓練嵌入的方法：根據(jù)目標值預測上下文的Skip-gram方法和根據(jù)上下文預測目標值的連續(xù)詞袋（Continuous bag-of-words， CBOW）。已有的實證研究發(fā)現(xiàn)，前者適用于小型語料庫和罕見語料數(shù)據(jù)，后者在大量的常用語料數(shù)據(jù)上精確性更高，訓練速度也更快[9]?？紤]到模型的運行效率和樣本數(shù)量，本研究以字符為單位，采用基于CBOW方法的Word2vec模型原理將冶金領域的國家標準結構化數(shù)據(jù)轉化為靜態(tài)字符向量。該方法的示意圖如圖3所示。

循環(huán)神經(jīng)網(wǎng)絡是序列加工問題中最為基本的深度學習模型，在語音識別、文本挖掘、股票預測等方面有了廣泛的應用。截止目前已衍生出長短期記憶網(wǎng)絡、門控循環(huán)單元網(wǎng)絡、雙向循環(huán)神經(jīng)網(wǎng)絡（Bidirectional RNN， BiRNN）、雙向長短期記憶網(wǎng)絡等多個重要變種[10]，其中BiLSTM因效果較好受到大量認可。由于標準指標識別本質(zhì)也是標準文本挖掘領域中的命名實體識別任務，故本研究以循環(huán)神經(jīng)網(wǎng)絡及其改進算法為核心構建適用于冶金領域國家標準指標識別的深度學習模型。

為了比較不同模型性能的優(yōu)劣，也為了驗證BILSTM模型是否為冶金領域國家標準指標識別的最優(yōu)解，本研究根據(jù)中間層的不同設計了3種實驗，分別對應下列3種模型設計：

2.3.1 實驗1：基于RNN模型的標準指標識別

普通神經(jīng)網(wǎng)絡的計算結果僅與本周期的輸入和網(wǎng)絡權重有關。與普通神經(jīng)網(wǎng)絡相比，RNN的計算結果同時取決于指定的輸入和上一周期的輸出，這一功能為神經(jīng)網(wǎng)絡增加了記憶空間，能更好地預測隨時間而變化的序列數(shù)據(jù)。RNN的工作原理如圖4所示。

2.3.2 實驗2：基于GRU模型的標準指標識別

已有的研究指出，RNN在數(shù)據(jù)的序列長度較短時預測效果較佳。為了解決RNN在長距離依賴上的問題，LSTM應運而生。它通過引入遺忘門、輸入門和輸出門對序列信息進行有效過濾，從而改進RNN的不足，也因此導致了網(wǎng)絡計算復雜度過高的現(xiàn)象。GRU便是為了解決LSTM計算成本而誕生的LSTM優(yōu)化變種。該算法包括更新門和重置門2種門控單元，用更新門結構替代了LSTM中原有的遺忘門和輸入門，在確保模型運行效果的前提下簡化了模型中的門結構，從而大幅提高了神經(jīng)網(wǎng)絡的訓練速度[11]。

2.3.3 實驗3：基于BiLSTM模型的標準指標識別

RNN及其變式LSTM和GRU的工作原理核心均為通過單向的數(shù)據(jù)流來處理序列信息，也即只能依賴出現(xiàn)在當前階段之前的上文信息，存在下文信息依賴缺失的情況。雙向循環(huán)神經(jīng)網(wǎng)絡模型通常由2組獨立的循環(huán)神經(jīng)網(wǎng)絡模型構成，兩者分別對應上文依賴的正序序列信息和下文依賴的逆序序列信息，通過同時訓練這2組模型并進行特征合并，實現(xiàn)了對上下文信息的學習。在一系列的雙向循環(huán)神經(jīng)網(wǎng)絡模型中，以BiLSTM的應用最為廣泛。BiLSTM由前向LSTML和后向LSTMR構成[12]，能有效解決LSTM的上下文信息問題[13]，提供全面的文本語義信息，減少上下文語序問題所導致的判斷錯誤[14]。

2.4 模型訓練流程與參數(shù)設置

2.4.1 模型訓練流程

本研究中的3種實驗設計均采用8：2的比例將標準文本結構化數(shù)據(jù)集劃分為訓練集和測試集。模型訓練流程如圖5所示。

2.4.2 實驗重要參數(shù)設置

本研究的重要實驗參數(shù)皆經(jīng)過參數(shù)調(diào)優(yōu)，具體情況如表3所示。

2.5 模型性能評價指標

模型的評估對建立高效模型而言至關重要。對于分類任務，標簽（Label）通常為離散型數(shù)值，多采用混淆矩陣（Confusion matrix）來評估模型性能[15]。本研究采用由混淆矩陣計算而得的準確率（Accuracy， Acc）、精確率（Precision， P）、召回率（Recall， R）和F1值（F1 score， F1）?；煜仃嚨氖疽鈭D如圖6所示。

準確率、精確率和召回率由混淆矩陣中的變量直接計算而得，F(xiàn)1分數(shù)則是根據(jù)精確率和召回率計算而得。上述四者的具體定義和計算公式如式（1）至（4）所示。式（1）至（3）中的P表示正向的預測方向，N表示負向的預測方向，T表示預測正確，F(xiàn)表示預測錯誤。TP表示正確識別的標準指標的實體數(shù)量，TN表示正確識別的非標準指標的實體數(shù)量，F(xiàn)P表示將非標準指標錯誤識別為標準指標的實體數(shù)量，F(xiàn)N表示將標準指標錯誤識別為非標準指標的實體數(shù)量。

2.5.1 準確率

3 結果與分析

3個實驗的模型性能評價指標對比結果如表4所示。

由表4可知，BiLSTM模型的準確率、精確率、召回率和F1分數(shù)均高于RNN和GRU模型，這表明與另外2種模型相比，BiLSTM模型在冶金領域國家標準的指標識別上有著更好的表現(xiàn)。GRU模型作為LSTM模型的效率優(yōu)化變種，在召回率和F1分數(shù)上更優(yōu)于傳統(tǒng)的RNN模型。

為了進一步考察不同模型的實際訓練情況，將3種模型在迭代訓練過程中的綜合度量指標F1分數(shù)的變化趨勢繪制成折線圖，如圖7所示。

圖7顯示了3種模型的F1分數(shù)在迭代訓練中的變化情況。在第1個Epoch至第2個Epoch階段，3種模型的F1分數(shù)均處于上升趨勢，均在第2個Epoch處趨于最優(yōu)；隨后BiLSTM模型的F1分數(shù)始終保持高度穩(wěn)定，RNN模型的F1分數(shù)在第2個Epoch至第4個Epoch的階段呈現(xiàn)下降趨勢，在第4個Epoch后保持穩(wěn)定；而GRU模型的F1分數(shù)則在第2個Epoch至第6個Epoch階段處于先穩(wěn)定后下降的趨勢，在第4個Epoch后開始緩慢下降。由此可知，在整個訓練過程中，BiLSTM模型的標準指標識別效果最為穩(wěn)定，處于領先優(yōu)勢，其整體表現(xiàn)明顯優(yōu)于另外2種模型。

4 結語

本研究采用深度學習模型對冶金領域國家標準開展產(chǎn)品類指標識別研究，通過運行3組深度學習模型的實驗，全面深入地比較了RNN、GRU和BiLSTM模型的性能表現(xiàn)，最終發(fā)現(xiàn)BiLSTM模型在穩(wěn)定性和準確性上有一定的優(yōu)勢，由此采用BILSTM作為冶金領域國家標準指標識別的深度學習模型，在一定程度上解決了冶金領域國家標準指標智能識別的問題。在未來將繼續(xù)對標準指標識別模型進行進一步優(yōu)化和推廣，為我國其它前沿和重點領域的產(chǎn)業(yè)發(fā)展提供標準技術的支撐力量，為質(zhì)量和標準化新型專業(yè)智庫的建設提供數(shù)據(jù)基礎。

參考文獻

[1]楊洋.山西省金屬學會：推動冶金行業(yè)高質(zhì)量發(fā)展[J].科學之友，2022（9）：30-33.

[2]LI D， YAN L， Yang J， et al. Dependency syntax guided BERTBiLSTM-GAM-CRF for Chinese NER[J].Expert Systems with Applications， 2022（196）：116682.

[3]AN Y， XIA X， CHEN X. Chinese clinical named entity recognition via multi-head self-attention based BiLSTM-CRF[J]. Artificial Intelligence In Medicine， 2022（127）：102282.

[4]HOU L， ZHANG J， YU T， et al. Method and dataset entity mining in scientific literature： A CNN +BiLSTM model with selfattention[J]. Knowledge-Based Systems， 2022（235）：107621.

[5]陳啟，劉德喜，萬常選，等.增強語義表示的中文金融評價要素抽取[J].小型微型計算機系統(tǒng)，2022，43（2）：254-262.

[6]程名，于紅，馮艷紅，等.融合注意力機制和BiLSTM+CRF的漁業(yè)標準命名實體識別[J].大連海洋大學學報，2020，35（2）：296-301.

[7]魯睿元，祝繼華. Keras深度學習[M].北京：中國水利水電出版社，2019.

[8]吳茂貴，王紅星.深入淺出Embedding：原理解析與應用實踐[M]. 北京：機械工業(yè)出版社， 2021.

[9]LANE H & HOWARD C. Natural language processing in action[M]. Greenwich：Manning Publications Cp， 2019.

[10]杜康吉. 改進的循環(huán)神經(jīng)網(wǎng)絡方法及其應用研究[D].吉林市：東北電力大學，2021.

[11]朱凌建，陳劍虹，王裕鑫，等.基于GRU神經(jīng)網(wǎng)絡的脈搏波波形預測方法研究[J].電子測量與儀器學報，2022，36（5）：242-248.

[12]張順香，張鎮(zhèn)江，朱廣麗，等.基于Bi-LSTM與雙路CNN的金融領域文本因果關系識別[J].數(shù)據(jù)分析與知識發(fā)現(xiàn)，2022，6（7）：118-127.

[13]秦精俏，王彤，王玉珍.基于Word2vec_BiLSTM的用餐評論情感分析[J].棗莊學院學報，2022，39（2）：37-44.

[14]胡任遠，劉建華，王璇，等.引入雙循環(huán)機制深度學習模型的文本情感分析[J].福建工程學院學報，2022，20（4）：383-390.

[15]SAL EH H. Machine learning fundamentals[M]. Birmingham：Packet Publishing， 2018.

[16]馬小蕾. 基于語義增強的生物醫(yī)學文本信息抽取方法研究[D].長春：吉林大學，2022.

[17]張開放，蘇華友，竇勇.一種基于混淆矩陣的多分類任務準確率評估新方法[J].計算機工程與科學，2021，43（11）：1910-1919.

作者簡介

夏磊，碩士研究生，工程師，研究方向為標準信息管理。

方思怡，通信作者，碩士研究生，助理工程師，研究方向為標準文獻挖掘、產(chǎn)業(yè)標準化。

解凌，本科，高級工程師，研究方向為信息系統(tǒng)建設。

蔡焱，本科，工程師，研究方向為標準化和標準信息管理。

顧曉虹，本科，高級工程師，研究方向為標準文獻服務。

（責任編輯：張佩玉）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于BiLSTM模型的冶金領域國家標準指標識別研究