摘 要:《國家標(biāo)準(zhǔn)化發(fā)展綱要》指出“將標(biāo)準(zhǔn)研制融入共性技術(shù)平臺建設(shè),縮短新技術(shù)、新工藝、新材料、新方法標(biāo)準(zhǔn)研制周期,加快成果轉(zhuǎn)化應(yīng)用步伐”。隨著科技與經(jīng)濟(jì)的快速發(fā)展,技術(shù)標(biāo)準(zhǔn)的更新日益加快,涉及的技術(shù)愈發(fā)復(fù)雜多樣,加之技術(shù)標(biāo)準(zhǔn)文檔中公式、圖表、文字等細(xì)節(jié)繁復(fù),傳統(tǒng)的單純依靠人工審校的方式不僅效率低下,而且容易因人為因素導(dǎo)致審校結(jié)果不準(zhǔn)確、不一致,已無法滿足技術(shù)標(biāo)準(zhǔn)制修訂的需要。引入技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)輔助人工審校已成工作之急需。該技術(shù)以其高效精準(zhǔn)的優(yōu)勢,能夠快速完成大量文檔的自動化審校,捕捉并提示文檔中的語法錯誤與不合規(guī)項,大幅提高審校效率,顯著降低人力成本,提升審校結(jié)果的一致性和規(guī)范性。
關(guān)鍵詞:技術(shù)標(biāo)準(zhǔn),智能審校
1 開展技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)研究與應(yīng)用的必要性
2021年10月,中共中央、國務(wù)院印發(fā)《國家標(biāo)準(zhǔn)化發(fā)展綱要》,指出“持續(xù)優(yōu)化標(biāo)準(zhǔn)制定流程和平臺、工具,健全企業(yè)、消費者等相關(guān)方參與標(biāo)準(zhǔn)制定修訂的機(jī)制,加快標(biāo)準(zhǔn)升級迭代,提高標(biāo)準(zhǔn)質(zhì)量水平”。2024年3月,國家市場監(jiān)督管理總局等十八部門聯(lián)合印發(fā)《貫徹實施〈國家標(biāo)準(zhǔn)化發(fā)展綱要〉行動計劃(2024—2025年)》(國市監(jiān)標(biāo)技發(fā)〔2024〕30號),指出“持續(xù)優(yōu)化政府頒布標(biāo)準(zhǔn)制定流程、平臺和工具,強(qiáng)化標(biāo)準(zhǔn)制修訂全生命周期管理,加強(qiáng)標(biāo)準(zhǔn)維護(hù)更新、升級迭代”。各地方政府標(biāo)準(zhǔn)化主管部門也陸續(xù)出臺政策,支持推動加快標(biāo)準(zhǔn)升級迭代,提高標(biāo)準(zhǔn)質(zhì)量水平。
在國家電網(wǎng)有限公司,數(shù)以百計的技術(shù)標(biāo)準(zhǔn)文檔審核是一項十分繁重且重要的工作。這些技術(shù)標(biāo)準(zhǔn)文檔涉及專業(yè)多,細(xì)節(jié)繁復(fù),既有復(fù)雜詳細(xì)的技術(shù)要求,又有公式、圖表、文字等多種形式的格式要求,其中還有一些文檔篇幅很長至幾百頁。傳統(tǒng)的人工審核方式不僅效率低下,需要花費大量的時間和精力,而且容易因人為因素導(dǎo)致審校結(jié)果不準(zhǔn)確、不一致。隨著技術(shù)更新速度加快,標(biāo)準(zhǔn)制修訂日益增多,專業(yè)更加細(xì)化,傳統(tǒng)的人工審核方式難以高效應(yīng)對龐大的工作量。因此,引入技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)輔助人工審校需求迫切。
技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)憑借其高效、準(zhǔn)確的特點,能夠快速完成大量文檔的自動化審核,顯著提高審核效率,降低人力成本。同時,該技術(shù)能夠精準(zhǔn)識別文檔中的語法錯誤和不合規(guī)內(nèi)容,確保技術(shù)標(biāo)準(zhǔn)的準(zhǔn)確性和規(guī)范性,減少人為主觀性錯誤,提高技術(shù)標(biāo)準(zhǔn)的質(zhì)量。該技術(shù)應(yīng)用有助于提升技術(shù)標(biāo)準(zhǔn)制修訂的工作效率和管理水平,保障質(zhì)量。
2 國內(nèi)外智能審校技術(shù)研究與應(yīng)用概況
國際上,智能審校技術(shù)的研究起步較早,并在近年來取得了顯著的進(jìn)展。在算法模型、自然語言處理等方面,國外的研究機(jī)構(gòu)和企業(yè)進(jìn)行了深入探索,使得智能審校技術(shù)在識別文本錯誤、提高文本質(zhì)量方面表現(xiàn)出色。這些技術(shù)已被廣泛應(yīng)用于新聞出版、教育等多個領(lǐng)域,極大地提高了文本處理的效率和準(zhǔn)確性。
在國內(nèi),智能審校技術(shù)的研究也呈現(xiàn)出蓬勃發(fā)展的態(tài)勢。研究人員在算法優(yōu)化、技術(shù)融合等方面取得了重要突破,使得智能審校系統(tǒng)能夠更好地適應(yīng)中文語境,識別中文文本中的錯誤[1]。同時,國內(nèi)的研究還注重將智能審校技術(shù)與云計算、大數(shù)據(jù)等先進(jìn)技術(shù)相結(jié)合,進(jìn)一步提升審校系統(tǒng)的性能和效率[2]。
總的來說,國內(nèi)外都在努力推動智能審校技術(shù)的發(fā)展和應(yīng)用,在該技術(shù)的研究上各有優(yōu)勢。技術(shù)標(biāo)準(zhǔn)的內(nèi)容審核涉及多個方面,目前暫無十分成熟的通用的技術(shù)研究與應(yīng)用。
3 AI智能審校技術(shù)的理論和實踐依據(jù)
3.1 理論依據(jù)
3.1.1 自然語言處理(NLP)技術(shù)
NLP技術(shù)是實現(xiàn)文本自動化處理的關(guān)鍵,它涵蓋了從詞匯分析、句法分析到語義理解的全方位處理流程[3]。NLP技術(shù)為智能審校系統(tǒng)提供了強(qiáng)大的文本處理能力,使系統(tǒng)能夠準(zhǔn)確識別并糾正文檔中的語法、拼寫和標(biāo)點錯誤。在技術(shù)標(biāo)準(zhǔn)文檔的內(nèi)容審校中,NLP技術(shù)主要用于構(gòu)建語法檢查模型、拼寫校正模型和標(biāo)點規(guī)范模型,以提高文檔內(nèi)容的準(zhǔn)確性和規(guī)范性。
3.1.2 機(jī)器學(xué)習(xí)算法理論
機(jī)器學(xué)習(xí)算法通過大量數(shù)據(jù)的訓(xùn)練,使系統(tǒng)能夠自動學(xué)習(xí)并改進(jìn)模型性能[4]。在智能審校中,監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)等算法都能發(fā)揮重要作用。對于技術(shù)標(biāo)準(zhǔn)文檔中引用其他技術(shù)標(biāo)準(zhǔn)的糾錯,機(jī)器學(xué)習(xí)算法可以通過訓(xùn)練技術(shù)標(biāo)準(zhǔn)數(shù)據(jù),使系統(tǒng)自動識別并比對技術(shù)標(biāo)準(zhǔn)文檔中引用的其他技術(shù)標(biāo)準(zhǔn)是否準(zhǔn)確。同時,這些算法也可以用于構(gòu)建文檔格式和排版檢查模型,確保文檔的排版和結(jié)構(gòu)符合特定要求。
3.1.3 基于規(guī)則/模板的生成方法
如果規(guī)則文件具有一定的結(jié)構(gòu)或模式,可以使用基于規(guī)則或模板的生成方法來構(gòu)建模型。這種方法需要語言學(xué)專家手工構(gòu)造規(guī)則模板,并選用特征如:統(tǒng)計信息、標(biāo)點符號、關(guān)鍵字等來進(jìn)行匹配和生成。雖然這種方法相對簡單且易于理解,但可能需要大量的人工參與,并且對于復(fù)雜的規(guī)則文件可能不夠靈活。
3.1.4 基于統(tǒng)計的算法
統(tǒng)計方法可以根據(jù)規(guī)則文件中的數(shù)據(jù)建立統(tǒng)計模型,如:關(guān)聯(lián)規(guī)則算法(Apriori算法)等[5]。這些算法通過分析數(shù)據(jù)中的頻率、概率等統(tǒng)計信息來發(fā)現(xiàn)規(guī)則或模式,并生成相應(yīng)的模型。統(tǒng)計方法在處理大規(guī)模數(shù)據(jù)集時可能更加有效,但可能需要更多的計算資源和時間。
3.1.5 上下文無關(guān)文法(CFG)
在一些情況下可以使用CFG來定義規(guī)則文件的語法結(jié)構(gòu),并將其解析為樹結(jié)構(gòu)或其他易于處理的數(shù)據(jù)結(jié)構(gòu)。CFG有助于將規(guī)則文件中的語法規(guī)則轉(zhuǎn)化為計算機(jī)可處理的格式,并支持進(jìn)一步的邏輯推理和計算。
3.1.6 文檔格式和排版理論
文檔格式和排版理論為文檔的視覺呈現(xiàn)和可讀性提供了指導(dǎo)。在智能審校中,這些理論將用于確保文檔的排版和結(jié)構(gòu)符合技術(shù)標(biāo)準(zhǔn)文檔的格式要求。通過應(yīng)用文檔格式和排版理論,智能審校系統(tǒng)可以構(gòu)建符合特定要求的格式檢查模塊,如:體例檢查、字體字號檢查、段落格式檢查等。此外,這些理論還可以用于指導(dǎo)上下文中對應(yīng)關(guān)系查驗、表格圖例等相關(guān)內(nèi)容格式糾錯的工作。
3.2 實踐依據(jù)
3.2.1 技術(shù)可行性
NLP和機(jī)器學(xué)習(xí)技術(shù)的發(fā)展已經(jīng)為智能審校系統(tǒng)提供了強(qiáng)大的技術(shù)支撐。這些技術(shù)已經(jīng)成功應(yīng)用于多個領(lǐng)域,包括文檔自動化處理、信息抽取等。因此,從技術(shù)上講,技術(shù)標(biāo)準(zhǔn)AI智能審校系統(tǒng)的開發(fā)和應(yīng)用是可行的。
3.2.2 現(xiàn)實需求
隨著技術(shù)標(biāo)準(zhǔn)制修訂速度的不斷加快和數(shù)量的不斷增加,僅僅依靠人工審校已經(jīng)難以滿足需求?!秶译娋W(wǎng)有限公司技術(shù)標(biāo)準(zhǔn)體系表(2024年版)》,收錄國家電網(wǎng)有限公司企業(yè)標(biāo)準(zhǔn)2483項,團(tuán)體標(biāo)準(zhǔn)361項、行業(yè)標(biāo)準(zhǔn)4413項、國家標(biāo)準(zhǔn)4651項和國際標(biāo)準(zhǔn)655項,每年修訂的標(biāo)準(zhǔn)數(shù)量多、編審工作量大。在調(diào)研中發(fā)現(xiàn),國家電網(wǎng)有限公司存在這種現(xiàn)象和需求,電力行業(yè)甚至整個工程建設(shè)領(lǐng)域都面臨同樣的情況和需求。因此,通過運用技術(shù)手段,輔助相關(guān)部門或組織快速高效、高質(zhì)量地完成技術(shù)標(biāo)準(zhǔn)審校的需求變得格外迫切,技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)的研究與應(yīng)用能夠很好地解決這一問題。
3.2.3 數(shù)據(jù)支撐
在技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)的研究與應(yīng)用中,數(shù)據(jù)支撐至關(guān)重要。我們將通過3個途徑獲取數(shù)據(jù):(1)國家電網(wǎng)有限公司現(xiàn)有的大量技術(shù)標(biāo)準(zhǔn)(企標(biāo)2483項)數(shù)據(jù)和文檔數(shù)據(jù);(2)爬取互聯(lián)網(wǎng)上已公開的海量技術(shù)標(biāo)準(zhǔn)數(shù)據(jù);(3)聯(lián)合相關(guān)技術(shù)標(biāo)準(zhǔn)出版單位共同開展數(shù)據(jù)訓(xùn)練和模型優(yōu)化,或者購買相關(guān)技術(shù)標(biāo)準(zhǔn)數(shù)據(jù)。這些數(shù)據(jù)將涵蓋多個行業(yè)和領(lǐng)域,確保系統(tǒng)能夠廣泛適用于各種技術(shù)標(biāo)準(zhǔn)的內(nèi)容審校。
3.2.4 相似案例
在技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)的研究與應(yīng)用中,已經(jīng)有個別的類似項目取得了階段性成果,例如:中國計劃出版社自行開發(fā)的工程建設(shè)標(biāo)準(zhǔn)智能審校系統(tǒng),該系統(tǒng)可以提高工程建設(shè)行業(yè)團(tuán)體標(biāo)準(zhǔn)的編寫效率和準(zhǔn)確性。這些項目通過應(yīng)用NLP和機(jī)器學(xué)習(xí)技術(shù),實現(xiàn)了文檔內(nèi)容的自動審核和糾錯。這些已經(jīng)取得階段性成果的實踐案例為本項目提供了寶貴的經(jīng)驗。
4 技術(shù)標(biāo)準(zhǔn)AI智能審校研究的基本內(nèi)容
4.1 通用文本糾錯
研究并優(yōu)化適用于技術(shù)標(biāo)準(zhǔn)文檔的語言模型,以提高語法、拼寫和標(biāo)點錯誤的識別與糾正能力。
研究如何增強(qiáng)系統(tǒng)的上下文理解能力,以便更準(zhǔn)確地糾正因上下文缺失或誤解而導(dǎo)致的錯誤。
4.2 標(biāo)準(zhǔn)引用糾錯
首先,對行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行收集與整理,構(gòu)建并維護(hù)一個全面的標(biāo)準(zhǔn)數(shù)據(jù)庫。
其次,研究如何高效存儲、檢索和實時更新標(biāo)準(zhǔn)數(shù)據(jù)庫,以確保數(shù)據(jù)的準(zhǔn)確性和時效性。
最后,開發(fā)高效的算法,確保系統(tǒng)能夠處理各種復(fù)雜的引用格式,以識別文檔中對其他技術(shù)標(biāo)準(zhǔn)的引用,并將引用的技術(shù)標(biāo)準(zhǔn)與標(biāo)準(zhǔn)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行比對,確保引用的準(zhǔn)確性和一致性。
4.3 格式糾錯
分析并解析技術(shù)標(biāo)準(zhǔn)文檔的格式規(guī)則,將其轉(zhuǎn)化為程序可理解的指令或模板。開發(fā)一系列算法來檢查文檔的排版和結(jié)構(gòu)是否符合規(guī)定的格式要求,包括標(biāo)題、段落、專業(yè)術(shù)語、目錄、中英文固定表達(dá)方式、引用說明等。
4.4 上下文中對應(yīng)關(guān)系查驗
研究并提取文檔中的上下文信息,并分析其中的邏輯關(guān)系和對應(yīng)關(guān)系,開發(fā)算法來識別文檔中的對應(yīng)關(guān)系,如:定義與引用、前提與結(jié)論等,并檢查其準(zhǔn)確性,對于識別出的對應(yīng)關(guān)系錯誤,提供準(zhǔn)確的錯誤提示。
4.5 表格、圖例等相關(guān)內(nèi)容格式糾錯
準(zhǔn)確識別文檔中的表格和圖例,并提取其相關(guān)信息,分析并定義表格和圖例的格式規(guī)則,包括尺寸、字體、邊框、顏色、說明等,與規(guī)定的格式做比對,對不符合要求的內(nèi)容給出錯誤提示。識別表格和圖例中的文字,對其正確性和準(zhǔn)確性給出參考建議。
4.6 公式符號糾錯
準(zhǔn)確識別文檔中的數(shù)學(xué)公式,并解析其結(jié)構(gòu)和符號,開發(fā)算法來檢查公式中的符號是否正確,包括符號類型、大小、位置、說明等,對于識別出的錯誤符號,提供準(zhǔn)確的替換建議。
4.7 引用標(biāo)準(zhǔn)糾錯
準(zhǔn)確識別文檔中的引用標(biāo)準(zhǔn),與構(gòu)建的標(biāo)準(zhǔn)庫進(jìn)行匹配和對比,開發(fā)算法來檢查引用技術(shù)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)號和名稱是否準(zhǔn)確,是否為現(xiàn)行的最新標(biāo)準(zhǔn),對于識別出0c8a9dbaea7cda1f95780341d320fc01af00ea24caa144ba51c9cfe77b8e36b0的有疑問的技術(shù)標(biāo)準(zhǔn),提供準(zhǔn)確的替換建議。
4.8 檢測項
依據(jù)《國家電網(wǎng)有限公司 技術(shù)標(biāo)準(zhǔn)制修訂手冊(第二版)》[6],具體檢測項示例列表見表1。
5 預(yù)期目標(biāo)和成果形式
5.1 預(yù)期目標(biāo)
技術(shù)標(biāo)準(zhǔn)AI智能審校技術(shù)與應(yīng)用基于強(qiáng)大的自然語言處理能力以及各種審校算法,糾正文檔中的語法、拼寫和標(biāo)點錯誤;精確識別并比對大量標(biāo)準(zhǔn)數(shù)據(jù),確保文檔引用的準(zhǔn)確性;按照特定格式要求自動檢查文檔的排版和結(jié)構(gòu);處理包括上下文對應(yīng)關(guān)系查驗、表格與圖例格式糾錯和公式符號糾錯等在內(nèi)的復(fù)雜審校任務(wù)。
技術(shù)標(biāo)準(zhǔn)A I智能審校技術(shù)的應(yīng)用,將顯著提高技術(shù)標(biāo)準(zhǔn)規(guī)范文檔的內(nèi)容審核效率和準(zhǔn)確性,極大推動技術(shù)標(biāo)準(zhǔn)制修訂工作的規(guī)范化與標(biāo)準(zhǔn)化進(jìn)程。
5.2 成果形式
對于技術(shù)標(biāo)準(zhǔn)中使用AI智能審校技術(shù)識別出來的不符合規(guī)范的內(nèi)容以及文本錯誤,系統(tǒng)可以不改變文檔的原內(nèi)容,而以批注的形式插入到文檔中,這樣能夠保持文檔的完整性和原始性,便于審查者迅速定位問題,并清晰記錄修改建議和討論內(nèi)容,有助于團(tuán)隊協(xié)作和后續(xù)修改,同時提升文檔的可讀性和管理效率。
以批注形式進(jìn)行錯誤提示的展示示例見圖1和圖2。
以上兩個圖例為批注形式示例,系統(tǒng)對有異議和錯誤問題進(jìn)行批注展示,并不對原文內(nèi)容進(jìn)行更改,由審核人進(jìn)行人工確認(rèn)。
6 展 望
智能審校技術(shù),包括基于人工智能的圖像識別、文本審校等功能,近年來得到了快速發(fā)展,能夠顯著提升審校效率,大幅降低人工成本。通過自動化處理和高效審核,提高標(biāo)準(zhǔn)內(nèi)容發(fā)布的速度與質(zhì)量,減少了錯誤風(fēng)險,有著顯著的社會效益和經(jīng)濟(jì)效益[7]。
隨著版本的不斷迭代升級,未來的技術(shù)標(biāo)準(zhǔn)AI智能審校系統(tǒng)將在保持體例邏輯檢查、格式檢查等優(yōu)勢的基礎(chǔ)上持續(xù)改良,不斷精進(jìn),具備更強(qiáng)的自主學(xué)習(xí)和決策能力。通過不斷的學(xué)習(xí)和優(yōu)化算法模型,系統(tǒng)將能夠自動識別和分析文本中的錯誤和不合規(guī)項,提高審校的智能化程度,加快技術(shù)標(biāo)準(zhǔn)編制迭代,提高技術(shù)標(biāo)準(zhǔn)質(zhì)量水平,推動我國標(biāo)準(zhǔn)化工作和相關(guān)行業(yè)規(guī)范快速發(fā)展。
參考文獻(xiàn)
[1]劉長明,高國連,楊勇,等.智能審校的應(yīng)用和探索——以“ 方正智能輔助審校系統(tǒng)”為例[ J ] . 出版與印刷,2020(03):12-16.
[2]羅學(xué)科,黃瑩.出版人工智能賦能:內(nèi)容生態(tài)重塑與產(chǎn)消圖景互構(gòu)[J].中國編輯,2022(02):27-31.
[3]喬寶榆.基于NLP的輔助審稿系統(tǒng)設(shè)計與開發(fā)實踐[J].中國科技期刊研究,2024,35(06):798-804.
[4]李金亮.基于深度學(xué)習(xí)的中文標(biāo)點符號審校算法研究[D].成都:西南交通大學(xué), 2018.
[5]馬曉平,曹少中,李旸.基于優(yōu)化Apriori算法的印刷檢測數(shù)據(jù)關(guān)聯(lián)分析[J].北京印刷學(xué)院學(xué)報,2024,32(06):22-26.
[6]國家電網(wǎng)有限公司科技創(chuàng)新部.國家電網(wǎng)有限公司技術(shù)標(biāo)準(zhǔn)制修訂手冊:第二版[ M ] .北京:中國電力出版社,2021.
[7]龍啟銘.人工智能時代下智能審校的應(yīng)用探析[J].傳播與版權(quán),2022(06):39-41+45.