衛(wèi)珂玢(大慶油田技術(shù)監(jiān)督中心標準化研究所)
眾所周知,節(jié)能減排一直是企業(yè)降本增效的重要手段,而節(jié)能標準是企業(yè)乃至國家節(jié)能制度的基礎(chǔ),是化解產(chǎn)能過剩、推動建設(shè)綠色生態(tài)環(huán)境的有效支撐。節(jié)能標準信息的采集是標準使用者吸收節(jié)能專業(yè)關(guān)鍵內(nèi)容的有效手段,但隨著標準化信息技術(shù)的不斷創(chuàng)新,標準信息使用者的要求不斷多樣化,僅針對標準名稱、編號進行檢索的標準信息處理技術(shù)無法滿足以下需求:
1)由于節(jié)能標準中標準信息的多元化,導致檢索者無法精確查詢所需要的標準信息。
2)需要采集不同標準中的節(jié)能數(shù)據(jù)或相關(guān)技術(shù)指標進行對比分析。
因此,需要研究基于節(jié)能標準內(nèi)容的標準檢索技術(shù),通過對標準相關(guān)內(nèi)容進行分析和有效組織,提供一個更加豐富詳細的標準信息處理工具,滿足使用者提取不同標準信息內(nèi)容的需求。
若按照GB/T 13017—2008《企業(yè)標準體系表編制指南》,可將現(xiàn)有標準數(shù)據(jù)分為技術(shù)標準、工作標準、管理標準[1]三大類。不同類別標準的內(nèi)容層次繁多,很難統(tǒng)一。如:技術(shù)標準中包含技術(shù)指標、術(shù)語、要求和方法等層次;工作標準包含設(shè)備維修保養(yǎng)內(nèi)容;而管理標準包含管理方法、考核細則等。通過對所有標準結(jié)構(gòu)層次進行分析,確定標準層次(表1)。
表1 標準結(jié)構(gòu)層次
通過梳理出標準內(nèi)容層次結(jié)構(gòu),科學、合理地設(shè)計調(diào)查問卷,對高頻使用標準的技術(shù)人員和提供技術(shù)指導的相關(guān)專家展開問卷調(diào)查,以確定各部分標準內(nèi)容關(guān)注度的排序情況,為設(shè)置權(quán)重規(guī)則奠定基礎(chǔ)。標準內(nèi)容關(guān)注度反饋數(shù)據(jù)如圖1所示。
標準內(nèi)容關(guān)注度排序結(jié)果如下:
第一,方法、要求;
第二,標準名稱、范圍;
第三,術(shù)語和定義;
第四,目次、前言;
第五,附錄、規(guī)范性引用文件、參考文獻、包裝、標志、運輸、貯存、引言。
圖1 標準內(nèi)容關(guān)注度排序
以節(jié)能標準為基礎(chǔ)數(shù)據(jù),前期搜集節(jié)能標準共171項,梳理標準之間內(nèi)部層次。按照標準體系建立原則,建立節(jié)能專業(yè)標準體系,對標準體系內(nèi)171項標準內(nèi)容進行索引提取,以標準范圍、主要技術(shù)內(nèi)容為對象,提取多個關(guān)鍵詞。例如,GB/T 12325—2008《電能質(zhì)量 供電電壓允許偏差》的主要技術(shù)要求包含電壓、偏差、限值、測量、合格率等關(guān)鍵指標。提取索引時,將這些關(guān)鍵指標作為該標準的次關(guān)鍵索引,以此類推,從而建立標準索引集。最終提取索引共513項,其中關(guān)鍵索引312項,次關(guān)鍵索引201項。
現(xiàn)階段常用三種語義相似度計算方法[2]包括基于語義理解的相似度算法[3]、基于漢明距離的相似度算法[4]、基于向量空間模型的計算方法[2]。三種方法對比如表2所示。
由表2可知,基于語義理解的相似度算法遵循詞義間結(jié)構(gòu)層次關(guān)系的語義樹進行計算。該語義樹[3]包括實體、屬性值、數(shù)量值、特征值等數(shù)據(jù)集合,與使用的節(jié)能標準內(nèi)容所包含的技術(shù)指標、數(shù)值計算、操作步驟等概念屬性不謀而合;其次,該方法描述的概念含義的抽象性與其所表達的數(shù)據(jù)源所在位置相關(guān),與根據(jù)檢索詞在標準內(nèi)容關(guān)注度排序情況下設(shè)置權(quán)重規(guī)則的理念相同。
結(jié)合搜集的171項節(jié)能標準提取的關(guān)鍵索引,以及各關(guān)鍵索引語義關(guān)聯(lián)度,可知基于語義理解的相似度算法最為科學合理,其計算公式[2-3]為
式中:f(p1)、 f(p2)分別為詞p1、p2在語義樹中連接的節(jié)點數(shù)(含自身)/語義樹總節(jié)點數(shù);LCN為兩個詞最小公共節(jié)點;dist(p1,p2)為p1、p2在語義樹中的路徑距離;α為可調(diào)節(jié)變量。
由語義相似度算法比較及計算公式可知,基于語義理解的相似度算法依據(jù)的核心模板為語義樹[3]:根據(jù)標準體系內(nèi)部各標準間層次,遵循標準體系內(nèi)在邏輯關(guān)系,結(jié)合索引集關(guān)鍵分詞,設(shè)立父節(jié)點和子節(jié)點,建立節(jié)能專業(yè)語義樹,如圖2所示。
檢索詞權(quán)重值計算規(guī)則[3-5]為
式中:tf(t,D)為標準中詞語t出現(xiàn)的頻率;idf(t)為與標準頻率成反比關(guān)系的倒置標準頻率[6];loc(t,D)為詞語t在標準中的位置。
結(jié)合標準內(nèi)容關(guān)注度排序情況,賦予標準不同層次不同的權(quán)重分值:排名第一的“方法、要求”分值最高,排名最后的“附錄、規(guī)范性引用文件、參考文獻、包裝、標志、運輸、貯存、引言”分值最低,記為loc(t,D)。在語義樹中,越深層次的索引越具有技術(shù)指向性,權(quán)重分值也最高。
基于以上研究內(nèi)容,建立語義關(guān)聯(lián)模型[7],即
f(i)=語義相似度×檢索詞權(quán)重值 (3)
式中:f(i)為一個反饋結(jié)果集合,即f(i)∈{標準檢索庫標準};語義相似度為檢索詞與索引集索引匹配程度,若與索引精確匹配,則相似度為1;若無任何相似,則相似度為0。
表2 三種語義相似度計算方法比較
圖2 節(jié)能專業(yè)語義樹(部分)
在驗證程序中輸入關(guān)鍵詞(評價指標),將程序反饋出的數(shù)據(jù)結(jié)果與現(xiàn)有標準數(shù)量進行對比,用以驗證提出的語義關(guān)聯(lián)模型的準確率。實驗環(huán)境為:windows7系統(tǒng),4G內(nèi)存。
計算公式中參數(shù)雖然還需進一步做出相應的調(diào)整,但建立的語義關(guān)聯(lián)模型所計算出的合格率基本符合建立的節(jié)能標準檢索庫中標準檢索的要求,實現(xiàn)了基于標準內(nèi)容檢索的初步想法,為進一步研究標準內(nèi)容檢索技術(shù)提供了關(guān)鍵性的技術(shù)支持。
節(jié)能作為企業(yè)降本增效的重要手段,其標準化功能也應具備高效的要求,在節(jié)能標準信息處理方式上需要進行創(chuàng)新,以滿足節(jié)能標準使用者日益增加的技術(shù)需求。
在現(xiàn)代數(shù)據(jù)檢索技術(shù)日趨完美、云計算逐漸完善的大環(huán)境下,打破固有的標準檢索模式,通過對搜集的節(jié)能標準相關(guān)內(nèi)容進行有效組織,建立檢索內(nèi)容相關(guān)性表達模型,研究出基于標準內(nèi)容的檢索理論方法,將標準化檢索手段推進新的發(fā)展階段,將標準信息處理能力上升新的高度,成為標準化信息的重要處理工具。該創(chuàng)新成果不僅可用于節(jié)能標準數(shù)據(jù)的處理方式中,也能用于各行各業(yè)標準關(guān)鍵信息的提取方式中。因此,標準檢索系統(tǒng)研究成果的開發(fā)可進一步提高標準化信息系統(tǒng)的效益空間,該技術(shù)將成為標準化領(lǐng)域的“百度”和“知網(wǎng)”,對中國標準化領(lǐng)域在國際地位的提升具有一定的指導意義。