吳勤浩,沈炫辰,陳 雨,朱智強(qiáng),羅安滿
(中核核電運(yùn)行管理有限公司,浙江 海鹽 314300)
秦山核電作為老發(fā)電基地,物資主數(shù)據(jù)管理模式與管理標(biāo)準(zhǔn)經(jīng)過(guò)多次的調(diào)整,由于歷史原因,其數(shù)據(jù)質(zhì)量存在一定的問(wèn)題。
隨著公司精益化管理地不斷深入,降本增效工作地不斷推進(jìn),庫(kù)存控制管理已經(jīng)逐漸成為公司急需解決的重要難題,以現(xiàn)有庫(kù)存清理、基礎(chǔ)數(shù)據(jù)清理為導(dǎo)向的解決思路日趨重要。
秦山核電在2012年之前物資數(shù)據(jù)由各電廠自行創(chuàng)建和維護(hù),存在大量重碼問(wèn)題,不利于物資共享、集中采購(gòu)、成本控制。隨著庫(kù)存控制管理的持續(xù)開(kāi)展,物資主數(shù)據(jù)作為供應(yīng)鏈領(lǐng)域的基礎(chǔ)數(shù)據(jù)之一,發(fā)揮了越來(lái)越大的影響力,低質(zhì)量的數(shù)據(jù)基礎(chǔ)逐漸成為了阻礙工作順利推進(jìn)的制約因素。解決重碼問(wèn)題,主要通過(guò)對(duì)不同物資數(shù)據(jù)的檢索對(duì)比完成,當(dāng)前依靠電廠專業(yè)人員或外部廠商的方式費(fèi)時(shí)費(fèi)力。同時(shí)人員因素在重碼識(shí)別過(guò)程中也存在較大阻礙。
目前新興的知識(shí)圖譜IT技術(shù),以數(shù)據(jù)為核心,打通所有數(shù)據(jù)連接,擺脫傳統(tǒng)數(shù)據(jù)查詢頁(yè)面的方式,采用圖譜展示方式方便實(shí)現(xiàn)用戶在信息檢索中的聯(lián)想式檢索,使系統(tǒng)中積累的海量數(shù)據(jù)得到有效的整合利用,并發(fā)揮其實(shí)效。
數(shù)潤(rùn)大數(shù)據(jù)平臺(tái)為知識(shí)圖譜挖掘技術(shù)打下了良好的數(shù)據(jù)基礎(chǔ)和計(jì)算基礎(chǔ),也為形成物資語(yǔ)義庫(kù)形成了數(shù)據(jù)基礎(chǔ)。本文相似性分析使用的10個(gè)數(shù)據(jù)(如表1),均由數(shù)潤(rùn)大數(shù)據(jù)平臺(tái)提供,約330萬(wàn)數(shù)據(jù)量。
表1 相似性分析數(shù)據(jù)清單Table 1 The list of similarity analysis data
(1)分析思路
傳統(tǒng)的物資主數(shù)據(jù)相似度分析主要從物資主數(shù)據(jù)數(shù)據(jù)本身進(jìn)行分析,將代表物資本身屬性的字段進(jìn)行相似度分析,利用相似度算法進(jìn)行計(jì)算和排序,得到疑似清單,再由重碼識(shí)別人員和業(yè)務(wù)人員進(jìn)行確認(rèn)。
(2)相似度算法
余弦距離,也稱為余弦相似度,是用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異大小的度量。當(dāng)兩條物資描述信息向量夾角余弦等于1時(shí),這兩條物資描述完全重復(fù);當(dāng)夾角的余弦值接近于1時(shí),兩條物資描述相似(可以用作文本分類);夾角的余弦越小,兩條物資描述越不相關(guān)。
JaccardSimilarity是兩個(gè)集合的交集除以兩個(gè)集合的并集,所得的就是兩個(gè)集合的相似度,數(shù)學(xué)表達(dá)式是:J(A,B)=|A∩B|/|A∪B|。Jaccard(杰卡德)相似性系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的樣本間的相似度。
(1)最短編輯距離算法
編輯距離(Edit Distance),又稱Leven ̄shtein距離,是指兩個(gè)字串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù),編輯距離越小,兩個(gè)串的相似度越大,通過(guò)該算法,完成大部分字段的相似度對(duì)比。
(2)余弦相似度算法
余弦相似度,又稱為余弦相似性,是通過(guò)計(jì)算兩個(gè)向量的夾角余弦值來(lái)評(píng)估他們的相似度,對(duì)于物料描述字段是通過(guò)文本分詞、核電領(lǐng)域常用單位識(shí)別以及該算法結(jié)合的方式對(duì)其進(jìn)行相似性分析。
(3)KL散度算法
KL散度是兩個(gè)概率分布P和Q差別的非對(duì)稱性的度量,通過(guò)該算法的思想對(duì)比不同權(quán)重占比時(shí)KL散度的變化,從而獲得一個(gè)較優(yōu)的初始權(quán)重占比,再結(jié)合專業(yè)人員的建議對(duì)權(quán)重占比進(jìn)行細(xì)微調(diào)整,得出最終權(quán)重占比。
(4)AHP層次分析法
AHP層次分析法是多方案或多目標(biāo)的決策方法,是一種定性與定量相結(jié)合的決策分析方法。
知識(shí)圖譜本質(zhì)上是語(yǔ)義網(wǎng)絡(luò),是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(Point)和邊(Edge)組成,從實(shí)際應(yīng)用的角度出發(fā)其實(shí)可以簡(jiǎn)單地把知識(shí)圖譜理解成多關(guān)系圖(Multi-relational Graph)。在知識(shí)圖譜里,每個(gè)節(jié)點(diǎn)表示現(xiàn)實(shí)世界中存在的“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。知識(shí)圖譜是關(guān)系的最有效的表示方式。通俗地講,知識(shí)圖譜就是把所有不同種類的信息(Heterogeneous Information)連接在一起而得到的一個(gè)關(guān)系網(wǎng)絡(luò)。知識(shí)圖譜提供了從“關(guān)系”的角度去分析問(wèn)題的能力。知識(shí)圖譜這個(gè)概念最早由Google提出,主要是用來(lái)優(yōu)化現(xiàn)有的搜索引擎。不同于基于關(guān)鍵詞搜索的傳統(tǒng)搜索引擎,知識(shí)圖譜可用來(lái)更好地查詢復(fù)雜的關(guān)聯(lián)信息,從語(yǔ)義層面理解用戶意圖,改進(jìn)搜索質(zhì)量。
基于核電現(xiàn)有數(shù)據(jù)基礎(chǔ),采用Neo4j圖數(shù)據(jù)庫(kù),以圖中的節(jié)點(diǎn)和邊的方式來(lái)存儲(chǔ)數(shù)據(jù),將離散的數(shù)據(jù)整合在一起,結(jié)合核電業(yè)務(wù)場(chǎng)景,采用自底向上的方式構(gòu)建核電領(lǐng)域知識(shí)圖譜模型,如圖1所示支持各種上層智慧應(yīng)用的實(shí)現(xiàn)?;赪ebGL技術(shù)實(shí)現(xiàn)圖譜可視化,通過(guò)3D的方式,立體直觀地將業(yè)務(wù)數(shù)據(jù)以及相互之間的關(guān)聯(lián)關(guān)系呈現(xiàn)給用戶。
圖1 物資知識(shí)圖譜Fig.1 The material knowledge graph
語(yǔ)義庫(kù)是一種重要的基礎(chǔ)性語(yǔ)言資源,可以為自然語(yǔ)言處理任務(wù)提供豐富的語(yǔ)料知識(shí),常被廣泛應(yīng)用于詞義消歧、機(jī)器翻譯、信息檢索以及自動(dòng)問(wèn)答等任務(wù),是智能知識(shí)管理體系的重要組成部分,其規(guī)模與質(zhì)量是智能知識(shí)管理體系成敗的關(guān)鍵。領(lǐng)域詞庫(kù)的儲(chǔ)備以及知識(shí)的積累是企業(yè)大數(shù)據(jù)語(yǔ)義分析能力的基礎(chǔ),而大數(shù)據(jù)語(yǔ)義分析能力是建立語(yǔ)義平臺(tái)的必要條件,建立語(yǔ)義平臺(tái)可以為企業(yè)提供高效地處理大量非結(jié)構(gòu)化數(shù)據(jù)、挖掘文本數(shù)據(jù)價(jià)值的能力。
本方法搜集整理核電領(lǐng)域?qū)S杏迷~構(gòu)建核電領(lǐng)域?qū)S性~詞典,結(jié)合業(yè)務(wù)需求構(gòu)建核電領(lǐng)域同義詞詞典,同時(shí)引用開(kāi)源通用詞典,共同組成核電領(lǐng)域語(yǔ)義庫(kù)的基礎(chǔ)。
該語(yǔ)義庫(kù)具有高擴(kuò)展性,具有可動(dòng)態(tài)發(fā)展的能力,通過(guò)業(yè)務(wù)數(shù)據(jù)的不斷增多,可提取的語(yǔ)料會(huì)相應(yīng)積累,結(jié)合標(biāo)準(zhǔn)化的更新機(jī)制和維護(hù)機(jī)制,實(shí)現(xiàn)語(yǔ)料庫(kù)的不斷擴(kuò)充。
有別于之前僅從物資屬性,單一維度地設(shè)計(jì)物資重碼分析方法,本課題結(jié)合物資的物理屬性以及物資的使用場(chǎng)景,對(duì)物資重碼做多維度的分析。其中,基于物資物理屬性的重碼分析是指通過(guò)對(duì)描述物資的各字段做對(duì)比來(lái)判斷物資是否重碼;基于物資使用場(chǎng)景的重碼分析是指通過(guò)追溯分析物資的歷史使用場(chǎng)景,即物資是否使用在同一設(shè)備上來(lái)判斷是否重碼。最終,綜合考慮兩個(gè)維度的重碼分析結(jié)果決定物資是否重碼。
基于物資屬性的重碼分析涉及7個(gè)屬性(見(jiàn)表2),且根據(jù)數(shù)據(jù)類型不同,使用不同的相似性對(duì)比方法,并根據(jù)業(yè)務(wù)經(jīng)驗(yàn),對(duì)不同的屬性賦予不同的權(quán)重,最終兩個(gè)物資的相似度為各屬性相似度乘以其權(quán)重之后的和,如下式所示:
表2 物資屬性Table 2 Material properties
總屬性相似度 = ∑屬性i權(quán)重×屬性i相似度
“危險(xiǎn)品號(hào)”“是否工器具”是決定性屬性,是判斷兩個(gè)物資是否為重碼的先決條件,即如果這兩個(gè)屬性中任何一個(gè)屬性不相似,則認(rèn)為兩個(gè)物資為非重碼物資。采用全匹配方式判斷兩個(gè)物資是否相同。
“物資名稱”“基本物料”“制造商零件編號(hào)”“制造商名稱”這類屬性涉及中英文、數(shù)字或其他文字,通過(guò)最短編輯距離算法計(jì)算相似度。最短編輯距離又稱Levenshtein Distance,是指兩個(gè)字符串之間,由一個(gè)轉(zhuǎn)成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。一般來(lái)說(shuō),編輯距離越小,兩個(gè)字符串的相似度越大。
“物資描述”屬性是由描述物資的多個(gè)屬性拼接而成,涉及表達(dá)方式多樣且語(yǔ)義豐富,因此對(duì)該屬性則先通過(guò)分詞的方法、詞語(yǔ)向量化之后,再使用余弦相似度算法計(jì)算其相似度。主要處理步驟如下:
1)字符串預(yù)處理,將物資名稱中英文部分進(jìn)行大小寫字母轉(zhuǎn)化,將物資描述進(jìn)行特殊符號(hào)的刪除處理;
2)分詞處理,使用結(jié)巴分詞工具中自帶詞典以及整理的核電領(lǐng)域?qū)I(yè)詞典,對(duì)字符串預(yù)處理后的文本內(nèi)容進(jìn)行分詞處理;
3)近義詞替換,利用整理的核電領(lǐng)域同義詞詞典,對(duì)結(jié)巴分詞后的詞語(yǔ)進(jìn)行同義詞搜索和替換,這樣能排出余弦相似度計(jì)算時(shí),利用詞袋詞語(yǔ)去重,因詞語(yǔ)不同而帶來(lái)的影響;
4)余弦相似度計(jì)算,物資描述進(jìn)行結(jié)巴分詞以后,將所切分的詞語(yǔ)進(jìn)行去重排序,用排序后的下標(biāo)對(duì)原有詞語(yǔ)位置進(jìn)行替換,統(tǒng)計(jì)下標(biāo)數(shù)量,并使用onehot編碼,將其轉(zhuǎn)為相對(duì)應(yīng)向量,通過(guò)向量的內(nèi)積去除以各自的模,獲得最終余弦相似度。
基于知識(shí)圖譜的重碼分析則是從物資的使用場(chǎng)景對(duì)比分析是否為重碼物資,這個(gè)維度的重碼分析是對(duì)基于物資屬性的重碼分析結(jié)果的補(bǔ)充和支持。該方法認(rèn)為,如果兩個(gè)物資能通過(guò)不同或者相同的場(chǎng)景,使用在同一設(shè)備上,則這兩個(gè)物資具有一定的重碼可能性,尤其當(dāng)兩物資具有較高的屬性相似度時(shí)。這一方法的實(shí)現(xiàn)借助知識(shí)圖譜中的路徑探索等方法,幫助物資搜索符合使用場(chǎng)景的路徑,并完成圖譜相似的計(jì)算。
核心權(quán)重思路:各條路徑在總權(quán)重占比并非線性下降,通常前N條的路徑的重要程度要更高,重要性差異也更明顯,因此使用分層決策方法,將目標(biāo)路徑進(jìn)行分層,不同層級(jí)權(quán)重按幾何對(duì)數(shù)下降。
涉及的圖譜路徑有5條,借助AHP (Anal-ytic Hierarchy Process)的方法對(duì)5條路徑的重要性做初步評(píng)估,并分配兩個(gè)物資的連通路徑權(quán)重,如表3所示。AHP (Analytic Hierarchy Process)層次分析法是種多方案或多目標(biāo)的決策方法,是一種定性與定量相結(jié)合的決策分析方法,常被運(yùn)用于多目標(biāo)、多準(zhǔn)則、多要素、多層次的非結(jié)構(gòu)化的復(fù)雜決策和權(quán)限賦值問(wèn)題。將決策的目標(biāo)、考慮的因素(決策準(zhǔn)則)和決策對(duì)象按它們之間的相互關(guān)系分層,確定某層所有因素對(duì)于總目標(biāo)相對(duì)重要性的排序權(quán)值如表4所示。
表3 相似性圖譜路徑Table 3 Similarity map paths
表4 物資連通路徑權(quán)重分配Table 4 The weight distribution of material connectivity path
知識(shí)圖譜路徑分析規(guī)則如下(以5條指向BOM路徑為例):
1)每條路徑通過(guò)知識(shí)圖譜得出最終 BOM節(jié)點(diǎn)清單(清單中包含BOM號(hào)及路徑數(shù)量),每個(gè)物資的BOM節(jié)點(diǎn)清單有0~5個(gè)(無(wú)路徑連通則為0,每條路徑都連通則為5)。
2)統(tǒng)計(jì)并記錄清單中連通每個(gè)BOM節(jié)點(diǎn)的路徑數(shù)量(例如物資A通過(guò)路徑一得出的BOM節(jié)點(diǎn)清單結(jié)果為 BOM A,路徑數(shù)量20,則代表有20條通過(guò)路徑一模式連通物資A和BOM A的路徑)。
3)對(duì)每條路徑的BOM節(jié)點(diǎn)路徑數(shù)量設(shè)置域值M(閾值M通過(guò)對(duì)數(shù)據(jù)進(jìn)行抽樣試驗(yàn),運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行調(diào)整,M可為0),當(dāng)某個(gè)BOM節(jié)點(diǎn)的路徑數(shù)量大于M時(shí),判定該BOM節(jié)點(diǎn)為有效節(jié)點(diǎn),當(dāng)路徑數(shù)量小于等于M時(shí),判定該BOM節(jié)點(diǎn)為無(wú)效節(jié)點(diǎn)。
4)兩個(gè)物資的BOM節(jié)點(diǎn)清單相互之間做交叉對(duì)比計(jì)算,取BOM節(jié)點(diǎn)的交集,產(chǎn)生若干個(gè)對(duì)比結(jié)果集合。
5)每種路徑連通方式均有三種連通結(jié)果,分別為有效連通、無(wú)效連通、不連通,當(dāng)兩條路徑所得的BOM節(jié)點(diǎn)清單存在有效節(jié)點(diǎn)的交集時(shí),則判定其為有效連通;若交集中都是無(wú)效節(jié)點(diǎn)時(shí),則判定其為無(wú)效連通;若無(wú)任何節(jié)點(diǎn)交集,則判定其為不連通。每種路徑連通方式的三種連通結(jié)果,分別對(duì)應(yīng)三種權(quán)重,在兩個(gè)物資計(jì)算分析過(guò)程中,每種路徑連通方式,只會(huì)產(chǎn)生一個(gè)權(quán)重。
6)結(jié)合所有路徑的權(quán)重值得出圖譜部分的相似度。
結(jié)合字段部分的相似度及圖譜部分的相似度,計(jì)算出最終物資相似度。物資相似度大于0.6的數(shù)據(jù),進(jìn)入疑似重碼的物資清單,物資相似度大于0.8的數(shù)據(jù),認(rèn)為其相似度為高相似度。
表5 分析涉及字段和路徑清單Table 5 The list of fields and paths involved in the analysis
物資重碼分析主要經(jīng)過(guò)查詢、分析、審定標(biāo)識(shí)幾個(gè)過(guò)程,詳見(jiàn)圖2。
圖2 重碼分析流程圖Fig.2 The analysis flow chart of repeated codes
其中查詢是指通過(guò)設(shè)定一些查詢條件,詳見(jiàn)圖3,篩選出需要做重碼分析的物資;也可通過(guò)高級(jí)搜索功能,直接輸入sql語(yǔ)句,對(duì)物資數(shù)據(jù)進(jìn)行篩選。這個(gè)步驟的目的在于通過(guò)已知條件,縮小重碼分析范圍,提高分析效率以及精確率。
圖3 重碼分析查詢界面Fig.3 The analysis query interface of repeated codes
分析步驟則是重碼分析方法,對(duì)篩選出的物資進(jìn)行重碼分析,并將分析結(jié)果返回給用戶。其中的分析結(jié)果包括“字段相似度”和“圖譜相似度”,由“字段相似度”和“圖譜相似度”綜合得出的“相似度”和“備注”中提供的疑似相似字段,以及“查看疑似重碼原因”中提供的圖譜中連通的路徑。詳見(jiàn)圖4。審定步驟是指用戶對(duì)系統(tǒng)分析的重碼結(jié)果進(jìn)行標(biāo)識(shí)確認(rèn),如果為非重碼物資,則提供非重碼原因。
圖4 重碼分析結(jié)果Fig.4 Analysis results of repeated codes
基于知識(shí)圖譜技術(shù)的重碼分析不僅僅是對(duì)物資主數(shù)據(jù)本身的分析,更是引入了相關(guān)聯(lián)的業(yè)務(wù)數(shù)據(jù)和其他主數(shù)據(jù)作為數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ),將業(yè)務(wù)數(shù)據(jù)和主數(shù)據(jù)各個(gè)數(shù)據(jù)對(duì)象關(guān)聯(lián),并賦予重碼分析權(quán)重。
通過(guò)大數(shù)據(jù)挖掘,大大提高管理水平,節(jié)省管理成本,為秦山核電物資管理提供精益化管理,同時(shí)減少管理改進(jìn)投入大量專業(yè)技術(shù)人員。
通過(guò)物資主數(shù)據(jù)重碼分析,一方面可以減少了存量數(shù)據(jù)中一物多碼的情況,優(yōu)化了數(shù)據(jù)質(zhì)量;另一方面,為后續(xù)物資主數(shù)據(jù)運(yùn)維管理提供了輔助手段,從源頭上最大限度的杜絕重碼現(xiàn)象的產(chǎn)生,從而降低供應(yīng)鏈重復(fù)采購(gòu)和庫(kù)存金額飆升的風(fēng)險(xiǎn),提高了供應(yīng)鏈風(fēng)險(xiǎn)管控和應(yīng)對(duì)的能力。
在數(shù)據(jù)規(guī)范性方面也達(dá)到促進(jìn)物資主數(shù)據(jù)具有唯一性、規(guī)范性和完整性的效果,滿足物資在采購(gòu)、倉(cāng)儲(chǔ)、設(shè)備和資產(chǎn)等各領(lǐng)域要求的同時(shí),保障采購(gòu)業(yè)務(wù)的準(zhǔn)確性和相關(guān)業(yè)務(wù)人員得知數(shù)據(jù)變化的實(shí)時(shí)性,減少公司由于數(shù)據(jù)不準(zhǔn)造成的采購(gòu)損失。