摘要:電力設(shè)備銘牌結(jié)構(gòu)復(fù)雜、傳統(tǒng)OCR難以有效地結(jié)構(gòu)化提取銘牌信息,而傳統(tǒng)的模板匹配方法存在模板管理困難等問題,針對該問題,提出了一種基于OCR及組合標(biāo)簽索引模板的電力銘牌信息結(jié)構(gòu)化提取方法。該方法首先依據(jù)銘牌文本結(jié)構(gòu)特性,將其分為常規(guī)型與特殊型兩類。對于特殊型銘牌,構(gòu)建模板庫并為所有模板注明標(biāo)簽。利用標(biāo)簽檢索對應(yīng)模板進(jìn)行匹配,從而提取結(jié)構(gòu)化信息。對于常規(guī)型銘牌,則采用內(nèi)置結(jié)構(gòu)化信息處理規(guī)則的OCR引擎直接提取結(jié)構(gòu)化信息。實(shí)驗(yàn)結(jié)果表明,該方法能夠準(zhǔn)確高效地提取常規(guī)型與特殊型銘牌的結(jié)構(gòu)化數(shù)據(jù),有效提高了電力銘牌信息提取的效率。
關(guān)鍵詞:電力銘牌識(shí)別;OCR識(shí)別;結(jié)構(gòu)化信息提?。荒0迤ヅ?;模板檢索
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)31-0109-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
0 引言
隨著國家電網(wǎng)的快速發(fā)展,電力設(shè)備數(shù)量急劇增加,如何高效管理設(shè)備信息成為亟待解決的問題[1-2]。銘牌作為一種重要的信息載體,承載著設(shè)備型號(hào)、規(guī)格參數(shù)、生產(chǎn)日期等關(guān)鍵數(shù)據(jù)。近年來,光學(xué)字符識(shí)別(OCR)技術(shù)在銘牌識(shí)別與信息提取領(lǐng)域得到了廣泛應(yīng)用。然而,由于不同制造廠商的設(shè)備銘牌結(jié)構(gòu)各異,如何有效地提取出結(jié)構(gòu)化信息是該領(lǐng)域面臨的挑戰(zhàn)之一[3-4]。
現(xiàn)有的圖像文本結(jié)構(gòu)化信息提取方法主要分為兩類:基于自然語言處理的方法和基于模板匹配的方法,前者利用語義解析算法深入挖掘文本的詞匯、句法乃至語義層次,解析非結(jié)構(gòu)化文本內(nèi)容,將其轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)形式[5]。但此方法對于布局復(fù)雜且語言結(jié)構(gòu)不規(guī)整的圖像文字內(nèi)容,準(zhǔn)確率較低,難以直接運(yùn)用于從各類表單中高效提取關(guān)鍵信息的任務(wù)。
基于模板匹配的方法利用預(yù)設(shè)的模板圖案與圖片中的內(nèi)容進(jìn)行匹配,以自動(dòng)化方式從圖片數(shù)據(jù)中識(shí)別并提取出具有明確結(jié)構(gòu)和意義的信息片段。章倩等人[6]提出一種基于自定義模板的OCR方法,通過自定義票據(jù)模板,定義模板識(shí)別區(qū)域字符類型,最后對模板分類器進(jìn)行訓(xùn)練,從而實(shí)現(xiàn)票據(jù)圖片匹配對應(yīng)模板并實(shí)現(xiàn)票據(jù)信息的結(jié)構(gòu)化提取。然而,該方法需要為每類票據(jù)建立標(biāo)準(zhǔn)模板,并訓(xùn)練相應(yīng)的分類器模型,難以適用于版式多樣的電力銘牌識(shí)別任務(wù)。胡洋等人[7]提出了一種基于分類模板數(shù)據(jù)庫的輔助識(shí)別方法。該方法首先對電力銘牌結(jié)構(gòu)進(jìn)行分析,將銘牌文本分為固定區(qū)域和可變區(qū)域,并針對固定區(qū)域建立分類模板數(shù)據(jù)庫。然后,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類,為輸入圖像定位正確的模板,從而識(shí)別固定區(qū)域的信息。然而,該方法的分類模型結(jié)構(gòu)復(fù)雜,訓(xùn)練成本高,并且對于未知類型的銘牌,需要重新建立模板并訓(xùn)練模型,難以從模板庫中高效地檢索圖像對應(yīng)的模板,存在一定的局限性。
本文在現(xiàn)有基于模板匹配的方法基礎(chǔ)上提出的一種基于OCR及組合標(biāo)簽索引模板的電力銘牌信息提取方法。首先分析現(xiàn)有銘牌結(jié)構(gòu),將字符排列呈現(xiàn)明顯規(guī)律、易于提取結(jié)構(gòu)化信息的銘牌定義為常規(guī)型銘牌,否則為特殊型銘牌。對于常規(guī)型銘牌,通過對OCR引擎二次開發(fā)建立結(jié)構(gòu)化信息處理規(guī)則,即可快速準(zhǔn)確進(jìn)行結(jié)構(gòu)化信息提??;對于特殊型銘牌,建立與各種銘牌一一對應(yīng)的特殊型銘牌模板庫,以制造商名稱加設(shè)備名稱組合成索引標(biāo)簽,管理并調(diào)用銘牌模板,從而實(shí)現(xiàn)銘牌信息的高效結(jié)構(gòu)化提取。
1 常規(guī)型銘牌與特殊型銘牌
圖1展示了兩種不同類型的電力設(shè)備銘牌,其中圖1(a)為常規(guī)型銘牌,圖1(b)為特殊型銘牌。
如圖1(a)所示,常規(guī)型銘牌的字符排列具有一定的規(guī)律性,參數(shù)名稱后緊跟數(shù)字表示參數(shù)值,數(shù)字后的英文字符表示參數(shù)單位。例如,“額定電壓 252kV” 中,“額定電壓” 為參數(shù)名稱,“252” 為參數(shù)值,“kV” 為參數(shù)單位。
如圖1(b)所示,特殊型銘牌的字符排列不遵循上述規(guī)律。例如,參數(shù)名“額定電壓” 后面并非其參數(shù)值,而是其他參數(shù)名“額定電流”,“額定電壓” 的參數(shù)值位于其下方。
2 常規(guī)型銘牌的信息提取
針對圖1(a)所示常規(guī)型銘牌,傳統(tǒng)的 OCR 文字識(shí)別引擎通常只能從銘牌中簡單地識(shí)別出文字。然而,這種方法有時(shí)會(huì)出現(xiàn)識(shí)別結(jié)果中字符位置錯(cuò)亂的問題,如圖 2(a) 所示。為了解決這個(gè)問題,本文提出在PaddleOCR的基礎(chǔ)上添加結(jié)構(gòu)化信息處理規(guī)則,使識(shí)別出的文字按照常規(guī)型銘牌的文本排列規(guī)則輸出,如圖2(b)所示。根據(jù)識(shí)別結(jié)果,可以檢索各個(gè)參數(shù)名及其對應(yīng)的值和單位。例如,對于參數(shù)名“額定電壓”,其后緊跟的數(shù)字“252”為參數(shù)值,數(shù)字后的英文字符“kV”為參數(shù)單位。
該結(jié)構(gòu)化信息處理規(guī)則如下:該規(guī)則首先獲取每個(gè)文本塊的邊界框(左、上、右、下),并按左邊界坐標(biāo)對文本塊進(jìn)行排序。然后,遍歷每個(gè)文本塊,檢查其右側(cè)是否存在符合條件的文本塊。符合條件的文本塊會(huì)被添加到當(dāng)前行中,并在相鄰文本塊之間添加分隔符,最后一個(gè)文本塊的末尾添加換行符。處理完所有行后,按照頂部坐標(biāo)對行進(jìn)行排序。該過程首先對文本塊進(jìn)行預(yù)處理,然后獲取每行的文本塊,最后移除每個(gè)文本塊的 normalized_bbox 屬性,返回處理后的文本塊列表。
3 特殊型銘牌的信息提取
對于圖3(a)所示的特殊型銘牌,由于其結(jié)構(gòu)的特殊性,即使使用添加了結(jié)構(gòu)化信息處理規(guī)則的OCR引擎進(jìn)行識(shí)別,仍然會(huì)出現(xiàn)文本錯(cuò)亂的情況,如圖3(b)紅色方框區(qū)域所示,導(dǎo)致參數(shù)值難以提取。
為了解決這個(gè)問題,本文提出了一種基于組合標(biāo)簽索引模板的特殊型銘牌信息提取方法,能夠高效、準(zhǔn)確地提取銘牌的結(jié)構(gòu)化信息。
3.1 建立特殊型銘牌模板
以圖3(a)所示的特殊型銘牌為例,在模板圖片中選擇位置和內(nèi)容固定不變的字段作為錨點(diǎn),用于對輸入圖像進(jìn)行校正和模板匹配。然后,在模板圖片中框選需要進(jìn)行文字識(shí)別的區(qū)域,并為每個(gè)區(qū)域命名對應(yīng)的參數(shù)名稱。例如,將包含文字“DKSC-400-100/10”的區(qū)域命名為“型號(hào)”。按照上述方法,建立的特殊型銘牌模板如圖4所示。
模板創(chuàng)建完成后,需要為其添加標(biāo)簽,以便于后續(xù)檢索。通常情況下,對于特定制造商和特定型號(hào)的電力設(shè)備,其銘牌樣式是唯一的。因此,本文選擇將銘牌中的制造商名稱和設(shè)備名稱組合作為模板標(biāo)簽。例如,標(biāo)簽為“思源電力股份有限公司—環(huán)氧澆注干式接地變壓器”。最后,將所有模板及其對應(yīng)的標(biāo)簽存儲(chǔ)到模板庫中。
3.2 模板檢索
模板檢索流程如圖5所示。當(dāng)輸入一張銘牌圖片時(shí),首先使用OCR技術(shù)識(shí)別銘牌的文字內(nèi)容。然后,使用文本匹配算法將模板庫中的模板標(biāo)簽與識(shí)別結(jié)果進(jìn)行比較。如果識(shí)別結(jié)果中包含模板庫中存在的標(biāo)簽,則認(rèn)為該圖片為特殊型銘牌,并使用該標(biāo)簽檢索到對應(yīng)的模板,從而提高模板檢索效率。如果識(shí)別結(jié)果中不包含任何模板庫中的標(biāo)簽,則認(rèn)為該圖片為常規(guī)型銘牌,并使用常規(guī)型銘牌信息提取方法進(jìn)行處理。
4 視覺識(shí)別與信息提取工作流程
圖6展示了電力設(shè)備銘牌信息識(shí)別與提取的流程。首先,根據(jù)銘牌文本結(jié)構(gòu)特征將銘牌分為常規(guī)型和特殊型。對于特殊型銘牌,創(chuàng)建對應(yīng)的標(biāo)準(zhǔn)模板,并使用制造商名稱和設(shè)備名稱組合作為模板標(biāo)簽,將創(chuàng)建的模板存儲(chǔ)到模板庫中。
模板庫構(gòu)建完成后,對于輸入的電力設(shè)備銘牌圖像,使用OCR引擎進(jìn)行文本識(shí)別。然后,使用字符串匹配算法在識(shí)別結(jié)果中查找與模板庫中模板標(biāo)簽相同的字段。若識(shí)別結(jié)果中包含模板標(biāo)簽,則將該圖片認(rèn)定為特殊型銘牌,并使用該標(biāo)簽檢索到對應(yīng)的模板,然后使用模板匹配方法提取結(jié)構(gòu)化信息;若識(shí)別結(jié)果中不包含任何模板標(biāo)簽,則認(rèn)為該圖片為常規(guī)型銘牌,并使用添加了結(jié)構(gòu)化信息處理規(guī)則的OCR引擎進(jìn)行信息提取。最后,將所有銘牌的結(jié)構(gòu)化信息提取結(jié)果存儲(chǔ)起來,以便后續(xù)使用和管理。
5 結(jié)束語
不同制造商的不同產(chǎn)品的銘牌布局差異很大,這給銘牌信息的結(jié)構(gòu)化提取帶來了巨大挑戰(zhàn)。為此,根據(jù)參數(shù)名稱、參數(shù)值和參數(shù)單位在銘牌中的排列規(guī)律,將銘牌分為常規(guī)型和特殊型兩類。對于特殊型銘牌,建立了相應(yīng)的模板庫,并使用制造商名稱和設(shè)備名稱組合作為索引標(biāo)簽,用于管理和調(diào)用銘牌模板,實(shí)現(xiàn)特殊型銘牌信息的結(jié)構(gòu)化提取。該方法簡化了模板檢索流程,提高了檢索精度。通過添加結(jié)構(gòu)化信息處理規(guī)則對OCR引擎進(jìn)行擴(kuò)展,實(shí)現(xiàn)了對常規(guī)型銘牌快速準(zhǔn)確的信息提取,大大減少了構(gòu)建銘牌模板庫的工作量。
然而,該方法需要預(yù)先人工區(qū)分銘牌類型,存在一定的局限性。未來將針對銘牌自動(dòng)分類問題展開進(jìn)一步研究。
參考文獻(xiàn):
[1] 王逸凡,王佳宇,仲林林,等.基于深度學(xué)習(xí)的電力設(shè)備銘牌文本識(shí)別[J].電力工程技術(shù),2022,41(5):210-218.
[2] 李思妍,臺(tái)升,張宇航,等.基于輕量化YOLOv3和TesseractOCR的電力設(shè)備標(biāo)志牌識(shí)別技術(shù)[J].智慧電力,2021,49(7):79-85,108.
[3] 劉潭晶.基于非結(jié)構(gòu)化電力數(shù)據(jù)的內(nèi)容提取技術(shù)研究[D].北京:華北電力大學(xué),2023.
[4] 文楊.基于深度學(xué)習(xí)的證照結(jié)構(gòu)化識(shí)別算法研究[D].武漢:華中科技大學(xué),2022.
[5] 王興,鄭勇鋒,嚴(yán)永兵,等.基于OCR技術(shù)的票據(jù)識(shí)別算法研究[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(11):101-106.
[6] 章倩,王梓祺.基于自定義模板的OCR技術(shù)及應(yīng)用[J].指揮信息系統(tǒng)與技術(shù),2023,14(5):94-98.
[7] 胡洋,石煌雄,蔣作,等.基于分類模板數(shù)據(jù)庫的電氣銘牌識(shí)別[J].現(xiàn)代電子技術(shù),2021,44(2):96-100.
【通聯(lián)編輯:梁書】