AI 文字識別技術(shù)在城市規(guī)劃檔案數(shù)字化中的運(yùn)用

2022-05-10 09:10:02路燕

科學(xué)技術(shù)創(chuàng)新 2022年14期

路燕

（東華工程科技股份有限公司，安徽合肥 230000）

城市規(guī)劃檔案是當(dāng)?shù)匾?guī)劃部門按照現(xiàn)行法律規(guī)定，實施規(guī)劃審批、管理等有關(guān)工作的重要依據(jù)，還是衡量工程是否滿足有關(guān)標(biāo)準(zhǔn)的主要證據(jù)。目前，城市規(guī)劃檔案信息不斷增多，原本的查詢檢索方式對檔案資料的應(yīng)用，帶來諸多不便，而應(yīng)用AI 文字識別將檔案進(jìn)行數(shù)字化處理，能有效解決以上問題。

1 紙質(zhì)檔案數(shù)字化

數(shù)字化轉(zhuǎn)變的基本程序涉及到文件掃描、圖像處理及儲存等。具體操作是把檔案文件平整鋪在固定位置，通過高拍儀實現(xiàn)快速翻頁，照相機(jī)則同步拍照掃描，對得到的圖像實施智能化糾偏，形成PDF 格式的附件文檔。在現(xiàn)有的紙質(zhì)檔案中，使用的紙張尺寸可能達(dá)到A3，甚至更大，鑒于此類尺寸的檔案并不多，因此在實踐中，會選擇使用數(shù)碼相機(jī)處理，將得到的照片插入相應(yīng)的PDF 文件里。在掃描工作結(jié)束后，會按照具體的類型，分別保存在不同的位置，依托于后臺服務(wù)器，將檔案信息和附件對應(yīng)起來。

2 城市規(guī)劃檔案中運(yùn)用AI文字識別技術(shù)的可行性

其一，準(zhǔn)確性。在我國部分地區(qū)的城鄉(xiāng)規(guī)劃檔案處理中，AI 文字識別基本上可以準(zhǔn)確識別出至少70%的手寫文字，如果是通用印刷體，識別精準(zhǔn)度能超過90%。其二，數(shù)字化效率。根據(jù)當(dāng)下既有的文字識別方法，平均每個字符耗用的時間大致在2ms 左右，每件檔案一般會消耗3min 左右的時間。包括數(shù)據(jù)傳輸、格式調(diào)整、文字識別與人工校準(zhǔn)多個環(huán)節(jié)。假設(shè)使用AI 文字識別，能進(jìn)一步壓縮數(shù)字化處理的時間。其三，穩(wěn)定性。AI 文字識別可以把各類格式的圖片與文字，在整理表格中，識別出圖像包含的表格數(shù)量，同時完成準(zhǔn)確切割，保障處理后的圖像可以保障表格信息的完整性。其四，針對性。AI 文字識別運(yùn)用到城市規(guī)劃檔案工作中，可提供自主模板設(shè)置，基于檔案的實際樣式，選擇合適的模板，在大體上可以適應(yīng)城市規(guī)劃檔案內(nèi)容提取、補(bǔ)錄的工作需要。

3 AI文字識別技術(shù)的有關(guān)討論

3.1 Tesseract

Tesseract 來自谷歌，該項文字識別引擎應(yīng)當(dāng)是近年來，識別率與成效相對靠前的方法，其對文字的識別準(zhǔn)確率較高，并且擁有良好的移植性。因為此項技術(shù)能夠自建訓(xùn)練庫，所以可以根據(jù)城市規(guī)劃檔案的處理需要，對文字識別引擎實施訓(xùn)練，并能準(zhǔn)確識別出不同的字體和符號。其引擎功能優(yōu)秀，基本上包含分析聯(lián)通區(qū)域、確定塊區(qū)域、確定文本行與單詞、得到識別內(nèi)容。（圖1）

圖1 Tesseract 框架圖

3.2 百度OCR 文字識別

百度OCR 文字識別屬于我國的老品牌，已經(jīng)擁有龐大的用戶群體，并借此得到訓(xùn)練集，依托于算法設(shè)計，在我國文字識別行業(yè)中排在前列。和上文的Tesseract 相較，百度OCR 可以提供更加準(zhǔn)確的服務(wù)方案。由于Tesseract 在圖像預(yù)處理中有較好的表現(xiàn)，因而使用百度OCR 進(jìn)行API 中，還是把圖像預(yù)處理部分交給Tesseract，由此保障整個處理過程的準(zhǔn)確性。

3.3 圖像預(yù)處理

首先，圖像灰度化。計算機(jī)行業(yè)中，灰度數(shù)字圖像代表一個像素就能對應(yīng)一個采樣顏色。擁有該特性的圖像，通常是有亮度最?。ê谏┲亮炼茸畲螅ò咨┑幕叶龋瑥睦碚摻嵌葋碚f，雖然該種情況可能是任何顏色的各個深淺程度，也能是各類亮度中的不同色彩。而灰度圖像和黑白圖像之間存在根本上的不同。對于計算機(jī)來說，黑白圖像僅包含黑與白兩個色彩，而灰度圖像則包含黑和白之前的各種色彩深度?；叶然幚碜兓岩粡埌喾N顏色的圖像，轉(zhuǎn)化成僅具備灰度值的灰度信息。彩色圖像的基本分量，包含R、G與B，各自對應(yīng)紅、綠、藍(lán)，而灰度化處理過程，便是將顏色三個分量進(jìn)行等量處理?；叶戎蹈蟮南袼攸c(diǎn)，會更亮（白色是像素值最大的顏色，是255）；灰度值低，就會相對更暗（黑色是最小的像素，是0）。完成灰度化處理的算法，具體選擇如下：

其一，最大值法。把通過轉(zhuǎn)換的三個分量，取得的值轉(zhuǎn)化為前三個值里最大的一項，借此可得到亮度相對最高的灰度圖像。用公式表示就是：

式中，ωR、ωG、ωB各自對應(yīng)R、G與B的權(quán)值，在選定不同值的情況下，能得到差異化的灰度圖像。因為人類肉眼對紅、綠與藍(lán)的敏感度排列是：綠大于紅大于藍(lán)，所以，在設(shè)置權(quán)值中，會根據(jù)上述大小情況，進(jìn)行調(diào)整，這樣能獲得識別難度更低的灰度圖像。在檔案管理中，三者一般設(shè)置的權(quán)值分別是：ωR=0.2999、ωG=0.587、ωB=0.114。對于城市規(guī)劃檔案，其中有大量白底黑字的文件，使用高拍儀提取圖像中，可能會受到光線等條件的干擾，出現(xiàn)明顯色差，不利于信息識別，所以，要實施灰度化處理。

其次，圖像降噪。掃描件因為硬件自身的問題，圖像上會帶有諸多噪聲點(diǎn)，對于該種情況，Tesseract 是借助高斯低通濾波加以處理，提高圖像質(zhì)量。高斯低通濾波裝置是基于高斯函數(shù)的線性平滑裝置，而所謂的高斯函數(shù)屬于密度函數(shù)，為正態(tài)分布。因此，該裝置面對服從正態(tài)分布的噪聲，有著姣好的處理效果。一維與二維的高斯函數(shù)如下：

式中，δ 是標(biāo)準(zhǔn)差。因為檔案圖像一般是二維內(nèi)容，所以圖像去噪一般應(yīng)用二維高斯函數(shù)。鑒于高斯函數(shù)存在可分離性，因而需對行實施高斯濾波，而后處理列的部分，利用該種處理方式，把二維高斯函數(shù)調(diào)整成一維的高斯濾波。在此函數(shù)中，標(biāo)準(zhǔn)差提高，整條曲線會更加平滑；降噪處理程度更高，圖像會更加模糊。

最后，二值化。圖像二值化過程，是把像素點(diǎn)灰度值處理成0 及255，讓最后保存的圖像僅包含黑白兩個顏色。根據(jù)自適應(yīng)閾值的算法，按照像素灰度值，把圖像分成前景與背景，經(jīng)過計算確定二者方差，以此得出差異的顯著性，最終通過篩選對應(yīng)方差實現(xiàn)最佳類別劃分的界限，將此視為最佳預(yù)制。將灰度圖像大小設(shè)成w*h，這與像素數(shù)量對應(yīng)。類別劃分的閾值是threshold，將小于此閾值的全部像素，當(dāng)成前景，超過的部分則是背景。圖像總體平均灰度的表達(dá)式是：

式中，μ 是圖像總體平均灰度；ω0是前景像素數(shù)目的比例，對應(yīng)的平均灰度是μ0；ω1是背景像素數(shù)目的比例，對應(yīng)平均灰度是μ1。在系統(tǒng)分析中，會對比圖像所有灰度值，得出相應(yīng)的方差，繼而確定出最佳閾值，由于方差在整個處理環(huán)節(jié)中，僅是用于對比，因此，直接將其用像素數(shù)量代替。通過二值化處理后的掃描件，能得到黑白分明的表格如下：

表1 二值化處理后的表格

4 城市規(guī)劃檔案數(shù)字化識別系統(tǒng)分析

4.1 系統(tǒng)概述

針對某城市規(guī)劃中的建筑項目進(jìn)行整合，既有紙質(zhì)檔案中僅有界址點(diǎn)。倘若在轉(zhuǎn)化成電子檔案中，只利用人工錄入，顯然是不夠高效的，對此依托于OCR 技術(shù)與其他有關(guān)手段，設(shè)計識別系統(tǒng)。硬件上，為準(zhǔn)確識別出紙質(zhì)資料里的界址點(diǎn)，配置掃描儀等設(shè)備。開發(fā)及運(yùn)行平臺選擇戴爾z230，而高拍儀選擇寶碁·點(diǎn)易拍E1200DS，此款儀器的主攝像頭與副攝像頭，像素分別是1000 萬與200 萬，能運(yùn)用自然光線與LED等。根據(jù)基本參數(shù)來說，能適應(yīng)檔案成像需要。系統(tǒng)軟件方面的配置，見表2。

表2 軟件配置

城市規(guī)劃檔案的數(shù)字化處理過程是：利用文字識別手段，提取界址點(diǎn)內(nèi)容，由此得到地圖。使用高拍儀把紙質(zhì)檔案文件中所有包括界址點(diǎn)內(nèi)容的頁面，經(jīng)過掃描保存，而后讀取圖像內(nèi)容，根據(jù)檔案基礎(chǔ)版面，確定X與Y的數(shù)據(jù)。通過文本進(jìn)行切割，提取X和Y。基于特征分析與神經(jīng)網(wǎng)絡(luò)，把X和Y轉(zhuǎn)化相應(yīng)的坐標(biāo)，保存在Excel 表格。而后利用圖像生成軟件，讀取表格內(nèi)容，最終取得圖像。

圖2 系統(tǒng)運(yùn)行流程圖

4.2 系統(tǒng)功能

基于前文對檔案文字識別系統(tǒng)的概述，整體可分出幾個模塊，即圖像裁剪、版面分析、字符處理、生成表格等模塊。

4.2.1 圖像裁剪

由于檔案圖像中的多余內(nèi)容，會對提取坐標(biāo)信息的準(zhǔn)確度有干擾，所以在分析版面以前，需全面處理，確保圖像里僅包含界址點(diǎn)的內(nèi)容。高拍儀最初拍到的圖像信息見表3。經(jīng)過圖像識別，把圖像進(jìn)行分割。在紙質(zhì)版檔案中，序號位置通常是有裝訂孔，而邊長對地圖沒有價值，因而，可直接把二者切掉，最終得到圖像信息。

表3 包含界址點(diǎn)的圖像內(nèi)容

4.2.2 版面分析

保存于Excel 表格中的版面結(jié)構(gòu)，使用幾何結(jié)構(gòu)與邏輯結(jié)構(gòu)表示。其中，前者是對各個單元格位置實現(xiàn)定位與切分。而版面分析便是對掃描件實施分割，進(jìn)一步識別X與Y坐標(biāo)。本文此處以top-down 為例，基于對圖像所有數(shù)據(jù)實施分析，根據(jù)得到的結(jié)果對文件實行切分。此種處理方式比較簡便，主要用在只包括界址點(diǎn)內(nèi)容的檔案。

4.2.3 字符處理

字符切分環(huán)節(jié)視為把掃描件所示的所有數(shù)字均提取出來，得到若干數(shù)字圖像，假設(shè)不能正確切分，在后續(xù)環(huán)節(jié)中就無法確定數(shù)字特征，這會影響文字識別的準(zhǔn)確度。檔案數(shù)字化處理中，會由于某些問題干燥，導(dǎo)致切分處理更加復(fù)雜，比如手寫字體差異、大小不同等。目前可用在字符切分中的算法角度，此處以按照連通域進(jìn)行切分的方法為例。簡言之，一個數(shù)字可以形成相應(yīng)的連通圖像域，在確定各自行、列的起止位置，便能提取出一個矩形，實現(xiàn)字符切分。此處采用CFS分割法，整個運(yùn)行流程為：把經(jīng)過二值化處理的圖像，由左至右，由上到下全面掃描遍歷，假設(shè)存在黑色像素，而且從未被訪問過，可直接將其標(biāo)記成“已訪問”；假設(shè)棧不為空，需要向周圍據(jù)需探測其他像素，重復(fù)以上步驟，但如果?？梢允强盏?，說明當(dāng)前已經(jīng)探測好一個字符塊；探測任務(wù)完成后，便能得到相應(yīng)數(shù)量的字符。目前，AI 發(fā)展迅猛，該領(lǐng)域內(nèi)的諸多廠商，都已經(jīng)推出比較完善的文字識別計劃，此處以百度OCR 為例，分析其識別的過程，針對數(shù)字部分，運(yùn)用表格文字識別的方法。

4.2.4 生成表格

提取到的界址點(diǎn)坐標(biāo)數(shù)據(jù)要借助Python 保存，支持生成地圖。此處選用該項技術(shù)中的xlwt（xls 文件，write 庫）保存表格。整個處理流程為：導(dǎo)入界址點(diǎn)坐標(biāo)數(shù)據(jù)；創(chuàng)建工作表；填寫數(shù)據(jù)；保存。（圖3）

圖3 生成表格流程圖

4.2.5 生成地圖

在城市規(guī)劃檔案管理機(jī)構(gòu)中，計算機(jī)配置相近，既有軟件也基本相同，如果原本的ArcGIS Desktop 均是10.0，使用C#比較合適，再加上操作頁面具有可視化的特點(diǎn)，能支持大部分工作者使用。在城市規(guī)劃檔案的處理中，此文所述系統(tǒng)主要涉及到兩個類庫：Geometry類庫與System 類庫。前者可以處理保存于特征類以及其他圖像要素里的geometry與shape。大部分用戶涉及到的幾何對象包含Point、Polygon等。在此類頂層實體意外，還存在各類幾何體。GIS采集到的的實體均具備現(xiàn)實存在的特點(diǎn)，其方位是按照所在空間參照的幾何體進(jìn)行定義。在Geometry 庫內(nèi)，含有投影與地理系統(tǒng)的相應(yīng)參考對象。在研究系統(tǒng)中，可以選擇從空間參考方向入手，逐漸拓展空間參考的范圍，由此保障儲存內(nèi)容的完整性與全面性。而后者屬于ArcGIS系統(tǒng)，并未與最底層。該類庫可提供所在系統(tǒng)內(nèi)其他類庫服務(wù)功能的相應(yīng)組件，在此類庫下，定義出大多數(shù)開發(fā)人員能實現(xiàn)的接口，例如，AoInitializer 對象，開發(fā)者應(yīng)運(yùn)用此對象，實現(xiàn)初始化。但開發(fā)者不可將該類庫進(jìn)行拓展，可以選擇利用此類庫內(nèi)包括的接口，把ArcGIS系統(tǒng)進(jìn)行有效拓展。在系統(tǒng)運(yùn)行后，讀取經(jīng)過OCR 識別的全部表格文件，提取其中的界址點(diǎn)內(nèi)容。建立SHAPE 圖層，根據(jù)地號設(shè)置名稱。因為通過OCR識別得到的表格已經(jīng)用地號命名，所以此處無需更改。而后定義坐標(biāo)系、創(chuàng)建圖層，呈現(xiàn)出經(jīng)緯度。在點(diǎn)繪制成線后，利用ring函數(shù)，得到Polygon，保存在相應(yīng)的文件夾內(nèi)。

綜上所述，AI 文字識別能為檔案工作提供技術(shù)幫助，將紙質(zhì)檔案快速轉(zhuǎn)化成電子文件。實踐中，在保障檔案文字識別、糾錯準(zhǔn)確的技術(shù)上，還需保證檔案資料安全，針對數(shù)字化內(nèi)容開展全面保密檢查，為城市規(guī)劃檔案管理夯實基礎(chǔ)。