• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      淺議電子文檔管理系統(tǒng)的關(guān)鍵技術(shù)

      2012-08-15 00:52:47姚樹(shù)靜
      關(guān)鍵詞:手寫體字符字體

      姚樹(shù)靜

      (山東廣播電視大學(xué),山東 濟(jì)南 250014)

      淺議電子文檔管理系統(tǒng)的關(guān)鍵技術(shù)

      姚樹(shù)靜

      (山東廣播電視大學(xué),山東 濟(jì)南 250014)

      伴隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)應(yīng)用的普及,檔案已不再僅僅以單一的紙質(zhì)形式存在,以磁、電、光等介質(zhì)為主要信息載體的文件應(yīng)運(yùn)而生,產(chǎn)生了大量的電子檔案。本文結(jié)合電子文檔管理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā),對(duì)文檔影像自動(dòng)處理和識(shí)別技術(shù)、系統(tǒng)開(kāi)發(fā)的工具中的c++開(kāi)發(fā)語(yǔ)言、SQL Server 2005、Visual C++開(kāi)發(fā)工具等主要關(guān)鍵技術(shù)進(jìn)行了詳細(xì)介紹。

      電子文檔;管理系統(tǒng);關(guān)鍵技術(shù);開(kāi)發(fā)工具

      隨著政府、銀行、稅務(wù)、證券、保險(xiǎn)等部門的業(yè)務(wù)不斷發(fā)展,每天都要處理大量的文件、檔案、單據(jù)、報(bào)表等資料,以紙張為載體的資料越來(lái)越多,傳統(tǒng)的手工管理方式暴露出越來(lái)越多的問(wèn)題,日益跟不上信息時(shí)代的要求。電子文檔管理系統(tǒng)是利用先進(jìn)的計(jì)算機(jī)技術(shù)開(kāi)發(fā)的計(jì)算機(jī)系統(tǒng),它將企業(yè)的電子文件和/或紙質(zhì)文件的圖像整合起來(lái),滿足用戶在文檔獲取方式、文檔操作處理、文檔存儲(chǔ)和查詢等環(huán)節(jié)的不同需求,以實(shí)現(xiàn)資源的共享和對(duì)文檔的監(jiān)控。電子文檔管理是企業(yè)或組織保存和利用文檔信息這類重要資產(chǎn)的手段,投資于該系統(tǒng)會(huì)在組織的有序運(yùn)作中得到成倍的回報(bào)。隨著計(jì)算機(jī)技術(shù)及網(wǎng)絡(luò)技術(shù)的廣泛應(yīng)用,國(guó)際和國(guó)內(nèi)越來(lái)越多的企業(yè)和組織開(kāi)始建立專業(yè)的電子文檔管理系統(tǒng)對(duì)單位內(nèi)部各種電子文檔進(jìn)行統(tǒng)一管理,提高工作效率,簡(jiǎn)化工作流程,所以該系統(tǒng)有廣泛的應(yīng)用范圍和前景。

      本文結(jié)合電子文檔管理系統(tǒng)的設(shè)計(jì)和開(kāi)發(fā),深入研討文檔影像自動(dòng)處理和識(shí)別技術(shù)、系統(tǒng)開(kāi)發(fā)的工具中的c+ +開(kāi)發(fā)語(yǔ)言、SQL Server 2005、Visual C++開(kāi)發(fā)工具等主要關(guān)鍵技術(shù)。

      1.關(guān)鍵技術(shù)概述

      電子文檔管理系統(tǒng)將信息時(shí)代的各種先進(jìn)技術(shù)應(yīng)用于文檔管理中,使文檔的管理實(shí)現(xiàn)電子化、數(shù)字化、自動(dòng)化,從而最大限度地提高了文檔處理和訪問(wèn)的工作效率。電子文檔管理系統(tǒng)的核心技術(shù)是電子存儲(chǔ)技術(shù)、數(shù)據(jù)庫(kù)應(yīng)用開(kāi)發(fā)和管理技術(shù)、網(wǎng)絡(luò)編程與服務(wù)器管理技術(shù)、電子影像采集技術(shù),圖像自動(dòng)處理與識(shí)別技術(shù),以及文檔的檢索和訪問(wèn)控制技術(shù)等。

      在這些關(guān)鍵技術(shù)之中,數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)技術(shù)、影像采集技術(shù)、海量存儲(chǔ)技術(shù)以及文檔檢索和訪問(wèn)控制等技術(shù)屬于比較成熟的技術(shù),市場(chǎng)上有多家企業(yè)可以提供相關(guān)產(chǎn)品并且有比較清晰的行業(yè)標(biāo)準(zhǔn)。圖像自動(dòng)處理與識(shí)別技術(shù)則還處于發(fā)展和探索階段,得到一致認(rèn)可的行業(yè)標(biāo)準(zhǔn)還沒(méi)有建立起來(lái),相關(guān)產(chǎn)品在不同的應(yīng)用環(huán)境之下表現(xiàn)出來(lái)的性能差別很大,能夠在各種環(huán)境中都表現(xiàn)穩(wěn)定良好的技術(shù)還沒(méi)有出現(xiàn)。因此圖像自動(dòng)處理與識(shí)別技術(shù)對(duì)整個(gè)系統(tǒng)性能的影響更大,很可能成為整個(gè)系統(tǒng)實(shí)際性能的瓶頸,對(duì)這一技術(shù)的研究改進(jìn)也就有著更重要的意義。

      電子文檔管理系統(tǒng)使用的硬件設(shè)備一般包括:文檔管理服務(wù)器,文檔采集工作站、文檔處理工作站、訪問(wèn)終端、網(wǎng)絡(luò)與通訊線路以及其他各類專用設(shè)備。在電子文檔管理系統(tǒng)中,服務(wù)器,終端及各種辦公設(shè)備通過(guò)通訊網(wǎng)絡(luò)連接起來(lái),網(wǎng)絡(luò)根據(jù)覆蓋的范圍不同,分成局域網(wǎng)和廣域網(wǎng)兩種類型。各類專用設(shè)備一般包括:打印設(shè)備、交換設(shè)備、圖像采集設(shè)備等。

      開(kāi)發(fā)電子文檔管理系統(tǒng)使用的第三方服務(wù)支持軟件可以分為服務(wù)器軟件、數(shù)據(jù)庫(kù)軟件、開(kāi)發(fā)平臺(tái)軟件等。文檔管理系統(tǒng)的架構(gòu)基于網(wǎng)絡(luò)服務(wù)形式,服務(wù)器管理軟件用于在系統(tǒng)中設(shè)置服務(wù)器并進(jìn)行管理。在文檔管理系統(tǒng)中,數(shù)據(jù)庫(kù)用于存放文檔的存放位置、索引信息以及訪問(wèn)權(quán)限等信息,數(shù)據(jù)庫(kù)軟件用于提供數(shù)據(jù)庫(kù)的訪問(wèn)服務(wù)并對(duì)數(shù)據(jù)庫(kù)進(jìn)行管理。而開(kāi)發(fā)平臺(tái)軟件則用于建立系統(tǒng)可視化開(kāi)發(fā)環(huán)境,提供各種開(kāi)發(fā)和測(cè)試工具,用于應(yīng)用軟件的集成開(kāi)發(fā)。

      2.文檔影像自動(dòng)處理與識(shí)別技術(shù)

      文檔自動(dòng)處理與識(shí)別所涉及的對(duì)象范圍很廣,其中最核心的技術(shù)是光學(xué)字符識(shí)別(OCR)技術(shù),對(duì)OCR系統(tǒng)一般按其識(shí)別的對(duì)象字符集以及字體和書寫的規(guī)范程度進(jìn)行分類。

      字符集識(shí)別種類一般包含阿拉伯?dāng)?shù)字識(shí)別、英文識(shí)別、中文識(shí)別、其它文種識(shí)別等等。[1]按字符集的字體及規(guī)范程度可分為:(1)固定單一字體的打印體或印刷體識(shí)別,如OCR-A,OCR-B,其它標(biāo)準(zhǔn)印制字體等等。(2)多字體的打印體或印刷體識(shí)別,可識(shí)別多種打印或印刷字體的某個(gè)字符集。(3)全字體的打印體或印刷體識(shí)別,識(shí)別任意字體的指定字符集。(4)規(guī)范書寫的手寫體字符識(shí)別,識(shí)別字符間基本不粘連的規(guī)范手寫體字符。(5)無(wú)限制手寫體識(shí)別,識(shí)別任意書寫的手寫體字符。字符集的規(guī)范程度越低,字體或字集類別越多,識(shí)別的過(guò)程就越復(fù)雜,難度就越大。[2]

      OCR系統(tǒng)的歷史可以追溯到1929年,Tausheck在德國(guó)獲得了OCR專利,這些可能是最早出現(xiàn)的OCR概念。而真正的OCR是在20世紀(jì)50年代隨著計(jì)算機(jī)的出現(xiàn)而到來(lái)的。

      第一代商用OCR系統(tǒng)是在20世紀(jì)60年代初期出現(xiàn)的,這一代系統(tǒng)的主要特點(diǎn)是能識(shí)別有限字型的字符。其中具有代表性的有NCR 420,F(xiàn)arrington 3010,IBM 1418,1428,1285以及NEC的N240D-1,這些系統(tǒng)都是識(shí)別一些非常特定字體的系統(tǒng),它們構(gòu)成了第一代的OCR系統(tǒng)。

      第二代的OCR系統(tǒng)在20世紀(jì)60年代中期至70年代早期出現(xiàn),這一代的OCR系統(tǒng)可以識(shí)別比較工整的手寫字體。經(jīng)典的系統(tǒng)是IBM 1287,它利用了數(shù)字和模擬技術(shù)實(shí)現(xiàn)了這一功能。第一代郵政編碼自動(dòng)分檢機(jī)由Toshiba公司和NEC公司分別研制出來(lái)。手寫體數(shù)字識(shí)別系統(tǒng)在這一代系統(tǒng)中有很大的比例,同時(shí)第二代的OCR系統(tǒng)在識(shí)別印刷體字符上也有了許多的改進(jìn)。

      第三代OCR系統(tǒng)的目標(biāo)是讓計(jì)算機(jī)能處理一般的更復(fù)雜的情況,比如印刷質(zhì)量比較差的字符或更為一般的手寫體字符,以及具有更多種類的字符集,如漢字,日文等。目前可以認(rèn)為第三代系統(tǒng)只是部分實(shí)現(xiàn)。近年來(lái)出現(xiàn)的手寫體數(shù)字識(shí)別系統(tǒng)多屬于第三代系統(tǒng)。其中銀行票據(jù)自動(dòng)處理系統(tǒng)是復(fù)雜背景打印印刷體識(shí)別以及手寫體數(shù)字識(shí)別系統(tǒng)應(yīng)用的熱點(diǎn),其中無(wú)限制手寫體阿拉伯?dāng)?shù)字小寫金額的識(shí)別也是數(shù)字識(shí)別中最難的。[3]

      在手寫體阿拉伯?dāng)?shù)字串,如郵政編碼、銀行支票的小寫金額中,經(jīng)常出現(xiàn)數(shù)字字符粘連的情況。對(duì)美國(guó)郵政編碼(USPS zip code)的研究表明,有15%的郵政編碼含有粘連的數(shù)字字符。歐美國(guó)家的銀行支票的小寫金額是任意書寫的,字符粘連情況更加普遍,而多數(shù)字符識(shí)別器要求以單個(gè)的數(shù)字字符圖像作為輸入,難以直接識(shí)別多個(gè)字符連成的字符串。因此,字符分割對(duì)于連續(xù)字符識(shí)別十分重要,很多種分割與識(shí)別方法被研制出來(lái)以圖解決這一問(wèn)題。在手寫數(shù)字分割時(shí),由于字符串中不僅包含數(shù)字交迭與粘連的情況,同時(shí)也有一個(gè)數(shù)字分成幾個(gè)部分的情況。為解決這些問(wèn)題,研究者們提出了許多方法。這些方法大致可分為兩類,即離散的方法和連續(xù)的方法。

      在文檔識(shí)別系統(tǒng)中完成了字符的定位和分割后,接下來(lái)就是進(jìn)行字符的識(shí)別,人們提出了許多方法試圖找到手寫體字符之間有區(qū)別性的特征。這些方法大致可分為兩類:全局分析和結(jié)構(gòu)分析。全局分析得到的特征一般都使用統(tǒng)計(jì)分類方法分類,因此在字符識(shí)別中這類方法一般也稱為統(tǒng)計(jì)方法?;诮Y(jié)構(gòu)分析得到的特征經(jīng)常使用句法的方法分類,這類方法一般稱為結(jié)構(gòu)方法。神經(jīng)網(wǎng)絡(luò)識(shí)別字符的方法也受到了人們的重視,神經(jīng)網(wǎng)絡(luò)的輸入可以采用圖像的某類或某幾類統(tǒng)計(jì)特征,也可以直接使用歸一化后的字符圖像,省去了人工的特征抽取工作,從廣義上講,神經(jīng)網(wǎng)絡(luò)識(shí)別方法也是統(tǒng)計(jì)分類方法的一種。

      由于各類方法都有自身的優(yōu)點(diǎn)和局限,為達(dá)到高識(shí)別率、高可靠性的目標(biāo),人們提出了多專家(multiple experts)系統(tǒng)的概念。多專家系統(tǒng)將每個(gè)識(shí)別器視為一個(gè)提出識(shí)別意見(jiàn)的專家,將它們的意見(jiàn)按投票方式或更復(fù)雜的方式組合起來(lái),以獲得最可能的正確結(jié)果。多專家系統(tǒng)的組合方式也成為字符識(shí)別領(lǐng)域的一個(gè)新的研究方向。

      3.系統(tǒng)選定的開(kāi)發(fā)工具

      由于文檔的存儲(chǔ)管理系統(tǒng)一般不屬于實(shí)時(shí)業(yè)務(wù),對(duì)業(yè)務(wù)操作的實(shí)時(shí)性和可靠性要求低于柜臺(tái)業(yè)務(wù)等實(shí)時(shí)性要求較高的業(yè)務(wù),因此操作系統(tǒng)可以選擇可靠性略低但方便易用而且具有較高市場(chǎng)占有率的微軟公司的Windows系統(tǒng)。與操作系統(tǒng)的選擇類似,數(shù)據(jù)庫(kù)系統(tǒng)也選擇同樣出自微軟公司的SQL Server數(shù)據(jù)庫(kù)管理系統(tǒng)。由于系統(tǒng)中有計(jì)算量很大并且非常耗時(shí)的自動(dòng)識(shí)別處理模塊,因此相應(yīng)的編程語(yǔ)言選擇靈活并且非常高效的C++高級(jí)語(yǔ)言,而開(kāi)發(fā)平臺(tái)則選擇使用良好地集成了C++開(kāi)發(fā)語(yǔ)言并且能很好地支持SQL Server的Visual Studio集成開(kāi)發(fā)平臺(tái)。以下再分別簡(jiǎn)要介紹一下這幾項(xiàng)開(kāi)發(fā)中使用的基本工具。

      3.1 C++開(kāi)發(fā)語(yǔ)言

      C++語(yǔ)言是一種優(yōu)秀的面向?qū)ο蟪绦蛟O(shè)計(jì)語(yǔ)言,它在C語(yǔ)言的基礎(chǔ)上發(fā)展而來(lái),但它比C語(yǔ)言更容易為人們學(xué)習(xí)和掌握。C++以其獨(dú)特的語(yǔ)言機(jī)制在計(jì)算機(jī)科學(xué)的各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用。面向?qū)ο蟮脑O(shè)計(jì)思想是在原來(lái)結(jié)構(gòu)化程序設(shè)計(jì)方法基礎(chǔ)上的一個(gè)質(zhì)的飛躍,C+ +完美地體現(xiàn)了面向?qū)ο蟮母鞣N特性。C++是一種靜態(tài)數(shù)據(jù)類型檢查的,支持多范型的通用程序設(shè)計(jì)語(yǔ)言。C+ +支持過(guò)程化程序設(shè)計(jì)、數(shù)據(jù)抽象化、面向?qū)ο蟪绦蛟O(shè)計(jì)、泛型程序設(shè)計(jì)、基于原則設(shè)計(jì)等多種程序設(shè)計(jì)風(fēng)格。C+ +還具有以下特性:

      (1)C++設(shè)計(jì)成使用靜態(tài)類型機(jī)制、和C同樣高效且可移植的多用途程序設(shè)計(jì)語(yǔ)言。

      (2)C++設(shè)計(jì)成直接的和廣泛的支持多種程序設(shè)計(jì)風(fēng)格(過(guò)程化程序設(shè)計(jì)、數(shù)據(jù)抽象化、面向?qū)ο蟪绦蛟O(shè)計(jì)、泛型程序設(shè)計(jì))。

      (3)C++設(shè)計(jì)成給程序設(shè)計(jì)者更多的選擇。

      (4)C++設(shè)計(jì)成盡可能與C兼容,借此提供一個(gè)從C到C++的平滑過(guò)渡。

      (5)C++避免平臺(tái)限定或沒(méi)有普遍用途的特性。

      (6)C++不使用會(huì)帶來(lái)額外開(kāi)銷的特性。

      (7)C++設(shè)計(jì)成無(wú)需復(fù)雜的程序設(shè)計(jì)環(huán)境。

      3.2 SQL Server 2005

      SQL Server 2005是Microsoft公司2005年推出的杰出的數(shù)據(jù)庫(kù)管理系統(tǒng),它可用于大型聯(lián)機(jī)事務(wù)處理、數(shù)據(jù)倉(cāng)庫(kù)、以及電子商務(wù)等,具有如下幾個(gè)特點(diǎn):

      (1)真正的客戶機(jī)/服務(wù)器體系結(jié)構(gòu)。

      (2)圖形化用戶界面。

      (3)豐富的編程接口工具。

      (4)SQL Server與Windows NT完全集成。

      (5)具有很好的伸縮性。

      (6)對(duì)Web技術(shù)的支持。

      (7)SQL Server提供數(shù)據(jù)倉(cāng)庫(kù)功能。

      4.結(jié)束語(yǔ)

      電子文檔管理系統(tǒng)的設(shè)計(jì)考慮到文檔管理工作多為非計(jì)算機(jī)專業(yè)人員的實(shí)際情況,在設(shè)計(jì)過(guò)程中應(yīng)該注重系統(tǒng)的可操作性設(shè)計(jì)。本文主要對(duì)文檔影像自動(dòng)處理與識(shí)別技術(shù)中的文檔影像自動(dòng)處理與識(shí)別技術(shù)以及系統(tǒng)開(kāi)發(fā)工具進(jìn)行了分析,這些技術(shù)在文檔管理系統(tǒng)開(kāi)發(fā)中具有普遍適用性,對(duì)其起著至關(guān)重要的作用。

      [1]石甲玉.模式識(shí)別在銀行票據(jù)自動(dòng)化處理中的集成應(yīng)用[D].濟(jì)南:山東大學(xué),2005.

      [2]張麗.基于多分類器動(dòng)態(tài)組合的手寫體數(shù)字識(shí)別[D].南京:南京理工大學(xué),2003.

      [3]陳強(qiáng).非限定手寫體漢字分割與多類別票據(jù)處理研究[D].南京:南京理工大學(xué),2006.

      G275.7

      A

      1008—3340(2012)02—0071—03

      2012-04-09

      姚樹(shù)靜,女,碩士學(xué)位,工作單位:山東廣播電視大學(xué)。

      猜你喜歡
      手寫體字符字體
      哐當(dāng)(外一首)
      哐當(dāng)(外一首)
      尋找更強(qiáng)的字符映射管理器
      字體的產(chǎn)生
      基于大數(shù)據(jù)下的手寫體識(shí)別的設(shè)計(jì)與研發(fā)
      披著書法外衣的手寫體
      字符代表幾
      一種USB接口字符液晶控制器設(shè)計(jì)
      電子制作(2019年19期)2019-11-23 08:41:50
      消失的殖民村莊和神秘字符
      組合字體
      克什克腾旗| 武安市| 政和县| 延边| 大石桥市| 绿春县| 偏关县| 腾冲县| 苗栗县| 呼玛县| 大新县| 志丹县| 多伦县| 金阳县| 公安县| 读书| 莱阳市| 丽江市| 杭锦旗| 新密市| 乃东县| 安岳县| 博爱县| 开原市| 龙江县| 徐州市| 宁安市| 延安市| 吉隆县| 嘉鱼县| 大姚县| 清镇市| 深州市| 镇赉县| 图木舒克市| 聂拉木县| 翼城县| 呼伦贝尔市| 石柱| 山阴县| 隆安县|