徐德光 位曉曉 李常先
摘要:本文從紙質(zhì)檔案的數(shù)字化展示入手,結(jié)合高校檔案存儲、使用的實際情況,利用開源的FlexPaper文檔瀏覽器組件,輔助OCR識別技術(shù),設(shè)計了一套數(shù)字化平臺建設(shè)方案。采用該方案后能夠有效提升檔案文件的利用率,提高工作效率。
關(guān)鍵詞:紙質(zhì)檔案數(shù)字化;OCR識別技術(shù);FlexPaper;在線瀏覽
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2016)09-0092-04
● 引言
高校的教學(xué)和管理會涉及大量紙質(zhì)檔案的簽發(fā)與存儲,如入學(xué)登記表、學(xué)籍異動申請、學(xué)籍卡等,常規(guī)做法是把檔案的基本信息存儲到計算機上,使用時先查詢這些信息確定檔案位置,然后再去檔案室手動翻找。這種做法一方面給檔案查找工作帶來諸多不便,另一方面也不利于檔案原件的保存。
針對這一現(xiàn)狀,筆者從紙質(zhì)檔案的數(shù)字化展示入手,結(jié)合高校檔案存儲、使用過程中的實際情況,利用開源的“FlexPaper文檔瀏覽器”組件,輔助OCR識別技術(shù),設(shè)計了一套紙質(zhì)檔案數(shù)字化平臺建設(shè)方案。
● 功能分析
1.檔案類型
根據(jù)高校工作的實際情況,筆者將紙質(zhì)檔案分為單文件型和列表型兩類。單文件型是指該文件只涉及一件事情、一個主體對象,如學(xué)生的學(xué)籍異動申請、學(xué)籍卡、處分文件等。列表型是指該文件涉及多個主體對象,常以列表的形式呈現(xiàn),如新生的錄取名冊、分班情況等。這種分類能夠使平臺數(shù)據(jù)庫的建設(shè)更加清晰明了。
2.操作分類
為了便于平臺的管理,按公開程度的不同,筆者把紙質(zhì)檔案又分為公共文件、部門文件和特殊文件三類。公共文件是開放給所有瀏覽者的檔案信息,部門文件是針對某一個或多個相關(guān)部門的檔案信息,特殊文件則是只授權(quán)給某些人看的檔案信息。這種分類可以有效地簡化平臺權(quán)限的分解。
3.使用者權(quán)限
根據(jù)以上分析,筆者把使用者分為普通瀏覽者、部門員工和管理者三種。普通瀏覽者只能查看公共檔案文件,無法進行復(fù)制、打印、下載等操作;部門員工可以查看、打印、下載屬于該部門和授權(quán)給其個人的檔案文件;管理者則可以統(tǒng)籌規(guī)劃整個平臺及管理文件分發(fā)權(quán)限。
● 系統(tǒng)設(shè)計
1.總體結(jié)構(gòu)
紙質(zhì)檔案數(shù)字化平臺主要包括文件上傳轉(zhuǎn)換、前端展示和權(quán)限分解三個模塊,在前期準(zhǔn)備工作階段又分為檔案整理編號和掃描識別兩個步驟??傮w結(jié)構(gòu)如下頁圖1所示。
2.前期準(zhǔn)備階段
由于高校檔案涉及對象復(fù)雜,事項繁多,前期紙質(zhì)檔案的整理編號工作就尤為重要。除了常規(guī)按年份、事項、順序編號外,根據(jù)本平臺的設(shè)計要求,還應(yīng)著重標(biāo)明檔案的類型、面向的對象以及操作分類。
掃描識別階段主要涉及文件的掃描存儲和文件內(nèi)容的OCR識別。根據(jù)上一步檔案分類的不同,單文件型的檔案只需手動標(biāo)識出文件的主要內(nèi)容和涉及的對象,列表型的檔案則需識別出關(guān)鍵信息。筆者采用ABBYY FineReader軟件進行內(nèi)容識別,該軟件能夠快速、高效地把靜態(tài)紙質(zhì)文件和PDF文件轉(zhuǎn)換成可管理的電子數(shù)據(jù),并能夠直接存儲為RTF、TXT、DOC、CSV、XLS或HTML等格式,且能保持表格與圖片中原始頁面的設(shè)計。
通過上述的前期準(zhǔn)備工作,紙質(zhì)檔案文件轉(zhuǎn)換成了電子掃描版和文字識別版兩個版本,這兩個版本會在平臺模塊中關(guān)聯(lián)展示。
3.平臺模塊
紙質(zhì)檔案數(shù)字化平臺通過上傳轉(zhuǎn)換模塊把紙質(zhì)檔案的掃描件或圖片上傳到平臺,服務(wù)器會自動把上傳的文件轉(zhuǎn)換成前端展示模塊可以識別的格式,并按相關(guān)的權(quán)限展示給使用者。
平臺主要識別圖片、PDF、Office文檔等類型的文件,總體流程如圖2所示。文件上傳后,系統(tǒng)會自動識別文件格式,如果是平臺不可識別的文件則彈出錯誤,進程結(jié)束;如果是圖片格式或者PDF文檔,則調(diào)用SWFTools工具將其轉(zhuǎn)換為SWF文件,前端展示模塊識別這種格式后,再調(diào)用開源的FlexPaper組件來進行展示;如果是Office文檔,則調(diào)用FlashPaper工具進行相應(yīng)的文件轉(zhuǎn)換。
SWFTools和FlashPaper是兩款電子文檔轉(zhuǎn)換工具,它們可以將需要的文檔快速地處理成分頁的SWF格式的Flash動畫文件,原文檔的排版樣式和字體顯示都不會受到影響。所有使用者都可以通過網(wǎng)絡(luò)自由查看,并能夠?qū)嵤┓糯?、縮小、翻頁、搜索等操作,執(zhí)行效率高。另外,SWF格式的文件可以有效控制復(fù)制和下載傳播,保護檔案文件安全。其中SWFTools工具主要負(fù)責(zé)圖片和PDF文件的格式轉(zhuǎn)化,而FlashPaper主要針對各種Office文檔進行相關(guān)操作。
紙質(zhì)檔案數(shù)字化平臺主要利用ASP編程語言設(shè)計開發(fā),在上傳轉(zhuǎn)換模塊需要調(diào)用服務(wù)器端安裝調(diào)試好的上述轉(zhuǎn)換工具才能進行操作。關(guān)鍵代碼如下:
調(diào)用SWFTools:
Set WshShell=Server.CreateObject(“Wscript.Shell”)
IsSuccess=WshShell.Run("SWFTools\pdf2swf.exe "&pdf文件路徑&"-o"&swf存儲路徑&" -T 9 -f -s languagedir= SWFTools\xpdf\xpdf-chinese-simplified",0,true)
調(diào)用FlashPaper:
Set WshShell=Server.CreateObject(“Wscript.Shell”)
IsSuccess=WshShell.Run("FlashPaper\FlashPrinter.exe "&pdf文件路徑&" -o "&pdf文件路徑,0,true)
前端展示模塊的核心是經(jīng)過二次開發(fā)的FlexPaper組件。FlexPaper是一款開源輕量級的在瀏覽器上顯示SWF格式文檔的組件,該組件除了能夠很好地執(zhí)行文檔顯示功能外,更重要的是能夠?qū)崿F(xiàn)文本閱讀的相關(guān)操作,如上下翻頁、文本縮放、查找全文等。通過Adobe Flash Builder軟件對FlexPaper進行二次開發(fā),最終編譯成可在HTML中使用的Flash版本,并通過ASP編程語言對其進行調(diào)用和細(xì)節(jié)設(shè)定,如文件縮放、是否可用全屏、頁面的長度和寬度、在頁面的位置等,從而完成文檔的展示功能。
在二次開發(fā)過程中,主要針對原版組件操作按鈕功能控制問題和識別中文文件亂碼問題進行編譯。由于本平臺需要通過權(quán)限分解模塊進行相關(guān)的打印下載操作,故而需要禁用組件中的打印按鈕和右鍵菜單的打印操作,此時需要修改FlexPaperViewer.mxml頁面中的public var_PrintEnabled:Boolean代碼為false,同時把本頁面中的st:GradientImageButton icon="{MenuIcons.PRINT_ICON}"打印按鈕代碼注釋掉,其他和平臺設(shè)計有沖突的按鈕和功能也可以通過修改FlexPaperViewer.mxml頁面代碼來關(guān)閉或刪除。右鍵打印菜單則需要注釋掉FlexPaperViewer_Base.mxml頁面中的contextMenu.customItems.push(cmi_print)代碼。識別中文文件亂碼問題則需要修改FlexPaperViewer.mxml頁面中的public var_localeChain:String為zh_CN。
FlexPaper組件進行二次開發(fā)以后,就可以在平臺中部署和調(diào)用了。
ASP編程語言調(diào)用FlexPaper組件的關(guān)鍵代碼如下:
4.平臺框架
目前,紙質(zhì)檔案數(shù)字化平臺已完成主要的模塊設(shè)計和整合,系統(tǒng)框架如圖3所示。
左側(cè)框架為檔案文件的展示模塊。該模塊可以展示檔案文件的電子掃描版,并能進行放大、縮小、翻頁、搜索等相關(guān)操作,原始痕跡一目了然,數(shù)字化操作方便快捷。
右側(cè)框架上半部分為檔案文件的說明操作模塊。該模塊會展示文件涉及的對象、時間,以及事件的概述等,若文件類型為列表型,此處則額外展示檔案文件文字識別版本的鏈接地址和數(shù)據(jù)信息。在權(quán)限分配的前提下,本模塊會顯示打印、下載等相關(guān)操作按鍵,方便快捷。
右側(cè)框架下半部分為相關(guān)文件展示模塊。該模塊會根據(jù)權(quán)限分配和瀏覽歷史等因素顯示相關(guān)的檔案文件。
● 結(jié)束語
本平臺一方面保護了原版紙質(zhì)檔案文件,另一方面也提高了檔案文件的利用率,為無紙化高效辦公提供了可能。該平臺也可以在高校報紙編輯部、圖書館等相關(guān)部門推廣應(yīng)用。
參考文獻(xiàn):
[1]賴海明.互聯(lián)網(wǎng)文檔分享平臺設(shè)計與實現(xiàn)[D].廈門:廈門大學(xué),2013.
[2]岳展弘.高校數(shù)字檔案館建設(shè)策略研究[A].決策論壇——系統(tǒng)科學(xué)在工程決策中的應(yīng)用學(xué)術(shù)研討會論文集(上)[C].2015.
[3]鐘愛青.基于FlexPaper的校內(nèi)知識平臺系統(tǒng)設(shè)計與實現(xiàn)[J].現(xiàn)代計算機(專業(yè)版).2014(18).
[4]蘇苒.高校招生中考生紙質(zhì)檔案的重要性[A].檔案管理與利用——方法 技術(shù) 實踐[C].2013.
[5]楊然.基于C/S架構(gòu)的教學(xué)資源共享系統(tǒng)研發(fā)[D].成都:四川師范大學(xué),2014.