• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電子文件可視化采集技術(shù)研究*

      2015-06-14 03:06:36
      檔案與建設(shè) 2015年2期
      關(guān)鍵詞:電子政務(wù)網(wǎng)頁可視化

      楊 靜

      (江蘇省檔案局,江蘇南京,210008)

      1 研究背景

      隨著我國電子政務(wù)建設(shè)的深入發(fā)展,電子文件數(shù)量日趨龐大,且在持續(xù)增長之中。而我國一些政府部門在進(jìn)行電子政務(wù)信息資源建設(shè)時(shí),基于業(yè)務(wù)職能及工作流程的不同,往往各自所選用的硬件、系統(tǒng)軟件、應(yīng)用軟件也不盡相同,這必然造成各部門產(chǎn)生的電子政務(wù)信息在文件類型和數(shù)據(jù)格式上存在差異,導(dǎo)致政務(wù)系統(tǒng)電子文件歸檔存在著系統(tǒng)及文件格式不兼容的問題,成為我國電子政務(wù)建設(shè)中亟待解決的問題。

      江蘇省電子檔案中心建設(shè)項(xiàng)目是江蘇省人民政府下發(fā)的《省政府關(guān)于進(jìn)一步加快國民經(jīng)濟(jì)和社會(huì)信息化的意見》中提出建設(shè)的涉及全局性的基礎(chǔ)性、公益性、標(biāo)志性信息化工程之一。項(xiàng)目旨在建成數(shù)字環(huán)境下歷史檔案數(shù)字記錄遺產(chǎn)永久保管基地、全省電子檔案信息資源的管理與共享中心和全省政務(wù)信息公開場所。項(xiàng)目重點(diǎn)建設(shè)內(nèi)容之一就是通過多種途徑實(shí)現(xiàn)對省級機(jī)關(guān)各單位電子政務(wù)系統(tǒng)中的電子文件的采集和歸檔。

      2 常見的電子文件歸檔解決方法分析

      2.1 介質(zhì)轉(zhuǎn)換法

      轉(zhuǎn)換介質(zhì)法,就是將電子政務(wù)系統(tǒng)中的電子信息打印出來,按照傳統(tǒng)的立卷歸檔方式進(jìn)行歸檔。這種歸檔方式的優(yōu)點(diǎn)是檔案工作按部就班,不會(huì)出現(xiàn)很大的失誤,但其缺陷也是明顯的。首先,電子政務(wù)系統(tǒng)中已有的數(shù)字信息資源被丟棄,此后通過對紙質(zhì)檔案的重新數(shù)字化掃描著錄來獲得檔案信息化管理系統(tǒng)中所需的檔案數(shù)字資源,這造成資源浪費(fèi)和效率低下;其次,電子政務(wù)系統(tǒng)中體現(xiàn)電子文件產(chǎn)生和使用過程的真實(shí)可靠性相關(guān)的電子文件元數(shù)據(jù)信息被丟棄,造成了信息的缺失和管理過程的瑕疵;再次,這種方式下一般是要在紙質(zhì)檔案進(jìn)館之后才能數(shù)字化掃描著錄,形成檔案數(shù)字資源,時(shí)間相對滯后,不能滿足日益發(fā)展的數(shù)字檔案查詢利用的需求。

      2.2 脫機(jī)存儲(chǔ)法

      脫機(jī)存儲(chǔ)法,是將電子文件存儲(chǔ)在軟盤、硬盤、光盤等一些光介質(zhì)和磁介質(zhì)上,將其按物理實(shí)體歸檔保管,與傳統(tǒng)的磁帶、錄像帶管理方法一致。所不同的是將電子文件信息及其背景信息(包括能夠?yàn)g覽電子政務(wù)信息的應(yīng)用環(huán)境信息,以及應(yīng)用系統(tǒng)的背景等相關(guān)信息)一起刻錄到光盤中,進(jìn)行集中存放和管理,這也是我國起初制定電子文件歸檔標(biāo)準(zhǔn)中要求的基本方式。這種歸檔方式的缺點(diǎn)是每張光盤上存儲(chǔ)的真正有價(jià)值的檔案信息比較少,并且利用效率不高,在對歸檔的電子政務(wù)信息進(jìn)行查詢利用時(shí),必須安裝各類背景應(yīng)用環(huán)境軟件,然后才能夠?yàn)g覽其全部信息內(nèi)容。

      2.3 接口歸檔法

      接口歸檔法,通過在電子政務(wù)系統(tǒng)和檔案信息化管理系統(tǒng)之間建立數(shù)據(jù)歸檔接口來實(shí)現(xiàn)電子政務(wù)系統(tǒng)中數(shù)字信息資源的歸檔。接口歸檔法從歸檔數(shù)據(jù)的收取方式上,總的來看可以分為三類:第一類是“取”,即檔案信息化管理系統(tǒng)從電子政務(wù)系統(tǒng)抽取需要?dú)w檔的數(shù)據(jù);第二類是“送”,即電子政務(wù)系統(tǒng)將需要?dú)w檔的數(shù)據(jù)寫入檔案信息化管理系統(tǒng)中;第三類是“取”“送”結(jié)合,即電子政務(wù)系統(tǒng)和檔案信息化管理系統(tǒng)約定一個(gè)中間形式,如中間文件格式或中間數(shù)據(jù)庫等,電子政務(wù)系統(tǒng)將需要?dú)w檔的數(shù)據(jù)寫入中間形式,檔案信息化管理系統(tǒng)再從中間形式抽取這些數(shù)據(jù)。

      這三類方法都存在一些共同的問題。首先,這些方法都需要對原電子政務(wù)系統(tǒng)進(jìn)行一定技術(shù)改造,或者需要深入了解電子政務(wù)系統(tǒng)的數(shù)據(jù)存儲(chǔ)技術(shù)細(xì)節(jié),這帶來很多跨部門的業(yè)務(wù)和技術(shù)協(xié)調(diào)工作;其次,無論是“取”還是“送”,都需要深入對方系統(tǒng)的數(shù)據(jù)存儲(chǔ)區(qū)域讀取甚至寫入數(shù)據(jù),這帶來較大安全隱患。因此,接口歸檔法雖然應(yīng)用效果好,但存在技術(shù)難度高,實(shí)施工作量大,維護(hù)困難等問題。

      綜上所述,當(dāng)前電子政務(wù)環(huán)境下各種電子文件歸檔的技術(shù)方式均存在一定的局限性,電子政務(wù)系統(tǒng)中信息資源采集歸檔技術(shù)上存在的困難已經(jīng)成為制約電子政務(wù)發(fā)展與檔案信息化管理系統(tǒng)建設(shè)的瓶頸之一,亟待解決。

      3 信息抽取基本概念

      網(wǎng)絡(luò)信息抽取領(lǐng)域是近年來發(fā)展較大的研究領(lǐng)域,隨著INTERNET 的發(fā)展,網(wǎng)絡(luò)上的信息越來越多,幾乎所有的網(wǎng)上信息都是以結(jié)構(gòu)化或半結(jié)構(gòu)化的網(wǎng)頁的形式呈現(xiàn)給客戶的,因此,網(wǎng)絡(luò)是一個(gè)特殊的挑戰(zhàn),一直在推動(dòng)著信息抽取技術(shù)的向前邁進(jìn)。

      近幾年來,出現(xiàn)了多種基于Web 的信息檢索工具,如比較出名的Google、Yahoo、百度等搜索引擎工具,這些工具的出現(xiàn)極大地方便了人們對信息的獲取,能夠解決部分信息過載的問題,但由于它們都是基于字符串匹配和詞義相似原理進(jìn)行信息查詢的,因此使用這些工具得到的查詢結(jié)果動(dòng)輒成百上千條,而且有很多返回的查詢結(jié)果中包含了重復(fù)的內(nèi)容,這就使用戶得到了網(wǎng)頁,并不等于得到了想要的信息資源。

      為了更加有效地組織和獲取網(wǎng)上數(shù)據(jù)資料,高效地發(fā)現(xiàn)和利用Internet上的資源,研究人員開創(chuàng)了Web信息抽取這個(gè)研究領(lǐng)域。Web信息抽取技術(shù)的任務(wù)就是將網(wǎng)頁中用戶感興趣的信息準(zhǔn)確地抽取出來,以更具有語義、更結(jié)構(gòu)化的形式保存下來,供用戶查詢或其他應(yīng)用程序利用。網(wǎng)絡(luò)信息抽取技術(shù)并不試圖全面理解整個(gè)網(wǎng)頁,只是對網(wǎng)頁中包含的相關(guān)信息的部分進(jìn)行分析和處理,信息抽取是指從一塊文本中抽取指定的事件、事實(shí)等信息,并且形成結(jié)構(gòu)化的數(shù)據(jù)存入到一個(gè)數(shù)據(jù)庫,供用戶查詢和使用的過程。換而言之,就是從文本中抽取用戶感興趣的事件、實(shí)體和關(guān)系,然后用結(jié)構(gòu)化的形式描述抽取出來的數(shù)據(jù),再存儲(chǔ)在相應(yīng)的數(shù)據(jù)庫中,為情報(bào)分析、網(wǎng)上購物、檢測抄襲、文本分類等各方面的應(yīng)用提供服務(wù)。通常信息抽取技術(shù)的抽取對象并不僅僅局限于文本,其他形式存在的信息也可作為信息抽取的對象,抽取的結(jié)果則存儲(chǔ)為相應(yīng)的結(jié)構(gòu)化數(shù)據(jù)。信息抽取技術(shù)的最終目的就是開發(fā)出實(shí)用的信息抽取系統(tǒng),可以從自由文本中抽取和分析信息,最終得到有用的、用戶感興趣的信息。

      圖1 可視化采集工具工作原理

      信息抽取的目標(biāo)是將文本中的信息抽取出來并表示為結(jié)構(gòu)化、自描述的數(shù)據(jù)結(jié)構(gòu)。從而將難以操縱的文本數(shù)據(jù)轉(zhuǎn)化為容易處理和分析的結(jié)構(gòu)化數(shù)據(jù)。

      傳統(tǒng)的信息抽取是針對純文本,主要使用自然語言理解的技術(shù)。但由于純文本沒有任何文本之外可利用的信息,這項(xiàng)工作極為困難,進(jìn)展也很緩慢。隨著互聯(lián)網(wǎng)的出現(xiàn),Web 文檔的信息抽取逐漸成為亟待解決的問題。一個(gè)Web文檔就是一個(gè)網(wǎng)頁,網(wǎng)頁與純文本的結(jié)構(gòu)差別很大,主要表現(xiàn)為網(wǎng)頁中存在大量的標(biāo)記,這些標(biāo)記將網(wǎng)頁要顯示的文本內(nèi)容分隔開來。

      大量的標(biāo)記為網(wǎng)頁信息抽取提供了更多可利用的信息,從而可以開發(fā)各種不同于傳統(tǒng)信息抽取的方法對網(wǎng)頁進(jìn)行信息抽取。信息抽取技術(shù)目前在軍事、商業(yè)、醫(yī)學(xué)、科學(xué)研究等領(lǐng)域有著極大的應(yīng)用空間。

      4 基于信息抽取的可視化采集歸檔技術(shù)研究

      通過對電子政務(wù)系統(tǒng)中信息資源的可視化采集歸檔技術(shù)的研究,項(xiàng)目組提出了一種基于各類電子政務(wù)系統(tǒng)數(shù)據(jù)顯示界面的電子文件數(shù)據(jù)采集歸檔的解決思路。其基本思路是,通過對電子政務(wù)系統(tǒng)特定數(shù)據(jù)顯示界面的解析,提取該界面下的可供歸檔的電子文件元數(shù)據(jù)信息和電子原文,以實(shí)現(xiàn)歸檔數(shù)據(jù)的采集。

      合理化的可視化采集歸檔的具體流程是:通過特定的可視化采集軟件,使用授權(quán)的賬戶,模擬某個(gè)客戶端登陸目標(biāo)電子政務(wù)系統(tǒng),逐級打開系統(tǒng)的界面,直到打開具有需要采集歸檔的數(shù)據(jù)的系統(tǒng)界面,然后應(yīng)用計(jì)算機(jī)技術(shù)分析此界面下的各種數(shù)據(jù)信息,從中提取或下載需要采集歸檔的電子文件元數(shù)據(jù)信息和原文信息,并將這些信息歸檔到檔案信息化管理系統(tǒng)。整個(gè)過程,只需要使用計(jì)算機(jī)程序模擬人機(jī)交互的界面操作,并分析和提取顯示界面數(shù)據(jù),而無需深入了解電子政務(wù)系統(tǒng)的邏輯結(jié)構(gòu)和底層數(shù)據(jù)存儲(chǔ)形式。

      可視化采集歸檔方法,提出了解決電子政務(wù)系統(tǒng)數(shù)據(jù)歸檔問題的新特點(diǎn)和新思路。該方法本質(zhì)上可以認(rèn)為是前述“接口歸檔法”的“取”大類的一個(gè)特殊子類。由于可以避免“接口歸檔法”中需要改造電子政務(wù)系統(tǒng)或需要深入了解電子政務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的困難,可視化采集歸檔方法具備在實(shí)施工作量和系統(tǒng)安全性上的優(yōu)勢。

      可視化采集工具軟件的工作原理是對數(shù)據(jù)頁面進(jìn)行分析、操作,把網(wǎng)頁中特定的數(shù)據(jù)選取保存為中間文件,再由數(shù)據(jù)處理工具將中間結(jié)果轉(zhuǎn)換為符合標(biāo)準(zhǔn)的元數(shù)據(jù),如圖1。

      可視化采集工具所面對的對象是省直機(jī)關(guān)立檔單位的電子政務(wù)系統(tǒng),這些系統(tǒng)由不同的單位負(fù)責(zé)建設(shè)和管理的,系統(tǒng)之間的差異很大,系統(tǒng)的數(shù)據(jù)展示頁面不一致,這樣,在數(shù)據(jù)采集工作中,分析具體的采集對象情況,對采集前臺(tái)和后臺(tái)的模板配置就顯得尤為重要。

      可視化數(shù)據(jù)采集工具的主要使用步驟包括:分析應(yīng)用(網(wǎng)面)類型、配置前臺(tái)自動(dòng)化模板、配置后臺(tái)元數(shù)據(jù)和電子原文采集模板、采集元數(shù)據(jù)和電子原文四個(gè)方面。

      分析應(yīng)用(網(wǎng)頁)類型:在自主研發(fā)的瀏覽器中輸入目標(biāo)系統(tǒng)的URL路徑,分析該應(yīng)用屬于哪種類型的應(yīng)用,以決定應(yīng)用哪種自動(dòng)化采集模板。

      圖2 可視化采集系統(tǒng)使用運(yùn)行流程

      配置前臺(tái)自動(dòng)化模板:通過分析當(dāng)前應(yīng)用類型,以決定采集的模板類型,并設(shè)置模板中相應(yīng)的參數(shù),在這里針對每個(gè)不同的應(yīng)用(網(wǎng)頁),參數(shù)是不一樣的。

      配置后臺(tái)采集模板:通過分析當(dāng)前應(yīng)用(網(wǎng)頁)的源文件,配置采集的元數(shù)據(jù)和電子原文的采集規(guī)則,以及采集的層次。

      數(shù)據(jù)提?。簩?jīng)過結(jié)構(gòu)化、排重、排錯(cuò)處理的頁面進(jìn)行數(shù)據(jù)提取。根據(jù)頁面的形式特點(diǎn),應(yīng)用相應(yīng)的采集模板,從頁面上提取出相應(yīng)的元數(shù)據(jù)和電子原文歸入數(shù)據(jù)庫。

      5 應(yīng)用效果

      借助江蘇省電子檔案中心項(xiàng)目建設(shè)過程中初步開發(fā)成型的可視化數(shù)據(jù)采集工具,可視化采集歸檔方法已經(jīng)得到了有效應(yīng)用。電子政務(wù)系統(tǒng)數(shù)據(jù)歸檔采集過程中,可視化采集歸檔方法在電子政務(wù)系統(tǒng)技術(shù)開發(fā)和協(xié)調(diào)配合方面的要求較以往傳統(tǒng)的接口開發(fā)方式有所降低,在安全性方面較以往的傳統(tǒng)方式有所提高,在實(shí)施工作量上平均而言較傳統(tǒng)方式有所減少??梢灶A(yù)期,當(dāng)相關(guān)工具軟件在可配置性、交互性、自動(dòng)化等方面進(jìn)一步完善之后,可進(jìn)一步提高可視化數(shù)據(jù)采集歸檔工作的效率。同時(shí),由于電子政務(wù)系統(tǒng)數(shù)據(jù)頁面展現(xiàn)技術(shù)的復(fù)雜性和多樣性,新技術(shù)不斷產(chǎn)生、發(fā)展和應(yīng)用,可視化采集歸檔方法對實(shí)施人員的技術(shù)要求較高,在一些特定的具體案例中,有可能會(huì)產(chǎn)生較大的實(shí)施工作量,甚至遇到難以攻克的技術(shù)難題。因此,可視化采集歸檔方法應(yīng)考慮根據(jù)采集對象單位電子政務(wù)系統(tǒng)的情況作有選擇性的使用。

      [1]王興婭,顏祥林.基于LISA數(shù)據(jù)庫的國外數(shù)字檔案資源保存與安全研究動(dòng)向分析.檔案與建設(shè),2012,02:08-11.

      [2]丁國勇,李俠,王爽.OA 電子文件在線歸檔技術(shù)研究.蘭臺(tái)世界,2012,08:152.

      [3]楊海霞,張永奎.網(wǎng)絡(luò)新聞數(shù)據(jù)可視化采集系統(tǒng)的設(shè)計(jì)及應(yīng)用.山西科技,2006,09:34-35.

      [4]吳震.數(shù)據(jù)挖掘技術(shù)在電子文件管理中的應(yīng)用研究.廣西民族大學(xué)2011.

      [5]屠躍民,李婉月.關(guān)于數(shù)字檔案信息采集的思考.檔案與建設(shè),2006,09:17-20.

      猜你喜歡
      電子政務(wù)網(wǎng)頁可視化
      基于CiteSpace的足三里穴研究可視化分析
      基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      論基于云的電子政務(wù)服務(wù)平臺(tái)構(gòu)建
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      電子政務(wù)工程項(xiàng)目績效評價(jià)研究
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      中國電子政務(wù)的“短板”
      浮梁县| 盖州市| 汝城县| 开封市| 兴安县| 凤阳县| 长兴县| 湘阴县| 新野县| 莱州市| 乌海市| 鄂尔多斯市| 大竹县| 平舆县| 阜新| 沙河市| 枣强县| 呈贡县| 临夏市| 江永县| 武强县| 丰台区| 珲春市| 蒙城县| 双江| 济源市| 延寿县| 莎车县| 中山市| 罗定市| 吉林省| 京山县| 石渠县| 登封市| 五家渠市| 平陆县| 东城区| 镇坪县| 普陀区| 都昌县| 宜兴市|