曹偉
[摘 要]新疆油田公司勘探開發(fā)研究院常年承擔(dān)大量海外油氣勘探、開發(fā)等領(lǐng)域的相關(guān)業(yè)務(wù),各類專業(yè)數(shù)據(jù)與日俱增。海外業(yè)務(wù)的技術(shù)標(biāo)準(zhǔn)、管理方式等各不相同,出現(xiàn)了數(shù)據(jù)語(yǔ)言多樣化、完整性參差不齊等問(wèn)題。為了使海外數(shù)據(jù)以更加規(guī)范化、標(biāo)準(zhǔn)化錄入數(shù)據(jù)庫(kù),科研人員在海外已有數(shù)據(jù)庫(kù)的基礎(chǔ)上,提出建立一種全新的通用數(shù)據(jù)錄入平臺(tái)設(shè)計(jì)思想,來(lái)適應(yīng)不同國(guó)家或地區(qū)的不同油氣田在數(shù)據(jù)格式和數(shù)據(jù)單位等方面的差異,從而提高海外數(shù)據(jù)錄入的效率,減少人為因素引入錯(cuò)誤數(shù)據(jù)的風(fēng)險(xiǎn)。
[關(guān)鍵詞]海外;數(shù)據(jù)庫(kù);數(shù)據(jù)錄入
doi:10.3969/j.issn.1673 - 0194.2021.04.091
[中圖分類號(hào)]TP311.13[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2021)04-0-02
0 ? ? 引 言
新疆油田公司勘探開發(fā)研究院承擔(dān)海外油氣業(yè)務(wù)并由此產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù)。海外科研人員經(jīng)常需要分析使用這些數(shù)據(jù),為其下一步研究工作提供指導(dǎo)。由于工作環(huán)境和人員配備等因素,現(xiàn)有的軟件工具很難整理,錄入數(shù)據(jù)工作量大,工作效率較低。同時(shí),隨著海外業(yè)務(wù)的擴(kuò)張,即使數(shù)據(jù)庫(kù)層面能適應(yīng)海外業(yè)務(wù)數(shù)據(jù)的變化,數(shù)據(jù)錄入軟件層面也并不一定能夠適應(yīng)業(yè)務(wù)的變化,甚至需要調(diào)整、修改軟件功能來(lái)錄入數(shù)據(jù)。此外,海外數(shù)據(jù)存在單位不統(tǒng)一,完整性參差不齊,不同地域數(shù)據(jù)格式各異的問(wèn)題,且在錄入數(shù)據(jù)時(shí)很難實(shí)現(xiàn)靈活多變的數(shù)據(jù)校驗(yàn)。
因此,油田公司急需一個(gè)通用且靈活的數(shù)據(jù)錄入平臺(tái),在適應(yīng)海外業(yè)務(wù)變化的同時(shí),也能適應(yīng)不同國(guó)家地區(qū)數(shù)據(jù)的特性和數(shù)據(jù)校驗(yàn)的個(gè)性化需求。
1 ? ? 設(shè)計(jì)思想
傳統(tǒng)的數(shù)據(jù)錄入軟件平臺(tái)往往針對(duì)固定格式的原始數(shù)據(jù)而開發(fā),并不適應(yīng)海外數(shù)據(jù)。即使不考慮海外業(yè)務(wù)變化和擴(kuò)張導(dǎo)致數(shù)據(jù)庫(kù)調(diào)整從而增加或修改表字段的問(wèn)題,甚至不考慮增加數(shù)據(jù)庫(kù)表的情況,僅不同國(guó)家地區(qū)之間原始數(shù)據(jù)格式的差異,就很難進(jìn)行統(tǒng)一。如果定制一套統(tǒng)一的數(shù)據(jù)格式標(biāo)準(zhǔn)來(lái)整理原始數(shù)據(jù),會(huì)大大增加數(shù)據(jù)錄入人員的工作量,而且工作效率也不盡人意。
所以,需要打破傳統(tǒng)的以數(shù)據(jù)庫(kù)為中心的數(shù)據(jù)錄入方法,以原始數(shù)據(jù)為中心,使數(shù)據(jù)錄入平臺(tái)能夠適應(yīng)不同國(guó)家地區(qū)原始數(shù)據(jù)格式和數(shù)據(jù)單位等之間的差異,以實(shí)現(xiàn)可定制的個(gè)性化數(shù)據(jù)錄入。
以下筆者將按照從總體到局部和數(shù)據(jù)錄入流程,介紹這種新的數(shù)據(jù)錄入方法的思想。
1.1 ? 功能架構(gòu)
數(shù)據(jù)錄入平臺(tái)以國(guó)際化模塊為基礎(chǔ),實(shí)現(xiàn)數(shù)據(jù)字典、模板和數(shù)據(jù)錄入等系統(tǒng)功能和界面的多語(yǔ)言功能(見圖1)。數(shù)據(jù)字典即海外數(shù)據(jù)庫(kù)的元數(shù)據(jù)信息,包括表、字段、約束等。模板以數(shù)據(jù)字典為基礎(chǔ),用戶可根據(jù)不同的原始數(shù)據(jù)格式自己設(shè)計(jì)模板,然后導(dǎo)入數(shù)據(jù)。數(shù)據(jù)模板可在個(gè)人或單位之間共享,其間必須對(duì)模板設(shè)計(jì)權(quán)限加以限制,從而避免錯(cuò)誤的設(shè)計(jì)或修改模板而導(dǎo)致數(shù)據(jù)錄入錯(cuò)誤等一系列問(wèn)題。由于實(shí)現(xiàn)了數(shù)據(jù)錄入功能和數(shù)據(jù)庫(kù)表結(jié)構(gòu)之間的解耦,需要數(shù)據(jù)映射和校驗(yàn)?zāi)K對(duì)原始數(shù)據(jù)的數(shù)據(jù)類型和閾值等進(jìn)行匹配和校驗(yàn),以保證數(shù)據(jù)的正確性。
海外數(shù)據(jù)庫(kù)和模板數(shù)據(jù)庫(kù)分別存儲(chǔ)海外業(yè)務(wù)數(shù)據(jù)和模板數(shù)據(jù)。
1.2 ? 實(shí)體
①數(shù)據(jù)庫(kù)實(shí)體部分主要包含數(shù)據(jù)庫(kù)對(duì)象(數(shù)據(jù)庫(kù)表、數(shù)據(jù)庫(kù)字段、數(shù)據(jù)庫(kù)字段約束)以及表和字段的國(guó)際化信息。②數(shù)據(jù)庫(kù)表、數(shù)據(jù)庫(kù)字段和數(shù)據(jù)庫(kù)字段約束來(lái)源于海外數(shù)據(jù)庫(kù),可通過(guò)數(shù)據(jù)字典管理模塊從數(shù)據(jù)庫(kù)中提取。③數(shù)據(jù)庫(kù)實(shí)體部分是相對(duì)固定的,底層數(shù)據(jù)庫(kù)發(fā)生改變時(shí),可通過(guò)數(shù)據(jù)同步操作清除冗余數(shù)據(jù)或重新從海外數(shù)據(jù)庫(kù)中提取數(shù)據(jù)庫(kù)對(duì)象的信息。④模板實(shí)體部分主要包含與數(shù)據(jù)庫(kù)實(shí)體對(duì)應(yīng)的模板表、模板列及其國(guó)際化信息。⑤列表達(dá)式用于閾值校驗(yàn)和單位換算。根據(jù)數(shù)據(jù)庫(kù)字段創(chuàng)建模板列時(shí),可指定與數(shù)據(jù)庫(kù)字段不同的計(jì)量單位,設(shè)置相應(yīng)的換算系數(shù)生成列表達(dá)式。導(dǎo)入數(shù)據(jù)時(shí),根據(jù)具體的數(shù)值計(jì)算列表達(dá)式,從而實(shí)現(xiàn)單位制轉(zhuǎn)換和閾值校驗(yàn)等功能。此外,可從數(shù)據(jù)庫(kù)的Check約束中獲取必要的信息,從而提前校驗(yàn)數(shù)據(jù)是否滿足必要條件。⑥非數(shù)值字段創(chuàng)建列表達(dá)式,需要應(yīng)用程序根據(jù)對(duì)應(yīng)的數(shù)據(jù)類型進(jìn)行數(shù)據(jù)校驗(yàn)。⑦一個(gè)數(shù)據(jù)模板中可包含多個(gè)模板表。根據(jù)不同的國(guó)家或地區(qū),不同的油氣田的原始數(shù)據(jù),用戶可自定義所使用的模板列、模板列的顯示順序和列表達(dá)式等。
1.3 ? 設(shè)計(jì)模板
模板設(shè)計(jì)工作相對(duì)復(fù)雜,需要對(duì)數(shù)據(jù)庫(kù)和油氣藏方面的知識(shí)有足夠深入的了解。由于數(shù)據(jù)模板對(duì)后續(xù)數(shù)據(jù)導(dǎo)入有重大影響,所以,模板的設(shè)計(jì)和管理工作需要專人負(fù)責(zé)。
模板創(chuàng)建過(guò)程如圖2所示。①分析原始數(shù)據(jù)所涉及的專業(yè)分類及對(duì)應(yīng)的數(shù)據(jù)庫(kù)表。②根據(jù)對(duì)應(yīng)數(shù)據(jù)字典創(chuàng)建相應(yīng)的模板表。③每個(gè)模板表對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù)表,每個(gè)模板列對(duì)應(yīng)一個(gè)數(shù)據(jù)庫(kù)表字段。用戶可根據(jù)實(shí)際應(yīng)用場(chǎng)景或習(xí)慣用語(yǔ)等,自定義模板表、模板列的名稱,描述信息及模板列的約束條件。數(shù)據(jù)模板由一個(gè)或多個(gè)模板表構(gòu)成。在實(shí)際應(yīng)用過(guò)程中,用戶根據(jù)實(shí)際使用場(chǎng)景選擇需要的模板列,隱藏不需要的列,必填項(xiàng)數(shù)據(jù)列不能隱藏,以確保數(shù)據(jù)的完整性。
1.4 ? 數(shù)據(jù)導(dǎo)入
導(dǎo)入數(shù)據(jù)時(shí),用戶根據(jù)原始數(shù)據(jù)文件選擇對(duì)應(yīng)的數(shù)據(jù)模板。當(dāng)用戶選擇錯(cuò)誤的模板時(shí),導(dǎo)入模板無(wú)法與原始數(shù)據(jù)文件匹配,程序會(huì)給出提示。導(dǎo)入過(guò)程如下:①根據(jù)數(shù)據(jù)文件選擇模板。②客戶端校驗(yàn)數(shù)據(jù)類型,并根據(jù)列表達(dá)式校驗(yàn)數(shù)據(jù)是否合法。③在客戶端完成數(shù)據(jù)預(yù)處理之后傳輸?shù)椒?wù)端。服務(wù)端根據(jù)數(shù)據(jù)庫(kù)表和字段對(duì)原始數(shù)據(jù)進(jìn)行拆分組合,實(shí)現(xiàn)原始數(shù)據(jù)和數(shù)據(jù)庫(kù)之間的映射。④后臺(tái)生成對(duì)應(yīng)數(shù)據(jù),并分批或逐條導(dǎo)入數(shù)據(jù)庫(kù)。后臺(tái)分批提交時(shí),后臺(tái)程序性能較高,逐行提交時(shí),交互性更好。如何取舍應(yīng)根據(jù)實(shí)際數(shù)據(jù)量或應(yīng)用場(chǎng)景而定。應(yīng)用程序可提供選擇分批導(dǎo)入或逐行導(dǎo)入的接口,供用戶自主選擇。導(dǎo)入數(shù)據(jù)時(shí),服務(wù)端僅需記錄導(dǎo)入的操作及數(shù)據(jù)庫(kù)表和數(shù)據(jù)的通用唯一識(shí)別碼( Universally Unique Identifier,UUID)即可。
2 ? ? 結(jié) 語(yǔ)
隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)作為油田業(yè)務(wù)金字塔基礎(chǔ)的組成部分,其重要性不言而喻。如何高效地利用數(shù)據(jù),挖掘數(shù)據(jù)潛力以指導(dǎo)科研生產(chǎn)成為行業(yè)熱點(diǎn)。本文提出一種新的面向海外數(shù)據(jù)庫(kù)的數(shù)據(jù)錄入方法,構(gòu)建一種適應(yīng)性強(qiáng)、統(tǒng)一靈活的數(shù)據(jù)錄入平臺(tái),以解決傳統(tǒng)的數(shù)據(jù)錄入平臺(tái)不能適應(yīng)海外數(shù)據(jù)復(fù)雜多變的問(wèn)題,從而為開展海外業(yè)務(wù)提供更強(qiáng)大的支撐。