電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問題研究

2016-12-28 06:44:18劉冬蘭劉新馬雷任俊杰楊鋒

山東電力技術(shù) 2016年11期

關(guān)鍵詞：高頻率頁面數(shù)據(jù)庫

劉冬蘭，劉新，馬雷，任俊杰，楊鋒

（1.國網(wǎng)山東省電力公司電力科學(xué)研究院，濟(jì)南250003；2.山東中實(shí)易通集團(tuán)有限公司，濟(jì)南250003）

電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問題研究

劉冬蘭1，劉新1，馬雷1，任俊杰2，楊鋒2

（1.國網(wǎng)山東省電力公司電力科學(xué)研究院，濟(jì)南250003；2.山東中實(shí)易通集團(tuán)有限公司，濟(jì)南250003）

國家電網(wǎng)公司多年來建設(shè)了很多業(yè)務(wù)系統(tǒng)，如辦公自動化（OA）系統(tǒng)、營銷系統(tǒng)、管理信息系統(tǒng)等。然而，電力企業(yè)信息化建設(shè)的深入以及業(yè)務(wù)系統(tǒng)中數(shù)據(jù)量的急劇增長給查找數(shù)據(jù)信息帶來極大不便和新的挑戰(zhàn)。為此，提出了一個(gè)面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng)架構(gòu)，并對其中的數(shù)據(jù)獲取、抽取、整合等關(guān)鍵技術(shù)問題進(jìn)行研究；提出了基于高頻率查詢詞采集率的數(shù)據(jù)獲取方法、自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器的思想以及無監(jiān)督學(xué)習(xí)的自動化重復(fù)記錄檢測模式。針對電力系統(tǒng)各個(gè)信息孤島進(jìn)行數(shù)據(jù)集成，對各業(yè)務(wù)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一存儲和管理，方便用戶檢索出所需的數(shù)據(jù)，為電力企業(yè)員工提供便捷服務(wù)。

數(shù)據(jù)集成；數(shù)據(jù)抽??；包裝器；自底向上；非結(jié)構(gòu)化數(shù)據(jù)

0 引言

近年來，信息技術(shù)已經(jīng)滲透到各個(gè)領(lǐng)域，而且能采集、處理、存儲和顯示的信息量在不斷增長。在電力系統(tǒng)領(lǐng)域中數(shù)字化技術(shù)應(yīng)用廣泛，如數(shù)字化繼電保護(hù)系統(tǒng)和數(shù)字化控制系統(tǒng)。由于各類相互獨(dú)立的信息管理及監(jiān)控系統(tǒng)較多且規(guī)模龐大，使數(shù)據(jù)庫存儲的數(shù)據(jù)種類繁多，在電力系統(tǒng)中產(chǎn)生大量數(shù)據(jù)。面對電力系統(tǒng)中迅速膨脹的數(shù)據(jù)信息量，運(yùn)行人員和決策者不僅需要對本行業(yè)的數(shù)據(jù)庫了如指掌，還需要熟練地對大量數(shù)據(jù)進(jìn)行分析處理。由于各類信息系統(tǒng)中的數(shù)據(jù)具有大規(guī)模、異構(gòu)性、分布式等特點(diǎn)，使數(shù)據(jù)的分析挖掘變得尤為困難［1］。

通過數(shù)據(jù)集成與應(yīng)用集成技術(shù)，建立能相互共享數(shù)據(jù)、有效協(xié)同工作的企業(yè)綜合管理信息平臺，利用各專業(yè)信息系統(tǒng)多年積累的數(shù)據(jù)將其轉(zhuǎn)換成能為企業(yè)創(chuàng)造價(jià)值的信息。針對電力系統(tǒng)龐大的數(shù)據(jù)信息進(jìn)行分析、加工、提煉以獲取用戶所需的數(shù)據(jù)，把各個(gè)信息孤島相互匯集成為決策輔助信息系統(tǒng)，構(gòu)建面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng)，將分布式非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行集中式存儲、管理并提供統(tǒng)一的查詢接口，使企業(yè)相關(guān)人員能夠高效、便捷地檢索出所需的數(shù)據(jù)［2］。因此，對電力領(lǐng)域數(shù)據(jù)集成系統(tǒng)平臺進(jìn)行研究可以為電力企業(yè)用戶提供決策支持，更好地保證信息系統(tǒng)的經(jīng)濟(jì)、安全穩(wěn)定運(yùn)行，具有重要意義。

1 數(shù)據(jù)集成系統(tǒng)架構(gòu)

電力系統(tǒng)中數(shù)據(jù)集成技術(shù)關(guān)鍵問題主要分為數(shù)據(jù)獲取、數(shù)據(jù)抽取、數(shù)據(jù)整合、數(shù)據(jù)分析等幾方面。技術(shù)關(guān)鍵在于如何解決電力系統(tǒng)領(lǐng)域數(shù)據(jù)模式的異構(gòu)問題，使操作人員不必受限于數(shù)據(jù)模型的異構(gòu)性、數(shù)據(jù)獲取、抽取和整合等問題［3］。為此，對各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行系統(tǒng)集成，通過對眾多業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行分析，提出了面向電力領(lǐng)域的數(shù)據(jù)集成系統(tǒng)架構(gòu)，如圖1所示。

圖1 數(shù)據(jù)集成系統(tǒng)架構(gòu)

數(shù)據(jù)集成主要包括數(shù)據(jù)獲取、抽取、整合及分析，其中涉及一個(gè)核心技術(shù)問題是領(lǐng)域模型管理，領(lǐng)域模型管理組件包含領(lǐng)域模型的定制和演化。領(lǐng)域模型定制是負(fù)責(zé)實(shí)體模式和實(shí)體之間的關(guān)系，領(lǐng)域模型演化負(fù)責(zé)檢測并及時(shí)更新實(shí)體之間的關(guān)系［4-5］。數(shù)據(jù)集成系統(tǒng)操作過程如下。

1）數(shù)據(jù)獲取。數(shù)據(jù)獲取通過構(gòu)造爬蟲程序來實(shí)現(xiàn)，爬蟲根據(jù)提交的查詢表單，發(fā)現(xiàn)并選擇優(yōu)質(zhì)的Web數(shù)據(jù)庫，通過對接口進(jìn)行理解分析，從網(wǎng)站上爬取出盡可能多的Web頁面存儲在本地?cái)?shù)據(jù)庫。

2）數(shù)據(jù)抽取。數(shù)據(jù)抽取通過構(gòu)造包裝器來實(shí)現(xiàn)，包裝器抽取對用戶感興趣的數(shù)據(jù)進(jìn)行準(zhǔn)確定位，把非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)抽取出來并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲；對頁面中的數(shù)據(jù)進(jìn)行標(biāo)注和抽取，實(shí)現(xiàn)對同領(lǐng)域內(nèi)不同站點(diǎn)中Web數(shù)據(jù)的模式統(tǒng)一。

3）數(shù)據(jù)整合。數(shù)據(jù)整合包括重復(fù)記錄檢測和數(shù)據(jù)融合，通過一些重復(fù)檢測技術(shù)對抽取到的Web數(shù)據(jù)進(jìn)行檢測，并對同一實(shí)體相同信息進(jìn)行合并，獲得結(jié)構(gòu)化數(shù)據(jù)。

4）數(shù)據(jù)分析。數(shù)據(jù)分析采用適當(dāng)?shù)姆椒▽?shù)據(jù)整合中得到的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理，對數(shù)據(jù)信息的功能進(jìn)行最大化開發(fā)，充分發(fā)揮數(shù)據(jù)的作用，獲取有用信息并對數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)，進(jìn)而采用一些圖表形式展現(xiàn)給用戶。

2 基于高頻率查詢詞采集率的數(shù)據(jù)獲取

數(shù)據(jù)集成的基礎(chǔ)問題是數(shù)據(jù)獲取。通常只有把網(wǎng)站上眾多的網(wǎng)頁數(shù)據(jù)爬取下來存儲在本地?cái)?shù)據(jù)庫，才能進(jìn)行后續(xù)的數(shù)據(jù)抽取、整合操作，為市場情報(bào)分析等應(yīng)用提供決策支持。目前，普通的網(wǎng)絡(luò)爬蟲軟件是單一的爬蟲程序，面對眾多的業(yè)務(wù)系統(tǒng)數(shù)據(jù)需要對各業(yè)務(wù)系統(tǒng)頁面的查詢接口進(jìn)行解析，提交合適的查詢詞，在短時(shí)間內(nèi)爬取大量網(wǎng)頁，提高數(shù)據(jù)獲取效率［6］。

為達(dá)到較高的數(shù)據(jù)獲取效率，提出了基于高頻率查詢詞采集率模型的數(shù)據(jù)獲取方法。通過統(tǒng)計(jì)網(wǎng)頁中漢字出現(xiàn)頻率，獲取高頻率列表用于估算候選詞的新數(shù)據(jù)獲取率，同時(shí)對網(wǎng)站數(shù)據(jù)庫進(jìn)行采樣，得到某一文本屬性的采樣數(shù)據(jù)庫，采用多個(gè)特征自動構(gòu)造訓(xùn)練樣本，利用多元線性回歸方法不斷訓(xùn)練樣本，進(jìn)而構(gòu)造基于高頻率查詢詞采集率模型。在每一次獲取數(shù)據(jù)過程中使用此模型不斷迭代選擇查詢詞向該文本屬性進(jìn)行提交，實(shí)現(xiàn)對網(wǎng)站數(shù)據(jù)庫的爬取，該方法有較高的數(shù)據(jù)覆蓋率。

基于高頻率查詢詞采集率模型的數(shù)據(jù)獲取過程主要包括查詢詞采新率模型構(gòu)建和網(wǎng)站數(shù)據(jù)庫獲取，如圖2所示。

第一階段是基于高頻率查詢詞采新率模型的構(gòu)建。通過統(tǒng)計(jì)網(wǎng)站頁面中漢字出現(xiàn)頻率，獲取高頻率列表用于估算候選詞的新數(shù)據(jù)獲取率；使用一些常用的采樣方法對網(wǎng)站數(shù)據(jù)庫中待抽取數(shù)據(jù)的文本屬性進(jìn)行采樣，得到文本屬性的采樣數(shù)據(jù)庫，利用網(wǎng)頁結(jié)構(gòu)特征構(gòu)建訓(xùn)練集，使用線性回歸方法對樣本進(jìn)行訓(xùn)練，得到基于高頻率查詢詞采集率模型。

圖2 基于高頻率查詢詞采集率模型的數(shù)據(jù)獲取過程

第二階段是利用第一階段構(gòu)建的模型來獲取網(wǎng)站數(shù)據(jù)庫。從提交的查詢列表中選擇一個(gè)有效的新查詢詞重新提交，查詢提交后從所有的網(wǎng)站W(wǎng)eb數(shù)據(jù)庫中查詢數(shù)據(jù)，返回結(jié)果頁面后抽取所需記錄存儲在本地?cái)?shù)據(jù)庫，將采集到的相應(yīng)網(wǎng)站頁面存儲到本地?cái)?shù)據(jù)庫，其中從結(jié)果頁面提取的數(shù)據(jù)已經(jīng)是待抽取數(shù)據(jù)，屬于結(jié)構(gòu)化數(shù)據(jù)；通過不斷迭代選擇新查詢詞提交，實(shí)現(xiàn)對網(wǎng)站數(shù)據(jù)庫的獲取，直至獲取數(shù)據(jù)盡可能多地覆蓋到整個(gè)網(wǎng)站。為了提高數(shù)據(jù)獲取效率，可將此過程采用Map／Reduce方式來并行操作，可以有效解決數(shù)據(jù)獲取過程中URL分配調(diào)度面臨的負(fù)載均衡問題。

3 基于自底向上方法的數(shù)據(jù)抽取包裝器的構(gòu)建

數(shù)據(jù)抽取包括頁面提取和語義標(biāo)注，該組件可以準(zhǔn)確提取目標(biāo)網(wǎng)頁中的目標(biāo)數(shù)據(jù)，并對數(shù)據(jù)元素進(jìn)行語義理解，進(jìn)而準(zhǔn)確地識別數(shù)據(jù)元素和屬性標(biāo)簽的采樣頁面，提高對目標(biāo)數(shù)據(jù)的抽取準(zhǔn)確度。領(lǐng)域模型演化組件從更新的數(shù)據(jù)中檢測新的實(shí)體模式和新的關(guān)系，進(jìn)而及時(shí)更新領(lǐng)域模型。實(shí)體模式關(guān)系的動態(tài)更新可采用支持向量機(jī)（Support Vector Machine，SVM）方法［7］，利用數(shù)據(jù)系統(tǒng)中存在的數(shù)據(jù)及目標(biāo)頁面的視覺信息有效地檢測和建立不同實(shí)體之間的關(guān)系。

3.1 數(shù)據(jù)抽取包裝器健壯性評估方法

數(shù)據(jù)抽取通過構(gòu)造包裝器來實(shí)現(xiàn)，所謂包裝器是指使用一個(gè)程序把感興趣的數(shù)據(jù)從網(wǎng)站頁面提取出來，并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)存儲和管理［8］。

數(shù)據(jù)抽取的關(guān)鍵問題在于網(wǎng)站頁面中如何定位數(shù)據(jù)的準(zhǔn)確位置，自動化抽取中一般將網(wǎng)站頁面轉(zhuǎn)化成對應(yīng)的DOM樹，利用網(wǎng)站DOM樹的頁面和結(jié)構(gòu)特征，構(gòu)造XPath路徑表達(dá)式來定位數(shù)據(jù)，這種XPath路徑表達(dá)式就稱之為包裝器［9］。例如，某省電力公司招聘網(wǎng)站上信息安全工程師崗位招聘頁面對應(yīng)的DOM樹如圖3所示。

圖3 網(wǎng)站頁面對應(yīng)的DOM樹結(jié)構(gòu)

構(gòu)造XPath路徑表達(dá)式可通過遍歷HTMLDOM樹得到，即W1=／／html／body／div［2］／table／td［4］／text（）就是所構(gòu)造的包裝器，由此包裝器能準(zhǔn)確抽取到工作地點(diǎn)是濟(jì)南。此包裝器是采用自頂向下方式構(gòu)建的，包含了頁面DOM樹中從根節(jié)點(diǎn)到待抽取節(jié)點(diǎn)的所有謂詞。但是此網(wǎng)站頁面中如果刪除第一個(gè)div，或者在第二個(gè)div下面添加了新的謂詞td或table，那么上述包裝器就失效了。

例如，包裝器表達(dá)式W2=／／div［@class=‘btname’］／*／td［4］／text（），顯然，包裝器W2性能優(yōu)于W1，因?yàn)楫?dāng)?shù)谝粋€(gè)div謂詞被刪除后，包裝器W2還能繼續(xù)抽取到正確的工作地點(diǎn)信息；包裝器表達(dá)式W3=／／table［@width=‘95%’］／td［4］／text（），顯然，包裝器W3性能更優(yōu)于W2，因?yàn)楫?dāng)在第二個(gè)謂詞div下面添加了新的謂詞td或table后，包裝器W3能正確抽取到準(zhǔn)確的工作地點(diǎn)信息。從上述可以看出，數(shù)據(jù)抽取包裝器表達(dá)式XPath越少依賴于DOM樹結(jié)構(gòu)，其包裝器的健壯性越好。

包裝器健壯性是表示當(dāng)網(wǎng)頁隨著時(shí)間變化時(shí)，包裝器將繼續(xù)保持抽取數(shù)據(jù)節(jié)點(diǎn)的能力，是測量包裝器在變化后的新版本網(wǎng)頁中抽取數(shù)據(jù)的能力。衡量數(shù)據(jù)抽取包裝器的健壯性，通常根據(jù)數(shù)據(jù)抽取的查準(zhǔn)率和查全率來判斷。查準(zhǔn)率表示抽取數(shù)據(jù)的準(zhǔn)確度，查全率表示獲取正確數(shù)據(jù)的覆蓋程度。

3.2 數(shù)據(jù)抽取包裝器構(gòu)建方法

為提高數(shù)據(jù)抽取包裝器的健壯性，根據(jù)自底向上的邏輯歸納設(shè)計(jì)思想，提出了一種自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器。先選擇一些普通的特定XPath路徑表達(dá)式，在此基礎(chǔ)上提出一個(gè)規(guī)則，匹配和特化每個(gè)節(jié)點(diǎn)直到數(shù)據(jù)抽取包裝器表達(dá)式和需要抽取的目標(biāo)數(shù)據(jù)節(jié)點(diǎn)信息完全匹配，同時(shí)盡可能地使其生成的數(shù)據(jù)抽取包裝器查全率和查準(zhǔn)率都等于1，即使抽取數(shù)據(jù)的準(zhǔn)確率盡量達(dá)到完全準(zhǔn)確，并且使抽取的數(shù)據(jù)覆蓋到網(wǎng)站上所有的結(jié)果數(shù)據(jù)。

假設(shè)D表示一系列有標(biāo)簽的XML文檔集合，包含了相應(yīng)的網(wǎng)頁中若干個(gè)感興趣的待抽取數(shù)據(jù)節(jié)點(diǎn)信息。對于任意一個(gè)待抽取節(jié)點(diǎn)d∈D，我們想要從有標(biāo)簽的文檔D中抽取目標(biāo)節(jié)點(diǎn)，記為T（d）。對于任意給定的XPath路徑表達(dá)式x，我們想要生成一個(gè)XPath表達(dá)式x使其滿足如下規(guī)則。

對于任意的d，使x（d）=T（d），即使用包裝器XPath表達(dá)式抽取的結(jié)果正好等于待抽取的目標(biāo)節(jié)點(diǎn)。根據(jù)信息檢索中的評估方法定義評估標(biāo)準(zhǔn)

式中：P為查準(zhǔn)率，R為查全率。構(gòu)建健壯性的包裝器應(yīng)使其包裝器的查準(zhǔn)率和查全率都等于1。

4 重復(fù)記錄檢測

Web數(shù)據(jù)庫之間的同一實(shí)體存在重復(fù)記錄，即同一條信息可能存在于多個(gè)數(shù)據(jù)庫中。從網(wǎng)站上抽取的數(shù)據(jù)里有重復(fù)信息會造成數(shù)據(jù)冗余，冗余數(shù)據(jù)會增大所占空間導(dǎo)致數(shù)據(jù)查詢效率降低，對數(shù)據(jù)分析造成一定影響。從抽取的結(jié)果數(shù)據(jù)中識別出重復(fù)的數(shù)據(jù)記錄稱之為重復(fù)記錄檢測，而數(shù)據(jù)整合主要包括重復(fù)記錄檢測和數(shù)據(jù)融合。數(shù)據(jù)整合的過程是利用一些重復(fù)記錄檢測技術(shù)對抽取到的數(shù)據(jù)信息進(jìn)行檢測，并對同一實(shí)體相同信息進(jìn)行合并，提高數(shù)據(jù)的質(zhì)量，進(jìn)而提高數(shù)據(jù)檢索的速度。手工檢測重復(fù)記錄得到的數(shù)據(jù)準(zhǔn)確率高，但是工作量大并且靠人工檢測速度較慢。因此，研究自動化的重復(fù)記錄檢測技術(shù)變得尤為重要。

重復(fù)記錄檢測的關(guān)鍵問題在于識別出兩條數(shù)據(jù)記錄是否完全重復(fù)或相似，即兩條數(shù)據(jù)記錄表達(dá)的信息是否相同或相近。目前識別重復(fù)記錄的算法主要有編輯距離匹配、字段匹配、聚類等［10-11］。為此，提出一種無監(jiān)督學(xué)習(xí)的自動化重復(fù)記錄檢測方法，通過采用聚類分析方法自動選擇初始訓(xùn)練集，采用SVM的分類迭代方式，構(gòu)建數(shù)據(jù)記錄分類模型，達(dá)到重復(fù)記錄識別及檢測分類合并的目的。

無監(jiān)督學(xué)習(xí)的自動化重復(fù)記錄檢測過程如下。

1）分塊／索引。兩個(gè)數(shù)據(jù)庫D1和D2之間的記錄對是D1和D2大小的乘積，為提高重復(fù)記錄檢測效率，可使用分塊或者索引技術(shù)先分類，將不可能重復(fù)的記錄對進(jìn)行過濾。

2）獲取比較向量。分析實(shí)體屬性類型，選擇相似度計(jì)算方法，對分塊索引后的記錄對計(jì)算記錄對中相同屬性值的相似度，進(jìn)一步獲取比較向量。

3）獲取訓(xùn)練樣本。自動化的重復(fù)記錄檢測通常選擇聚類算法訓(xùn)練樣本集，為提高樣本集質(zhì)量，采用聚類集成方法結(jié)合多個(gè)聚類結(jié)果，獲取其一致結(jié)果作為訓(xùn)練樣本集。

4）比較向量分類。采用已獲取的訓(xùn)練樣本集訓(xùn)練一個(gè)SVM分類器，用該分類器對剩余未分類的比較向量進(jìn)行分類。分類包括匹配對和不匹配對，并對分類結(jié)果按照可信度排序，選擇可信度大的比較向量更新訓(xùn)練樣本，重新訓(xùn)練SVM分類器，不斷迭代執(zhí)行，直到滿足某一條件結(jié)束。分類得到的匹配對比較向量集對應(yīng)的記錄就是重復(fù)記錄檢測的結(jié)果。

無監(jiān)督學(xué)習(xí)的自動化重復(fù)記錄檢測采用聚類集成方法，結(jié)合多個(gè)聚類結(jié)果自動選擇初始訓(xùn)練集，提高了樣本集的準(zhǔn)確度，采用SVM迭代分類方法構(gòu)建數(shù)據(jù)記錄分類模型，提高了數(shù)據(jù)記錄的分類準(zhǔn)確度，進(jìn)一步提高數(shù)據(jù)融合性能。

5 結(jié)語

針對電力領(lǐng)域眾多的業(yè)務(wù)系統(tǒng)數(shù)據(jù)，為便于企業(yè)用戶快捷地檢索信息，對電力領(lǐng)域中各業(yè)務(wù)系統(tǒng)架構(gòu)等進(jìn)行了初步調(diào)查研究，研究基于高頻率查詢詞采集率的數(shù)據(jù)獲取方法、采用自底向上方法構(gòu)建數(shù)據(jù)抽取包裝器思想以及無監(jiān)督學(xué)習(xí)的自動化重復(fù)記錄檢測模式，并設(shè)計(jì)了電力系統(tǒng)數(shù)據(jù)集成系統(tǒng)架構(gòu)。針對電力系統(tǒng)領(lǐng)域龐大的數(shù)據(jù)信息進(jìn)行分析加工，進(jìn)一步提煉用戶所需的數(shù)據(jù)，對各個(gè)信息孤島進(jìn)行數(shù)據(jù)集成，對各業(yè)務(wù)系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行統(tǒng)一存儲和管理，并且提供統(tǒng)一的查詢接口，方便企業(yè)用戶快速檢索出所需數(shù)據(jù)。

［1］董永權(quán).Deep Web數(shù)據(jù)集成關(guān)鍵問題研究［D］.濟(jì)南：山東大學(xué)，2010.

［2］羅學(xué)禮，徐樹振，王森，等.電力企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)檢索研究［J］.計(jì)算機(jī)與數(shù)字工程，2014，42（4）：729-733.

［3］馬玉梅.電力系統(tǒng)中數(shù)據(jù)集成技術(shù)的研究與應(yīng)用［D］.保定：華北電力大學(xué)，2006.

［4］DONG Yongquan，LI Qingzhong.A Robust Approach of Automat ic Web Data Record Extraction［J］.Journal of Computational Information Systems，2009，6（6）：1 757-1 766.

［5］XU Xiuxing，LI Qingzhong，DONG Yongquan et al.Dynamically Constructing a Global Schema for Web Entities.Web Information Systems&Applications Conference［C］.Huhhot：IEEE，2010.

［6］劉偉.Deep Web數(shù)據(jù)集成中的關(guān)鍵技術(shù)研究［D］.北京：中國人民大學(xué)，2008.

［7］閆中敏，李慶忠，彭朝暉，等.DWDIS：面向分析的Deep Web數(shù)據(jù)集成系統(tǒng)［J］.計(jì)算機(jī)研究與發(fā)展，2010，47（S1）：479-483.

［8］RAHUL Gupta，SUNITA Sarawagi.Domain Adaptation of Information Extraction Models［J］.SIGMOD Record，2008，37（4）：35-40.

［9］NILESH Dalvi，RAVI Kumar，MOHAMED Soliman.Automatic Wrappers for Large Scale Web Extraction［J］.In VLDB，2011，4（4）：219-230.

［10］葉煥倬，吳迪.相似重復(fù)記錄清理方法研究綜述［J］.現(xiàn)代圖書情報(bào)技術(shù)，2010（9）：56-66.

［11］邱越峰，田增平，季文赟，等.一種高效的檢測相似重復(fù)記錄的方法［J］.計(jì)算機(jī)學(xué)報(bào)，2001，24（1）：69-77.

Key Problems of Data Integration Technology in Electric Power System

LIU Donglan1，LIU Xin1，MA Lei1，REN Junjie2，YANG Feng2
（1.State Grid Shandong Electric Power Research Institute，Jinan 250003，China；2.Shandong Zhongshi Yitong Group Co.，Ltd.，Jinan 250003，China）

The State Grid has built amounts of business systems for many years，such as OA system，marketing system and management information system.However，with the deepening of power enterprise informatization construction and the sharp increase of data in business systems，it brings new challenges and inconvenience for data seekers.An architecture model of data integration in the power field is proposed，and key problems in this model such as data acquiring，extracting and integrating are investigated.A new date acquirement method based on high frequency words collecting rate is put forward，a concept to build data extraction wrapper through bottom-up approach and an automating repetitive record detection model for unsupervised learning are also proposed.Aiming at the information isolated island in the electric power system the data is integrated，and the unified storage and management of unstructured data in business systems are conducted，which can help users to obtain required data and to provide convenient services for staffs in the power enterprise.

data integration；data extraction；wrapper；bottom-up；unstructured data

TP311

1007－9904（2016）11－0023－05

2016-05-26

劉冬蘭（1987），女，工程師，從事電力系統(tǒng)信息安全技術(shù)督查工作。