李 智 黃如福 黃 鶴
(1.中國建筑科學研究院建筑工程軟件研究所,北京 100013;2.西安建筑科技大學信控學院,西安 710055)
基于數(shù)據挖掘的施工質量風險預測
李 智1黃如福1黃 鶴2
(1.中國建筑科學研究院建筑工程軟件研究所,北京 100013;2.西安建筑科技大學信控學院,西安 710055)
質量管理是建設工程管理工作的重中之重,如何借助計算機工具協(xié)助建設工程質量監(jiān)督檢測單位,快捷、準確地完成質量管理工作是建設工程質量監(jiān)督檢測部門信息化的熱點。本文通過對影響工程質量內外因素的分析,結合數(shù)據挖掘的理論,提出了將數(shù)據挖掘技術引入施工質量管理系統(tǒng)的思路,并在此基礎上構造了施工質量風險預測系統(tǒng)的模型。最后,結合Weka軟件的特點和優(yōu)勢,本文分析了將Weka軟件與系統(tǒng)集成的可行性,并對Weka軟件的預測效果進行了展示。
建設工程;質量管理;信息化;數(shù)據挖掘;風險預測;Weka
隨著行業(yè)范圍內施工企業(yè)信息化的全面推行和計算機信息技術的發(fā)展,施工企業(yè)逐步建立起了集團級或企業(yè)級的數(shù)據庫,積累了一定數(shù)量的施工數(shù)據。一些走在信息化前沿的企業(yè),逐漸不滿足于僅僅實現(xiàn)數(shù)據的儲存和查詢功能,越來越希望對現(xiàn)有數(shù)據進行分析和挖掘,進而產生對工程質量管理部門的決策分析提供輔助支持。
質量是人類文明進步的標志,隨著全行業(yè)范圍內對施工質量的日益關注,施工質量管理逐漸成為衡量一個施工企業(yè)管理水平的重要因素。傳統(tǒng)的企業(yè)級質量管理模式僅僅停留在企業(yè)定期質量檢查的方式,對于檢查中發(fā)現(xiàn)的問題,也僅能做到發(fā)現(xiàn)一處,整改一處,沒有連續(xù)性和針對性,造成質量檢查過程中的重復勞動和效率低下。
為了克服施工過程中質量管理后知后覺的弊端,早在上個世紀90年代,歐美的一些學者就提出了利用建立模型對施工風險進行預測的理論。但由于施工情況復雜多變,給實際建模帶來了很多的困難,也使預測模型的推廣面臨很大的障礙[1]。直到近幾年數(shù)據挖掘的技術越來越成熟,利用數(shù)據挖掘工具建立的預測模型才重新走回人們的視野,成為研究的新熱點。
本文通過對施工企業(yè)業(yè)已積累的建設工程項目數(shù)據進行分析,并使用數(shù)據挖掘的方法找尋與質量檢查結果相關的信息,在此基礎之上建立質量檢查結果的預測模型,用以實現(xiàn)對質量風險的預測,建立施工企業(yè)的質量風險預測系統(tǒng)。利用此系統(tǒng),工程質量監(jiān)督檢測人員可以在立項之初,根據建設工程項目已知信息預測項目施工質量檢查結果,對預期風險較大的項目進行資源再調配,以期達到降低施工風險提高決策效率的目的。同時,質量風險預測系統(tǒng)分析產生的結果可作為立項可行性報告的依據,為領導決策層提供可靠的參考信息。
建設工程施工質量有著嚴格的要求和標準。在所有影響工程質量的因素中,人、材料、機械和環(huán)境方面的因素是主要因素。如何對這些因素數(shù)據進行跟蹤管理,并嚴格加以控制,是保證工程質量的關鍵。
(1)人的因素
人的因素是影響施工質量的最主要因素。主要包括領導者的素質,工程師的理論、技術水平,以及其他施工人員熟練程度和工作態(tài)度等。選擇人員組織素質較高的施工隊伍,對現(xiàn)有的人員進行組織優(yōu)化,有針對性地實行培訓和優(yōu)選,進行專業(yè)崗位技術訓練,對于提升質量管理水平起到至關重要的作用。因此,施工過程中人員的選擇往往直接決定了施工質量風險的大小和最終質量驗收的通過與否。
(2)材料因素
要創(chuàng)一流的工程質量,必須有高質量的材料加以保證。材料指原材料、成品半成品、構配件等,它是工程施工必要的物質條件。在實際施工過程中,因材料質量造成的安全事故時有發(fā)生,例如,一些“豆腐渣”工程,就是因為使用劣質建筑材料,最終造成重大事故,也給施工企業(yè)的聲譽帶來無法彌補的損失。所以,在施工的質量管理過程中,一定要加強材料質量的管理,嚴把材料質量關。同時要建立供應商材料信息庫和信用考評機制,對所提供的材料進行跟蹤,對供應商進行考評,最終達到控制材料質量的目的。
(3)機械設備因素
施工機械設備是實現(xiàn)施工機械化的重要物質基礎,是現(xiàn)代化工程建設中必要的設施,對工程施工的進度和工程質量都有直接的影響。因此,機械設備的購置、管理、檢查驗收、安裝質量以及運轉情況等,是否符合技術要求和質量標準就顯得十分必要。
(4)環(huán)境因素
在施工過程中,環(huán)境因素也并不是一成不變的,不同的工程項目會有著不同的工程技術環(huán)境、管理環(huán)境和勞動環(huán)境。而且同一個工程項目,在不同時間,環(huán)境因素也是變化的,如氣象條件,溫度、濕度、風雨等都是變化的,而這些變化都會對工程質量產生一定的影響。例如,在冬雨期、炎熱季節(jié)或者風季施工時,尤其是混凝土工程、土石方工程、水下工程及高空作業(yè)等,容易受到凍害、干裂、沖刷等的危害而影響工程質量。由此可見,環(huán)境因素也是質量風險因素中不可或缺的一部分。
根據以上影響質量因素的分析,可以整理出構建施工質量風險預測系統(tǒng)的基本思路。即通過對相關因素的分析,找尋這些因素之間以及與質量檢驗結果的聯(lián)系,最終實現(xiàn)通過已知因素預測質量風險的目的。
基于以上理念,可將企業(yè)級的施工質量風險預測系統(tǒng)劃分為三個層次:數(shù)據層、模塊層和界面層(如圖1所示)。
數(shù)據層的核心功能是對數(shù)據進行提取和預處理。質量風險預測系統(tǒng)的數(shù)據主要來自施工企業(yè)數(shù)據庫,但企業(yè)信息庫中的信息紛繁復雜,并不是所有的信息都有助于對施工質量進行分析,所以首先要有數(shù)據提取和處理的過程,有關提取和處理的方式將會在下文中詳細論述。這些影響質量的相關信息將會被分類匯入專用的風險決策數(shù)據庫。以該庫為基礎,系統(tǒng)將創(chuàng)建模型庫、方法庫和知識庫三個衍生數(shù)據庫。模型庫用來存放數(shù)據挖掘中建立的模型;方法庫將對數(shù)據關聯(lián)的方式、方法進行記錄;而知識庫則主要用來儲存數(shù)據挖掘后產生的數(shù)據和規(guī)律。
模塊層的核心是風險預測模塊,另外還包括數(shù)據分析模塊和決策支持模塊。風險預測模塊是整個系統(tǒng)的核心,主要功能基于風險決策數(shù)據庫的信息,對項目實施的風險進行預測;數(shù)據分析模塊的功能是對數(shù)據庫中影響施工質量的信息進行分析,找出內在的關聯(lián)性;決策支持模塊是基于以上兩個模塊的分析結果,為領導決策層提供參考數(shù)據和決策支持。
界面層是提供人性化的操作界面,使不熟悉計算機和數(shù)據挖掘知識的人員,經過簡單的培訓,可以輕松地掌握本系統(tǒng)。
由圖1可見,建立企業(yè)施工質量風險預測系統(tǒng)的首要任務是要進行數(shù)據的提取和處理,之后是建立預測專用的數(shù)據庫。建立專用數(shù)據庫的目的是提升系統(tǒng)預測效率,同時也避免了預測過程中對原數(shù)據庫產生的影響。在完成必要的數(shù)據準備工作之后,接下來就可以通過數(shù)據挖掘工具找出這些因素與施工質量的關系。
圖1 施工質量風險預測系統(tǒng)功能模塊圖
目前,全世界有很多統(tǒng)計分析和數(shù)據挖掘軟件,最著名的包括SAS的企業(yè)挖掘者和IBM的智能挖掘者,SPSS的CLEMENTINE,Megaputer的PolyAnalyst等。這些軟件幾乎覆蓋了所有可能盈利的商業(yè)應用領域,使用的分析方法包括有回歸、決策樹、神經網絡、聚類分析等等。但由于這些產品使用成本過高,操作復雜,對于一些處在數(shù)據挖掘起步階段的企業(yè)來說未必是最好的選擇。懷卡托智能分析環(huán)境Weka是一個基于java、用于數(shù)據挖掘和知識發(fā)現(xiàn)的開源項目,被公認是數(shù)據挖掘開源項目中最著名的一個。以其技術門檻很低和強大的數(shù)據挖掘功能而著稱,可以完全勝任大中型施工企業(yè)的數(shù)據挖掘工作。對于廣大施工企業(yè)來說,在質量預測系統(tǒng)中集成Weka軟件,有以下幾個明顯的優(yōu)勢:
(1)免費。隨著建筑行業(yè)信息化的不斷深入,廣大施工企業(yè)都投入了大筆的資金進行企業(yè)信息化建設。這在大力推進本企業(yè)信息化的同時,也給企業(yè)或部門帶來或多或少的負擔。由于質量風險預測系統(tǒng)在國內施工行業(yè)的實施尚無先例,使用免費的數(shù)據挖掘軟件意為著可大比例減少對系統(tǒng)的投入,對該系統(tǒng)在行業(yè)內的快速推廣極為有利。
(2)功能強大。雖然Weka是免費軟件,但其強大的功能并不遜色于CLEMENTINE等商業(yè)數(shù)據挖掘軟件。Weka里有非常全面的機器學習算法,包括數(shù)據預處理、分類、回歸、聚類、關聯(lián)規(guī)則等。其圖形界面對不會寫程序的人來說非常方便,甚至提供了“KnowledgeFlow”功能,允許將多個步驟組成一個工作流。
(3)開源。為了能夠使不懂數(shù)據挖掘知識的人員能夠無障礙使用質量預測系統(tǒng),必須實現(xiàn)數(shù)據挖掘軟件和系統(tǒng)之間的無縫連接。Weka作為開源軟件,有著天然的兼容性和可拓展性。系統(tǒng)可較簡單地實現(xiàn)軟件的封裝,將復雜的數(shù)據挖掘工作后臺化,有助于沒有學過數(shù)據挖掘知識操作人員也能夠輕松地掌控系統(tǒng)。
4.1 預測原理
通過之前對影響質量檢驗結果因素的分析,可以建立較為直觀的數(shù)據關聯(lián)表格(如表1)。表格中的每一行代表一個樣本(WEKA中稱作實例),表格的最后一列是目標屬性(輸出變量),也就是預測希望得到的結果。除了最后一列以外的其他列都作為樣本的條件屬性(輸入變量)。對這些數(shù)據進行挖掘的目的就是根據一個樣本的一組特征(輸入變量),對目標進行預測,得到其目標屬性(輸出變量)。為了實現(xiàn)這一目的,需要有一個訓練數(shù)據集,這個數(shù)據集中每個實例的輸入和輸出都是已知的(如表1)。通過觀察訓練集中的實例,可以建立起預測的模型。有了這個模型,就可以新的輸出未知的實例進行預測了。衡量模型的好壞就在于預測的準確程度。
4.2 數(shù)據準備
根據預測的原理,在進行數(shù)據挖掘之前需要進行數(shù)據準備工作,這項工作可以在預測系統(tǒng)中的數(shù)據提取、處理環(huán)節(jié)來完成。根據上一章節(jié)的分析,施工質量受人、材、機和環(huán)境因素的影響,數(shù)據提取的目的就是將施工信息數(shù)據庫中影響質量的因素提取出來。例如,與人的因素相關的數(shù)據信息包括施工承包商、項目經理、技術負責人、質量工程師、施工隊伍等;與材料因素相關的數(shù)據信息包含材料供應商、材料工程師、材料等;與機械設備相關的數(shù)據信息有機械設備供應商、設備型號、年限以及安全設備工程師、運營情況等;與環(huán)境因素密切相關的數(shù)據信息是施工月份、地點、地形、氣候等。這些核心的數(shù)據信息被從企業(yè)數(shù)據庫中提取出來,形成風險決策系統(tǒng)專用數(shù)據庫。在此數(shù)據庫中,建立核心信息與質量檢查結果的關聯(lián),表1舉例說明部分信息和最終施工質量檢查結果的關系。
通過這樣的信息歸類,找出了影響質量檢驗結果的因素在數(shù)據庫中對應的信息。系統(tǒng)將企業(yè)數(shù)據庫中這些相關信息數(shù)據提取出來,就生成了專供預測使用的風險決策數(shù)據庫。隨后,在數(shù)據庫中將這些相關數(shù)據與質量的檢查結果相關聯(lián)。將質量驗收的最終結果(合格、不合格)作為目標屬性,其他屬性作為條件屬性。根據表的屬性生成決策樹,再根據決策樹和施工項目的詳細信息實現(xiàn)對工程質量的預測。
表1 施工質量檢查因素關聯(lián)表
4.3 預測模型和決策樹算法介紹
生成決策樹和預測模型是預測過程中最核心的步驟。決策樹(Decision Tree)又稱為判定樹,是一種具有兩個以上分支的流程圖狀樹結構。決策樹的每個內部結點就是一個決策屬性,代表訓練樣本集中一個非類別屬性的測試,且每個結點都與訓練樣本集的一個子集相關。每個分枝代表一個測試的輸出結果。每個葉子結點用一個類屬性來標記,代表某種條件下的一個多維數(shù)據集,也稱為一個類或類分布網[2]。
決策樹是一種直觀而高效的模型。最常用的分類算法有CLS,ID3,C4.5,CART等算法。決策樹算法一般包括兩個階段:構造樹階段和樹剪枝階段。在構造樹階段,通過對分類算法的遞歸調用,產生一棵完全生長的判定樹。其通用算法可描述如下[2];
MakeDecisionTree(Training Damset T)
If(T滿足某個中止條件)Then return;
For(i=1;i<=T中屬性的個數(shù);i++)
評估每個屬性關于給定的屬性選擇度量的分裂特征:
找出最佳的測試屬性并據此將T劃分為T1和T2;
MakeDecisionTree(T1);
MakeDecisionTree(T2);
End If
算法的終止條件一般有三種情況:
①T中的所有訓練樣本都屬于同一個類,則將此節(jié)點作為一個葉子節(jié)點,并以該類標記該節(jié)點:
②沒有屬性可以用做測試屬性;
③訓練樣本的數(shù)量太少(少于用戶提供的某個閾值)。
后兩種情況通常以訓練樣本中占優(yōu)勢的類標記該葉子節(jié)點。屬性選擇度量有信息增益(information gain)(如ID3,C4.5等算法),Gini指數(shù)(如SLIQ,SPRINT算法),G-統(tǒng)計等。
通常情況下,一棵能夠完美地分類訓練樣本集的決策樹并不是一棵最精確的決策樹,因為這樣的一棵樹對訓練樣本集過分敏感,而訓練樣本集無可避免的存在噪聲和孤立點。樹剪枝階段的目的就是要剪去過分適應訓練樣本集的枝條。較為常見的剪枝算法主要有悲觀錯誤率剪枝算法,最小描述長度(MDL)剪枝算法等。
本文采用c4.5算法,c4.5算法是對ID3算法的一種改進。能夠處理描述性屬性是連續(xù)型的情況。這種算法比較各個描述性屬性的Gain值的大小,而后通過選擇Gain值最大的屬性進行分類。如果存在連續(xù)型的描述性屬性,那么首先應該將這些連續(xù)型屬性的值分成不同的區(qū)間,即“離散化”。
把連續(xù)型屬性值“離散化”的具體方法是:
①尋找該連續(xù)型屬性的最小值,并把它賦值給Min,尋找該連續(xù)型屬性的最大值,并把它賦值給Max;
②設置區(qū)間【Min,Max】中的N個等分斷點Ai,具體的確立方法是:
③分別計算把【Min,Ai】和【Ai,Max】(i=l,2,…,N)作為區(qū)間值時的Gain(A)=I(p,n)-E(A)值,并進行比較;
④選取Gain值最大的Ak作為該連續(xù)型屬性的斷點,把屬性值設置為【Min,Ak】和【Ak,Max】兩個區(qū)間值。
圖2 施工質量風險預測決策樹
C4.5算法使用信息增益的概念來構造決策樹,其中每個分類的決定都與前面所選擇的目標分類有關[3-4]。
WEKA里的J48決策樹模型是對Quinlan的c4.5決策樹算法的實現(xiàn),并加入了比較好的剪枝過程,有非常好的精度[5]。因此,在Weka中選擇“J48”的算法和十字交叉驗證方法可生成決策樹和預測模型。質量風險預測決策樹生成的過程如下:
①系統(tǒng)從內部網各接觸點收集施工質量信息,對數(shù)據信息進行合并,形成結構統(tǒng)一的施工質量信息數(shù)據源。
②對數(shù)據源進行數(shù)據預處理,去掉與決策無關的屬性和高分支屬性、將數(shù)值型屬性進行概化以及處理含空缺值的屬性,形成決策樹的訓練集。
③對上一階段形成的訓練集進行訓練,對每個屬性的信息增益和獲取率進行計算,尋找獲取率最大的但同時要保證信息增益不低于所有屬性平均值的屬性。將這些屬性作為當前的主屬性節(jié)點,并且為其每一個可能的取值構建一個分支。對該子結點所包含的樣本子集遞歸地執(zhí)行上述過程。如果得到的子集中數(shù)據記錄在主屬性上取值都相同,或沒有屬性可繼續(xù)劃分使用,則可生成初始的決策樹。
④對上述的初始決策樹進行樹剪枝。一般采用后剪枝算法對初始決策樹進行剪枝,并在此過程中使用悲觀估計來補償樹生成時的樂觀偏差。
⑤提取決策樹的分類規(guī)則。對從根到樹葉的每一條路徑創(chuàng)建一個規(guī)則,形成規(guī)則集。
⑥當新項目產生時,根據施工項目的主要影響因素的信息,運用決策樹進行分析,預測質量檢查合格的概率,從而為項目管理決策提供輔助支持。
圖2為是weka分析后,產生的分類決策樹。每個節(jié)點代表一個表示一個判斷條件,根據對該條件的判斷結果分為若干子樹,每一個葉子節(jié)點表示分類結果。從決策樹根到決策樹葉子節(jié)點的任意一條路徑都對應著一個判斷過程,越是接近樹根的判斷條件其優(yōu)先級越高。
4.4 預測結果分析
模型生成后,可對其各項指標進行分析,當然考慮的最重要指標是模型預測的準確度。
圖3 施工質量風險預測決策模型參數(shù)
圖3 上方的方框中給出了模型的準確度,此模型僅有68%左右。對原屬性進行處理和修改算法的參數(shù)均可對模型的準確度進行調整,直到達到滿意的準確度為止。圖3下方的方框中該分析結果表示在決策樹的矩陣之中,原本質量檢查合格的樣本中,有16個被誤判為不合格;原本質量檢查不合格的樣本中,也有16個被誤判為合格。這是對十字交叉驗證方法準確性的補充說明。
4.5 質量風險預測
模型建立以后,可用來對質量風險進行分析和預測。搜集新建項目的相關數(shù)據導入數(shù)據庫,此時項目質量檢查的結果為未知條件,需對其進行預測(如表2所示)。當然不同模型有著不同的準確率。因此,適當調整模型各項參數(shù),達到令人滿意的準確度是提高風險預測效率的關鍵。
表2 施工質量風險預測表
本文結合施工質量管理理論與數(shù)據挖掘技術提出了施工質量風險預測系統(tǒng)構建的思路,并對Weka軟件與預測系統(tǒng)的集成的可行性做出論證。在文章的最后,對Weka的預測效果進行了分析。目前,國內的施工行業(yè)中,數(shù)據挖掘技術的應用還處于初級階段,基于挖掘技術的預測系統(tǒng)更是寥寥無幾。但相信隨著施工企業(yè)數(shù)據的積累和領導決策需求的不斷增長,數(shù)據挖掘技術勢必成為未來施工企業(yè)信息化的新熱點。
[1]Alaa Abdou,John Lewis,Sameera Alzarooni.Modelling Risl for Construction Cost Estimating and Forcasting.Building and Environment,2007.
[2]滕皓,趙國毅,韓保勝.改進決策樹的研究叨.濟南大學學報,2002,16(3):231-233.
[3]Quinlan,J.R.C4.5:Programs for Machine Learning[J].San Mateo,CA:Morgan IOufinann,1993.
[4]Ruggieri S.Efficient C4.5[J].IEEE Transactions on Knowledge and Data Engineering,2002,14(2):438-444.
[5]劉曉華.基于WEKA的數(shù)據挖掘技術在物流系統(tǒng)中的應用,科技情報開發(fā)與經濟,2007(22).
Construction Quality Risk Prediction System Based on Data Mining
Li Zhi1,Huang Rufu1,Huang He2
(1.Institution of Building Engineering Software,China Academy of Building Research,Beijing 100013,China;2.The Information and Control Engineering School,Xi'an University of Architecture and Technology,Xi'an 710055,China)
Quality management plays a significant role in construction enterprises management.How to use computer to complete quality management accurately becomes a new hotspot for construction infomationization.This paper analyzed internal and external factors affecting the quality of the project.Combining data mining theory,this paper proposes construction quality risk prediction system.Finally,the feasibility and predicted effect of Weka were described.
Quality management;Infomationization;Data mining;Risk prediction;Weka
TU71;TP274
A
1674-7461(2010)04-0099-06
“十一五”國家科技支撐計劃資助課題(2007BAF23B05)
李智(1981-),男,碩士。主要從事建筑行業(yè)信息化技術的研究與應用。E-mail:lizhi-fw@sohu.com