王偉 李均毅 郭威
為滿足供應商多元評估要求,完成海量評估數據的采集,通過使用采集、預處理分治和數據邊緣緩存機制,實現以最小資源代價完成供應商海量數據的采集,同時支持采集工具的動態(tài)管理,具備良好的擴展性,能夠適應供應商評估體系的動態(tài)變化
近年來,電力企業(yè)采購的物資類別和數量都呈現快速增長趨勢,與之相對應的產品質量、違約等問題也隨之呈現增長趨勢。電網作為保障社會經濟民生發(fā)展的重要基礎,一旦出現供應商履約和質量問題,將給工程建設進度和電網安全帶來極大影響。因此,對供應商績效評估指標體系優(yōu)化、評估方法的改進一直是研究的熱點。與此同時,為了更加準確地對供應商進行績效評估,實現評估的立體多元化,對供應商的數據采集提出了更高要求,數據采集從原有的物資供應過程數據采集變成全方位供應商數據的采集,包括但不限于供應商的財務狀況、風險評估、產品質量、運行效果、法律風險等,并且評估要求會隨著時間和時長環(huán)境的變化不斷新增,采集的數據類型和數據量級都出現了巨大的變化,傳統的數據采集模式已經無法滿足要求,對數據采集的時效性和數據量級都提出了更高的要求。
海量供應商評價數據所面臨的采集問題
采集來源和方式更加復雜。供應商現有的評估方式是根據采集物資供應過程中招標采購、質量監(jiān)督、交付過程、歷史違約等記錄,采集來源為電力公司內各個業(yè)務系統的數據。要想對供應商進行多元立體化的評估,數據采集的策略需由原來的選擇性采集變成全采集,采集內容也從單純的物資供應流程擴展到供應商的各個方面,不僅包含供應商的工商、股東及人員、投資等信息,還包括知識產權、司法風險、企業(yè)發(fā)展、經營狀態(tài)等所有產品質量相關信息;數據來源也從各個業(yè)務系統擴展到互聯網,不僅類型更加豐富,采集方式也涉及各項數據類型及平臺使用接口、文件、推送、爬取等方式。
采集數據量級增長且需要支持動態(tài)擴展。數據采集策略的轉變,導致采集過程中數據呈現量級增長,特別是針對反映產品實際質量的一些運行過程數據,不僅量大又實時性要求高,且如果丟失可能會影響最終評估精度。同時對供應商多元評估的要求,使得評估體系處于動態(tài)變化的過程,對應的采集內容也是一個動態(tài)變化的過程,所以采集的吞吐能力需要支持動態(tài)擴展。
評估分析數據量化并做好清洗和預處理工作??冃гu價的過程中,基于多角度的評價要求,采集的供應商數據會被反復使用,例如使用TOPSIS進行分析,所有代入的數據都是經過規(guī)則量化的數值數據。而實際的數據采集過程中,數據來源廣泛且經常會面臨多源異構數據結構、數據價值密度低等問題,數據無法被后續(xù)評估直接使用,所以采集的數據在進行評估計算分析之前,需要提前做好數據采集后的清洗和預處理工作,增加供應商評估分析的效率。
多元采集系統的設計架構與思路
綜合分析當前供應商多元評價采集系統的要求,并考慮到在實際的使用過程中,供應商評估是一個后置過程,沒有實時性要求。所以整個采集過程對數據接收有實時性要求,但是對于數據的預處理沒有實時性要求。為了以最小資源代價完成海量數據的采集,采集系統設計應遵循可擴展的采集框架、采集和預處理分治、匯集處理邊緣緩存的思路。
可擴展的采集框架就是對每個采集數據來源設定采集和預處理工具,工具的生命周期和運行管理由系統統一管理,同時采集系統建立統一規(guī)則,支持采集和預處理工具動態(tài)擴展新增和修改。采集和預處理分治是基于數據的采集需要實時處理,但是對預處理沒有實時性要求,所以為提高采集的吞吐量,從整體上把數據的處理分成兩個階段,匯集處理階段和預處理階段。匯集處理階段只需把采集的數據存入臨時數據庫,業(yè)務邏輯簡單,便于分布式設計和部署;預處理則負責后續(xù)的數據的整理、清洗和正式存儲過程。匯集處理邊緣緩存是由于匯集處理階段業(yè)務邏輯統一,只需要在收到數據后存入臨時數據庫,而整個匯集處理過程耗時最長的為存入臨時數據庫,為提高吞吐量,設計邊緣緩存機制,對采集數據存入緩存,延遲處理以提高采集速率,用內存空間換取處理時間。其架構設計圖如圖1所示。
數據的采集過程為確定需要采集的數據來源后,定制開發(fā)采集器和預處理工具,采集器采集完數據后,把采集的數據經過負載均衡分給各個匯集中心,匯集中心負責數據存入臨時數據庫,預處理工具從臨時數據庫拿出對應的數據源的數據,經過清洗和預處理后存入正式數據庫。整個過程中,匯集中心以負載均衡結合分布式的方式運行,負責承載整個數據采集壓力,采集器和預處理器則只需要專注業(yè)務邏輯即可,具體采集過程如圖2所示:
在采集過程中,采集器把采集的數據通過負載均衡流轉到匯集中心,匯集中心作為采集數據吞吐的核心組件,對數據處理能力將影響到整個系統處理能力。因為匯集中心整個處理過程中以存儲這個操作最為耗時,所以為提高吞吐量,需要建立分布式模型、異步消息隊列和批量處理相結合方式,完成采集數據快速入庫。其中,匯集中心處理流程如圖3所示。
此外,系統對采集器和預處理工具進行統一管理,不同的數據來源采集使用一組采集器和預處理工具進行處理,采集器和預處理工具的運行方式由平臺指定,具體的運行方式有單次運行、定時運行和連續(xù)運行。其中,單次運行主要針對導入類型的數據來源;定時運行主要針對數據來源定時更新的情況,一般約定與數據來源更新的時間一致,以每天、每周、每月或每年運行;連續(xù)運行主要針對設備運行過程中各類實時采集的運行情況。平臺負責按照配置執(zhí)行各項工具的運行。
采集器的主要工作是作為數據采集的適配器,采集數據并轉發(fā)到匯集中心,根據采集數據來源要求,使用主動拉取或訂閱等方式。采集器需要根據數據來源要求具體開發(fā),完成后不需要做過多處理,指定臨時表后直接按照通用方式轉發(fā)給匯集中心即可。
預處理工具的設計需要與采集器一一對應。預處理工具主要完成三項工作,一是對采集器存到臨時表的數據進行清洗和整理,二是把處理后的結構化數據存儲到正式數據庫,三是清除已處理的臨時數據。其中預處理工具在處理過程中,為減少數據庫操作次數,對臨時數據的獲取和清除均采用批量模式,提高處理效率。
供應商多元立體化評價是電網物資供應快速發(fā)展過程的必然要求,為了能夠完成供應商的整體畫像,供應商評估數據采集的方式由原來的定向采集轉變?yōu)槿杉姆绞?,采集維度從物資供應維度擴展到供應商的各個方面,相應的供應商評估數據的采集面更加廣泛,采集數據總量呈現量級增長。因此通過分析數據來源和采集要求,設計電網海量供應商評估數據采集系統,在整體架構上支持采集工具的發(fā)布和管理,具有良好的擴展性,運用異步分治和邊緣緩存的方法,以最小的資源代價解決數據采集問題,為后續(xù)供應商的多元評估提供了有效的數據支撐。
(作者單位:國網浙江省電力有限公司物資分公司。本文系浙江省基于人工智能技術的供應商全息多元評價體系解決方案研究項目成果,項目編號B311WF221002)