常興智
【摘要】? ? 隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,物聯(lián)網(wǎng)水表不僅要滿足硬件技術(shù)層面上的更新迭代,其上層應(yīng)用系統(tǒng)也需要在水表安裝使用過程中進(jìn)行更多維度的數(shù)據(jù)采集和運(yùn)維,以此滿足目標(biāo)用戶的各類需求。用戶畫像是建立在一系列屬性數(shù)據(jù)之上的用戶模型,基于此模型,我們可以將物聯(lián)網(wǎng)水表及其關(guān)聯(lián)的用戶進(jìn)行表屬性和用戶用水行為的歸檔分析,將得到的用戶畫像標(biāo)簽體系融入到智慧水務(wù)平臺中,從而使系統(tǒng)智能化,數(shù)據(jù)分析具象化。
【關(guān)鍵詞】? ? 智慧水務(wù)? ? 物聯(lián)網(wǎng)水表? ? 用戶畫像
引言
用戶畫像作為當(dāng)今互聯(lián)網(wǎng)行業(yè)的熱點概念,可以基于大數(shù)據(jù)技術(shù)來分析用戶的行為特征,為企業(yè)帶來可追溯,可分析的用戶行為數(shù)據(jù)。用戶畫像是對用戶各類信息進(jìn)行具象化和抽象化得出的一個特征數(shù)據(jù)集合,現(xiàn)有的用戶畫像理念及應(yīng)用系統(tǒng)主要從用戶的兩個屬性角度進(jìn)行分析、刻畫,分別為用戶的自然屬性和行為屬性。
用戶的自然屬性指的是用戶的基本信息研究[1]。對于智慧水務(wù)平臺來說,用戶畫像的建立需要將用戶自身的基本信息結(jié)合其所綁定的水表基本屬性統(tǒng)一構(gòu)建為該用戶的自然屬性。
用戶的行為屬性指的是現(xiàn)有的系統(tǒng)及數(shù)據(jù)平臺利用各類數(shù)據(jù)分析及挖掘技術(shù)對用戶行為進(jìn)行深入研究。對于智慧水務(wù)平臺來講,可以將用戶的用水習(xí)慣、繳費(fèi)情況和用戶對應(yīng)水表的采集信息、計量信息及狀態(tài)信息等進(jìn)行標(biāo)簽化處理和個性化分析,從而得出該水表用戶的水務(wù)用戶畫像。
在智慧水務(wù)平臺中,我們可以根據(jù)以上兩種用戶及其映射水表的自然屬性和行為屬性針對性進(jìn)行數(shù)據(jù)挖掘,從而對用戶從多維度進(jìn)行特征屬性的描述,并對這些特征信息進(jìn)行統(tǒng)一分析、統(tǒng)計,最終使得每個水務(wù)用戶能夠具象化,對象化,便于后續(xù)工作的針對性開展。
一、水務(wù)用戶畫像分析
傳統(tǒng)的水務(wù)采集統(tǒng)計平臺,主要是針對采集信息進(jìn)行報表統(tǒng)計、查詢、分析,用戶和水表的檔案信息的管理等?;诖祟愃畡?wù)數(shù)據(jù)采集統(tǒng)計系統(tǒng),隨著系統(tǒng)版本的不斷迭代、運(yùn)行時間的日積月累,可以收集到大量的用戶用水信息、水表的計量信息及滿足用戶不同需求的其他統(tǒng)計類信息。上述這些收集到的信息在智慧水務(wù)平臺的建立過程中,我們稱之為元數(shù)據(jù)。
在元數(shù)據(jù)基礎(chǔ)上,通過數(shù)據(jù)清洗,特征抽取及分析,可以將對用戶進(jìn)行用戶畫像的建模。
1.1 用戶標(biāo)簽化分類
用戶畫像建??梢岳斫鉃閷⒂脩魯?shù)據(jù)進(jìn)行標(biāo)簽化處理,針對不同角度可以將其分為三類:統(tǒng)計類標(biāo)簽;規(guī)則類標(biāo)簽;數(shù)據(jù)挖掘類標(biāo)簽。在智慧水務(wù)平臺中,將上述三類標(biāo)簽可結(jié)合水務(wù)數(shù)據(jù)定義如下:
(1)統(tǒng)計類標(biāo)簽:對用單個用戶,可以統(tǒng)計用戶自然屬性和表基本屬性。用戶自然屬性包括用戶姓名、地址、近一個月用水量、階梯用水費(fèi)用等;表基本屬性包括表號、表類型、表信號、電池電壓、上報周期、閥門狀態(tài)等;
(2)規(guī)則類標(biāo)簽:規(guī)則類標(biāo)簽基于水務(wù)運(yùn)維人員對用戶用水行為、水表類行對應(yīng)的狀態(tài)感知信息、計量信息及事件信息等確定的篩選規(guī)則生成的各類標(biāo)簽。例如,在智慧水務(wù)平臺上對如何定義“大水量用戶”時,可以計算該用戶在某月時間段內(nèi)是否日均用量大于所在區(qū)域的日均用量,小于水表口徑對應(yīng)的理論用量。
(3)數(shù)據(jù)挖掘類標(biāo)簽:此類標(biāo)簽多用于統(tǒng)計宏觀數(shù)據(jù)的變化趨勢,對用戶進(jìn)行聚類分析,一般在刻畫用戶畫像過程中處于系統(tǒng)運(yùn)行穩(wěn)定后,有大量累計數(shù)據(jù)的情況下,收集各類數(shù)據(jù)利用機(jī)器學(xué)習(xí)等方法進(jìn)行數(shù)據(jù)挖掘。例如,水務(wù)用戶所用表計是否屬于潛在的異常表、用戶用水是否存在漏水等現(xiàn)象。
1.2 系統(tǒng)架構(gòu)模塊
在搭建智慧水務(wù)用戶畫像系統(tǒng)過程中,總體大致需要考慮以下幾個模塊的建設(shè),如圖1所示。
(1)水務(wù)用戶畫像:對于智慧水務(wù)平臺來說,首先我們需要知曉業(yè)務(wù)流程,明確水務(wù)用戶畫像包含的業(yè)務(wù)模塊、數(shù)據(jù)表的設(shè)計、特征數(shù)據(jù)的抽取來源等等。
(2)數(shù)據(jù)指標(biāo)體系:在智慧水務(wù)平臺中,可以著重于對用戶的自然屬性、行為屬性和表的狀態(tài)屬性、異常事件上報等信息進(jìn)行量化統(tǒng)計。
(3)標(biāo)簽數(shù)據(jù)存儲:標(biāo)簽存儲在智慧水務(wù)平臺中至關(guān)重要。系統(tǒng)可以利用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL、數(shù)據(jù)倉庫Hive及搜索引擎Elasticsearch進(jìn)行分類存儲。如將檔案數(shù)據(jù)、管理類數(shù)據(jù)等數(shù)據(jù)量較為穩(wěn)定的元數(shù)據(jù)存儲到關(guān)系型數(shù)據(jù)庫中,便于多表聯(lián)查;將每日、每月上報的計量信息、狀態(tài)信息等數(shù)據(jù)量較大、增長率高的時序信息存儲到Elasticsearch中,可使用Graph QL等技術(shù)進(jìn)行多條件匹配查詢,使得查詢效率更高,查詢維度更廣等。
(4)標(biāo)簽數(shù)據(jù)開發(fā):通過對用戶標(biāo)簽化分類,系統(tǒng)中可將統(tǒng)計類、規(guī)則類、數(shù)據(jù)挖掘類標(biāo)簽通過動態(tài)模型匹配及業(yè)務(wù)系統(tǒng)的數(shù)據(jù)抽取進(jìn)行開發(fā),得出多個用戶特征數(shù)據(jù)。
(5)水務(wù)數(shù)據(jù)對象化:通過上述幾個步驟的用戶標(biāo)簽數(shù)據(jù)存儲、開發(fā),可以使用多種ORM關(guān)系映射工具對水務(wù)用戶畫像數(shù)據(jù)進(jìn)行對象化處理,可針對性進(jìn)行特征數(shù)據(jù)的標(biāo)簽查詢、管理,利用多標(biāo)簽進(jìn)行數(shù)據(jù)的多維度整合。
(6)用戶畫像應(yīng)用:水務(wù)用戶畫像應(yīng)用主要可用于水表的狀態(tài)判斷、異常計量的提前預(yù)警、用戶用水行為的分析等等。智能水表在完成安裝后,日常運(yùn)維必不可少,如何提前發(fā)現(xiàn)問題,解決問題對于運(yùn)維人員意義重大。使用用戶畫像,可從不同維度對用戶進(jìn)行聚類分析,使得運(yùn)維決策有據(jù)可依。
二、水務(wù)用戶畫像的建立
在建立智慧水務(wù)用戶畫像時,考慮到現(xiàn)有的智能水表主要通訊方式為LoRa自組網(wǎng)和NB-IoT運(yùn)營商網(wǎng)絡(luò)通信,針對這兩種通訊方式結(jié)合傳統(tǒng)的水務(wù)信息采集平臺來說,水務(wù)數(shù)據(jù)對于實時分析計算的要求不算特別強(qiáng)烈。故在建立水務(wù)用戶畫像的過程中,離線計算、數(shù)據(jù)批處理占據(jù)了智慧水務(wù)平臺的大部分計算業(yè)務(wù)。與此同時,隨著智能水表逐步推廣,智能水表數(shù)量越來越多,通訊平臺上報數(shù)據(jù)量也日益增大,所以需要對海量的時序信息進(jìn)行分類存儲,定時清洗,針對性抽取,從而滿足業(yè)務(wù)系統(tǒng)中的各類客戶需求、運(yùn)維需求等功能。
在建立水務(wù)用戶畫像的過程中,需要自下向上逐步進(jìn)行系統(tǒng)業(yè)務(wù)的開展,通過系統(tǒng)架構(gòu)模塊的確定,逐一進(jìn)行模塊化建設(shè),最終實現(xiàn)平臺化建設(shè)。下面將逐一進(jìn)行系統(tǒng)的建立過程。
2.1 水務(wù)數(shù)據(jù)指標(biāo)
水務(wù)數(shù)據(jù)指標(biāo)是建立水務(wù)用戶畫像的第一步。水務(wù)數(shù)據(jù)指標(biāo)的建立主要結(jié)合運(yùn)維人員的日常工作中涉及的各類用戶信息、表信息、日常上報信息等。
數(shù)據(jù)指標(biāo)的建立以用戶為中心,通過用戶信息和表信息兩個維度進(jìn)行標(biāo)簽化處理。按照上述章節(jié)分別建立統(tǒng)計類標(biāo)簽、規(guī)則類標(biāo)簽和數(shù)據(jù)挖掘類標(biāo)簽。在智慧水務(wù)平臺中,可將各個標(biāo)簽類型進(jìn)行組合處理,對水務(wù)用戶的行為屬性、用戶自然屬性、異常狀態(tài)等信息進(jìn)行描述。
(1)用戶自然屬性的定義為:水務(wù)用戶的開戶日期、用戶地址、用戶電話、用戶類型、歷史繳費(fèi)金額、歷史欠費(fèi)情況、表號、表類型、表廠家、表信號強(qiáng)度、表閥門狀態(tài)等信息。針對這些信息,可進(jìn)行標(biāo)簽化分類,按照統(tǒng)計類標(biāo)簽、規(guī)則類標(biāo)簽、算法類標(biāo)簽進(jìn)行歸類統(tǒng)計。如開戶日期、用戶地址、電話、用戶類型、歷史繳費(fèi)金額為統(tǒng)計類標(biāo)簽;重要客戶、大用量客戶、正常用量客戶和小用量客戶為規(guī)則類標(biāo)簽;常住用戶、非常住用戶等屬于算法類標(biāo)簽。
在對標(biāo)簽進(jìn)行歸類的過程中,針對同一類型,還需要進(jìn)行標(biāo)簽的關(guān)系判斷、數(shù)值判斷。如用戶身份類別中,常住用戶和非常住用戶為互斥類型;購水價格偏好類型中,各個層次互斥遞增。統(tǒng)計好的標(biāo)簽后續(xù)結(jié)合標(biāo)簽數(shù)據(jù)開發(fā)可以進(jìn)行更深入的研究。
(2)用戶行為屬性:用戶行為屬性是在業(yè)務(wù)系統(tǒng)運(yùn)行過程中,針對用戶日常的繳費(fèi)數(shù)據(jù)、用水?dāng)?shù)據(jù)等進(jìn)行的一系列數(shù)據(jù)挖掘類的屬性標(biāo)簽分析,包括近XX日公眾號訪問次數(shù)、最近一次公眾號訪問日期、高頻用戶、中頻用戶、低頻用戶、大用量用戶、中等用量用戶、小用量用戶等行為標(biāo)簽,得出表1。
(3)異常狀態(tài)屬性:分析歸納水表反向用量、關(guān)閥走量、超大用量、日增量大于理論值、近XX日上報失敗次數(shù)、近XX日開關(guān)閥次數(shù)、近XX日信號分析、漏水檢測、強(qiáng)磁干擾等異常標(biāo)簽,得出表2。
針對上述三個維度對用戶信息進(jìn)行分析,可以依據(jù)每個維度中標(biāo)簽種類、標(biāo)簽指標(biāo)在智慧水務(wù)系統(tǒng)中統(tǒng)一命名,作為元數(shù)據(jù)在數(shù)據(jù)庫中集中維護(hù)管理,便于后續(xù)的數(shù)據(jù)開發(fā)有序進(jìn)行。
2.2 標(biāo)簽數(shù)據(jù)存儲
在智慧水務(wù)用戶畫像的平臺搭建過程中,如何將不同類型的標(biāo)簽數(shù)據(jù)、檔案數(shù)據(jù)、流數(shù)據(jù)等數(shù)據(jù)類型分門別類地合理化存儲影響著整個平臺系統(tǒng)的性能、穩(wěn)定性、可拓展性和時效性。針對不同的存儲需求,系統(tǒng)在規(guī)劃過程中就應(yīng)當(dāng)提前分析、合理存儲。
目前針對各種數(shù)據(jù)類型可對存儲進(jìn)行適當(dāng)選型。Hive、MySQL和Elasticsearch作為三種不同類型的存儲,合理調(diào)配能夠使復(fù)雜的業(yè)務(wù)系統(tǒng)數(shù)據(jù)邏輯清晰化,數(shù)據(jù)I/O操作高效有序化。
Hive作為數(shù)據(jù)倉庫管理工具,基于HDFS進(jìn)行存儲查詢。在水務(wù)用戶畫像的建立過程中,具體面向用戶屬性、用戶行為和異常狀態(tài)進(jìn)行三個維度的事務(wù)處理。通過從傳統(tǒng)的業(yè)務(wù)系統(tǒng)中分時采用數(shù)據(jù)抽取、清洗和轉(zhuǎn)義,將三個維度所需要的有效數(shù)據(jù)存儲到數(shù)據(jù)倉庫中。隨著時間線的推移,用戶不同維度的數(shù)據(jù)也會越來越豐富,越來越具體,數(shù)據(jù)倉庫將這些帶有時間戳的數(shù)據(jù)分析并記錄,為水務(wù)用戶畫像的建模提供特征數(shù)據(jù)的支撐。
MySQL作為關(guān)系型數(shù)據(jù)庫,可以映射聯(lián)查水務(wù)用戶畫像三個維度屬性的各類數(shù)據(jù),主要存儲水務(wù)用戶畫像標(biāo)簽化后的基礎(chǔ)元數(shù)據(jù)及ETL處理后的數(shù)據(jù)分析集合。元數(shù)據(jù)管理過程中,將2.1中三個維度的標(biāo)簽主題、名稱、一級分類及自定義的互斥二級分類進(jìn)行統(tǒng)一管理,便于在業(yè)務(wù)系統(tǒng)中結(jié)合其他數(shù)據(jù)存儲進(jìn)行實時數(shù)據(jù)和歷史數(shù)據(jù)的填充。
Elasticsearch存儲基于開源的搜索引擎,可以提供分布式部署、文檔內(nèi)容分析、全文檢索等功能。同時由于其在多條件查詢效率上有很大優(yōu)勢,因此對于水務(wù)用戶的實時用水?dāng)?shù)據(jù)、行為數(shù)據(jù)分析有很大幫助。在水務(wù)用戶畫像的建立過程中,可將水務(wù)用戶數(shù)據(jù)的多標(biāo)簽匹配分析、透視分析、特征查詢等數(shù)據(jù)挖掘方式搭建在Elasticsearch之上。
2.3 標(biāo)簽數(shù)據(jù)開發(fā)
在水務(wù)用戶畫像的建立過程中,針對LoRa和NB-IoT兩種通訊方式、通訊功耗、通訊質(zhì)量進(jìn)行綜合分析,可得出智慧水務(wù)平臺對離線計算要求較高,而對實時計算需求較低。在上述三個維度的標(biāo)簽體系進(jìn)行分類和合理化存儲后,對這些數(shù)據(jù)進(jìn)行量化計算、可視化展示是整個系統(tǒng)研發(fā)的重點內(nèi)容。
標(biāo)簽數(shù)據(jù)的開發(fā)主要依據(jù)標(biāo)簽數(shù)據(jù)的分類和標(biāo)簽數(shù)據(jù)的計算特性開展。
(1)統(tǒng)計類標(biāo)簽:在智慧水務(wù)系統(tǒng)中,指利用統(tǒng)計工具類對水務(wù)用戶的各項描述信息進(jìn)行統(tǒng)計。例如,用戶的開戶日期、用戶地址、近30日繳費(fèi)次數(shù),近半年繳費(fèi)金額等信息。
以近30日繳費(fèi)次數(shù)為例,該信息一級歸類標(biāo)簽為費(fèi)用統(tǒng)計。對該信息進(jìn)行細(xì)化描述,可對應(yīng)數(shù)據(jù)庫信息包含繳費(fèi)時間、繳費(fèi)金額、繳費(fèi)方式三個二級子標(biāo)簽。同時在業(yè)務(wù)系統(tǒng)中,還需要將這些狀態(tài)進(jìn)行記錄更新,從數(shù)據(jù)倉庫中定時抽取元數(shù)據(jù)進(jìn)行分析,將用戶的繳費(fèi)信息保持在最新狀態(tài)。
(2)規(guī)則類標(biāo)簽:在水務(wù)系統(tǒng)日常運(yùn)營過程中,運(yùn)維人員會針對各項數(shù)據(jù)進(jìn)行量化評估,根據(jù)數(shù)據(jù)評估指標(biāo)、歷史經(jīng)驗、數(shù)據(jù)標(biāo)準(zhǔn)等信息進(jìn)行規(guī)則類標(biāo)簽的分析。例如對用戶價值進(jìn)行標(biāo)簽化處理的過程中,需要根據(jù)用戶用水性質(zhì)、水表類型、繳費(fèi)頻率等來綜合進(jìn)行評估,具體可參考表3。
(3)數(shù)據(jù)挖掘類標(biāo)簽:在水務(wù)用戶開戶使用后,經(jīng)過一段時間的數(shù)據(jù)累計,可以通過對微觀用戶數(shù)據(jù)和宏觀區(qū)域數(shù)據(jù)進(jìn)行一定的數(shù)據(jù)挖掘,得到運(yùn)維人員、水務(wù)公司領(lǐng)導(dǎo)等人關(guān)注的一些數(shù)據(jù)領(lǐng)域。如對繳費(fèi)用戶的聚類統(tǒng)計,異常表的預(yù)測分析等等。
例如,在對用戶累計用量及用量趨勢進(jìn)行統(tǒng)計分析過程中,可以用到K-Means聚類算法。對于給定的水表用戶樣本集,按照樣本之間的距離大小,將樣本集劃分為K個簇。讓簇內(nèi)的點盡量緊密的連在一起,而讓簇間的距離盡量的大[2]。通過對用戶多次回歸聚類,最終區(qū)分用戶簇,并通過數(shù)據(jù)特征描述每個用戶簇的特點。
三、水務(wù)用戶畫像產(chǎn)品化
通過對上述流程的建設(shè),最終可以使水務(wù)用戶畫像的數(shù)據(jù)結(jié)構(gòu)、存儲結(jié)構(gòu)、標(biāo)簽分類等數(shù)據(jù)支撐和理論支撐能夠落地。而基于這些基礎(chǔ)業(yè)務(wù)之上,在應(yīng)用層,可以為水務(wù)公司、水表用戶帶來如下業(yè)務(wù)。
3.1 運(yùn)維數(shù)據(jù)即時查詢
面向運(yùn)維人員,可根據(jù)三個維度的用戶標(biāo)簽體系進(jìn)行運(yùn)維數(shù)據(jù)的組合查詢??梢跃嗊\(yùn)維人員的分析決策過程,及時發(fā)現(xiàn)問題,解決問題。
目前水表廠家生產(chǎn)的智能水表類型各式各樣,從通訊方式區(qū)分,有:LoRa水表,NB-IoT水表;從計量方式區(qū)分,有:超聲波水表、無磁水表、干式光電直讀水表、脈沖采樣水表等;從用水性質(zhì)來說,有:工業(yè)用水、商業(yè)用水、民用水;從水表協(xié)議來說,目前每個廠家協(xié)議均有不同,需要兼容。
面對如此紛繁復(fù)雜的表類型,不僅水務(wù)平臺需要統(tǒng)一進(jìn)行所有特性的兼容,而且還要針對每種表的特性進(jìn)行針對性的異常分析,這無疑給系統(tǒng)開發(fā)和運(yùn)維帶來很高的難度。對于上述系統(tǒng)同時兼容不同特性的水表,每個特性都需要著重關(guān)注該特性的關(guān)注點,開發(fā)人員在開發(fā)過程中要從不同維度進(jìn)行考量。
在建立用戶畫像體系的過程中,面對上述水表通訊、計量和用水性質(zhì)問題,完全可以將各類問題進(jìn)行用戶畫像標(biāo)簽化,通過Hive數(shù)據(jù)倉庫工具將相關(guān)數(shù)據(jù)提取出來,以元數(shù)據(jù)的形式存儲與MySQL中,然后使用Elasticsearch進(jìn)行標(biāo)簽化處理,用面向?qū)ο蟮乃季S方式將用戶表計運(yùn)行情況進(jìn)行具象化描述,從多個維度進(jìn)行標(biāo)簽數(shù)據(jù)的運(yùn)維分析?;谟脩舢嬒竦倪\(yùn)維能夠自動匹配,直觀的描述出每個用戶綁定的表計具體存在哪些問題,讓運(yùn)維更加智能,問題定位更加精準(zhǔn)。
3.2 業(yè)務(wù)大數(shù)據(jù)統(tǒng)計分析
面向水務(wù)公司營業(yè)人員、領(lǐng)導(dǎo)等。不僅能提供傳統(tǒng)意義上的同比、環(huán)比數(shù)據(jù),還能即使提供用戶的用水行為的定制化分析、繳費(fèi)行為的量化評估,將用戶價值、重要度進(jìn)行評估。
在上述章節(jié)的開發(fā)中,已經(jīng)涉及到對用戶的價值如何進(jìn)行判斷,對用戶價值標(biāo)簽化的處理等。通過諸如此類的價值模型匹配,可以為決策人員帶來業(yè)務(wù)決策上的數(shù)據(jù)支撐,便于水務(wù)業(yè)務(wù)向更深層次拓展。
四、結(jié)束語
通過在智慧水務(wù)平臺上搭建用戶畫像,運(yùn)維人員、業(yè)務(wù)人員和決策人員能夠從多個維度直觀的觀察水務(wù)平臺中用戶的各類信息、水表的各種數(shù)據(jù)。智慧水務(wù)平臺在運(yùn)行過程中,隨著時間的推移、用戶規(guī)模的增加,其數(shù)據(jù)不僅數(shù)量上越來越龐大,種類上也越來越豐富,越來越有價值。用戶畫像的建立,不僅能使得從這些龐大的數(shù)據(jù)中抽取水務(wù)管理、決策人員關(guān)注的信息變得高效快捷,也能引導(dǎo)客戶為每個水務(wù)用戶提供專業(yè)的運(yùn)維服務(wù)和個性化的業(yè)務(wù)推廣,使智慧水務(wù)平臺實現(xiàn)真正意義上的智能化、高效化。
參? 考? 文? 獻(xiàn)
[1]李映坤.大數(shù)據(jù)背景下用戶畫像的統(tǒng)計方法實踐研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué).2016年
[2]趙莉,候興哲,胡君,傅宏,孫洪亮.基于改進(jìn)k-means算法的海量智能用電數(shù)據(jù)分析[J].電網(wǎng)技術(shù),2014,38(10):2715-2720.