當(dāng)前,國(guó)內(nèi)的工業(yè)生產(chǎn)活動(dòng)正在積累著越來(lái)越多的數(shù)據(jù),尤其是現(xiàn)代化的工業(yè)生產(chǎn)線上的傳感器與監(jiān)測(cè)設(shè)備,它們能夠?qū)ιa(chǎn)過(guò)程和運(yùn)行參數(shù)進(jìn)行高效的監(jiān)控和記錄。時(shí)間序列數(shù)據(jù)作為最基本且普遍的數(shù)據(jù)形式,對(duì)推進(jìn)工業(yè)大數(shù)據(jù)的分析研究發(fā)揮著至關(guān)重要的作用。為了實(shí)現(xiàn)工業(yè)大數(shù)據(jù)分析的有效性,建模過(guò)程必須依托于高質(zhì)量的數(shù)據(jù)。但是,工業(yè)時(shí)間序列數(shù)據(jù)的復(fù)雜性,例如它們的廣泛來(lái)源、龐大的數(shù)據(jù)量、來(lái)源的多樣性、持續(xù)的采樣特征、低價(jià)值密度以及高度動(dòng)態(tài)性,使得數(shù)據(jù)質(zhì)量問(wèn)題變得普遍。
劣質(zhì)的數(shù)據(jù)可能導(dǎo)致分析不精確和決策錯(cuò)誤,典型問(wèn)題包括數(shù)據(jù)丟失、格式不一致、重復(fù)數(shù)據(jù)、異常數(shù)據(jù)以及業(yè)務(wù)規(guī)則違規(guī)等,數(shù)據(jù)質(zhì)量管理變得越來(lái)越重要。對(duì)數(shù)據(jù)進(jìn)行異常檢測(cè)、故障監(jiān)測(cè)和設(shè)備狀態(tài)分析對(duì)保障生產(chǎn)的高效和智能化制造的安全至關(guān)重要,并構(gòu)成了數(shù)據(jù)質(zhì)量管理的一個(gè)重要研究方向。如果無(wú)法及時(shí)識(shí)別和處理工業(yè)生產(chǎn)中的異常、故障或危機(jī)情況,可能對(duì)生產(chǎn)安全帶來(lái)威脅,為工廠的智能制造系統(tǒng)帶來(lái)無(wú)法預(yù)計(jì)的負(fù)面影響,并可能造成重大的經(jīng)濟(jì)損失。因此,創(chuàng)建一個(gè)能對(duì)工業(yè)時(shí)間序列數(shù)據(jù)的質(zhì)量進(jìn)行智能分析和評(píng)估的系統(tǒng)顯得尤為重要。
本文針對(duì)工業(yè)時(shí)序數(shù)據(jù)質(zhì)量問(wèn)題展開(kāi)分析和評(píng)估,提出了一種新的數(shù)據(jù)質(zhì)量量化評(píng)估模型。與現(xiàn)有的數(shù)據(jù)質(zhì)量評(píng)估模型相比,本文提出的模型具有更廣的應(yīng)用范圍,使用更加靈活,本文圍繞該模型設(shè)計(jì)了時(shí)序數(shù)據(jù)分析系統(tǒng),以系統(tǒng)化地評(píng)估和管理工業(yè)時(shí)間序列數(shù)據(jù)的質(zhì)量,提升工業(yè)生產(chǎn)的效率和質(zhì)量。
考慮到數(shù)據(jù)質(zhì)量的核心重要性及其在各個(gè)領(lǐng)域決策過(guò)程中的關(guān)鍵作用,經(jīng)過(guò)對(duì)數(shù)據(jù)質(zhì)量屬性的深入分析,本文提出了一種時(shí)序滑動(dòng)窗口偏差計(jì)算模型(Time-series Sliding Window & Deviation, TSWD)。該模型旨在對(duì)數(shù)據(jù)質(zhì)量的四個(gè)核心維度——準(zhǔn)確性、一致性、完整性、和時(shí)效性進(jìn)行量化評(píng)估。
(一) 數(shù)據(jù)質(zhì)量核心維度
1.準(zhǔn)確性(Accuracy)
準(zhǔn)確性是指數(shù)據(jù)正確反映現(xiàn)實(shí)世界或數(shù)據(jù)源的程度。一個(gè)數(shù)據(jù)元素的準(zhǔn)確性高意味著它與被描述的實(shí)體或事件真實(shí)情況之間的誤差很小。例如,一個(gè)客戶的地址記錄如果與其實(shí)際居住地址完全一致,則認(rèn)為這個(gè)數(shù)據(jù)具有高準(zhǔn)確性。準(zhǔn)確性的高低直接影響數(shù)據(jù)分析結(jié)果的可靠性和決策的有效性。
2.一致性(Consistency)
一致性指的是數(shù)據(jù)在不同數(shù)據(jù)集或系統(tǒng)中保持一致,無(wú)矛盾的特性。例如,同一客戶的信息在公司的不同部門或不同的IT系統(tǒng)中應(yīng)該是相同的,不應(yīng)該因?yàn)橛涗浀姆绞讲煌兴町?。?shù)據(jù)的一致性保證了跨系統(tǒng)和部門的數(shù)據(jù)整合和數(shù)據(jù)遷移的可靠性。
3.完整性(Completeness)
完整性涉及數(shù)據(jù)的全面性和完備性。一個(gè)數(shù)據(jù)集的完整性高意味著所需的所有數(shù)據(jù)字段都已被收集并且填充。數(shù)據(jù)記錄缺少必要字段的情況會(huì)導(dǎo)致數(shù)據(jù)完整性低,這可能會(huì)影響到數(shù)據(jù)分析的深度和準(zhǔn)確性,例如,缺少客戶的聯(lián)系信息可能導(dǎo)致市場(chǎng)營(yíng)銷活動(dòng)的效果不佳。
4. 時(shí)效性(Timeliness)
時(shí)效性是指數(shù)據(jù)在需要時(shí)可用的程度以及數(shù)據(jù)反映最新信息的能力。及時(shí)更新的數(shù)據(jù)可以更準(zhǔn)確地反映當(dāng)前的業(yè)務(wù)狀態(tài)或市場(chǎng)條件,對(duì)于做出快速響應(yīng)和決策尤為重要。例如,在庫(kù)存管理中,及時(shí)的庫(kù)存數(shù)據(jù)能幫助企業(yè)避免過(guò)度庫(kù)存或缺貨的情況。
(二)TSWD模型
TSWD模型由兩個(gè)核心組成部分構(gòu)成:一是時(shí)序滑動(dòng)窗口部分,該機(jī)制通過(guò)分析過(guò)去時(shí)間點(diǎn)的數(shù)據(jù)評(píng)估結(jié)果來(lái)估計(jì)其對(duì)當(dāng)前評(píng)估結(jié)果的影響;二是偏差計(jì)算部分,專注于評(píng)估當(dāng)前時(shí)間點(diǎn)的數(shù)據(jù)如何影響當(dāng)前的數(shù)據(jù)質(zhì)量評(píng)估結(jié)果。此模型能夠更精準(zhǔn)地識(shí)別和量化數(shù)據(jù)質(zhì)量問(wèn)題,為提高數(shù)據(jù)處理和分析的準(zhǔn)確性提供了強(qiáng)有力的工具。
1.時(shí)序滑動(dòng)窗口
時(shí)序滑動(dòng)窗口確保了時(shí)序數(shù)據(jù)在整個(gè)評(píng)估過(guò)程中的適當(dāng)影響,為模型提供了一個(gè)堅(jiān)實(shí)的基礎(chǔ)。這種機(jī)制不僅增加了模型對(duì)于時(shí)間序列數(shù)據(jù)變化的適應(yīng)性和靈敏度,而且通過(guò)參數(shù)配置,保障了輸出結(jié)果的穩(wěn)定性和可靠性。通過(guò)綜合考慮滑動(dòng)窗口長(zhǎng)度和權(quán)重因子的作用,該模型有效平衡了對(duì)近期與遠(yuǎn)期數(shù)據(jù)的關(guān)注,以此來(lái)優(yōu)化整體的評(píng)估精度和模型性能。
2.偏差
偏差部分專注于通過(guò)計(jì)算當(dāng)前時(shí)間點(diǎn)數(shù)據(jù)與預(yù)期符合程度的變化值來(lái)評(píng)估數(shù)據(jù)的偏離程度。具體而言,若當(dāng)前數(shù)據(jù)未達(dá)到預(yù)期,評(píng)估值將會(huì)降低;相反,當(dāng)數(shù)據(jù)滿足預(yù)期時(shí),評(píng)估值則會(huì)相應(yīng)提高。
通過(guò)綜合利用時(shí)序滑動(dòng)窗口機(jī)制和偏差計(jì)算這兩個(gè)核心組成部分,本模型實(shí)現(xiàn)了對(duì)數(shù)據(jù)質(zhì)量的全面評(píng)估,既從數(shù)據(jù)的維度(橫向考量)進(jìn)行分析,也從時(shí)間序列的角度(縱向考量)考察其變化趨勢(shì)。這種雙維度的評(píng)估方法使得模型不僅能夠精確地衡量數(shù)據(jù)在特定時(shí)間點(diǎn)的質(zhì)量,還能夠追蹤和分析數(shù)據(jù)質(zhì)量隨時(shí)間的動(dòng)態(tài)變化,從而提供了一種強(qiáng)有力的工具,用于全方位地評(píng)估和保障數(shù)據(jù)的質(zhì)量。
工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析評(píng)估系統(tǒng)包括三個(gè)層級(jí),分別為數(shù)據(jù)層、服務(wù)層、應(yīng)用層(見(jiàn)圖1)。其中,數(shù)據(jù)層包括關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、時(shí)間序列數(shù)據(jù)庫(kù);服務(wù)層包括數(shù)據(jù)預(yù)處理模塊、決策支持模塊、任務(wù)調(diào)度模塊,以及上文所提出的TSWD模型。
(一)數(shù)據(jù)層
數(shù)據(jù)層是工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析系統(tǒng)的基礎(chǔ),負(fù)責(zé)存儲(chǔ)、管理和保護(hù)所有數(shù)據(jù)資產(chǎn),包括關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)和時(shí)間序列數(shù)據(jù)庫(kù),每種數(shù)據(jù)庫(kù)因其特定的功能和優(yōu)勢(shì),被用于處理不同類型的數(shù)據(jù)需求。
關(guān)系型數(shù)據(jù)庫(kù)(如MySQL、PostgreSQL等)通過(guò)表格的形式存儲(chǔ)數(shù)據(jù),強(qiáng)調(diào)數(shù)據(jù)的結(jié)構(gòu)化和嚴(yán)格的數(shù)據(jù)完整性。它們支持復(fù)雜的查詢語(yǔ)言(如SQL),非常適合需要執(zhí)行復(fù)雜查詢和事務(wù)處理的應(yīng)用場(chǎng)景。在該系統(tǒng)中,關(guān)系型數(shù)據(jù)庫(kù)用來(lái)管理用戶信息、系統(tǒng)配置和事務(wù)性業(yè)務(wù)數(shù)據(jù),如設(shè)備維護(hù)記錄和操作日志,確保數(shù)據(jù)的一致性和可追溯性。
非關(guān)系型數(shù)據(jù)庫(kù)(如MongoDB、Cassandra等)提供更靈活的數(shù)據(jù)存儲(chǔ)選項(xiàng),適用于不需要固定數(shù)據(jù)模型的場(chǎng)景。這類數(shù)據(jù)庫(kù)支持快速的讀寫(xiě)操作,適合處理大量的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),如日志文件、JSON數(shù)據(jù)等。在處理大規(guī)?;蚋咦儎?dòng)性的數(shù)據(jù)時(shí),非關(guān)系型數(shù)據(jù)庫(kù)能夠提供高性能和易擴(kuò)展性,滿足工業(yè)時(shí)序數(shù)據(jù)分析對(duì)數(shù)據(jù)處理速度和靈活性的高要求。
時(shí)間序列數(shù)據(jù)庫(kù)(如InfluxDB、TimescaleDB等)專門為時(shí)間標(biāo)記的數(shù)據(jù)設(shè)計(jì),優(yōu)化了時(shí)間序列數(shù)據(jù)的存儲(chǔ)和查詢。這類數(shù)據(jù)庫(kù)非常適合存儲(chǔ)和分析由傳感器產(chǎn)生的連續(xù)時(shí)間數(shù)據(jù),如設(shè)備狀態(tài)、環(huán)境監(jiān)測(cè)數(shù)據(jù)等。時(shí)間序列數(shù)據(jù)庫(kù)可以高效地處理大量的寫(xiě)入操作和時(shí)序數(shù)據(jù)查詢,支持快速的數(shù)據(jù)聚合、時(shí)間窗口查詢和實(shí)時(shí)監(jiān)控。
通過(guò)這三種數(shù)據(jù)庫(kù)的組合使用,不僅為系統(tǒng)提供了強(qiáng)大的數(shù)據(jù)存儲(chǔ)能力,還確保了數(shù)據(jù)處理的高效性和靈活性。這使得數(shù)據(jù)層能夠支撐起系統(tǒng)的核心功能,包括數(shù)據(jù)的實(shí)時(shí)分析、歷史數(shù)據(jù)查詢和復(fù)雜數(shù)據(jù)處理,滿足工業(yè)時(shí)序數(shù)據(jù)分析的各種需求。
(二)服務(wù)層
服務(wù)層是工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析系統(tǒng)中的核心,負(fù)責(zé)處理數(shù)據(jù)、執(zhí)行分析和協(xié)調(diào)任務(wù)。它由多個(gè)功能模塊組成,每個(gè)模塊針對(duì)特定的業(yè)務(wù)需求設(shè)計(jì),以提高數(shù)據(jù)處理的效率和準(zhǔn)確性。
數(shù)據(jù)預(yù)處理模塊包括數(shù)據(jù)清洗、數(shù)據(jù)驗(yàn)證和特征工程三個(gè)主要環(huán)節(jié)。數(shù)據(jù)清洗負(fù)責(zé)去除無(wú)用或錯(cuò)誤的數(shù)據(jù),如重復(fù)記錄、格式不一致的數(shù)據(jù)等,確保數(shù)據(jù)集的清潔和一致性。數(shù)據(jù)驗(yàn)證環(huán)節(jié)對(duì)數(shù)據(jù)進(jìn)行格式和邏輯的校驗(yàn),確保所有輸入數(shù)據(jù)都符合預(yù)定的標(biāo)準(zhǔn)和業(yè)務(wù)規(guī)則。特征工程則是從清洗驗(yàn)證后的數(shù)據(jù)中提取有用的信息,轉(zhuǎn)化數(shù)據(jù)分析所需的特征,對(duì)后續(xù)的分析效果至關(guān)重要。
決策支持模塊旨在輔助用戶做出更加明智的業(yè)務(wù)決策。該模塊包括問(wèn)題捕捉,能夠識(shí)別并報(bào)告系統(tǒng)中的關(guān)鍵問(wèn)題;依賴分析,分析不同數(shù)據(jù)元素或任務(wù)之間的依賴關(guān)系,以優(yōu)化處理流程;處理建議,根據(jù)分析結(jié)果向用戶提供具體的改進(jìn)措施;規(guī)則更新,根據(jù)新的業(yè)務(wù)需求和環(huán)境變化動(dòng)態(tài)更新系統(tǒng)規(guī)則。這些功能共同作用,提高了系統(tǒng)的自適應(yīng)能力和決策的精確性。
任務(wù)調(diào)度模塊負(fù)責(zé)系統(tǒng)中所有任務(wù)的管理和執(zhí)行。任務(wù)接口調(diào)用功能允許系統(tǒng)與外部系統(tǒng)或服務(wù)進(jìn)行通信,執(zhí)行數(shù)據(jù)導(dǎo)入導(dǎo)出等操作;任務(wù)生成負(fù)責(zé)根據(jù)分析需求自動(dòng)創(chuàng)建任務(wù);數(shù)據(jù)連接確保任務(wù)能夠訪問(wèn)所需的數(shù)據(jù)源;監(jiān)控告警功能實(shí)時(shí)監(jiān)控任務(wù)執(zhí)行狀態(tài),一旦發(fā)現(xiàn)問(wèn)題即時(shí)通知相關(guān)人員,保證系統(tǒng)的穩(wěn)定運(yùn)行和數(shù)據(jù)的安全。
TSWD模型提供了一個(gè)全面和精確的方法來(lái)評(píng)估數(shù)據(jù)質(zhì)量的四個(gè)核心維度。這種綜合性的評(píng)估能力使得該模型在工業(yè)生產(chǎn)活動(dòng)中尤為有價(jià)值,能夠?yàn)樘岣呱a(chǎn)效率和保證產(chǎn)品質(zhì)量提供重要的數(shù)據(jù)支持和決策依據(jù)。
通過(guò)這些功能模塊協(xié)同工作,不僅可以使得數(shù)據(jù)處理的高效和準(zhǔn)確,還為用戶提供了強(qiáng)大的決策支持和任務(wù)管理能力,確保系統(tǒng)能夠靈活、高效地響應(yīng)各種業(yè)務(wù)場(chǎng)景和需求。
(三)應(yīng)用層
應(yīng)用層是工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析系統(tǒng)中用戶交互的前沿,負(fù)責(zé)提供直觀、易用的界面和強(qiáng)大的用戶體驗(yàn)。它允許用戶管理自己的賬戶、上傳和管理數(shù)據(jù)、配置分析參數(shù),以及查看和解析分析結(jié)果。
用戶界面在應(yīng)用層中起著至關(guān)重要的作用,通過(guò)提供清晰的導(dǎo)航、直觀的布局和簡(jiǎn)單的操作步驟,確保用戶無(wú)需技術(shù)背景即可有效使用系統(tǒng)。界面設(shè)計(jì)包括數(shù)據(jù)上傳的拖放功能、實(shí)時(shí)的進(jìn)度顯示、以及直接的結(jié)果預(yù)覽,所有這些功能都旨在提高用戶的操作便捷性和系統(tǒng)的整體效率。
用戶管理模塊處理注冊(cè)、登錄和權(quán)限控制等功能,確保數(shù)據(jù)安全和功能的適當(dāng)訪問(wèn)。這一模塊允許細(xì)粒度的權(quán)限設(shè)置,例如區(qū)分只讀用戶和有權(quán)進(jìn)行數(shù)據(jù)上傳及分析配置的用戶。
儀表板提供動(dòng)態(tài)的數(shù)據(jù)可視化,展示實(shí)時(shí)的數(shù)據(jù)分析結(jié)果,如生產(chǎn)效率、設(shè)備運(yùn)行狀態(tài)等關(guān)鍵指標(biāo)。這些可視化工具幫助用戶快速捕獲和理解復(fù)雜數(shù)據(jù)的核心趨勢(shì)和模式。
報(bào)告生成器自動(dòng)化地生成詳細(xì)的分析報(bào)告,包括圖表、數(shù)據(jù)統(tǒng)計(jì)和專業(yè)的解釋,支持導(dǎo)出為多種文件格式。這為用戶提供了一種便捷的方式,以正式的文檔形式分享和討論分析成果。
通知系統(tǒng)在檢測(cè)到關(guān)鍵事件或結(jié)果達(dá)到預(yù)設(shè)閾值時(shí)自動(dòng)向用戶發(fā)送警告或更新,確保及時(shí)的信息傳遞,從而支持快速的決策和響應(yīng)。
應(yīng)用層不僅使用戶能夠有效地與系統(tǒng)互動(dòng),還增強(qiáng)了系統(tǒng)的實(shí)用性和響應(yīng)能力,是用戶與系統(tǒng)之間溝通的橋梁。
本文提出的工業(yè)時(shí)序數(shù)據(jù)質(zhì)量分析系統(tǒng)旨在通過(guò)高效的數(shù)據(jù)處理、精準(zhǔn)的分析和先進(jìn)的智能決策支持,為用戶提供了一個(gè)全面的解決方案,確保從數(shù)據(jù)收集到處理再到最終的決策支持,每一個(gè)環(huán)節(jié)都能高效協(xié)同工作。
系統(tǒng)的核心功能在于其處理復(fù)雜工業(yè)數(shù)據(jù)的能力,能深入分析和評(píng)估時(shí)序數(shù)據(jù)的質(zhì)量,及時(shí)識(shí)別并解決潛在的數(shù)據(jù)質(zhì)量問(wèn)題。通過(guò)這一系統(tǒng),決策者可以更加精準(zhǔn)地理解和控制生產(chǎn)過(guò)程,優(yōu)化操作流程,顯著減少機(jī)器的停機(jī)時(shí)間,降低維護(hù)成本,從而提高生產(chǎn)效率和產(chǎn)品質(zhì)量。
此外,該系統(tǒng)提升了數(shù)據(jù)處理的自動(dòng)化程度,并強(qiáng)化了依據(jù)數(shù)據(jù)進(jìn)行決策的能力。這意味著決策者可以依據(jù)系統(tǒng)提供的實(shí)時(shí)數(shù)據(jù)及歷史數(shù)據(jù)分析,迅速做出更加準(zhǔn)確的決策。這種數(shù)據(jù)驅(qū)動(dòng)的決策模式,不僅提高了決策的速度和質(zhì)量,也使工業(yè)生產(chǎn)活動(dòng)有更高質(zhì)量的參考。
作者單位: 陳彥卿 楊正益 重慶大學(xué)大數(shù)據(jù)與軟件學(xué)院
張 程 重慶市質(zhì)量和標(biāo)準(zhǔn)化研究院