蔣明佑
(重慶交通大學(xué)機(jī)電與車(chē)輛工程學(xué)院)
傳感器數(shù)據(jù)采集過(guò)程中,由于工業(yè)現(xiàn)場(chǎng)電器環(huán)境惡劣,不可避免的會(huì)產(chǎn)生量化噪聲或隨機(jī)噪聲[1-8]。在噪聲數(shù)據(jù)過(guò)多的采集任務(wù)中,離群數(shù)據(jù)[9]會(huì)影響一元線性回歸模型的擬合過(guò)程,降低模型準(zhǔn)確度。文章提出了基于Bisquare 算法的自適應(yīng)數(shù)據(jù)采集方法,該方法根據(jù)數(shù)據(jù)點(diǎn)的離群程度,對(duì)每個(gè)數(shù)據(jù)點(diǎn)分配權(quán)值,通過(guò)權(quán)值分配降低噪聲數(shù)據(jù)點(diǎn)產(chǎn)生的影響。通過(guò)迭代加權(quán)最小二乘法實(shí)時(shí)更新一元線性回歸模型,大大提高了系統(tǒng)采集時(shí)間間隔的變化敏感度。通過(guò)設(shè)置模型置信區(qū)間,實(shí)現(xiàn)系統(tǒng)對(duì)噪聲數(shù)據(jù)的剔除。文章使用LabVIEW[10]對(duì)基于Bisquare 方法的自適數(shù)據(jù)采集算法進(jìn)行了仿真試驗(yàn),并給出了基于Bisquare 方法的自適應(yīng)數(shù)據(jù)采集和依托最小二乘法的自適應(yīng)數(shù)據(jù)采集兩者的性能比較結(jié)果。
為了較為準(zhǔn)確地模擬傳感器采數(shù)據(jù)特性,文章基于LabVIEW 設(shè)計(jì)了幅值為5 的服從正態(tài)分布的最優(yōu)數(shù)據(jù)源,每秒輸出101 個(gè)數(shù)據(jù)點(diǎn)。將此數(shù)據(jù)源作為傳感器所采集數(shù)據(jù)的最優(yōu)數(shù)據(jù)源,如圖1 所示。
最優(yōu)數(shù)據(jù)源對(duì)應(yīng)函數(shù)如下:
其中x 取值范圍為[1,7]。
圖1 最優(yōu)數(shù)據(jù)源
通常采集測(cè)量任務(wù)中,大部分噪聲均具有隨機(jī)性,其幅度隨時(shí)間無(wú)規(guī)律變化。為模擬真實(shí)傳感器采集及數(shù)據(jù)傳輸時(shí)各種噪聲對(duì)采集過(guò)程的影響,在原有最優(yōu)數(shù)據(jù)源基礎(chǔ)上添加了高斯白噪聲及均勻白噪聲。如圖2所示。
圖2 添加噪聲后的標(biāo)準(zhǔn)數(shù)據(jù)源
基于最小二乘法的自適應(yīng)數(shù)據(jù)采集的采集策略可分為兩步:一,掌握數(shù)據(jù)變化情況。二,動(dòng)態(tài)調(diào)整各個(gè)采集點(diǎn)之間的時(shí)間間隙。其中數(shù)據(jù)變化情況是系統(tǒng)結(jié)合有限個(gè)歷史采樣點(diǎn),通過(guò)最小二乘法擬合一元線性回歸模型來(lái)反應(yīng)的。當(dāng)數(shù)據(jù)發(fā)生變化時(shí),對(duì)應(yīng)的回歸模型也相應(yīng)發(fā)生變化。文章所提的依托最小二乘法的自適應(yīng)采集中,通過(guò)擬合模型中斜率值的變化來(lái)調(diào)整采集時(shí)間間隔。
依托模型斜率調(diào)整采集時(shí)間間隔的最小二乘法自適應(yīng)采集,其工作原理為:1)系統(tǒng)會(huì)結(jié)合有限個(gè)歷史采樣點(diǎn),通過(guò)最小二乘法構(gòu)建一元線性回歸模型。
設(shè)有s1(x1,y1),(x2,y2)…sn(xn,yn)有限歷史采樣點(diǎn),最小二乘法擬合如下:
通過(guò)上式得到了一元線性回歸模型,將此過(guò)程迭代進(jìn)行,獲得實(shí)時(shí)變化的擬合模型,即通過(guò)模型掌握了數(shù)據(jù)變化情況。
圖3 示出最小二乘法擬合模型與最佳信號(hào)源的對(duì)比效果。受噪聲數(shù)據(jù)影響,在數(shù)據(jù)急劇變化時(shí),模型擬合效果相對(duì)于最佳信號(hào)源具有一定偏差。這會(huì)導(dǎo)致系統(tǒng)在確定采集時(shí)間間隔時(shí)出現(xiàn)偏差,進(jìn)而影響數(shù)據(jù)采集量,導(dǎo)致關(guān)鍵數(shù)據(jù)缺失。
圖3 最小二乘法與最佳信號(hào)擬合模型對(duì)比效果
通過(guò)此方法,當(dāng)擬合模型發(fā)生變化時(shí),系統(tǒng)的采集時(shí)間間隔會(huì)根據(jù)所設(shè)區(qū)間發(fā)生變化,實(shí)現(xiàn)了自適應(yīng)采集,效果如圖4 所示。
圖4 最小二乘法自適應(yīng)采集效果
從圖4 可以看出,在區(qū)間[1,2]內(nèi),數(shù)據(jù)變化平穩(wěn),系統(tǒng)采集到5 個(gè)數(shù)據(jù)點(diǎn)。在區(qū)間[2,3]內(nèi),數(shù)據(jù)變化加快,系統(tǒng)采集到11 個(gè)數(shù)據(jù)點(diǎn)。在區(qū)間[3,4]內(nèi),數(shù)據(jù)變化最為劇烈,系統(tǒng)采集到17 個(gè)數(shù)據(jù)點(diǎn)。這表明依托最小二乘法,依靠擬合模型斜率調(diào)整采集時(shí)間間隔的系統(tǒng)具有自適應(yīng)采集能力。但也可以看出在區(qū)間[2,3]和[4,5]內(nèi),由于系統(tǒng)對(duì)所有數(shù)據(jù)點(diǎn)等權(quán)重看待,所以即使采用變化時(shí)間間隔的采集方式也無(wú)法完全過(guò)濾掉噪聲數(shù)據(jù)。
在掌握數(shù)據(jù)變化情況方面,此采集策略通過(guò)Bisquare[11]算法建立一元線性回歸模型,由模型感知數(shù)據(jù)變化情況。Bisquare 方法在原有最小二乘法基礎(chǔ)上為每個(gè)數(shù)據(jù)點(diǎn)分配了權(quán)重,其中賦予每個(gè)數(shù)據(jù)點(diǎn)的權(quán)重取決于該點(diǎn)距離擬合模型的距離,在擬合模型附近的數(shù)據(jù)點(diǎn)獲得較高權(quán)重,遠(yuǎn)離擬合模型的數(shù)據(jù)點(diǎn)獲得較低權(quán)重。通過(guò)Bisquare 算法很好的降低了噪聲數(shù)據(jù)對(duì)擬合模型的影響,提高了模型準(zhǔn)確度。此采集策略通過(guò)擬合模型斜率動(dòng)態(tài)調(diào)整采集時(shí)間間隔,當(dāng)斜率超過(guò)某個(gè)設(shè)定值時(shí),系統(tǒng)調(diào)用對(duì)應(yīng)的采集時(shí)間間隔。
基于Bisquare 的自適應(yīng)采實(shí)現(xiàn)了對(duì)離群噪聲的過(guò)濾,原理如圖5 所示。系統(tǒng)在已有的Bisquare 擬合模型基礎(chǔ)上,在模型兩端設(shè)置上下限,上下限閥值ε 可按需而定。當(dāng)數(shù)據(jù)點(diǎn)落入?yún)^(qū)間以內(nèi)時(shí),如點(diǎn)s1,s2系統(tǒng)將按照指定采集時(shí)間間隔對(duì)數(shù)據(jù)點(diǎn)進(jìn)行采集;對(duì)于落入?yún)^(qū)間以外的點(diǎn),如點(diǎn)s3系統(tǒng)將不予采集。通過(guò)此方法,算法實(shí)現(xiàn)了對(duì)變時(shí)間間隔采集時(shí)離群噪聲數(shù)據(jù)的過(guò)濾。
圖5 噪聲過(guò)濾原理
該算法首先通過(guò)最小二乘法對(duì)最近有限個(gè)離散數(shù)據(jù)點(diǎn)s2(x2,y2),(x1,y1)…sn(xn,yn)做線性擬合,得到最初擬合模型的斜率與截距的估計(jì)值ai與bi,其中i=0,n 為y 的長(zhǎng)度。
然后通過(guò)殘差最小化的方法獲得權(quán)重的更新值。Bisquare 算法的殘差計(jì)算公式如下,其中wi為對(duì)應(yīng)數(shù)據(jù)點(diǎn)的權(quán)重,fi為對(duì)應(yīng)數(shù)據(jù)點(diǎn)的最佳擬合值。
結(jié)合已知a0和b0,通過(guò)殘差最小化,將上式對(duì)ai求導(dǎo)并等于零,可得。
使用新獲得的權(quán)重wi做加權(quán)最小二乘法,求得ai+2與bi+2:
迭代以上過(guò)程,當(dāng)?shù)昂髢纱螖M合多項(xiàng)式斜率與截距的相對(duì)差小于容差時(shí),默認(rèn)為獲得最佳擬合模型,輸出最佳擬合斜率,容差設(shè)置為0.000 1。
表1 斜率與采集時(shí)間間隔對(duì)應(yīng)表
基于Bisquare 自適應(yīng)采集時(shí)間間隔的確定流程,如圖6 所示。
圖6 采集時(shí)間間隔確定流程
獲得最佳擬合模型后,系統(tǒng)根據(jù)最佳擬合模型斜率確定下次采集時(shí)時(shí)間間隔。在下次采集過(guò)程中,通過(guò)將最佳擬合模型上下限與標(biāo)準(zhǔn)數(shù)據(jù)源做差值處理,差值大于0 的點(diǎn)(即離群數(shù)據(jù)點(diǎn))將被剔除。采集過(guò)程中離群點(diǎn)的確定,如圖7 所示。
圖7 離群點(diǎn)確定
圖8示出Bisquare 擬合模型與最佳信號(hào)源的對(duì)比效果。Bisquare 算法很好的降低了噪聲數(shù)據(jù)對(duì)擬合模型的影響。從圖8 可以看出,Bisquare 擬合模型的數(shù)據(jù)走勢(shì)與最佳信號(hào)源高度吻合,可以準(zhǔn)確反映數(shù)據(jù)變化情況。
圖8 Bisquare 擬合模型與最佳信號(hào)源擬合模型對(duì)比效果
通過(guò)基于Bisquare 的自適應(yīng)采集方法,系統(tǒng)同樣實(shí)現(xiàn)了具有自適應(yīng)效果的變時(shí)間間隔采集,效果如圖9所示。
圖9 Bisquare 自適應(yīng)采集效果
從圖9 可以看出,在區(qū)間[1,2]內(nèi),數(shù)據(jù)變化平穩(wěn),系統(tǒng)采集到5 個(gè)數(shù)據(jù)點(diǎn)。在區(qū)間[2,3]內(nèi),數(shù)據(jù)變化加快,系統(tǒng)采集到15 個(gè)數(shù)據(jù)點(diǎn)。在區(qū)間[3,4]內(nèi),數(shù)據(jù)變化最為劇烈,系統(tǒng)采集到17 個(gè)數(shù)據(jù)點(diǎn)。這表明基于Bisquare 算法,系統(tǒng)具有依照模型斜率調(diào)整采集時(shí)間間隔的能力。另外,系統(tǒng)過(guò)濾掉了離群噪聲,所采集數(shù)據(jù)更加準(zhǔn)確反應(yīng)設(shè)備工況。
針對(duì)圖2 提出的標(biāo)準(zhǔn)數(shù)據(jù)源,分別使用最小二乘法的自適應(yīng)采集與基于Bisquare 算法的自適應(yīng)采集進(jìn)行試驗(yàn)。試驗(yàn)采集效果對(duì)比,如圖4 和圖9 所示。
其中,使用最小二乘法自適應(yīng)采集工作60 s 后,系統(tǒng)保存3 240 個(gè)數(shù)據(jù)點(diǎn),對(duì)比傳統(tǒng)的等時(shí)間間隔采集,數(shù)據(jù)量降低了46%;使用基于Bisquare 的自適應(yīng)采集工作60 s,系統(tǒng)保存3 840 個(gè)數(shù)據(jù)點(diǎn),對(duì)比傳統(tǒng)的等時(shí)間間隔采集,數(shù)據(jù)量降低了37%。
2 種采集方式都減少了數(shù)據(jù)量的存儲(chǔ),減緩了系統(tǒng)存儲(chǔ)壓力。但是最小二乘法自適應(yīng)采集的數(shù)據(jù)存儲(chǔ)量更低,這是由于擬合模型不準(zhǔn)確造成的。受噪聲數(shù)據(jù)影響,導(dǎo)致在[2,3]和[4,5]內(nèi),最小二乘法擬合模型斜率偏低,采集時(shí)間間隔增大,因此最小二乘法自適應(yīng)采集相比于基于Bisquare 的自適應(yīng)采集,所采集到的數(shù)據(jù)點(diǎn)更少。
最小二乘法自適應(yīng)采集失真度相對(duì)較高。采用最小二乘法的擬合模型無(wú)法區(qū)分噪聲數(shù)據(jù),可以看到,圖10 中有明顯的離群噪聲點(diǎn)。在噪聲較多的數(shù)據(jù)區(qū)間,模型失真度較高。Bisquare 自適應(yīng)采集通過(guò)權(quán)重分配的方法將離群噪聲影響降到最低,所得擬合模型更加接近于最優(yōu)數(shù)據(jù)源。模型對(duì)比效果,如圖10 所示。
圖10 最小二乘法與Bisquare 擬合模型對(duì)比效果
對(duì)于2 種方法的采集失真度,可以用2 種方法各自所得數(shù)據(jù)曲線fi'(x)與fi(x)最優(yōu)數(shù)據(jù)源曲線之間所夾面積表示。失真度E(n)計(jì)算公式為:
通過(guò)計(jì)算,同一時(shí)刻下,小二乘法的自適應(yīng)采集的失真度為1.74,基于Bisquare 算法的自適應(yīng)采集的失真度為1.21。需要說(shuō)明的是,此試驗(yàn)的標(biāo)準(zhǔn)數(shù)據(jù)源時(shí)刻在發(fā)生變化,因此2 種采集方法的失真度也在變化。
在1 min 的采集試驗(yàn)內(nèi),基于Bisquare 算法的自適應(yīng)采集平均每個(gè)數(shù)據(jù)點(diǎn)失真度比小二乘法的自適應(yīng)采集失真度低0.34。
文章提出了一種可以通過(guò)對(duì)數(shù)據(jù)點(diǎn)分配權(quán)重進(jìn)而降低噪聲影響的自適應(yīng)采集方法。通過(guò)計(jì)算機(jī)仿真試驗(yàn)證明,在相同數(shù)據(jù)源的前提下,該方法在減少數(shù)據(jù)采集量的同時(shí),可以更好地降低噪聲數(shù)據(jù)對(duì)采集過(guò)程的影響,降低數(shù)據(jù)采集失真度。對(duì)比最小二乘法的自適應(yīng)采集,該方法的失真度明顯小于最小二乘法的自適應(yīng)采集。通過(guò)采用此采集策略,數(shù)據(jù)采集失真度更小且數(shù)據(jù)存儲(chǔ)量更低。后期可繼續(xù)將Bisquare 算法進(jìn)行優(yōu)化,提高算法在無(wú)噪聲條件下的應(yīng)用效果。