趙玉新
摘要:該文數(shù)據(jù)來自數(shù)據(jù)堂網(wǎng)站,主要使用R語言為工具,進行數(shù)據(jù)分析,本次分析主要側(cè)重于某型號轎車的時間序列分析,首先提取該轎車每月的銷量情況,作為歷史數(shù)據(jù),然后進行分析預測,得出結(jié)論。
關(guān)鍵詞:R語言;數(shù)據(jù)分析;轎車銷量;時間序列分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)05-0016-03
時間序列是以固定時間間隔為單位的一列數(shù)據(jù),最常見的比如某只股票的每日股價走勢圖,每天的氣象數(shù)據(jù)等。時間序列分析是統(tǒng)計分析的一個重要內(nèi)容,由于基于歷史數(shù)據(jù)可以進行預測,因此幾乎每種統(tǒng)計分析軟件都有時間序列的分析及預測功能。
時間序列常見的分析方法有:簡單平均法、加權(quán)平均法和移動平均法等。還有time series里面兩個強大的算法: Holt-Winters 和 ARIMA。
R語言具有功能強大的程序包,在數(shù)據(jù)計算,統(tǒng)計分析以及數(shù)據(jù)挖掘等方面都所向披靡,本文介紹轎車銷量時間序列數(shù)據(jù)在R中統(tǒng)計分析及預測的實現(xiàn)。
1 數(shù)據(jù)情況
從圖中可以看出,是大眾朗逸31個月的銷售數(shù)據(jù),沒有明顯的周期和季節(jié)趨勢,2013年1月,創(chuàng)下銷售記錄,48267臺,應(yīng)該是春節(jié)前,是車輛銷售旺季。2011年7月出現(xiàn)了銷售銷售的低谷,銷量只有3000多臺。
3 時間序列檢驗分析
3.1自相關(guān)檢驗
對于非平穩(wěn)數(shù)列的數(shù)據(jù),ACF自相關(guān)圖不會趨向于0,或者趨向0的速度很慢。自相關(guān)圖中的兩條虛線表示置信界限,是自相關(guān)系數(shù)的上下界。
下面繪制原始數(shù)列的自相關(guān)圖:
從以上幾幅圖進行分析,圖4中的時序圖,可以看出有連年遞增趨勢,為非平穩(wěn)序列。從自相關(guān)檢驗結(jié)果看,自相關(guān)系數(shù)長期大于零,進一步表明為非平穩(wěn)序列;單位根檢驗結(jié)果p值顯著大于0.05,也判斷其為非平穩(wěn)序列。
4 ARIMA建模分析
4.1非平穩(wěn)序列差分
差分,即Integrated。 一階差分是把原數(shù)列每一項減去前一項的值。二階差分是一階差分基礎(chǔ)上再來一次差分。差分一直得到平穩(wěn)序列為止。R中使用diff()函數(shù)對時間序列進行差分運算。
6 結(jié)束語
以上是筆者對朗逸轎車月度銷售數(shù)據(jù)分析研究,主要使用R語言的時間序列分析方法,繪制序列圖,檢驗其是否為平穩(wěn)序列,非平穩(wěn)序列進行差分處理,直到平穩(wěn)為止。然后使用ARIMA方法進行分析建模,再進一步完成預測。
參考文獻:
[1] 張良均,等 .R語言與數(shù)據(jù)挖掘[M].
[2] 數(shù)據(jù)堂網(wǎng)站. http://www.datatang.com/.