趙玉新
摘要:該文主要對轎車銷量的進行初步分析,數(shù)據(jù)來自數(shù)據(jù)堂網(wǎng)站,主要使用R語言為工具,進行數(shù)據(jù)分析,通過導入sqldf數(shù)據(jù)包,對原始數(shù)據(jù)進行篩選,排序;以及使用高級繪圖函數(shù)對轎車銷量進行圖表分析。
關(guān)鍵詞:R語言;數(shù)據(jù)分析;轎車銷量
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)04-0070-02
R語言是一個有著統(tǒng)計分析功能以及強大作圖功能的語言環(huán)境,主要是統(tǒng)計學家為解決數(shù)據(jù)分析領(lǐng)域問題而開發(fā)的語言。
R語言具有功能強大的程序包,在數(shù)據(jù)計算,統(tǒng)計分析以及數(shù)據(jù)挖掘等方面都所向披靡,本文基于R對轎車銷量數(shù)據(jù)進行分析。
1 數(shù)據(jù)情況
數(shù)據(jù)是一件麻煩事,在工作中,有多達60%的數(shù)據(jù)分析時間都花在了實際分析前數(shù)據(jù)的準備上。
現(xiàn)有2011年4月至2013年10月全國轎車車型銷量排名數(shù)據(jù):
數(shù)據(jù)共有6000多條,按照年份,月份,各廠商品牌統(tǒng)計轎車的銷量,數(shù)據(jù)比較雜亂;所以首先要制定分析目標與方案。
2數(shù)據(jù)處理
首先我們將excel數(shù)據(jù)導入到R中,將excel文件以剪貼板的格式進行保存。然后使用read.delim函數(shù)進行導入:
我們首先制定數(shù)據(jù)分析的目標:
數(shù)據(jù)的特點是分月份,年份,品牌的,我們首先分析2013年度暢銷車型。
那么我們需要對2013年各品牌進行匯總?cè)缓笈判?,對于求和以及排序,使用SQL語句來進行比較方便,那么在R中如何使用SQL語句呢?
R語言具有sqldf包,要求R是3.3.2版本,所以在R中安裝和加載sqldf包。需要按照年度累計進行降序排序,只保留車型和本年累計兩列。
結(jié)果如下:
從排序結(jié)果可以看出,2013年,年度暢銷車型為大眾朗逸,別克凱越和大眾速騰。
3 圖表分析
上面,我們結(jié)合數(shù)據(jù)分析的目標,對原始數(shù)據(jù)進行了整理,在R中應用sqldf對數(shù)據(jù)進行了篩選和排序,得到暢銷車型的分析結(jié)果。
字不如表,表不如圖。由于R具有強大的繪圖功能,提供了多種繪圖函數(shù),有高水平繪圖函數(shù),低水平繪圖函數(shù)以及交互式繪圖函數(shù)。
直方圖又稱為柱狀圖,用來估計數(shù)據(jù)的概率分布;下面我們應用高水平函數(shù)中的直方圖函數(shù)來看一下汽車年度銷量的分布情況。使用hist函數(shù)。
從圖中可以看出,年度銷量在300000~350000輛之間的車型頻數(shù)為1,只有大眾朗逸是這個區(qū)間的。而轎車銷量在0~50000輛之間的車型頻數(shù)超過了150;大多數(shù)車型銷售量都位于此區(qū)間。
下面使用箱線圖來作分析,箱線圖主要從四分位的角度來描述數(shù)據(jù)的分布,使用函數(shù)boxplot來完成。語句如下:
從繪制的箱線圖可以看出,轎車銷量的中位數(shù)是20000左右,箱體集中在50000以下,超過300000只有一個數(shù)據(jù)。
4 結(jié)束語
以上是筆者對轎車銷量的初步分析研究,主要使用R語言的數(shù)據(jù)分析方法,通過導入sqldf數(shù)據(jù)包,對原始數(shù)據(jù)進行篩選,排序;以及使用高級繪圖函數(shù)對轎車銷量進行圖表分析。
R語言功能很強大,除了數(shù)據(jù)分析,還有一些預測功能等。比如可以提取某一車型的月度銷售數(shù)據(jù),形成時間序列,然后對未來的月度銷量進行預測等。由于篇幅所限,本文只作轎車銷量的簡單分析。
參考文獻:
[1] 薛毅 陳立萍 .R語言實用教程[M].北京:清華大學出版社,2014.
[2] 數(shù)據(jù)堂網(wǎng)站[EB/OL]. http://www.datatang.com/.