黃鑫+朱同林
摘 要: 選取影響手機網民規(guī)模的30個變量,借助于主成分分析方法進行降維,以降維后的5個主成分變量作為手機網民規(guī)模預測模型的輸入層變量,采用BP和RBF神經網絡分別對手機網民規(guī)模進行分析和預測。研究結果顯示,采用BP神經網絡,預測2016年12月與2017年6月的手機網民規(guī)模分別為69046(萬人)和72359(萬人);采用RBF神經網絡,預測2016年12月與2017年6月的手機網民規(guī)模分別為68702(萬人)和71972(萬人)。
關鍵詞: 移動電子商務; 主成分分析; BP神經網絡; RBF神經網絡
中圖分類號:TP183 文獻標志碼:A 文章編號:1006-8228(2017)02-09-04
0 引言
移動電子商務已成為電子商務發(fā)展的主流模式之一,從最初的短訊、語音到如今的視頻聊天、微信、支付寶等[1-2],促使人們傳統(tǒng)的生活方式發(fā)生了較大改變,給人們的各項活動帶來了較大的便利[3-7]。移動電子商務的三個基本條件為手機、網民和應用[8],其中手機是網民規(guī)模發(fā)展的重要載體,其持有比率持續(xù)上升,網民的規(guī)模也持續(xù)上升,手機網民規(guī)模綜合反映了手機和網民的增長趨勢。
截至2016年6月,中國網民規(guī)模達7.10億,半年新增網民2132萬人,半年增長率3.1%,我國手機網民規(guī)模達6.56億,較2015年底增加3656萬人。網民中使用手機上網的比例由2015年底的90.1%提升至 92.5%,手機在上網設備中占據(jù)主導地位。2016年上半年,我國新增網民中手機網民規(guī)模為 1301萬人,占新增網民的61.0%,其中新增手機網民中有2355萬人是由原有PC網民中轉化而來,這一規(guī)模較2015年底增加了1202萬[9]。
1 原理與方法
1.1 基于主成分分析的影響指標降維
在手機網民規(guī)模預測模型中,影響手機網民規(guī)模變量的因素較多,且各影響指標間存在較強的相關性,部分參數(shù)信息量之間存在一定的重復。因此,需尋找一種篩選主要影響因素變量和提取關鍵信息的方法。主成分分析是一種針對相關性變量進行降維,保障原始數(shù)據(jù)丟失最少的方法,將多個指標變量簡化成少數(shù)幾個綜合性指標,讓簡化后的指標盡可能地反映原始數(shù)據(jù)指標的絕大部分信息[10]。
設影響手機網民規(guī)模因素變量p,各變量樣本個數(shù)n,構成n×p階的原始數(shù)據(jù)矩陣X,詳細表示如下:
⑴
式⑴中,當p較大時,需要對原始數(shù)據(jù)矩陣進行降維處理,將原始變量指標進行線性組合,構成少數(shù)幾個綜合指標,它們相互獨立。令原始指標x1,x2,…,xp,新變量指標z1,z2,…,zk(k
⑵
式⑵中,系數(shù)lij表示原變量xi在各新變量指標zi上的載荷(i=1,2,…,k;j=1,2,…,p),其計算需借助于普通最小二乘回歸法[11]。
1.2 基于BP的手機網民規(guī)模預測模型
BP神經網絡是一種單向傳播的多層前饋神經網絡,其三個基本要素為連接權、求和單元、傳遞函數(shù)。連接權反映神經元間的連接強度;求和單元用于求取各輸入變量的加權和;傳遞函數(shù)起非線性映射作用。Sigmoid型函數(shù)是常見的傳遞函數(shù),其表達式如下:
⑶
式⑶中,λ是函數(shù)增益,決定了函數(shù)非飽和段的斜率。
BP網絡中的信息是單向傳遞的,同一層中的神經元不存在相互聯(lián)系,層與層之間采用全連接方式,連接程度由每層連接權值表示,隱藏層節(jié)點輸出模型和輸出層節(jié)點輸出模型分別見公式⑷和公式⑸。
⑷
⑸
式⑷-⑸,f(.)為非線性作用函數(shù),是式⑶的一般表達式,q是神經單元閾值。針對含有m個訓練樣本集,其網絡模型構建按照以下步驟[12]:
⑴ 初始化設計合理的網絡結構,將BP網絡的各個權重wij和閾值θj初始化為介于區(qū)間(0,1)中的隨機數(shù),同時設置最大迭代次數(shù)M(M>m)和目標誤差,網絡誤差平方和SSE初值為0;
⑵ 從訓練集中隨機取出樣本輸入向量x和期望輸出向量T;
⑶ 計算所有隱含層或輸出層各神經元相對上一層i的輸入向量Ij,同時選定公式⑶中的傳遞函數(shù),將各神經元j的輸出向量Oj映射到[0,1]區(qū)間,其中輸入向量表達式:
⑹
⑷ 檢驗網絡誤差平方和SSE;
⑸ 根據(jù)樣本輸入向量x所對應的期望輸出向量Oj,計算輸出層各神經元的誤差向量:
⑺
⑹ 將網絡中各權重wij和閾值θj分別進行調整,其中α為學習率,有:
⑻
當SSE等于或小于目標誤差時,網絡收斂,否則,重新返回步驟⑵。
1.3 基于RBP的手機網民規(guī)模預測模型
RBF徑向基函數(shù)神經網絡可以任意精度逼近任意的非線性函數(shù),具有全局逼近能力,它包括一個輸入層、一個輸出層和一個隱含層。輸入層節(jié)點將輸入數(shù)據(jù)傳遞到隱含層節(jié)點,其激活函數(shù)常采用高斯函數(shù),其表達式:
⑼
式⑼中,x=(x1,x2,…,x3)是RBF網絡輸入向量,uj是第j個隱含層神經元輸出,uj∈[0,1],cj是高斯函數(shù)的中心值,σj是高斯函數(shù)的方差,h是隱含層神經元數(shù)目。
RBF網絡模型構建按照以下步驟[12]:
⑴ 根據(jù)已知類別個數(shù)確定隱層節(jié)點數(shù)目k,并分別在各類別中隨機選取一個樣本作為該類的中心C,初始化ωij,寬度σ,設定誤差限ε(ε?0),學習率ηω,ηc,ησ,假設目前可用的最大訓練樣本數(shù)為MaxS(MaxS?1),設定循環(huán)變量t初始為1;
⑵ 輸入第t個訓練樣本,得到網絡實際輸出y;
⑶ 計算實際輸出與期望輸出間的誤差E;如果誤差,則該樣本不需要調整網絡參數(shù),直接跳到第⑹步驟,否則進行下一步驟;
⑷ 對于i=1,2,…,m,j=1,2,…,k,計算Δωij,ΔCj,Δσj并對各連接權值ωij,中心矢量Cj,核函數(shù)寬度σj,其計算公式分別參考式⑽、⑾、⑿;
⑽
⑾
⑿
⑸ 基于新的網絡參數(shù)、、,轉到步驟⑵;
⑹ t=t+1;如果t>MaxS,即無新樣本,則整個學習過程結束,否則轉到步驟⑵。
2 分析與預測
手機對移動電子商務發(fā)展影響力巨大,網民中,手機網民占比達到92.5%,故分析和預測未來手機網民規(guī)模具有重大意義。數(shù)據(jù)分析可反映現(xiàn)階段網民的增長趨勢[9,14],進而預知未來手機增長趨勢。
2.1 手機網民影響指標的選取
模型因變量選取手機網民規(guī)模,SY(萬人),自變量分別從基礎數(shù)據(jù)、網民規(guī)模、性別年齡、學歷水平、職業(yè)狀況、收入水平以及上網情況共七大類,30個自變量[9]??紤]到同類變量指標中,各個指標量綱互不相同,為了計算方便及部分模型使用需要,在后續(xù)模型建立及數(shù)據(jù)分析中,對已有量綱的變量的輸入進行歸一化處理。31個變量(含因變量,手機網民規(guī)模)中,部分變量需進行歸一化,其余變量均無量綱,無需歸一化處理,歸一化采用式⒀。
設樣本自變量原始輸入數(shù)據(jù)矩陣為pN×M,則歸一化公式為:
⒀
經過歸一化處理后的變量分別為:手機網民規(guī)模,Y;IPv4,A1;IPv6,A2;網站數(shù)量,A3;國際出口寬帶,A4:農村網民規(guī)模,B1;城鎮(zhèn)網民規(guī)模,B2;網民男性,C1;10歲及以下,C2;10-19歲,C3;20-29歲,C4;30-39歲,C5;40-49歲,C6;50-59歲,C7;60歲及以上,C8;小學及以下,D1;初中,D2;高中/中專/技校,D3;大專,D4;大學本科及以上,D5;學生,E1;個體戶/自由職業(yè)者,E2;其他職業(yè),E3;2000元以下,F(xiàn)1;2001-3000元,F(xiàn)2;3001-5000元,F(xiàn)3;5000元以上比例,F(xiàn)4;手機上網,G1;臺式電腦上網,G2;筆記本上網,G3;平均每周上網時長,G4。
2.2 手機網民影響指標的降維
分析因變量和自變量之間相關性時,通??刹捎枚嘣€性回歸分析方法進行定量描述??紤]模型自變量較多,且預估數(shù)據(jù)量之間存在一定程度的相關性,需借助于主成分分析方法對自變量進行降維處理。
考慮數(shù)據(jù)量變量較多,針對30個指標,僅選取其中11個指標,A1、A2、B1、C1、C2、D1、D2、E1、F1、G1、G2進行相關性分析,借助于SPSS17.0平臺,采用Pearson相關性雙尾檢驗,得到person自變量相關性,11個自變量大部分存在較為嚴重的相關性,除變量A1與其余部分變量之間不存在相關性外,其余指標之間幾乎均相關。因此,需要對自變量指標進一步處理,針對變量之間強的相關性,可采用主成分分析方法。
為方便后續(xù)預測模型的建立以及數(shù)據(jù)量簡化計算等方面因素,預測模型的輸入變量均采用主成分PC1-PC5,目標變量為手機網民規(guī)模Y。
2.3 BP和RBF神經網絡預測
在神經網絡預測模型中,隱含層數(shù)的選擇是一個難點,常用的公式有:
⑴ 隱含層神經元數(shù)=輸入層神經元數(shù)×2+1;
⑵ 隱含層神經元數(shù)=log2n,n為輸入層神經元數(shù);
⑶ 隱含層神經元數(shù)=(輸入層神經元數(shù)×輸出層神經元數(shù))1/2。
采用試錯法,盡管運算量較大,但能較好的保證網絡學習的精度。MATLAB神經網絡工具箱中,隱含層神經元個數(shù)默認上限為20個,設定隱含層神經元個數(shù)在3-20內,經測試發(fā)現(xiàn),當隱含層神經元個數(shù)為13時,網絡具有較高的訓練精度。
從圖1可清晰觀察到BP神經網絡和RBF神經網絡預測方法的有效性,預測結果與實際結果十分接近。采用BP神經網絡,預測2016年12月與2017年6月的手機網民規(guī)模分別為69046(萬人)和72359(萬人);采用BP神經網絡,預測2016年12月與2017年6月的手機網民規(guī)模分別為68702(萬人)和71972(萬人),具體數(shù)據(jù)結果見表5。
3 結束語
本文在手機網民規(guī)模預測模型的建立中,采用主成分分析方法,對30個自變量進行降維,采用BP和RBF神經網絡,分別預測2016年12月與2017年6月的手機網民規(guī)模。本文中數(shù)據(jù)采集和數(shù)據(jù)來源還有待進一步完善,由于樣本數(shù)據(jù)量不足,所選擇的數(shù)據(jù)指標個數(shù)會有一定片面性;此外在預測和前瞻性上,需進一步提高精度。
參考文獻(References):
[1] 方美琪.電子商務概論(第3版)[M].清華大學出版社,2009.
[2] 黃京華.電子商務教程[M].清華大學出版社,2010.
[3] 劉電威.我國電子商務發(fā)展現(xiàn)狀問題與對策研究[J].特區(qū)經
濟,2011.12:233-236
[4] 賈丹陽.電子商務對傳統(tǒng)商業(yè)模式的影響[J].電子商務,
2013.1:15-16
[5] 王冠男.3G背景下的電子商務發(fā)展前景分析[J]. 中國商貿,
2011.17:34-39
[6] 李哲平.“新常態(tài)”下電子商務發(fā)展戰(zhàn)略與體制保障[D].天津
師范大學,2015.
[7] 牟少霞.基于智能終端的移動電子商務商業(yè)模式研究[D].山
東師范大學,2014.
[8] 彭博.APP視角下的移動電子商務發(fā)展?jié)摿ρ芯縖D].重慶工
商大學,2015.
[9] 中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告[C].中國互聯(lián)網絡信息中
心,2016.7.
[10] S. Weisberg著,王靜龍譯.應用回歸分析[M].中國統(tǒng)計出版
社,2009.
[11] 何曉群,劉文卿.應用回歸分析[M].中國人民大學出版社,
2007.
[12] 葛哲學.神經網絡理論與MATLAB R2007[M].電子工業(yè)出
版社,2007.
[14] 葉新梅.我國移動電子商務發(fā)展研究[J].科技致富向導,
2011.12:26-29