李勝華 黃云舒
[摘要]本文對網絡小說紙質書的出版和銷售數據建立了相應的回歸分析模型,并應用基于懲罰函數的極大似然估計方法,得到了變量選擇、組別選擇和參數估計的統(tǒng)計推斷結果,為網絡小說的出版和營銷策略提供了理論依據和有價值的建議。
[關鍵詞]網絡小說;銷量;懲罰函數;極大似然;變量選擇
[中圖分類號]F49
[文獻標識碼]A
[文章編號]1671-5918 (2018)02-0114-03
一、介紹
在當今的文化生產與消費領域,“l(fā)P”已成熱詞,優(yōu)質“l(fā)P”更成為影視、游戲和出版生產制作商所追捧的熱門資源。優(yōu)秀的網絡小說,就是優(yōu)質lP的重要發(fā)端。這些被網友追捧的網絡小說,甚至能引起一時的轟動和熱銷,銷量超過百萬冊的不在少數。那么,網絡小說紙質書的熱銷有什么規(guī)律可循呢?是不是受網友追捧的小說都能熱銷?有哪些因素在起作用?為回答這些問題,本文考察了近年來最受網友喜愛并有較大點擊量的網絡小說,試圖通過樣本圖書的相關數據,對風險影響因素建立回歸模型,找出影響這些圖書銷量的重要因素,以期為網絡小說的出版和營銷提供可借鑒的一些行業(yè)規(guī)律。
我們收集到40種網絡小說紙質書的實際數據,考慮了14個影響銷售量的協變量。在該實證分析數據中,回歸模型變量個數相對于樣本容量明顯偏多。如果用所有14個協變量對相應變量進行回歸分析,容易造成過擬合現象。所以,在建模過程中,首先需要能識別出重要變量,再對重要變量系數進行參數估計。此外,協變量之間可能存在組別效應。如反應小說類別的若干啞變量具有強相關性,可以看作來自于同一組的變量。因此,在識別重要變量的同時,還需要能識別出重要組別。這些要求給數據的統(tǒng)計分析和建模帶來了相當大的挑戰(zhàn),大量統(tǒng)計學者已經在這方面進行了廣泛的研究,得到了一些好的結果。
本文將由實際數據出發(fā),建立相應回歸分析模型,研究具體統(tǒng)計推斷過程,以同時實現變量選擇、組別選擇和參數估計等結果。并由統(tǒng)計分析結果,反饋于網絡小說紙質書數據,得出影響銷售風險因素的統(tǒng)計推斷結果。具體地,全文結構如下:第二部分對網絡小說紙質書數據建立回歸模型;第三部分研究統(tǒng)計推斷方法;第四部分進行實證分析,給出統(tǒng)計推斷結果,為出版關于網絡小說的出版提出相應建議。
二、模型建立
本文收集到近年出版的40部網絡小說紙質書銷量以及13類可能影響銷量的風險因素,現將相關數據來源說明如下:(1)本文考察的40部網絡小說,是從網友在2000多部網絡小說中評選出最喜歡的前50部中抽取,并已由出版社正式出版和銷售。(2)有關40種圖書的版本信息、銷量數據等,均來自于北京開卷信息技術有限公司( http://www. openbook. com. cn)的數據庫。(3)開卷公司監(jiān)測的圖書銷量數據,大概是該圖書在市場上實際銷量的四分之一,故開卷監(jiān)測銷量達2.5萬冊的圖書,圖書實際銷量己過10萬冊,出版業(yè)界可稱為暢銷書。(4)有關網絡小說是否改編為影視劇和是否熱播的信息,均來自于豆瓣網( https://www.douban.com)的相關查詢結果。
由于銷售高于2.5萬冊的書籍可以認為是暢銷書籍,如果銷售量高于2.5萬冊,定義第i,(/=1,…,40)種網絡小說銷售量y。=1,否則取K=0。影響銷量的13類風險因素{x;,k=l,…,13}列于表1中。這些變量中,X2和X4是連續(xù)型變量,其他為離散型變量。此外,變量Xg是名義數據,其取值將小說分為3種類別。不同于有序變量,考慮該因素對銷售量的影響時,需要進一步對該因素引入相應的啞變量。z。的兩個啞變量Xg和Xg分別表示青春校園類和幻想類相對其他小說酌差異。由于Xg和Xg同屬于小說類別這一類風險因素,這2個變量間有明顯組別關系,可以將它們分為一個組。我們將第i套書籍的風險因素向量記為xi=(xi1,…,xi8,xi,,xi,10,…xi13),其中xik是第i種書籍的第k個風險因素。
基于銷售量的分類特性,我們假設銷售量y。關于表1中所列14個變量服從如下logistic回歸模型:
有公式
其中參數p=(有公式)是待估計的未知回歸系數。
三、統(tǒng)計推斷過程
本節(jié)我們將對觀察數據(Y,xi),i=1,…n,n =40建立基于懲罰的極大似然估計方法,以達到同時實現變量選擇和參數估計的目的。
首先,關于參數p相應的似然函數為
有公式
這里概率函數P(Yi/xi)由(1)式和二項概率的分布決定,其負對數似然函數記為有公式。
為能在參數估計的同時,實現變量選擇和組別選擇,我們在負對數似然函數基礎上,增加一個懲罰函數,構造得到如下目標函數:
有公式
其中A。是調節(jié)參數,p(.)是懲罰函數。最小化目標函數Q(p)即得到參數p的估計量p。
目前廣泛被采用的懲罰函數有Lasso,SCAD,MCP等等。Huang等研究了線性模型中基于group bridge懲罰函數的極大似然估計,該文定理1說明相應估計量具有選擇相合性,重要變量回歸系數具有漸近正態(tài)性等大樣本性質,并給出了估計的方差估計公式。為實現同時識別組別和變量,本文采用groupbriclge懲罰函數,其定義如下: 有公式
其中協變量被分為A組,A是由第j組協變量下標構成的下標集合,y是在(0,1)間取值的參數,lI“l(fā)I.為向量d的L.范數,q正比于第j組變量個數。
注1:調節(jié)參數A。的選擇標準通常有AIC,BIC,GCV等方法。由于研究的實際數據樣本量不大,我們將采用ccv標準確定,即選取使得如下CCV函數最小的A。為調節(jié)參數:
有公式為非零變量個數的估計量。
四、實證分析
在對真實數據的實證分析中,我們將14個風險因素協變量分為13組,其中Xgl和X為一組,其余12個變量各為一組。取定(3)式中參數c,=1,y=0.5,通過調用R軟件grpreg庫中的gBridge()函數對數據進行分析,相應的回歸系數統(tǒng)計推斷結果列于表2中。
注:不重要變量回歸系數估計值為0;所有重要變量回歸系數估計的p值均小于0. 001
從表2看出如下幾點:
1.利用基于懲罰極大似然估計的回歸分析方法,表2結果顯示發(fā)行出版社(Xl),作者(X2)、出版時間(X3)、發(fā)行價格(X4)、版次(X7)、頁碼(XIO)等因素的回歸系數為O,這表明這些方面不是影響銷量的重要因素。在對銷量回歸模型的建立中,可以不用再考慮這些因素;
2.所有重要變量回歸系數估計的p-值均小于0.001,這表明是否為套書、裝幀、開本、小說分類、是否改編為影視劇、是否圖書公司策劃、是否獲獎等等因素,對銷量均有顯著影響;
3.對銷量有顯著影響的重要變量中,結合其回歸系數估計的符號可以進一步看出,單本(X5)、平裝(X6)、16開本(x8)的書籍銷售情況更有優(yōu)勢,青春校園類比其他類書籍(Xgl)更具有銷售市場,改編為影視?。▁11)、經過圖書公司策劃( X12)、以及有獲獎或上榜(X13)的書籍有更高的銷量。
以上幾點將給出版社出版網絡小說提供一些新的啟示:
啟示一:首先可以明顯看到,被改編為影視劇并熱播的網絡小說,其紙質書暢銷的幾率很高。故出版社應首先考慮網絡小說的內容是否上乘,是否具有作為影視、游戲等多媒體開發(fā)的lP潛質。已經改編為影視劇并熱播的網絡小說,應是出版社的首選。
啟示二:出版社的類型、作者是否已出版過暢銷書以及圖書的定價高低等因素,在常規(guī)情況下都是出版社出版圖書時的重要考量因素,對圖書市場的常規(guī)暢銷書的銷量有較大影響。但從本模型的推斷結果看,這些因素對網絡小說的紙書銷量并無顯著影響。與此同時,青春校園類、16開的平裝單行本在銷量上更占優(yōu)勢,這可能是網絡小說這一類別圖書的特例。這些結論可作為出版社的重要參考意見。
啟示三:經由民營圖書策劃公司策劃的,以及獲得過網絡小說大獎、閱讀榜單TOP10的網絡小說,出版后暢銷的幾率較大;出版行業(yè)通常認為作者名氣、圖書定價、頁碼(字數)和出版社品牌等因素對圖書銷量有重要影響,但是本文分析結果顯示這些變量對網絡小說銷量的影響并不重要,出版社對此應重點關注。
參考文獻:
[1]徐瀟然.網絡小說lP熱帶動選題包羅萬象[N].中國出版?zhèn)髅缴虉螅?016 -12 - 20.
[2]史建國.網絡小說影視改編凋查研究[J].當代文壇,2015(6):91 -95.
[3]聶欣悅.淺析中國網絡小說的影視改編[J].新聞研究導刊,2016( 11):176 - 177.
[4]潘昱含.如何利用大數據為圖書出版指導方向[J].中國傳媒科技,2017(6):85 -86.
[5] Fan,J. and Lv ,J.A selective overwew of variable selection inhigh dimensional feature space[J].Sinica,2010( 20):101 - 148.
[6] Ma,S. ancl Huang,J. Combining clinical and genomic covariates via Cov - TCDR[J].Cancer Informatics,2007(3):371 - 378.
[7] Yuan, M. ancl Lin,Y. Moclel selection anci estimation in regression with grouped variables[ J]. J. R. Statist. Soc. B2006 68 , 49 -67.
[8] Kim,Y. ,Kim,J. and Kim,Y. The blockwise sparse regression. Statist.[ J '1 . Sinica, 2006 ( 16) :375 - 390.
[9] Zhao,P. ,Rocha,C. and Yu,B. Crouped and hierarchical model selection through composite absolute penalties[ J ] . Ann. Statist,
2009 ( 37) :3468 - 3497.
[10] Tibshirani, R. Regression shrinkage ami selection via the lasso [ J] . J. li. Stacist. Soc. B1996 ( 58 ) :267 - 288.
[11] Fan,J. and Li,R. Variable selection via nonconcave penalizecl likelihood and its oracle propertiesi[ J ] . J. Amer. Statist. Assoc,
2001( 96) :1348 - 1360.
[12] Zhang, C. Nearly unbiased variable selection under minimax concave penalty [J ] . Ann. Statist,2010 ( 38 ) :894 - 942.
[13]Huang,J. ,Ma,S. Xie, H. and Zhang,rr. A group bi/cige approach for variable selection [ J ] . Biometrika,2009 ( 96) :339 - 355.