• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      含定性解釋變量的Logistic回歸模型的實例研究

      2022-09-24 10:33:48劉瑞平蘇思奇
      關鍵詞:連續(xù)型定性網(wǎng)絡文學

      劉瑞平,蘇思奇

      (北京信息科技大學 理學院,北京100192)

      0 引言

      Logistic回歸模型是一種以分類變量作為響應變量的廣義線性模型,最初由David Cox 在1958年提出[1],其應用非常廣泛,比如生物醫(yī)學中對疾病狀態(tài)的劃分、經(jīng)濟金融中對信用卡違約用戶的識別、社會科學中的文本主題分類等?,F(xiàn)有的大量關于Logistic回歸模型的研究仍有可改進的地方:1)Logistic回歸模型中解釋變量僅僅涉及連續(xù)型變量(定量變量)[2-4],然而實際問題中往往需考慮將定性變量加入解釋變量中;2)有的文獻雖然考慮到定性變量,但文中涉及的定性變量均被統(tǒng)一處理為二分類變量,導致細節(jié)因素被忽略[5];3)當自變量涉及多分類定性變量時,有的文獻直接將多分類定性變量賦值為多個數(shù)值,例如在對高校社區(qū)老年人養(yǎng)老需求特征及其影響因素的研究[6]中,3種居住類型“獨居”、“與配偶同住”、“其他”直接被賦值為1、2、3。為此,本文將從一個實例出發(fā),探討Logistic回歸建模過程中的一些細節(jié)問題。

      本文關注網(wǎng)絡文學知識產(chǎn)權(intellectual property,IP)作品是否能被改編為影視劇的影響因素。網(wǎng)絡文學IP是以文學內(nèi)容為載體、具有開發(fā)潛能的優(yōu)質版權內(nèi)容,已成為影視劇創(chuàng)作的重要內(nèi)容來源。并非所有的網(wǎng)絡文學作品都適合改編成影視劇。為助力決策網(wǎng)絡文學IP作品是否適合影視化及其影視化策略的研究,本文將對網(wǎng)絡文學作品被改編的相關因素進行研究。目前國內(nèi)外對于網(wǎng)絡小說影視化的研究多集中于網(wǎng)絡文學改編劇的開發(fā)運營模式和網(wǎng)絡劇的版權價值,較少關注網(wǎng)絡文學作品被改編的相關因素,而且尚未結合統(tǒng)計學模型進行實證研究[7-10]。國外IP改編影視較多地集中在明星IP上,對于網(wǎng)絡小說的研究屈指可數(shù)[11-12]。

      本文基于晉江文學城互聯(lián)網(wǎng)平臺數(shù)據(jù),從網(wǎng)絡文學IP作品是否被改編這一角度出發(fā),對改編影響因素進行研究,從而了解當下大眾最喜愛的網(wǎng)絡文學IP作品特點,也為運營方關于網(wǎng)絡文學作品影視化的決策和對策提供參考。

      1 數(shù)據(jù)來源及變量介紹

      “晉江文學城”是近幾年網(wǎng)絡劇和影視劇改編IP作品的重要輸送平臺,因此本文以晉江文學城網(wǎng)站為數(shù)據(jù)來源。網(wǎng)絡文學IP作品的影視化改編可能與多方面因素影響有關,本文以網(wǎng)絡IP作品是否被改編作為響應變量,以作者粉絲數(shù)、作品背景類型、作品風格、作品題材、付費月榜排名、章節(jié)平均點擊數(shù)、作品被收藏數(shù)、作品被評論數(shù)、作品評分、參與評分人數(shù)作為解釋變量。10個解釋變量中既含有定量變量,也包括定性變量,所有變量的具體說明如表1所示。

      2 Logistic回歸模型簡介

      2.1 傳統(tǒng)的Logistic回歸模型

      Logistic回歸模型是二分類問題中的一種常用模型。經(jīng)典Logistic回歸模型設定解釋變量為連續(xù)型變量,并基于連續(xù)型自變量來分析和預測離散型因變量,是一種廣義線性模型。二分類邏輯回歸(binary logistic)模型中因變量Y只能取兩個值,用示性變量1和0來表示。將“事件發(fā)生”記為1,“未發(fā)生”記為0,事件發(fā)生的概率記為π,則變量Y取值為y的概率為P(Y=y)=πy(1-π)1-y,于是E(Y)=π=P(Y=1)。

      表1 變量說明

      傳統(tǒng)的Logistic回歸模型僅涉及連續(xù)型變量。為方便起見,考慮僅含一個連續(xù)型自變量X1的情形,則當自變量X1取值為x時因變量Y取1的條件概率為P(Y=1|X1=x)=E(Y|X1=x),記p=P(Y=1|X1=x),為了估計概率p,作logit變換:

      2.2 含定性解釋變量的Logistic回歸模型

      在實際問題中,解釋變量往往不只包含連續(xù)型變量。離散型或定性變量隨處可見,比如含有4個水平(春、夏、秋、冬)的季節(jié)變量,此時傳統(tǒng)模型已不再適用,需要對定性解釋變量作處理?,F(xiàn)有文獻中有兩種處理方式:一是將多分類變量直接賦值為多個水平;二是引入啞變量。事實上,將多分類變量直接賦值為多水平本身暗含了多分類取值之間存在大小差異的假設條件,而引入啞變量相比于直接賦值具有一定的優(yōu)勢,因此后者是常用的處理方法[14-15]。設變量Z為含有m個水平的定性變量,則需設定m-1個啞變量:D1,D2,…,Dm-1。本文將在實證分析過程中,試用不同變量處理方式得到不同的模型并進行探討。

      3 基于Logistic回歸模型的實證研究

      3.1 樣本的選取

      已獲取數(shù)據(jù)共含41 739部網(wǎng)絡文學作品,其中有350部作品被改編,可以看到樣本容量很大,同時改編與否兩類作品數(shù)量存在較大懸殊。因此在做模型擬合之前,先對數(shù)據(jù)進行抽樣。根據(jù)已獲數(shù)據(jù)的實際情況,采用欠抽樣方法,即通過減少多數(shù)類樣本來提高少數(shù)類的分類性能。最簡單的方法是隨機去掉某些多數(shù)類樣本來縮小其規(guī)模。因此本文對多數(shù)類(即未改編作品)進行欠抽樣,按照未被改編作品數(shù)量∶被改編作品數(shù)量=2∶1的比例進行抽取。

      首先針對少數(shù)類(即被改編作品),為了盡可能保留總體分布信息,基于作品類型采用分層抽樣,將被改編的作品按照作品類型劃為4層,并按照1∶1的比例分為訓練數(shù)據(jù)和預測數(shù)據(jù)。接下來在已獲取的未改編與被改編樣本中,根據(jù)每一層中被改編作品的數(shù)量,按2∶1的比例對未改編作品進行抽樣。最終將全部樣本分為訓練集和預測集兩部分,其中訓練集用于構建與估計Logistic 回歸模型,預測集的數(shù)據(jù)用于檢驗模型的預測能力。最終所得樣本數(shù)據(jù)規(guī)模如表2所示。

      表2 樣本規(guī)模

      3.2 建立Logistic回歸模型

      本研究中,因變量為網(wǎng)絡文學IP作品是否被改編,解釋變量共10個。其中包含7個連續(xù)型定量變量:付費月榜排名X1,章節(jié)平均點擊數(shù)X2,作品被收藏數(shù)X3,作品被評論數(shù)X4,作品評分X5,參與評分人數(shù)X6,作者粉絲數(shù)X7;另外含3個定性變量:作品的背景類型Z1(4類),作品風格Z2(4類),作品題材Z3(8類)。變量具體解釋參見表1。為了探討在應用Logistic回歸模型時需注意的細節(jié)問題,對多分類定性變量進行不同的設置,得到不同的Logistic回歸模型,并對這些模型的估計結果和擬合效果進行比較。

      3.2.1 對多分類定性變量進行不同設置

      1)將其直接賦值為多個水平

      用Z=(Z1,Z2,Z3)表示3個定性變量,然后分別對各定性變量進行直接賦值。例如變量Z1(背景類型)共含4類,則將該變量的4種類型“古代”、“架空歷史”、“近現(xiàn)代”、“未來”直接賦值為1、2、3、4。其余兩個定性變量Z2(作品風格)、Z3(作品題材)也做相同處理。于是所得模型為

      Y*=β0+β1X1+β2X2+…+β7X7+η1Z1+η2Z2+η3Z3+ε

      該模型同時含有定量變量與定性變量,模型可簡寫為

      Y*=β0+Xβ+Zη+ε

      (1)

      式中:X=(X1,X2,…,X7)代表7個連續(xù)型解釋變量,β=(β1,β2,…,β7)T為對應的系數(shù);η=(η1,η2,η3)T為3個定性變量的系數(shù)。記此模型為模型(1)。

      2)對多分類定性變量進行啞變量處理

      以“背景類型”這一變量為例,其中包含4個水平,此時引入3個啞變量:D11、D12、D13,當作品類型為“古代”時,(D11,D12,D13)取值為(1,0,0)。類似地,若(D11,D12,D13)取值為 (0,1,0),表示作品類型為“架空歷史”。對3個定性變量均作啞變量處理后,模型中變量維數(shù)為20,Logistic回歸模型為

      y*=β0+β1X1+β2X2+…+β7X7+γ11D11+γ12D12+γ13D13+γ21D21+γ22D22+γ23D23+

      γ31D31+…+γ37D37+ε,可以簡寫為

      Y*=β0+Xβ+D1γ1+D2γ2+D3γ3+ε

      (2)

      式中:X=(X1,X2,…,X7)代表7個連續(xù)型解釋變量;D1=(D11,D12,D13),D2=(D21,D22,D23),D3=(D31,D32,…,D37)分別表示3組啞變量。記此模型為模型(2)。

      為了比較對定性解釋變量的兩種處理方式所得模型的表現(xiàn),分別考慮模型所得變量顯著性情況與模型的擬合效果。表3給出了系數(shù)估計值顯著性情況(包括系數(shù)z值與P(>|z|),均由R語言中glm函數(shù)輸出),其中P(>|z|)越小表明變量的顯著性越高。本文采用Nagelkerke提出的擬合優(yōu)度[16]來比較不同模型的擬合效果,公式如下:

      表3 對定性變量不同處理方式下的系數(shù)顯著性結果

      3.2.2 關于“截距項在模型中顯著”

      在對多分類定性變量進行啞變量處理后,建模時經(jīng)常會出現(xiàn)截距項顯著的情形。對于模型(2),考慮3個定性變量對應的3組啞變量的不同組合形式。以“背景類型”這一變量為例,其中包含4個類,前文考慮了3個啞變量:(D11,D12,D13),對應(古代,架空歷史,近現(xiàn)代)。現(xiàn)在考慮4類中后3個類(架空歷史,近現(xiàn)代,未來)對應的啞變量:(D12,D13,D14),即:當作品類型為“古代”時,啞變量取值為(0,0,0),同理(1,0,0)表示“架空歷史”,(0,1,0)表示“近現(xiàn)代”,(0,0,1)表示“未來”??梢钥吹?,關于“背景類型”這一定性變量共有4種啞變量取法。同理,關于“作品題材”這一變量,共有8種啞變量取法。

      現(xiàn)在考慮實例中3個定性變量的所有啞變量取法并進行建模,可得4×4×8=128個模型。這些模型雖然本質相同,所得Akaike信息準則值相同,但共有42個模型所得截距項為顯著。故在實例分析中應用這些模型對實際問題進行解釋時,對各個定性變量對應的啞變量的顯著性解釋結果有所不同。因此,在應用含有定性變量的Logistic回歸模型時,需選取截距項不顯著的模型形式。

      3.3 對模型的進一步優(yōu)化

      模型(2)中包含7個連續(xù)型變量,經(jīng)Bartlett球形檢驗值,所得顯著性p<0.001,表明這些變量之間存在高度相關。因此接下來考慮做主成分分析實現(xiàn)降維,并盡可能多地包含對數(shù)據(jù)變異的解釋。前3個主成分的累積貢獻率依次為53.97%、69.81%、83.27%,因前3個成分對總變異的累積貢獻率高達83.27%,所以基本可以反映原來的7個連續(xù)變量的信息。表4給出了主成分分析載荷計算結果,第1主成分載荷顯示出作品被收藏數(shù)、章節(jié)平均點擊數(shù)的重要性。

      下面根據(jù)主成分所得結果進行模型優(yōu)化,根據(jù)方差累積貢獻率考慮在模型中選用前3個主成分。優(yōu)化后的Logistic回歸模型包含3組定性變量以及3個主成分:

      Y*=β0+Fβ+D1γ1+D2γ2+D3γ3+ε

      (3)

      式中:F=(F1,F(xiàn)2,F3)代表7個連續(xù)型解釋變量所得的3個主成分;D1=(D11,D12,D13),D2=(D21,D22,D23),D3=(D31,D32,…,D37)分別表示3組啞變量。記此優(yōu)化后的模型為模型(3)。

      表4 主成分分析所得載荷結果

      模型(3)系數(shù)估計結果及顯著性結果如表5所示。表5顯示了3個主成分在模型中的顯著性,其中第1個主成分F1顯著性最強,說明作品被改編與否的主要相關因素為作品被收藏數(shù)、章節(jié)平均點擊數(shù)(可概括為用戶粘性);第2、3成分對應的系數(shù)顯著性也極高,結合系數(shù)值以及表4中第2、3成分的載荷系數(shù),表明作品被評論數(shù)和評分值與作品改編與否的相關性強,間接反映了作品討論熱度以及作品本身質量與作品是否被改編的相關性較強。另外,作品題材(對應的文學作品題材為愛情類)也具有較高的顯著性,說明愛情題材類作品更容易被改編。

      表5 模型(3)估計結果

      下面將模型用于預測集,即觀察模型在新數(shù)據(jù)集上的預測效果。記樣本總數(shù)為n,真實改編個數(shù)為nP,未改編個數(shù)為nN,正確預測為改編的個數(shù)為nTP,正確預測為未改編的個數(shù)為nTN,誤預測為改編的個數(shù)為nFP,誤預測為未改編的個數(shù)為nFN??紤]如下指標:總體正確預測率RT=nP/n;正確預測改編比率RTP=nTP/nP;正確預測未改編比率RTN=nTN/nN;誤預測為改編比率RFP=nFP/nN;誤預測為未改編比率RFN=nFN/nP,易知:RTP+RFN=1,RTN+RFP=1。表6給出了原始模型以及優(yōu)化模型的預測率結果??梢钥闯鰞?yōu)化后模型對網(wǎng)絡文學IP改編與否的總體預測率較高(85.52%),與優(yōu)化前相比總預測能力得到了顯著提升。特別是對“適于改編”的錯誤預測率顯著降低,同時對“未被選作改編作品”結果的正確預測率顯著提升,結果高達92.29%。在實際應用中可表現(xiàn)為,對于“不適于改編”作品的預測更加準確。

      表6 模型預測結果 %

      3.4 結果分析

      基于數(shù)據(jù)分析結果,可以發(fā)現(xiàn)網(wǎng)絡文學IP作品被改編的主要相關因素為:用戶粘性、作品討論熱度以及作品題材風格。其中,用戶粘性及用戶感受與是否被改編的相關程度更大,在實際生活中可以直觀地體現(xiàn)為網(wǎng)絡文學IP作品具有的粉絲基礎及受眾人群對改編影視劇的接受程度;作品的討論度在實際生活中可以體現(xiàn)為改編劇播出前在微博等媒體平臺上的討論熱度。由作品背景類型、風格以及作品題材變量和3個主成分構建的回歸模型正確預測率達到85.52%,其中對未被改編的IP作品預測準確率為92.29%,對被改編的IP作品的預測準確率達到72%。說明模型(3)對網(wǎng)絡文學IP影視劇改編的選擇具有較好的預測能力。

      4 結束語

      本文構建的Logistic回歸模型給出了網(wǎng)絡文學作品改編與否的相關因素,可為影視劇產(chǎn)業(yè)對文學IP作品改編提供決策和對策參考,從而降低原創(chuàng)劇本開發(fā)成本。相關建議如下:第一,為打造高質量網(wǎng)絡文學IP改編影視劇,制片方、投資方應結合現(xiàn)有平臺數(shù)據(jù)資源對優(yōu)質網(wǎng)絡文學IP作品下粉絲用戶行為進行深入分析,挖掘用戶需求,引領用戶文化價值取向;第二,關注網(wǎng)絡文學IP作品本身,以保證改編作品質量;第三,豐富網(wǎng)絡文學IP作品改編影視劇題材。當前數(shù)據(jù)分析顯示改編作品偏重愛情類題材,建議不拘泥于熱點,著眼于更多具有創(chuàng)新點的網(wǎng)絡文學作品,提高改編劇的整體價值。

      從研究方法來看,應用Logistic回歸模型可助力各類應用場景下的決策。在具體應用過程中,當模型中除了定量變量外同時含有定性變量時,采用引入啞變量的處理方式要優(yōu)于對定性變量直接進行多水平賦值的方式,后者可能會帶來信息損失;建模過程中若出現(xiàn)截距項顯著的情形,則必有某個啞變量的解釋作用被忽略,此時考慮啞變量的多種組合方式可避免截距項的顯著,從而找到真正起顯著作用的關鍵變量。在未來研究中,可以進一步考慮高維情形下的Logistic回歸模型中對定性變量的變量選擇。另外,在該實例研究中可考慮將生命周期分為不同階段,數(shù)據(jù)變化與階段保持一致,例如,將時間維度細化到作品完結或被購買IP的前一個月、前一周等,從而建立動態(tài)模型。

      猜你喜歡
      連續(xù)型定性網(wǎng)絡文學
      自變量分段連續(xù)型Volterra積分微分方程的配置法
      分裂平衡問題的Levitin-Polyak適定性
      連續(xù)型美式分期付款看跌期權
      對待網(wǎng)絡文學要去掉“偏見與傲慢”
      當代陜西(2019年8期)2019-05-09 02:23:26
      網(wǎng)絡文學竟然可以這樣“玩”
      當代陜西(2019年8期)2019-05-09 02:23:24
      揭秘網(wǎng)絡文學
      當代陜西(2019年8期)2019-05-09 02:23:16
      當歸和歐當歸的定性與定量鑒別
      中成藥(2018年12期)2018-12-29 12:25:44
      網(wǎng)絡文學的誕生
      基于晶圓優(yōu)先級的連續(xù)型Interbay搬運系統(tǒng)性能分析
      共同認識不明確的“碰瓷”行為的定性
      诸城市| 巩留县| 电白县| 双牌县| 长子县| 蓬溪县| 江津市| 海晏县| 吐鲁番市| 莫力| 屯留县| 浦江县| 三明市| 绍兴县| 静安区| 邵东县| 黄大仙区| 珠海市| 泰宁县| 襄垣县| 三台县| 新沂市| 永德县| 关岭| 嘉荫县| 沿河| 临泉县| 长寿区| 丹寨县| 黄陵县| 阿鲁科尔沁旗| 安龙县| 阿拉善左旗| 博野县| 高唐县| 基隆市| 怀宁县| 西峡县| 光泽县| 宁南县| 东光县|