劉佳 朱云慧 張?zhí)鞓?lè)
摘 要:以問(wèn)卷調(diào)查的方式收集數(shù)據(jù),采用數(shù)據(jù)挖掘的方法深度分析數(shù)據(jù),研究在校大學(xué)生網(wǎng)絡(luò)使用現(xiàn)狀。嚴(yán)格遵循數(shù)據(jù)挖掘的步驟,對(duì)問(wèn)卷數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)weka數(shù)據(jù)挖掘平臺(tái),進(jìn)行關(guān)聯(lián)規(guī)則及聚類分析,得出不同用戶組特征,從而挖掘出用戶的上網(wǎng)行為模式和潛在上網(wǎng)規(guī)律,對(duì)網(wǎng)絡(luò)運(yùn)營(yíng)商的科學(xué)運(yùn)營(yíng)模式提出合理的建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;電信運(yùn)營(yíng)商;大學(xué)生;行為
大學(xué)生對(duì)網(wǎng)絡(luò)使用的需求日漸增多,目前的網(wǎng)絡(luò)質(zhì)量卻未達(dá)到令人滿意的程度。此次研究可以讓網(wǎng)絡(luò)運(yùn)營(yíng)商適當(dāng)改善網(wǎng)絡(luò),有利于網(wǎng)絡(luò)的長(zhǎng)足發(fā)展,實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)營(yíng)商與校園網(wǎng)用戶間的雙贏。我們將使用數(shù)據(jù)挖掘中聚類和關(guān)聯(lián)規(guī)則分析技術(shù),深度研究分析數(shù)據(jù),探究校園內(nèi)網(wǎng)絡(luò)用戶行為現(xiàn)狀以及偏好成因,為運(yùn)營(yíng)商的網(wǎng)絡(luò)經(jīng)營(yíng)策略提供建議。同時(shí)也提高消費(fèi)者使用網(wǎng)絡(luò)的滿意度。對(duì)于網(wǎng)管中心,全面掌握了校園內(nèi)網(wǎng)絡(luò)的使用狀況及其發(fā)生的因素后,能對(duì)于校內(nèi)的網(wǎng)絡(luò)更有效地規(guī)范與控制,從而建立校內(nèi)網(wǎng)絡(luò)更有效的管理機(jī)制。
一、數(shù)據(jù)挖掘
(一)基本概念。數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中發(fā)現(xiàn)并抽取隱含的、未知的、有潛在應(yīng)用價(jià)值的知識(shí)過(guò)程。數(shù)據(jù)挖掘的目的是為決策者提供有效的決策支持。[1]其流程依次為:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)規(guī)約、模型建立、可視化分析。
(二)WEKA。WEKA是一個(gè)數(shù)據(jù)挖掘?qū)嶒?yàn)平臺(tái),集成了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化等。本項(xiàng)目采用WEKA平臺(tái)進(jìn)行數(shù)據(jù)挖掘,主要運(yùn)用其中的聚類和關(guān)聯(lián)規(guī)則分析。
(三)聚類分析。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。[2]此次聚類分析選用的是K-means聚類分析方法,在Filter樹中SimpleKMeans算法,并將numCluster值設(shè)為4,其余均為默認(rèn)值。[3]表示將所給的屬性按照一定的規(guī)則分為4類,分別表示四類不同特征的用戶群體。
(四)關(guān)聯(lián)規(guī)則分析。關(guān)聯(lián)規(guī)則是形如A==>B的蘊(yùn)涵式,A和B分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(LHS)和后繼(RHS)。
關(guān)聯(lián)規(guī)則分析則是采用分箱離散化處理,在Filter樹中Discretize算法,設(shè)閾值為0.9,默認(rèn)選擇前10條規(guī)則。關(guān)聯(lián)規(guī)則的結(jié)果形如“A==>B conf:(C)”,其中“A==>B”表示情況A發(fā)生且情況B發(fā)生,“conf:(C)”稱為置信度(Confidence level),其中C為百分比數(shù)值,置信度表示事件已包含A的情況下,包含B的百分比,關(guān)聯(lián)規(guī)則分析得出的結(jié)果是根據(jù)置信度由高到低排列的規(guī)則。
二、群體特征分析
(一)聚類分析
表1是對(duì)用戶使用網(wǎng)絡(luò)的基本信息的聚類分析。
第一類用戶占比最少,該類用戶上網(wǎng)地點(diǎn)為宿舍,月生活費(fèi)1548元,月上網(wǎng)資費(fèi)66元,選擇使用電信寬帶,日上網(wǎng)時(shí)間較其他分類較多,高達(dá)10h,上網(wǎng)目的主要集中于看視頻、社交聊天,偏娛樂(lè)方向。對(duì)這類學(xué)生深入調(diào)查可知該類用戶對(duì)于網(wǎng)絡(luò)依賴性較高,對(duì)網(wǎng)速要求較低。第二類用戶占比最高,為三分之一,上網(wǎng)地點(diǎn)為宿舍,月生活費(fèi)1319元,月上網(wǎng)資費(fèi)70元,在所有分類中上網(wǎng)資費(fèi)占生活費(fèi)比重最高。選擇電信寬帶,日上網(wǎng)時(shí)間為4h,上網(wǎng)目的涵蓋了除玩游戲之外的所有選項(xiàng),可見(jiàn)該類用戶上網(wǎng)目的較綜合,幾乎每個(gè)指標(biāo)都與總體水平相當(dāng)。第三、四類用戶上網(wǎng)資費(fèi)占生活費(fèi)比重、上網(wǎng)目的兩指標(biāo)水平相當(dāng)。而網(wǎng)絡(luò)類型與上網(wǎng)時(shí)間不同。第三類校園無(wú)線網(wǎng)用戶上網(wǎng)時(shí)間為6h,第四類電信寬帶用戶上網(wǎng)時(shí)間為4h。進(jìn)一步調(diào)查可知,第三類用戶與其他分類不同在于宿舍區(qū)覆蓋校園無(wú)線網(wǎng),價(jià)格相較其他網(wǎng)絡(luò)稍便宜,所以該類上網(wǎng)資費(fèi)也較低。總體分析,上網(wǎng)地點(diǎn)為宿舍、網(wǎng)絡(luò)類型為電信寬帶,上網(wǎng)目的為“看視頻”同時(shí)“不玩游戲”,這幾點(diǎn)幾乎是所有用戶的共性。這由本校女多男少特性造成,女生偏愛(ài)看視頻、不玩游戲,視頻可集中下載而非時(shí)刻在線,用戶使用網(wǎng)絡(luò)時(shí)間較短,視頻播放多為手機(jī)播放,由此運(yùn)營(yíng)商可以調(diào)整套餐安排,推出相較低網(wǎng)速、短時(shí)長(zhǎng)、低價(jià)位的無(wú)線網(wǎng)絡(luò)套餐;針對(duì)少量游戲用戶,有線套餐則要做到高網(wǎng)速、長(zhǎng)時(shí)長(zhǎng)、高穩(wěn)定性。
2、運(yùn)營(yíng)商類型與使用問(wèn)題的聚類分析
表2是對(duì)用戶使用網(wǎng)絡(luò)時(shí)可能出現(xiàn)的問(wèn)題的聚類分析。
第二類用戶所占比例最大,約為樣本總量的一半,幾乎所有指標(biāo)都與總體水平一致,只比總體的選擇多出一項(xiàng)問(wèn)題選擇:電信寬帶無(wú)法使用無(wú)線網(wǎng)。因?yàn)楝F(xiàn)在的學(xué)生主要的上網(wǎng)工具是手機(jī)、ipad而非電腦,無(wú)法使用無(wú)線網(wǎng)會(huì)使很大一部分用戶覺(jué)得不便捷。
第一、三、四類用戶比例都很平均,第一類用戶出現(xiàn)的問(wèn)題是:電信寬帶網(wǎng)絡(luò)無(wú)響應(yīng),而第三類用戶同樣表示移動(dòng)CMCC也出現(xiàn)同樣問(wèn)題,由此可見(jiàn)兩類網(wǎng)絡(luò)的技術(shù)都不完善,仍需努力提高技術(shù)水平,提升硬件質(zhì)量。第四類用戶反映的情況較其他三類明顯增多,可能是因?yàn)樵擃愑脩魧?duì)于網(wǎng)絡(luò)的體驗(yàn)要求較高,或由于地理位置、天氣等因素以致上述問(wèn)題出現(xiàn)較頻繁。
(二)關(guān)聯(lián)規(guī)則分析
1、總體屬性關(guān)聯(lián)分析:
對(duì)整體屬性關(guān)聯(lián)規(guī)則分析,便于我們對(duì)問(wèn)卷中所有問(wèn)題的關(guān)聯(lián)性有整體認(rèn)知。從表3初步可看出屬性間的關(guān)聯(lián)性主要出現(xiàn)在上網(wǎng)目的、使用網(wǎng)絡(luò)類型及使用網(wǎng)絡(luò)會(huì)出現(xiàn)的問(wèn)題這三者間。
從第一條可以看出,當(dāng)用戶注重因素偏向于網(wǎng)絡(luò)穩(wěn)定時(shí),用戶不太能忍受網(wǎng)絡(luò)穩(wěn)定性帶來(lái)的問(wèn)題;從第二、三、四、八條可以看出,當(dāng)用戶上網(wǎng)主要為了玩游戲等對(duì)網(wǎng)速要求較高的活動(dòng)時(shí),網(wǎng)速并不能很好地滿足用戶需求;從第五、九條可以看出,在上網(wǎng)時(shí)間、上網(wǎng)目的及性別間也有不太明顯的聯(lián)系,女生若日上網(wǎng)時(shí)間限制于4h,則上網(wǎng)目的不太可能是玩游戲;從第六、七條可以看出,若上網(wǎng)地點(diǎn)在宿舍,用戶較傾向上網(wǎng)看視頻,且選擇網(wǎng)絡(luò)類型偏向于電信寬帶。
基于以上對(duì)全體屬性的關(guān)聯(lián)分析,初步看出校園網(wǎng)絡(luò)用戶上網(wǎng)以看視頻、玩游戲等休閑娛樂(lè)目的為主,網(wǎng)速的要求一般。同時(shí)可看出大多數(shù)校園網(wǎng)絡(luò)用戶對(duì)網(wǎng)絡(luò)的要求偏向網(wǎng)絡(luò)的高穩(wěn)定性。因此我們認(rèn)為,校園網(wǎng)絡(luò)運(yùn)營(yíng)商可以著手維護(hù)其網(wǎng)絡(luò)的穩(wěn)定性,在宣傳時(shí),更加突出強(qiáng)調(diào)其在網(wǎng)絡(luò)穩(wěn)定方面的優(yōu)越性,而非單一地強(qiáng)調(diào)網(wǎng)速問(wèn)題。
2、網(wǎng)絡(luò)類型與上網(wǎng)目的關(guān)聯(lián)分析:
根據(jù)整體關(guān)聯(lián)分析,我們得到了更可能有關(guān)聯(lián)性的屬性,單獨(dú)對(duì)網(wǎng)絡(luò)類型及上網(wǎng)目的進(jìn)行關(guān)聯(lián)規(guī)則分析。從表4初步可看出,不僅網(wǎng)絡(luò)類型與上網(wǎng)目的間有所關(guān)聯(lián),上網(wǎng)目的彼此間也有所聯(lián)系。
從第一、二、三、四、五、八、九條可看出,用戶上網(wǎng)目的不局限于某一種或幾種特定的行為,用戶更愿意根據(jù)自己的需求隨意選擇,而非被網(wǎng)絡(luò)的網(wǎng)速、網(wǎng)絡(luò)穩(wěn)定性等因素局限。從第六、七、十條可以看出,當(dāng)網(wǎng)絡(luò)類型為校園無(wú)線網(wǎng)或移動(dòng)CMCC時(shí),用戶都不會(huì)選擇玩游戲這種對(duì)網(wǎng)速要求較高的活動(dòng),從這點(diǎn)可看出校園網(wǎng)及移動(dòng)CMCC并不能滿足用戶需求。
基于以上對(duì)上網(wǎng)目的及網(wǎng)絡(luò)類型的關(guān)聯(lián)分析,我們可初步看出用戶對(duì)學(xué)校內(nèi)無(wú)線網(wǎng)絡(luò)的網(wǎng)速不滿意。因此我們認(rèn)為,校園網(wǎng)絡(luò)運(yùn)營(yíng)商應(yīng)著手提高網(wǎng)速。同時(shí)運(yùn)營(yíng)商也可以試著向?qū)W生推出網(wǎng)速較快的無(wú)線網(wǎng),更好地滿足用戶的需求。
3、網(wǎng)絡(luò)類型、上網(wǎng)時(shí)間與上網(wǎng)目的的關(guān)聯(lián)分析:
如表5,我們選擇對(duì)網(wǎng)絡(luò)類型、每日上網(wǎng)時(shí)間、上網(wǎng)目的關(guān)聯(lián)規(guī)則分析。從第一、二、四條看出,當(dāng)用戶上網(wǎng)每日上網(wǎng)時(shí)間在4h左右時(shí),其上網(wǎng)目的傾向?yàn)g覽網(wǎng)頁(yè)及社交聊天,不太可能上網(wǎng)看視頻及打游戲;從第三條看出,當(dāng)用戶上網(wǎng)時(shí)間在6h時(shí),用戶上網(wǎng)時(shí)間較充裕,因此此時(shí)上網(wǎng)目的并不受上網(wǎng)時(shí)間限制;從第五條看出,網(wǎng)絡(luò)類型為校園無(wú)線網(wǎng)、上網(wǎng)時(shí)間為4h,用戶會(huì)受網(wǎng)速與時(shí)間的雙重限制,此時(shí)用戶不太可能選擇玩游戲,這與受調(diào)查人群多為女生也有關(guān)。
基于以上對(duì)網(wǎng)絡(luò)類型、每日上網(wǎng)時(shí)間、上網(wǎng)目的的關(guān)聯(lián)分析,我們初步看出用戶的上網(wǎng)時(shí)間對(duì)其上網(wǎng)目的有一定的影響,進(jìn)而會(huì)影響用戶的網(wǎng)絡(luò)選擇。因此,校園網(wǎng)絡(luò)運(yùn)營(yíng)商可以初步了解學(xué)生上網(wǎng)的基本情況,再針對(duì)其用戶需求進(jìn)行宣傳。
三、結(jié)論
本文主要通過(guò)對(duì)約300份問(wèn)卷篩選、數(shù)據(jù)預(yù)處理后,利用數(shù)據(jù)挖掘中聚類與關(guān)聯(lián)規(guī)則分析,對(duì)在校大學(xué)生網(wǎng)絡(luò)選擇與使用的情況進(jìn)行深度分析,得出相關(guān)結(jié)論,提出相關(guān)的意見(jiàn)與建議。同時(shí)豐富了電信運(yùn)營(yíng)商產(chǎn)業(yè)市場(chǎng)發(fā)展現(xiàn)狀與市場(chǎng)競(jìng)爭(zhēng)的相關(guān)理論體系,填補(bǔ)了關(guān)于大學(xué)校園內(nèi)網(wǎng)絡(luò)使用現(xiàn)狀及未來(lái)發(fā)展策略研究的空白,對(duì)在校大學(xué)生選擇電信寬帶類型、電信運(yùn)營(yíng)商了解自身優(yōu)缺點(diǎn)并改善軟硬件條件以吸引更廣泛客戶群具有一定的實(shí)踐指導(dǎo)價(jià)值。
通過(guò)以上分析,提出以下結(jié)論:1、目前的電信運(yùn)營(yíng)商套餐劃分有些粗糙,不能緊密貼合在校大學(xué)生網(wǎng)絡(luò)行為特點(diǎn)。運(yùn)營(yíng)商應(yīng)詳細(xì)地調(diào)查校園用戶的行為,制定出分類更詳細(xì)、更貼近學(xué)生需求的套餐;2、學(xué)生在選擇網(wǎng)絡(luò)時(shí)較關(guān)注的因素是網(wǎng)速,在使用過(guò)程中用戶體驗(yàn)最差的是網(wǎng)絡(luò)穩(wěn)定性問(wèn)題。電信運(yùn)營(yíng)商在技術(shù)上及套餐宣傳時(shí)應(yīng)當(dāng)依據(jù)此點(diǎn)做出相應(yīng)措施;
對(duì)于移動(dòng)CMCC反饋的普遍問(wèn)題是網(wǎng)速問(wèn)題,對(duì)于電信寬帶反饋的普遍問(wèn)題是無(wú)法使用無(wú)線網(wǎng)路問(wèn)題。前者應(yīng)當(dāng)改善技術(shù)問(wèn)題,后者則應(yīng)當(dāng)適當(dāng)調(diào)整自身運(yùn)營(yíng)策略,相應(yīng)用戶的需求,這樣才能留住客源。
參考文獻(xiàn):
[1]Pang-Ning Tan.Michael Steinbach.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2011.
[2]jiawei Han.Miicheline Kamber .DataMining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2001.
[3]潘瑩,梁京章,黎慧娟.基于K-means算法的校園網(wǎng)用戶聚類分析[J].計(jì)算機(jī)技術(shù)與自動(dòng)化,2007(3):67-68.