四川大學(xué)工商管理學(xué)院 朱超 何躍
改革開放30年來,旅游業(yè)持續(xù)快速發(fā)展,引人矚目。西部地區(qū)是我國旅游資源最為富集的地區(qū),資源總量約占全國總量的40%。特別是實(shí)施西部大開發(fā)戰(zhàn)略10年來,西部地區(qū)的旅游基礎(chǔ)設(shè)施、公共服務(wù)設(shè)施以及產(chǎn)業(yè)體系不斷完善,產(chǎn)業(yè)功能和素質(zhì)不斷拓展和提升,旅游業(yè)成為西部地區(qū)的重要產(chǎn)業(yè),對(duì)促進(jìn)農(nóng)民增收和脫貧致富,推進(jìn)生態(tài)環(huán)境和文化的保護(hù),促進(jìn)民族團(tuán)結(jié)和邊疆穩(wěn)定,實(shí)現(xiàn)區(qū)域協(xié)調(diào)發(fā)展發(fā)揮了重要作用。四川作為具有豐富旅游資源的西部大省,在旅游業(yè)的建設(shè)和發(fā)展上有自身的優(yōu)勢(shì)和特色。
關(guān)于旅游市場(chǎng)的研究,目前大多數(shù)都是采用定性的研究方法,或者統(tǒng)計(jì)方法,例如,周子波[1]等人從國內(nèi)旅游業(yè)中存在的問題入手,闡釋了中國旅游業(yè)的內(nèi)部結(jié)構(gòu)調(diào)整,并提出了發(fā)展國內(nèi)旅游業(yè)的幾點(diǎn)意見。李江帆[2]等人運(yùn)用投入產(chǎn)出理論,以廣東省投入產(chǎn)出表為依據(jù),對(duì)旅游業(yè)的產(chǎn)業(yè)關(guān)聯(lián)和產(chǎn)業(yè)波及效應(yīng)作了定量分析;周欣胤等[3]曾經(jīng)使用Apriori關(guān)聯(lián)規(guī)則挖掘模型,對(duì)四川省2007年卷煙市場(chǎng)數(shù)據(jù)進(jìn)行過研究,找出了其中的關(guān)聯(lián)規(guī)則;以及蘇振揚(yáng),趙慶國[4]曾論述了基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)在中小學(xué)師資管理系統(tǒng)中的應(yīng)用。
通過文獻(xiàn)查閱,還沒有發(fā)現(xiàn)應(yīng)用關(guān)聯(lián)規(guī)則的Apriori算法,對(duì)旅游市場(chǎng)進(jìn)行研究的論文。本文用收集的四川旅游市場(chǎng)調(diào)查資料,用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法,對(duì)消費(fèi)者喜愛的四川旅游景點(diǎn)進(jìn)行挖掘分析,為四川旅游業(yè)的發(fā)展提供輔助決策依據(jù)。
關(guān)聯(lián)規(guī)則[5]是美國IBM Almaden Research Center的Rakesh Agrawal等人于1993年首先提出來的KDD研究的一個(gè)重要課題。關(guān)聯(lián)規(guī)則挖掘問題[7]就是事務(wù)數(shù)據(jù)庫中,找出具有用戶給定的最小支持度minsup和最小置信度minconf的關(guān)聯(lián)規(guī)則。數(shù)據(jù)挖掘[6-8]又稱知識(shí)發(fā)現(xiàn),是指從大量數(shù)據(jù)中提取可信的、新穎的、有效的并最終能被人們理解的模式處理過程。
關(guān)聯(lián)規(guī)則挖掘算法分為兩個(gè)步驟:(1)發(fā)現(xiàn)頻繁項(xiàng)目集。通過用戶指定的最小支持度,尋找所有頻繁項(xiàng)目集;(2)生成關(guān)聯(lián)規(guī)則。通過用戶指定的最小可信度,在最大頻繁項(xiàng)目集中,尋找可信度不小于最小可信度的關(guān)聯(lián)規(guī)則。
經(jīng)典算法Apriori是一種寬度優(yōu)先的多趟掃描算法,第一步掃描數(shù)據(jù)庫,計(jì)算數(shù)據(jù)庫中所有單個(gè)項(xiàng)目的支持計(jì)數(shù),并把大于最小支持計(jì)數(shù)的項(xiàng)目組成1維頻繁項(xiàng)集,稱之為1_項(xiàng)集,即L1。然后重復(fù)掃描數(shù)據(jù)庫,第k次掃描產(chǎn)生K_項(xiàng)集Lk,第k+1次掃描時(shí),首先通過對(duì)Lk中的項(xiàng)目集的連接操作生成(K+1)_項(xiàng)集的候選集Ck+1,再利用剪枝操作刪除Ck+1中小于最小支持計(jì)數(shù)的項(xiàng)集,從而得到Lk+1,直到無頻繁項(xiàng)集生成為止,最后的頻繁項(xiàng)集的集合為[1]。
Apriori算法利用Apriori性質(zhì)(頻繁項(xiàng)目的所有非空子集都必須是頻繁的)有效地對(duì)項(xiàng)集進(jìn)行剪枝,盡可能不生成和不計(jì)算那些不可能是頻繁項(xiàng)集的候選項(xiàng)集,從而生成較小的候選項(xiàng)集的集合。
四川省2007年旅游業(yè)數(shù)據(jù)來源是四川省城調(diào)隊(duì)專項(xiàng)處調(diào)查問卷數(shù)據(jù)。在四川省境內(nèi)不同地州市共發(fā)出500份調(diào)查問卷,收回416份有效問卷。數(shù)據(jù)分析使用Clementine軟件建立Apriori關(guān)聯(lián)規(guī)則挖掘模型,對(duì)四川省2007年旅游市場(chǎng)數(shù)據(jù)進(jìn)行研究,找出其中的關(guān)聯(lián)規(guī)則。在分析中用到的被調(diào)查者的基本信息包括被訪者的年齡、文化程度、被訪者的月收入水平;用到的調(diào)查問題有:最近十個(gè)月出游過的四川旅游景區(qū)、印象最深刻的景區(qū)、挑選游玩景區(qū)時(shí)影響最大的因素、滿意度評(píng)價(jià)(包括:住宿、餐飲、游客擁擠程度等)。被訪者回答問題時(shí),答案是用1、2、3、4等來表示的,如:導(dǎo)游服務(wù)態(tài)度這個(gè)問題:1表示不滿意,2表示不太滿意,3表示一般,4表示較滿意,5表示滿意。其他問題類似。部分?jǐn)?shù)據(jù)信息如表1所示。
表1 部分調(diào)查數(shù)據(jù)表
數(shù)據(jù)預(yù)處理是對(duì)數(shù)據(jù)源進(jìn)行加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行平滑,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ),消除不合格數(shù)據(jù),消除重復(fù)記錄等,使之符合數(shù)據(jù)挖掘的要求。主要工作有檢查拼寫數(shù)據(jù),完成數(shù)據(jù)類型轉(zhuǎn)換。
問卷數(shù)據(jù)不能直接作為數(shù)據(jù)源使用,因?yàn)锳priori算法只能處理布爾型的數(shù)據(jù),因此,需要將原始數(shù)據(jù)全部轉(zhuǎn)換成布爾型的數(shù)據(jù)。具體做法是每個(gè)問題的每個(gè)選擇項(xiàng)都作為新表的一個(gè)字段,如果原表選擇了該選項(xiàng),則對(duì)應(yīng)字段的值為1,否則為0。
轉(zhuǎn)換后的部分?jǐn)?shù)據(jù)信息視圖如表2所示,其中,A1表示問題A的第一個(gè)選項(xiàng)。B1表示消費(fèi)者背景的第一個(gè)選項(xiàng),余此類推。
表2 轉(zhuǎn)換后的部分調(diào)查數(shù)據(jù)表
分析收入水平、受教育程度、年齡、職業(yè)與最喜愛的景區(qū)的關(guān)聯(lián)規(guī)則。將轉(zhuǎn)換好的旅游者收入水平、受教育程度、年齡、職業(yè)與旅游者最喜愛的景區(qū)的數(shù)據(jù)存入Excel文件并作為數(shù)據(jù)源在Clementine軟件中輸入,將旅游者收入水平、受教育程度、年齡、職業(yè)設(shè)定為“輸入”,最喜愛的景區(qū)設(shè)定為“輸出”,支持度設(shè)為15%以上,置信度25%以上,建立Apriori 關(guān)聯(lián)規(guī)則挖掘模型得到輸出結(jié)果如表3所示。
表3 家庭收入、受教育程度、年齡、職業(yè)與最喜愛的景區(qū)的關(guān)聯(lián)規(guī)則
由表1可知,九寨溝是最受歡迎的景區(qū)之一。就收入水平而言,收入為2001-3000元,大專及以上文化程度的旅游者最喜愛的景區(qū)為九寨溝,其支持度在15.1%,說明了收入水平在2001-3000元,大專及以上文化程度的旅游者在調(diào)查人群中所占的比例是15.1%,置信度45.2%,說明了該類旅游者有45.2%的概率到九寨溝旅游消費(fèi)。從年齡來看,25~44歲的旅游者中,最受歡迎的也為九寨溝景區(qū),這部分人群收入較穩(wěn)定,有一定的消費(fèi)能力;就受教育程度而言,中專和高中、大專及以上學(xué)歷的旅游者偏好九寨溝;就職業(yè)而言,公務(wù)員最喜愛的景區(qū)也為九寨溝,而離退休人員則喜愛成都武侯祠,因?yàn)殡x市區(qū)近,方便且消費(fèi)較低,適合離退休人員。同時(shí),可以看到收入水平為1501~2000元的旅游者最喜愛的景區(qū)為峨眉山,說明峨眉山的消費(fèi)水平較九寨溝略低,受較低收入者的喜愛;因此,四川旅游業(yè)相關(guān)部門應(yīng)從多個(gè)方面著手,針對(duì)旅游人群的不同特征,加大景區(qū)宣傳力度,開展針對(duì)性的活動(dòng)以吸引旅游者,例如,針對(duì)潛力消費(fèi)者開展優(yōu)惠活動(dòng),開發(fā)具有吸引力的文化、興趣愛好、休閑等多種模式的旅游產(chǎn)品,集中力度解決交通、食宿等突出問題,同時(shí)大力開發(fā)其他景區(qū),促進(jìn)四川旅游業(yè)全面、較快發(fā)展,使人們看到更美好的四川。
文章采用了數(shù)據(jù)挖掘方法中的Apriori算法分析了四川省旅游市場(chǎng)相關(guān)數(shù)據(jù),從紛繁復(fù)雜的數(shù)據(jù)中找出了游客消費(fèi)行為的本質(zhì)特征,突出解決了收入水平、年齡、職業(yè)、受教育程度及四川境內(nèi)最受歡迎的景區(qū)之間的關(guān)聯(lián)規(guī)則問題,從而為有針對(duì)性的制定營銷策略,提供了輔助決策依據(jù)。
同時(shí),我們知道旅游景區(qū)的受歡迎程度往往也是氣候、季節(jié)等因素的綜合反映。本文由于沒有考慮旅游景區(qū)季節(jié)氣候等自然界因素,挖掘的結(jié)果有一定局限性,因此在今后研究中,挖掘出的關(guān)聯(lián)規(guī)則最好結(jié)合旅游市場(chǎng)的季度信息進(jìn)行綜合分析,以提高其有效性。
[1]周子波,韓鵬輝.淺談我國國內(nèi)旅游業(yè)[J].中國商貿(mào),2009(17).
[2]李江帆,李冠霖,江波.旅游業(yè)的產(chǎn)業(yè)關(guān)聯(lián)和產(chǎn)業(yè)波及分析——以廣東為例 [J].旅游學(xué)刊,2001(03).
[3]周欣胤,何躍.基于Apriori算法的四川省卷煙市場(chǎng)的研究[J].中國商貿(mào),2010(04).
[4]蘇振揚(yáng),趙慶國.基于關(guān)聯(lián)規(guī)則的中小學(xué)師資管理系統(tǒng)應(yīng)用研究[J].軟件導(dǎo)刊,2009(2).
[5]Mehmed Kantardzic.閃四清,陳茵,程雁等譯,數(shù)據(jù)挖掘-概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2002.
[6]Jiawei Han, Micheline Kamber.范明,孟小峰等譯.數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[7]Usama Fayyad, Gregpru Oatesdu-Shapiro, Padhraic Smyth, RAMASACY UTHURU SAMYMY, ETAL .Advances in Knowledge Discovery and Data Mining [M].AAAI Press/The MIT Press, 1996.
[8]Gregory Piatesdy-Shapiro, Willam J Frawley, Editors .Knowledge Discover y in Databases [M].AAAI Press,1991.