尹倩 李致富 韓爽
摘 要:關(guān)聯(lián)規(guī)則挖掘技術(shù)可從大量繁雜的數(shù)據(jù)事務(wù)中挖掘并分析它們之間隱含的相關(guān)信息。本文在分析關(guān)聯(lián)規(guī)則技術(shù)和社會服務(wù)應(yīng)用的基礎(chǔ)上,提出關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用在社會服務(wù)領(lǐng)域的挖掘應(yīng)用。通過關(guān)聯(lián)規(guī)則技術(shù)對社會服務(wù)對象數(shù)據(jù)的分析應(yīng)用,發(fā)掘數(shù)據(jù)間相關(guān)性,以實(shí)現(xiàn)社會服務(wù)個性化智能分析和推薦服務(wù),并為提高社會服務(wù)能力提供智力決策的依據(jù)。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;社會服務(wù)
中圖分類號:TP391;TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2018)02-0150-03
Application Study on Association Rule Mining Technology in Social Service
——Taking a sports college as an example
YIN Qian,LI Zhifu,HAN Shuang
(Anhui Sports Vocational and Technical College,Hefei 230051,China)
Abstract:Association rule mining technology can excavate the related information from a large number of complicated data transactions. This paper proposes the application of association rules mining technology in the field of social service mining based on the analysis of association rules and social service applications. The correlation between data is explored by the analysis and application of association rules technology to the data of social service objects,and the personalized intelligence analysis and recommendation service of social service is realized,and our method can provide intellectual decision making for improving the social service ability.
Keywords:association rule;data mining;social service
0 引 言
近年來,國家競技體育發(fā)展方式的有效轉(zhuǎn)變、全民健身上升為國家戰(zhàn)略及體育產(chǎn)業(yè)的提出并受到高度重視,使得高等體育院校的辦學(xué)模式由“教學(xué)、科研、訓(xùn)練”相結(jié)合轉(zhuǎn)變?yōu)閷?shí)現(xiàn)現(xiàn)代高?!叭瞬排囵B(yǎng)、科學(xué)研究、社會服務(wù)”的三大職能[1]。現(xiàn)代高等體育院校不僅服務(wù)競技體育,也參與眾多大型體育賽事的組織和服務(wù)工作,是培養(yǎng)體育人才的搖籃。擁有豐富的體育項目、齊全的場館設(shè)施、一流的運(yùn)動技術(shù)、雄厚的師資、完善的儀器設(shè)備和先進(jìn)的科研成果等,這些都是提供社會服務(wù)所需要的難能可貴的資源[2],現(xiàn)有高校社會服務(wù)范圍包括競技體育、群眾體育等。隨著社會經(jīng)濟(jì)的發(fā)展和大眾健身意識的增強(qiáng),體育社會服務(wù)的內(nèi)容需不斷地擴(kuò)展和深化,然而受制于體育領(lǐng)域行業(yè)知識領(lǐng)域化,目前尚未有關(guān)于挖掘和深化社會服務(wù)內(nèi)容的相關(guān)研究。因此,本文試圖從數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則知識深層挖掘方面來分析社會服務(wù)內(nèi)容。
1 體育院校社會服務(wù)存在的問題
高等體育院校的社會服務(wù)從廣義上講,指為社會培養(yǎng)各類體育人才,狹義上講指以自身體育場館、人才優(yōu)勢等來完成社會需求和合作的活動。社會服務(wù)從廣義和狹義上均是社會對高校進(jìn)行反哺的過程,兩者相互作用,互惠共進(jìn)。但現(xiàn)有社會服務(wù)內(nèi)容多是由社會組織提出需求的內(nèi)容,例如組織一場體育活動等。其相關(guān)延伸的服務(wù)內(nèi)容少有人研究,原因在于未能對社會服務(wù)進(jìn)行深層次的挖掘研究并發(fā)現(xiàn)其中的規(guī)律。
2 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則發(fā)掘
2.1 相關(guān)概念
數(shù)據(jù)挖掘技術(shù)是從數(shù)據(jù)倉庫中獲取高可信度知識,發(fā)現(xiàn)人們不易察覺的隱含模式。關(guān)聯(lián)規(guī)則算法典型案例“啤酒+尿布”中提到關(guān)聯(lián)算法的兩個概念:支持度和置信度。支持度Support指的是數(shù)據(jù)集中包含某幾個特定項的概率,比如在1000次的商品交易中同時出現(xiàn)了啤酒和尿布的次數(shù)是50次,那么此關(guān)聯(lián)的支持度為5%;和關(guān)聯(lián)算法很相關(guān)的另一個概念是置信度Confidence,也就是在數(shù)據(jù)集中已經(jīng)出現(xiàn)A時,B發(fā)生的概率,置信度的計算公式是:A與B同時出現(xiàn)的概率/A出現(xiàn)的概率即買尿布→買啤酒的概率。用公式描述為:
Support(尿布,啤酒)≥5%andConfidence(尿布,啤酒)≥65%。
原來,美國婦女通常在家照顧孩子,所以她們經(jīng)常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。
這個發(fā)現(xiàn)為商家?guī)砹舜罅康睦麧?,利用類似知識發(fā)現(xiàn)啤酒和尿布銷售之間的聯(lián)系的過程,可以為發(fā)掘某項社會服務(wù)延伸其他服務(wù)提供一些啟示。
2.2 關(guān)聯(lián)規(guī)則挖掘技術(shù)的應(yīng)用
關(guān)聯(lián)規(guī)則除了應(yīng)用在有名的購物籃分析之外,在中醫(yī)藥挖掘分析[3]、圖書館個性化服務(wù)[4,5]、證券分析、平臺信息推薦服務(wù)和通訊行業(yè)等領(lǐng)域都有著廣泛的應(yīng)用。它主要通過分析日常的大量繁雜信息,從中找出一定的聯(lián)系,據(jù)隱含關(guān)聯(lián)信息為依據(jù),為客戶群智能推薦相關(guān)的其他個性化服務(wù)。
2.3 關(guān)聯(lián)規(guī)則挖掘求解問題的步驟
從數(shù)據(jù)庫中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則的步驟為:(1)預(yù)處理與挖掘任務(wù)有關(guān)的數(shù)據(jù),根據(jù)具體問題的要求對數(shù)據(jù)庫進(jìn)行相應(yīng)的處理,從而生成規(guī)格化的數(shù)據(jù)庫;(2)從數(shù)據(jù)庫中找到所有支持度大于最小支持度的項集,這些項集稱為頻繁項集;(3)使用上面找到的頻繁項集產(chǎn)生期望的規(guī)則,這些規(guī)則必須滿足最小置信度,形成輸出規(guī)則。
3 數(shù)據(jù)準(zhǔn)備和處理
3.1 數(shù)據(jù)準(zhǔn)備
原始數(shù)據(jù)通過調(diào)查問卷方式獲得,被研究者為五年時間內(nèi)某體育類高校的社會服務(wù)對象,包括各種社會培訓(xùn)(青少年拓展類、裁判員培訓(xùn)、體育指導(dǎo)員培訓(xùn)、成人體育項目培訓(xùn)等)和組織或參與大型體育賽事服務(wù)等的人員,問卷累計調(diào)查兩千余人。
其中社會服務(wù)對象的個人基本信息包括年齡、性別、工作單位、受教育程度等。社會服務(wù)項目包含具體社會服務(wù)名稱、服務(wù)級別和服務(wù)類型等信息。
3.2 數(shù)據(jù)預(yù)處理
原始數(shù)據(jù)形式要實(shí)現(xiàn)挖掘還需進(jìn)行數(shù)據(jù)的清洗、預(yù)處理與轉(zhuǎn)換,將其轉(zhuǎn)換成需要的數(shù)據(jù)形式。在高校社會服務(wù)對象信息數(shù)據(jù)庫中存有大量的信息。如果需要找出的是服務(wù)對象年齡、職業(yè)、學(xué)歷與其接受服務(wù)項目的關(guān)聯(lián)規(guī)則,我們需要關(guān)心的就是其信息中的年齡、職業(yè)、學(xué)歷。其他的如姓名、性別等可以認(rèn)為是無關(guān)信息。此外還要對選擇后的數(shù)據(jù)進(jìn)行清理,比如說某些字段屬性值可能存在空缺值或者噪聲不一致的現(xiàn)象。
4 實(shí)驗結(jié)果
數(shù)據(jù)中的相關(guān)性有時隱藏在內(nèi)部,不易發(fā)現(xiàn)。通過關(guān)聯(lián)規(guī)則可發(fā)現(xiàn)內(nèi)部兩個變量或多個變量之間的相關(guān)性,進(jìn)而找到其規(guī)律。本文以8位社會服務(wù)對象為例,簡要介紹關(guān)聯(lián)規(guī)則在體育院校社會服務(wù)中的應(yīng)用。
表1所示為某體育院校社會服務(wù)事物中的服務(wù)類型表,該表顯示了社會服務(wù)對象與參與服務(wù)類型之間的關(guān)系。采用Apriori算法可以得到支持度大于35%的數(shù)據(jù),如表2所示。從單向統(tǒng)計可以看出,62.5%的人參與了社會體育指導(dǎo)員培訓(xùn),50%的人參與某體育項目學(xué)員和組織管理人員服務(wù),37.5%的人參與賽事裁判員、裁判員培訓(xùn)和志愿者的服務(wù)中。
表3所示為支持度為37.5%的四種服務(wù)類型的組合,從表4可看出37.5%的社會服務(wù)對象同時參與社會體育指導(dǎo)員培訓(xùn),裁判員培訓(xùn)和賽事裁判員。參與社團(tuán)體育指導(dǎo)員培訓(xùn)的服務(wù)對象同時參與裁判員培訓(xùn)和賽事裁判員的支持度為37.5%,置信度為66.6%,因此得到如下規(guī)則:
服務(wù)類型(社會體育指導(dǎo)員培訓(xùn))∧服務(wù)類型(裁判員培訓(xùn))服務(wù)類型(賽事裁判員)[sup port=37.5%,confidence=66.6%],據(jù)此得出其隱含的關(guān)聯(lián)。
表4 支持度大于35%同時參與三種社會服務(wù)的數(shù)據(jù)
三項統(tǒng)計 支持度(%)
社會體育指導(dǎo)員培訓(xùn)、裁判員培訓(xùn)、
賽事裁判員 37.5
5 結(jié) 論
長期以來,體育院校承擔(dān)了許多體育方面的社會服務(wù)工作,但鮮有人根據(jù)大量積累的資料對社會服務(wù)對象分類挖掘,其根本原因在于體育院校與數(shù)據(jù)挖掘知識之間的專業(yè)領(lǐng)域限制。因此,本文根據(jù)實(shí)際社會服務(wù)數(shù)據(jù),采用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則技術(shù)挖掘并發(fā)現(xiàn)數(shù)據(jù)間隱藏的知識尤其可貴。在對目標(biāo)客戶群進(jìn)行有效分類后,可以更加有針對性的提供相關(guān)服務(wù)和個性化服務(wù),這對于提高體育院校社會服務(wù)能力有著重要作用。
參考文獻(xiàn):
[1] 張新軍.高校體育對所在城市社會服務(wù)作用的探討——以東陽市為例 [J].當(dāng)代體育科技,2015,5(26):176+178.
[2] 王鯤.高等體育院校社會服務(wù)模式研究 [J].山東體育科技,2011,33(3):54-57.
[3] 袁楠,金暉,田玲,等.基于聚類和模糊關(guān)聯(lián)規(guī)則的中醫(yī)藥對量效分析 [J].計算機(jī)應(yīng)用研究,2009,26(1):59-61.
[4] 劉志勇,王阿利,魏迎,等.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘在圖書館個性化服務(wù)中的應(yīng)用研究 [J].電子設(shè)計工程,2012,20(7):16-17+20.
[5] 陳力,李林,秦臻,等.關(guān)聯(lián)規(guī)則在提高圖書館服務(wù)質(zhì)量中的應(yīng)用 [J].情報雜志,2008(2):145-146+150.