基于SVM的大學生熱點問題的研究

2016-07-01 09:59:36作者楊世瀚李婷婷

電子制作 2016年9期

作者 / 楊世瀚、李婷婷

基于SVM的大學生熱點問題的研究

作者 / 楊世瀚、李婷婷

基于SVM（Support Vector Machine）分類器來建立大數(shù)據的文本分類機制是目前的熱點研究之一。針對于怎樣將SVM應用到大學生網絡社區(qū)文本數(shù)據的分析，并從中挖掘出大學生熱點問題，是SVM應用的一個新嘗試。利用SVM可以在大規(guī)模的網絡社區(qū)文本數(shù)據中得出準確的訓練模型以及預測結果，在此基礎上給出了特征向量構造以及有效選取SVM參數(shù)的方法，同時給出了剔除重復樣本的策略，最后還會研究特征選擇對SVM分類效率的影響。

SVM；大數(shù)據；網絡社區(qū)文本數(shù)據；文本分類

引言

基于SVM分類器來研究大學生熱點問題是一個新的嘗試。從網絡上獲取的網絡社區(qū)文本數(shù)據是相當龐大的，針對這類文本數(shù)據的分類也是比較少見的。SVM具有很好的泛化能力和出色的分類性能，將SVM用于網絡社區(qū)文本數(shù)據的分類并以此來研究大學生熱點問題是可行的。

1. SVM基礎

在機器學習領域，支持向量機SVM（Support Vector Machine）是一個有監(jiān)督的學習模型，通常用來進行模式識別、分類、以及回歸分析。

SVM進行分類的步驟有：樣本整理、特征選擇、計算特征權重、模型訓練與預測［1］。

從數(shù)據庫中提取已預處理的文本，將樣本標簽設定為-1和1。然后根據地理、人文差異將大學生網絡社區(qū)數(shù)據的文本分為兩類，-1為來自北方的大學，1為來自南方的大學。

SVM進行特征選擇，就是將特征的個數(shù)限制在一個合理的范圍內，即確定特征集。特征選擇就是從特征集中選擇一些代表性的詞。

針對大學生網絡社區(qū)文本，還需要將這些文本轉換成特征向量。首先，對文本進行分詞，提取出所有的詞。然后根據已經生成的詞典，如果詞典中的詞出現(xiàn)，就在相應對應的位置填入該詞的詞頻。最后將生成的向量進行歸一化，例如

表1

經過以上幾個步驟，文本轉換為向量的形式后。就是進行SVM模型訓練和預測了。

模型預測過程：首先將未知文本進行分詞，并確定它的特征向量，然后將這些已經進行分詞的樣本放到SVM模型中，設置好配置文件，最后就是將這些訓練好的樣本進行分類，標簽標識，以及得出它的隸屬度分數(shù)。至于預測，一般都是通過MATLAB來實現(xiàn)。

2. SVM參數(shù)選擇和重復樣本剔除

微博是一個信息流量相當大的網絡社區(qū)，其內容格式非常散亂，數(shù)據噪聲較大，人工審視或基本的統(tǒng)計選取參數(shù)很難提煉出最有效的參數(shù)，因此必須進行嚴格的SVM參數(shù)的選取。

SVM中最重要的兩個參數(shù)為C和gamma，C是懲罰系數(shù)，即對誤差的寬容度。C越高，說明越不能容忍出現(xiàn)誤差。C過大或過小，泛化能力都會變差。

徑向基函數(shù)RBF里sigma和gamma的關系如下：

gamma是選擇RBF函數(shù)作為kernel后，該函數(shù)自帶的一個參數(shù)。隱含地決定了數(shù)據映射到新的特征空間后的分布，gamma越大，σ會很小，支持向量越少，gamma值越小，σ會很大，支持向量越多。同時支持向量的個數(shù)都會影響訓練與預測的速度。

圖1 C，gamma組成的二維參數(shù)矩陣

如圖1所示，可以理解為：在C，gamma組成的二維參數(shù)矩陣中，依次實驗每一組參數(shù)的效果。

從圖1中可以看出，每組不同的C和gamma得到的矩陣相差甚遠，選擇不同的參數(shù)必然會有很大的偏差，造成分類不準確，甚至錯誤。因此參數(shù)的選擇就變得極其重要了。

那么該如何選取參數(shù)C和gamma的最佳值呢？假設現(xiàn)在有1000個大學的大學生對熱點關注的訓練樣本，300個大學的大學生對熱點關注的測試樣本（測試、訓練樣本不交疊），特征維數(shù)可能是足球，考研，買房，買車等熱點，共選取2000維。最佳C和gamma的思想是設置C和gamma的取值范圍，默認值為C=2?（-8），2?（-4），...，2?（8），gamma= 2?（-8），2?（-4），...，2?（8）），先把具有最小的那組C和gamma認為是最佳的C和gamma，并依次使C和gamma的冪分別加1，最后將每組C和gamma放到LIBSVM進行訓練，直至得出最佳的C和gamma，如圖2所示參數(shù)選擇結果圖。

圖2 尋參數(shù)選擇結果圖

圖3 參數(shù)優(yōu)化前后的精確度對比

如圖2所示，X、Y軸是 log2（C），log2（g），準確率97的點所對應的 C， gamma 的組合就是最佳的參數(shù)組。最后將選取一組最佳的C和gamma放到交叉驗證（cross validation）中進行測試，對比參數(shù)優(yōu)化前后的SVM分類精確度，如圖3所示。

圖3中X軸是樣本數(shù)，單位是萬；Y軸是精確度，單位是百分比。method1曲線和method3曲線代表的是C過大、gamma過大的SVM精確度，method2曲線代表的是最佳參數(shù)的SVM精確度。因此，在確定了最佳參數(shù)后，SVM分類的精確度最高。

盡管在整理樣本時，已經進行了預處理。但是對于微博這種信息量大的平臺而言，重復樣本在預處理的時候還是被保留下來了。那么這些重復樣本會對SVM模型產生什么影響呢？

假設在一個訓練樣本中北方大學生的樣本數(shù)為1000，南方大學生的樣本數(shù)為2000，然后將北方大學生的樣本數(shù)重復一倍，即構造了一個北方大學生的樣本數(shù)2000，然后測試一個包含北方大學生的樣本1，南方大學生的樣本9的樣本。最終結果如圖4所示。

圖4 重復樣本對結果的影響

從結果上來看：在F值上，無重復的樣本會比重復樣本稍高（圖中保留了2位小數(shù)，其實差異不超過0.5%）。而正確率上，重復樣本會比無重復樣本稍高。但是相對于這點優(yōu)勢而言，重復樣本的劣勢更為凸顯。

一個樣本重復，相當于增加了樣本的權重，對于參數(shù)選擇最佳的C和gamma時，就會導致大量的工作量。如果C和gamma都是在［2.0，1.0］進行挑選，則總會有9*9=81組參數(shù)需要挑選，在每組參數(shù)下如果要進行5-flods的交叉驗證，則需要81*5=405次訓練與測試的過程。如果每次訓練與測試花費2分鐘（在樣本達到10萬數(shù)量級的時候，SVM的訓練時間差不多按分鐘計算），則總共需要405*2/60=12.3小時。

無可厚非，剔除重復樣本對訓練一個好的SVM模型就顯得很重要了。利用文本編輯器批處理刪除重復樣本，如將文本1和文本2的內容進行對比，刪除文本內重復行，相同行。

3. SVM分類實現(xiàn)的算法

序列最小最優(yōu)化SMO算法就是通過f（x）函數(shù)把輸入的數(shù)據x進行分類［3］。而分類必然需要一個評判的標準，例如怎樣將x分為A類，怎樣將y分為B類？此時便需要劃分A類和B類的邊界了。如果邊界越明顯，就越容易區(qū)分，因此這個函數(shù)的目的就是把邊界的寬度最大化。

怎樣實現(xiàn)邊界的寬度最大化呢？在SVM中要是現(xiàn)實邊界的寬度最大化就必須最小化式。

w是參數(shù)，值越大邊界越明顯，C是懲罰系數(shù)，ξi是松散變量。

再將問題轉換為KKT條件（Karush-Kuhn-Tucker 最優(yōu)化條件）：

ai表示拉格朗日乘子。為了使KKT條件解答更簡單，可以通過拉格朗日乘法數(shù)來求解。對于（1）（2）（3）的情況分別是ai是正常分類、在邊界內部；ai是支持向量、在邊界上和 ai在邊界之間。最優(yōu)解必須滿足（a）（b）（c）的條件。因此ai的約束條件是

通過公式（2）、（3），我們引入aj，滿足以下等式：

M為常數(shù)。利用yiai+yjaj=常數(shù)，消去ai，得到

將Ei移到最左邊得

根據aj可以得到

b的更新：

最后得到函數(shù)：

輸入是x，是一個向量，向量中的每一個值表示一個特征。

假設現(xiàn)在有一個x（清華大學，北京大學，廈門大學，中山大學），需要將這幾所大學分類，A類是北方大學，B類是南方大學。主要的步驟實現(xiàn)如下：

Repeat till convergence｛

1. Select some pair ai and ay to update next （using a heuristic that tries to pick the two that will allow us to make biggest progress towards the global maximum）.

2. Reoptimize M（a） with respect to ai and ay ，while holding all the other ak，s（k≠i，j） fixed.

｝

意思是，第一步選取一對ai和ay，第二步，固定除ai和ay之外的其他參數(shù)，確定M極值條件下的ai和ay由ay表示。

運行后能準確的將這四所大學劃分為南方還是北方的大學，然后再將全國所有的本科院校都進行分類。

4. SVM分類的預測

首先將全國大學生分為兩大類，一類是北方大學生，另一類是南方大學生。因此就需要劃分全國的本科院校是屬于南方還是北方的，再將它的特征向量確定為北京大學，清華大學等本科院校，就大學生可能關注的熱點問題，分為考公務員，就業(yè)，創(chuàng)業(yè)，談戀愛，買房，軍事，考研等。確定好這些基本要素以后，再用文本編輯器剔除重復樣本，確定C和gamma的最佳取值，最后便是開始SVM樣本訓練和預測了。在MATLAB中進行預測時，過濾頻率較低的曲線，選取最高頻率的幾條曲線，以免曲線過多，造成失誤。首先我們先抓取2014年1月到5月的微博文本數(shù)據進行分析，如圖5所示。

圖5 熱點問題頻率統(tǒng)計圖

圖5中X軸是月數(shù)，單位是月；Y軸是頻率，單位是百分比。三條曲線由上到下分別代表關注考研，關注就業(yè)，關注公務員考試的頻率曲線。由圖可知，未來5個月內，大學生關注考研的人數(shù)比較多，關注就業(yè)問題的人數(shù)也不少，但在4個多月后就會出現(xiàn)下滑趨勢，關注公務員考試的人數(shù)上漲，五個月后可能處于最高。

使用詞頻統(tǒng)計的方法就2014年7月到11月的熱點問題進行跟蹤調查，結果如圖6所示。

圖5的預測中考研的概率是26%，就業(yè)的概率接近25%，考公務員的概率23%。和圖6對比可知，考研、就業(yè)、考公務員的熱點問題預測準確率與實際相差不大，但還是存在差距。如實際考研的概率比預測的增加1%，實際就業(yè)的概率比預測的減少1%，實際考公務員的概率比預測的增加2%；大概原因如下：

圖6 熱點問題跟蹤表

（1）部分大學生在大三到大四的暑假期間受就業(yè)，家庭等原因影響，會突然決定考研。所以會比預測增長1%；

（2）部分大學生決定考研后，就不會更多的考慮就業(yè)問題了，而是一心撲在考研的問題上。所以會比預測減少1%；

（3）將近2%的大學生在10月中下旬的時候，由于找到了工作，或因為公務員多人報考難度加大等原因，放棄考公務員。所以會比預測減少2%。

5. 結論

在進行文本分類時，我們必須提高SVM的工作效率，即提高SVM的分類速度。對SVM參數(shù)的選擇，以及剔除重復樣本都是為了提高SVM分類速度，使其在模型訓練和預測時得出更好更快的結果。嚴格進行參數(shù)的選擇以及剔除重復樣本，努力提高SVM的分類速度。

＊［1］張知臨.文本分類SVM［DB/OL］，2012，http：//blog.csdn. net/zhzhl202/article/details/8197109

＊［2］程俊霞，李芝棠，鄒明光，肖津.基于SVM過濾的微博新聞話題檢測方法［J］.通信學報，2013，34（Z2）74-78

＊［3］ techq'sblog.SVM算法實現(xiàn)［DB/OL］，2011，http：//blog. csdn.net/techq/article/details/6171688

＊［4］張翔，周明全，耿國華，王曉鳳.基于LSVM算法的人臉識別方法研究［J］.西安可視化技術研究所，2012

廣西自然科學基金項目：2014GXNSFAA118359，廣西民族大學創(chuàng)新項目《基于大數(shù)據技術的大學生熱點問題預測與分析》

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于SVM的大學生熱點問題的研究

引言

1. SVM基礎

2. SVM參數(shù)選擇和重復樣本剔除

3. SVM分類實現(xiàn)的算法

4. SVM分類的預測

5. 結論