吳銳妍 李夏永 才兆奕
(河南大學數(shù)學與統(tǒng)計學院,河南 開封 475004)
一般情況下,大眾很少對于互聯(lián)網(wǎng)上正在發(fā)生的事情利用關(guān)鍵字檢索。整合相關(guān)新聞主題的綜合信息,包括新聞背景、當前進展、不同的觀點討論,不僅能為用戶提供更好的體驗,也有利于平臺對于用戶群體需求進行分析,優(yōu)化升級。傳統(tǒng)新聞信息整理是由網(wǎng)站編輯手動操作的,十分費時費力,因此也很難做到實時更新。
以某公眾平臺賬號對于為例,其自定義菜單欄的內(nèi)容推送只能由運營人員手動添加超鏈接跳轉(zhuǎn)到單一的推送消息,未能針對相關(guān)信息進行自動整合。新聞在跨越更長的時間后,價值大大降低。手動添加固定數(shù)量的新聞信息繁瑣而耗時,很多情況下只能選擇階段內(nèi)相對重要的信息進行展示,無法體現(xiàn)新聞的時效性。
若利用算法自動收集整合相關(guān)新聞的所有信息,將其提供給用戶,將會大大提升工作效率。但算法的實用性以及準確性也需要一定的保證?,F(xiàn)如今,數(shù)據(jù)已經(jīng)成為新聞報道的驅(qū)動力。數(shù)據(jù)資料作為研究基礎,利用科學方法來分析處理數(shù)據(jù),解構(gòu)它將是我們的目標。希望能夠在實踐中學習并利用SVM即支持向量機理論進行中文短文本分類,并能夠?qū)μ幚斫Y(jié)果進行總結(jié)。
SVM,即支持向量機理論對于處理微型樣本問題和非線性分類問題等多種復雜問題有其獨特的技術(shù)優(yōu)點。人們把能使兩類數(shù)據(jù)準確分離且分離距離最優(yōu)的平面稱為最優(yōu)超平面,當數(shù)據(jù)是線性可分離時,最優(yōu)超平面距離兩類點的邊距最大;當數(shù)據(jù)不是線性可分離時,利用損失函數(shù)對越過超平面的點進行懲罰或使用核變換,將非線性可分的數(shù)據(jù)轉(zhuǎn)化到高維度以便找到線性判定邊界。
SVM 嘗試尋找一個最優(yōu)的超平面使得兩類樣本到這個平面的距離最大。樣本中距離超平面最近的一些點,決定超平面的選取,將這些點稱為支持向量。
任意超平面可以用下面的線性方程描述:
所有支持向量到超平面的距離可以寫為
兩類支持向量到超平面的距離之和為
由于原式中有不等式約束條件,因此需要滿足KKT 條件,即
對數(shù)據(jù)是非線性的情況,無法找到一個超平面使兩類樣本點完全分開,則利用軟間隔,相比于硬間隔的嚴格要求,我們允許個別樣本點越過超平面,即允許部分樣本點不滿足約束條件
本項目使用搜狗實驗室開放的搜狐新聞數(shù)據(jù)(SogouCS)的完整包進行該實驗。數(shù)據(jù)是xml 文件,需要用正則表達式篩選出我們需要的新聞標題和新聞類別。新聞類別可以從url 中獲取,比如,http://gongyi.sohu.com 的url 前綴對應的新聞類型就是“公益類”。
完整包中總計141196 篇新聞,一共18 個類別,但是經(jīng)過篩選發(fā)現(xiàn)有些類別的新聞數(shù)量較少,因此,我們選擇了以下7 個類別進行實驗。
在這七個類別中隨機抽取20000 篇文章作為訓練樣本,隨機抽取5000篇文章作為測試樣本。
再對新聞標題使用jieba 分詞將標題劃分為若干個名詞。因為名詞在文本類別中起到主要作用,因此要停用一些與類別無關(guān)的通用詞。
接著再利用TF-IDF 對分詞后的標題進行特征抽取。利用sklearn 里的TfidfVectorizer 對標題進行TF-IDF 特征提取。
本項目利用sklearn 里的SVM 模型,對預處理好的標題和類別加載SVM 模型進行訓練,分別使用了多項式核,高斯核,sigmoid 核,線性核進行訓練,并且評測訓練的正確率,預測正確率最高的是線性核,達到了0.8762。結(jié)果如圖:
表1 訓練結(jié)果
對于新聞分類系統(tǒng)模型,還需要長久的算法優(yōu)化與測試。隨著網(wǎng)絡傳播的發(fā)展,互聯(lián)網(wǎng)新聞分類研究仍是具有很高的研究價值。結(jié)合群體極化、網(wǎng)絡暴力等現(xiàn)象分析,對網(wǎng)絡環(huán)境進行監(jiān)管,研究輿論傳播規(guī)律。此方面研究能為新聞工作者、用戶提供諸多便利。希望能夠利用互聯(lián)網(wǎng)新聞分類系統(tǒng)與優(yōu)化后的SVM 模型結(jié)合,使新聞信息更清晰直觀地呈現(xiàn)給用戶,提升工作人員對于新聞信息整合的效率,減少冗余數(shù)據(jù)對用戶的干擾,對于縮小城鄉(xiāng)數(shù)字鴻溝具有研究價值。