• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向短文本分類的特征提取與算法研究

      2019-05-27 06:25:14劉曉鵬楊嘉佳田昌海
      關(guān)鍵詞:查全率查準(zhǔn)率詞頻

      劉曉鵬,楊嘉佳,盧 凱,田昌海,唐 球

      (1.華北計(jì)算機(jī)系統(tǒng)工程研究所,北京 100083;2.軍事科學(xué)院 軍事科學(xué)信息研究中心,北京 100142)

      0 引言

      在信息化時(shí)代背景下,各行業(yè)產(chǎn)生了大量的多源異構(gòu)數(shù)據(jù)。對這些數(shù)據(jù)的信息挖掘,衍生出很多基于傳統(tǒng)行業(yè)的新實(shí)踐和新業(yè)務(wù)模式[1]。這些數(shù)據(jù)中存在著大量的超短文本,因此可以通過自然語言處理領(lǐng)域的知識方法,并結(jié)合已經(jīng)提出的計(jì)算機(jī)科學(xué)方法,挖掘出許多高價(jià)值的信息。在某些短文本分類任務(wù)中,如通過標(biāo)題劃分可以避免對全文進(jìn)行分類,可以節(jié)省大量計(jì)算資源;而在爬蟲任務(wù)中,由當(dāng)前頁面附帶鏈接的短文本分類,則避免了進(jìn)入鏈接爬取數(shù)據(jù),節(jié)省了大量網(wǎng)絡(luò)資源。本文主要研究面向短文本分類不同的特征提取與算法差異。

      1 特征提取方法介紹

      1.1 獨(dú)熱編碼

      獨(dú)熱編碼(one-hot encoding,one-hot),又稱一位有效編碼。在文本分類中,即每一位對應(yīng)一個(gè)單詞,以0代表該詞沒有出現(xiàn),以1代表該詞已經(jīng)出現(xiàn),通過固定順序的詞表,將每一個(gè)文本使用獨(dú)熱編碼方式向量化。獨(dú)熱編碼因?yàn)閱卧~數(shù)量太多,在實(shí)際實(shí)驗(yàn)中,有時(shí)達(dá)到60 000以上的維度,直接導(dǎo)致了維度爆炸;而超短文本數(shù)據(jù)每條單詞只有3~10個(gè),又導(dǎo)致了數(shù)據(jù)的高度稀疏。

      1.2 Word2Vec

      Word2Vec[2]是一種Distributed representation生成詞向量方法。Distributed representation最早由Hinton在1986 年提出。其依賴思想是:詞語的語義是通過上下文信息來確定的,即相同語境出現(xiàn)的詞,其語義也相近。

      Word2Vec采用CBOW和Skip-Gram兩種模型,以及Hierarchical Softmax和Negative Sampling兩種方法,使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練,將單詞映射到同一坐標(biāo)系下,得到數(shù)值向量。在實(shí)驗(yàn)中,用數(shù)據(jù)集訓(xùn)練出的模型泛化性能不好。分析得出,Word2Vec訓(xùn)練模型,文本需要大致在8 GB以上才會(huì)有較好效果。本文實(shí)驗(yàn)數(shù)據(jù)集只有200 MB。根據(jù)語料特征,最終采用已經(jīng)訓(xùn)練好的谷歌新聞Word2Vec模型。

      Word2Vec向量化采用300維度,避免了獨(dú)熱編碼造成的維度爆炸、數(shù)據(jù)稀疏問題。在訓(xùn)練Word2Vec知識圖譜過程中,引入大量數(shù)據(jù),進(jìn)一步提升模型的泛化能力。

      1.3 詞頻-逆文件頻率

      詞頻-逆文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF)[3]是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法,用以評估一個(gè)詞對于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。即一個(gè)詞語在一篇文章中出現(xiàn)次數(shù)越多,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,越能夠代表該文章。

      每條文本數(shù)據(jù)每個(gè)維度的詞頻-逆文件頻率計(jì)算公式如下:

      TF-IDF=TF×IDF

      (1)

      其中:

      (2)

      (3)

      1.4 主成分分析

      主成分分析(Principal Component Analysis,PCA)[4]是一種常用的數(shù)據(jù)降維方法。主成分分析通過矩陣變換,將n維特征映射到k維上(k<

      在獨(dú)熱編碼和詞頻-逆文件頻率特征提取中,需要對每一個(gè)單詞設(shè)立一個(gè)維度,導(dǎo)致向量化后的數(shù)據(jù)維度太高,模型訓(xùn)練對算力形成了較大的負(fù)擔(dān),經(jīng)主成分分析,數(shù)據(jù)維度降低到原來的0.5%,大大降低了訓(xùn)練和測試的計(jì)算負(fù)擔(dān)。

      2 機(jī)器學(xué)習(xí)算法介紹

      2.1 支持向量機(jī)

      支持向量機(jī)(Support Vector Machine,SVM)[5]是AT&TBell實(shí)驗(yàn)室的Cortes和Vapnik在1995年提出的一種分類算法。SVM目標(biāo)是在數(shù)據(jù)中找到一個(gè)分類超平面,達(dá)到分類目的。SVM自身可以正則化,分類超平面依賴于支持向量,因此在樣本較少以及抽樣不均衡的時(shí)候有較好結(jié)果。

      SVM在文本分類和高維數(shù)據(jù)中擁有良好的性能,被選為機(jī)器學(xué)習(xí)十大算法之一,在2000年前后直接掀起了“統(tǒng)計(jì)學(xué)習(xí)”的高潮,是迄今為止使用最廣的學(xué)習(xí)算法。

      2.2 邏輯回歸算法

      邏輯回歸算法(Logic Regression,LR)[6]屬于對數(shù)線性模型的一種,核心思想是利用現(xiàn)有數(shù)據(jù)對分類邊界建立回歸方程,以此進(jìn)行分類。該算法簡單高效。LR衍生出的Softmax將LR推廣至多分類任務(wù)中。

      邏輯回歸算法因?yàn)槠涓咝约安凰椎男Ч乾F(xiàn)在工業(yè)界應(yīng)用最廣泛的算法之一。

      2.3 K近鄰算法

      K近鄰算法(K-Nearest Neighbor,KNN)[7]通過與最近K個(gè)點(diǎn)比較,投票選出類別。K近鄰不具有顯示的學(xué)習(xí)過程,分類中有計(jì)算量大的缺點(diǎn)。

      K近鄰算法簡單成熟,在很多機(jī)器學(xué)習(xí)任務(wù)中有很好的效果,也是機(jī)器學(xué)習(xí)十大算法之一。

      3 算法設(shè)計(jì)及實(shí)現(xiàn)

      3.1 數(shù)據(jù)集介紹

      本文實(shí)驗(yàn)采用kaggle上公開的News Aggregator Dataset[8]作為測試數(shù)據(jù)集。News Aggregator Dataset包含2014年間40萬條已經(jīng)分類的新聞,數(shù)據(jù)集屬性如表1所示。

      表1 數(shù)據(jù)集屬性描述表

      此次實(shí)驗(yàn)主要采用TITLE屬性作為超短文本的分類語料,類別標(biāo)簽采用CATEGORY屬性。TITLE屬性中包含的文本,長度大部分集中在3~15個(gè)單詞之間,符合超短文本范疇;CATEGORY包含4種屬性:商業(yè)、科技、娛樂、健康,比例大致為27%、25%、36%、10%,類別基本均衡,符合實(shí)驗(yàn)要求。

      3.2 評價(jià)指標(biāo)

      本次實(shí)驗(yàn)采用4個(gè)機(jī)器學(xué)習(xí)中分類常用的評價(jià)指標(biāo):精度、查準(zhǔn)率、查全率與F1值。

      在二分類問題中,根據(jù)樣本真實(shí)類別與模型預(yù)測結(jié)果的組合定義真正例(True Positive,TP)、假正例(False Positive,FP)、真反例(True Negative,TN)、假反例(False Negative,FN),分類結(jié)果混淆矩陣如表2所示[9]。

      表2 分類結(jié)果混淆矩陣

      3.2.1 精度

      精度是分類正確的樣本數(shù)在總樣本數(shù)中的比例。精度acc定義為:

      (4)

      精度是分類任務(wù)中最常用、最基本但同時(shí)也是最重要的一個(gè)評價(jià)指標(biāo)。

      3.2.2 查準(zhǔn)率

      查準(zhǔn)率P定義為:

      (5)

      查準(zhǔn)率反映了分類為正例中被正確分類的概率。

      3.2.3 查全率

      查全率R,也叫召回率,定義為:

      (6)

      查全率反映了正例中被正確分類的概率。

      3.2.4F1值

      F1值是基于查準(zhǔn)率與查全率的調(diào)和平均,定義為:

      (7)

      查全率與查準(zhǔn)率是一組相反的指標(biāo),相同模型下,查準(zhǔn)率越高,查全率越低;F1值是對查準(zhǔn)率和查全率的均衡反映。

      3.3 實(shí)驗(yàn)環(huán)境

      系統(tǒng)環(huán)境:Ubuntu16.04LTS。

      Python版本:Python3.6。

      編碼格式:utf-8。

      3.4 數(shù)據(jù)預(yù)處理

      首先,刪去實(shí)驗(yàn)中不需要的屬性ID、URL等,只保留CATEGORY和TITLE,以CATEGORY為標(biāo)簽,以TITLE為文本數(shù)據(jù)。接著對文本數(shù)據(jù)進(jìn)行分詞,分詞過程中,去除無實(shí)際含義的停詞、特殊符號、標(biāo)點(diǎn)。最終生成的文本文件,每一行為一條數(shù)據(jù),格式為“類別標(biāo)簽,分詞”。最后,將生成的文件分成兩個(gè)文件:訓(xùn)練集和測試集。

      3.5 實(shí)驗(yàn)過程

      使用支持向量機(jī)、邏輯回歸算法、K近鄰算法三種算法,對獨(dú)熱編碼、詞頻-逆文件頻率、Word2Vec以及對獨(dú)熱編碼和詞頻-逆文件頻率結(jié)果分別進(jìn)行主成分分析降維這五種特征提取方法得到的訓(xùn)練集特征向量進(jìn)行訓(xùn)練,然后用測試集進(jìn)行測試。

      將每種算法所對應(yīng)的所有特征提取方法的實(shí)驗(yàn)視為一輪實(shí)驗(yàn)。每一輪實(shí)驗(yàn)主要包含特征提取和模型訓(xùn)練兩個(gè)部分。

      3.5.1 特征提取

      建立詞表,詞表中包含所有文本數(shù)據(jù)中出現(xiàn)的分詞,大致60 000個(gè)。分別用獨(dú)熱編碼、詞頻-逆文件頻率和Word2Vec提取訓(xùn)練集特征,Word2Vec采用訓(xùn)練好的谷歌新聞知識圖譜,為300維;個(gè)別模型需要對獨(dú)熱編碼和詞頻-逆文件頻率提取的特征向量進(jìn)行主成分分析,再進(jìn)行模型訓(xùn)練。根據(jù)不同算法模型,每次提取特征的訓(xùn)練集大小不同。

      3.5.2 模型訓(xùn)練

      本數(shù)據(jù)集有四個(gè)類別,是一個(gè)四分類問題,查準(zhǔn)率、查全率和F1值對應(yīng)的是二分類問題中的評價(jià)標(biāo)準(zhǔn),因此,將四分類問題轉(zhuǎn)換為二分類問題。在每一輪實(shí)驗(yàn)中,將四種類別兩兩作為一類,共有三種組合,對所有組合進(jìn)行模型訓(xùn)練測試。訓(xùn)練過程中,對于類別的輕微不均衡,通過調(diào)參均衡數(shù)據(jù)。四個(gè)評價(jià)指標(biāo)中,精度為首要指標(biāo)。在每一輪實(shí)驗(yàn)中,選取最好的分類結(jié)果作為這一輪實(shí)驗(yàn)的最終結(jié)果。

      3.6 實(shí)驗(yàn)結(jié)果

      3.6.1 支持向量機(jī)各特征提取方法的結(jié)果

      圖1從精度、查準(zhǔn)率、查全率和F1四個(gè)維度來對比Word2Vec、one-hot、one-hot+PCA、TF-IDF+PCA和TF-IDF的性能。可以看出,在最重要的衡量指標(biāo)精度方面,Word2Vec表現(xiàn)最為優(yōu)異。而且從所有指標(biāo)的均衡性來看,Word2Vec的性能最為穩(wěn)定,明顯優(yōu)先于其他特征提取方法。因此,以支持向量機(jī)為基礎(chǔ)算法,組合Word2Vec特征提取算法能獲取最佳效果。

      圖1 SVM實(shí)驗(yàn)結(jié)果

      3.6.2 邏輯回歸算法各特征提取方法的結(jié)果

      從圖2可以看出,以邏輯回歸算法為基礎(chǔ),Word2Vec、詞頻-逆文件頻率等提取特征方法的效果較為顯著且差別不大,獨(dú)熱編碼略次于前兩種方法。因此,以邏輯回歸為基礎(chǔ)算法,組合Word2Vec、獨(dú)熱編碼以及詞頻-逆文件頻率等提取特征方法能獲取最佳效果且精度、查準(zhǔn)率、查全率和F1四個(gè)衡量指標(biāo)較為穩(wěn)定。

      圖2 LR實(shí)驗(yàn)結(jié)果

      3.6.3 K近鄰算法各特征提取方法的結(jié)果

      K近鄰算法在Word2Vec、one-hot和TF-IDF上性能較好,且明顯優(yōu)于one-hot+PCA、TF-IDF+PCA,如圖3所示。以K近鄰算法為基礎(chǔ)算法,組合Word2Vec、獨(dú)熱編碼以及詞頻-逆文件頻率等提取特征方法能獲取最佳效果且精度、查準(zhǔn)率、查全率和F1四個(gè)衡量指標(biāo)較為穩(wěn)定。但由于K近鄰算法需要與各個(gè)數(shù)據(jù)進(jìn)行相似度計(jì)算,其計(jì)算開銷很大,不適合應(yīng)用于對計(jì)算時(shí)間復(fù)雜度有要求的場景。

      圖3 KNN實(shí)驗(yàn)結(jié)果

      4 結(jié)果分析

      在支持向量機(jī)算法中,Word2Vec的特征選擇方法明顯是最優(yōu)異的,各項(xiàng)指標(biāo)較為均衡,大部分評價(jià)指標(biāo)均遠(yuǎn)好于其他方法;在邏輯回歸算法中,Word2Vec與TF-IDF優(yōu)于其余特征提取方法,TF-IDF查全率有少許優(yōu)勢,綜合來說,Word2Vec與TF-IDF在該文件邏輯回歸算法中,均有較好表現(xiàn);在K近鄰算法中,Word2Vec與獨(dú)熱編碼方法較好,效果較一致,Word2Vec各指標(biāo)更加均衡,TF-IDF更加優(yōu)于前兩種方法。四種表現(xiàn)最佳模型最終結(jié)果如表3所示。

      表3 四種最優(yōu)模型實(shí)驗(yàn)結(jié)果

      5 結(jié)論

      表3中給出的四種最優(yōu)的方法,精度相差無幾,而結(jié)合其他評價(jià)指標(biāo),以詞頻-逆文件頻率為特征提取方法、以邏輯回歸為算法的模型為最優(yōu)的算法。Word2Vec特征提取方法對于大多數(shù)算法都有不錯(cuò)的效果,同時(shí),在個(gè)別算法中詞頻-逆文件頻率也有著很好的效果。

      猜你喜歡
      查全率查準(zhǔn)率詞頻
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      海量圖書館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計(jì)
      基于詞嵌入語義的精準(zhǔn)檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      詞頻,一部隱秘的歷史
      云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
      以關(guān)鍵詞詞頻法透視《大學(xué)圖書館學(xué)報(bào)》學(xué)術(shù)研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      中文分詞技術(shù)對中文搜索引擎的查準(zhǔn)率及查全率的影響
      绩溪县| 普陀区| 望都县| 海盐县| 海丰县| 昌宁县| 文山县| 庆安县| 衡阳县| 吐鲁番市| 淮安市| 宁津县| 黄冈市| 辰溪县| 甘孜县| 清涧县| 巧家县| 合川市| 合江县| 高要市| 竹溪县| 海门市| 门头沟区| 安塞县| 阳春市| 湖州市| 绥阳县| 平乐县| 浮梁县| 右玉县| 钟山县| 双辽市| 马龙县| 潍坊市| 宁陕县| 泰和县| 商洛市| 昌乐县| 平安县| 曲阜市| 元朗区|