• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      特征詞

      • 基于改進TFIDF算法的文本特征選擇和聚類分析
        空間模型中用于特征詞分析的一個重要算法[12-13]。IDF屬于逆文檔頻率,隨著文檔數(shù)量不斷增加,該參數(shù)也發(fā)生了持續(xù)降低的趨勢,采用該特征詞無法實現(xiàn)文檔類別進行準確區(qū)分的目標。TF為詞頻,隨著特征詞頻率的提高,對應的權值也越大,可以判斷此時該特征詞達到了更強的文檔區(qū)分性能。以下為TFIDF計算式:(1)式中,t是第m篇文檔出現(xiàn)詞t的頻率,N為所有文檔的數(shù)量,n是含有詞t的文檔數(shù)。利用TFIDF算法對均勻狀態(tài)的詞進行高效過濾,但也需注意此算法具有較大缺陷需要

        微型電腦應用 2023年10期2023-11-09

      • 淺談山東黃島地區(qū)的“嫚”
        詞】漢字職能;特征詞;方言;“經(jīng)濟”原則【中圖分類號】H172? ? ? ? ? ? ?【文獻標識碼】A? ? ? ? ? 【文章編號】2096-8264(2023)30-0112-03【DOI】10.20024/j.cnki.CN42-1911/I.2023.30.035黃島區(qū)隸屬于山東省青島市,地處山東半島東南隅、膠州灣南畔,黃島方言隸屬于膠遼官話區(qū)。李榮《官話方言的分區(qū)》說:“膠遼官話包括青島、煙臺、大連等地?!弊鳛楸狈椒窖怨僭挼囊粋€分支,黃島方言與

        今古文創(chuàng) 2023年30期2023-08-22

      • 基于在線評論的商品推薦方法*
        計算相似度建立特征詞集合。1.1 在線評論數(shù)據(jù)獲取和數(shù)據(jù)處理獲取消費者關注的備選商品在線評論信息是進行數(shù)據(jù)挖掘的基礎性工作。針對消費者關注的備選商品,可以借助爬蟲軟件對商品評論進行獲取,之后再對評論進行預處理,包括噪聲處理、分詞及詞性標注、停用詞刪除和干擾特征詞處理。1.2 商品特征的挖掘特征提取算法一般分為兩類,第一類是無監(jiān)督的特征詞提取方法,第二類是有監(jiān)督的特征詞提取方法??紤]到無監(jiān)督的特征詞提取方法速度快、效果較好。因此本文采用無監(jiān)督的TF-IDF

        計算機時代 2023年8期2023-08-22

      • 基于特征詞的教學綜合評語量化研究
        地提出基于專業(yè)特征詞與大數(shù)據(jù)特征詞的兩種評分模型,對教學綜合評語進行量化打分,以幫助對比綜合評價等級相同時課堂教學質量的差異。實驗結果表明,大數(shù)據(jù)特征詞評分模型可更好地區(qū)分不同課程的教學質量,評價結果符合實際,結果真實、可靠。1 教學質量評價指標確定課堂教學質量評價受到很多因素影響,教師是課堂教學活動的直接負責人,教師的教學態(tài)度、教學內(nèi)容、方法手段、教學成效等都是影響教學質量的客觀因素。因此,科學、合理地進行課堂教學質量評價,對于促進教師提升業(yè)務水平、創(chuàng)新

        軟件導刊 2023年1期2023-02-18

      • 基于Simhash改進的文本去重算法
        )加權。為每個特征詞賦予權重,對每個詞的f位簽名進行加權計算。在計算每個比特位時,遇到1則加上其權重值,遇到0則減去其權重值,得到每個詞的加權特征值。(4)合并。對文本內(nèi)的每個加權特征值進行累加,得到一個f位向量V。(5)降維。對向量V降維,對于每個比特位,如果大于0則將該比特位置為1,否則置為0。得到的結果作為文本的簽名,記為S。在計算文本間距離階段,對不同文本的簽名進行異或操作,逐位比較其簽名值。如果該比特位上的值不同則記為1,否則為0,得到1的個數(shù)即

        計算機技術與發(fā)展 2022年8期2022-08-23

      • 文本分類中基于CHI和PCA混合特征的降維方法
        示成由一定數(shù)量特征詞構成的空間向量,向量的維數(shù)即是文本集合中所有特征詞的數(shù)量,這個維度通??蛇_幾萬維,甚至更高,所以文本特征空間的高維性是導致本問題的研究難點之一[3]。需要注意的是,并不是高維數(shù)據(jù)的每個維度都對文本的分類有實質性貢獻,實際上,不同的特征之間可能存在不相關或者是冗余的現(xiàn)象,這不僅增加了許多噪聲數(shù)據(jù),造成了時間和空間開銷的浪費,而且容易出現(xiàn)過擬合問題[4],顯然,文本的特征降維是解決此類問題的有效方法之一。1 相關工作文本特征降維包括特征選擇

        重慶郵電大學學報(自然科學版) 2022年1期2022-03-17

      • “方言詞”“方源詞”所指探究
        言詞;方源詞;特征詞;所指一、引言“方言詞”和“方源詞”的區(qū)分問題早在二十世紀八十年代就引起學者們的關注。黃伯榮、廖序東主編的《現(xiàn)代漢語》將“方言詞”定義為:“那些原為方言現(xiàn)在已經(jīng)被吸收進普通話的詞。例如‘名堂、把戲、垃圾、癟三、二流子、搞、垮、拆爛污、別扭、尷尬、陌生、蹩腳’等?!盵1](P243)同時,作者還指出:“人們的口語里往往混雜著各種各樣的方言詞,愈接近口語的文章,方言詞就愈容易出現(xiàn)?!盵1](P244)此書的增訂六版則將之修訂為:“人們的口語

        現(xiàn)代語文 2022年2期2022-03-09

      • 基于類信息的TF-IDF權重分析與改進①
        重計算僅考慮了特征詞的詞頻和逆文檔頻率等,仍還有許多可改進的空間.因此,很多學者分析TFIDF的缺陷,對其進行了相應的改進.How 等[2]提出利用Category Term Descriptor (CTD)來改進TF-IDF,考慮不同類別的文檔數(shù)可能存在數(shù)量級的差距,以改善類別數(shù)據(jù)集偏斜所引起的誤差;徐冬冬等[3]引入逆類頻率因子和類別比率因子用以修正TF-IDF 權重算法,得到基于類別描述的TF-IDF-CD 方法,葉雪梅等[4]針對新詞識別對分類結果

        計算機系統(tǒng)應用 2021年9期2021-10-11

      • 基于布爾模型的高校技術需求與科技成果匹配研究
        本文將技術領域特征詞作為匹配的關鍵詞,構建技術需求與科技成果匹配的布爾模型,最終將此方法應用到匹配系統(tǒng)中。一、技術需求與科技成果的標識(一)技術文本詞典的構建本文高校的技術文本詞典由技術領域與技術領域特征詞集構成。領域特征詞是用來描述技術領域最貼切的詞語,是代表技術領域概念的專業(yè)化術語。同時將一個技術領域內(nèi)所有的特征詞的集合稱為技術領域特征詞集,領域特征詞集可以代表整個技術領域特點。本文提出以技術領域特征詞為標識,作為匹配的依據(jù)。在填寫技術需求與科技成果信

        科學咨詢 2021年22期2021-08-31

      • 基于改進CHI和TF-IDF的短文本分類的研究
        要是因為選擇的特征詞數(shù)量巨大。進行有效的特征選擇可以極大減少選取特征詞數(shù)量,大幅度降低特征空間維數(shù),能夠提高分類的效率和精度。因此,在進行文本分類中,特征選擇就顯得至關重要[3]。特征選擇降低空間維度的主要方式是在高維空間中選擇出帶有大部分文本信息的特征詞,用這些特征詞代表文本,從而有效地提高文本分類的效率和精度。因為特征選擇在文本分類中的作用極其重要,所以不少國內(nèi)外研究學者致力于改進特征選擇方法。Salton等人[4]在1983年提出結合詞頻權重和反文檔

        計算機與現(xiàn)代化 2021年6期2021-06-29

      • 基于TF-IDF-MP 算法的新聞關鍵詞提取研究
        因此,如何給特征詞賦予合適的權重是文本分類任務中的一個基本問題,直接影響到分類的準確性。在文本分類過程中, 特征提取是一個關鍵步驟。 首先采用某個特征評估函數(shù)計算每個特征的數(shù)值,然后根據(jù)數(shù)值對特征排序,最后選取若干個數(shù)值最高的作為特征詞。 它的主要作用是在不丟失文本關鍵信息的前提下盡量減少待處理詞語數(shù)量,以此來降低向量空間維數(shù),從而簡化計算,提高分類的速度與效率。 常用的特征提取的方式有4 種:①采用映射方法將高維的特征向量變換為低維特征向量; ②從原始

        華東交通大學學報 2021年1期2021-04-24

      • 新時期絲綢文化演變的大數(shù)據(jù)解讀
        結合的方法,對特征詞的綜合上下文性質進行量化,解決模糊特征的歸類問題;應用該文化特征體系,結合特征詞頻率統(tǒng)計方法,考察絲綢文化的特征分布及其新時代內(nèi)涵;通過在時間軸上跟蹤文化特征分布的變化,揭示絲綢文化演進的失衡區(qū)間和“三分段”模式,并分析失衡區(qū)間中的拐點現(xiàn)象及其成因。通過將大數(shù)據(jù)采集和計量方法與傳統(tǒng)文化特征體系無縫銜接,研究以數(shù)理實證方式展示了絲綢文化的內(nèi)涵升級和結構重組,有助于深入理解“一帶一路”影響下傳統(tǒng)文化的現(xiàn)實狀態(tài)和發(fā)展方向。關鍵詞: 絲綢;一帶

        絲綢 2020年12期2020-12-28

      • 基于改進的TF-IDF和貝葉斯算法的新聞分類
        取新聞文本中的特征詞集合,然后計算每個特征詞的TF-IDF值,并將TF-IDF值形成特征向量作為貝葉斯算法的輸入來實現(xiàn)新聞文本的分類。本文隨機搜集了大量的不同類別的新聞文本進行分類實驗,實驗結果表明,該方法對不同類別的新聞都有較好的分類效果。關鍵詞:新聞分類;TF-IDF;貝葉斯算法;特征詞以前,人們主要從電視、報紙等傳統(tǒng)媒介獲取新聞,通過這種方式獲取的新聞數(shù)量有限,且新聞的受眾群體也不太普遍。隨著科技和網(wǎng)絡時代的發(fā)展,電腦和智能手機等電子設備的普及,人們

        科技風 2020年31期2020-11-23

      • 融合語義特征的加權樸素貝葉斯分類算法
        更新后的關鍵特征詞集合T={t1,t2…,ti}(1) 預處理得到詞語集合V={v1,v2,…,vi,…,vj}(2) setT=? //設定初始關鍵特征詞集合為空(3) setK//設定取前K個關鍵特征詞(4) for eachD(5) for eachvi,vjinV(6) 通過式(2)計算詞語間語義相關性wNGD(i,j)(7) end for(8) end for(9) 根據(jù)式(3)計算初始權重wji(10) for eachviinV(11)

        計算機工程與設計 2020年9期2020-09-29

      • 基于泊松分布的加權樸素貝葉斯文本分類算法
        模型,通過考慮特征詞之間的屬性關聯(lián)提升了分類效果。文獻[8]提出一種基于全局特征提取的文本分類策略,通過新穎的特征提取方式改善了算法性能。文獻[9]提出在決策樹中每個葉節(jié)點加入樸素貝葉斯算法的一種構建樸素貝葉斯樹的方法,提高了分類精確度,但同時增加了算法時間開銷。文獻[10]提出一種利用特征權重對樸素貝葉斯算法中的條件概率進行相關評估的深度特征權重樸素貝葉斯算法,改善了分類器性能。文獻[11]提出了一種基于屬性頻率的樸素貝葉斯算法,利用可辨識矩陣對不同屬性

        計算機工程 2020年4期2020-04-20

      • 一種基于TF-IDF的樸素貝葉斯算法改進
        該算法沒有體現(xiàn)特征詞在文檔類間和類內(nèi)的分布信息。文獻[2]中加入特征類間比重信息,使其對文檔分布不敏感,從而對文檔集有更好的適應性;文獻[3]通過計算特征詞間的相似度,選擇最大相似度作為特征權重,提高分類效果;文獻[4]提出新詞發(fā)現(xiàn)特征權重算法,改進TF-IDF對網(wǎng)絡新詞的識別能力,優(yōu)化文本分類效果;文獻[5]通過改進特征選擇算法和特征加權算法,增加位置選擇信息來提高文本分類效果;文獻[6-9]均對TF-IDF權重進行了類間改進優(yōu)化。雖然這些文獻對權重進行

        計算機技術與發(fā)展 2020年2期2020-04-15

      • 面向產(chǎn)品設計的用戶需求重要度分析方法*
        需求滿意度進行特征詞級的計算。(3) 產(chǎn)品設計需求篩選層。經(jīng)專利或期刊數(shù)據(jù)抓取、停用詞和分詞處理、主題詞抽取、詞性篩選等操作,構建產(chǎn)品設計需求篩選庫,從用戶需求特征詞集合中篩選出設計需求特征詞。(4) 用戶需求挖掘層。用戶需求重要度計算模型從用戶需求挖掘開始,通過評論數(shù)據(jù)采集、數(shù)據(jù)預處理、特征詞與情感詞提取,構建用戶需求特征詞、情感詞詞典,通過特征詞與產(chǎn)品設計需求映射庫檢測,確定用戶需求。3 用戶需求重要度計算流程3.1 流程概述用戶需求重要度的計算從用戶

        機械制造 2020年12期2020-03-23

      • 一種面向財務文本分類的TF-IDF改進算法
        提出了一種新的特征詞權重計算方法(SNGTI-LFDF)。該算法以TF-IDF方法為基礎,引入停用詞失效的N-Gram方法和特征詞位置詞頻因子,保留特征詞位置信息并改善了特征詞的權重分配。采用樸素貝葉斯方法對分類性能進行了驗證,實驗結果表明,相對于TF-IDF和同類改進算法TF-IDF-DL,SNGTI-LFDF方法取得了更高的準確率、召回率和F1值。因此該算法在能較好地提高財務文本分類性能。關鍵詞:TF-IDF;N-Gram;位置因子;SNGTI-LFD

        現(xiàn)代信息科技 2020年18期2020-02-22

      • 可變屬性粒度的中文文本概念格聚類研究
        究對象,以文本特征詞為屬性,引入形式概念分析理論,采用概念格聚類的方式對中文文本進行聚類,同時,將特征詞匹配至可變屬性粒度的屬性樹上,避免因為屬性粒度過細導致聚類速度慢的問題,該算法聚類效果良好。關鍵詞:中文文本聚類;形式概念分析;概念格;可變粒度;特征詞中圖分類號:中圖分類號:TP319? ? ? ? 文獻標識碼:A文章編號:1009-3044(2019)26-0027-02開放科學(資源服務)標識碼(OSID):針對文本數(shù)據(jù)進行數(shù)據(jù)挖掘與知識描述、知識

        電腦知識與技術 2019年26期2019-11-17

      • 基于改進TF-IDF-CHI算法的農(nóng)業(yè)科技文獻文本特征抽取*
        所對應的詞作為特征詞,過濾掉低于閾值的低頻詞。文檔頻率法簡單易行,但是較為粗糙,而且詞條的文檔頻率閾值不好確定,閾值過大易導致具有代表性的詞條丟失,過小又會導致入選詞條包含大量無貢獻的低頻詞,影響分類效果[5]。1.2 信息增益法信息增益法是根據(jù)詞條能為整個分類系統(tǒng)提供的信息量的多少來決定其重要程度。信息增益用特征詞在文本中出現(xiàn)時與不出現(xiàn)時的信息熵之差表示,依據(jù)差值的大小決定其作為特征詞的取舍[6]。信息增益算法相對簡單。但是由于考慮特征詞出現(xiàn)與不出現(xiàn)兩種

        數(shù)字圖書館論壇 2019年8期2019-10-17

      • 基于大數(shù)據(jù)挖掘的精準扶貧工作第三方評估 ——以武漢市為例
        評估指標所對應特征詞的頻度統(tǒng)計分析,得到評價結果。并利用社會網(wǎng)絡分析方法,揭示評估指標所對應特征詞之間及其與精準扶貧之間的關系,對精準扶貧工作進行深入分析,查找問題,提出對策建議。本文以下分為四個部分:第二部分介紹研究使用的理論、分析架構和評價指標體系;第三部分,是利用文本挖掘和文本評價指標體系對武漢精準扶貧工作進行評估;第四部分利用社會網(wǎng)絡分析方法對武漢精準扶貧工作進行分析,第五部分是結論。2 使用理論和方法2.1 精準扶貧第三方評估理論目前,理論界比較

        武漢工程職業(yè)技術學院學報 2019年3期2019-10-17

      • 基于加權語義網(wǎng)的文本相似度計算方法研究
        .該方法首先以特征詞為節(jié)點,以特征詞窗口共現(xiàn)為邊,以特征詞的TF-IDF值為特征詞節(jié)點的初始權重,以融合共現(xiàn)頻率和概念間語義距離計算特征詞節(jié)點之間邊的權重,構建加權語義文本復雜網(wǎng)絡.然后利用綜合特征指數(shù)作為加權語義網(wǎng)中文本的特征權重.最后基于公開數(shù)據(jù)集和KNN算法進行文本聚類實驗,實驗結果表明,在基于F-度量值標準上本文提出的方法要優(yōu)于傳統(tǒng)基于向量空間模型的TF-IDF方法和另一種結合復雜網(wǎng)絡權重的方法. 關鍵詞:復雜網(wǎng)絡;特征詞;KNN算法;文本相似度;

        赤峰學院學報·自然科學版 2019年5期2019-09-10

      • 基于差異度量和互信息的文本特征選擇算法
        降低低頻詞以及特征詞對類間均勻分布的干擾[4];段落類別特征選擇(feature selection paragraph category,F(xiàn)SPC)[5-6]將特征詞的段落頻率與特征詞類別的分布程度進行融合,該度量標準能夠描述特征詞在文檔中的均勻分布程度;CHI優(yōu)化算法針對分布不均勻的特征數(shù)據(jù)集,適當改善了集中在少量文檔中的單詞的權重[7-8];基于文檔頻率的歸一化差異度量 (normalized difference measure,NDM)通過對真正

        西安郵電大學學報 2019年6期2019-06-27

      • 基于詞向量和多特征語義距離的文本聚類算法
        算應用中,存在特征詞向量維度高、數(shù)據(jù)稀疏、忽略低頻詞以及缺乏語義信息等問題。文獻[4][5]介紹的基于主題模型的方法,能將高維的特征詞向量空間轉換為低維的語義主題空間,解決了特征詞向量空間維度高、缺乏語義的問題,但這類方法都是假設數(shù)據(jù)服從指數(shù)分布。實際上,數(shù)據(jù)分布并不一定完全服從指數(shù)分布。另外,這類方法偏向于從高頻的數(shù)據(jù)中歸納語義,忽略了低頻詞的影響。文獻[6-8]介紹的基于知識庫的方法,能夠解決文本表示特征稀疏、特征詞語義缺失的問題,但由于受限于知識庫的

        重慶科技學院學報(自然科學版) 2019年3期2019-06-24

      • 基于加權語義網(wǎng)的改進文本相似度計算方法
        中每個元素值為特征詞頻(term frequency,TF)和逆文本頻率(inverse document frequency,IDF)的乘積,這樣就可以通過計算向量之間的差異來衡量文本之間的相似性。這種方法的優(yōu)點簡單,并且可以排除文本中低區(qū)分度詞和高頻詞的干擾。但是這種方法也忽略了特征詞本身一般都具備豐富的語義,而且詞之間的語義關系、詞的頻率和詞的上下文結構信息等都將影響著對文本相似度計算結果的準確性[4-6]。近年來,隨著復雜網(wǎng)絡科學研究的發(fā)展,在自然

        邵陽學院學報(自然科學版) 2019年3期2019-05-04

      • 文本分類中基于CHI改進的特征選擇方法*
        頻率或者概率對特征詞進行權重計算,并根據(jù)排名選取TOP-K特征詞??ǚ浇y(tǒng)計量(Chi-square statistics,CHI)是一種常用的特征選擇方法,具備更低的時間復雜度和應用便利性[2],其統(tǒng)計特征詞在文本中是否出現(xiàn),但沒有考慮詞頻和特征詞分散度、集中度等信息。Galavotti L等人[3]通過研究特征詞與類別的正負相關性問題,引入一種新的相關系數(shù)方法對CHI模型進行優(yōu)化,使得模型性能有了一定的提高。Jin C等人[4]使用樣本方差計算詞的分布信

        傳感器與微系統(tǒng) 2019年2期2019-01-15

      • 基于二分網(wǎng)中心節(jié)點識別的產(chǎn)品評論特征-觀點詞對提取研究①
        觀點詞所修飾的特征詞則反映了消費者對于產(chǎn)品關注的焦點.這些特征觀點詞不僅影響著消費者的購買意向,同時也可以作為商家了解競爭對手的一個窗口,從而提高產(chǎn)品質量,更好地為消費者服務.如何從這些海量評論文本中有效地提取商品特征詞和觀點詞,更好為消費者跟商家服務,是意見挖掘領域中的熱點問題.在這些特征詞觀點詞中又有高頻詞和低頻詞之分,高頻詞更能準確地反應消費者關注產(chǎn)品的焦點,所以本文重點挖掘出產(chǎn)品評論中高頻特征觀點詞.近些年有很多學者針對產(chǎn)品特征詞觀點詞提取進行了研

        計算機系統(tǒng)應用 2018年11期2018-11-14

      • 酒店在線評論數(shù)據(jù)的特征挖掘
        析、特征抽取、特征詞確定等環(huán)節(jié)。具體流程如圖1所示。圖1 基于酒店在線評論數(shù)據(jù)的特征挖掘Fig. 1 Feature mining based on hotel online review data2.1 數(shù)據(jù)獲取在線點評數(shù)據(jù)包括數(shù)字、文本、圖片等,本文應用主題爬蟲在貓途鷹網(wǎng)(tripadvisor)和攜程網(wǎng)(ctrip)上爬取相關數(shù)據(jù),去除與主題無關的各種噪音數(shù)據(jù)(如導航條、廣告信息、版權信息和其他圖片、圖像、聲音等),對獲取到的數(shù)據(jù)進行預處理(主要是去

        智能系統(tǒng)學報 2018年6期2018-11-05

      • 基于MapReduce的改進CHI文本特征選擇機制
        些文檔頻率低但特征詞頻率高的特征詞將不會被選為特征項;同時,放大了在指定類別中出現(xiàn)很少但在其他類別中出現(xiàn)較多的特征詞在該類中的權重.為解決上述問題,本文提出一種基于MapReduce的CHI文本特征選擇機制,主要貢獻如下:1)對傳統(tǒng)CHI統(tǒng)計法公式進行改進,引入類內(nèi)頻數(shù)解決忽略高頻特征詞的問題,同時引入類間方差解決放大外圍特征詞權重的問題,從而提高CHI統(tǒng)計法的特征選擇準確度,從根本上提高文本分類的精度;2)提出基于MapReduce的CHI文本特征選擇模

        小型微型計算機系統(tǒng) 2018年8期2018-09-07

      • 基于改進TFIDF算法的郵件分類技術
        該方法只考慮了特征詞文檔的絕對數(shù)量和特征詞在某類郵件中的詞頻,沒有考慮到特征詞在類中的分布情況和特征詞在其他類郵件中的詞頻,高估了低頻詞的作用并低估了高頻詞的作用。文中將對TFIDF進行一定的修改和優(yōu)化,以克服傳統(tǒng)TFIDF的缺陷。1 特征提取算法及其改進1.1 CHI統(tǒng)計算法CHI統(tǒng)計算法是使用統(tǒng)計的方法計算特征詞t與郵件類別d的關聯(lián)程度。特征詞t與郵件類別d的相關度表示如下:(1)其中,N表示郵件總數(shù)量;A表示郵件類別d中包含特征詞t的郵件數(shù)量;B表示

        計算機技術與發(fā)展 2018年8期2018-08-21

      • 基于詞向量及術語關系抽取方法的文本分類方法
        方檢驗中存在的特征詞“不完備”的特點??紤]到選取的特征詞語集合不能表達特定學科領域的概念,本文對擴充后特征詞集合構建候選術語網(wǎng)絡;然后根據(jù)特征詞向量的位置關系、詞匯信息特征考察特征詞之間的內(nèi)部結合緊密度;最后,采用詞語的左熵或右熵規(guī)則實現(xiàn)術語抽取,形成特定學科領域內(nèi)能夠反映文本表示的特征詞抽取方法。2 相關研究2.1 特征表示特征表示是基于某種評價標準,對文本中的特征項進行評估,并對每一個特征進行評分,按照分數(shù)進行排序,選擇Top N特征項作為文本表示的特

        移動通信 2018年7期2018-07-30

      • 一種語義弱監(jiān)督LDA的商品評論細粒度情感分析算法
        取,進一步發(fā)現(xiàn)特征詞和情感詞.但由于LDA是無監(jiān)督的概率模型,偏向于發(fā)現(xiàn)以文檔為單位的高頻共現(xiàn)關系,很難發(fā)現(xiàn)低頻及隱含在句式結構中的特征詞和情感詞,并且缺乏對詞語關聯(lián)和情感隸屬等語義關系的理解,造成情感極性分類的準確性不高,具體表現(xiàn)如下:1)難以提取無特征情感詞.在中文商品評論中,經(jīng)常會在單個句子中省去特征詞而直接使用情感詞,稱之為無特征情感詞,如句子“很清晰”“很便宜”中的“清晰”“便宜”,分別省去了特征詞“屏幕”“價格”.LDA模型對無特征情感詞進行主

        小型微型計算機系統(tǒng) 2018年5期2018-07-04

      • 基于關聯(lián)關系的電子病歷聚類研究
        題[7-8]:特征詞詞頻減少,如不同患者的對同一個意思的不同表述,會造成表述同一意思的詞頻減少,進而造成對電子病歷的聚類效果不理想;停用詞影響結果相關性,如在電子病歷詞袋中“你、我、他”等停用詞出現(xiàn)頻率較高,不但對電子病歷聚類毫無意義,還導致產(chǎn)生聚類的結果相關性低等問題;通過詞頻度量相關性有缺陷,如在疾病分類中用“發(fā)燒”這個詞在電子病歷描述中出現(xiàn)的頻次衡量其相關性,會導致所有的發(fā)熱癥狀都具有相關性,顯然僅通過詞頻度量相關性是不夠準確的。1.2 向量空間模型

        中華醫(yī)學圖書情報雜志 2018年5期2018-03-22

      • 結合文本信息量和聚類的文本裁剪算法
        先根據(jù)文本中的特征詞特征詞出現(xiàn)的次數(shù),利用本文提出的計算方法計算每條文本的權重,對每個類別中的文本重要性進行排序;再利用kmeans聚類算法將文本向量空間模型進行聚類,刪除掉每個類別中的噪聲樣本;然后結合已經(jīng)計算的樣本的重要性序列,在每個類別中篩選出等量的文本,構建新的訓練樣本空間。后續(xù)的KNN操作,在新的訓練樣本空間上進行。1 相關工作1.1 文本預處理文本預處理主要包括對文本正則化處理、中文分詞、停用詞操作。對于給定的文本,其中包含了許多特殊字符和無

        計算機工程與設計 2018年3期2018-03-19

      • OPEN:一個基于評論的商品特征抽取及情感分析框架
        有觀點詞,沒有特征詞,但這些觀點詞修飾的特征也是比較明確的。(2) 從評論中提取的特征詞和觀點詞是多樣化的,而這些特征詞通常都可隱含地歸納為幾類典型特征。例如“物流、速度、快遞”都隱含對應了物流特征,“口感、味道”都隱含對應了品質特征。因此如果能將提取的特征詞聚類為幾類典型特征,提供這幾類典型特征的情感分析,將使評論體現(xiàn)的商品特征及情感表述更為簡潔。本文針對上述問題,提出一個基于評論的商品特征抽取及情感分析框架(OPEN)。OPEN首先利用依存關系和詞性搭

        計算機應用與軟件 2018年1期2018-02-27

      • 產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
        產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用余琦瑋1肖 穎1林 靜1徐新勝1王慶林1張 飛21.中國計量大學工業(yè)工程研究所,杭州,3100182.中國計量大學機械設計制造及其自動化研究所,杭州,310018網(wǎng)絡上產(chǎn)品評論文本是用戶對產(chǎn)品的評價與反饋,及時、有效挖掘其中有價值的信息是制造企業(yè)、銷售商獲取競爭優(yōu)勢迫切需要解決的問題。綜合詞形、詞性、依存關系、控制詞及其情感描述等,設計了特征詞提取規(guī)則單元以及規(guī)則模板,基于條件隨機場實現(xiàn)了產(chǎn)品特征詞的有效提取,

        中國機械工程 2017年22期2017-12-02

      • 基于互信息的文本分類改進方法研究
        用評價函數(shù)評價特征詞的權重值改進LDA算法分類過程,提高對主題分類貢獻度高的特征詞的作用。通過在新聞語料庫上的分類實驗證明了該方法的有效性,同時表明分類的準確率也有所提高。主題模型;詞頻;互信息;特征選擇0 引言文本分類是指在給定分類體系下,根據(jù)文本內(nèi)容自動確定文本類別的過程,本質上是一種模式識別過程,它可以對文本的特征模式進行識別,關鍵技術有語料庫的預處理、特征選擇、分類模型構建等。主題模型[1](topic modeling)是一種常見的機器學習方法,

        網(wǎng)絡安全與數(shù)據(jù)管理 2017年19期2017-10-21

      • 基于隱馬爾科夫模型與語義融合的文本分類
        分類的方法。將特征詞的語義作為先驗知識融合到隱馬爾科夫分類模型中。通過信息增益提取特征詞,用word2vec提取特征詞語義,將每一個類別映射成一個隱馬爾科夫分類模型,模型中狀態(tài)轉移過程就是該類文本生成過程。將待分文本與分類模型做相似度比較,取得最大類別輸出概率。該方法不僅考慮特征詞、詞頻、文檔數(shù)量先驗知識,而且將特征詞語義融合到隱馬爾科夫分類模型中。通過實驗評估,取得了比原HMM模型和樸素貝葉斯分類模型更好的分類效果。隱馬爾科夫模型 語義融合 word2v

        計算機應用與軟件 2017年7期2017-08-12

      • 西江流域疍家雜字方俗語詞通釋
        的幾十個粵方言特征詞進行匯釋,以為專家學者深入研究提供參考。該書語言雅俗共賞、富有音樂美,從內(nèi)容到語言均體現(xiàn)了濃郁的嶺南地方特色,在語言學、民俗學研究等方面均有較高價值,是研究嶺南文化、疍家族群文化的寶貴參考資料。關鍵詞:疍家 雜字 特征詞 民俗《雜字歌》是流傳于民國時期西江流域農(nóng)村的一種識字啟蒙讀物,全書共5180字,從各方面詳細描述當?shù)匕傩盏纳?,?nèi)容全面、條理清晰,既起到識字讀本作用,又能起到普及生活知識和一般德行教化的作用,可謂當?shù)剞r(nóng)村生活的百科全

        現(xiàn)代語文 2017年4期2017-06-08

      • 新生代農(nóng)民工的身份重構 ——自我范疇化視角
        基礎。研究通過特征詞主動選擇及特征詞被動評價兩種研究范式,以324名平均年齡為25.13歲的不同身份認同類型的新生代農(nóng)民工為被試,研究不同認同類型新生代農(nóng)民工社會范疇化的特點,從社會范疇化角度揭示身份重構的認知規(guī)律。結果表明:范疇邊界的區(qū)分度是范疇確立的重要條件;從農(nóng)村人認同—認同模糊—城市人認同的身份重構過程呈現(xiàn)出在自我群體類特征詞選擇上從農(nóng)村人特征詞為主—無明顯選詞偏好—城市人特征詞為主的梯度過渡形態(tài);并在表征水平上表現(xiàn)出映像表征符號使用偏好下降,抽象

        沈陽師范大學學報(社會科學版) 2017年2期2017-04-12

      • 一種樸素貝葉斯文本分類算法的分布并行實現(xiàn)
        合的數(shù)值來表示特征詞的重要程度,以此獲得特征詞權重,建立加權貝葉斯分類器;文獻[12]對經(jīng)典樸素貝葉斯分類算法進行了改進,提出了一種文本分類算法,提高了分類精度;文獻[13]提出了一種基于輔助特征詞的樸素貝葉斯文本分類算法,提高了類條件概率精確度。以上算法在一定程度上提高了文本分類的性能,但也存在兩方面的局限:其一,文本分類過程中,語言中大部分詞都屬于低頻詞,容易造成數(shù)據(jù)稀疏問題;其二,由于其自身擴展性和計算能力的限制,集中式平臺運行傳統(tǒng)樸素貝葉斯文本分類

        計算機應用與軟件 2016年11期2016-12-26

      • 文本分類中基于熵的詞權重計算方法研究*
        性能更加穩(wěn)定。特征詞權重;熵加權;文本分類;類別區(qū)分力1 引言隨著計算機應用的普及和互聯(lián)網(wǎng)規(guī)模的不斷發(fā)展,文本數(shù)據(jù)量變得非常龐大且仍在迅猛增加,比如每天都有大量的以文本內(nèi)容為主的電子文獻、網(wǎng)頁、消息和郵件在不斷地產(chǎn)生。因此,作為文本組織與挖掘的基本技術手段之一,自動文本分類(text categorization,TC)變得越來越重要。為了進一步提高文本分類的性能,研究人員主要從兩個方面開展研究:一是改善分類算法(或學習模型);二是改善文本數(shù)據(jù)表示模型。眾

        計算機與生活 2016年9期2016-09-20

      • 珠江三角洲堤圍專題文獻識別方法研究*
        特征,使用文獻特征詞識別的方法并舉隅,通過文獻特征詞的特征,以計算機及輔助人工識別的方法,識別、整理和組建珠江三角洲堤圍專題文獻資料信息集。關鍵詞珠江三角洲堤圍文獻特征詞識別方法引用本文格式劉水養(yǎng).珠江三角洲堤圍專題文獻識別方法研究[J].圖書館論壇,2016(3):83- 89.*本文系2014年度佛山市哲學社會科學規(guī)劃項目“桑園圍文獻收集與整理”(項目編號:2014-wj20)研究成果之一A Study of the Recognition Metho

        圖書館論壇 2016年3期2016-04-06

      • 一種標準數(shù)據(jù)元與數(shù)據(jù)項匹配算法
        數(shù)據(jù)項;匹配;特征詞中圖分類號:TP312 文獻標識碼:A 文章編號:1009-3044(2016)01-0005-02An Algorithm of Matching Data Elements and Data ItemsLI Min(Public Safety Information Technology Department, China Electronics Technology Company, Beijing 100083, China)A

        電腦知識與技術 2016年1期2016-03-22

      • 漢語特征詞跨域使用的類型和特點
        0079)漢語特征詞跨域使用的類型和特點劉 云(華中師范大學文學院,湖北武漢,430079)特征詞在分布上的最大特點就是分布的不均衡性。本文主要探討特征詞跨域使用的類型和特點,認為特征詞的跨域使用可分為三種類型:一是引用型,二是固定型,三是修辭型。特征詞的跨域使用具有領域的不均衡性、鮮明的時代性以及使用范圍和搭配的擴大等特點。特征詞;類型;特點一、 引 言特征詞是指能夠反映文本特征、分布差異較大的詞語,其在分布上的最大特點就是分布的不均衡性。假設有k個字數(shù)

        華中學術 2016年4期2016-03-14

      • 一種基于改進的TF-IDF和支持向量機的中文文本分類研究
        IDF單純考慮特征詞頻率以及包含特征詞的文本數(shù)量,并沒有很好的考慮特征詞在文本中的重要程度以及類內(nèi)分布均勻情況和類間分布離散的問題,可能會導致文本分類結果的偏差。本文引入卡方統(tǒng)計量CHI和特征詞在文本中的位置作為修正因子并結合傳統(tǒng)TF-IDF權值計算公式,很好的解決了特征詞在類間分布以及關鍵詞重要程度不足的問題,并應用支持向量機構建分類器,進行文本分類的實驗驗證。改進后的TF-IDF計算公式與傳統(tǒng)TF-IDF相比,在查準率、查全率、F1測試值上都有一定程度

        軟件 2016年12期2016-02-13

      • 代碼文件的自動提取
        率,提出了基于特征詞的關鍵詞自動提取算法(算法一)和基于調(diào)用圖的自動提取算法(算法二)用于關鍵詞的提取,進而實現(xiàn)代碼文件的自動提取。將兩種算法應用于CLAPACK庫源文件的精簡自動提取,測試結果表明,兩種算法的正確提取率分別是92%和44%,它們能實現(xiàn)代碼文件的自動提取,提高了提取的效率。自動提??;關鍵詞;特征詞;調(diào)用關系圖;CLAPACK庫0 引言近年來,隨著互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡上的代碼文件越來越多,尤其是開源軟件的源文件,這些源代碼有利于加深對軟件的

        網(wǎng)絡安全與數(shù)據(jù)管理 2015年18期2015-10-19

      • 面向文本分類的特征詞選取方法研究與改進
        面向文本分類的特征詞選取方法研究與改進李國和1,2,3,岳 翔1,2,吳衛(wèi)江1,2,3,洪云峰3,劉智淵3,程 遠3(1. 中國石油大學(北京) 地球物理與信息工程學院,北京 102249;2. 中國石油大學(北京) 油氣數(shù)據(jù)挖掘北京市重點實驗室,北京 102249;3. 石大兆信數(shù)字身份管理與物聯(lián)網(wǎng)技術研究院,北京 100029)中文特征詞的選取是中文信息預處理內(nèi)容之一,對文檔分類有重要影響。中文分詞處理后,采用特征詞構建的向量模型表示文檔時,導致特征詞

        中文信息學報 2015年4期2015-04-21

      • ??陂}語線條語義量詞“線”“椏”“目”等理據(jù)與用法淺析——兼論與黎語、現(xiàn)代漢語等比較
        ;量詞;黎語;特征詞;理據(jù)詞的理據(jù)是指詞與詞義產(chǎn)生、變化發(fā)展動力與來源,同時包含其產(chǎn)生形成變化的軌跡或路徑。尋求詞的理據(jù),有助于了解詞與詞匯發(fā)展模式,揭示詞義系統(tǒng)性,顯示不同語言集團認知方式和文化特征;探求詞的理據(jù)有益于正確使用詞語,對詞語規(guī)范原則的構建也有重要的參考價值。線條語義量詞,是量詞的次類,指量詞成員本身具有線條語義特征,所計量的名詞亦皆含線條語義特征。??陂}語線條語義量詞有“支、枝、線、椏、目、條、路”等。這又依據(jù)量詞適配的名詞是否有硬度特征,

        海南師范大學學報(社會科學版) 2015年6期2015-03-28

      • 基于K-Means和Apriori算法的多層特征提取方法
        ,構建一個新的特征詞提取方法——MultiLM-FE方法.該方法首先依據(jù)科技文獻的結構將其分為4個層次,然后通過K-means聚類對前3層逐層實現(xiàn)特征詞提取,最后再使用Aprori算法找出第4層的最大頻繁項集,并作為第4層的特征詞集合.該方法能夠解決K-means算法不能自動確定最佳聚類初始點的問題,減少了聚類過程中信息損耗,這使得該方法能夠在文獻語料庫中更加準確地找到特征詞,較之以前的方法有很大提升,尤其是在科技文獻方面更為適用.實驗結果表明,該方法是可

        華中師范大學學報(自然科學版) 2015年3期2015-03-21

      • 一種新的微博短文本特征詞選擇算法*
        新的微博短文本特征詞選擇算法*黃賢英,陳紅陽,劉英濤,熊李媛(重慶理工大學計算機科學與工程學院,重慶 400054)針對微博短文本有效特征較稀疏且難以提取,從而影響微博文本表示、分類與聚類準確性的問題,提出一種基于統(tǒng)計與語義信息相結合的微博短文本特征詞選擇算法。該算法基于詞性組合匹配規(guī)則,根據(jù)詞項的TF-IDF、詞性與詞長因子構造綜合評估函數(shù),結合詞項與文本內(nèi)容的語義相關度,對微博短文本進行特征詞選擇,以使挑選出來的特征詞能準確表示微博短文本內(nèi)容主題。將新

        計算機工程與科學 2015年9期2015-01-09

      • 漢語方言特征詞研究中的幾個問題
        )研究漢語方言特征詞有重要的理論和實踐意義。理論方面,特征詞的研究就是漢語方言詞匯的比較研究。這些比較對于考察古今詞匯的演變,共同語和方言在詞匯上的相互作用都是非常重要的。實踐方面,方言特征詞是最具特色的方言詞,也是方言區(qū)的人說普通話時最容易出差錯的敏感部分。研究得好肯定可應用于語言教學之中[1](前言)2。漢語方言的特征詞是具有特征意義的方言詞,在方言區(qū)內(nèi)普遍應用、大體一致,在外區(qū)方言又是比較少見的[1](前言)3。特征詞最具方言特征,反映方言的個性[2

        河北民族師范學院學報 2014年1期2014-04-08

      • 基于網(wǎng)頁特征的特征詞提取技術
        基于網(wǎng)頁特征的特征詞提取技術龐寧(太原科技大學應用科學學院, 山西 太原 030024)特征詞提取是一項提煉整個web頁面內(nèi)容的實用技術, 同時也為文本分類, 信息抽取應用提供了技術支持. 在web頁面內(nèi)容上, 利用段落間語義關系劃分出網(wǎng)頁內(nèi)容的篇章結構, 并以此為基礎使用網(wǎng)頁的元數(shù)據(jù)和特殊標簽, 設計了一個特征詞的加權函數(shù), 綜合考慮了詞頻、詞長和位置因子, 最后, 實驗對比了各類位置因子對系統(tǒng)的貢獻度. 實驗結果表明, 改進方法的F1值比傳統(tǒng)的TFID

        西南民族大學學報(自然科學版) 2014年1期2014-02-21

      • 漢語特征詞研究的緣起、意義和方法
        0079)漢語特征詞研究的緣起、意義和方法劉 云(華中師范大學文學院,湖北武漢,430079)特征詞指能夠反映文本特征、分布差異較大的詞語。特征詞的研究緣于以下四個方面:信息論中關于熵的研究,情報學中關于反文獻頻率的研究,語料庫統(tǒng)計中各種詞表的建立,語言學研究中的方言特征詞研究。特征詞的研究具有較大的理論意義和現(xiàn)實意義,一個可行的研究方法是以國家語委通用語料庫為對象來考察時代特征詞和語體特征詞特征詞 語料庫 詞語分布一、 引 言所謂特征詞,是指能夠反映文

        華中學術 2013年2期2013-11-03

      • 種子事件與新穎事件演化關系的話題檢測與追蹤*
        io算法,利用特征詞的不同權重組合實現(xiàn)自適應的話題追蹤算法,證明了采用“NUC”權重計算方法可取得最優(yōu)性能[3]??突仿〈髮W的研究者提出了一種基于決策樹的組合系統(tǒng)BORG TRACK,該系統(tǒng)在話題追蹤領域表現(xiàn)優(yōu)異[4]。IBM公司在話題檢測和追蹤系統(tǒng)中采用了兩次聚類的策略,使得系統(tǒng)在準確率方面得到很大的提高[5]。另外還有多種不同方法在這項研究中被嘗試使用,如Single-Pass方法、貝葉斯算法、K-最近鄰居方法等,其中比較成功的有K-最近鄰居方法以

        網(wǎng)絡安全與數(shù)據(jù)管理 2013年6期2013-05-14

      • 語言學研究
        配、同位短語和特征詞。羅耀華、牛利的論文《“動+介”組配及“V+自+O”格式研究》通過對“V+自+O”結構的考察,發(fā)現(xiàn)能進入這一格式的V 受到語義和音節(jié)等的制約;賓語O 在歷時發(fā)展演變的過程中,種類也有所增加;“自”經(jīng)歷了由名詞到動詞再到介詞的一個實詞虛化的過程,在發(fā)展過程中,逐漸并入其前面的謂詞中,甚至脫落為零形式;作為一個整體,“V+自+O”結構的各項功能也突破了介詞結構的局限,功能出現(xiàn)泛化。漢語的同位短語具有并立短語的形式特征,在語義上卻同并立短語相

        華中學術 2013年2期2013-04-12

      • 基于樸素貝葉斯分類器的朝鮮語文本分類的研究
        類有很大貢獻的特征詞應該是在該類文檔中出現(xiàn)頻率足夠高而在其他類文檔中出現(xiàn)頻率足夠低的特征詞。那么少見詞和平凡詞在訓練集所有文檔分詞后存儲的情況,要么是只有一個類中的詞頻計數(shù)很少,要么是在大多數(shù)類別中出現(xiàn)的很多。基于這種情況,將分詞后在各個類別中出現(xiàn)特征詞的文檔頻度計數(shù)和在所有類別中出現(xiàn)該特征詞的文檔頻度計數(shù)總和相比,就可以得到該特征詞在各個類別中出現(xiàn)的分布情況。通過這個分布情況,去除那些少見詞和平凡詞,從而保留那些次關鍵詞、關鍵詞,達到特征選擇的目的。對于

        中文信息學報 2011年4期2011-06-28

      • 關于“方言特征詞”理論的回顧及思考
        1)關于“方言特征詞”理論的回顧及思考李康澄(湖南科技大學人文學院,湖南湘潭411201)漢語“方言特征詞”屬于比較方言學的范疇,是基于現(xiàn)代漢語方言詞匯的橫向比較研究而產(chǎn)生的。要深化漢語方言詞匯研究,必須在方言詞匯宏觀比較的基礎上開展“方言特征詞”的研究。從“方言特征詞”理論的提出至今,“方言特征詞”的研究已取得了一系列的成果,但在“方言特征詞”的性質和范圍上存在爭議。存在的爭議主要是由特征詞的提取方法造成的?!胺窖?span id="j5i0abt0b" class="hl">特征詞”;比較;提取方法一 漢語“方言特

        武陵學刊 2011年5期2011-03-20

      • 一種改進的 X2統(tǒng)計量方法
        匯.本文考慮到特征詞的分布密度問題,對 X2統(tǒng)計量公式進行了一定的變形,大大降低了原始特征集中經(jīng)常出現(xiàn)的大量版權和廣告等對分類無用的高密度詞,使抽取的特征詞更能體現(xiàn)類別的主題思想.此外,在特征提取過程中,考慮到中文詞語之間的同義、近義、反義等語義關聯(lián),對特征詞進行合并,減少了相似性比較時的計算量.1 X2統(tǒng)計量方法介紹在文本分類算法中,常用的文檔特征抽取方法有文檔頻次方法、互信息方法、信息增益方法、X2統(tǒng)計量方法等.Yang Yi-ming通過大量的實驗研

        中原工學院學報 2010年6期2010-12-27

      深圳市| 喀喇| 夏河县| 河南省| 巴里| 台湾省| 安阳县| 湛江市| 清徐县| 玉门市| 安多县| 江都市| 青州市| 淳安县| 万源市| 咸宁市| 大庆市| 德安县| 东乡县| 屯门区| 永清县| 望江县| 通河县| 六安市| 苗栗县| 许昌县| 玉环县| 项城市| 锦屏县| 班戈县| 方正县| 静乐县| 嘉义县| 晋江市| 延庆县| 确山县| 银川市| 张北县| 东兰县| 绩溪县| 梁山县|