• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于DPI數(shù)據(jù)挖掘?qū)崿F(xiàn)URL分類掛載的相關(guān)技術(shù)研究

      2013-09-29 04:47:54邊凌燕賀仁龍姚曉輝
      電信科學(xué) 2013年11期
      關(guān)鍵詞:分詞分類器網(wǎng)頁(yè)

      邊凌燕,賀仁龍,姚曉輝

      (中國(guó)電信股份有限公司上海研究院 上海 200122)

      1 引言

      近年來(lái),通信產(chǎn)業(yè)深度變革,電信運(yùn)營(yíng)商在整個(gè)ICT產(chǎn)業(yè)中的主導(dǎo)權(quán)逐步被分化。運(yùn)營(yíng)商要在全新的產(chǎn)業(yè)格局內(nèi)占據(jù)優(yōu)勢(shì),必須基于自身?yè)碛袛?shù)據(jù)的規(guī)模和活性以及收集和運(yùn)用數(shù)據(jù)的能力優(yōu)勢(shì),挖掘得天獨(dú)厚的管道數(shù)據(jù)資產(chǎn)價(jià)值,在保護(hù)用戶隱私的前提下,為用戶提供高附加值的精準(zhǔn)目標(biāo)服務(wù),激活數(shù)據(jù)資源和客戶深度洞察力的市場(chǎng)能量,應(yīng)對(duì)越來(lái)越激烈的市場(chǎng)競(jìng)爭(zhēng)。

      采用 DPI(deep packet inspection,深度分組檢測(cè))技術(shù)對(duì)移動(dòng)互聯(lián)網(wǎng)的用戶上網(wǎng)行為數(shù)據(jù)進(jìn)行數(shù)據(jù)精準(zhǔn)解析、識(shí)別后,將相應(yīng)用戶訪問(wèn)網(wǎng)站歸類掛載至網(wǎng)頁(yè)URL分類體系,通過(guò)與分類體系內(nèi)各節(jié)點(diǎn)特征的映射來(lái)洞察用戶上網(wǎng)的興趣偏好,已成為運(yùn)營(yíng)商順應(yīng)移動(dòng)互聯(lián)網(wǎng)發(fā)展、遷移管道優(yōu)勢(shì)并強(qiáng)化數(shù)據(jù)應(yīng)用的一個(gè)熱點(diǎn)方向。本文梳理了海量DPI用戶上網(wǎng)行為數(shù)據(jù)掛載到設(shè)定的URL分類體系的實(shí)現(xiàn)流程,重點(diǎn)研究介紹了網(wǎng)頁(yè)信息提取、分詞及文本分類等關(guān)鍵的文本挖掘應(yīng)用技術(shù)。

      2 中國(guó)電信DPI用戶上網(wǎng)行為數(shù)據(jù)說(shuō)明

      DPI作為一種基于應(yīng)用層的流量檢測(cè)技術(shù),除了對(duì)IP分組4層以下內(nèi)容做分組檢測(cè)外,還增加了應(yīng)用層分析,可以深入解析和讀取IP分組載荷的內(nèi)容,識(shí)別各種應(yīng)用及其內(nèi)容[1]。中國(guó)電信全網(wǎng)統(tǒng)一部署的數(shù)據(jù)信息采集解析設(shè)備輸出的用戶互聯(lián)網(wǎng)訪問(wèn)DPI數(shù)據(jù)信息,分為公有信息和協(xié)議特有信息兩部分。公有信息是對(duì)所有協(xié)議都做要求的信息,必備的公有信息字段包括用戶信息、終端信息、訪問(wèn)協(xié)議信息、用戶上網(wǎng)行為時(shí)間屬性等信息,見表1。主要實(shí)現(xiàn)從業(yè)務(wù)應(yīng)用、時(shí)間段等多維度挖掘洞察用戶上網(wǎng)行為時(shí)間、頻次及流量耗費(fèi)等信息。

      協(xié)議特有信息是針對(duì) HTTP、WAP、RTSP、SMTP等 14種協(xié)議特有的協(xié)議信息,需基于公有信息的“協(xié)議類型”字段內(nèi)容進(jìn)一步解析。經(jīng)實(shí)際數(shù)據(jù)探測(cè),HTTP、WAP內(nèi)容的流量占據(jù)海量用戶上網(wǎng)行為數(shù)據(jù)總流量的80%以上,本文的研究著重圍繞該兩類協(xié)議的信息數(shù)據(jù)展開,二者協(xié)議必備特有信息中的關(guān)鍵字段 “DestinationURL”(目標(biāo)網(wǎng)站URL地址)將作為后續(xù)DPI數(shù)據(jù)分析挖掘研究的關(guān)鍵輸入,見表2。

      3 DPI數(shù)據(jù)自動(dòng)掛載URL分類體系的方案研究

      網(wǎng)頁(yè)URL分類體系作為實(shí)現(xiàn)DPI數(shù)據(jù)的結(jié)構(gòu)化轉(zhuǎn)化和分類的基礎(chǔ),是精準(zhǔn)鎖定客戶興趣偏好特征的關(guān)鍵。該體系主要以用戶目的需求為主線,參照運(yùn)營(yíng)商本身營(yíng)銷需求,綜合互聯(lián)網(wǎng)門戶、導(dǎo)航站點(diǎn)、自有業(yè)務(wù)門戶的分類粗粒度目錄,根據(jù)業(yè)務(wù)產(chǎn)品聚合情況進(jìn)行較強(qiáng)的針對(duì)性設(shè)定。從DPI數(shù)據(jù)解析實(shí)現(xiàn)網(wǎng)頁(yè)URL分類體系的構(gòu)建,流程上按規(guī)則“DestinationURL”和無(wú)規(guī)則“DestinationURL”區(qū)分考慮,如圖1所示。

      表1 協(xié)議公有信息必選字段

      表2 HTTP、WAP特有信息必備字段

      圖1 DPI數(shù)據(jù)構(gòu)建網(wǎng)頁(yè)URL分類體系方案

      針對(duì)規(guī)則URL,處理方式通常借助網(wǎng)站本身URL或頻道編碼特征,建立與已有URL分類體系的映射關(guān)系,通過(guò)廣度爬蟲收集URL并進(jìn)行分類自動(dòng)掛載,本文不再贅述。

      無(wú)規(guī)則URL多指沒(méi)有多級(jí)域名或目錄或所有欄目使用數(shù)字編碼的網(wǎng)站地址。一般經(jīng)由爬蟲進(jìn)行網(wǎng)頁(yè)原始內(nèi)容的解析和信息提取,通過(guò)文本分詞、特征選擇等步驟來(lái)實(shí)現(xiàn)網(wǎng)頁(yè)文本特征向量的標(biāo)定及文本分類,將未知網(wǎng)頁(yè)映射掛載到給定的URL類別目錄。

      以上規(guī)則或無(wú)規(guī)則URL分類流程在系統(tǒng)自動(dòng)實(shí)現(xiàn)失敗的情況下,在維護(hù)流程上都加入人工識(shí)別環(huán)節(jié),以補(bǔ)充自動(dòng)分類器的判定不足,從而保證分類體系不斷完善和及時(shí)更新,同時(shí)也可以隨著用戶偏好關(guān)注度及企業(yè)運(yùn)營(yíng)需求進(jìn)行動(dòng)態(tài)調(diào)整,以豐富長(zhǎng)效穩(wěn)定的URL分類體系。

      4 無(wú)規(guī)則URL分類掛載的關(guān)鍵處理技術(shù)研究

      4.1 網(wǎng)頁(yè)內(nèi)容提取

      對(duì)無(wú)規(guī)則URL進(jìn)行網(wǎng)頁(yè)爬取后得到的頁(yè)面源文件采用超文本設(shè)計(jì),其往往存在許多噪聲,如廣告、注釋、導(dǎo)航、推薦、版權(quán)等無(wú)關(guān)信息,如果不進(jìn)行過(guò)濾會(huì)直接影響后續(xù)網(wǎng)頁(yè)分類結(jié)果。因此在做下一步挖掘分析前,網(wǎng)頁(yè)內(nèi)容提取的預(yù)處理工作顯得很必要。

      [2]詳細(xì)介紹和對(duì)比了幾種常見的網(wǎng)頁(yè)內(nèi)容提取技術(shù)。

      ·基于 DOM(document object model)樹:依據(jù)專門適用于HTML的文檔對(duì)象模型DOM樹,解析HTML標(biāo)簽的層次關(guān)系成樹狀結(jié)構(gòu),通過(guò)遍歷樹節(jié)點(diǎn)的各個(gè)對(duì)象,識(shí)別網(wǎng)頁(yè)正文信息。

      ·基于文本及標(biāo)簽分布:參考文本及標(biāo)簽的分布狀況編寫行號(hào)與行塊文本長(zhǎng)度的分布函數(shù),依據(jù)函數(shù)的驟升驟降,區(qū)分網(wǎng)頁(yè)正文與非正文內(nèi)容。但該方法過(guò)分依賴正文在源碼中的位置分布,較易引起誤提取。

      ·基于視覺(jué)窗:利用導(dǎo)航在頂部、廣告在側(cè)邊的布局常規(guī)特征,文字顏色、分隔邊框、段落間距等視覺(jué)信號(hào)幫助定位網(wǎng)頁(yè)正文信息。該方法準(zhǔn)確率相對(duì)不高。

      ·基于標(biāo)記窗:先對(duì)網(wǎng)頁(yè)標(biāo)題進(jìn)行分詞,再取每個(gè)標(biāo)簽對(duì)之間的文本內(nèi)容進(jìn)行分詞,并計(jì)算兩者的相似度,設(shè)定閾值是否為提取的標(biāo)準(zhǔn)。其缺點(diǎn)是絕對(duì)依賴于標(biāo)題的準(zhǔn)確性。

      基于DOM樹網(wǎng)頁(yè)內(nèi)容提取技術(shù)的HTMLParser作為SourceForge.net社區(qū)的開源項(xiàng)目,是目前業(yè)內(nèi)應(yīng)用最廣泛的網(wǎng)頁(yè)解析工具。它由純Java語(yǔ)言編寫而不依賴于其他Java庫(kù),不僅擴(kuò)展便利且可以兼容Nutch架構(gòu),進(jìn)而超高速地實(shí)現(xiàn)無(wú)規(guī)則URL經(jīng)后者爬蟲抓取后的實(shí)時(shí)解析。其解析過(guò)程如圖2所示,本文以某新聞網(wǎng)頁(yè)為例說(shuō)明,首先利用HTMLParser將網(wǎng)頁(yè)文檔轉(zhuǎn)化為DOM_1樹,樹的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)標(biāo)簽對(duì)象,進(jìn)一步通過(guò)過(guò)濾樹內(nèi)大量的噪音信息,包括主題無(wú)關(guān)節(jié)點(diǎn) (通常是圖片img、對(duì)象object、腳本 script、表單 form 等),無(wú)效節(jié)點(diǎn)(通常是無(wú)內(nèi)容空節(jié)點(diǎn)),得到只含文本標(biāo)簽和結(jié)構(gòu)標(biāo)簽的DOM_2樹。通過(guò)抓取同一站點(diǎn)下的兩個(gè)網(wǎng)頁(yè),利用同一站點(diǎn)網(wǎng)頁(yè)模板相關(guān)性,去除DOM_2樹重復(fù)內(nèi)容頁(yè)面信息,得到不一致文本內(nèi)容包含的網(wǎng)頁(yè)主題信息的DOM_3樹,即最終DOM樹,可以基于該樹的終節(jié)點(diǎn)實(shí)現(xiàn)對(duì)于HTML網(wǎng)頁(yè)內(nèi)容的文本轉(zhuǎn)化。

      圖2 HTMLParser解析網(wǎng)頁(yè)過(guò)程示意

      如何快速有效地識(shí)別和去除網(wǎng)頁(yè)文檔中的噪音信息,是提高網(wǎng)頁(yè)內(nèi)容提取準(zhǔn)確率和效率的一個(gè)關(guān)鍵。對(duì)于缺失標(biāo)簽、標(biāo)簽錯(cuò)亂等問(wèn)題,HTMLParser還能在HTML文檔轉(zhuǎn)換為DOM樹的過(guò)程中自行修正,在此不再詳述。

      4.2 文本分詞

      文本分詞作為文本挖掘的基礎(chǔ),主要是依據(jù)分詞算法將提取后的網(wǎng)頁(yè)內(nèi)容漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,達(dá)到電腦自動(dòng)識(shí)別語(yǔ)句含義的效果。

      自20世紀(jì)80年代初,中文信息處理領(lǐng)域提出自動(dòng)分詞以來(lái),很多高??蒲袡C(jī)構(gòu)都在該領(lǐng)域內(nèi)取得了突破性的進(jìn)展,研發(fā)了很多實(shí)用的分詞系統(tǒng),代表性的有:清華大學(xué)的SEG分詞系統(tǒng)、北京大學(xué)計(jì)算語(yǔ)言所分詞系統(tǒng)、復(fù)旦大學(xué)分詞系統(tǒng)、微軟研究院的多國(guó)語(yǔ)言處理平臺(tái)NLPWin及中國(guó)科學(xué)院ICTCLAS分詞系統(tǒng),具體系統(tǒng)評(píng)價(jià)可參考文獻(xiàn)[3,4]。

      上述分詞系統(tǒng)實(shí)現(xiàn)的分詞原理大多包括以下3種。

      ·基于字符串匹配(詞典)的分詞:按照一定的策略將待切分的漢字序列與機(jī)器詞典庫(kù)中的詞條進(jìn)行匹配。按照掃描方向的不同,分詞方法可以分為正向匹配、逆向匹配以及雙向匹配;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最?。ㄗ疃蹋┢ヅ?。相關(guān)統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245,建議使用逆向匹配的切分精度略高于正向匹配[5]。

      ·基于理解的分詞:主要利用專家系統(tǒng)、神經(jīng)網(wǎng)絡(luò)等人工智能系統(tǒng),分詞的同時(shí)進(jìn)行語(yǔ)義與句法的分析處理歧義現(xiàn)象。該類方法需要通過(guò)大量語(yǔ)料庫(kù)的訓(xùn)練集學(xué)習(xí)后,在推理機(jī)中構(gòu)建知識(shí)庫(kù)。

      ·基于統(tǒng)計(jì)的分詞:計(jì)算詞內(nèi)漢字共現(xiàn)概率表達(dá)緊密程度,當(dāng)緊密度高于閾值時(shí),認(rèn)定為詞,該方法比較適用于專業(yè)文本分詞。

      分詞技術(shù)的主要困難點(diǎn)在于歧義消除(不同的分詞方法呈現(xiàn)不同的語(yǔ)義)和新生詞匯識(shí)別問(wèn)題。本文推薦利用詞典分詞與統(tǒng)計(jì)分詞結(jié)合的方式,不僅具有詞典匹配的快速分詞效率,統(tǒng)計(jì)歧義詞或新生詞內(nèi)的漢字共現(xiàn)頻率將有助于進(jìn)一步提高分詞精度,如圖3所示。

      4.3 特征選擇

      分詞處理后的結(jié)果,通過(guò)構(gòu)建正則表達(dá)式等方法,去除常用感嘆詞、副詞及虛詞等停用詞,余下的則用來(lái)表征網(wǎng)頁(yè)文本特征向量,如式(1)所示:

      其中tji是文檔j中出現(xiàn)的第 i個(gè)詞,wji是詞tji在文檔中的權(quán)值,一般可以定義為tji在文檔中出現(xiàn)的頻率函數(shù)。但這樣得到的文檔特征向量維度依然十分龐大。由于高維文本向量應(yīng)用文本自動(dòng)分類幾乎很難實(shí)現(xiàn),所以必須先經(jīng)過(guò)降維處理,也就是特征選擇。

      經(jīng)特征選擇降維后的文本特征集應(yīng)該包含兩個(gè)特點(diǎn)[6]:完全性和區(qū)分性。完全性,全面體現(xiàn)目標(biāo)文本內(nèi)容與主題;區(qū)分性,有效區(qū)分目標(biāo)文本與其他文本。目前,國(guó)內(nèi)外學(xué)者研究了眾多的特征選擇方法,其中最為常見的算法有TFIDF(term frequency-inverse document frequency)、信息增益(IG)、互信息(MI)、統(tǒng)計(jì)法 CHI等。

      參考文獻(xiàn)[7]的研究表明:信息增益主要通過(guò)特征在文本中的出現(xiàn)與否來(lái)度量,在遇到當(dāng)類分布和特征項(xiàng)分布高度不平衡的情況時(shí),由特征的不出現(xiàn)概率來(lái)評(píng)定該特征的信息增益,會(huì)導(dǎo)致該算法的特征提取表現(xiàn)不佳。通過(guò)學(xué)習(xí)參考文獻(xiàn)[8,9],了解到互信息容易受到詞條邊緣概率密度的影響,如果兩詞條擁有相同的條件概率,頻度低的反而有更高的相關(guān)信息量,其表現(xiàn)為過(guò)于傾向低頻詞,尤其當(dāng)選擇的訓(xùn)練文本和測(cè)試文本中有過(guò)多低頻詞時(shí)將直接影響后續(xù)分類效果。統(tǒng)計(jì)法CHI把特征與類別間的獨(dú)立性類比為x2分布,往往偏重于考慮特征詞在所有文檔中出現(xiàn)的文檔頻數(shù),對(duì)于少量文檔中高頻出現(xiàn)對(duì)分類貢獻(xiàn)極大的特征容易被忽略[7]。上述算法的理論基礎(chǔ)不同,基于大量真實(shí)數(shù)據(jù)的實(shí)驗(yàn)證明,各個(gè)算法各有利弊,不存在任何一種算法在所有的數(shù)據(jù)集上都是最優(yōu)的[10~13]。本文考慮網(wǎng)頁(yè)文本數(shù)據(jù)集海量的特性,推薦應(yīng)用最為廣泛且計(jì)算實(shí)現(xiàn)最為簡(jiǎn)便的特征加權(quán)技術(shù)TFIDF算法。

      TFIDF實(shí)際表示是 TF×IDF,其中TF表示詞頻(term frequency),即詞在該文本中出現(xiàn)的次數(shù);IDF表示反文檔頻率(inverse document frequency),計(jì)算式如式(2)所示,表示詞在整體語(yǔ)料庫(kù)文本集中普遍重要性的度量。

      其中,N為網(wǎng)頁(yè)文本語(yǔ)料庫(kù)全部文本數(shù)量,n為包含詞t的文本數(shù)量。

      TFIDF算法的主要依據(jù)是某一文本內(nèi)的高頻詞以及該詞在整個(gè)語(yǔ)料庫(kù)文本集合中的低頻率,可以產(chǎn)生出高權(quán)重的TFIDF。因此,TFIDF傾向于字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降,容易過(guò)濾掉常見的詞語(yǔ),保留重要的詞語(yǔ),適合用來(lái)作為分類的文本關(guān)鍵特征向量表示。

      圖3 詞典分詞與統(tǒng)計(jì)分詞結(jié)合的分詞機(jī)制

      4.4 文本分類

      文本分類環(huán)節(jié)主要基于網(wǎng)頁(yè)文本的特征向量將每個(gè)網(wǎng)頁(yè)文本歸入預(yù)先定義的URL類別節(jié)點(diǎn)中。目前常見的文本分類器有以下幾類:概率分類器,典型的如Naive Bayes;決策樹分類器,包括 ID3、C4.5、C5;神經(jīng)網(wǎng)絡(luò)分類器,如感知器法、logistic回歸、多層神經(jīng)網(wǎng)絡(luò)等;基于樣本的分類器,即惰性學(xué)習(xí)器,典型的有KNN;支持向量機(jī)SVM分類器[14]。不同的分類算法性能具備差異:其中Bayes、KNN以及決策樹的方法雖然效率較高,但其分類能力較弱。神經(jīng)網(wǎng)絡(luò)的最大缺點(diǎn)是過(guò)擬合,而防止過(guò)擬合很難實(shí)現(xiàn),參見參考文獻(xiàn)[15]。通過(guò)學(xué)習(xí)參考文獻(xiàn)[16,17]發(fā)現(xiàn),SVM分類即便在樣本分布不均衡的情況下,依然具備解決文本分類問(wèn)題的出眾性能,有效回避過(guò)擬合及冗余特征等問(wèn)題,是進(jìn)行網(wǎng)頁(yè)文本分類的首選算法,本節(jié)進(jìn)行重點(diǎn)介紹。

      SVM實(shí)現(xiàn)分類的主要途徑,是通過(guò)選擇非線性映射(核函數(shù))將輸入的文本向量映射到一個(gè)高維特征空間,在這個(gè)高維空間尋找最優(yōu)的分類超平面,使各個(gè)樣本間實(shí)現(xiàn)最大區(qū)分。但由于SVM最初就是一種典型的兩類分類器,要解決的網(wǎng)頁(yè)文本分類是個(gè)多類問(wèn)題,利用SVM算法,以多個(gè)超平面把空間劃分為多個(gè)區(qū)域,每個(gè)區(qū)域?qū)?yīng)一個(gè)類別,一次性求解的方法計(jì)算量實(shí)在太大,大到無(wú)法實(shí)用的地步。

      筆者建議采用DAG SVM方法,也稱為有向無(wú)環(huán)圖算法,實(shí)現(xiàn)網(wǎng)頁(yè)文本分類。以5個(gè)類別的左向有向無(wú)環(huán)算法為例:第一個(gè)分類器首先區(qū)分“1類對(duì)5類”的歸屬判定,如果歸屬5類,分類器往左走,進(jìn)入“2類對(duì)5類”的分類器,如果判定還是歸屬5類,繼續(xù)往左走,依次往下,直到得到最終分類結(jié)果,如圖4所示。這樣最終調(diào)用4個(gè)分類器(如果類別數(shù)為K,則只調(diào)用K-1個(gè)),可以得到分類結(jié)果。該方法的好處是每個(gè)優(yōu)化問(wèn)題的規(guī)模比較小且分類效率高。

      DAG SVM算法的缺點(diǎn)在于如果上一個(gè)節(jié)點(diǎn)分類器出現(xiàn)錯(cuò)誤,那么后面的分類器無(wú)法糾正錯(cuò)誤,存在錯(cuò)誤向下累積的現(xiàn)象。所以在分類器節(jié)點(diǎn)的布置上,筆者建議把差別大的排在前面,也就是把分類器按兩類分類的正確率從高到低排列,也可以考慮在每個(gè)兩類分類器上都輸出分類置信度,作為每個(gè)兩類分類器結(jié)果準(zhǔn)確度的參考依據(jù)。

      圖4 有向無(wú)環(huán)圖SVM過(guò)程說(shuō)明

      5 結(jié)束語(yǔ)

      移動(dòng)互聯(lián)網(wǎng)時(shí)代,電信運(yùn)營(yíng)商要在競(jìng)爭(zhēng)日趨激烈的產(chǎn)業(yè)鏈上,取得更好的發(fā)展,就必須更好地適應(yīng)市場(chǎng)和客戶的需求。通過(guò)對(duì)DPI數(shù)據(jù)的深入文本挖掘,實(shí)現(xiàn)網(wǎng)頁(yè)URL分類體系的自動(dòng)映射掛載,從而獲取用戶行為特征分類,將為運(yùn)營(yíng)商全面洞察客戶、構(gòu)建客戶全息視圖提供依據(jù),助力企業(yè)精準(zhǔn)營(yíng)銷。

      參考文獻(xiàn)

      1 羅憶祖.DPI技術(shù)力助運(yùn)營(yíng)商精細(xì)化運(yùn)營(yíng).郵電設(shè)計(jì)技術(shù),2009(3)

      2 于靜.基于頁(yè)面主體提取的Web信息抽取技術(shù)研究.南京郵電大學(xué)碩士學(xué)位論文,2013

      3 馮書曉,徐新,楊春梅.國(guó)內(nèi)外中文分詞技術(shù)研究新進(jìn)展.情報(bào)雜志,2002(11):29~30

      4 郭瞳康.基于詞典的中文分詞技術(shù)研究.哈爾濱理工大學(xué)碩士學(xué)位論文,2010

      5 李原.中文文本分類中分詞和特征選擇方法研究.吉林大學(xué)碩士學(xué)位論文,2011

      6 薛為民,陸玉昌.文本挖掘技術(shù)研究.北京聯(lián)合大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,19(4):59~63

      7 宋江.文本分類的特征選擇方法研究.南京航空航天大學(xué)碩士學(xué)位論文,2010

      8 王法波.文本分類的特征選擇和分類方法研究.山東大學(xué)碩士學(xué)位論文,2011

      9 Liu H,Motoda H.Feature Extraction,Construction and Selection:A Data Mining Perspective.USA:Kluwer Academic,1998

      10 Jain A,Zongker D.Feature selection:evaluation,application and small sample performance.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(2):153~158

      11 Gorvan A.Principal Manifolds for Data Visualisation and Dimension Reduction.New York:Springer,2007

      12 Verleysen M,Lee J A.Rank-based quality assessment of nonlinear dimensionality reduction.Proceedings of the 16th European Symposium on Artificial Neural Networks,Bruges,Belgium,2008:49~54

      13 Deerwester S.Indexing by latent semantic analysis.Journal of American Society for Information Science,1990,41(6):391~407

      14 陳燃燃.基于SVM算法的Web分類研究與實(shí)現(xiàn).北京郵電大學(xué)碩士學(xué)位論文,2009

      15 Vapnik V N.The Nature of Statistical Learning Theory.New York:Springer,1995

      16 Joachims T.Text categorization with support vector machines:learning with many relevant features.Proceedings of the 10th European Conference on Machine Learning,Chemnitz,Germany,1998:137~142

      17 Joachims T.Transductive inference for text classification using support vector machines.Proceedings of the 16th International Conference on Machine Learning,Bled,Slovenia,1999:200~209

      猜你喜歡
      分詞分類器網(wǎng)頁(yè)
      結(jié)巴分詞在詞云中的應(yīng)用
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      值得重視的分詞的特殊用法
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      沛县| 进贤县| 昌平区| 阳新县| 潮州市| 汽车| 化州市| 原平市| 聂拉木县| 焦作市| 麟游县| 平湖市| 衢州市| 周宁县| 香港| 且末县| 宁津县| 乐东| 乾安县| 澄江县| 右玉县| 泌阳县| 沂源县| 潢川县| 克拉玛依市| 琼海市| 临武县| 鹰潭市| 兴国县| 中方县| 胶州市| 左云县| 丁青县| 岳阳市| 广南县| 茂名市| 获嘉县| 宾川县| 将乐县| 乌苏市| 司法|