• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      自然語言處理在網(wǎng)站分類中的應(yīng)用

      2018-05-22 01:17:54中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所工程師
      信息通信技術(shù)與政策 2018年5期

      李 曼 中國信息通信研究院產(chǎn)業(yè)與規(guī)劃研究所工程師

      1 引言

      為了防止在網(wǎng)上從事非法的網(wǎng)站經(jīng)營活動,打擊不良互聯(lián)網(wǎng)信息的傳播,2005年,工信部(原信息產(chǎn)業(yè)部)公開發(fā)布《非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)備案管理辦法》(第33號令),要求從事非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)的網(wǎng)站進行備案登記。據(jù)中國互聯(lián)網(wǎng)協(xié)會和國家互聯(lián)網(wǎng)應(yīng)急中心聯(lián)合發(fā)布的《互聯(lián)網(wǎng)行業(yè)運行指數(shù)——中國網(wǎng)站》報告統(tǒng)計,截至2017年年底,我國網(wǎng)站數(shù)量達到526.06萬個。網(wǎng)站備案信息是分析信息產(chǎn)業(yè)發(fā)展水平,區(qū)域、行業(yè)信息化水平的重要數(shù)據(jù)來源之一。但是,由于網(wǎng)站備案機制本身的限制以及歷史數(shù)據(jù)質(zhì)量等原因,網(wǎng)站備案信息存在滯后性、準確率低、信息缺失、信息顆粒度大等問題。由于網(wǎng)站數(shù)量龐大,通過自動化的方法解決這些問題滿足數(shù)據(jù)需求是關(guān)鍵。

      2 需求分析

      2.1 問題描述

      本文要解決的是網(wǎng)站分類問題,即根據(jù)實際業(yè)務(wù)需求將多個網(wǎng)站按照一定的標準進行分類。例如,按照行業(yè)劃分為農(nóng)業(yè)、制造業(yè)、資源、能源的生產(chǎn)和供應(yīng)、建筑業(yè)、交通郵電、信息傳輸、計算機服務(wù)和軟件業(yè)、金融地產(chǎn)租賃、生活服務(wù)、教育科研、文體娛樂、公共服務(wù)等11類。

      2.1 輸入

      (1)網(wǎng)站地址列表信息:S={Si},1≤i≤N,其中N表示網(wǎng)站總數(shù)、Si表示第i個網(wǎng)站的網(wǎng)站地址。

      (2)目標分類信息:C={Ck},1≤k≤M,其中M表示總類別數(shù)、Ck表示第k個分類。目標分類信息就是分類參考的標準。

      2.2 輸出

      分類結(jié)果:每個網(wǎng)站對應(yīng)的目標分類SC={SCi}={Si->C(i)},1≤i≤N,C(i)?C,其中 C(i)表示網(wǎng)站 Si對應(yīng)的分類。

      3 基于自然語言處理的網(wǎng)站分類方法

      3.1 總體思路

      網(wǎng)站分類是一種利用文本信息的分類問題,其關(guān)鍵點主要在于網(wǎng)站特征提取、網(wǎng)站分類算法、訓(xùn)練集獲取3個方面。在網(wǎng)站特征提取方面,由于網(wǎng)站地址中攜帶的信息量較少,考慮將網(wǎng)站內(nèi)容作為網(wǎng)站的特征用于網(wǎng)站分類,將網(wǎng)站首頁的關(guān)鍵詞作為量化特征。在網(wǎng)站分類算法方面,通常選擇常用的分類算法,但需要根據(jù)網(wǎng)站特征定義兩個樣本之間的距離。在訓(xùn)練集獲取方面,由于沒有現(xiàn)成的訓(xùn)練集,采用人工標識的方法會耗費大量人力,本文采用分類映射法,即將具備訓(xùn)練集的細顆粒度分類映射到目標分類,從而可以間接獲取到訓(xùn)練集。

      3.2 網(wǎng)站特征提取

      選取網(wǎng)站首頁內(nèi)容(以下稱“網(wǎng)頁文檔”)的關(guān)鍵詞作為網(wǎng)站特征,具體可以采用TF-IDF(Term Frequency-Inverse Document Frequency)方法計算得到。TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。其主要思想是,如果某個詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。從計算公式來講,TF-IDF=TF×IDF,TF(Term Frequency)表示詞頻,如果一個詞出現(xiàn)在文檔里的頻次越高,則認為該詞越重要,IDF(Inverse Document Frequency)表示逆向文件頻率,如果一個詞出現(xiàn)在文檔的數(shù)量越多,則認為該詞越不重要。

      采用TF-IDF方法提取網(wǎng)站特征的具體步驟包括統(tǒng)計詞頻、計算TF-IDF值、特征值標準化3個方面。

      (1)統(tǒng)計詞頻。通過網(wǎng)頁文檔分詞處理得到網(wǎng)站的詞頻,網(wǎng)站Si的網(wǎng)頁文檔詞頻wordfreqi={(wordij,freqij)},1≤j≤WNi,其中WNi表示網(wǎng)站Si的網(wǎng)頁文檔包含的不同詞語數(shù)。

      (2)計算TF-IDF值。利用TF-IDF方法計算每個網(wǎng)頁文檔中每個關(guān)鍵詞的TF-IDF值,并在按照TF-IDF值在文檔內(nèi)進行排序,可以根據(jù)關(guān)鍵詞個數(shù)或TF-IDF值大小選取前KWNi個作為網(wǎng)頁文檔的關(guān)鍵詞,得到tfidfi={(keywordij,tfidfij)},1≤j≤KWNi,KWNi表示網(wǎng)站Si的網(wǎng)頁文檔關(guān)鍵詞的個數(shù)。

      (3)特征值標準化。將上一步計算得到的TFIDF值進行單位化tij=tfidfij/sqrt(Sj(tfidfij)^2),得到最終的網(wǎng)站特征值ti={(keywordij,wij)},1≤j≤KWNi。

      3.3 網(wǎng)站分類算法

      本文網(wǎng)站分類算法采用K最近鄰(kNN,k-NearestNeighbor)。kNN算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的k個樣本的類別來決定待分樣本所屬的類別。

      kNN算法中需要找到最鄰近的k個樣本,因此我們要定義兩個樣本之間的距離。定義距離的核心思想是如果兩個網(wǎng)頁文檔具有相同的關(guān)鍵詞越多,關(guān)鍵詞權(quán)重分布越接近,則認為兩個文檔越相似,文檔距離越近。具體公式如下:

      其中,ti、tj分別是兩個網(wǎng)頁文檔的特征值向量,N(i)、N(j)分別網(wǎng)頁文檔中的關(guān)鍵詞數(shù)量。

      3.4 訓(xùn)練集獲取

      本文采用分類映射法間接獲取訓(xùn)練集。分類映射法的核心思想是若已知分類方式C1、C2,其中C1的分類顆粒度比C2小,則對目標集進行C2分類時可以采用C1的訓(xùn)練集。因此,考慮使用公開的細顆粒度網(wǎng)站分類目錄,作為分類算法的訓(xùn)練數(shù)據(jù)。

      定義目標分類是C2,也就是最終需要的分類方式,把相對細顆粒度的分類C1叫做中間分類,也就是我們根據(jù)C1的訓(xùn)練集訓(xùn)練模型得到的分類。采用分類映射法后,我們的網(wǎng)站分類在模型訓(xùn)練過程和模型分類過程均需要進行相應(yīng)的調(diào)整。

      (1)模型訓(xùn)練過程調(diào)整。采用C2的訓(xùn)練集數(shù)據(jù)得到分類模型。

      (2)模型分類過程調(diào)整。根據(jù)分類模型得到每個網(wǎng)站的中間分類C2,然后根據(jù)C2與C1的唯一映射關(guān)系得到每個網(wǎng)站的目標分類C1。

      4 應(yīng)用實現(xiàn)

      網(wǎng)站分類作為一種大數(shù)據(jù)分析應(yīng)用,具有典型的6個環(huán)節(jié)(見圖1),分別是數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)分析、可視化,其中數(shù)據(jù)采集是確定數(shù)據(jù)源并且從數(shù)據(jù)源獲取數(shù)據(jù),數(shù)據(jù)清洗是對數(shù)據(jù)采集的原始數(shù)據(jù)中不規(guī)范的內(nèi)容進行過濾、清洗,數(shù)據(jù)存儲是通過關(guān)系型數(shù)據(jù)庫、文本數(shù)據(jù)等不同形式將數(shù)據(jù)存儲起來,數(shù)據(jù)處理是數(shù)據(jù)的基本處理,主要是為了下一步的數(shù)據(jù)分析做準備,數(shù)據(jù)分析是為了實現(xiàn)最終的分析目標而進行的業(yè)務(wù)層面的數(shù)據(jù)分析,可視化是應(yīng)用最終的輸出,可根據(jù)業(yè)務(wù)實際需求選擇不同的展現(xiàn)方式。本節(jié)主要從這6個環(huán)節(jié)介紹利用前文提出的網(wǎng)站分類方法實現(xiàn)的一個應(yīng)用案例:針對某省7萬多個備案網(wǎng)站按照行業(yè)分類,共分類11個類別。

      4.1 數(shù)據(jù)采集

      (1)網(wǎng)站列表數(shù)據(jù)。網(wǎng)站列表數(shù)據(jù)由需求方提供。

      (2)網(wǎng)站頁面文檔數(shù)據(jù)。網(wǎng)站頁面文檔數(shù)據(jù)通過網(wǎng)站地址爬取所有網(wǎng)站首頁內(nèi)容(即網(wǎng)頁文檔)獲得。

      (3)訓(xùn)練集數(shù)據(jù)。訓(xùn)練集數(shù)據(jù)經(jīng)過兩步獲得。首先找到訓(xùn)練集數(shù)據(jù)源,然后采用爬蟲的方法獲取訓(xùn)練集數(shù)據(jù),包括網(wǎng)站列表、網(wǎng)站頁面內(nèi)容以及網(wǎng)站對應(yīng)的分類。

      圖1 網(wǎng)站分類6個環(huán)節(jié)

      4.2 數(shù)據(jù)清洗

      (1)網(wǎng)站地址數(shù)據(jù)清洗。針對網(wǎng)站地址的不規(guī)范情況進行處理,例如將網(wǎng)站的多個網(wǎng)址拆分、將網(wǎng)址統(tǒng)一為以“http://”開頭、去除網(wǎng)址收尾空白符等。

      (2)網(wǎng)頁文檔數(shù)據(jù)清洗。針對數(shù)據(jù)采集環(huán)節(jié)中獲得的網(wǎng)頁文檔進行內(nèi)容清洗、提取,具體包括去除網(wǎng)頁文檔中的標簽符、去除首尾空白符、對于無法訪問的網(wǎng)頁進行標記、選擇網(wǎng)頁文檔中的Keyword、Title、Description以及全文內(nèi)容作為有效內(nèi)容等。

      (3)訓(xùn)練數(shù)據(jù)清洗。與網(wǎng)站內(nèi)容數(shù)據(jù)做相同方式的清洗。

      4.3 數(shù)據(jù)存儲

      采用MySql數(shù)據(jù)庫存儲數(shù)據(jù)。目標網(wǎng)站、訓(xùn)練網(wǎng)站數(shù)據(jù)分別存儲在Site目標網(wǎng)站表、Sitetrain訓(xùn)練網(wǎng)站表。

      4.4 數(shù)據(jù)處理

      利用中文信息處理方法對網(wǎng)頁文檔進行分詞,統(tǒng)計詞頻。下面以山貓電影(http://www.bobmao.com)為例,其網(wǎng)頁文檔見表1。

      (1)中文分詞。使用中文分詞器lucene對網(wǎng)頁文檔進行分詞,根據(jù)業(yè)務(wù)需求配置自定義詞庫、停用詞,得到網(wǎng)頁文檔的分詞結(jié)果,具體參見表2。

      (2)統(tǒng)計詞頻。根據(jù)網(wǎng)頁文檔分詞結(jié)果統(tǒng)計詞頻,具體參見表3。

      表1 網(wǎng)頁文檔示例

      表2 分詞結(jié)果示例

      4.5 數(shù)據(jù)分析

      (1)計算特征值。根據(jù)前一環(huán)節(jié)詞頻統(tǒng)計結(jié)果,進行標準化處理得到特征值,具體參見表4。

      (2)進行分類。設(shè)置參數(shù)k,根據(jù)前文中樣本間距離的定義,采用kNN算法進行分類,得到中間分類結(jié)果C2。

      表3 詞頻統(tǒng)計示例

      表4 特征值示例

      表5 分類映射關(guān)系(部分)

      4.6 可視化

      (1)定義分類映射關(guān)系。根據(jù)經(jīng)驗定義中間分類到目標分類的映射關(guān)系,具體參見表5。

      (2)輸出結(jié)果。根據(jù)分類映射法,將中間分類映射到目標分類,以表格形式輸出分類結(jié)果。

      5 結(jié)束語

      本文提出了一種基于自然語言處理的網(wǎng)站分類方法,在網(wǎng)站特征提取、網(wǎng)站分類算法以及訓(xùn)練集獲取等關(guān)鍵問題上進行了分析,最后給出基于該方法的應(yīng)用實現(xiàn)。隨著大數(shù)據(jù)技術(shù)和概念的普及,人們的大數(shù)據(jù)意識也在不斷提升,將會發(fā)掘出更多的應(yīng)用場景。

      參考文獻

      [1]盧衛(wèi)等.互聯(lián)網(wǎng)行業(yè)運行指數(shù)報告——中國網(wǎng)站[EB/OL].北京:中國互聯(lián)網(wǎng)協(xié)會,國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,2018[2018-01-09].http://index.isc.org.cn/.

      [2]中華人民共和國信息產(chǎn)業(yè)部.非經(jīng)營性互聯(lián)網(wǎng)信息服務(wù)備案管理辦法[EB/OL].北京:中華人民共和國信息產(chǎn)業(yè)部令(第33號),2005[2005-02-08].http://www.gov.cn/gongbao/content/2005/content_93018.htm.

      [3]施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應(yīng)用,2009(z1):167-170,180.

      [4]張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005(8):171-172,185.

      临猗县| 高邑县| 溧水县| 双牌县| 沙坪坝区| 龙南县| 上犹县| 绥宁县| 蒙阴县| 临洮县| 涟水县| 辽源市| 泾川县| 诏安县| 屏东县| 大渡口区| 浦江县| 凤城市| 长垣县| 连州市| 衡阳县| 武川县| 靖远县| 二连浩特市| 丁青县| 临湘市| 辉南县| 普洱| 芮城县| 沂水县| 宝山区| 丽江市| 平乐县| 凉城县| 逊克县| 抚顺县| 图木舒克市| 施甸县| 惠安县| 岑溪市| 龙游县|