• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于URL的中文多語義名詞在線語義標(biāo)注

      2014-06-07 05:53:21劉一正
      計算機工程 2014年10期
      關(guān)鍵詞:分類器網(wǎng)頁語義

      劉一正,楊 靜,李 強

      (華東師范大學(xué)計算機科學(xué)技術(shù)系,上海200241)

      ·人工智能及識別技術(shù)·

      基于URL的中文多語義名詞在線語義標(biāo)注

      劉一正,楊 靜,李 強

      (華東師范大學(xué)計算機科學(xué)技術(shù)系,上海200241)

      中文語義標(biāo)注在自然語言處理領(lǐng)域有廣泛的應(yīng)用,其目的在于挖掘并標(biāo)注出中文多語義名詞的多個語義。提出一種新穎的語義標(biāo)注算法,通過在線URL分類目錄,構(gòu)建得到URL分類器。借助于URL分類器,對搜索引擎返回的多語義名詞的搜索結(jié)果(包括網(wǎng)頁URL及摘要)進行分類,得到多語義名詞的初始語義分類結(jié)果。對初始語義分類結(jié)果按其網(wǎng)頁摘要聚類,提取聚類特征后得到多語義詞的語義標(biāo)注結(jié)果。該算法利用基于URL的網(wǎng)頁分類方法,能在線對中文多語義名詞進行語義標(biāo)注。實驗結(jié)果證明,該語義標(biāo)注算法可以取得70%的準(zhǔn)確率及80%的召回率,適用于網(wǎng)絡(luò)熱詞語義標(biāo)注。

      語義標(biāo)注;自然語言處理;中文多語義名詞;URL分類器;文本聚類;熱詞

      1 概述

      語義知識學(xué)習(xí)在人工智能領(lǐng)域中具有重要應(yīng)用,一直以來都是自然語言處理研究中的熱點問題。語義標(biāo)注研究多語義詞的語義信息獲取,在相關(guān)度計算、查詢擴展等領(lǐng)域得到廣泛應(yīng)用[1]。名詞的多語義特征表現(xiàn)尤為明顯,所以它是語義標(biāo)注的研究重點。對于中文多語義名詞,語義標(biāo)注應(yīng)能較為全面地標(biāo)注出其最新語義。例如對于多語義名詞“蘋果”,語義標(biāo)注應(yīng)能標(biāo)注出其包括“公司”、“水果”、“電影”等在內(nèi)的多個語義。

      傳統(tǒng)的語義分類方法大多僅涉及文本或html文件的語義信息處理,通過對網(wǎng)頁正文或語料文本進行詞法或語法分析,標(biāo)注出多語義詞的多個語義。

      由于涉及到分詞、詞法分析及語法分析等文本處理步驟,傳統(tǒng)的語義標(biāo)注效率較低。對于在線語義標(biāo)注,網(wǎng)頁下載耗時,使得標(biāo)注過程尤為緩慢。因此,以往的語義標(biāo)注方法并不高效。文獻[2]利用SVM模型對日語多語義詞進行語義標(biāo)注,該方法針對某些多語義詞準(zhǔn)確率可達90%,然而針對全部實驗數(shù)據(jù)集,平均準(zhǔn)確率只有60%左右,并且SVM模型的運用使得該方法的語義標(biāo)注過程較為耗時,效率低。

      與在線獲取網(wǎng)頁html文件相比,獲取網(wǎng)頁URL速度較快?;诰W(wǎng)頁URL特征的分類方法已在網(wǎng)頁主題分類及查詢分類領(lǐng)域得到廣泛應(yīng)用。然而,基于URL的分類方法還從未用于語義標(biāo)注。本文利用基于URL的分類方法得到多語義詞搜索結(jié)果的初始語義分類,即根據(jù)其URL對搜索結(jié)果按語義分類;對初始語義分類的網(wǎng)頁摘要進行聚類,最終得到中文多語義詞的語義標(biāo)注結(jié)果。最終語義標(biāo)注結(jié)果由一組與該語義相關(guān)的標(biāo)簽表示。

      2 相關(guān)工作

      語義標(biāo)注方法主要可以劃分為3大類:基于模板的方法,基于主題模型的方法以及基于百科的方法。對基于模板的方法,模板主要從文本集[3]或網(wǎng)頁html文件[4]中訓(xùn)練得到,該方法常用于在線語義標(biāo)注,效率較高,但召回率較低?;谥黝}模型的方法中常用到的模型有LSA模型及LDA模型[5],還產(chǎn)生了一些針對語義標(biāo)注的新模型,如文獻[6-7]在LDA中加入一個標(biāo)簽層?;谥黝}模型的方法準(zhǔn)確率及召回率較高,但語義標(biāo)注過程較為耗時。第3種方法基于在線百科[8],通過解析在線百科的語義信息得到多語義詞的語義標(biāo)注結(jié)果。這種方法高度依賴于在線百科,不能標(biāo)注出在線百科未收錄的語義信息。已有研究表明,網(wǎng)頁文本及其對應(yīng)的URL間存在內(nèi)在的語義聯(lián)系。文獻[9-10]表明,網(wǎng)頁URL字符包含其對應(yīng)網(wǎng)頁的部分語義信息。因此,基于URL特征的網(wǎng)頁分類方法應(yīng)運而生。不同于基于內(nèi)容的分類方法,該方法通過解析URL字符的語義信息對網(wǎng)頁進行分類[11-13]。本文將利用此方法對多語義詞搜索結(jié)果進行初步語義分類。

      3 中文多語義名詞的語義標(biāo)注方法

      搜索引擎的在線搜索結(jié)果能高度反映出多語義詞的語義信息。因此,本文將在線搜索引擎[14]返回的多語義詞搜索結(jié)果作為語義標(biāo)注原材料。對于返回的搜索結(jié)果,首先將其投入由在線網(wǎng)址分類目錄構(gòu)建的URL分類器,得到多語義詞的初始語義分類。每個初始語義分類包括此類別下的網(wǎng)頁URL及對應(yīng)的網(wǎng)頁摘要。隨后,對初始語義分類中的網(wǎng)頁摘要進行聚類,并從聚得的每類中抽取特征詞,得到最終的語義標(biāo)注結(jié)果。此過程可描述如圖1所示。

      圖1 基于URL的中文多語義詞在線語義標(biāo)注過程

      3.1 分類器

      網(wǎng)頁URL蘊含其對應(yīng)網(wǎng)頁正文的語義信息。根據(jù)多語義詞搜索結(jié)果的URL,對其進行初始語義分類。

      一些中文權(quán)威網(wǎng)站發(fā)布或更新URL網(wǎng)址分類目錄,此目錄會對其收錄的網(wǎng)站URL按語義類別歸類。通常情況下,目錄為樹狀結(jié)構(gòu),樹中葉子結(jié)點即為其收錄的網(wǎng)站主頁URL,非葉子結(jié)點則為其子結(jié)點的語義類別。雅虎網(wǎng)頁目錄含3層~4層,首層對應(yīng)16個語義類別,如圖2所示。一些中文權(quán)威網(wǎng)站會發(fā)布與雅虎目錄類似的網(wǎng)頁目錄,本文將以多個權(quán)威網(wǎng)站的網(wǎng)頁目錄為基礎(chǔ),構(gòu)建URL分類器。

      圖2 Yahoo在線網(wǎng)址分類目錄的部分分類

      URL分類器的訓(xùn)練過程如下:

      (1)將網(wǎng)頁 URL按標(biāo)識符分段,提取分類特征。

      (2)將提取得來的URL分類特征同URL目錄下的葉子結(jié)點進行相似度匹配,若相似度超過閾值,則將此葉子結(jié)點的語義分類作為該網(wǎng)頁的候選語義分類。若未達到閾值,則不做任何處理。

      (3)按照一定的選擇策略,為每個網(wǎng)頁從候選語義分類中確定其語義分類。多語義詞不同語義下的搜索結(jié)果對應(yīng)的網(wǎng)址分類往往不同。如“蘋果”有3個語義:水果,數(shù)碼產(chǎn)品品牌及公司。使用上文提到的URL分類器,可以將“蘋果”的搜索結(jié)果按語義主要劃分為3類。各類所占百分比如表1所示,搜索結(jié)果取百度的前100條搜索結(jié)果。

      表1 多語義詞搜索結(jié)果在不同語義類別下的比例 %

      從表1中可以看出:利用URL分類器可以把蘋果的搜索結(jié)果分為3類(美食、IT和股市),其中,“美食”對應(yīng)蘋果所具有的“水果”語義;“IT”對應(yīng)“數(shù)碼產(chǎn)品”;“股市”則對應(yīng)“公司”語義。由此可以看出,URL分類器能有效地對多語義詞的搜索結(jié)果按其語義類別進行分類,且大部分類別能有效對應(yīng)該多義詞的某一語義。

      然而,通過對單語義詞搜索結(jié)果的考察,發(fā)現(xiàn)多個URL分類可能對應(yīng)同一語義,如表2所示?!敖圩印钡乃阉鹘Y(jié)果可以被劃分為2類(美食、健康),但是它們都表示同一種語義,即水果。這種情況在多語義詞上也有發(fā)生,如多語義詞“小米”的其中一個語義——“糧食作物”對應(yīng)的搜索結(jié)果同時分布在“健康”、“美食”2個URL分類下,即多個URL分類對應(yīng)多義詞的同一語義。本文通過對網(wǎng)頁摘要聚類來解決這個問題。

      表2 單語義詞搜索結(jié)果在不同語義類別下的比例 %

      3.2 網(wǎng)頁摘要聚類

      搜索引擎中返回的多語義詞搜索結(jié)果含有噪音,可能會影響聚類結(jié)果的準(zhǔn)確度。因此,在聚類前,必須對網(wǎng)頁摘要進行清洗。首先,采用一種基于統(tǒng)計的方法過濾掉含搜索結(jié)果條數(shù)過少的初始語義分類。然后,對過濾后的初始語義分類結(jié)果分詞后,再進行去停用詞處理。

      在文本清洗過程完成后,就對網(wǎng)頁摘要進行聚類。本文采用基于詞頻的方法得到初始分類結(jié)果的聚類特征,對傳統(tǒng)的基于詞頻的方法進行改進,得到最能代表初始分類結(jié)果的聚類特征。定義W為:

      其中,TF為某一初始語義分類的詞頻數(shù);Cnt為某候選特征詞在對應(yīng)的初始語義分類下的詞頻數(shù)。在聚類過程中,考察不同分類的網(wǎng)頁摘要的文本相似度,具有較高文本相似度的網(wǎng)頁摘要的初始語義分類將歸為同一語義。本文將采用2種聚類方法考察不同聚類方法對實驗結(jié)果的影響。

      4 實驗與分析

      4.1 實驗設(shè)定

      4.1.1 評估標(biāo)準(zhǔn)

      在實驗中,根據(jù)百度百科、互動百科等中文權(quán)威在線百科構(gòu)建了一個多語義詞知識庫,對于一些網(wǎng)絡(luò)熱詞新出現(xiàn)的語義,如果在線百科還未收錄,則手工加以補充,以保證該知識庫的完備性。該知識庫較為精準(zhǔn)可靠,可作為一個有效的實驗評估標(biāo)準(zhǔn)。實驗中將以此知識庫為基準(zhǔn),計算語義標(biāo)注結(jié)果的準(zhǔn)確率及召回率。表3為知識庫的多語義詞語義示例。

      表3 知識庫中的一些多語義詞分類示例

      對每個多語義詞,c為用本文方法進行實驗標(biāo)注到的語義數(shù),c1為c中正確的語義數(shù),c0為知識庫中該多語義詞的語義數(shù)。實驗的準(zhǔn)確率P、召回率R和F-值F定義如下:

      4.1.2 URL分類器

      實驗中使用基于3大中文權(quán)威網(wǎng)站(百度、搜狗、雅虎中國)的網(wǎng)址分類目錄構(gòu)建URL分類器,且保證分類器中的URL目錄與這些在線目錄保持同步更新。網(wǎng)頁URL的特征提取方法如3.1節(jié)所述。

      4.1.3 聚類算法

      為了考察不同聚類算法對實驗結(jié)果的影響,實驗中將使用2種不同的聚類算法,即MKCLS聚類和Single-link聚類,下面對這2種算法進行簡單介紹。

      (1)MKCLS聚類:MKCLS算法使用最大似然估計來訓(xùn)練詞類,適用于處理語言模型或統(tǒng)計翻譯模型。本文使用開源版本。

      (2)Single-link聚類:LingPipe是一套常用的文本處理工具包,其中包括聚類、主題分類及命名實體識別等功能。Single-link聚類是其中一種使用貪心策略的聚類方法。

      在實驗中,本文將分別采用這2種聚類算法實現(xiàn)中文多義詞的語義標(biāo)注,分別考察不同聚類方法下的實驗效果,以考察聚類算法對實驗結(jié)果的影響。

      4.2 實驗結(jié)果

      4.2.1 基準(zhǔn)實驗

      從實時在線得到的500個搜索熱詞中,任意選取100個詞,作為基準(zhǔn)實驗的數(shù)據(jù)集。實驗數(shù)據(jù)來自2013年4月6日的百度搜索結(jié)果。借助于URL分類器,可以得到初始語義的分類結(jié)果。例如,針對“圍脖”這個多語義詞,它的網(wǎng)絡(luò)搜索結(jié)果可以被URL分類器分為2個類別,分別對應(yīng)其2個不同的語義,每個類別下包含若干條網(wǎng)頁信息(包括網(wǎng)頁URL和網(wǎng)頁摘要)。第1個類別中的網(wǎng)頁信息有“圍巾行情價格評價正品行貨韓版純色雜線…&http://www.360buy.com/products/1315-1…、多圖單品,女裝,服飾搭配購買美麗說狐貍…&http:// www.meilishuo.com/attr/show/34…等等”,其中 &前表示的該網(wǎng)頁的摘要信息,&后表示的是該網(wǎng)頁的URL。第2個類別中的網(wǎng)頁信息有“南都周刊圍脖女王姚晨的幸運與驚慌互聯(lián)…&http://tech.sina. com.cn/i/2009-12-31/0945…、今天你圍上圍脖了嗎互聯(lián)網(wǎng)科技時代新浪網(wǎng)…&http://tech.sina.com. cn/i/2010-02-03/0745…等等”。

      對初始語義分類結(jié)果進行聚類后,可以得到中文多語義名詞的最終語義分類。對“圍脖”的初始語義分類結(jié)果進行聚類后得到其最終語義分類,這里采用的聚類算法為MKCLS聚類。其結(jié)果包括2個語義類別:第1個語義類別中包括“圍巾、時尚、價格、品牌、購物、評論”等語義詞;第2個語義類別中包括“時代、科技、女王、周刊、成為、新浪網(wǎng)”等語義詞。

      多語義詞的每個語義由一組與此語義高度相關(guān)的標(biāo)簽表示,如上面的“圍巾、價格”等詞就是“圍脖”的第1個語義的標(biāo)簽。標(biāo)簽從聚類的特征詞中產(chǎn)生,以每個特征詞的W值為衡量標(biāo)準(zhǔn),采用top-N選擇策略?;鶞?zhǔn)實驗的實驗結(jié)果如表4所示。

      表4 基準(zhǔn)實驗結(jié)果 %

      4.2.2 不同聚類算法及數(shù)據(jù)集下的語義標(biāo)注結(jié)果

      本文探索了不同數(shù)據(jù)集及不同聚類算法對實驗結(jié)果的影響。不同于基準(zhǔn)數(shù)據(jù)集 Dataset,Datasetimp選取了前100個搜索熱度最高的多語義詞作為數(shù)據(jù)集。實驗結(jié)果如表5所示。

      表5 不同實驗設(shè)定下的實驗結(jié)果 %

      從表5中不難看出,聚類算法并不是影響實驗結(jié)果的關(guān)鍵因素。當(dāng)數(shù)據(jù)集相同時,使用不同的聚類算法得到了類似的實驗結(jié)果。然而,數(shù)據(jù)集的選擇策略則對實驗結(jié)果有較大影響,顯然,在Datasetimp上可以得到更好的實驗結(jié)果。對于熱搜詞,搜索引擎返回的搜索結(jié)果更為豐富有效,能提供更健壯的語義信息,能得到更高的準(zhǔn)確率及召回率。從這一點也可以看出,本文方法更適合熱詞語義標(biāo)注,具有較好的實時性,這一點正是在線百科及其他語義標(biāo)注方法所欠缺的。

      4.2.3 與其他語義標(biāo)注算法的實驗對比

      實驗還將本文方法(即方法4)在同一數(shù)據(jù)集下(即數(shù)據(jù)集Dataset-imp)與基于模板、基于百科的語義標(biāo)注方法分別從準(zhǔn)確率、召回率及方法能標(biāo)注的多義詞比率進行了對比,實驗結(jié)果如表6所示。

      表6 不同語義標(biāo)注算法對比 %

      從表6可以看出,本文方法能對在線百科尚未收錄的多語義詞進行語義標(biāo)注,且保證較高的準(zhǔn)確率及召回率。

      4.2.4 錯誤分析

      實驗過程中,主要有2種類型的錯誤,即語義標(biāo)注結(jié)果漏掉某些語義、由聚類算法引起的錯誤。表7列出了這些錯誤的原因及其對應(yīng)的百分比。

      表7 錯誤類型及原因分析 %

      5 結(jié)束語

      本文提出了一種新穎的中文多語義名詞的語義標(biāo)注算法,將基于URL的網(wǎng)頁分類方法引入到中文多語義詞的語義標(biāo)注中。實驗證明,該算法能得到多語義詞的語義標(biāo)注結(jié)果,且保證較高準(zhǔn)確率及召回率。今后的研究主要集中在2個方面:(1)進一步研究多語義詞的語義數(shù)量對實驗結(jié)果的影響;(2)研究非名詞的多義詞語義標(biāo)注方法。

      [1] Gabrilovich E,Markovitch S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//Proc.of International Joint Conference on Artificial Intelligence.Hydrabad,India:[s.n.],2007: 1606-1611.

      [2] De Saeger S,Kazama J,Torisawa K,et al.A Web Service for Automatic Word Class Acquisition[C]// Proc.of the 3rd International Universal Communication Symposium.Tokyo,Japan:ACM Press,2009:132-138.

      [3] Pasca M.Acquisition of Categorized Named Entities for Web Search[C]//Proc.of the 13th ACM International Conference on Information and knowledge Management. Washington D.C.,USA:ACM Press,2004:137-145.

      [4] Shi Shuming,Liu Xiaokang,Wen Jirong.Pattern-based Semantic Class Discovery with Multi-membership Support[C]//Proc.of the 17th ACM Conference on Information andKnowledgeManagement.NapaValley, USA:ACM Press,2008:1453-1454.

      [5] Arora R,Ravindran B.Latent Dirichlet Allocation Based Multi-document Summarization[C]//Proc.of the 2nd Workshop on Analytics for Noisy Unstructured Text Data.Singapore:ACM Press,2008:91-97.

      [6] Li Fang,Shen Huiyu,He Tingting.Tag-topic Model for Semantic Knowledge Acquisition from Blogs[C]// Proc.of the 7th International Conference on Natural Language Processing and Knowledge Engineering. [S.l.]:IEEE Press,2011:221-226.

      [7] 何婷婷,李 芳.基于主題模型的博客標(biāo)簽語義知識獲取[J].中國通信,2012,9(3):38-48.

      [8] Liu Yang,He Tingting,Tu Xinhui,et al.Obtaining Chinese Semantic Knowledge from Online Encyclopedia [C]//Proc.of International Conference on Natural Language Processing and Knowledge Engineering. [S.l.]:IEEE Press,2010:1-7.

      [9] Baykan E,Henzinger M,Marian L,et al.A Comprehensive Study of Features and Algorithms for URL-based Topic Classification[J].ACM Transactions on the Web,2011,5(3).

      [10] Devi M I,Rajaram D R,Selvakuberan K.Machine Learning Techniques for Automated Web Page Classification Using URL Features[C]//Proc.of International Conference on Computational Intelligence and Multimedia Applications.[S.l.]:IEEE Press, 2007:116-120.

      [11] Baykan E,Henzinger M,Marian L,et al.Purely URL-based Topic Classification[C]//Proc.of the 18th International Conference on World Wide Web.[S.l.]: ACM Press,2009:1109-1110.

      [12] 張 宇,宋 巍,劉 挺,等.基于URL主題的查詢分類方法[J].計算機研究與發(fā)展,2012,49(6): 1298-1305.

      [13] 張 宇,宋 巍,謝毓彬,等.利用URL類別改進查詢主題分類[C]//第六屆全國信息檢索學(xué)術(shù)會議論文集.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2010:157-166.

      編輯 顧逸斐

      Online Semantic Annotation of Chinese Multi-semantic Nouns Based on URL

      LIU Yi-zheng,YANG Jing,LI Qiang
      (Department of Computer Science and Technology,East China Normal University,Shanghai 200241,China)

      Chinese semantic annotation aims to find out the senses of a multi-semantic word,which is widely applied in natural language processing.This paper proposes a novel approach for semantic annotation of multi-semantic Chinese nouns.Given a multi-semantic Chinese noun,the proposed method can get its senses.The procedure is described as follows.The search results including URLs and abstracts of related Web pages are acquired through a search engine.The initial semantic classes are automatically generated by an online URL classifier using information gotten at the first step. Clustering algorithms are adopted to make full use of the Web page abstracts to get the final semantic classes. Experimental results demonstrate the proposed novel approach can obtain a considerable precision and recall rate with little manual intervention.

      semantic annotation;natural language processing;Chinese multi-semantic noun;URL classifier;text clustering;hot word

      1000-3428(2014)10-0150-05

      A

      TP391

      10.3969/j.issn.1000-3428.2014.10.029

      上海市國際科技合作基金資助項目(11530700300);上海市科委科研基金資助項目“面向NGB的智能業(yè)務(wù)分析關(guān)鍵技術(shù)研究及系統(tǒng)研制”(12dz1500205)。

      劉一正(1990-),女,碩士研究生,主研方向:自然語言處理;楊 靜,副教授;李 強,博士。

      2013-07-25

      2013-09-19E-mail:lyzheng2011@163.com

      中文引用格式:劉一正,楊 靜,李 強.基于URL的中文多語義名詞在線語義標(biāo)注[J].計算機工程,2014, 40(10):150-154.

      英文引用格式:Liu Yizheng,Yang Jing,Li Qiang.Online Semantic Annotation of Chinese Multi-semantic Nouns Based on URL[J].Computer Engineering,2014,40(10):150-154.

      猜你喜歡
      分類器網(wǎng)頁語義
      語言與語義
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
      電子制作(2018年10期)2018-08-04 03:24:38
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      認(rèn)知范疇模糊與語義模糊
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
      巩义市| 汶川县| 高淳县| 邵武市| 乌鲁木齐市| 深水埗区| 阜南县| 太仆寺旗| 东丽区| 浠水县| 旬阳县| 咸阳市| 吴桥县| 竹山县| 山丹县| 宁武县| 即墨市| 布拖县| 古交市| 铁力市| 巴东县| 中江县| 龙里县| 铜川市| 黔西| 临西县| 涿鹿县| 龙井市| 温州市| 盐城市| 德安县| 顺昌县| 德州市| 琼结县| 三门峡市| 金门县| 四子王旗| 南靖县| 蒙阴县| 益阳市| 鄂尔多斯市|