• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取

      2014-04-29 00:44:03吳保珍
      電腦迷 2014年11期
      關(guān)鍵詞:互信息

      吳保珍

      摘 要 發(fā)現(xiàn)網(wǎng)絡(luò)新詞在中文信息處理方面具有非常重要的作用和意義。本文提出了一種基于質(zhì)子串分解的網(wǎng)絡(luò)新詞抽取方法。首先,從網(wǎng)絡(luò)上下載語料;然后,使用分解得到質(zhì)串;并 在其基礎(chǔ)上,進(jìn)一步使用改進(jìn)的檢驗方法結(jié)合質(zhì)子串分解方法抽取具有復(fù)雜結(jié)構(gòu)的合串并比較驗證新詞;實驗結(jié)果顯示,該算法有效地提高了網(wǎng)絡(luò)新詞抽取的精確度。

      關(guān)鍵詞 網(wǎng)絡(luò)新詞 質(zhì)子串分解 互信息 F-MI

      中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A

      0引言

      新詞是未登錄詞的一種,即新詞也是未收入在詞典中的詞,但它和未登錄詞還是有所不同。它指通過各種途徑產(chǎn)生的、具有基本詞匯所沒有的新形式、新意義或新用法的詞語或者是出現(xiàn)在某一時間段內(nèi)或自某一時間點以來所首次出現(xiàn)的具有新詞形,新詞義或者新用法的詞匯。

      1新詞獲取系統(tǒng)流程

      新詞識別的信息流采集于門戶網(wǎng)站下載的網(wǎng)頁,組建語料庫,對語料進(jìn)行預(yù)處理,建立Pat Tree索引 ,然后進(jìn)行術(shù)語抽取。其中術(shù)語抽取的方法采用基于卡方檢驗的質(zhì)子串分解方法。

      2網(wǎng)絡(luò)新詞識別方法

      該模塊是系統(tǒng)的核心模塊。首先,對候選術(shù)語集合進(jìn)行C-value參數(shù)計算,對于C-value小于給定閾值的候選術(shù)語將被從列表中刪除;然后對表中的候選術(shù)語進(jìn)行字符串分解,并根據(jù)分解結(jié)果計算所有候選串的F-MI參數(shù)值;最后,根據(jù)給定的F-MI閾值,淘汰掉錯誤的候選術(shù)語,并輸出最終的術(shù)語列表。

      2.1質(zhì)子串分解

      我們把詞簡單地分為兩類,一類是不可再分解為更小的詞匯單元的詞匯,這類詞我們稱為質(zhì)詞,如“珠穆朗瑪”一詞,任何子串(“珠穆朗”或“朗瑪”等)都不是詞;另一類是由質(zhì)詞組合而成的詞匯,這類詞我們稱為合詞,如“社會保障體系”則是由三個質(zhì)詞(“社會”、“保障”和“體系”)組合而成的。對于串S,除了單字串和質(zhì)串以外,都是合串,單字既不是質(zhì)串,也不是合串。對于合串S,如果S可以串分解為S= S1 S2 S3…Sm,其中Si可以為質(zhì)串或單字,但必須至少有一個是質(zhì)串,則稱S=S1 S2 S3…S m是S的一種質(zhì)子串分解。

      2.2串分解的F-MI

      本文采用改進(jìn)的互信息參數(shù)F-MI來評估一個串成為術(shù)語的可能性。參數(shù)F-MI的定義分兩種:串分解的F-MI值和串的F-MI值,其中串的F-MI值的定義以串分解的F-MI為基礎(chǔ)。

      對于串S及S的一種分解S= S1 S2 S3…Sm,串分解的F-MI的計算公式為:

      S表示待計算的串,F(xiàn)(S)表示S在文檔集中出現(xiàn)的次數(shù),T(S)表示S所有父串在文檔集中出現(xiàn)的次數(shù),而C(S)表示S所有父串的個數(shù)。

      參數(shù)C-value的目標(biāo)是為了提高網(wǎng)狀術(shù)語的抽取效果。由公式3.2可知,對于極大串S,C-value(S)=F(S);而對于非極大串S,C-value參數(shù)則綜合考慮了S及其所有父串之間的網(wǎng)狀關(guān)系,例如對于極大串S1=“珠穆朗瑪”及其子串S2=“珠穆朗”,如果F(S1)=F(S2),則C-value(S1)=F(S1),而C-value(S2)=0。

      而參數(shù)的定義為:

      其中,i表示表中的行變量,j表示列變量,Oi,j表示表單元(i,j)的觀測值,Ei,j表示期望值。這里,我們?nèi)??的表來計算,如表2所示。

      表2 單詞質(zhì)量和監(jiān)督出現(xiàn)次數(shù)之間的依賴關(guān)系的2?的表

      檢驗從理論上講適用于各種大小的表,但是對于2?的表的表達(dá)形式相對簡單:

      =(N是語料庫中二元對的總數(shù))

      2.3串的F-MI

      對某一質(zhì)串S= C1 C2 C3… Cm(其中Ci均為單字),質(zhì)串F-MI的計算公式為:

      其中,本文定義單字的C-value(C)=F(C),如質(zhì)串“珠穆朗瑪”的F-MI值為:

      而對某一合串S,如果S的所有質(zhì)子串分解為:

      即共有n種分解方式,根據(jù)公式3.1,分別計算每一種串分解的F-MI值(f1,f2,f3,…,fn),則合串S的F-MI的定義為:

      F-MI(S)=Max(f1,f2,f3,…,fn) (3.5)

      本文術(shù)語抽取的重點是合串的抽取。而在抽取到的62190個合串中,只有4531個被Hownet收錄,92%以上的合串未被收錄,其原因是這些合串大部分并不屬于嚴(yán)格意義上的詞,而主要是一些短語和組合術(shù)語。另外,本文結(jié)合卡方檢驗對組合術(shù)語出現(xiàn)的偶然性進(jìn)行驗證,從而使合串抽取的正確率有所提高。

      3實驗結(jié)果及分析

      (1)測試數(shù)據(jù)

      我們下載了新浪(http://www.sina.com.cn)網(wǎng)站上從2013年1月到2013年6月的文章,共計130016篇文章,約345M。

      (2)測試結(jié)果及評估

      本次實驗共抽取到了241998個術(shù)語,其(下轉(zhuǎn)第45頁)(上接第43頁)中108102個被Hownet收錄,占所有抽取總數(shù)的 44.67%,質(zhì)串99040個(91.62%),合串9062個(8.38%);詞典之外(OOV)的133896個術(shù)語中,質(zhì)串18578個(占13.87%),合串115318個(占86.13%)。當(dāng)我們對詞典之外的進(jìn)行了人工評估,并規(guī)定,在合串中只有名詞性短語才被認(rèn)定為是正確的詞匯。正確的詞匯共有204696個,總體準(zhǔn)確率為85.41%。

      (3)實驗結(jié)果分析

      本文網(wǎng)絡(luò)新詞抽取的重點是合串的抽取。而在抽取到的124380個合串中,只有9062個被Hownet收錄,90%以上的合串未被收錄,其原因是這些合串大部分主要是一些短語和組合術(shù)語,并不屬于嚴(yán)格意義上的詞。另外,本文采用結(jié)合卡方檢驗和互信息F-MI檢測對組合術(shù)語出現(xiàn)的偶然性進(jìn)行驗證,從而使合串抽取的正確率有所提高(表3、表4)。

      我們通過計算抽取到的術(shù)語數(shù)目與語料規(guī)模的比值來考察分析。與文獻(xiàn)(Patrick & Dekang 2001)10M測試語料抽取到10268個術(shù)語相比(比值約1026.8),本文在約345M的測試語料上抽取到241998個術(shù)語(比值約876.8),該參數(shù)要小于前者,隨著測試語料規(guī)模的增大,重復(fù)術(shù)語出現(xiàn)增多,所以在結(jié)果上基本是一致的。

      4結(jié)語

      本文介紹了基于卡方檢驗和質(zhì)子串分解來獲取網(wǎng)絡(luò)新詞,今后我們將針對參數(shù)F-MI的特點,繼續(xù)對F-MI公式進(jìn)行研究和改進(jìn),以提高質(zhì)串的抽取效果;在今后會根據(jù)詞法規(guī)則來自動過濾非名詞的詞匯。在本文提出的方法和實驗結(jié)果的分析的基礎(chǔ)上,我們將嘗試結(jié)合自然語言處理中的文本自動分類技術(shù),基本上自動實時動態(tài)地從Internet上抓取網(wǎng)頁,并自動分類,對不同類別的文本集分別進(jìn)行術(shù)語抽取,建立一個實時的動態(tài)的網(wǎng)絡(luò)新詞發(fā)現(xiàn)系統(tǒng)。

      參考文獻(xiàn)

      [1] Frantzi K, Ananiadou S. Extracting Nested Collocations[c]. Copenhagen Denmark:Proceeding of COLING,1996:41-46.

      [2] Patrick Pantel,Dekang Lin. A Statistical Corpus-Based Term Extractor[c]. Canada:Canadian Conference on AI,2001:36-46.

      [3] 劉建舟,何婷婷,姬東鴻等. 基于開放語料的漢語術(shù)語的自動抽取[c]. 沈陽:第二十屆東方語言計算機處理國際學(xué)術(shù)會議,2003:43-49.

      [4] 何婷婷,張勇. 基于質(zhì)子串分解的中文術(shù)語自動抽取[J].上海:計算機工程,2006,32(23):188-190.

      猜你喜歡
      互信息
      基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
      采用目標(biāo)區(qū)域互信息的星空圖像配準(zhǔn)
      中國科學(xué)家建立量化網(wǎng)絡(luò)中直接關(guān)聯(lián)性的“部分互信息”新方法
      科學(xué)(2016年3期)2016-05-30 03:18:00
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      一種利用點特征和互信息的多源遙感影像配準(zhǔn)方法
      遙感信息(2015年3期)2015-12-13 07:26:54
      基于PSO和互信息的小波醫(yī)學(xué)圖像配準(zhǔn)及融合
      改進(jìn)的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      基于增量式互信息的圖像快速匹配方法
      基于獨立分量分析和互信息的多諧波源定位
      江阴市| 祁东县| 凌云县| 夹江县| 北辰区| 昌平区| 皮山县| 和顺县| 久治县| 晋城| 广饶县| 保亭| 莱芜市| 突泉县| 长武县| 德兴市| 青河县| 芜湖县| 扶沟县| 张北县| 乌什县| 华池县| 无锡市| 山西省| 通许县| 北票市| 新泰市| 漳浦县| 永修县| 定西市| 兴和县| 博客| 沂南县| 平南县| 永吉县| 乐至县| 阿拉善盟| 舞钢市| 彰化县| 从化市| 临城县|