• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文自由短文本信息抽取方法的研究

      2012-04-29 18:34:26朱玲玲楊愛琴魏曉寧
      電腦知識與技術(shù) 2012年15期
      關(guān)鍵詞:語料庫短文語義

      朱玲玲 楊愛琴 魏曉寧

      摘要:現(xiàn)實生活中,中文自由短文本大量出現(xiàn),而短文本處理技術(shù)在話題跟蹤與發(fā)現(xiàn)、流行語分析、輿情預(yù)警等領(lǐng)域都得到廣泛的發(fā)展和利用。雖然信息抽取技術(shù)在一些領(lǐng)域已經(jīng)得到了很好的研究應(yīng)用,但針對中文自由短文本數(shù)據(jù)的抽取技術(shù)的研究則比較少。該文主要總結(jié)了當(dāng)前中文短文本信息抽取方法的研究情況及存在的問題。提出了一種基于HNC的中文自由短文本信息抽取中的過濾、分類、聚類、模板生成等算法的開發(fā)及對其進(jìn)行研究。

      關(guān)鍵詞:短文本;信息抽取

      中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)15-3691-02

      近年來,大量短文本,如電子郵件,網(wǎng)絡(luò)聊天,網(wǎng)絡(luò)博客等已經(jīng)成為信息交流和情感溝通手段,深刻改變了我們的生活習(xí)慣和溝通方式。中文的自由短文在比如網(wǎng)絡(luò)輿情與公安預(yù)警等很多領(lǐng)域都有廣闊發(fā)展前景,雖然英文信息提取技術(shù)得到很好研究應(yīng)用,中文的信息抽取研究較晚,但也取得了一些效果。孫斌在他的博士論文[1]中提出了一種對事件抽取的研究,并且提出了一種InfoX的原型系統(tǒng)。對人民日報語料庫中調(diào)職、辭職和任命三個事件,召回分別為50%,44%,42%,精度為75%,47%,54%,取得了一些成績。

      但相對長度短,結(jié)構(gòu)各異的中文短文本的提取技術(shù)研究則相對更少。

      1中文信息抽取方法的研究

      目前對中文信息抽取方法的研究主要有以下四種。

      1.1基于頻繁的詞集的方法

      該方法的基本思想是,利用關(guān)鍵字出現(xiàn)在多少確定,雖然關(guān)鍵字在一個短文中出現(xiàn)的次數(shù)少,但是在總的預(yù)料中依然會出現(xiàn)很多次。Sebastiani利用該方法對數(shù)字圖書館中關(guān)于摘要部分進(jìn)行了適當(dāng)?shù)谋容^[2],最后指出這個方法比較適合中文短文本的分類,但對于噪聲大的短文準(zhǔn)確度依然不高。

      1.2模板匹配法

      指在一些特定的模式指導(dǎo)下對于某類事件的識別和抽取,而這個特定的模式是可以通過人工或自動方法來取得的。采用這個方法來進(jìn)行事件抽取的IE系統(tǒng)一般由兩個模塊組成分別是信息抽取模塊和模式獲取模塊。

      1.3基于語義的方法

      song等人提出了一種基于空間概念[3]和流動的信息分類的方法。該方法利用概念之間的關(guān)系來確定的語義關(guān)系,并使用此語義關(guān)系來指導(dǎo)分類,以達(dá)到短文本分類結(jié)果,這個方法能夠得到比一般的向量空間模型好的效果。zelikovitz等提出了一個使用潛在語義索引來對短文本分類方法[4]。該方法定義了潛在的語義索引詞之間的語義聯(lián)系,從而提高了文章分類的準(zhǔn)確性。

      1.4基于本體的信息抽取

      在CNKI中就是使用這種信息抽取的方法,主要原理是,利用本體這個概念抽取出關(guān)鍵字,然后在計算本體概念中這些字詞之間的相似度[5]。本體論描述某個領(lǐng)域中所有事物和事物之間的關(guān)系,但只有這些認(rèn)識能得到一個很好的信息抽取嗎?答案是否定的。即使我們已經(jīng)知道了客觀世界中某些事物有一定屬性,該事物也有一定的屬性(例如,狗有四條腿,是一種哺乳動物),我們?nèi)匀徊恢肋@一段文字中提取文字說明是本體(狗),以及哪些文字或段落描述這個事物(狗)的屬性,更不能由此推理知道短文介紹的是一種哺乳動物。

      由此可知信息提取的現(xiàn)有技術(shù)不能滿足要求。無論從可擴展性和準(zhǔn)確性方面,中文短文本信息提取還有待進(jìn)一步研究。尤其是存在如精度不高,可擴展性不強,高緯度的數(shù)據(jù)問題等。如何高效、準(zhǔn)確提取信息成為短文本信息抽取技術(shù)的發(fā)展難點,由此文中提出了一種基于中文的HNC的短文本信息提取,過濾,分類,聚類,模板生成算法的開發(fā)和研究。

      單個短文本由于信息有限,其有價值信息和相關(guān)屬性有效特征都很難挖掘,因此,我們所說的中文自由短文本信息抽取一般都是針對整個短文本語料,從大量的短文語料庫中進(jìn)行信息抽取,通過詞與詞之間的相關(guān)性,挖掘有價值的信息。這樣就是因為短文挖掘不是對某個短文而是對語料庫而言,所以我們使用的抽取技術(shù)與傳統(tǒng)信息處理技術(shù)是不同的,相應(yīng)的關(guān)鍵技術(shù)也有較大差異。

      2短文本信息抽取流程

      圖1顯示了本文研究的短文本信息抽取流程。

      首先,我們進(jìn)行信息的收集,這些信息來源很多比如先確定大量BBS、QQ聊天信息、論壇等諸如此類有大量短文本網(wǎng)站,然后根據(jù)當(dāng)前熱點確定監(jiān)控內(nèi)容從而再確定需要跟蹤的熱點。采用信息自動收集和人工干預(yù)模式相結(jié)合的網(wǎng)絡(luò)信息采集,對網(wǎng)絡(luò)采集到的信息要進(jìn)行初步處理,即過濾掉某些與熱點無關(guān)的文本和語句;按主題自動分類、聚類、淺層語義分析等。

      其次,利用HNC知識和語義詞典,對經(jīng)過預(yù)處理的信息進(jìn)行深層語義分析(句類分析),包括:主語義塊的識別、命名實體識別、語義消歧、指代解析等。最后經(jīng)過概念建模、語義模板生成、模板匹配得到最終的短文本的結(jié)構(gòu)化信息。

      根據(jù)圖1,提出了如下5點主要技術(shù)。

      (1)短文本語義詞典的構(gòu)建

      語義詞典在自然語言處理研究中占有相當(dāng)關(guān)鍵的位置。首先從語料庫中抽取待聚類詞的上下文相關(guān)的詞,并利用信息增益對特征詞進(jìn)行選擇,然后借鑒信息檢索模型中的TFIDF計算特征向量中每一個特征的權(quán)重,最后將構(gòu)造好的待聚類詞的特征向量作為自組織映射神經(jīng)網(wǎng)絡(luò)SOM的輸入,經(jīng)過網(wǎng)絡(luò)的迭代計算將不同類別的詞映射在SOM輸出網(wǎng)格的不同結(jié)點。

      (2)短文本多余信息過濾

      短文本多余檢測與一般文本多余檢測最大的不同在于前者要求具有實時性比較高,要求系統(tǒng)能在有限時間內(nèi)快速處理發(fā)布、更新的短文本語料,這就要求短文本多余檢測比一般文本多余檢測具有更好的擴展性和更高的效率。

      圖1

      (3)識別短文本中有特定含義的字符串

      隨著社會發(fā)展出現(xiàn)了越來越多的新的詞語,在短文本語料庫中就有這些詞,我們指的短文本中特定含義的字符串也叫有意義串指的就是這些新的縮寫語、術(shù)語、詞匯等。對短文本語料中有意義串的挖掘,不僅能幫助有關(guān)部門及時掌握當(dāng)前社會輿情,民生關(guān)注,社會熱點,從而發(fā)現(xiàn)社會問題,為維護(hù)社會穩(wěn)定制訂相關(guān)政策等提供依據(jù),還為語義模板的構(gòu)造的提供了素材。

      根據(jù)HNC理論和有意義串局部原理合并同義詞和近義詞,構(gòu)造四個二維表:文件-詞二維表。

      時間-詞二維表。

      主題-詞二維表

      地點-詞二維表。

      (4)語義標(biāo)注

      實驗采用HNC和語義角色相結(jié)合的語義標(biāo)注策略。

      第一步,語義塊感知和句類假設(shè)。

      第二步,句類檢驗。運用句類知識對假設(shè)的句類進(jìn)行合理性分析,最終判定句子的句類;

      第三步,分析語義塊構(gòu)成。在句類確定的前提下,對各個語義塊的內(nèi)部語義結(jié)構(gòu)進(jìn)行分析。

      (5)關(guān)于短文本語義的分類聚類算法的設(shè)計

      由于短文本中關(guān)鍵詞出現(xiàn)的次數(shù)不多,即難從“理解”的層次處理用戶需求。針對這些問題,本文設(shè)計了根據(jù)分類原理研究的基于語義的分類聚類算法。

      通過以上分析和流程,可得到如下效果:

      (1)適用了互聯(lián)網(wǎng)中大量中文短文本信息自動聚類、主題檢測、自動獲取、專題聚焦的算法。(2)實現(xiàn)了網(wǎng)絡(luò)輿情監(jiān)測和分析需求,對帖吧、聊天室等分析研判后,生產(chǎn)出標(biāo)準(zhǔn)化的人、事、物、組織、地點等信息的情報產(chǎn)品。為公安全面掌握輿情動態(tài),做出正確決策,提供分析依據(jù)。(3)F-指數(shù)有明顯提高。從而達(dá)到一定效果。

      參考文獻(xiàn):

      [1]孫斌.繼承—歸納機制及其在對象系統(tǒng)和信息提取技術(shù)中的應(yīng)用[D].北京大學(xué)博士論文,2000,6.

      [2] F.Sebastiani. Machine Learning in Automated Text Categorization. ACM。Computing Surveys, 2002,34(1):1-47.

      [3] D.Song,P.D.Bruza. Based on Information Inference.In proceedings of the 14th International Symposium on Methodolog- ies for Intelligent Systems,2003: 297-306.

      [4] Sarah Zelikovitz. Transductive LSI for Short Text Classification Problems. Proceedings of the 17th International FLAIRS Conference,2004.

      [5]熊云波.文本信息處理的若干關(guān)鍵技術(shù)研究[D].上海:復(fù)旦大學(xué)博士論文,2006.

      猜你喜歡
      語料庫短文語義
      語言與語義
      《語料庫翻譯文體學(xué)》評介
      KEYS
      Keys
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      認(rèn)知范疇模糊與語義模糊
      短文改錯
      短文改錯
      勐海县| 五莲县| 惠州市| 抚远县| 天峻县| 水富县| 许昌县| 林周县| 浮山县| 莫力| 科尔| 双牌县| 江安县| 车险| 永清县| 陇西县| 武城县| 黄平县| 柏乡县| 克山县| 彰化县| 正镶白旗| 太湖县| 博罗县| 乌恰县| 涪陵区| 名山县| 海门市| 福清市| 天长市| 仙居县| 高平市| 东城区| 水富县| 南宫市| 武功县| 玛纳斯县| 扶风县| 惠东县| 基隆市| 仁布县|