• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      計算機文本信息挖掘技術(shù)研究

      2020-12-08 02:14:06王姝
      數(shù)碼設(shè)計 2020年15期
      關(guān)鍵詞:術(shù)語語料語料庫

      王姝

      摘要:

      互聯(lián)網(wǎng)為人們獲取大量的文本數(shù)據(jù)提供便利,然而這些文本數(shù)據(jù)的質(zhì)量相對偏低,難以充分發(fā)揮文本數(shù)據(jù)的利用價值,為此要重點研究和探討計算要文本信息挖掘的文本表示和術(shù)語識別兩項技術(shù),進(jìn)行文本信息的合理高效分類、過濾和篩選,幫助使用者獲得真正需要的知識,挖掘海量文本信息中的隱藏知識和信息,較好地提高計算機文本信息獲取質(zhì)量。

      關(guān)鍵詞:

      計算機;文本信息;挖掘;文本表示;術(shù)語識別

      中圖分類號:

      TP391.1;F724.6;F274

      文獻(xiàn)標(biāo)識碼:

      A

      文章編號:

      1672-9129(2020)15-0004-01

      互聯(lián)網(wǎng)為人們獲取、發(fā)布、交換和共享信息提供了便利,然而人們獲得的文本信息數(shù)據(jù)大多相對表淺,難以真正挖掘到具有價值的知識和信息。本文重點探討計算機文本表示技術(shù)和術(shù)語識別技術(shù),幫助人們快速高效地進(jìn)行文本信息的搜集、分類、過濾、篩選和利用,提高計算機文本信息獲取質(zhì)量和效率。

      1 計算機文本信息挖掘技術(shù)概述

      文本信息挖掘技術(shù)要從海量的計算機文本數(shù)據(jù)中抽取隱藏的、具有價值的知識和信息,并對其進(jìn)行重新組織、分類、標(biāo)引、過濾和篩選,僅限于對文本數(shù)據(jù)的挖掘,重點針對非結(jié)構(gòu)化或半結(jié)構(gòu)化自然語言文本的挖掘,其主要的文本信息挖掘任務(wù)包括有以下幾種:(1)文本分類。這是一種有監(jiān)督的機器學(xué)習(xí)方法,需要一定數(shù)量的有類別標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行先驗引領(lǐng)和指導(dǎo),是對文本語料庫中的每個文本賦予其一個或多個類別標(biāo)記的過程,主要用于信息檢索、搜索引擎、領(lǐng)域知識加工和服務(wù)等活動。(2)文本聚類。這是一種無監(jiān)督的機器學(xué)習(xí)方法,無須訓(xùn)練過程,是將文本語料庫的數(shù)據(jù)自動聚集為若干個類別簇,包括文本表示、文本距離度量標(biāo)準(zhǔn)的選擇、聚類算法的選擇等流程。

      2 計算機文本信息挖掘技術(shù)分析

      2.1文本表示技術(shù)。文本表示關(guān)鍵技術(shù)是在計算機技術(shù)、統(tǒng)計學(xué)和語言學(xué)知識的依托下,對自然語言形式的文本進(jìn)行轉(zhuǎn)換,使之成為計算機內(nèi)部能夠直接處理的數(shù)據(jù)模型,其基本流程包括有:特征提取、特征降維、特征權(quán)重計算等,快速高效地抽取文本特征相關(guān)信息,具體來說包括有:(1)統(tǒng)計信息。文本中關(guān)鍵詞的統(tǒng)計分布規(guī)律信息,如:關(guān)鍵詞的詞頻、逆文本頻率、關(guān)鍵詞之間的互信息、共現(xiàn)頻率等。(2)語義信息。主要是指計算機文本中關(guān)鍵詞的語義信息,如:上下文環(huán)境中的特定信息、關(guān)鍵詞之間的同義/反義信息等。

      由于自然語言文本體現(xiàn)出天然的線性結(jié)構(gòu),因而通常采用布爾模型、向量空間模型和概率模型將文本表示為線性結(jié)構(gòu)的文本向量,并采用關(guān)鍵詞作為文本特征,從而簡單直觀地表達(dá)出線性文本的結(jié)構(gòu)。其中:布爾模型主要采用0或1的布爾值表示其關(guān)鍵詞,無須進(jìn)行關(guān)鍵詞特征的降維處理,衍生的模型有擴展布爾模型和模糊集合模型,然而其缺陷在于無法精準(zhǔn)地計算關(guān)鍵詞的權(quán)重。概率模型主要是利用概率論基礎(chǔ)知識和概率排序原理,計算關(guān)鍵詞的權(quán)重,衍生出的文本表示模型有推理網(wǎng)絡(luò)模型和信任度模型,有著良好的應(yīng)用前景;然而其缺陷在于關(guān)鍵詞權(quán)重計算過于繁瑣復(fù)雜。向量空間模型是應(yīng)用最為廣泛的文本表示模型,關(guān)鍵詞權(quán)重計算方法更加簡潔、準(zhǔn)確和有效,然而其不足之處在于缺乏文本語義表示能力,可以采用基于短語的VSM和基于概念的VSM進(jìn)行文本特征提取的優(yōu)化,并采用統(tǒng)計語言模型、奇異值分解進(jìn)行文本特征權(quán)重計算的改進(jìn)和優(yōu)化。

      2.2術(shù)語識別技術(shù)。術(shù)語是特定專業(yè)領(lǐng)域中表達(dá)一般概念的指標(biāo),是用于文本信息處理領(lǐng)域中概念表達(dá)的書面語,字符長度通常在2-8個字符,主要特性主要表現(xiàn)為以下幾個方面:(1)語言特性。是指術(shù)語的內(nèi)外部結(jié)構(gòu)特性與一定的語言學(xué)或統(tǒng)計學(xué)規(guī)律相契合,大多由名詞、動詞、形容詞組成。(2)單元性。術(shù)語的單元性用于描述術(shù)語內(nèi)部的高內(nèi)聚性和外部的低依賴性特點,較好地評測術(shù)語在字符串結(jié)構(gòu)上的穩(wěn)定性。(3)術(shù)語性。主要用于評測和度量語言學(xué)單元及其所屬語料領(lǐng)域的強弱相關(guān)性,有時需要借助于背景語料進(jìn)行完整清晰的描述和表達(dá)。(4)領(lǐng)域相關(guān)性和一致性。術(shù)語在其所處的領(lǐng)域中分布相對均勻,而在其他領(lǐng)域語料中則表現(xiàn)出分布不均勻的狀態(tài)。

      對于常用術(shù)語來說,可以采用如下方法加以識別和表達(dá):(1)基于規(guī)則的方法。主要是借助于文本語料庫中詞語的語言特性構(gòu)建詞性規(guī)則模板的集合,并以此匹配語料庫中詞序列作為術(shù)語。這種方法需要極強的專業(yè)領(lǐng)域和計算機語言學(xué)背景,在規(guī)則模板的制定上存在差異性,難以滿足領(lǐng)域術(shù)語更新的需求,表現(xiàn)出對領(lǐng)域的極強依賴性,無法進(jìn)行該方法的擴展應(yīng)用。(2)基于統(tǒng)計的方法??梢栽O(shè)計一種中文術(shù)語識別系統(tǒng),利用文本語料中字符串的穩(wěn)定性,抽取候選術(shù)語集合,再剔除基本詞,獲悉術(shù)語識別結(jié)果。也可以利用關(guān)鍵詞的TF-IDF值及關(guān)鍵詞在文本中出現(xiàn)的位置,提取文本的主題關(guān)鍵詞。以新聞術(shù)語為例,可以下載網(wǎng)絡(luò)新聞?wù)Z料,借助于互信息參數(shù)抽取語料中的質(zhì)串,識別具有復(fù)雜結(jié)構(gòu)的合串,將其作為新聞術(shù)語。(3)基于規(guī)則和統(tǒng)計相結(jié)合的方法。主要是將術(shù)語的語言特征和統(tǒng)計特征相結(jié)合,判斷詞序列結(jié)構(gòu)的穩(wěn)定性,抽取術(shù)語候選,再利用語言規(guī)則進(jìn)行后處理,獲悉術(shù)語集合。(4)基于機器學(xué)習(xí)的方法。這是利用一定規(guī)模的語料生成機器學(xué)習(xí)模型,進(jìn)行術(shù)語的最終識別。

      結(jié)語:綜上所述,計算機文本信息挖掘是文本信息處理的重要內(nèi)容,要重點研究和探討計算機文本表示技術(shù)和術(shù)語識別技術(shù),進(jìn)行語義的精準(zhǔn)量化描述和表達(dá),并快速準(zhǔn)確地進(jìn)行術(shù)語識別,為計算機信息檢索、搜索引擎、信息抽取、領(lǐng)域本體構(gòu)建及自然語言處理提供信息支持,更好地推進(jìn)計算機文本挖掘技術(shù)的發(fā)展,后續(xù)還要進(jìn)一步提高文本信息挖掘技術(shù)的可擴展性,提高術(shù)語識別效果的收斂值。

      參考文獻(xiàn):

      [1]李愛琳.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用研究[J].數(shù)字通信世界,2020(02):199.

      [2]管祥甫,管子涵.計算機文本信息挖掘技術(shù)在網(wǎng)絡(luò)安全中的應(yīng)用[J].電子技術(shù)與軟件工程,2019(21):184-185.

      猜你喜歡
      術(shù)語語料語料庫
      《語料庫翻譯文體學(xué)》評介
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
      有感于幾個術(shù)語的定名與應(yīng)用
      從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢
      語料庫語言學(xué)未來發(fā)展趨勢
      404 Not Found

      404 Not Found


      nginx
      菏泽市| 个旧市| 东阳市| 南阳市| 大港区| 焉耆| 弥勒县| 桑植县| 青河县| 灵台县| 苗栗市| 睢宁县| 玉门市| 泰州市| 枝江市| 福泉市| 福建省| 九龙县| 肇东市| 许昌市| 化州市| 罗平县| 通辽市| 青冈县| 平度市| 岳西县| 洞头县| 韩城市| 汨罗市| 信丰县| 龙口市| 天水市| 凤台县| 湟源县| 长治市| 海南省| 乌兰察布市| 东阿县| 手机| 芒康县| 寻乌县|