• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中文分詞方法及常用國內分詞工具

      2024-12-31 00:00:00種惠芳
      三角洲 2024年14期
      關鍵詞:分詞詞典深度

      為使機器能夠更充分地理解輸入語句,必須首先對輸入語句進行分詞。與英文等其他具有天然分隔標識符的西方語言相比,中文缺少此類符號,為此研究中文分詞方法及常用分詞工具,對中文自然語言處理具有非常重要的意義。中文分詞是將輸入計算機中的連續(xù)中文字序列按照某種規(guī)則進行分割,切分為具有相對獨立意義中文詞序列的過程。中文分詞在眾多涉及漢語的自然語言處理領域(如模式識別、機器翻譯等)都起著非常重要的作用,分詞可以將復雜非結構化語言學問題轉化為結構化數(shù)學計算問題,提高問題建模能力。與英語等其他語言相比,中文無明顯分詞特征,切分準則不統(tǒng)一;中文存在大量一詞多義語言現(xiàn)象,容易出現(xiàn)歧義;未登錄詞等其他語言分詞需要考慮的語言現(xiàn)象時中文分詞也需考慮,為此中文分詞成為眾多從事自然語言處理研究學者的研究內容。在中國知網(wǎng)上以“分詞”為檢索詞,以“主題”為檢索字段進行文獻檢索,截至2023年8月,共檢索到中文文獻2.04萬篇,文獻類別情況如表1所示。

      從發(fā)展歷程角度看,中文分詞方法可劃分為基于詞典匹配的分詞方法、基于統(tǒng)計的分詞方法和基于深度學習的分詞方法。在中國知網(wǎng)上以“中文分詞方法”主題詞進行檢索,并對檢索結果按次要主題“分詞方法”“字符串匹配”“基于統(tǒng)計”“神經(jīng)網(wǎng)絡”進行文獻趨勢對比分析,可見自2017年以來,深度學習方法逐步代替匹配與統(tǒng)計兩類方法成為分詞方法研究的主流,如圖1所示。

      基于詞典匹配的分詞方法主要是通過各種算法將文本與詞典進行匹配,從而實現(xiàn)對輸入內容的劃分,匹配算法的設計和詞典的構建直接影響分詞的效能與性能,該階段分詞方法主要研究詞典的構建和匹配算法的設計。

      基于詞典匹配的分詞方法簡單,分詞速度快,但分詞準確率與詞典質量密切相關,也難以處理未登錄詞及一詞多義等語言現(xiàn)象。

      基于統(tǒng)計的分詞方法建立在統(tǒng)計指標和統(tǒng)計模型基礎之上,通過計算詞與詞之間的組合出現(xiàn)概率來確定是否進行分詞,其核心思想是:按照上下文順序,相鄰兩字的頻數(shù)統(tǒng)計次數(shù)越大,則其成為一個詞語的概率越大。

      基于統(tǒng)計的分詞方法建立在詞頻數(shù)學計算基礎之上,不考慮詞意,一定程度上可以解決基于詞典匹配的分詞方法中未登錄詞及一詞多義問題,但該方法需要基于大規(guī)模訓練語料來實現(xiàn)。隨著互聯(lián)網(wǎng)語料規(guī)模的不斷增大、深度神經(jīng)網(wǎng)絡技術的不斷發(fā)展和計算機算力的不斷提升,基于統(tǒng)計的分詞方法正逐漸被深度學習分詞方法取代。

      2006年,Hinton等人提出了深度學習概念,強調深度學習模型學習得到的特征數(shù)據(jù)對原數(shù)據(jù)有更本質的代表性。2012年,AlexNet在ImageNet圖像分類比賽中以碾壓第二名的成績激起了人們對深度學習研究的熱潮,如何使用深度學習方法提高中文分詞效果也成為眾多學者積極研究的熱點。在中國知網(wǎng)以“深度學習”和“中文分詞”為主題詞進行檢索,共獲得414篇檢索結果,其中最早關于深度學習的中文分詞文獻出現(xiàn)在2015年。

      基于深度學習的分詞方法與基于統(tǒng)計的分詞方法相比,無需人工進行特征選擇,且特征學習深度不受限。典型深度學習分詞方法以循環(huán)神經(jīng)網(wǎng)絡為基礎,目前越來越多的深度學習模型被應用于中文分詞中,如林德萍將預訓練模型BERT引入中文分詞的過程實現(xiàn)了對新聞文本的高效分詞。

      常用國內中文分詞工具及簡要分析

      jieba(中文名為“結巴”)是優(yōu)秀的中文分詞第三方庫,可以進行簡單分詞、并行分詞、命令行分詞,支持精確模式、全模式、搜索引擎模式和Paddle模式四種分詞模式,支持繁體分詞和自定義詞典,除分詞功能外,還支持關鍵詞提取、詞性標注、詞位置查詢等功能,支持C++、JAVA、Python語言。精準模式試圖將句子進行最精確的切開(分詞后的概率連乘最大),適合文本分析,已被分出的詞語將不會再次被其他詞語占有;全模式將句子中所有可能成詞的詞語都掃描出來(如果單字被詞語包含,不掃描出單字),速度快,但可能存在歧義;搜索引擎模式在精確模式的基礎上,對長詞(字數(shù)gt;2)再次切分,提高召回率,適用于搜索引擎分詞;Paddle模式使用Paddle(飛槳)深度學習框架以加速分詞,jieba 0.40及以上版本支持Paddle模式,相對于前三種傳統(tǒng)分詞算法,Paddle模式采用了基于卷積神經(jīng)網(wǎng)絡的深度學習模型,可以獲得更高的分詞準確度和更快的分詞速度。

      目前,jieba不提供可視化應用程序接口,用戶需在編程環(huán)境中調用來實現(xiàn),代碼示例如下。

      import jieba

      s1=”我用手一把把門把手把住了”

      word=jieba.lcut(s1)

      print(word)

      HanLP是一個提供分詞、詞性標注、關鍵詞提取、自動摘要、依存句法分析、命名實體識別、短語提取、拼音轉換、簡繁轉換等功能的自然語言處理工具包,支持包括簡繁中英日俄法德在內的104種語言分詞功能,采用全球范圍內已知最大的億字級別中文分詞詞庫,支持CRF模型分詞、索引分詞、N-最短路徑分詞、NLP分詞、極速詞典分詞、標準分詞、深度學習分詞、自定義詞典分詞等,各種分詞方式及其特點如表2所示。

      HanLP官網(wǎng)提供了不同分詞方法的相應接口及功能演示窗口(如圖2所示),用戶也可以像使用jieba庫一樣通過編程環(huán)境調用HanLP模塊來使用,HanLP支持C++、JAVA、Python語言的使用。

      from pyhanlp import *

      print(HanLP.segment(‘我用手一把把門把手把住了’))

      THULAC是清華大學自然語言處理與社會人文計算實驗室研制推出的一套中文詞法分析工具包,具有中文分詞和詞性標注功能。THULAC工具分詞準確率高、速度較快,曾在Windows測試環(huán)境下利用第二屆國際漢語分詞測評發(fā)布的國際中文分詞測評標準對國內不同分詞軟件進行了速度和準確率測試,測試結果顯示其綜合性能排名靠前。THULAC支持C++、JAVA、Python語言的使用,在其官網(wǎng)上提供了網(wǎng)頁版在線平臺演示功能(如圖3所示)。

      FoolNLTK是一款采用BiLSTM算法實現(xiàn)的開源深度學習中文分詞工具包,可提供分詞、詞性標注、實體識別功能,也支持用戶自定義字典以加強分詞效果。FoolNLTK需在編程環(huán)境下安裝并調用工具包來進行分詞,示例如下。

      import fool

      print(print(fool.cut(‘我用手一把把門把手把住了’)))

      SnowNLP是一個處理中文文本內容的python類庫,其主要功能包括分詞、詞性標注、情感分析、漢字轉拼音、繁體轉簡體、關鍵詞提取,以及文本摘要等,其分詞功能采用了基于字符的生成模型方法。SnowNLP需在編程環(huán)境下安裝工具包后調用該工具進行分詞。

      import snownlp

      print(snownlp.SnowNLP(u’我用手一把把門把手把住了’).words)

      LTP是由哈爾濱工業(yè)大學社會計算與信息檢索研究中心開發(fā)的一款集中文詞法分析(分詞、詞性標注、命名實體識別)、句法分析(依存句法分析)和語義分析(語義角色標注、語義依存分析)六大功能為一體的自然語言處理工具集,其最新4.0版本基于多任務學習框架進行統(tǒng)一學習,使全部六項任務可以共享語義信息,達到了知識遷移的效果,既有效提升了系統(tǒng)的運行效率,又極大縮小了模型的占用空間,采用了基于預訓練模型進行統(tǒng)一的表示,有效提升了各項任務的準確率,基于教師退火模型蒸餾出單一的多任務模型,進一步提高了系統(tǒng)的準確率,基于PyTorch框架開發(fā),提供了原生的Python調用接口,通過pip包管理系統(tǒng)一鍵安裝,極大提高了系統(tǒng)的易用性。該工具官網(wǎng)上提供了詳細的說明文檔,并提供在線演示功能,用戶可以便捷使用。

      from ltp import LTP

      ltp = LTP()

      words = ltp.pipeline([‘我用手一把把門把手把住了’],tasks=[“cws”],return_dict=False)

      除了上述六個分詞工具,還存在如NLPIR、CoreNLP、NLTK等中文分詞工具,表3集中展示了上述六個中文分詞工具的關鍵特點。

      中文分詞技術正在由以傳統(tǒng)字符匹配方法和統(tǒng)計方法為主的分詞方法向由深度學習方法為主的階段過渡,新的深度學習方法也不斷被應用于分詞任務中。隨著語料數(shù)據(jù)的不斷增加和計力的增強,中文自然語言處理過程中是否需要單純的分詞階段是相關研究人員探討的問題,也將是筆者下一階段研究的內容。此外,筆者認為,數(shù)據(jù)科學和語言科學如何更好地融合以發(fā)揮彼此優(yōu)勢也是值得探討的課題。

      (作者單位:國防科技大學)

      猜你喜歡
      分詞詞典深度
      深度理解一元一次方程
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      結巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      深度觀察
      深度觀察
      深度觀察
      評《現(xiàn)代漢語詞典》(第6版)
      詞典例證翻譯標準探索
      值得重視的分詞的特殊用法
      高考分詞作狀語考點歸納與疑難解析
      台前县| 卢龙县| 宕昌县| 聂拉木县| 咸阳市| 临江市| 肥东县| 高雄市| 邯郸市| 宝鸡市| 鱼台县| 巴楚县| 丰原市| 柏乡县| 长春市| 达拉特旗| 津南区| 西盟| 尉犁县| 定日县| 晋江市| 高清| 商南县| 萨迦县| 杨浦区| 鲜城| 凤凰县| 延安市| 阳江市| 湘阴县| 双牌县| 老河口市| 昌江| 永州市| 什邡市| 永定县| 盐津县| 镇赉县| 文昌市| 呼玛县| 上林县|