• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢語語病自動檢測研究現(xiàn)狀及展望

      2020-08-18 17:34:48朱麗莉
      文存閱刊 2020年9期
      關(guān)鍵詞:自動檢測研究現(xiàn)狀展望

      摘要:本文總結(jié)漢語語病自動檢測的研究現(xiàn)狀,并從檢測對象、檢測方法、檢測效果及所結(jié)合的語言學(xué)知識等角度進(jìn)行分析,進(jìn)一步探討漢語語病自動檢測理論研究的突破點(diǎn)及發(fā)展方向,以期為應(yīng)用研究提供參考。

      關(guān)鍵詞:漢語語病;自動檢測;研究現(xiàn)狀;展望

      一、引言

      隨著信息技術(shù)的發(fā)展,文本自動校對研究于20世紀(jì)70年代率先在美國展開,80年代,日本開始日文字詞檢測研究,到90年代中期,中文錯別字校對研究工作開展起來。目前,漢語語病自動檢測[]研究主要有兩個層面:基礎(chǔ)理論層面和應(yīng)用層面。前者側(cè)重于理論分析和檢測方法的設(shè)計,后者側(cè)重應(yīng)用軟件開發(fā)。在現(xiàn)有的信息處理文獻(xiàn)中,專題討論漢語語病自動檢測的文獻(xiàn)有70篇左右[]。在應(yīng)用研究方面,現(xiàn)有的檢測軟件主要有黑馬校對、北大方正校對、金山WPS校對和微軟Word檢測等??傮w而言,其中不乏代表性的檢測方法和技術(shù),為了更深入地探討其研究問題及發(fā)展方向,筆者將對其研究現(xiàn)狀進(jìn)行總結(jié),并從檢測對象、檢測方法、檢測效果及所結(jié)合的語言學(xué)知識等角度進(jìn)行分析。

      二、漢語語病自動檢測研究現(xiàn)狀

      漢語語病自動檢測系統(tǒng)包括查錯和糾錯,查錯先于糾錯。查錯的主要方法有模式匹配、N元模型、基于Web、基于規(guī)則和基于統(tǒng)計、基于特征等。糾錯法主要有模式匹配、建立字詞集和聚類替換等。

      (一)查錯研究

      替換法,通過分析錯誤字詞的類型及出錯頻率,在搜集系統(tǒng)語料的基礎(chǔ)上,根據(jù)字詞出錯的類型,設(shè)計音形相似度的閥值,進(jìn)而建立起音近、形近字詞集,利用語言模型對各候選字串進(jìn)行評分,找出評分最高的候選字串,與原文字詞進(jìn)行比較,從而檢測出文本中的錯誤字詞。該方法能較有效地查出文本中的近似字詞錯誤情況,但誤報率較高。

      模式匹配法,主要基于字詞典,將文本中的錯誤字詞與詞典中形近字詞進(jìn)行模糊匹配,通過對比,獲取正確字詞。此方法最大的改進(jìn)是能檢查并糾正固定式結(jié)構(gòu)中的多字、缺字、替換字,能較有效地查出長詞中的別字。

      N元模型法,運(yùn)用詞二元同現(xiàn)概率來檢測文本,對待校文本中常見錯誤進(jìn)行統(tǒng)計分析,并針對文本中出錯字詞與相鄰字詞接續(xù)關(guān)系弱的特點(diǎn)設(shè)計查錯方法,在檢測前后幾個字詞搭配關(guān)系方面有良好的檢測效果,但不適合長距離檢測。

      基于規(guī)則與基于統(tǒng)計相結(jié)合的檢測方法,主要應(yīng)用于文本標(biāo)注和建立依存關(guān)系網(wǎng)中,該方法從字詞校對轉(zhuǎn)移到了語法檢測,通過對比英漢文本特點(diǎn),根據(jù)漢語缺乏形態(tài)變化、詞類句法不存在簡單對應(yīng)關(guān)系等規(guī)則,從上下文語法搭配上進(jìn)行考慮,彌補(bǔ)了僅代換相似字詞的不足,利用錯誤規(guī)則模式,對正確語料和錯誤語料進(jìn)行測試,并結(jié)合數(shù)據(jù)統(tǒng)計,能有效調(diào)整規(guī)則的約束范圍,以降低誤報率。

      基于特征的檢測方法,采用Winnow方法進(jìn)行特征學(xué)習(xí),利用上下文特征來選擇目標(biāo)詞混淆集中的詞。該方法主要尋找待校對句子中每個字詞的候選可能性,構(gòu)造字詞候選矩陣,利用語言本身的特征和統(tǒng)計特征,從候選矩陣中選出最佳字詞候選序列,并與原句對照,找出錯誤字詞并提供候選字詞。

      基于Web法,主要用于搜索及檢測未知詞[],用corpus統(tǒng)計詞頻,利用統(tǒng)計值消除歧義,將Web視為龐大且有時效性的語料庫,對未知詞進(jìn)行辨識,在檢測中嵌入搜索引擎,考慮所有符合條件的相鄰詞和嵌入詞,充分結(jié)合了統(tǒng)計和搭配檢測的優(yōu)點(diǎn)。

      此外,有研究者將多種檢測方法結(jié)合起來,目前,已找到了字詞的高頻出錯規(guī)律,針對字詞檢測,已取得突破性進(jìn)展,但針對歧義、語法、語義方面的檢測,準(zhǔn)確率較低。

      (二)糾錯研究

      聚類替換法,將漢語中形、音相似字詞進(jìn)行聚類編碼,形成錯別字對詞典,在文本自動校對過程中輔以上下文語境的統(tǒng)計分析,提示糾正相近的音、形字,自動獲取錯別字對。該方法利用錯別字在字級錯誤中覆蓋率高的出錯特征,查找并糾正高頻出錯對象。它的局限在于沒有充分考慮上下文信息,糾錯建議只限于糾錯字表,對缺字、多字、易位和替換等錯誤類型的糾錯能力較弱。

      建立字詞集的糾錯方法,通過收集常見的易混淆字詞,建立起混淆詞典,在糾錯時先查找此詞典,再判斷待校對字詞是否符合語言規(guī)則。此方法不僅可以用于音形相近字詞的替換,還能解決一部分歧義問題,但算法較復(fù)雜,糾錯對象具有局限性。

      模式匹配法,主要利用相似度匹配原則來對相似的字詞進(jìn)行替換,其原理與替換法相近,但匹配法的核心方法不是建立語料,而是設(shè)計字詞相似度算法,進(jìn)而匹配字詞并提供糾錯答案。該方法可以對長詞進(jìn)行糾錯處理,具有較好的效果,但未能充分分析和利用出錯字串的特征,且計算量較大。

      三、問題分析

      漢語語病自動檢測重字詞研究,輕語法、語義、語用研究,且重查錯,輕糾錯。就字詞檢測而言,對單音節(jié)詞(也叫單字詞)、雙音節(jié)詞、多音節(jié)詞的誤用檢測,召回率和準(zhǔn)確率均低于60%。對此,筆者將從研究視角和思路、檢測方法、漢語本體研究等角度,試析漢語語病自動檢測理論研究的突破點(diǎn)及發(fā)展方向。

      (一)研究視角和思路

      語病自動檢測與人工檢測有很大不同,人工檢測一般按照查錯—糾錯—錯誤類型判定的順序,而自動檢測通常在設(shè)計好檢測類型后,按照指定類型—查錯—糾錯的順序,對待檢測文本進(jìn)行分詞,查找散串,默認(rèn)散串為錯誤類型,再根據(jù)散串提供糾錯參考。這其中,很可能直接略去了對散串正誤情況的判斷及出錯類型判定兩個環(huán)節(jié),所以,要么糾錯率低,要么誤報率高。先判定錯誤類型再做正確形式替換,或者先替換再判定類型,當(dāng)下研究可以先做探討。

      (二)檢測方法

      目前,漢語語病自動檢測研究方法較多,但每種方法針對的對象、檢測思路及算法各有不同,呈現(xiàn)的檢測效果參差不齊。現(xiàn)有研究在借鑒英文、日文文本檢測方法時,未充分結(jié)合漢語漢字的特征設(shè)計檢測方法,故而影響檢測正確率及適用度。有的雖參考了漢語本體研究成果,但未深入分析待校對文本中漢語語病的類型、成因及特征等,以致未能找到合適的切入點(diǎn)。

      此外,對語病自動檢測的重難點(diǎn)分析不足,檢測方法缺乏針對性?,F(xiàn)階段,閥值的設(shè)定方法極少且標(biāo)準(zhǔn)不一,一旦閥值設(shè)定不當(dāng),就會出現(xiàn)誤判情況,進(jìn)而影響召回率和查錯、糾錯的正確率。

      (三)漢語語病本體研究

      就目前而言,語病本體研究還有很多待探究之處。與英語相比,漢語具有很多特性,如,字詞之間沒有明顯的分隔符,字詞之間的組合聚合形式靈活多樣,詞在不同語境下的含義及承擔(dān)的語法功能或有不同,這些都需要一一統(tǒng)計。文本中的漢語語病形成的原因遠(yuǎn)比書寫產(chǎn)生的語病復(fù)雜,錄入方式不同,所形成的語病類型、特征就會有所不同,對此,還應(yīng)該在考察出錯成因的基礎(chǔ)上,有針對地設(shè)計檢測方法。漢語語言事實(shí)復(fù)雜,但現(xiàn)有的語言模型和數(shù)據(jù)語料不足,需要更詳盡地對字、詞、短語、句子內(nèi)部的組合情況進(jìn)行分析和描寫。

      另外,理論研究與應(yīng)用研究脫節(jié),理論研究進(jìn)度較慢,跟不上應(yīng)用研究的步伐,應(yīng)用研究缺少充分的理論指導(dǎo),因而在實(shí)際檢測中與用戶的期望值相差甚大。

      四、研究方向及展望

      通過分析現(xiàn)有研究存在的問題,我們發(fā)現(xiàn)漢語語病自動檢測需要開展大量的研究工作,對此,需要我們在較長一段時間內(nèi)從各方面去一一突破。

      (一)學(xué)科滲透

      隨著大量文本編輯及電子文本檢測數(shù)量的增加,漢語語病自動檢測研究已是當(dāng)前信息化發(fā)展亟待進(jìn)一步解決的難題。此項研究需要深入結(jié)合語言學(xué)、數(shù)學(xué)、計算機(jī)科學(xué)等多門學(xué)科知識,這對研究者來說是一大考驗。不妨先從語言學(xué)角度對漢語漢字進(jìn)行理論分析,梳理漢語漢字的發(fā)展規(guī)律,再結(jié)合數(shù)學(xué)和計算語言學(xué)等學(xué)科知識與技術(shù),設(shè)計檢測方法。

      (二)中外文本對比及檢測方法借鑒

      將漢語與英語進(jìn)行對比,可以幫助我們了解漢語的特點(diǎn),避免大規(guī)模借鑒英語檢測方法帶來的問題,同時也可以幫助我們分析漢語語病自動檢測研究的重點(diǎn)和難點(diǎn)。

      在中文文本中,字詞間沒有分隔符,所以,檢測前需對文本進(jìn)行分詞及標(biāo)注;此外,也沒有非詞錯誤,所以,無需使用單字匹配法;英語以音素、音節(jié)或詞為檢測切入點(diǎn),漢語應(yīng)以字為檢測的基礎(chǔ),所以,用詞法檢測替代單字搭配檢測,會增加查錯的誤報率;英語重語法和拼寫,漢語重語義,所以,漢語檢測重點(diǎn)應(yīng)在語義搭配;英語詞類和句法成分一一對應(yīng),漢語詞類和句法成分關(guān)系復(fù)雜,所以,漢語的詞性搭配檢測只能作為輔助方法。另外,同日文文本對比,中文文本中的錯誤類型及所占比例也有所不同。日語是粘著語,僅從位置上檢測字詞前后粘著情況就能解決大部分問題,而漢語中字、詞、短語和句子之間的組合都非常靈活,語序變換豐富多樣,位置檢測法也不能完全借鑒。

      通過對比,我們可以利用語言之間的共同特征,更合理地改進(jìn)檢測方法,漢語雖沒有非詞錯誤,但錯誤字詞可以以組詞搭配為主,利用漢語中的固定式和長詞優(yōu)勢,匹配檢測出其中的錯誤字詞。此外,馬爾科夫鏈接模型適用于漢語中短距離的字詞搭配、語法搭配、語義搭配檢測。

      (三)充分結(jié)合漢語本體研究

      漢語內(nèi)部各要素間有一定的運(yùn)行特點(diǎn)和規(guī)律,漢語中的字詞彼此之間結(jié)成以線條性為基礎(chǔ)的關(guān)系,又按照一定的規(guī)則一個挨著一個進(jìn)行排列組合。結(jié)合語言學(xué)的研究成果,“字”是漢語的“基本結(jié)構(gòu)單位”。漢語語病檢測,也應(yīng)以字為檢測切入點(diǎn),逐漸成系統(tǒng)地分析詞、短語、單句、復(fù)句等各要素之間的位置、詞性、語義、語用情況,以查出具體出錯類型,可以有效避免因默認(rèn)查錯類型而增加誤判率的情況。

      另外,漢語是語義型語言,不管是字詞檢測,還是詞法、句法檢測,都應(yīng)該離不開語義的研究,字詞義之間實(shí)則有一定的規(guī)律可循。目前,已有學(xué)者對合成詞的兩個字位義進(jìn)行了詳盡考察,分析了漢語字義與詞義之間的關(guān)系。這為我們的研究提供了參考,除了分析漢語字詞義的關(guān)系外,還應(yīng)詳盡考察短語之間、句子之間的語義搭配關(guān)系,并進(jìn)行詳細(xì)描寫。再結(jié)合統(tǒng)計法不斷完善語料,進(jìn)一步統(tǒng)計其余各要素的搭配情況,并設(shè)計語義搭配檢測方法。

      (四)深入分析語病出現(xiàn)的原因及規(guī)律

      文本中,漢語語病產(chǎn)生的原因,通過統(tǒng)計,按制約因素大小及出錯頻率高低依次排列為:按鍵及選擇致誤;圖像文字識別或轉(zhuǎn)換出錯;聯(lián)想及記憶錯誤;表達(dá)或習(xí)慣性出錯;輸入法字庫小;電腦輸入法、機(jī)器翻譯或系統(tǒng)編碼出錯;故意為之;語音錄入時文字轉(zhuǎn)換出錯;因檢測方法設(shè)計不當(dāng),形成誤判情況等。

      結(jié)合成因分析,可對按鍵及選擇出錯規(guī)律進(jìn)行研究,如,使用拼音輸入法時,有可能造成同音錯誤字詞,使用五筆輸入法或手寫輸入法時,常表現(xiàn)為形近字詞錯誤。對于圖像文字識別出錯,可以統(tǒng)計其出錯類型,是誤識較多還是拒識較多,什么情況下會出現(xiàn)亂碼,什么情況下出現(xiàn)近似字詞代換,轉(zhuǎn)換過程是否有效結(jié)合了轉(zhuǎn)換技術(shù)等。對于聯(lián)想、記憶或表達(dá)錯誤,我們可以建立并完善語料庫,提供充足、正確的語料資源,以便使用者查找和及時更正。對于字庫較小、存在編碼錯誤的輸入法,我們可以提出糾錯建議,并呼吁使用正確率高、規(guī)范的輸入法系統(tǒng)。通過對語音錄入出錯類型的分析,可以幫助我們了解出錯的制約因素的高低情況,并有針對性地避免。

      漢語語病自動檢測研究是一個長期的、逐步積累的發(fā)展過程,需要我們投入更多的精力,展開理論研究,為應(yīng)用研究提供參考。同時,我們應(yīng)加快研究的步伐,以應(yīng)對信息化發(fā)展的需求。

      參考文獻(xiàn):

      [1]Frank Keller ,Mirella Lapata? 2003 Using the Web to Obtain Frequencies for Unseen Bigrams .Computational Linguistics 29(3):459-484.

      [2]Karen Kukich 1992 Techniques for automatically correcting words in text.ACM Computing Surveys 24(4):377-438.

      [3]陳笑蓉,汪維家,陸汝占等 2003 《中文文本校對技術(shù)的研究與實(shí)現(xiàn)》,《計算機(jī)科學(xué)》30:53-55.

      [3]池原 悟,白井 諭 1984 単語解析プログラムによる日本文誤字の自動検出と二次マルコフモデルによる訂正候補(bǔ)の抽出. 情報処理學(xué)會論文誌 25:298-305.

      [4]馮金鳳 2011 《中文文本自動查錯研究》,東南大學(xué)碩士論文.

      [5]龔小謹(jǐn),羅振聲等 2003 《中文文本自動校對中的語法錯誤檢查》,《計算機(jī)工程與應(yīng)用》39:98-100.

      [6]荒木 哲郎,池原 悟等 2000 m重マルコフ連鎖モデルを用いた日本語の誤字·脫落·誤挿入誤り文字列の検出と訂正法 .電子情報通信學(xué)會論文誌 6:1516-1528.

      [7]李建華,王曉龍,王平 2001 《多特征的中文文本校對算法的研究》,《計算機(jī)工程與科學(xué)》23:93-96.

      [8]蓮井 洋志,川口 湊等 1996 科學(xué)技術(shù)系論文における付屬語連鎖の統(tǒng)語的,意味的な誤りの検出方法. 情報処理學(xué)會論文誌 37:1928-1940.

      [9]賴育昇 2002 《自然語言處理於網(wǎng)際網(wǎng)路常用問答集檢索之研究》,國立成功大學(xué)博士學(xué)位論文.

      [10]林筱晴 2004 《語料庫統(tǒng)計值與網(wǎng)際網(wǎng)路統(tǒng)計值在自然語言處理上之應(yīng)用:以中文斷詞為例》,臺灣大學(xué)碩士學(xué)位論文.

      [11]劉亮亮,王石,王東升等 2013 《領(lǐng)域問答系統(tǒng)中的文本錯誤自動發(fā)現(xiàn)方法》,《中文信息學(xué)報》3:77-83.

      [12]駱衛(wèi)華,羅振聲等 2003 《中文文本自動校對的語義級查錯研究》,《計算工程與應(yīng)用》12:115-118.

      [13]馬金山,劉挺等 2004 《利用三元模型及依存分析查找中文文本錯誤》,《情報學(xué)報》23:723-728.

      [14]王虹,張仰森 2001 《基于詞二元接續(xù)的中文文本自動查錯研究》,《貴州大學(xué)學(xué)報》18:16-21.

      [15]吳巖,劉挺等 2001 《中文自動查錯與人機(jī)交互糾錯系統(tǒng)的研究與實(shí)現(xiàn)》,《哈爾濱工業(yè)大學(xué)學(xué)報》33:60-64.

      [16]余濤 2003 《漢語語音識別文本的自動糾錯研究》,上海交通大學(xué)碩士學(xué)位論文.

      [17]張仰森,曹元大,俞士汶 2006 《基于規(guī)則與統(tǒng)計相結(jié)合的中文文本自動查錯模型與算法》,《中文信息學(xué)報》4:1-7.

      [18]張仰森,丁冰青 2001 《基于二元接續(xù)關(guān)系檢查的字詞級自動查錯方法》,《中文信息學(xué)報》15:36-52.

      [19]朱磊 2004 《自然語言處理之漢語文本自動校對》,電子科技大學(xué)碩士學(xué)位論文.

      [20]張濤2017 《中文文本自動校對系統(tǒng)設(shè)計與實(shí)現(xiàn)》,西南交通大學(xué)碩士學(xué)位論文.

      [21]王林坪2019 《基于統(tǒng)計特征和規(guī)則聯(lián)合的中文文本校對算法研究》,昆明理工大學(xué)碩士學(xué)位論文.

      [22]卓利艷 2018 《字詞級中文文本自動校對的方法研究》,鄭州大學(xué)碩士學(xué)位論文.

      作者簡介:

      朱麗莉,女,四川文化傳媒職業(yè)學(xué)院,研究方向:語言學(xué)及應(yīng)用語言學(xué)。

      猜你喜歡
      自動檢測研究現(xiàn)狀展望
      基于STM32的室內(nèi)有害氣體自動檢測與排風(fēng)系統(tǒng)
      電子制作(2018年19期)2018-11-14 02:36:50
      光電傳感器在自動檢測和分揀中的應(yīng)用
      電子制作(2018年9期)2018-08-04 03:30:58
      基于TestStand的自動檢測程序開發(fā)
      電子測試(2018年11期)2018-06-26 05:56:16
      K-F環(huán)自動檢測系統(tǒng)設(shè)計
      我國環(huán)境會計研究回顧與展望
      新形勢下公立醫(yī)院成本管理研究現(xiàn)狀與展望
      移動機(jī)器人導(dǎo)航技術(shù)現(xiàn)狀與展望
      國內(nèi)外森林生物量碳儲量估測現(xiàn)狀存在問題及展望
      淺析電力系統(tǒng)諧波及其研究現(xiàn)狀
      國內(nèi)延續(xù)性護(hù)理現(xiàn)狀及展望
      考試周刊(2016年77期)2016-10-09 12:37:53
      石泉县| 江门市| 高雄县| 合作市| 石狮市| 松溪县| 宣汉县| 新乐市| 会东县| 大埔区| 东山县| 田林县| 贡觉县| 澎湖县| 长阳| 灵寿县| 东源县| 开平市| 浦北县| 忻州市| 青铜峡市| 乾安县| 桃江县| 灵石县| 长春市| 大方县| 大化| 南开区| 襄城县| 克什克腾旗| 水城县| 措勤县| 柘荣县| 田阳县| 芜湖市| 曲水县| 石楼县| 赫章县| 阿鲁科尔沁旗| 光泽县| 通城县|