• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      漢字識別技術(shù)的研究進(jìn)展分析

      2022-05-06 13:18:18李陽娟
      科技和產(chǎn)業(yè) 2022年4期
      關(guān)鍵詞:手寫聚類漢字

      李陽娟

      (莆田學(xué)院 工程實訓(xùn)中心, 福建 莆田 351100)

      光學(xué)字符識別(OCR)技術(shù)指對圖像中的文字進(jìn)行檢測并識別出文字內(nèi)容。OCR是人工智能和計算機視覺領(lǐng)域的熱點研究方向。2020年4月,國家發(fā)改委明確將人工智能等新技術(shù)基礎(chǔ)設(shè)施列入“新基建”范圍,從政策布局上加速了人工智能產(chǎn)業(yè)的不斷成熟。隨著人工智能的飛速發(fā)展以及中文漢字的廣泛使用,漢字識別技術(shù)有著重要的研究價值和社會意義,在金融、政府、醫(yī)療和教育等多個領(lǐng)域有極其廣闊的應(yīng)用前景,如車牌識別、機器翻譯、卡證票據(jù)識別和無人駕駛系統(tǒng)等[1-5]。

      由于漢字本身字符量多、字形結(jié)構(gòu)復(fù)雜且有較多的相似字等特點,漢字識別的研究仍存在著許多的困難與不足之處[6]。因此,充分了解近年來漢字識別領(lǐng)域的研究現(xiàn)狀及發(fā)展趨勢對相關(guān)領(lǐng)域的研究者有一定的參考價值。本文以2001—2021年Web of Science(WOS)數(shù)據(jù)庫中漢字識別的文獻(xiàn)數(shù)據(jù)作為研究對象,利用文本可視化軟件CiteSpace[7]繪制知識圖譜并對文獻(xiàn)內(nèi)容進(jìn)行分析,從量化視角挖掘漢字識別領(lǐng)域近幾年的研究現(xiàn)狀、熱點和研究前沿,為漢字識別的研究與發(fā)展提供參考。

      1 數(shù)據(jù)來源及研究方法

      選取WOS核心數(shù)據(jù)庫中2001—2021年漢字識別領(lǐng)域的相關(guān)文獻(xiàn)作為文獻(xiàn)數(shù)據(jù)來源,采用的檢索式為TS=(Chinese character recognition OR Chinese text recognition) AND SU=(Computer),文獻(xiàn)類型為Article或Review或 Proceedings Paper,排除掉非計算機視覺領(lǐng)域的研究內(nèi)容后獲得1 119篇文獻(xiàn),檢索時間為2021年9月20日。CVPR、ICCV和ECCV這3個權(quán)威的計算機視覺領(lǐng)域的國際會議收錄了該領(lǐng)域最新且重大的研究成果,因此會議論文也是文獻(xiàn)數(shù)據(jù)的重要來源。

      CiteSpace軟件主要基于共引分析理論,可以繪制和可視化科學(xué)知識領(lǐng)域的知識結(jié)構(gòu),探尋學(xué)科領(lǐng)域演化關(guān)鍵路徑及知識轉(zhuǎn)折點[8]。本文利用CiteSpace 5.8.R1對采集到的文獻(xiàn)數(shù)據(jù)進(jìn)行文獻(xiàn)計量分析,并對機構(gòu)與作者、關(guān)鍵詞和共被引文獻(xiàn)進(jìn)行可視化知識圖譜分析,以全面深入地掌握漢字識別領(lǐng)域的研究進(jìn)展情況與前沿發(fā)展趨勢。

      2 漢字識別領(lǐng)域的發(fā)文趨勢及研究力量分析

      2.1 發(fā)文趨勢分析

      對2001—2021年漢字識別領(lǐng)域的發(fā)文情況進(jìn)行統(tǒng)計分析,如圖1所示。漢字識別領(lǐng)域在這些年的發(fā)展過程中出現(xiàn)了兩個明顯的增長高峰。第一個高峰出現(xiàn)在2008年,文獻(xiàn)數(shù)量在2008年以前緩慢增長,之后呈現(xiàn)下降趨勢。第二個增長高峰在2017年,文獻(xiàn)數(shù)量從2012年急速增長直到2017年,之后維持在較高的水平。通過文獻(xiàn)調(diào)研可知其主要原因:第一個增長時期是由于智能手機等設(shè)備的流行,漢字識別領(lǐng)域迎來了應(yīng)用高潮;第二個增長時期則由于卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展帶來了技術(shù)的革新,在漢字識別領(lǐng)域引發(fā)了一輪新的發(fā)展熱潮。

      圖1 漢字識別研究領(lǐng)域的發(fā)文趨勢

      2.2 研究力量分析

      對研究機構(gòu)及作者的發(fā)文情況和合作關(guān)系進(jìn)行分析,可以得到漢字識別的研究力量分布,有助于發(fā)現(xiàn)研究漢字識別的權(quán)威機構(gòu)及有影響力的作者。從漢字識別研究領(lǐng)域的國家或地區(qū)的貢獻(xiàn)來看,使用漢字的國家或地區(qū)成為漢字識別領(lǐng)域的研究主力,如圖1所示,中國發(fā)表的論文數(shù)量占總論文的75%以上,在漢字識別研究領(lǐng)域起主導(dǎo)作用。

      表1列出了發(fā)文量前10位的研究機構(gòu),這些機構(gòu)共發(fā)文398篇,占全部文獻(xiàn)量的32%,說明了漢字識別領(lǐng)域的研究力量比較集中,絕大多數(shù)是中國的高校和研究所。中國是漢字使用大國,同時也是漢字識別研究的核心力量。中國科學(xué)院以127篇的發(fā)文量位居榜首,明顯高于其他研究機構(gòu),清華大學(xué)和華南理工大學(xué)緊隨其后,這3所院校及研究機構(gòu)是當(dāng)前漢字識別研究領(lǐng)域的重要基地。利用CiteSpace軟件繪制各個機構(gòu)間的合作網(wǎng)絡(luò)圖譜,如圖2所示。圖中每個節(jié)點代表著相對應(yīng)的機構(gòu),節(jié)點越大表示發(fā)文量越多,節(jié)點間的連線代表機構(gòu)間的合作關(guān)系,連線的粗細(xì)與合作次數(shù)成正比。圖中有3個明顯的大的節(jié)點:中國科學(xué)院、清華大學(xué)和華南理工大學(xué),與統(tǒng)計結(jié)果相符。中介中心性是衡量節(jié)點在網(wǎng)絡(luò)中重要性的一個指標(biāo),數(shù)值越大表明節(jié)點在網(wǎng)絡(luò)中越重要[9]。在圖2中,中國科學(xué)院的中介中心性的數(shù)值達(dá)到0.15,且節(jié)點處有圓圈標(biāo)識,說明了該節(jié)點在圖譜中的重要性高,與其他機構(gòu)有著較強的合作關(guān)系。

      作者合作圖譜顯示了漢字識別研究領(lǐng)域所有作者的發(fā)文數(shù)量與合作關(guān)系。在CiteSpace軟件中繪制作者合作網(wǎng)絡(luò)圖譜,如圖3所示。圖中有3個較大的節(jié)點:劉成林(CHENGLIN LIU)、金連文(LIANWEN JIN)和丁曉青(XIAOQING DING),節(jié)點越大表明發(fā)文量越多。圍繞這3個高產(chǎn)的核心作者形成了3個較大的作者合作網(wǎng)絡(luò)群,分別是中科院的劉成林教授團隊、華南理工大學(xué)的金連文教授團隊和清華大學(xué)的丁曉青教授團隊。劉成林教授團隊主要研究文檔圖像分析、模式識別與機器學(xué)習(xí),該團隊發(fā)布了大型手寫漢字?jǐn)?shù)據(jù)庫CASIA-OLHWDB 和CASIA-HWDB,包含了孤立的手寫字符和連續(xù)的文本,可用于各種手寫文檔分析任務(wù)的研究,促進(jìn)了漢字識別領(lǐng)域的學(xué)術(shù)研究和技術(shù)研發(fā)[10]。金連文教授團隊主要的研究方向為基于深度學(xué)習(xí)的文檔圖像分析與理解,所研發(fā)的聯(lián)機手寫識別技術(shù)已在搜狗等知名公司獲得了規(guī)模化應(yīng)用。丁曉青教授團隊主要研究智能圖文信息處理與圖像分析,創(chuàng)造性地將信息熵理論引入模式識別,從而解決漢字識別的眾多問題,形成的TH-OCR系列文字識別軟件產(chǎn)品廣泛應(yīng)用于國內(nèi)外多家知名公司。這些研究團隊的合作關(guān)系顯著、取得成果較多且研究力量較強。還有一些其他的作者合作網(wǎng)絡(luò),但是發(fā)文量較少,形成的合作網(wǎng)絡(luò)較小。從作者合作網(wǎng)絡(luò)圖譜的整體上看,有較強合作關(guān)系的作者發(fā)文量較多。

      表1 發(fā)文量前10位的研究機構(gòu)

      圖2 研究機構(gòu)合作網(wǎng)絡(luò)圖譜

      圖3 作者合作網(wǎng)絡(luò)圖譜

      3 漢字識別領(lǐng)域的關(guān)鍵詞分析

      關(guān)鍵詞是對文章主題內(nèi)容的精煉和概況,文獻(xiàn)數(shù)據(jù)中的關(guān)鍵詞出現(xiàn)的頻次越高,說明該主題的研究熱度越高。引入CiteSpace軟件進(jìn)行關(guān)鍵詞共現(xiàn)知識圖譜分析,如圖4所示。圖4中頻次越高的關(guān)鍵詞節(jié)點半徑越大,研究熱度也越高,節(jié)點間的連線代表了各關(guān)鍵詞間的關(guān)聯(lián)強度。圖中最大的幾個節(jié)點為識別、字符識別、特征提取、聯(lián)機和分割。

      圖4 關(guān)鍵詞共現(xiàn)圖譜

      表2列出了關(guān)鍵詞頻次前20位的高頻關(guān)鍵詞??梢钥闯龃蟛糠值母哳l關(guān)鍵詞在2003年之前出現(xiàn),如:特征提取、字符分割、字符識別、光學(xué)字符識別(OCR)、手寫漢字識別、模式識別等。此階段的研究重點在利用模式識別的模型算法來進(jìn)行漢字識別及手寫漢字識別。2005年新增高頻關(guān)鍵詞:聯(lián)機。2009年新增高頻詞:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、手寫識別。2015年新增高頻詞:深度學(xué)習(xí)。這些高頻關(guān)鍵詞及其出現(xiàn)時間反映了漢字識別領(lǐng)域的熱點演變趨勢。將高頻關(guān)鍵詞所涉及的研究熱點總結(jié)為以下3點:基于傳統(tǒng)方法的OCR技術(shù)、基于深度學(xué)習(xí)的OCR技術(shù)和手寫漢字識別。

      1)基于傳統(tǒng)方法的OCR技術(shù)。漢字識別是模式識別的一個重要的研究領(lǐng)域。漢字識別通常采用傳統(tǒng)的OCR技術(shù)流程:先預(yù)處理目標(biāo)圖片,再對文字區(qū)域進(jìn)行字符切分,對單字符進(jìn)行特征提取,最后利用分類器分類并識別出文字。其中特征提取和分類識別是漢字識別中的重點和難點。Liu等[11]利用傳統(tǒng)的統(tǒng)計模式識別方法進(jìn)行單字符手寫漢字識別,在聯(lián)機手寫數(shù)據(jù)庫OLHWDB和脫機手寫數(shù)據(jù)庫HWDB上獲得最高的準(zhǔn)確率為93.95%和90.71%。傳統(tǒng)的OCR技術(shù)在單字符的漢字識別中識別精度較高,但對于復(fù)雜背景等情況的文字識別精度較低。

      2)基于深度學(xué)習(xí)的OCR技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是典型的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。深度學(xué)習(xí)以神經(jīng)網(wǎng)絡(luò)為主要模型,無須手動提取特征,由神經(jīng)網(wǎng)絡(luò)自動提取特征并識別出結(jié)果。在2012年的ImageNet圖像識別大賽上,Krizhevsky等[12]設(shè)計了深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet,并以較大的優(yōu)勢贏得了冠軍。自此以后,CNN網(wǎng)絡(luò)發(fā)展非常迅速,相繼產(chǎn)生了許多著名的網(wǎng)絡(luò)框架,如VGGNet[13]、GoogleNet[14]和ResNet[15]等,卷積神經(jīng)網(wǎng)絡(luò)在圖像識別領(lǐng)域獲得了巨大成功。借鑒和采用深度學(xué)習(xí)的漢字識別技術(shù)省略了人工的特征提取過程,簡化了傳統(tǒng)OCR技術(shù)的流程,在識別精度上有了質(zhì)的飛躍。在2013年ICDAR舉辦的漢字識別競賽中,基于卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機手寫識別和脫機手寫識別的準(zhǔn)確率分別達(dá)到了97.39%和94.77%,超過了采用統(tǒng)計模式識別的方法[16]。目前,基于深度學(xué)習(xí)的漢字識別技術(shù)已成為漢字識別領(lǐng)域的主流技術(shù)[17-19]。

      3)手寫漢字識別(HCCR)。由于漢字的類別繁多、相似字多且書寫風(fēng)格隨意等特點,手寫漢字識別的難度很大,所以一直是漢字識別研究領(lǐng)域的熱點問題[20]。手寫字體識別有聯(lián)機(online)和脫機(offline)兩種方式。聯(lián)機手寫漢字是在智能手機等電子設(shè)備上人工書寫而成,書寫過程中能夠即時獲得筆畫軌跡特征,使得漢字更易被識別。而脫機手寫漢字識別處理的是經(jīng)掃描儀或攝像頭等設(shè)備采集到的圖片,由于沒有筆畫筆順等信息,而且圖片中的文字背景或分辨率等存在著一定的噪聲干擾,脫機手寫漢字識別比聯(lián)機手寫漢字識別更具有挑戰(zhàn)性。

      表2 頻次前20的高頻關(guān)鍵詞列表

      4 漢字識別領(lǐng)域的引文分析

      4.1 主題演進(jìn)分析

      利用CiteSpace軟件進(jìn)行共被引文獻(xiàn)分析,將共被引文獻(xiàn)按照研究方向進(jìn)行聚類,聚類的主題反映了研究前沿的領(lǐng)域[21]??萍及l(fā)展日新月異,及時地識別研究領(lǐng)域的前沿有助于推動該領(lǐng)域的研究發(fā)展。在CiteSpace中進(jìn)行共被引文獻(xiàn)分析,通過LLR算法提取聚類主題,生成共被引時間線圖譜,如圖5所示,共生成了19個聚類。時間線圖譜展現(xiàn)了漢字識別領(lǐng)域隨著時間推移而不斷演進(jìn)的研究前沿動態(tài)。圖5中,節(jié)點越大表示文獻(xiàn)被引用的頻率越高。通過聚類文獻(xiàn)的時間跨度來探究研究領(lǐng)域的興起、繁榮和衰落過程。有些研究領(lǐng)域短暫興起后淡出,而有些研究領(lǐng)域順應(yīng)時代發(fā)展而被學(xué)者重視,開展深入研究并創(chuàng)造出許多高影響力的成果。為了更加直觀地分析前沿主題的演進(jìn)過程,將各聚類名稱及時間跨度羅列在表3。結(jié)合時間線圖譜分析,可將漢字識別研究的主題演化按照起始時間大致劃分為早期、中期和近期3個研究階段。

      1)早期階段。聚類#1、#9、#10、#11、#14、#16、#17、#19這8個聚類是早期的研究主題,它們是從2000年之前延續(xù)或剛興起的研究主題,其中只有聚類#1修正二次判別函數(shù)(MQDF)受到的關(guān)注最多,熱度持續(xù)時間最長,直到2013年結(jié)束。其他聚類的文獻(xiàn)引用頻次不高,影響力不足。在此階段中,通常采用傳統(tǒng)的OCR技術(shù),它有一個成熟的技術(shù)流程:圖像預(yù)處理、特征提取和分類識別。常用的分類方法有掩模匹配法、支持向量機、MQDF等[22-25]。傳統(tǒng)的OCR技術(shù)在單字符的漢字識別中識別精度較高,但對文本行識別或復(fù)雜背景文字等情況的識別精度較低,且難以取得突破性進(jìn)展。

      圖5 共被引文獻(xiàn)時間線圖譜

      2)中期階段。聚類#5、#6、#7、#12、#18這5個聚類主題在2006年附近開始逐漸受人關(guān)注,其中聚類#6聯(lián)機、聚類#7字符串識別這2個聚類的高被引文獻(xiàn)較多,關(guān)注度較高。在此期間隨著智能手機的流行,基于智能設(shè)備的聯(lián)機手寫漢字識別迎來了應(yīng)用高潮,不斷產(chǎn)生新的應(yīng)用和技術(shù)需求。OCR技術(shù)從單字符的識別轉(zhuǎn)變?yōu)樽址拔谋拘械淖R別,通過利用文本行的序列信息,提升識別效果[26-28]。

      表3 共被引聚類的時間跨度

      3)近期階段。聚類#0、#2、#3、#4、#8、#13這6個聚類主題在2010年后開始出現(xiàn)且研究熱度持續(xù)到近幾年,這些主題有較多的高被引文獻(xiàn),影響力高[29-31]。因此,這幾個聚類主題是需要重點關(guān)注的研究前沿領(lǐng)域。在此期間,漢字識別技術(shù)出現(xiàn)重大變革,由傳統(tǒng)方法的OCR技術(shù)識別轉(zhuǎn)變成基于深度學(xué)習(xí)的OCR技術(shù)。隨著深度學(xué)習(xí)的不斷發(fā)展以及計算設(shè)備能力的不斷提升,基于深度學(xué)習(xí)的漢字識別取得極大進(jìn)展。在應(yīng)用上向社會生產(chǎn)生活各領(lǐng)域滲透,產(chǎn)生的應(yīng)用領(lǐng)域有脫機手寫漢字識別、空中手寫漢字識別、特定場景文本識別及自然場景文本識別等。

      4.2 研究前沿分析

      如果一篇論文的引用頻次突然呈現(xiàn)急速增長,表明該研究領(lǐng)域受人關(guān)注或具備里程碑意義,也代表了該研究領(lǐng)域的前沿。CiteSpace具備探測引文突現(xiàn)功能,在共被引分析的基礎(chǔ)上,通過“Burstness”進(jìn)行突變率檢測,得到漢字識別領(lǐng)域引用頻次激增的參考文獻(xiàn)[32]。為了探測近期的研究前沿,應(yīng)重點關(guān)注引文突現(xiàn)時間持續(xù)到最近的文獻(xiàn),共有7篇文獻(xiàn),詳見表4。這些文獻(xiàn)分布在聚類#0手寫漢字識別、#3生成對抗網(wǎng)絡(luò)、#4混合語言模型和#8場景文本識別這4個聚類中,說明這4個聚類主題是近期的研究熱點及前沿,將這4個聚類的詳細(xì)信息羅列在表5。

      聚類#0手寫漢字識別是漢字識別研究領(lǐng)域開展最早且發(fā)展時間最長的研究主題。聚類中突變率最高的文獻(xiàn)是2015年發(fā)表在Nature上的深度學(xué)習(xí)綜述[33],介紹了各種深度學(xué)習(xí)的模型及發(fā)展現(xiàn)狀,包含CNN、DBN和RNN等。其中,CNN在處理圖像、視頻、語音等方面帶來了突破性的進(jìn)展,而RNN則在文本和語音等順序數(shù)據(jù)方面大放異彩。在以CNN為代表的深度學(xué)習(xí)技術(shù)的協(xié)助下,手寫漢字識別能力大步提升。

      聚類#4混合語言模型,該聚類中還包含空中書寫、GoogLeNet、cnn壓縮、手寫體中文文本識別等研究內(nèi)容,與聚類#0的研究內(nèi)容存在交集。聚類#4中含有4篇突發(fā)文獻(xiàn),說明了該聚類是關(guān)注度較高的研究前沿。突變率最高的文獻(xiàn)是微軟研究院的He等[15]于2016年發(fā)表的關(guān)于ResNet網(wǎng)絡(luò)模型的設(shè)計及應(yīng)用,該模型通過增加相當(dāng)?shù)纳疃葋硖岣咦R別準(zhǔn)確率,且能夠有效降低深層CNN模型的梯度消失問題。華南理工大學(xué)研究團隊[34]和中科院研究團隊[35]都利用了傳統(tǒng)的特征提取方法與神經(jīng)網(wǎng)絡(luò)相結(jié)合的混合語言模型來提高手寫漢字識別性能。由于深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程既耗時又非常消耗計算機資源,使得它們無法在便攜式設(shè)備中部署。Xiao等[36]設(shè)計了一種降低計算成本的算法和9層CNN模型用于脫機手寫漢字識別,在保證識別精度的前提下大大提高了計算速度。

      聚類#3生成對抗網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,包含生成模型和判別模型,兩者之間互相對抗學(xué)習(xí)以提升模型精度[37]。該聚類還包含了人工智能、輸入自然圖像、密集卷積網(wǎng)絡(luò)等研究內(nèi)容。與聚類#8場景文本識別的研究內(nèi)容有部分重疊。聚類#3中的突現(xiàn)論文介紹了一種漢字生成的方法,該文利用RNN模型實現(xiàn)了一個富有挑戰(zhàn)性的任務(wù),即教會機器自動書寫漢字[38]。

      聚類#8場景文本識別,不同于發(fā)展地比較成熟的特定場景的OCR技術(shù),自然場景中的文字具有字體多變、排列不一且文字背景復(fù)雜等特點,一直都是漢字識別研究領(lǐng)域的難點[39]。聚類#8中的突現(xiàn)論文突變率排在第2名,高達(dá)12.37,表明了該研究主題的關(guān)注度越來越高。該文提出了一種端到端的CRNN網(wǎng)絡(luò),將檢測和識別過程在同一個網(wǎng)絡(luò)框架中進(jìn)行,實現(xiàn)了基礎(chǔ)特征的共享,既能夠減少重復(fù)計算又能提高特征質(zhì)量,實現(xiàn)了自然場景文字的高效識別[40]。

      綜上所述,通過引文的突現(xiàn)探測,得到了7篇近期的突現(xiàn)文獻(xiàn),這些文獻(xiàn)的關(guān)注度激增,反映了漢字識別領(lǐng)域的研究前沿。這些文獻(xiàn)所涉及的研究內(nèi)容有深度學(xué)習(xí)、深度殘差網(wǎng)絡(luò)、傳統(tǒng)方法與深度學(xué)習(xí)相結(jié)合的混合模型、CNN加速與壓縮、漢字生成、端到端OCR模型、手寫漢字識別與場景文本識別。歸屬于以下4個前沿聚類主題:手寫漢字識別、混合語言模型、生成對抗網(wǎng)絡(luò)和場景文本識別。

      表4 基于引文突現(xiàn)的前沿分析

      表5 研究前沿的聚類信息

      5 結(jié)論

      將WOS核心合集數(shù)據(jù)庫中的漢字識別領(lǐng)域的相關(guān)文獻(xiàn)作為數(shù)據(jù)來源,對2001—2021年的發(fā)文趨勢、研究力量、熱點關(guān)鍵詞和引用文獻(xiàn)進(jìn)行分析和可視化,從量化的角度總結(jié)了漢字識別領(lǐng)域的研究現(xiàn)狀、研究熱點和研究前沿。綜合上述研究,可得到如下結(jié)論:

      1)漢字識別領(lǐng)域在2001—2021年的發(fā)展歷程中出現(xiàn)了兩個明顯的增長高峰:2008年和2017年。中國發(fā)表的論文數(shù)量占總論文的75%以上,在漢字識別研究領(lǐng)域起主導(dǎo)作用。對研究力量的分布進(jìn)行分析,中科院的劉成林團隊、華南理工大學(xué)的金連文團隊和清華大學(xué)的丁曉青團隊在漢字識別研究領(lǐng)域取得的成果較豐碩,團隊的合作關(guān)系顯著。結(jié)果顯示有較強合作關(guān)系的作者發(fā)文量較多。為了促進(jìn)漢字識別研究領(lǐng)域的發(fā)展,應(yīng)加強研究機構(gòu)之間或者研究者間的合作交流,資源共享及共同進(jìn)步。

      2)高頻關(guān)鍵詞反映了漢字識別領(lǐng)域主要的研究熱點:漢字識別技術(shù)和手寫漢字識別。漢字識別技術(shù)由傳統(tǒng)的OCR識別技術(shù)轉(zhuǎn)變?yōu)榛谏疃葘W(xué)習(xí)的識別,并成為了近幾年重要的研究熱點。

      3)基于共被引聚類時間圖譜的分析,得到漢字識別領(lǐng)域的前沿主題演化趨勢:由早期基于傳統(tǒng)方法的OCR技術(shù)研究演化為中期的聯(lián)機手寫漢字識別與文本行識別,再到近期基于深度學(xué)習(xí)的漢字識別研究。

      4)對近期的引文突現(xiàn)進(jìn)行分析得知,研究前沿的主題為手寫漢字識別、混合語言模型、生成對抗網(wǎng)絡(luò)和場景文本識別。

      隨著深度學(xué)習(xí)技術(shù)在OCR領(lǐng)域的應(yīng)用,漢字識別的性能得到了顯著的提升,OCR技術(shù)將朝著高效率、智能及一體化發(fā)展。漢字識別的應(yīng)用范圍從簡單的印刷體識別,逐步演進(jìn)到手寫文本識別與自然場景文本識別等復(fù)雜情形。

      猜你喜歡
      手寫聚類漢字
      手寫比敲鍵盤更有助于學(xué)習(xí)和記憶
      我手寫我心
      抓住身邊事吾手寫吾心
      基于集成學(xué)習(xí)的MINIST手寫數(shù)字識別
      電子制作(2018年18期)2018-11-14 01:48:08
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      漢字這樣記
      漢字這樣記
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      新兴县| 昌黎县| 昆明市| 莒南县| 汽车| 舞钢市| 曲沃县| 阳信县| 城固县| 昌图县| 大悟县| 定西市| 临夏县| 平顺县| 汝阳县| 阜平县| 邵武市| 资溪县| 渑池县| 原平市| 青岛市| 北安市| 连南| 迁安市| 武城县| 汉寿县| 陆良县| 渭南市| 改则县| 礼泉县| 江津市| 当阳市| 高安市| 塘沽区| 黄龙县| 武宣县| 万安县| 当雄县| 光山县| 东阿县| 乳山市|