劉爽
關(guān)鍵詞 文本分割 分析 研究熱點(diǎn)
本文以中國知網(wǎng)數(shù)據(jù)庫和Web of Science 核心合集數(shù)據(jù)庫中的期刊數(shù)據(jù)為數(shù)據(jù)來源,用社會(huì)網(wǎng)絡(luò)分析法對(duì)相應(yīng)的知識(shí)圖譜進(jìn)行分析,得出簡(jiǎn)單且直觀的研究結(jié)論。
1研究方法
本文主要使用的研究方法是社會(huì)網(wǎng)絡(luò)分析法以及共詞分析法。主要利用了SATI 和Ucinet 軟件工具, 首先利用文獻(xiàn)題錄信息統(tǒng)計(jì)分析工具SATI[1] 對(duì)文獻(xiàn)的相關(guān)字段信息進(jìn)行處理,生成頻次統(tǒng)計(jì)文檔,提取出樣本數(shù)據(jù)文本詞條,生成共現(xiàn)矩陣。再通過Ucinet[2] 社會(huì)網(wǎng)絡(luò)分析軟件實(shí)現(xiàn)高頻關(guān)鍵詞可視化和高產(chǎn)作者可視化分析,得出相關(guān)研究結(jié)論。
2研究結(jié)果
2.1國內(nèi)作者共現(xiàn)分布分析
使用文獻(xiàn)題錄信息分析工具SATI 對(duì)112 篇文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析,得到14 位作者的合作網(wǎng)絡(luò)圖,14 位作者組成了4 個(gè)團(tuán)隊(duì),其中合作頻率最高的團(tuán)隊(duì)是由石晶、李萬龍、胡明、戴國忠四位作者組成,基于LDA 模型的文本分割以LDA 為語料庫及文本建模,利用MCMC 中的Gibbs 抽樣進(jìn)行推理,間接計(jì)算模型參數(shù),獲取詞匯的概率分布,使隱藏于片段內(nèi)的不同主題與文本表面的字詞建立聯(lián)系[3] 。
第二個(gè)團(tuán)隊(duì)是由卡米力·木依丁、艾斯卡爾·艾木都拉、易曉芳三人組成,主要針對(duì)維吾爾文手寫體文本中行分割問題,基于連通域大小將圖像中文字分為三類,提出了自適應(yīng)涂抹細(xì)化算法,對(duì)主體文本行進(jìn)行定位;并對(duì)第三類連通域中相鄰兩文本行間粘連的字符進(jìn)行切割[4] 。該團(tuán)隊(duì)還研究了現(xiàn)有算法對(duì)于筆畫中含有大量離散筆畫點(diǎn)和附加部分的手寫體文本分割性能較低的問題,并提出一種基于分段式前景涂抹和背景細(xì)化的文本行分割算法[5] 。
第三個(gè)團(tuán)隊(duì)是由宋錦萍、楊曉藝、侯玉華組成,該團(tuán)隊(duì)針對(duì)文本圖像首先提出了一種基于小波域多狀態(tài)隱馬爾科夫樹模型的自適應(yīng)文本圖像分割算法,該算法具有較高的分割質(zhì)量和較低的計(jì)算復(fù)雜度[6] 。
2.2國外作者共現(xiàn)分布分析
利用SATI 軟件對(duì)Web of Science 核心合集中156 篇外文核心期刊數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果表明35 位高產(chǎn)作者組成了6 個(gè)合作團(tuán)隊(duì),他們中合作次數(shù)最多的是由Kumar, Pradeep, Saini,Rajkumar,Roy,Partha Pratim,Dogra,Debi Prosad 組成的團(tuán)隊(duì),該團(tuán)隊(duì)提出了一種通過3D 空氣寫作的人機(jī)交互(HCI)方法[7] 。
第二個(gè)團(tuán)隊(duì)是由Lamprier, Sylvain, Amghar,Tassadit,Saubion,F(xiàn)rederic 等人組成,主要提出了兩種新的分割算法,即ClassStruggle 和SegGen,其使用了標(biāo)準(zhǔn)渲染文本的全局視圖[8] 。
第三個(gè)團(tuán)隊(duì)由Brodic,Darko,Milivojevic,DraganR,Milivojevic,Zoran 等人組成,該團(tuán)隊(duì)提出了基于各向異性高斯核的文本行分割算法,利用研究結(jié)果進(jìn)行了各向異性和定向高斯核算法的比較分析[9] 。
第四個(gè)團(tuán)隊(duì)由Alaei,Alireza,Nagabhushan P,Pal,Umapada 組成,該團(tuán)隊(duì)用52 頁的波斯語文本文件測(cè)試了所提出的算法,其中包含總計(jì)823 行并且實(shí)現(xiàn)了92.35%的正確行分割[10] 。
第五個(gè)團(tuán)隊(duì)由Fragkou P,Petridis V,Kehagias A組成,他們介紹了一種動(dòng)態(tài)規(guī)劃算法,該算法通過全局最小化分段代價(jià)函數(shù)來執(zhí)行線性文本分段,該分段代價(jià)函數(shù)結(jié)合了兩個(gè)因素:段內(nèi)單詞相似度和關(guān)于段長度的先驗(yàn)信息[11] 。
第六個(gè)團(tuán)隊(duì)由Laleye,F(xiàn)rejus A.A,Motamed,Cina,Ezin,Eugene C 組成,他們提出了一種基于樸素貝葉斯和學(xué)習(xí)矢量量化(LVQ)組合的新型分類器,該分類器使用加權(quán)投票來識(shí)別貝寧當(dāng)?shù)卣Z言Fongbe 的輔音和元音[12] 。
2.3社會(huì)網(wǎng)絡(luò)分析
使用Ucinet6 軟件對(duì)共現(xiàn)矩陣中的數(shù)據(jù)進(jìn)行可視化,便于清晰看出關(guān)鍵詞之間的關(guān)系。圖1 顯示,國內(nèi)文本分割主題的文獻(xiàn)研究內(nèi)容中文本分割、LDA 模型法、OCR 是詞頻共現(xiàn)網(wǎng)絡(luò)圖中出現(xiàn)頻率最高的關(guān)鍵詞,也是整個(gè)網(wǎng)絡(luò)共現(xiàn)圖的核心。通過圖1 還可以看出,其他高頻關(guān)鍵詞之間的聯(lián)系較少,這說明國內(nèi)文本分割領(lǐng)域的研究主題在不斷地向外放射狀擴(kuò)展。以同樣的方式得到國外文本分割高頻關(guān)鍵詞共現(xiàn)圖譜,從圖2 可以看出,國外文本分割主題的研究內(nèi)容也是以文本分割為整個(gè)網(wǎng)絡(luò)的中心向外擴(kuò)散。但國外的高頻關(guān)鍵詞圖譜明顯要比國內(nèi)的聯(lián)系緊密,大多數(shù)的關(guān)鍵詞之間都是有聯(lián)系的。
3結(jié)語
本文以可視化形式對(duì)112 篇文本分割中文核心期刊文獻(xiàn)和156 篇文本分割外文期刊文獻(xiàn)的外部特征與內(nèi)容特征進(jìn)行了全面分析,進(jìn)而得出以下結(jié)論:首先,國內(nèi)文本分割研究主要集中于計(jì)算機(jī)科學(xué)領(lǐng)域,在圖書情報(bào)領(lǐng)域出現(xiàn)得并不多。其次,國內(nèi)文本分割研究者的合作群較少,各研究團(tuán)隊(duì)之間聯(lián)系較少,研究團(tuán)隊(duì)體系不成熟。最后,國內(nèi)外文本分割的熱點(diǎn)主題相似,但國外有關(guān)文本分割的研究團(tuán)隊(duì)比國內(nèi)成熟,并且國外有關(guān)文本分割的研究也早于國內(nèi),國內(nèi)學(xué)者對(duì)于文本分割的研究主要集中在計(jì)算機(jī)科學(xué)領(lǐng)域,國內(nèi)圖書情報(bào)領(lǐng)域的學(xué)者需要更多地向國外學(xué)者學(xué)習(xí)。
雖然本文數(shù)據(jù)檢索范圍涉及中國知網(wǎng)和Web ofScience 核心合集兩大數(shù)據(jù)庫,但在實(shí)際分析過程中,本文僅采用了中國知網(wǎng)和Web of Science 核心合集中的期刊數(shù)據(jù)作為樣本,所以本文在研究樣本的選取上存在一定的局限性,但研究結(jié)果展示了國內(nèi)外文本分割的研究現(xiàn)狀與研究熱點(diǎn),對(duì)我國文本分割研究者的研究工作有一定的幫助,能夠?yàn)榻窈蟮难芯抗ぷ魈峁﹨⒖肌?/p>