張璇 周峰
摘 要:隨著隱馬爾科夫模型相關(guān)理論的進(jìn)步,在許多領(lǐng)域出現(xiàn)了大量的關(guān)于隱馬爾科夫模型應(yīng)用的文獻(xiàn)。為厘清國(guó)內(nèi)外對(duì)隱馬爾科夫模型的研究軌跡,以Web of Science(SCI)中收錄的2005-2014年間關(guān)于隱馬爾科夫模型的應(yīng)用文獻(xiàn)為數(shù)據(jù)源,利用CiteSpace II對(duì)所收集的2826篇研究文獻(xiàn)進(jìn)行可視化分析,使用圖譜的形式展示結(jié)果,客觀全面地分析隱馬爾科夫模型的應(yīng)用領(lǐng)域、研究熱點(diǎn)和發(fā)展趨勢(shì)。同時(shí),探究其主要研究國(guó)家與研究機(jī)構(gòu)的分布情況,期望能對(duì)進(jìn)一步研究和發(fā)展隱馬爾科夫模型提供一定的借鑒作用。
關(guān)鍵詞:CiteSpace II;可視化分析;隱馬爾科夫模型;熱點(diǎn)應(yīng)用領(lǐng)域
中圖分類(lèi)號(hào):F27
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-3198(2015)15-0063-03
1 引言
隱馬爾科夫模型是一種重要的統(tǒng)計(jì)分析模型。其具有雙重隨機(jī)過(guò)程,分別由一條隱藏狀態(tài)的馬爾科夫鏈和描述每個(gè)狀態(tài)對(duì)應(yīng)觀測(cè)值的隨機(jī)過(guò)程組成。近幾十年來(lái),隱馬爾科夫模型被廣泛地應(yīng)用于各領(lǐng)域中,比如語(yǔ)音識(shí)別、生物學(xué)、控制、雷達(dá)故障檢測(cè)和計(jì)算機(jī)視覺(jué)等。隨著大數(shù)據(jù)時(shí)代的到來(lái),互聯(lián)網(wǎng)與金融相互融合,隱馬爾科夫模型在海量金融數(shù)據(jù)中的應(yīng)用也受到了人們的關(guān)注。因此,了解其演進(jìn)情況和發(fā)展趨勢(shì),把握當(dāng)前的應(yīng)用熱點(diǎn),對(duì)深入研究有著重要的意義。
美國(guó)Drexel大學(xué)華人學(xué)者陳超美教授基于JAVA平臺(tái)開(kāi)發(fā)了信息可視化軟件CiteSpace II,通過(guò)對(duì)科學(xué)文獻(xiàn)題錄數(shù)據(jù)的分析與處理,繪制出知識(shí)圖譜能夠顯示一個(gè)學(xué)科或知識(shí)域在一定時(shí)期發(fā)展的趨勢(shì)和動(dòng)向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。目前,關(guān)于隱馬爾科夫模型應(yīng)用進(jìn)展的文獻(xiàn)綜述較少。在這樣的背景下,本文整理和分析了相關(guān)的研究文獻(xiàn),厘清了國(guó)內(nèi)外對(duì)隱馬爾科夫模型應(yīng)用研究的演進(jìn)軌跡。并利用信息可視化分析軟件CiteSpace II對(duì)近十年的研究文獻(xiàn)進(jìn)行了詳細(xì)的分析和處理,用圖像展示了隱馬爾科夫模型的應(yīng)用領(lǐng)域,用圖譜的形式顯示了隱馬爾科夫模型的應(yīng)用熱點(diǎn)和演化趨勢(shì)。最后,探討了隱馬爾科夫模型的主要研究國(guó)家和研究機(jī)構(gòu)。
2 國(guó)內(nèi)外的研究進(jìn)展
Baum和Petrie(1966)提出隱馬爾科夫模型(Hidden Markov Model),他們介紹了該模型的一些統(tǒng)計(jì)性質(zhì),但并未稱(chēng)其為隱馬爾科夫模型,而是馬爾科夫鏈的概率函數(shù)。隱馬爾科夫模型最早應(yīng)用于語(yǔ)言識(shí)別領(lǐng)域中,Raviv(1967)研究了相關(guān)問(wèn)題,并給出馬氏依賴(lài)假設(shè)下的最優(yōu)決策規(guī)則。它主要使用馬爾科夫鏈的狀態(tài)表示語(yǔ)言的字符。接著,他進(jìn)行了一系列的實(shí)驗(yàn),并給出每次實(shí)驗(yàn)識(shí)別系統(tǒng)的字符錯(cuò)誤率。除了自然語(yǔ)言領(lǐng)域,隱馬爾科夫模型也可用來(lái)分析生命現(xiàn)象,Nielsen、Lundegaard和Worning(2003)等人將隱馬爾科夫模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合,預(yù)測(cè)丙型肝炎病毒的基因組中T細(xì)胞表位,以指導(dǎo)疫苗設(shè)計(jì)的過(guò)程。
接下來(lái),總結(jié)一下近五年應(yīng)用隱馬爾科夫模型的情況,主要是介紹一些被引用較多的研究成果。Conn和Cooch(2009)應(yīng)用了隱馬爾科夫模型架構(gòu)下的捕獲-再捕獲模型在疾病研究當(dāng)中。使用馬爾科夫鏈表示未知的疾病狀態(tài),使得參數(shù)估計(jì)精度大大提高了。Reddy、Mun和Burke(2010)等人運(yùn)用隱馬爾科夫模型創(chuàng)造了一個(gè)交通方式識(shí)別系統(tǒng)。通過(guò)手機(jī)數(shù)據(jù)分析使用者所處的狀態(tài),并對(duì)16個(gè)手機(jī)使用者進(jìn)行實(shí)驗(yàn)。Sikorsa、Hodkiewicz和Ma(2011)討論了多種模型在預(yù)測(cè)工業(yè)設(shè)備剩余使用壽命中的應(yīng)用,文中說(shuō)明隱馬爾科夫模型能較好地運(yùn)用于設(shè)備的監(jiān)測(cè)和預(yù)測(cè)中,但是計(jì)算過(guò)程較復(fù)雜。
近幾十年,國(guó)內(nèi)學(xué)者在已有研究成果的基礎(chǔ)上,對(duì)模型進(jìn)行了改進(jìn)并具體說(shuō)明了其在實(shí)際當(dāng)中的應(yīng)用。應(yīng)用領(lǐng)域與國(guó)外類(lèi)似,主要是集中在語(yǔ)音和行為識(shí)別、分子生物、故障診斷、圖像處理和經(jīng)濟(jì)等領(lǐng)域。馬寶山和朱義勝(2008)將隱馬爾科夫模型與前向算法結(jié)合,提出一種新的參數(shù)優(yōu)化算法,大大降低了傳統(tǒng)EM算法的計(jì)算量。仿真結(jié)果表明新算法對(duì)外顯子位置的預(yù)測(cè)是準(zhǔn)確的,能更好地從DNA序列中識(shí)別蛋白質(zhì)編碼區(qū)。隱馬爾科夫模型也常用于入侵檢測(cè)的研究中,模型的雙重隨機(jī)過(guò)程剛好適合描述該網(wǎng)絡(luò)行為。劉宗禮和孔祥才(2007)使用一條馬爾科夫鏈來(lái)描述網(wǎng)絡(luò)中的正常行為和異常狀態(tài),建立了一個(gè)基于隱馬爾科夫模型的入侵檢測(cè)模型。但是現(xiàn)實(shí)系統(tǒng)并不能完全滿(mǎn)足馬爾科夫的條件,閆新娟、譚敏生和嚴(yán)亞周(2012)等人在此基礎(chǔ)上改進(jìn),把隱馬爾科夫模型的輸出作為神經(jīng)網(wǎng)絡(luò)的輸入,神經(jīng)網(wǎng)絡(luò)的輸出即為最終結(jié)果,使用混合的檢測(cè)方法,具有更低的誤報(bào)率和漏報(bào)率。
隱馬爾科夫模型在文字、圖像和行為識(shí)別方面的應(yīng)用,研究文獻(xiàn)已經(jīng)有許多。朱旭東和劉志鏡(2012)將模型運(yùn)用于通過(guò)監(jiān)控視頻識(shí)別人體異常行為,結(jié)合層次建模和時(shí)序建模,聚類(lèi)運(yùn)動(dòng)詞匯為簡(jiǎn)單動(dòng)作,聚類(lèi)簡(jiǎn)單動(dòng)作為全局復(fù)雜行為,彌補(bǔ)過(guò)往方法精度和計(jì)算效率的不足。近年來(lái),隱馬爾科夫模型在經(jīng)濟(jì)、金融等新興領(lǐng)域的應(yīng)用也越來(lái)越多。任曉濤、滕陽(yáng)春和劉達(dá)(2010)使用該模型較好地分析居民消費(fèi)價(jià)格指數(shù)的變動(dòng)規(guī)律,對(duì)我國(guó)宏觀經(jīng)濟(jì)的預(yù)測(cè)有一定的指導(dǎo)意義。黃曉彬、王春峰和房振明(2012)等人對(duì)中國(guó)股市進(jìn)行信息探測(cè),使用貝葉斯和馬爾科夫鏈蒙特卡洛的方法,驗(yàn)證了該模型對(duì)市場(chǎng)信息的識(shí)別能力較強(qiáng)。
3 基于CiteSpace II的可視化分析
3.1 數(shù)據(jù)來(lái)源與處理
本文研究數(shù)據(jù)來(lái)源于Web of Science(SCI),時(shí)間跨度選擇所有年份,檢索關(guān)鍵詞為“the application of hidden markov model”,共計(jì)2826條記錄符合條件。數(shù)據(jù)導(dǎo)出方式選擇“全紀(jì)錄并包含所引用的參考文獻(xiàn)”,數(shù)據(jù)下載日期為2014年10月。
3.2 隱馬爾科夫模型應(yīng)用領(lǐng)域共被引分析
將數(shù)據(jù)導(dǎo)入CiteSpace II中后,設(shè)置時(shí)間范圍為2005-2014年,時(shí)間跨度為1年,設(shè)置N(每個(gè)分區(qū)中提取的被引次數(shù)最高的文獻(xiàn)數(shù))為30,c、cc和ccv(c為最低被引次數(shù),cc為本分區(qū)內(nèi)的共被引次數(shù),ccv為規(guī)范化以后的共被引次數(shù))閾值分別為(4,3,20)、(4,4,20)和(3,4,20),其余的由線性?xún)?nèi)插值來(lái)決定。結(jié)果如表1所示。
該網(wǎng)絡(luò)由327個(gè)節(jié)點(diǎn)、962條連線組成。其中,被引頻次第三多的為Baum、Petrie、Soules和Weiss(1970)發(fā)表的文章,被引頻次為145次,中心度為0.05。他們?yōu)榱斯烙?jì)觀測(cè)值所在狀態(tài)的概率,建立了向前-向后迭代算法。而且建立了參數(shù)極大似然估計(jì)方法,即有效的數(shù)值迭代方法:Expectation—Maximum(簡(jiǎn)稱(chēng)EM)算法。被引頻次第二多的是Dempster、Laird和Rubin(1977)發(fā)表在Journal of the Royal Statistical Society上的文章,引用頻次為183次,中心度為0.06。他們將著名的EM算法應(yīng)用于隱馬爾科夫模型中。被引頻次最多的是Rabiner(1989)發(fā)表的文章,引用頻次為670次,中心度為0.07。文中詳細(xì)地介紹了隱馬爾科夫模型的理論和相應(yīng)的算法,并顯示了其是如何應(yīng)用于語(yǔ)音識(shí)別領(lǐng)域的。
3.3 隱馬爾科夫模型應(yīng)用研究熱點(diǎn)分析
對(duì)共被引網(wǎng)絡(luò)進(jìn)行聚類(lèi),以探測(cè)隱馬爾科夫模型應(yīng)用研究的熱點(diǎn),得到16個(gè)聚類(lèi)。其中,Modularity Q=0.8102,Modularity Q 取值范圍為0到1之間,越接近1,說(shuō)明這個(gè)網(wǎng)絡(luò)越具有模塊性,可以較好地聚類(lèi)。Mean Silhouette=0.6316,取值范圍為-1到1,越接近1,說(shuō)明聚類(lèi)的主題越明確,類(lèi)內(nèi)的文章內(nèi)容越相近。本文聚類(lèi)結(jié)果的Modularity Q 值和Mean Silhouette值說(shuō)明了本次聚類(lèi)是較好的。聚類(lèi)標(biāo)題詞顯示了研究前沿主題,每一個(gè)不規(guī)則多邊形中的文獻(xiàn)為一類(lèi),各聚類(lèi)主要指標(biāo)列表見(jiàn)表2所示。
從表2中可以看到近二十年隱馬爾科夫模型熱點(diǎn)應(yīng)用領(lǐng)域的演進(jìn)情況。1990年研究的熱點(diǎn)是詞性標(biāo)注,1992年研究的熱點(diǎn)則是分子生物中的蛋白質(zhì)結(jié)構(gòu),到了1995年研究的熱點(diǎn)表現(xiàn)為與神經(jīng)網(wǎng)絡(luò)的混合應(yīng)用,1998年則轉(zhuǎn)移到了手紋識(shí)別領(lǐng)域,2000年到2004年的研究熱點(diǎn)主要是關(guān)于隱馬爾科夫模型的算法以及模擬,近幾年并沒(méi)有出現(xiàn)關(guān)于隱馬爾科夫模型新的熱點(diǎn)應(yīng)用領(lǐng)域。繪制隱馬爾科夫模型應(yīng)用研究進(jìn)展時(shí)間圖,如圖1所示。該圖按年代顯示了研究前沿,讀者可以更加清晰地看到每一時(shí)間段內(nèi)的研究熱點(diǎn)以及熱點(diǎn)的演進(jìn)和趨勢(shì)情況。不同年份對(duì)應(yīng)著不同顏色,顏色線段越長(zhǎng)證明被引用的時(shí)間跨度越大,由此可以查找到相應(yīng)年份的關(guān)鍵詞。
3.4 隱馬爾科夫模型應(yīng)用研究國(guó)家和研究機(jī)構(gòu)
為了了解從事隱馬爾科夫模型應(yīng)用研究的國(guó)家和研究機(jī)構(gòu),在運(yùn)行CiteSpace II前,將網(wǎng)絡(luò)節(jié)點(diǎn)設(shè)置為“Country”或“Institution”,就得到有關(guān)國(guó)家和研究機(jī)構(gòu)的分布情況,按照出現(xiàn)的頻次進(jìn)行排序,由于篇幅有限,只列出前10個(gè)國(guó)家和研究機(jī)構(gòu),如表3和表4所示。
從表3中,可以清楚地看到從事隱馬爾科夫模型應(yīng)用研究的國(guó)家分布情況。其中,被引頻次最高的是美國(guó),為612次,說(shuō)明美國(guó)的研究實(shí)力最強(qiáng),居于首位。可以看到我國(guó)在這一領(lǐng)域的研究雖然起步較晚,但是也取得了一定的成果,被引頻次為278次,居于第二位,與美國(guó)還有一定的差距。法國(guó)和英國(guó)分別處于第三和第四位,被引頻次分別為146次和120次。接著處于第五位和第六位的是德國(guó)和加拿大,被引頻次分別為108次和107次,兩國(guó)之間的差距不大。
從表4中可以看出,被引頻次最高的研究機(jī)構(gòu)是美國(guó)的伊利諾伊大學(xué)(Univillinois),為24次。被引頻次第二的是佐治亞理工學(xué)院(Georgia InstTechnol),其是美國(guó)頂尖的理工學(xué)院,為19次。另外,美國(guó)著名的斯坦福大學(xué)(Stanford Univ)和南加州大學(xué)(Univ So Calif)并列第三,為18次,與第二相差不大。排名前四都是美國(guó)的大學(xué),說(shuō)明美國(guó)在從事隱馬爾科夫模型應(yīng)用研究上實(shí)力較強(qiáng)。第五和第六位是我國(guó)的中科院和上海交通大學(xué),若想進(jìn)一步了解隱馬爾科夫模型在中國(guó)的研究進(jìn)展,可以多關(guān)注這兩個(gè)機(jī)構(gòu)所做的研究和發(fā)表的文獻(xiàn)。
4 結(jié)語(yǔ)
在Baum和Petrie提出隱馬爾科夫模型之后,部分國(guó)外學(xué)者開(kāi)始對(duì)隱馬爾科夫模型的理論和算法進(jìn)行研究。國(guó)外較早地將其應(yīng)用于各個(gè)領(lǐng)域當(dāng)中,而國(guó)內(nèi)對(duì)其的研究起步較晚。近年來(lái),還有學(xué)者將隱馬爾科夫模型用于經(jīng)濟(jì)、管理和金融等大數(shù)據(jù)的建模中,但這方面的文章仍然較少,如何從這些新興領(lǐng)域中尋找切入點(diǎn)并進(jìn)行深入地研究是值得我們繼續(xù)探索的。利用可視化軟件CiteSpace II,了解到該模型主要應(yīng)用領(lǐng)域是詞性標(biāo)注、蛋白質(zhì)結(jié)構(gòu)、手紋識(shí)別和人工智能等以及熱點(diǎn)演進(jìn)情況。目前,關(guān)于隱馬爾科夫模型的理論研究及應(yīng)用還在繼續(xù)深入,未來(lái)還需要繼續(xù)跟蹤研究熱點(diǎn)和前沿動(dòng)態(tài),對(duì)最新進(jìn)展進(jìn)行綜述。相信隨著時(shí)代的發(fā)展,隱馬爾科夫模型必將有更廣泛的應(yīng)用。
參考文獻(xiàn)
[1]
Baum L E,Petrie T.Statistical inference for probabilistic functions of finite state Markov chains[J]. The annals of mathematical statistics,1966:1554-1563.
[2]Raviv J.Decision making in Markov chains applied to the problem of pattern recognition[J]. IEEE Trans.Inform.Theory,1967,13(4):536-551.
[3]Nielsen M,Lundegaard C,Worning P,et al.Reliable prediction of T-cell epitopes using neural networks with novel sequence representations[J].Protein Science,2003,12(5):1007-1017.
[4]Conn P B,Cooch E G.Multistate capture-recapture analysis under imperfect state observation: an application to disease models[J]. Journal of Applied Ecology,2009,46(2):486-492.
[5]Reddy S,Mun M,Burke J,et al.Using mobile phones to determine transportation modes[J].ACM Transactions on Sensor Networks(TOSN),2010,6(2):13.
[6]Sikorska J Z,Hodkiewicz M, Ma L. Prognostic modelling options for remaining useful life estimation by industry[J].Mechanical Systems and Signal Processing,2011,25(5):1803-1836.
[7]馬寶山,朱義勝.基于隱馬爾科夫模型的基因預(yù)測(cè)算法[J].大連海事大學(xué)學(xué)報(bào):自然科學(xué)版,2009,34(4):41-44.
[8]劉宗禮,孔祥才.基于隱馬爾科夫模型的入侵檢測(cè)算法研究[J].甘肅科技,2007,(4):31.
[9]閆新娟,譚敏生,嚴(yán)亞周等.基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡(luò)的入侵檢測(cè)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):294-297.
[10]朱旭東,劉志鏡.基于主題隱馬爾科夫模型的人體異常行為識(shí)別[J].計(jì)算機(jī)科學(xué),2012,39(3):251-255.
[11]任曉濤,滕陽(yáng)春,劉達(dá).基于隱馬爾科夫的居民消費(fèi)價(jià)格指數(shù)預(yù)測(cè)[J].現(xiàn)代商業(yè),2010(3):218-219.
[12]黃曉彬,王春峰,房振明等.基于隱馬爾科夫模型的中國(guó)股票信息探測(cè)[J].系統(tǒng)工程理論與實(shí)踐,2012,32(4):713-720.
[13]陳超美,陳悅,侯劍華等.CiteSpaceII:科學(xué)文獻(xiàn)中新趨勢(shì)與新動(dòng)態(tài)的識(shí)別與可視化[J].情報(bào)學(xué)報(bào),2009(3):401-421.