吳偉豪
(中央民族大學(xué) 100081)
數(shù)學(xué)之美與熵在語言處理中的作用
吳偉豪
(中央民族大學(xué) 100081)
數(shù)學(xué)是解決信息檢索和自然語言處理的最好工具。它能非常清晰地描述這些領(lǐng)域的實(shí)際問題并且給出漂亮的解決辦法。每當(dāng)人們應(yīng)用數(shù)學(xué)工具解決一個(gè)語言問題時(shí),總會(huì)感嘆數(shù)學(xué)之美。簡單的數(shù)學(xué)模型能解決復(fù)雜的語音識(shí)別、機(jī)器翻譯等問題,它把一些復(fù)雜的問題變得如此的簡單。經(jīng)過模型的建立,復(fù)雜的語音識(shí)別問題居然能如此簡單地被表述、解決,我們不得不由衷地感嘆數(shù)學(xué)模型之妙。
數(shù)學(xué)之美 語言處理 熵
展現(xiàn)合理之美的黃金分割,彰顯對(duì)稱和諧之美的二次曲線,體現(xiàn)代數(shù)簡潔之美的各種猜想定理,凸顯優(yōu)雅之美的幾何立體圖形。這些無一不使得這個(gè)世界更加自然或者更為便捷。
不管索引如何復(fù)雜,查找的基本操作仍然是布爾運(yùn)算。布爾運(yùn)算把邏輯和數(shù)學(xué)聯(lián)系起來了。它的最大好處是容易實(shí)現(xiàn),速度快,這對(duì)于海量的信息查找是至關(guān)重要的。它的不足是只能給出是與否的判斷,而不能給出量化的度量。[1]
直到信息熵的出現(xiàn)才解決了對(duì)信息的量化度量問題。一條信息的信息量大小和它的不確定性有直接的關(guān)系。變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。因此,所有搜索引擎在內(nèi)部檢索完畢后,都要對(duì)符合要求的網(wǎng)頁根據(jù)相關(guān)性排序,然后才返回給用戶。
我們?cè)絹碓揭庾R(shí)到了在信息時(shí)代之中,信息對(duì)于我們?nèi)粘I畹挠绊憽o可否認(rèn),我們的生活早已無法離開信息了,方方面面都與之有著密切的聯(lián)系。從馬爾可夫模型在語言處理中的應(yīng)用,到怎么度量信息;從統(tǒng)計(jì)數(shù)據(jù)模型,再到信息論在信息處理中的應(yīng)用;從信息指紋及其應(yīng)用,再到布爾代數(shù)和搜索引擎的索引。[2]
數(shù)學(xué)早已經(jīng)根植在信息領(lǐng)域之中,并且密不可分了。
以現(xiàn)在比較常見的信息與計(jì)算科學(xué)專業(yè)來說,該專業(yè)是以信息領(lǐng)域?yàn)楸尘埃瑪?shù)學(xué)與計(jì)算機(jī)信息管理相結(jié)合的交叉學(xué)科專業(yè)。因此該專業(yè)不僅要求有一部分的計(jì)算機(jī)尤其是編程的素養(yǎng),同時(shí)也對(duì)學(xué)習(xí)者的對(duì)于信息的辨識(shí)處理能力有比較高的要求,這也正是現(xiàn)在這個(gè)時(shí)代的趨勢所向。
對(duì)于數(shù)學(xué)而言,最基礎(chǔ)的是理解,最好的是領(lǐng)悟,最難的是運(yùn)用吧。數(shù)學(xué)作為一門工具性應(yīng)用性極強(qiáng)的學(xué)科,早已發(fā)展數(shù)千年,從結(jié)繩計(jì)數(shù)至今,信息傳播途徑也有翻天覆地的變化。
我們?cè)诿總€(gè)地方都能感覺到信息撲面而來,這種大的趨勢也無法阻擋。既然如此,我們只有提升自己,在以后的生活之中,多注意身邊的事物,弄清楚他們?cè)诟顚哟芜\(yùn)用的是什么,我們能在這些地方用上什么。在之前我也從未想過,甚至在Google搜索引擎方方面面上,數(shù)學(xué)也能被運(yùn)用得如此之多。數(shù)學(xué)之美,美在巧妙運(yùn)用信息,使我們的生活更簡單。
接下來則是數(shù)學(xué)之美中的一個(gè)典型例子,熵在語言處理之中的作用。而究竟什么是語言處理中的“熵”呢?不同于我們?cè)诨瘜W(xué)這門學(xué)科中接觸的熵,化學(xué)中的熵是體系的混亂的程度的定義,形象來說就是混亂度。而我們現(xiàn)在所要講述的則是日趨繁復(fù)的現(xiàn)象,我們稱之為語言的“熵”。為了能夠更好地表情達(dá)意, 人們不斷創(chuàng)造新的語言成分, 語言從簡單粗陋走向豐富精密, 這就是語言處理中的“熵”。
從信息論的角度來看, 用自然語言交際的過程, 就是從語言的發(fā)送者通過通訊媒介傳輸?shù)秸Z言的接收者的過程。當(dāng)接收者一旦接收到語言符號(hào)之后, 這種不確定度便被消除,這時(shí),語言的接收者就從所接收到的語言符號(hào)中獲得了一定量的信息,不確定消除的程度越大,獲得的信息也就越多,獲得的信息就越多。所以說得到的信息量恰好等于被消除的熵,也就可以通過測出語言符號(hào)的熵來了解到該語言符文所負(fù)荷的信息里的多少。
我們發(fā)現(xiàn),熵在語言處理之中不僅可以通過這些特性來描述語言的復(fù)雜程度,還能進(jìn)行漢語消歧,識(shí)別漢語中的人名地名,建立統(tǒng)計(jì)語言模型,對(duì)漢語句子進(jìn)行分析,識(shí)別漢語中的隱喻現(xiàn)象等各項(xiàng)實(shí)用簡便的處理。
我們同時(shí)也了解到,現(xiàn)在運(yùn)用最普遍的方法是建立與已知事實(shí)一致的模型,對(duì)未知因素不作任何假設(shè)的最大熵方法。在1992年,最大熵方法首次被運(yùn)用于自然語言處理。后來于1996年,貝格等人提出了解決條件最大熵方法的兩個(gè)基本任務(wù),特征選擇和模型選擇的基本算法。隨后最大熵模型被運(yùn)用于語言模型,這種語言模型開始可以對(duì)長距離依存關(guān)系進(jìn)行考慮。也因?yàn)檫@種方法可以盡可能地保持均勻分布,更方便地引入有用的特征。令我驚訝的是,單單一個(gè)熵的概念便能引出這么多的應(yīng)用。
聯(lián)系前文,從Google搜索引擎說起。在進(jìn)行搜素引擎開發(fā)時(shí),如何智能地識(shí)別使用者的意思顯得尤為重要。例如,不同的詞可以表達(dá)相同的意思,同一個(gè)詞也可以表達(dá)為多個(gè)意思,對(duì)一個(gè)概念的描述也可以有多個(gè)角度,同一個(gè)詞在不同領(lǐng)域也會(huì)有不同的意思。此時(shí)熵的作用就凸顯了出來,對(duì)用戶所鍵入的語言文字進(jìn)行處理。根據(jù)最大熵方法和信息源的熵,對(duì)鍵入的文字進(jìn)行劃分、識(shí)別、消歧、消除等多項(xiàng)操作進(jìn)行不確定性的消除。當(dāng)然信息檢索也包括去除停止詞、取詞根、詞性標(biāo)注、句法分析、命名實(shí)體識(shí)別、指代消解這些具體層面的自然語言處理方法技術(shù)
信息系統(tǒng)的運(yùn)動(dòng)過程是由無序性、不確定性(高熵值)向有序性、確定性(低熵值)方向發(fā)展的。因此, 信息在系統(tǒng)運(yùn)動(dòng)過程中,可以看作是負(fù)熵, 是消除系統(tǒng)混亂, 從而達(dá)到信息有序的量。信息熵越大, 無序性和不確定性就越大, 包含的信息量也越多, 而信息熵的大小又與隨機(jī)事件發(fā)生的概率成反比。而與信源的熵成反比的冗余度”是對(duì)信息的確定性、有序性和可預(yù)見程度的計(jì)量,信源的熵值越高, 冗余度越小, 反之, 信源熵值越小, 冗余度越大。因此如果冗余度過大,將會(huì)增多不確定性,同時(shí)也會(huì)使得人工智能等接收端出錯(cuò)概率大幅多增加。這同時(shí)也提醒著我們?cè)谌粘I钣绕涫菍?duì)事物進(jìn)行說明時(shí),要減少冗余度,最終達(dá)成熵減的目的。
在語言處理之中,為了得出我們所需要的字段,接收端對(duì)文字進(jìn)行的處理,一步步減少語言文字中的熵,將不確定性消除到最低程度。故此借助最大熵及其改進(jìn)方法進(jìn)行盡可能多的優(yōu)化就顯得尤為必要,對(duì)熵的運(yùn)用也將越來越多。不過,值得一提的是,對(duì)于熵的運(yùn)用還是有待進(jìn)一步從速度性能的層面進(jìn)行提高,當(dāng)今我們?nèi)匀皇芟抻诖?。如果能夠打破這個(gè)束縛,“熵”在語言處理方面也將會(huì)有更為廣泛的應(yīng)用前景。
[1]馬奎香. 數(shù)學(xué)之美[J]. 科技視界,2012,(30):151+153.
[2]李嫦虹. 感受數(shù)學(xué)之美[J]. 衡水學(xué)院學(xué)報(bào),2010,(04):73-75.