張 汶
以信息論的視角理解信息科技課程的核心概念
張 汶
追溯信息科技課程的核心概念在創(chuàng)立之初的科學(xué)定義和論證,是理解這些概念的一把鑰匙?;谛畔⒄撨@一視角有助于超越具體的日常應(yīng)用,從而深刻理解核心概念背后的科學(xué)原理。本文從信息論的三個定理和一個概念出發(fā),闡述香農(nóng)信息論對理解信息科技課程核心概念的現(xiàn)實(shí)意義。
信息論 信息科技 信息編碼 信息壓縮
回首3個世紀(jì)前,牛頓給一些意義模糊的詞(如力、質(zhì)量、運(yùn)動等)賦予新的含義,將這些術(shù)語加以量化,以便能夠放在數(shù)學(xué)方程中使用,由此開啟了物理學(xué)的新時代。到了19世紀(jì),“能(energy)”一詞也開始經(jīng)歷相似的轉(zhuǎn)變過程,物理學(xué)家將這個用來表示強(qiáng)度的詞,使之?dāng)?shù)學(xué)化,而賦予了它在物理中的基礎(chǔ)地位?!靶畔ⅰ边@個詞也一樣,它也需要一次數(shù)學(xué)化的提煉,正是香農(nóng)的信息論完成了這個極為重要的論證,在信息與不確定性、信息與熵,以及信息與混沌之間架起了橋梁,并最終為信息技術(shù)的發(fā)展奠定了堅實(shí)的基礎(chǔ),對計算機(jī)和網(wǎng)絡(luò)的發(fā)展具有重要的指導(dǎo)意義。
信息論的提出是一個劃時代的進(jìn)步,但是信息論是一個有多重含義的學(xué)術(shù)用語,本文所指的信息論指“狹義信息論”,也即以香農(nóng)為代表的科學(xué)家創(chuàng)立的信息論。香農(nóng)信息論的核心內(nèi)容可以概括為一個概念和三個定理,也就是信息熵的概念和三個編碼定理。
對“信息”這一個既抽象又復(fù)雜的概念,有不下幾十種定義,但是直到香農(nóng)提出“信息的實(shí)質(zhì)是消除隨機(jī)不確定性”,“信息”才有了科學(xué)的定義。這一定義是極其深刻的,它是一個科學(xué)的定義,用數(shù)學(xué)語言來說,不確定性就是隨機(jī)性,運(yùn)用研究隨機(jī)事件的數(shù)學(xué)工具——概率和隨機(jī)過程來測度不確定性的大小。既然數(shù)學(xué)上已經(jīng)證明了不確定性的大小能夠度量,可見信息是可以測度的,熵本來源于物理中的熱力學(xué),用來描寫系統(tǒng)的“混亂度”,香農(nóng)在定義信息熵的時候借用了這個詞,因此信息就有了明確的數(shù)學(xué)模型和定量計算的單位。
無失真信源編碼定理,也稱第一編碼定理,是信源無損壓縮編碼的理論基礎(chǔ),其內(nèi)容是:如果信源編碼碼率(編碼后平均傳送信源符號所需要的比特數(shù))不小于信息源的熵,就存在無失真編碼;反之,不存在無失真編碼,第一編碼定理解決的是信源無損壓縮極限的理論問題。有噪信道編碼原理,也稱第二編碼定理,是信道編碼的理論基礎(chǔ),其內(nèi)容是:如果信息的傳播速率小于信道的容量,則總可以找到一種編碼方式,使得當(dāng)編碼序列足夠長時,平均錯誤譯碼概率任意小。通俗地說,信息的傳播速率不可能超過信道的容量?;ヂ?lián)網(wǎng)發(fā)展的各個階段,實(shí)際上就是建立在不斷拓寬帶寬的基礎(chǔ)上的,早期使用電話線,再到后來使用同軸電纜和光纖,都是圍繞著不斷增加信道容量而進(jìn)行的。信道容量增加能提高傳輸率,人們才能從閱讀文字,到看視頻,整個互聯(lián)網(wǎng)才能得到發(fā)展。在香農(nóng)提出第二定律后,人類就開始有意識地不斷擴(kuò)展帶寬。限失真信源編碼定理,也稱第三編碼定理,是有損壓縮編碼的理論基礎(chǔ),其內(nèi)容是,給定了允許的平均失真率后,只要碼字足夠長,總可以找到一種編碼,使得當(dāng)信源的編碼碼率大于或等于信息率失真函數(shù)時,碼的平均失真小于或等于允許的平均失真度。這一定理解決了有損壓縮極限的理論問題。
信息科技課程以信息處理為主線,“信息”這一概念是信息科技課程概念體系的重要支點(diǎn),因?yàn)榭梢耘缮渌拍疃哂谢A(chǔ)性,可以聚合其他信息科技領(lǐng)域的概念而具有統(tǒng)領(lǐng)性。課程所有的重要概念都圍繞“信息”這一最基礎(chǔ)、最重要的概念展開,并由此生發(fā)出諸多具有核心價值的概念,如信息編碼、信息壓縮、信息安全、信息處理系統(tǒng)等。這些概念有機(jī)結(jié)合在一起支撐了學(xué)科課程的框架,而所有概念都可以在信息論中找到科學(xué)依據(jù),因此可以將信息論作為一把理解核心概念的鑰匙,用于深入理解概念的內(nèi)涵以及概念之間的聯(lián)系。
總之,香農(nóng)信息論的信息熵和三個定理,具有數(shù)學(xué)嚴(yán)格化的特點(diǎn),可以進(jìn)行定量計算,信息論直接推動了通信技術(shù)的大發(fā)展,進(jìn)而推動整個信息技術(shù)發(fā)展,逐步形成了信息技術(shù)領(lǐng)域內(nèi)各個分支,使之成為獨(dú)立的信息科學(xué),也是當(dāng)前高中信息科技課程核心概念的理論框架。
從日常生活看,比特(bit)是信息量的度量單位,也是信息量的最小單位,時至今日它被如此頻繁地使用,以至于逐漸成為一個基本量綱。學(xué)生對比特的認(rèn)識從小學(xué)就開始了,他們在觀察文件大小的過程中認(rèn)識比特;到了初中,他們開始學(xué)習(xí)二進(jìn)制,知道比特作為存儲單位的基礎(chǔ)作用,理解文件大小、硬盤容量、手機(jī)內(nèi)存等;到了高中,學(xué)生又從網(wǎng)絡(luò)傳輸速率中理解比特的作用。但是比特僅僅是用來表示信息存儲或者傳輸?shù)膯挝粏??它從何而來?它究竟與“不確定性”之間是怎樣的關(guān)系?用來表示存儲單位的“比特”和用來消除不確定性的“比特”是一樣的嗎?
從信息論的視角看待比特則可以超越作為日常生活對此的理解。日常生活中人們常說信息很多或者很少,但是卻很難說清楚信息量究竟有多少,一本50萬字的中文書究竟有多少信息量?一只股票的報價表在財務(wù)外行看來可能是數(shù)字亂碼,而在專業(yè)投資者來說卻有極大的價值,信息量又該如何計算?如果說信息有用,那么它的作用是如何客觀、定量地體現(xiàn)出來?信息用途的背后是否有理論基礎(chǔ)?后面這兩個問題,幾百年來沒有人給出很好的解答,直到香農(nóng)提出“信息熵”這一概念,他用類似于確定物理學(xué)熱力熵的方程式來確定信息量。對于信息量的度量,香農(nóng)給出了數(shù)學(xué)公式,如果隨機(jī)變量X的概率密度函數(shù)為p(x),那么X的熵為:,變量的不確定性越大,熵也越大。采用的單位取決于對數(shù)所選取的底,此處使用以2為底的對數(shù)函數(shù),則熵的量綱為比特,這也就是比特的來源。如果采用以e為底,則所得的信息量單位為奈特(nat);如果采用以10為底的對數(shù),則所得的信息量單位為哈特(hart)。
以最基本的離散信源為例,事件a“小王今天吃飯了”發(fā)生的概率是99.99%,那么這個事件的自信息量是–log2a=–log20.9999=0.0001423bit,而事件b“某地今天地震”,其發(fā)生的概率是0.01%,它的自信息量是–log2b=–log20.0001=13.29bit??梢姡录發(fā)生帶來的信息量遠(yuǎn)大于事件a的發(fā)生帶來的信息量,這也就印證了為什么地震的發(fā)生會讓人吃驚,而某人吃飯卻不會引起關(guān)注。
再以比賽冠軍為例,若在1–32號球隊中猜測誰是冠軍,對方回答是或者否,則若第一次提問“冠軍是1–16號之間嗎?”若對方回答“是”,則繼續(xù)在1–8號中猜測;若對方回答“否”,則繼續(xù)在9–16號之間進(jìn)行猜測,這樣需要猜測5次就能猜中,也就是說這條信息量是5bit,也就是log232=5。如果64個球隊,那么信息量是log264=6bit,這與“二分法”查找數(shù)據(jù)的思想非常類似。但是事實(shí)上更聰明的猜測方法是考慮不同球隊的概率,因?yàn)椴煌那蜿牜@得冠軍的概率是不同的,有的球隊是常勝冠軍,有的球隊則比較弱,因此從高概率的球隊開始編號和猜測,則可能不需要猜5次就能獲得結(jié)果,因?yàn)楫?dāng)每支球隊奪冠的概率不同時,根據(jù),“誰是冠軍”的信息量就少于5bit??梢?,信息量與消除不確定性密切相關(guān),反過來用不確定性來計算信息量。
由上述可知,比特在信息技術(shù)中具有核心的地位。它不僅僅在日常生活中使用,用來描述文件大小、硬盤大小等特征,更重要的是充分理解它在度量信息量方面的價值,理解其背后科學(xué)的數(shù)學(xué)推理和證明。
信息編碼是學(xué)生理解現(xiàn)實(shí)世界各種類型的信息如何被計算機(jī)識別的一個核心概念,也就是說“萬物皆比特”是如何做到的?對這一核心概念的理解,日常教學(xué)中,往往著重于從不同信息的類型出發(fā),理解英文字符、漢字、圖像、聲音等,如何用不同的編碼方法使之?dāng)?shù)字化。
從信息論的角度理解信息編碼,則可以超越具體的編碼方式,理解不同編碼方式背后的規(guī)律以及編碼的極限。以漢字編碼的輸入碼為例,學(xué)生常常有疑問,怎樣的漢字編碼是好的編碼呢?能否將漢字的編碼設(shè)計得更短一些,使輸入更快更便捷?如果可以更短一些,那么短到多少,是否有極限?輸入一個漢字需要敲擊多少個鍵?從理論上分析,這需要用到香農(nóng)信息論的第一定律。
GB2312簡體中文字符集一共有6700多個常用漢字,如果不考慮漢字頻率分布,用鍵盤上26個字母對漢字進(jìn)行編碼,兩個字母的組合理論上只能對676個漢字進(jìn)行編碼,對6700個漢字進(jìn)行編碼則至少需要3個字母的組合,即編碼長度為3,當(dāng)然如果對常見的漢字使用更短的編碼,對不太用的漢字使用較長的編碼,則可以縮短每個漢字的編碼長度。假定每個漢字出現(xiàn)的頻率是p1, p2, p3,…, p6700,它們的編碼長度是l1,l2, l3,…,l6700,則平均編碼長度是:p1l1+ p2l2+ p3l3+…+p6700l6700。
按照香農(nóng)第一定理,對于一個信息,任何編碼的長度都不小于它的信息熵,因此上面平均編碼長度的最小值就是漢字的信息熵,任何輸入法都不可能突破信息熵所給定的極限,根據(jù)信息熵的公式可得:H= –p1log2p1– p2log2p2– … –p6700log2p6700。
如果對每個字進(jìn)行統(tǒng)計,且不考慮上下文的相關(guān)性,可以估算出H的值在10bit之內(nèi),當(dāng)然也取決于用什么語料庫來做估計,如果假定輸入法只能用26個字母輸入,那么每個字母可以代表log226≈4.7bit的信息,也就是說輸入一個漢字平均需要10/4.7≈2.1次鍵。如果把漢字組成詞,再以詞為單位統(tǒng)計信息熵,那么每個漢字的平均信息熵就會減少,這樣平均輸入一個字可以減少零點(diǎn)幾次鍵盤。不考慮詞的上下文相關(guān)性,以此為單位統(tǒng)計,漢字的信息熵大約是8bit。也就是說,以詞為單位輸入一個漢字平均只需要8/4.7≈1.7次鍵。如果再考慮上下文相關(guān)性,建立基于詞的統(tǒng)計模型,就可以將漢字的信息熵降低到6bit左右,此時輸入一個漢字只要敲6/4.7≈1.3次鍵。但是事實(shí)上沒有一種輸入法能接近這個效率,要接近信息論給定的極限,就要對漢字的詞組根據(jù)詞頻進(jìn)行特殊編碼,而過于特殊的編碼其實(shí)欲速則不達(dá)。此外,在個人電腦上,很難安裝非常大的語言模型。因此,漢字的輸入過程本身可以看成是個人和計算機(jī)的通信,好的輸入法會遵循通信的數(shù)學(xué)原理,遵循信息論的原理。
信息編碼的理論是計算機(jī)科學(xué)的關(guān)鍵組成。因此從信息論的角度理解無損壓縮極限的理論問題,可以超越具體的編碼方法,思考信息編碼的一般規(guī)律。
信息壓縮因?yàn)榭梢詼p少存儲空間和縮短傳輸時間,成為最為常用的技術(shù)。學(xué)生往往先作為信息壓縮軟件的使用者,操作常見的壓縮軟件(如WinZIP或WinRAR)對文件進(jìn)行壓縮,然后了解無損壓縮和有損壓縮的簡單原理??梢娙藗儗π畔嚎s的認(rèn)識以感性的操作為主,盡管也能通過一些典型的壓縮方法的示例理解原理,還缺少一個從整體上思考信息壓縮的框架。
從信息論的角度理解信息壓縮,不僅能理解各種有損或者無損壓縮的實(shí)例,更能深入地理解信息壓縮的思想方法,理解壓縮軟件背后的工作原理。以文本信息的無損壓縮為例,大部分計算機(jī)中都使用標(biāo)準(zhǔn)碼來表示文本,包括傳統(tǒng)的固定長度編碼ASCII和現(xiàn)代的變長編碼Unicode。這兩種情況下,每個字母都使用了相同長度的編碼,因?yàn)橥ㄟ^尋找重復(fù)模式并基于文件上下文,用更短的編碼代替這些模式,文本文件可以被壓縮。例如,一個包含很多字母“f ”的文件,可以用新的、更短小的編碼來替換它的編碼,達(dá)到壓縮文件的目的。新的編碼取決于“f ”在文件中的出現(xiàn)頻率,在“f ”頻繁出現(xiàn)的文件中,這個編碼可能是3位,而在“f ”不那么頻繁出現(xiàn)的文件中,這個編碼可能是5位,文件壓縮算法會生成一個新編碼到原始編碼的轉(zhuǎn)換表。日常生活中的“.ZIP”和“.RAR”格式的壓縮就使用了這種策略,這種壓縮策略的設(shè)計也不會將信息壓縮至低于熵的閾值,若是低于閾值,則無法保證完全恢復(fù)的信息,這一無損壓縮編碼的理論基礎(chǔ),也稱香農(nóng)第一編碼定理。
“有損壓縮”也是“信息壓縮”中一個十分重要的概念。根據(jù)信道編碼定理,若信源是連續(xù)的(即取值是無限的、不可數(shù)的),則連續(xù)信源的絕對熵是無限大,如果要求無失真地傳送連續(xù)信源,則信息傳輸率也必須為無限大,而帶寬總是有限的,因此無法實(shí)現(xiàn)無失真的傳輸。實(shí)際上,有些情況下人們不需要完全無失真的消息,通常只需要類似的原始消息的再現(xiàn),即允許存在一些失真,失真信源編碼理論,通常稱之為香農(nóng)第三編碼定理。這對于理解有損壓縮如何既高效又可靠具有重要的意義。根據(jù)定理,可認(rèn)為數(shù)字化并不是生成信息的一個完全拷貝,而是一種近似化過程,因?yàn)樗鼤G失一些信息,而丟失的信息的失真度可以控制在合適的范圍內(nèi),這就可以更好地解釋音頻數(shù)據(jù)和視頻數(shù)據(jù)的壓縮技術(shù)(如JPEG或MPEG標(biāo)準(zhǔn)等)的原理。
因此,從信息論的視角理解信息壓縮,有助于超越各種各樣紛繁復(fù)雜的壓縮方法,超越具體的壓縮工具的使用,認(rèn)識無損壓縮的理論問題,從整體上思考信息壓縮的可能性和極限問題,理解高效而可靠傳輸信息的數(shù)學(xué)原理。
信息論不僅是一套通信理論,也是一種全新的方法論。它之所以能帶來如此深刻的影響,也在于它蘊(yùn)含著一些獨(dú)特的思維方式,使通信問題的研究從經(jīng)驗(yàn)轉(zhuǎn)變?yōu)榭茖W(xué)。因此從信息論的視角解讀信息科技的核心概念,不僅要認(rèn)識理論本身的邏輯,理解概念背后堅實(shí)的數(shù)學(xué)模型和論證,更重要的是要形成新的思維方式。
香農(nóng)對通信的基本問題的深刻理解在于,將信息的語義因素和語用因素擱置起來,正如他本人曾說:“對于信息論的研究而言,信息的意義基本無關(guān)”,信息被剝除了語義和語用因素,還剩下什么?香農(nóng)找到了關(guān)鍵,就是不確定性,只有單純地考慮信息的形式因素,才便于建立模型,減少參數(shù),突出問題的本質(zhì)。這種形式化處理,對復(fù)雜的問題進(jìn)行分解,去掉了具有個性化特點(diǎn)的、難以處理的語義和語用因素,巧妙地保留了容易用數(shù)學(xué)描述的通用形式,使得應(yīng)用數(shù)學(xué)工具定量地度量信息成為可能。
而信息論以概率論為工具,刻畫了信源產(chǎn)生的信息的數(shù)學(xué)模型,導(dǎo)出了度量信息的數(shù)學(xué)公式,給出了信道傳輸能力的容量公式,建立了一組信息傳輸?shù)木幋a定理,論證了信息傳輸?shù)囊恍┗窘缦?,使通信從?jīng)驗(yàn)逐步走向科學(xué)。如果沒有將信息進(jìn)行定量研究,則它不可能成為一門科學(xué)。因此,要理解信息科技課程的概念體系,就要理解對信息進(jìn)行形式化的方法,不能僅僅從使用者的角度看它的功能和操作,更重要的是理解各個概念背后的數(shù)學(xué)推理過程。
香農(nóng)認(rèn)為,一個實(shí)際的消息總是從可能發(fā)送的消息集合中選擇出來的。他認(rèn)為通信的基本問題是,在一點(diǎn)精確地或者近似地復(fù)現(xiàn)在另一點(diǎn)所選取的消息。此處“消息”可以理解為信息?!包c(diǎn)”是一個精心選擇的措辭,這意味著,信息的信源和信宿可以在時間或者空間上相分割,信息并不是創(chuàng)造出來的,而是選取出來的,一條信息就是一個選擇,可能是從一副牌里選出一張牌,又或是從一個確定的碼本中選出一組詞。因此信息就是用來消除這種不確定性,至于要引入多少信息,則要看系統(tǒng)中的不確定性有多少,這種思路成為信息時代解決問題的一種基本方法。如果能找到因果關(guān)系是最好的結(jié)果,但問題往往是復(fù)雜的,在無法確定因果關(guān)系時,數(shù)據(jù)提供了解決問題的新方法,數(shù)據(jù)中包含的信息可以幫助人們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系,這就是大數(shù)據(jù)的重要性。
盡管香農(nóng)的信息論也存在諸多局限,但也在不斷發(fā)展中,可以毫不夸張地說,沒有信息論就沒有今天的信息時代,信息論闡明了通信的基本問題,提出了通信系統(tǒng)的模型,給出了信息量的數(shù)學(xué)表達(dá)式。但是信息論博大精深,可以從信息論的“熵”這一概念和三個定理出發(fā),建立形式化和定量分析的思維方式,理解隨機(jī)性以及大數(shù)據(jù)對問題解決的價值,用計算思維解釋信息科技課程中的核心概念,有助于真正理解信息科技課程中概念體系背后的本質(zhì)和規(guī)律。
[1] Thomas M C, Joy A T.信息論基礎(chǔ)[M]. 2版. 阮吉壽,張華,譯.北京:機(jī)械工業(yè)出版社,2008.[2] 曹雪虹,張宗橙.信息論與編碼[M]. 2版.北京:清華大學(xué)出版社,2009.
[3] 傅祖蕓,趙建中.信息論與編碼[M]. 2版.北京:電子工業(yè)出版社,2014.
[4] 樊昌信,曹麗娜.通信原理[M]. 6版. 北京:國防工業(yè)出版社,2006.
[5] 趙曉群.信息論基礎(chǔ)及應(yīng)用[M]. 北京:機(jī)械工業(yè)出版社,2015.
[6] 格雷克.信息簡史[M]. 高博,譯.北京:人民郵電出版社,2013.
[7] 吳軍.數(shù)學(xué)之美[M]. 北京:人民郵電出版社,2012.
張 汶 上海市教育委員會教學(xué)研究室 200041