摘 要:Heaps定律無疑是揭示人類文獻內在規(guī)律的有力武器。本文運用R語言和SPSS程序。通過對“20世紀百大英文小說”——讀者票選名單中的16個文本進行統(tǒng)計分析以驗證Heaps定律魯棒性。
關鍵詞:Heaps定律;魯棒性;Heaps指數;新詞進入率
1 Heap定律
作為復雜系統(tǒng)中的經驗法則,Heaps定律是揭示人類文獻內在規(guī)律的有力武器。設為文本總詞數達到時的詞匯量,Heaps定律可以用公式表示為,其中和為經驗系數,即隨著文本長度的增加,文本不斷地生成,文本詞匯量的增加率隨之邊際遞減,[1]Heaps指數因此也常常被稱為“新詞進入率”。本文在英文文本背景中驗證Heaps定律的魯棒性。
2 Heaps定律魯棒性在文本中的統(tǒng)計驗證
2.1 動蕩與多元的語言文學背景下的Heaps定律
所謂魯棒性,一般認為是系統(tǒng)的健壯性。是系統(tǒng)在擾動或不確定的情況下仍能保持其特征行為。本文所提Heaps定律的魯棒性指在動蕩和多元的語言文學背景下,文本中的新詞進入率,即heaps指數,是否仍能保持其特征值。Heaps定律可以用公式表示為,其中和為經驗系數。介于當時,的值必然也為1,本文取以方便計算處理。
20世紀是人類歷史上最為動蕩和多元的世紀。20世紀的文學,亦相應地呈現繽紛瑰麗的異彩,印證著百年來人類精神的坎坷征程。文學諸賢已先于我們對20世紀做出了極富洞見的解讀。[2]本文選取了“20世紀百大英文小說”——讀者票選名單中的16個文本(按年份排列,每十年中隨機抽取兩個文本做統(tǒng)計分析),以衡量Heaps定律的魯棒性。這16個文本均為英文文本,按照篇幅可分為短篇小說、中篇小說、長篇小說。統(tǒng)計文本涵蓋了各種類型,按照年代依次列表(見表1)。此外,本文使用C語言、SPSS程序來對文本進行處理和統(tǒng)計,考察一百年間英文文本中詞匯量隨著文本長度的增加的變化規(guī)律。
可以看出,上述英文文本的heaps指數穩(wěn)定在0.790.05,判定系數R2都不小于86%。由此可見,Heaps指數并沒有因世界環(huán)境,特殊國情而產生很大的波動,Heaps定律及Heaps指數在描述人類所使用的詞匯量—總詞量關系上具有魯棒性和普適性規(guī)律。
2.2 文本的排列順序對其總體Heaps指數的影響
表2展示了三個英文文本《Pride and Prejudice》《Iliad》《the Old Man and the Sea》各自的總詞量、詞匯量及其經過SPSS程序統(tǒng)計分析所得的Heaps指數和判定系數R2。三個文本的Heaps指數仍穩(wěn)定在0.790.05的范圍內。下面我們討論,調整三個文本的排列順序,觀察三個文本作為整體時其Heaps指數是否會發(fā)生較大波動,以衡量Heaps定律的魯棒性。
由表3可見,不論《Pride and Prejudice》《Iliad》《the Old Man and the Sea》三個文本的先后順序如何排列,若將三個文本作為一個整體來看,其希普斯指標僅從0.750變化到了0.753。因而我們可以得出結論,幾個文本之間的排列順序幾乎不會影響到這幾個文本作為一個總體時的Heaps指數。
此外,三個文本作為一個整體而言,其heaps指數略小于每一部單獨文本的heaps指數。這一方面是因為隨著文本長度的增加(三個文本的總詞量明顯大于其中任意一單獨文本的總詞量),文本中已出現過的詞也在增加,因而其整體上的新詞進入率會減低;另一方面,三個文本中有大量的詞匯重復,這些重復的詞匯在單獨一個文本中可能是作為新詞出現,但在三個文本形成的整體中,其所謂新詞即不再為新詞,已在前文中出現過。
3 結語
本文統(tǒng)計分析了20世紀16個英文小說的Heaps指數(新詞進入率)數據。盡管所選取的研究范圍時間跨度較大。但是從根本上,Heaps指數并沒有因世界環(huán)境,特殊國情而產生很大的波動。本文還嘗試研究了將幾個文本作為一個整體以闡述heaps定律的魯棒性時,內部文本間的排列順序幾乎不會影響到這幾個文本作為一個總體時的新詞進入率。本文的研究反映了人類文學文獻的冪率特性,Heaps定律在描述人類所使用的詞匯量—總詞量關系上具有魯棒性和普適性規(guī)律。
參考文獻:
[1] 張翼飛. Heaps定律在中英文文本中的統(tǒng)計驗證與分析[J].中國外資,2011(10):272.
[2] 吳元邁,陶潔,王守仁,何寧. 20世紀外國文學簡史[M].譯林出版社,2013.
作者簡介:王彩燕,上海大學圖書情報檔案系情報學專業(yè)研究生。