徐東君
摘 要:本文介紹預(yù)測(cè)語(yǔ)言使用人數(shù)的多因素連續(xù)模型。建立的一般方法是將一個(gè)國(guó)家的人口劃分為三類,即只掌握母語(yǔ)的人、掌握母語(yǔ)與第二語(yǔ)言的人和掌握母語(yǔ)和多種其他語(yǔ)言的人。我們賦予這三類人之間可能存在的互相轉(zhuǎn)化的轉(zhuǎn)化參數(shù),這使得我們可以預(yù)測(cè)從任意初始條件的下的語(yǔ)言的使用人數(shù)與分布變化。為了驗(yàn)證方法的一般性,我們?nèi)×?990年到2000年的初始條件,預(yù)測(cè)2000年到2010年的數(shù)據(jù),將其與民族語(yǔ)的數(shù)據(jù)進(jìn)行比較。為了確保方法的穩(wěn)健性,我們調(diào)查了全球24個(gè)國(guó)家的統(tǒng)計(jì)數(shù)據(jù),使用可用的統(tǒng)計(jì)數(shù)據(jù)來(lái)估計(jì)轉(zhuǎn)化參數(shù),結(jié)果顯示預(yù)測(cè)結(jié)果和實(shí)際數(shù)據(jù)有良好的一致性。然后我們用模型預(yù)測(cè)了后50年的語(yǔ)言變化,獲得了各個(gè)國(guó)家中使用各種語(yǔ)言的人數(shù),觀察他們?cè)诒緡?guó)中所占的比率變化與在各地區(qū)中占比的情況,進(jìn)而獲得語(yǔ)言的比例分布、人數(shù)變化以及地理分布。
關(guān)鍵詞:世界語(yǔ) ;人文科學(xué); matlab
語(yǔ)言,是人類的重要組成部分 ,更是人類溝通交流的橋梁。借助合適的語(yǔ)言,人們能夠恰當(dāng)?shù)乇磉_(dá)自己的思想,可以拉近人與人之間的距離。人類生活中離不開語(yǔ)言,但是絕大多數(shù)人對(duì)于語(yǔ)言的規(guī)律不甚了解。實(shí)際上,語(yǔ)言的數(shù)量和語(yǔ)言的規(guī)模,隨著人類歷史的推移也在不斷的變化,在全球化進(jìn)程中強(qiáng)勢(shì)語(yǔ)言迅猛傳播,而弱勢(shì)語(yǔ)言隨著語(yǔ)言功能衰減使用人數(shù)不斷減少,逐漸走向?yàn)l危和消亡。如何在多樣化的語(yǔ)言中挑選出泛用性最強(qiáng)的,如何在錯(cuò)綜復(fù)雜的語(yǔ)言分布轉(zhuǎn)移中實(shí)現(xiàn)精準(zhǔn)的結(jié)果預(yù)測(cè),如果解答以上兩個(gè)問(wèn)題,結(jié)果是令人振奮的。在本文中,我們通過(guò)建立多因素連續(xù)的語(yǔ)言人口模型,進(jìn)行時(shí)間序列分析,應(yīng)用邏輯回歸算法和隨機(jī)梯度下降來(lái)實(shí)現(xiàn)模型的求解,并給出結(jié)果分析。
為了解決預(yù)測(cè)語(yǔ)言分布以及變化的趨勢(shì),我們建立了一個(gè)模型,來(lái)預(yù)測(cè)各種語(yǔ)言使用者隨著時(shí)間推移的分布以及五十年內(nèi)語(yǔ)言使用者的數(shù)目變化,并且判斷十大語(yǔ)言表中的語(yǔ)言能否仍然處于前十名內(nèi)。此外,在全球人口不斷遷移的背景下,預(yù)測(cè)并描述語(yǔ)言的分布變化。
如圖所示,一個(gè)地區(qū)的語(yǔ)言使用者可以劃分成三個(gè)狀態(tài),每個(gè)狀態(tài)的改變都賦予了狀態(tài)轉(zhuǎn)化參數(shù). 他們構(gòu)成了基本模型, 并且他們之間存在狀態(tài)轉(zhuǎn)化關(guān)系.
在連續(xù)模型中,我們利用轉(zhuǎn)化參數(shù)計(jì)算一個(gè)區(qū)域內(nèi)每種語(yǔ)言使用人數(shù)在一個(gè)時(shí)間步長(zhǎng)后的變化情況,然后預(yù)測(cè)人數(shù)隨著時(shí)間的變化。模型參數(shù)所需要的定義在圖二中給出。
對(duì)于該區(qū)域內(nèi)的非官方語(yǔ)言(如語(yǔ)言N)的使用人數(shù),可以看出,來(lái)源于從以N為母語(yǔ)的國(guó)家遷入的人以及該地區(qū)的未掌握第二語(yǔ)言的人的轉(zhuǎn)化。
考慮到不同地區(qū)的政治經(jīng)濟(jì)文化社會(huì)有不同的影響,我們引入轉(zhuǎn)化參數(shù)ki 與判斷因子aN 。ki 代表了I地區(qū)政府推廣,學(xué)校使用, 社會(huì)壓力對(duì)第二語(yǔ)言的影響。如果語(yǔ)言N為該地區(qū)的政府推廣的第二語(yǔ)言,則aN=1 =1,否則為0. 所以我們得到公式 B如下:
在可能的情況下,我們使用真實(shí)的數(shù)據(jù)來(lái)為這些參數(shù)提供合適的估計(jì)。這種為參數(shù)提供參數(shù)的方法為模型中的語(yǔ)言變化提供了真實(shí)的基礎(chǔ)。
3.2.1
世界銀行提供人口統(tǒng)計(jì)數(shù)據(jù),以及每個(gè)國(guó)家出生和死亡率的數(shù)據(jù)。
3.2.2
全球移民來(lái)源數(shù)據(jù)庫(kù)提供人口遷移數(shù)據(jù).
3.2.3
由于第二語(yǔ)言的實(shí)現(xiàn)主要通過(guò)教育實(shí)現(xiàn),與教育投資正相關(guān),查閱相關(guān)文獻(xiàn)得到 的計(jì)算式 ,c是綜合了政策、社會(huì)壓力以及國(guó)際貿(mào)易的影響因子
由于沒(méi)有可靠的數(shù)據(jù)可用于確定C,所以它們的值被規(guī)定為人種學(xué)數(shù)據(jù)。這樣做確保了我們的模型是準(zhǔn)確的,并且允許C作為解決方案的一部分來(lái)提供對(duì)世界語(yǔ)言變化的預(yù)測(cè)。
隨著時(shí)間的推移,漢語(yǔ)、英語(yǔ)和旁遮普語(yǔ)占據(jù)的比例逐漸增多,我們認(rèn)為因?yàn)橹袊?guó)人口基數(shù)大,新出生人口多,所以掌握漢語(yǔ)的比例居高不下,發(fā)達(dá)國(guó)家如英國(guó)、美國(guó)的語(yǔ)言是英語(yǔ),由于發(fā)達(dá)國(guó)家國(guó)際地位高,語(yǔ)言流動(dòng)性高,大多數(shù)國(guó)家都愿意把英語(yǔ)作為第二語(yǔ)言。旁遮普語(yǔ)由于是非洲的共同語(yǔ)言,非洲擁有巨大的發(fā)展?jié)摿?,隨著時(shí)間的推移,人們逐漸開始開拓非洲市場(chǎng),開始學(xué)習(xí)旁遮普語(yǔ)。
從語(yǔ)言使用總量的比例來(lái)看,孟加拉語(yǔ)的比例在50年內(nèi)不斷降低,被踢出了前十大語(yǔ)言,被德語(yǔ)取代,分析其原因,我們認(rèn)為由于德國(guó)工業(yè)生產(chǎn)需求旺盛,經(jīng)濟(jì)形勢(shì)良好,以及市場(chǎng)積極的態(tài)度,使德語(yǔ)的數(shù)量更高。
總體而言,歐洲地區(qū)的語(yǔ)言一直處于低迷狀態(tài),這可能是因?yàn)闅W洲的低出生率與老齡化社會(huì)有關(guān)。
在我們的分析中,我們獨(dú)立的考慮了政府、學(xué)校、社會(huì)壓力對(duì)語(yǔ)言的影響,同時(shí)測(cè)試了出生率與死亡率隨時(shí)間變化的三種情況:人口增長(zhǎng),人口恒定,人口負(fù)增長(zhǎng),在短期和中長(zhǎng)期內(nèi)采取不同的人口變化模式,使得我們能夠確定影響語(yǔ)言變化的根本因素,分析出語(yǔ)言變化的實(shí)際意義從而更好的改進(jìn)我們的模型,同時(shí)我們定性的得到以下結(jié)論:
1.強(qiáng)勢(shì)語(yǔ)言吞并弱勢(shì)語(yǔ)言
2.人口基數(shù)大的語(yǔ)言更容易留存下去
3.一個(gè)國(guó)家母語(yǔ)的使用人數(shù)象征了
4.一個(gè)國(guó)家的母語(yǔ)被其他國(guó)家選擇為第二語(yǔ)言的數(shù)量象征了這個(gè)國(guó)家的強(qiáng)盛
參考文獻(xiàn):
[1] Krakowka, A.R., Heimel, N., and Galgano, F. “Modeling Environmenal Security in Sub-Sharan Africa – ProQuest.” The Geographical Bulletin, 2012
[2] Schwartz, P. and Randall, D. “An Abrupt Climate Change Scenario and Its Implications for United States National Security”, October 2003
[3] America Speaks: A Demographic Profile of Foreign-Language Speakers for the United States: 200