索倫·維希曼 冉啟斌
摘? 要:通過對直接以IPA轉(zhuǎn)寫進行距離計算、轉(zhuǎn)寫為ASJP碼后進行計算、轉(zhuǎn)寫為修訂版ASJP碼進行計算的比較,發(fā)現(xiàn)采用修訂版ASJP碼后的計算效果最符合漢語方言的實際表現(xiàn)。同時,還分析了65個漢語方言語檔的系統(tǒng)發(fā)育樹和系統(tǒng)發(fā)育網(wǎng)絡(luò),結(jié)果顯示:東北官話與閩方言之間的親緣關(guān)系最遠,處于其間的依次是西北官話、西南官話、北方官話/中原官話、晉方言、客贛徽湘等方言、吳方言、粵方言;客贛徽湘等方言過渡性特征明顯;漢語方言中接觸表現(xiàn)突出,閩方言和吳方言內(nèi)部接觸相對少一些,北方方言和過渡性方言的內(nèi)部接觸非常多。
關(guān)鍵詞:漢語方言;詞匯距離;計算分析;系統(tǒng)發(fā)育樹;系統(tǒng)發(fā)育網(wǎng)絡(luò)
一、引言
ASJP(相似性自動判斷程序,Automated Simil-arity Judgement Program)數(shù)據(jù)庫是馬普研究院建立的大型跨語言關(guān)聯(lián)數(shù)據(jù)(Cross-Linguistic Linked Data)資源庫之一。ASJP數(shù)據(jù)庫收錄每種語言至少40個核心詞的語音形式,用以進行詞匯語音形式相似度的計算判斷。最新版數(shù)據(jù)庫(第18版)收集有世界范圍7655個語檔(doculect)的材料,按ISO639-3編碼,這7655個語檔涉及全球5067種語言(https://asjp.clld.org/)。
通過列文斯坦編輯距離(Levenshtein Distance)可以計算任意兩個字符串之間的距離,從而也就可以計算語檔詞匯的語音形式之間的距離(簡稱“詞匯距離”)。ASJP網(wǎng)站提供有各類計算工具和程序。Müller(2009a,2009b,2010,2013)先后計算繪制了多個版本的世界語言語檔系統(tǒng)發(fā)育樹圖,為研究語言的分化與分類提供了新的視角。
第18版ASJP數(shù)據(jù)庫中收集了包括上古漢語、中古漢語、東干語在內(nèi)的19個與漢語有關(guān)的語檔材料。相對于豐富的漢語方言資源,19個語檔的數(shù)量并不大。同時,使用ASJP計算方法對漢語方言進行研究其有效性如何,在計算的一些具體細節(jié)上是否有進行調(diào)整的空間等,都是值得研究的問題。本文采用ASJP的計算模式和方法,對初步收集到的65個漢語方言語檔材料進行計算分析。
二、研究材料與方法
(一)研究材料
在以往研究中,研究者采用編輯距離對不同的材料進行距離測算的有王璐(2014),江荻(2017),趙志靖、江荻(2018)等。王璐(2014)以30個三音節(jié)詞、20個句子的語音轉(zhuǎn)寫,測量吳方言5個方言點之間的距離。江荻(2017)通過計算核心詞編輯距離及詞匯相似度,對195種藏緬語族語言進行自動分類。趙志靖、江荻(2018)則對侗臺語族語言進行計算分類以及親緣關(guān)系程度的描述。
本文研究材料為65個漢語方言點各40個核心詞的語音形式。各方言點具體參見附錄1“65個漢語方言語檔名單”。這些語檔涉及官話、晉、吳、贛、湘、徽、粵、閩、客家等方言點。各語檔核心詞的國際音標(IPA)標寫來源于《漢語方言詞匯》、劉俐李等《現(xiàn)代漢語方言核心詞·特征詞集》以及各地方言調(diào)查報告、方言志、地方方言研究等。限于篇幅,每個語檔的具體來源從略。目前ASJP模式的距離計算主要處理字符串之間的距離,因此各語檔的IPA轉(zhuǎn)寫不包括聲調(diào)。按ASJP數(shù)據(jù)庫的模式,各個語檔的信息除40個詞的語音形式外,還包括各語檔的ISO639-3代碼(如該方言有的話)以及該方言點所在地的經(jīng)緯度等信息。
(二)研究方法
按ASJP模式的做法,通常將40個核心詞的IPA形式轉(zhuǎn)換為ASJP碼。這樣做的目的主要是使軟件程序能夠?qū)υ~的語音形式進行計算。IPA與ASJP碼的對應情況如附錄2所示(前面部分為元音,后面部分為輔音)。出于探索的目的,本文先報道直接依據(jù)40個核心詞IPA進行計算的結(jié)果;再報道轉(zhuǎn)換為ASJP碼后的計算結(jié)果。
計算與作圖的有關(guān)情況如下:首先使用ASJP有關(guān)軟件程序計算各語檔之間的詞匯距離,可以形成距離矩陣。ASJP模式的距離計算有LDN距離(歸一化萊文斯坦距離)、LDND距離(歸一化萊文斯坦距離商)的不同(可參看冉啟斌、索倫·維希曼,2018:52~53),本文研究均依據(jù)LDND距離。在距離矩陣基礎(chǔ)上使用分子生物學軟件MEGA7與SplitsTree4分別繪制模擬的漢語方言系統(tǒng)發(fā)生學樹圖(phylogenetic tree,或稱系統(tǒng)發(fā)育樹,使用Neighbor-Joining Tree法)和系統(tǒng)發(fā)生學網(wǎng)絡(luò)圖(phylogenetic network,或稱系統(tǒng)發(fā)育網(wǎng)絡(luò),使用NeighborNet法),并進行相關(guān)分析。
三、漢語方言語檔系統(tǒng)發(fā)育樹分析
(一)依據(jù)IPA標寫直接進行距離計算
由于收集到的漢語方言記音材料存在不統(tǒng)一之處,后期我們對少部分記音符號進行過局部統(tǒng)一。使用前述語料和方法,依據(jù)65個漢語方言語檔的IPA直接進行距離計算,形成距離矩陣,并使用MEGA繪制出65個漢語方言語檔的系統(tǒng)發(fā)生學樹圖。
在系統(tǒng)發(fā)育樹上,根節(jié)點之下以吳方言、粵方言為主的方言語檔首先與其他方言語檔分開;然后銀川、陽江分布在一個節(jié)點之下,與其他方言語檔分開;再后官話方言、閩方言、吳方言等分布在一個節(jié)點之下,與其他語檔分開(進一步的分支節(jié)點還有很多,為避免繁復此處從略)。顯然這個發(fā)生學關(guān)系不符合我們關(guān)于漢語方言歷史的基本認知,且不少距離較遠的方言語檔在發(fā)生學關(guān)系上混雜在一起。
同時可以看到,有的方言語檔連接在相同的直接節(jié)點上,說明它們應該是直接分化形成的;然而事實上它們并不具有很近的分化關(guān)系。例如萍鄉(xiāng)和北京,很難想象萍鄉(xiāng)話和北京話具有最直接的分化來源。類似的還有南通、沈陽,徐州、福州,銀川、陽江,揚州、筠連等。它們的關(guān)系相對較遠,卻連接在相同的直接上位節(jié)點上。
此外,有的語檔處在相同的末端節(jié)點,表明它們應該具有很密切的親緣關(guān)系;而漢語方言的事實證明它們的發(fā)生學關(guān)系并不近。例如績溪和大同處在同一個末端節(jié)點之下,事實是績溪話和大同話無論在方言歸屬還是地理上都距離較遠。類似的還有溫州和長沙,婁底和開平等。