ASJP模式的漢語方言計算分析

2019-08-09 08:30索倫·維希曼冉啟斌

現(xiàn)代語文 2019年5期

索倫·維希曼冉啟斌

摘? 要：通過對直接以IPA轉(zhuǎn)寫進行距離計算、轉(zhuǎn)寫為ASJP碼后進行計算、轉(zhuǎn)寫為修訂版ASJP碼進行計算的比較，發(fā)現(xiàn)采用修訂版ASJP碼后的計算效果最符合漢語方言的實際表現(xiàn)。同時，還分析了65個漢語方言語檔的系統(tǒng)發(fā)育樹和系統(tǒng)發(fā)育網(wǎng)絡(luò)，結(jié)果顯示：東北官話與閩方言之間的親緣關(guān)系最遠，處于其間的依次是西北官話、西南官話、北方官話/中原官話、晉方言、客贛徽湘等方言、吳方言、粵方言;客贛徽湘等方言過渡性特征明顯;漢語方言中接觸表現(xiàn)突出，閩方言和吳方言內(nèi)部接觸相對少一些，北方方言和過渡性方言的內(nèi)部接觸非常多。

關(guān)鍵詞：漢語方言;詞匯距離;計算分析;系統(tǒng)發(fā)育樹;系統(tǒng)發(fā)育網(wǎng)絡(luò)

一、引言

ASJP（相似性自動判斷程序，Automated Simil-arity Judgement Program）數(shù)據(jù)庫是馬普研究院建立的大型跨語言關(guān)聯(lián)數(shù)據(jù)（Cross-Linguistic Linked Data）資源庫之一。ASJP數(shù)據(jù)庫收錄每種語言至少40個核心詞的語音形式，用以進行詞匯語音形式相似度的計算判斷。最新版數(shù)據(jù)庫（第18版）收集有世界范圍7655個語檔（doculect）的材料，按ISO639-3編碼，這7655個語檔涉及全球5067種語言（https：//asjp.clld.org/）。

通過列文斯坦編輯距離（Levenshtein Distance）可以計算任意兩個字符串之間的距離，從而也就可以計算語檔詞匯的語音形式之間的距離（簡稱“詞匯距離”）。ASJP網(wǎng)站提供有各類計算工具和程序。Müller（2009a，2009b，2010，2013）先后計算繪制了多個版本的世界語言語檔系統(tǒng)發(fā)育樹圖，為研究語言的分化與分類提供了新的視角。

第18版ASJP數(shù)據(jù)庫中收集了包括上古漢語、中古漢語、東干語在內(nèi)的19個與漢語有關(guān)的語檔材料。相對于豐富的漢語方言資源，19個語檔的數(shù)量并不大。同時，使用ASJP計算方法對漢語方言進行研究其有效性如何，在計算的一些具體細節(jié)上是否有進行調(diào)整的空間等，都是值得研究的問題。本文采用ASJP的計算模式和方法，對初步收集到的65個漢語方言語檔材料進行計算分析。

二、研究材料與方法

（一）研究材料

在以往研究中，研究者采用編輯距離對不同的材料進行距離測算的有王璐（2014），江荻（2017），趙志靖、江荻（2018）等。王璐（2014）以30個三音節(jié)詞、20個句子的語音轉(zhuǎn)寫，測量吳方言5個方言點之間的距離。江荻（2017）通過計算核心詞編輯距離及詞匯相似度，對195種藏緬語族語言進行自動分類。趙志靖、江荻（2018）則對侗臺語族語言進行計算分類以及親緣關(guān)系程度的描述。

本文研究材料為65個漢語方言點各40個核心詞的語音形式。各方言點具體參見附錄1“65個漢語方言語檔名單”。這些語檔涉及官話、晉、吳、贛、湘、徽、粵、閩、客家等方言點。各語檔核心詞的國際音標（IPA）標寫來源于《漢語方言詞匯》、劉俐李等《現(xiàn)代漢語方言核心詞·特征詞集》以及各地方言調(diào)查報告、方言志、地方方言研究等。限于篇幅，每個語檔的具體來源從略。目前ASJP模式的距離計算主要處理字符串之間的距離，因此各語檔的IPA轉(zhuǎn)寫不包括聲調(diào)。按ASJP數(shù)據(jù)庫的模式，各個語檔的信息除40個詞的語音形式外，還包括各語檔的ISO639-3代碼（如該方言有的話）以及該方言點所在地的經(jīng)緯度等信息。

（二）研究方法

按ASJP模式的做法，通常將40個核心詞的IPA形式轉(zhuǎn)換為ASJP碼。這樣做的目的主要是使軟件程序能夠?qū)υ~的語音形式進行計算。IPA與ASJP碼的對應情況如附錄2所示（前面部分為元音，后面部分為輔音）。出于探索的目的，本文先報道直接依據(jù)40個核心詞IPA進行計算的結(jié)果;再報道轉(zhuǎn)換為ASJP碼后的計算結(jié)果。

計算與作圖的有關(guān)情況如下：首先使用ASJP有關(guān)軟件程序計算各語檔之間的詞匯距離，可以形成距離矩陣。ASJP模式的距離計算有LDN距離（歸一化萊文斯坦距離）、LDND距離（歸一化萊文斯坦距離商）的不同（可參看冉啟斌、索倫·維希曼，2018：52～53），本文研究均依據(jù)LDND距離。在距離矩陣基礎(chǔ)上使用分子生物學軟件MEGA7與SplitsTree4分別繪制模擬的漢語方言系統(tǒng)發(fā)生學樹圖（phylogenetic tree，或稱系統(tǒng)發(fā)育樹，使用Neighbor-Joining Tree法）和系統(tǒng)發(fā)生學網(wǎng)絡(luò)圖（phylogenetic network，或稱系統(tǒng)發(fā)育網(wǎng)絡(luò)，使用NeighborNet法），并進行相關(guān)分析。

三、漢語方言語檔系統(tǒng)發(fā)育樹分析

（一）依據(jù)IPA標寫直接進行距離計算

由于收集到的漢語方言記音材料存在不統(tǒng)一之處，后期我們對少部分記音符號進行過局部統(tǒng)一。使用前述語料和方法，依據(jù)65個漢語方言語檔的IPA直接進行距離計算，形成距離矩陣，并使用MEGA繪制出65個漢語方言語檔的系統(tǒng)發(fā)生學樹圖。

在系統(tǒng)發(fā)育樹上，根節(jié)點之下以吳方言、粵方言為主的方言語檔首先與其他方言語檔分開;然后銀川、陽江分布在一個節(jié)點之下，與其他方言語檔分開;再后官話方言、閩方言、吳方言等分布在一個節(jié)點之下，與其他語檔分開（進一步的分支節(jié)點還有很多，為避免繁復此處從略）。顯然這個發(fā)生學關(guān)系不符合我們關(guān)于漢語方言歷史的基本認知，且不少距離較遠的方言語檔在發(fā)生學關(guān)系上混雜在一起。

同時可以看到，有的方言語檔連接在相同的直接節(jié)點上，說明它們應該是直接分化形成的;然而事實上它們并不具有很近的分化關(guān)系。例如萍鄉(xiāng)和北京，很難想象萍鄉(xiāng)話和北京話具有最直接的分化來源。類似的還有南通、沈陽，徐州、福州，銀川、陽江，揚州、筠連等。它們的關(guān)系相對較遠，卻連接在相同的直接上位節(jié)點上。

此外，有的語檔處在相同的末端節(jié)點，表明它們應該具有很密切的親緣關(guān)系;而漢語方言的事實證明它們的發(fā)生學關(guān)系并不近。例如績溪和大同處在同一個末端節(jié)點之下，事實是績溪話和大同話無論在方言歸屬還是地理上都距離較遠。類似的還有溫州和長沙，婁底和開平等。

現(xiàn)代語文2019年5期

現(xiàn)代語文的其它文章: 《荀子》《史記》衍誤、句讀辨析兩例; “可”字“痊愈”“程度減輕”義探析; 量詞“團”的歷時考察; “驛動”來源探討; “墻岸”新釋; 指示代詞“本”與其他結(jié)構(gòu)體的限制性研究

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

ASJP模式的漢語方言計算分析