馬創(chuàng)新,梁社會(huì),陳小荷
(1. 江蘇師范大學(xué) 語(yǔ)言科學(xué)與藝術(shù)學(xué)院,江蘇 徐州 221009;2. 南京師范大學(xué) 國(guó)際文化教育學(xué)院,江蘇 南京 210097;3. 南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)
中華文化博大精深、源遠(yuǎn)流長(zhǎng),先秦時(shí)期,老子、孔子、韓非子、孫子、墨子等諸子開創(chuàng)了中國(guó)歷史上第一次學(xué)術(shù)文化的繁盛時(shí)期。在此階段,出現(xiàn)了道家、儒家、法家、兵家、墨家等學(xué)派。這些學(xué)派的學(xué)術(shù)思想是中華民族精神文明的結(jié)晶,它們對(duì)后世的政治、經(jīng)濟(jì)、文化等各個(gè)領(lǐng)域都產(chǎn)生了深遠(yuǎn)的影響[1]。
歷代學(xué)者都很重視對(duì)于諸子百家學(xué)術(shù)思想和學(xué)術(shù)淵源的研究。儒家希望通過(guò)人生修養(yǎng)、克已復(fù)禮、實(shí)行仁政,以實(shí)現(xiàn)博施濟(jì)眾、老安少懷的理想社會(huì)[2],據(jù)《淮南子·要略》,墨子本來(lái)是學(xué)習(xí)儒家思想的,因不滿于儒家主張而創(chuàng)立墨家,提出了“天志”、“明鬼”、“非攻”、“節(jié)用”、“節(jié)葬”、“兼愛”等主張,反對(duì)儒家思想中的一些主張[3]。法家倡導(dǎo)在政治中推行法治,不同與儒家主張的德治和禮治,但儒法兩家都強(qiáng)調(diào)人治,這又不同于道家的“自然無(wú)為而治”。儒墨道學(xué)派的共同點(diǎn)是依據(jù)他們各自的人生理想發(fā)展出人生修養(yǎng)理論,目標(biāo)就是創(chuàng)造一個(gè)和平的社會(huì)環(huán)境[4]。兵家思想與老子《道德經(jīng)》之間在軍事思想方面也具有相同之處,有些學(xué)者甚至把《道德經(jīng)》視為兵書。道儒法墨兵諸家思想之間有差異之處,但他們的最終目標(biāo)都是在尋找救世治世的良方[5]。
如今信息時(shí)代,計(jì)算機(jī)技術(shù)、信息技術(shù)與人文研究融合而形成了一個(gè)新的研究領(lǐng)域,即“數(shù)字人文”研究,數(shù)字人文的出現(xiàn)對(duì)人文學(xué)術(shù)的研究方法與過(guò)程產(chǎn)生深遠(yuǎn)影響[6]。以往學(xué)界對(duì)于先秦諸家思想的研究?jī)H限于定性的評(píng)價(jià)和討論,那么在數(shù)字人文興起的今天,能否利用計(jì)算語(yǔ)言學(xué)方法,對(duì)先秦諸家學(xué)派之間的相關(guān)關(guān)系作量化考察,對(duì)諸家思想的主題內(nèi)容作統(tǒng)計(jì)分析呢?本文首次提出通過(guò)計(jì)算不同學(xué)派之間在高頻詞型等級(jí)方面的相關(guān)系數(shù)來(lái)獲得學(xué)派之間的相關(guān)系數(shù),以評(píng)價(jià)學(xué)派的影響力和學(xué)派之間的親疏遠(yuǎn)近,通過(guò)計(jì)算學(xué)派之間在詞型等級(jí)上的差異度來(lái)獲取學(xué)派的主題特征詞[7]。
為了分析先秦諸家學(xué)派的相關(guān)度并且篩選出各學(xué)派的特征詞,我們分別從儒家、道家、法家、兵家、墨家等學(xué)派的作品中選取出具有代表性的文獻(xiàn)作為實(shí)驗(yàn)語(yǔ)料。本文選取的儒家代表文獻(xiàn)是《論語(yǔ)》和《孟子》,道家代表文獻(xiàn)是《老子》和《莊子》,法家代表文獻(xiàn)是《韓非子》和《商君書》,兵家代表文獻(xiàn)是《孫子》和《吳子》,墨家代表文獻(xiàn)是《墨子》,由于墨家的文獻(xiàn)比較少,所以只從墨家中選取一部代表性文獻(xiàn)。
本研究所采用的實(shí)驗(yàn)方法是:
(1) 從儒家、道家、法家、兵家等每個(gè)學(xué)派選出代表性文獻(xiàn);
(2) 對(duì)每部文獻(xiàn)的詞型分別統(tǒng)計(jì)詞頻并且按照頻次降序排列,然后使用并列法確定各部文獻(xiàn)的詞型等級(jí)并做等值化處理[8];
(3) 篩選出每個(gè)學(xué)派的共有詞型,并且取該詞型的“轉(zhuǎn)化等級(jí)”的均值作為“最終等級(jí)”;
(4) 使用斯皮爾曼等級(jí)相關(guān)系數(shù)公式,計(jì)算學(xué)派之間共有的高頻詞型等級(jí)序列的相關(guān)系數(shù)。
“詞型等級(jí)”是按詞型在文獻(xiàn)中的出現(xiàn)頻次(即詞型的詞例數(shù))遞減排序,把出現(xiàn)頻次最高的詞型等級(jí)定為1,次高的詞型等級(jí)定為2,依次類推。但對(duì)于如何確定同頻詞型的等級(jí),國(guó)內(nèi)外學(xué)者提出最大值法、最小值法、平均值法、并列法四種方法[9]。本文使用并列法確定同頻詞型的等級(jí),即把出現(xiàn)頻次最高的詞型等級(jí)定為1,次高的詞型等級(jí)定為2,依次類推,頻次相等的詞型為一個(gè)等級(jí),以其在語(yǔ)料中詞頻序值為等級(jí)。
通過(guò)分析表1發(fā)現(xiàn)由于各部文獻(xiàn)的詞型數(shù)、詞例數(shù)差異都較大,使得各部文獻(xiàn)的詞型等級(jí)數(shù)差異明顯,其中《韓非子》的最大詞型等級(jí)為228,《吳子》的最大詞型等級(jí)為47,兩部文獻(xiàn)的詞型等級(jí)數(shù)量相差約五倍。
表1 先秦文獻(xiàn)的等級(jí)數(shù)和等級(jí)系數(shù)
這種情況就使得各部文獻(xiàn)之間的共有詞型難以做等級(jí)差異比較和加減運(yùn)算。例如,《老子》和《莊子》同為道家文獻(xiàn),《老子》的詞型等級(jí)數(shù)為58,《莊子》的詞型等級(jí)數(shù)為165。“聖人”這個(gè)詞型在《老子》中的詞型等級(jí)為27,在《莊子》中的詞型等級(jí)為70。單從詞型等級(jí)的大小差異來(lái)看,“聖人”在《老子》應(yīng)該比在《莊子》更常見,而實(shí)際上“聖人”在《老子》中出現(xiàn)33次,在《莊子》出現(xiàn)108次。
由于上述原因,我們提出要對(duì)各部文獻(xiàn)中的詞型等級(jí)做等值化處理。方法是給每部文獻(xiàn)設(shè)定一個(gè)等級(jí)系數(shù),特定文獻(xiàn)中每個(gè)詞型的等級(jí)都要乘以它的等級(jí)系數(shù),從而將由并列法確定的“原始等級(jí)”轉(zhuǎn)變?yōu)椤稗D(zhuǎn)化等級(jí)”。各部文獻(xiàn)的等級(jí)系數(shù)是不同的,特定文獻(xiàn)的等級(jí)系數(shù)等于100除以該文獻(xiàn)的最大詞型等級(jí)。例如,《老子》中的最大詞型等級(jí)為58,它的等級(jí)系數(shù)就約等于1.72;《莊子》中的最大詞型等級(jí)為165,它的等級(jí)系數(shù)就約等于0.61。表1的第五列給出了每部文獻(xiàn)的等級(jí)系數(shù)。
設(shè)定好等級(jí)系數(shù)之后,就容易比較各部文獻(xiàn)共有詞型的等級(jí)差異,例如,“聖人”在《老子》中的原始等級(jí)為27,乘以等級(jí)系數(shù)1.72,轉(zhuǎn)化等級(jí)為46.44;“聖人”在《莊子》中的原始等級(jí)為70,乘以它的等級(jí)系數(shù)0.61,轉(zhuǎn)化等級(jí)為42.70。可見“聖人”在《老子》和《莊子》中的轉(zhuǎn)化等級(jí)差異很小,在這兩部文獻(xiàn)中的重要性相差不大。表2中給出《老子》中出現(xiàn)頻次排前20位的詞型的出現(xiàn)頻次、原始等級(jí)和轉(zhuǎn)化等級(jí)。
我們統(tǒng)計(jì)了各個(gè)學(xué)派代表文獻(xiàn)的共有詞型數(shù)及共現(xiàn)率,以及共有詞例數(shù)及共現(xiàn)率,如表3所示。例如,在《論語(yǔ)》和《孟子》中都出現(xiàn)的詞型有978個(gè),占《論語(yǔ)》和《孟子》總詞型數(shù)(3 367個(gè))的29%?!墩撜Z(yǔ)》和《孟子》總詞型數(shù)等于“《論語(yǔ)》詞型數(shù)+《孟子》詞型數(shù)- 《論語(yǔ)》與《孟子》的共現(xiàn)詞型數(shù)”,因共現(xiàn)詞型在兩部文獻(xiàn)中都出現(xiàn),故不能重復(fù)計(jì)算。這些共現(xiàn)詞型在兩部文獻(xiàn)中共出現(xiàn)41 118次,占《論語(yǔ)》和《孟子》總詞例數(shù)(46 686次)的88%。
通過(guò)分析表3發(fā)現(xiàn),除了墨家之外,其他四個(gè)學(xué)派的詞型共現(xiàn)率都比較低,在14%至42%之間,而詞例共現(xiàn)率較高,在78%至89%之間,這說(shuō)明共現(xiàn)詞型的出現(xiàn)頻次相對(duì)較多,大多屬于高頻詞。
在同一流派內(nèi),我們以共現(xiàn)詞型在兩部文獻(xiàn)中的轉(zhuǎn)化等級(jí)的均值作為最終等級(jí)。表4選取儒家學(xué)派的10個(gè)共現(xiàn)詞型,展示它們計(jì)算最終等級(jí)的方法。我們使用這種方法,計(jì)算出各個(gè)學(xué)派的共現(xiàn)詞型的最終等級(jí)。
表2 轉(zhuǎn)化等級(jí)的計(jì)算方法示例(等級(jí)系數(shù)為1.72)
表3 先秦諸家學(xué)派的共有詞型數(shù)、共有詞例數(shù)及共現(xiàn)率
表4 最終等級(jí)的計(jì)算方法示例
學(xué)派之間相關(guān)度的計(jì)算方法采用“斯皮爾曼等級(jí)相關(guān)”系數(shù),計(jì)算如式(1)所示。
(1)
其中,Di表示每一對(duì)詞型相應(yīng)的兩個(gè)等級(jí)之差,n表示樣本數(shù)。
斯皮爾曼等級(jí)相關(guān)系數(shù)適用于研究數(shù)據(jù)是具有等級(jí)性質(zhì)的成對(duì)數(shù)據(jù)。但是,兩個(gè)學(xué)派出現(xiàn)的詞型數(shù)據(jù)并不是成對(duì)的,所以采用這種計(jì)算方法所得到的相關(guān)系數(shù)是一個(gè)近似值。我們用ARs來(lái)表示“以學(xué)派A中特定數(shù)量詞型為樣本”與學(xué)派B中全部詞型比較所得到的相關(guān)系數(shù),對(duì)于在學(xué)派A中出現(xiàn)而學(xué)派B中沒有出現(xiàn)的詞型,就假定該詞型在學(xué)派B中的最終等級(jí)為101。同樣,以BRs來(lái)表示“以學(xué)派B中特定數(shù)量詞型為樣本”與學(xué)派A中全部詞型比較所得到的相關(guān)系數(shù),對(duì)于在學(xué)派B中出現(xiàn)而學(xué)派A中沒有出現(xiàn)的詞型,就假定該詞型在學(xué)派A中的最終等級(jí)為101。學(xué)派A與B的相關(guān)度用ABRs來(lái)表示,ABRs等于ARs與BRs的均值,即: ABRs=(ARs+BRs)/2。也就是說(shuō),學(xué)派A與B的相關(guān)度就等于“以學(xué)派A中特定數(shù)量詞型為樣本”與學(xué)派B的全部詞型比較所得到的相關(guān)系數(shù),加上“以學(xué)派B中特定數(shù)量詞型為樣本”與學(xué)派A的全部詞型比較所得到的相關(guān)系數(shù),兩個(gè)系數(shù)之和再除以2所得到的商[10-11]。
我們選取各個(gè)學(xué)派中最終等級(jí)排在前120位的詞型作為樣本,計(jì)算各學(xué)派之間的相關(guān)系數(shù)。匯總相關(guān)數(shù)據(jù),如表5所示。
表5 先秦各學(xué)派之間的相關(guān)系數(shù)
通過(guò)分析表5,能夠發(fā)現(xiàn)以下兩點(diǎn):
(1) 儒家和道家的相關(guān)系數(shù)最大,這是因?yàn)檫@兩個(gè)學(xué)派的思想接近,都認(rèn)同人性本善,提倡以道德為基礎(chǔ)的治國(guó)理念,具有“民本”思想。兵家和墨家的相關(guān)系數(shù)最小,這是因?yàn)閮蓪W(xué)派的思想差異較大,墨家宣揚(yáng)仁政,主張兼愛和非攻,而兵家文獻(xiàn)主要談?wù)撚帽?,分析取得軍事勝利的策略?/p>
(2) 道家與其他各家學(xué)派相關(guān)系數(shù)的均值最大,這說(shuō)明道家思想在先秦時(shí)期的影響力最強(qiáng)。在當(dāng)時(shí),儒家思想的影響力也弱于道家,其他各家學(xué)派都在較大程度上受到道家思想的影響。兵家思想與其他各家學(xué)派相關(guān)系數(shù)的均值最小,這是因?yàn)楸宜枷氘吘故窃跇O特殊的戰(zhàn)爭(zhēng)時(shí)期才使用的策略,其他各家思想對(duì)戰(zhàn)爭(zhēng)都持有謹(jǐn)慎態(tài)度。
先秦諸家學(xué)派的特征詞研究所使用的語(yǔ)料,與各學(xué)派之間的相關(guān)度分析所使用的語(yǔ)料完全相同。諸家學(xué)派的特征詞研究實(shí)驗(yàn)方法共分四步,其中的前三步與各學(xué)派之間相關(guān)度分析方法的前三步完全相同,即都是要先選取各學(xué)派代表作,然后統(tǒng)計(jì)各代表作的詞頻,并依此確定詞型等級(jí)和做等值化處理,再確定各學(xué)派的共有詞型和“最終等級(jí)”。
第四步是通過(guò)分析某學(xué)派各個(gè)詞型與其他各學(xué)派中相同詞型的等級(jí)之間差額大小,篩選出該學(xué)派特征系數(shù)較高的詞型。
第五步是篩選掉其中的虛詞,只保留特征系數(shù)較高的實(shí)詞作為該學(xué)派的特征詞。
我們通過(guò)計(jì)算學(xué)派中各個(gè)詞型的特征系數(shù),來(lái)篩選出學(xué)派中的特征詞。特征系數(shù)的取值范圍是正值、負(fù)值或零。計(jì)算詞型特征系數(shù)的方法如式(2)所示。
(2)
其中,Dj表示某個(gè)詞型在特定學(xué)派中的特征系數(shù),Di表示“某詞型在‘對(duì)比學(xué)派’中的最終等級(jí)”減去“該詞型在特定學(xué)派中的最終等級(jí)”所得到的差[12],n表示“對(duì)比學(xué)派”的數(shù)量,在本研究中,n的取值應(yīng)該大于或等于1,小于或等于4。
本研究中共有五家學(xué)派,在對(duì)比時(shí),我們是用一家學(xué)派與其他四家學(xué)派相比較,所以在本研究中n不會(huì)大于4。在用特定學(xué)派中的某個(gè)詞型與其他多家學(xué)派的詞型對(duì)比時(shí),有時(shí)該詞型不能在其他多家學(xué)派中也都出現(xiàn)。如果該詞型在其他學(xué)派中都沒有出現(xiàn),就無(wú)法計(jì)算其特征系數(shù),所以我們規(guī)定該詞型必須在另外至少1家學(xué)派中出現(xiàn),才把該詞型放在特征詞統(tǒng)計(jì)范圍之內(nèi)[13-14]。所以在本研究中,式(2)中的n的取值應(yīng)該大于或等于1,小于或等于4。經(jīng)過(guò)統(tǒng)計(jì),我們發(fā)現(xiàn)各個(gè)學(xué)派中符合此條件的詞型數(shù)量是: 儒家882個(gè)、道家663個(gè)、法家1 016個(gè)、兵家489個(gè)、墨家1 377個(gè)。從表3中可以看到,儒家、道家、法家、兵家和墨家的共有詞型數(shù)分別為978個(gè)、714個(gè)、1 129個(gè)、503個(gè)、3 920個(gè),除墨家以外,其他各家學(xué)派符合此條件的詞型數(shù)均占各家共有詞型數(shù)的89%以上。
由式(2)可以看出:
(1) 詞型的特征系數(shù)是與特定學(xué)派聯(lián)系在一起的,是在特定學(xué)派中的特征系數(shù),同一詞型在不同學(xué)派中的特征系數(shù)是不同的。
(2) 當(dāng)特定學(xué)派中某詞型的特征系數(shù)為正值時(shí),表示該詞型在特定學(xué)派中所處的等級(jí)位置是比較靠前的,高于該詞型在多家“對(duì)比學(xué)派”中的等級(jí)均值;當(dāng)特征系數(shù)為負(fù)值時(shí),表示該詞型在特定學(xué)派中所處的等級(jí)位置是比較靠后的,低于該詞型在多家“對(duì)比學(xué)派”中的等級(jí)均值;當(dāng)特征系數(shù)為零時(shí),表示該詞型的在特定學(xué)派的等級(jí)值等同于該詞型在多家“對(duì)比學(xué)派”中的等級(jí)均值。
使用該方法,計(jì)算各家學(xué)派中所有詞型的特征系數(shù),按照特征系數(shù)的大小降序排列,并且篩除虛詞只保留實(shí)詞。表6中列舉出各學(xué)派特征系數(shù)最大的30個(gè)詞型。
表6 先秦各學(xué)派的特征詞及其特征系數(shù)
通過(guò)分析表6,能夠發(fā)現(xiàn)以下兩點(diǎn):
(1) 使用本方法所篩選出的各學(xué)派特征詞與各學(xué)派的思想主題是相符的,能夠代表各學(xué)派的思想特征。例如,儒家學(xué)派的特征詞有“孔子”“仁”“君子”“問”“禮”“學(xué)”等,這與儒家主題特征是相符的[15];道家的特征詞有“德”“聖人”“物”“生”“始”“天下”“道”等,與道家主題特征是相符的;法家學(xué)派的特征詞有“主”“法”“私”“官”“刑”“明”“治”“令”“賞”等,與法家的主題特征相符[16];兵家的特征詞有“軍”“戰(zhàn)”“敵”“兵”“擊”“勝”“地”“進(jìn)”等,與兵家的主題特征相符[17];墨家的特征詞有“尺”“城”“愛”“兼”“天”“鬼”“義”等等,與墨家的主題特征相符[18]。
(2) 由以上分析發(fā)現(xiàn),我們所提出的特征詞計(jì)算方法是完全可行的,可以在同類研究中推廣使用。
先秦諸家思想對(duì)后世影響深遠(yuǎn),歷來(lái)研究者眾多,但以往的研究全都是對(duì)諸家思想的異同作定性地分析和評(píng)論。本文首次采用計(jì)算語(yǔ)言學(xué)方法對(duì)先秦諸家思想的異同做定量的統(tǒng)計(jì)和比較,先分別找出各家學(xué)派中的共有詞型序列,然后計(jì)算各學(xué)派高頻詞型等級(jí)之間斯皮爾曼等級(jí)相關(guān)系數(shù),經(jīng)過(guò)數(shù)據(jù)統(tǒng)計(jì)之后發(fā)現(xiàn)儒道兩學(xué)派之間的相關(guān)度最高,兵墨兩學(xué)派之間的相關(guān)度最低;道家與其他各學(xué)派之間的相關(guān)系數(shù)的均值最大,說(shuō)明先秦時(shí)期道家對(duì)其他學(xué)派的影響力最大。本文還通過(guò)計(jì)算各學(xué)派詞型等級(jí)之間的差異度,來(lái)獲取各個(gè)學(xué)派的主題特征詞,這些特征詞能夠反映出各個(gè)學(xué)派的主要思想特征。