• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      四大名著文本中的無標度規(guī)律

      2019-03-26 03:56:48孫龍龍顧長貴吳果林
      上海理工大學(xué)學(xué)報 2019年1期
      關(guān)鍵詞:字數(shù)標度信息量

      孫龍龍,顧長貴,馮 靖,吳果林

      (1.上海理工大學(xué) 管理學(xué)院,上海 200093;2.上海工程技術(shù)大學(xué) 高等職業(yè)技術(shù)學(xué)院,上海 200437;3.桂林航天工業(yè)學(xué)院 理學(xué)院,桂林 541004)

      近年來,國內(nèi)外許多學(xué)者都對文本語言內(nèi)的無標度規(guī)律進行了詳細的研究,并且取得了很多重要的成果。但前人大多數(shù)的研究對象都是英文文本,并且大多都是在單詞層面,忽略了文本語言在其他層次上的無標度規(guī)律。本文的研究主要針對中文文本在句子、段落層次的無標度規(guī)律進行展開。

      1 文字的無標度規(guī)律

      人類語言學(xué)是非常復(fù)雜的社會系統(tǒng)[1],是人類文化在社會以及生物層面長時間演化的結(jié)晶[2]。在過去的一百年里,統(tǒng)計理論的日益完善,使得人類語言學(xué)的研究得到了長足的發(fā)展。其中,Zipf[3]提出了著名的Zipf’s定律。它的主要思想是將單詞按照其出現(xiàn)頻率進行排序,頻率最高的單詞標記為等級1(rank 1),頻率第二高的單詞標記為等級2(rank 2)……依次排列,在雙對數(shù)坐標系里單詞頻率與等級標號呈現(xiàn)負相關(guān)規(guī)律。由Zipf’s定律,文獻[4]中將Holy Bible翻譯成多種語言,研究了每一種語言的Zipf指數(shù)。文獻[5]對日文文本中平假名文字頻率分布進行研究,指出日文中平假名的出現(xiàn)頻率服從weibull分布的論點。文獻[6]中指出了中文漢字出現(xiàn)頻率服從冪律分布的特點。

      對于語言內(nèi)部存在的無標度規(guī)律(冪律分布)現(xiàn)象,許多學(xué)者也作了深入的研究。Altmann等[7]解釋了無標度規(guī)律在單詞層次和單詞字母層次之間的演化。Deng等[8]對中國近現(xiàn)代小說從漢字使用頻率角度加以研究,發(fā)現(xiàn)漢字的使用具有無標度規(guī)律現(xiàn)象。Montemurro等[9]和Bhan等[10]使用去趨勢波動分析法(detrended flutuation analysis,DFA)對英文文本和韓文文本加以分析,發(fā)現(xiàn)英語和韓語內(nèi)部存在的無標度規(guī)律。在文獻[11-12]中,Ausloos和Gillet將英文文本轉(zhuǎn)化為世界語文本,同樣也得到了在英文文本和世界語文本中都存在無標度規(guī)律的性質(zhì)。以上研究大多使用去趨勢波動分析法分析非漢語語言文本的無標度規(guī)律。此外,去趨勢波動分析法還可以有效探測非平穩(wěn)性時間序列上的無標度規(guī)律,在DNA核苷酸序列、脈搏信號序列、金融時間序列、天氣預(yù)測方面都有極為廣泛的應(yīng)用[13-20]。

      目前對于語言文本無標度規(guī)律的研究大多基于單詞的層面,而沒有從語句和段落的更高層次對文本加以研究[19]。對語言文本而言,語句和段落是其重要的組成單元[20]。一方面,語句為單詞的使用提供了具體的語境,另一方面,語句的邏輯排列形成語句群、段落乃至整個文本,從而清楚地表達作者思想。此外,上述文獻的研究對象大都是英文文本,而很少有研究者對中文小說文本進行研究。然而,中文小說文本與西方文學(xué)作品有很大差別,即中國的漢字是由繪畫引申而來[21],其后漢字經(jīng)過幾千年的演化使得中國人的思想表達方式與西方有很大不同。概括而言,漢字語言是世界上最為成熟的語言之一,而對于漢字在語句和段落層次上的無標度規(guī)律的研究,卻很少有學(xué)者涉及。本文從語句層次以及段落層次使用去趨勢波動分析法對中國古代小說文本四大名著加以研究。

      2 四大名著文本數(shù)據(jù)

      2.1 數(shù)據(jù)來源

      本文所用到的數(shù)據(jù)均來自4大名著小說文本。四大名著是中國文學(xué)史中的經(jīng)典作品,它們分別是《紅樓夢》(A Dream of Red Mansions)簡記為ADRM,《三國演義》(The Romence of Three Kingdoms)簡記為TRTK,《水滸傳》(All Men are Brothers)簡記為AMAB,《西游記》(The Pilgrimage to the West)簡記為TPTW。表1給出了四大名著相關(guān)文本數(shù)據(jù)。

      表1 四大名著相關(guān)文本數(shù)據(jù)Tab.1 Related data of Four Great Classical Novels

      2.2 時間序列的提取

      本文分別從以上4本小說文本中提取每段字數(shù)時間序列、每段句子數(shù)時間序列和每句字數(shù)時間序列。忽略所有標點符號,僅計算每段漢字的個數(shù)Mt,來構(gòu)建每段字數(shù)時間序列;以句號(‘.’)、問號(‘?’)、感嘆號(‘!’)、省略號(‘……’)為一句話結(jié)束的標志并忽略其他標點符號,來統(tǒng)計每句話漢字數(shù)Mv和每段的句子數(shù)Mw,并構(gòu)建相應(yīng)的時間序列。圖1(a)為摘自《紅樓夢》中的一段文字,其中標記在紅框內(nèi)的標點符號為每句話結(jié)束的標志。圖1(b)為與上述文本相對應(yīng)的每句字數(shù)時間序列 ξi={27,20,13,21,11,15,···},其中Num(n)表示句子數(shù)目,Mv(n)表示每句話的漢字數(shù)目。

      圖1 文本向時間序列的轉(zhuǎn)化Fig.1 Translation from text to time series

      3 無標度規(guī)律分析方法

      去趨勢波動分析法是1994年由Peng等[13]基于DNA機理提出的標度計算方法。該方法適用于分析非平穩(wěn)性時間序列的長程相關(guān)性,其優(yōu)點是它可以有效濾去序列中的各階趨勢成分,并能檢測含有噪聲且疊加有多項式趨勢信號的長程相關(guān)[13-20]。假設(shè)一時間序列為其中N為序列長度。

      首先對該序列進行相空間重構(gòu),可得到一系列時間序列片段Yn:

      式中,s為去趨勢波動分析法中盒子的大小。

      其次,對每個時間序列片段用q階多項式

      如果原時間序列存在長期相關(guān)性,則有

      式中,H為標度指數(shù)(scaling exponent)。若H=0.5,則表明時間序列可用隨機游走過程來描述;若0.5

      計算過程中,多項式擬合函數(shù)中的階數(shù)q取2,即用最小二乘法擬合序列片段趨勢。用q值取2的多項式對序列片段進行擬合,使得每個標度范圍內(nèi)的數(shù)據(jù)點數(shù)目幾乎相同,提高了結(jié)果的準確性[19]。

      4 無標度規(guī)律分析結(jié)果

      4.1 無標度規(guī)律分析

      對四大名著每段句子數(shù)時間序列、每段字數(shù)時間序列、每句字數(shù)時間序列運用去趨勢波動分析法分析,結(jié)果如圖2所示。其中:lns為對盒子大小取對數(shù)值;lnDFA(s)為對漲落的大小取對數(shù)值。

      每段句子數(shù)時間序列和每段字數(shù)時間序列的標度指數(shù)H幾乎相同,且接近于0.60。每句字數(shù)時間序列的標度指數(shù)H則偏小,但其標度指數(shù)H值也接近于0.60。這說明中國四大名著小說無論在段落層次還是語句層次上均具有長程相關(guān)性,且標度指數(shù)H與Holy Bible[22]在單詞長度層次得到的標度指數(shù)H幾乎相同。這也進一步表明在中文小說文本中,其語言內(nèi)部無論是段落層次還是語句層次均存在固有的無標度規(guī)律。

      4.2 時序片段的分析

      為了更加細致地研究上述時間序列,對以上時間序列設(shè)置滑動窗口S,把時間序列劃分成相應(yīng)的時序片段,分別對每一個時序片段采用去趨勢波動分析法分析。每段句子數(shù)時間序列和每段字數(shù)時間序列的序列長為 103,且滑動窗口長度S=1 000,每句字數(shù)時間序列的序列長為1 04,且滑動窗口S取10 000。在每段字數(shù)時間序列結(jié)果中,《紅樓夢》和《水滸傳》兩本小說前后部分存在著標度指數(shù)的明顯變化,結(jié)果如圖3所示。圖3 中(e),(f),(g),(h)分別為《紅樓夢》、《三國演義》、《水滸傳》、《西游記》在各個時序片段上的擬合圖。其中:Num(n)表示滑動窗口的數(shù)目;H(n)表示對應(yīng)滑動窗口的標度指數(shù)。

      圖2 四大名著在各個層次的標度律Fig.2 Scaling behaviors of Four Great Classical Novels across all levels

      從圖3可以看出,《紅樓夢》和《水滸傳》的標度指數(shù)變化相對明顯,其變化區(qū)間分別為[0.55,0.65]和[0.52,0.71],且《紅樓夢》和《水滸傳》存在標度指數(shù)轉(zhuǎn)變點?!都t樓夢》的標度指數(shù)轉(zhuǎn)變點在第72章節(jié),且轉(zhuǎn)變點前或后標度指數(shù)相對穩(wěn)定?!端疂G傳》的標度指數(shù)轉(zhuǎn)變點L1在第67章節(jié),其轉(zhuǎn)變點之前的標度指數(shù)呈遞減趨勢,轉(zhuǎn)變點之后的標度指數(shù)呈遞增趨勢?!度龂萘x》和《西游記》的標度指數(shù)則無明顯變化,其浮動區(qū)間分別為[0.57,0.60]和[0.56,0.59]。分別對《紅樓夢》和《水滸傳》轉(zhuǎn)變點前后的標度指數(shù)做雙樣本t檢驗(two-samplettest),檢驗結(jié)果如表 2 所示。

      圖3 使用去趨勢波動分析法分析每段字數(shù)時序片段的結(jié)果Fig.3 DFA results of the time series’ segments for the number of characters in a paragraph

      對于《紅樓夢》和《水滸傳》,其標度指數(shù)轉(zhuǎn)變點前后差異顯著(P<0.001)。事實上,對于《紅樓夢》一書作者的爭議一直存在,當(dāng)下大眾比較認可的一種說法是《紅樓夢》由曹雪芹和高鶚兩人前后歷經(jīng)十幾年時間創(chuàng)作完成,其中曹雪芹創(chuàng)作了前80章節(jié),后40章節(jié)由高鶚在曹雪芹的思想影響下續(xù)寫完成[23]。而對于《水滸傳》一書的作者也存在很大爭議,普遍認為《水滸傳》一書是由施耐庵一人完成[24-26]。但也有人指出《水滸傳》是由施耐庵和羅貫中共同完成的,即“施耐庵的本,羅貫中編次”[27-29]。本文從數(shù)理統(tǒng)計的角度分析,發(fā)現(xiàn)了《紅樓夢》和《水滸傳》書中每段字數(shù)時間序列存在標度指數(shù)的轉(zhuǎn)變,且轉(zhuǎn)變點前后標度指數(shù)顯著變化。為了驗證上述發(fā)現(xiàn),本文從每段所含信息量的角度作了以下工作加以分析。

      表2 轉(zhuǎn)變點 L1前后雙樣本t檢驗結(jié)果Tab.2 Results of two-sample t test for the data before and after separation points L1

      令{Xi},i=1,2,···,Nv,表示每段字數(shù)時間序列;{Yi},i=1,2,···,Nv,表示每段句子數(shù)時間序列; {Zi},i=1,2,···,Nw,表示每句字數(shù)時間序列。其中,Nv表示段落數(shù),Nw表示句子數(shù)。則有:

      將每句字數(shù)時間序列 {Zi}均分成Nv段,每一段含有wv個元素,對每個片段運用香農(nóng)熵(Shannon entropy)[30-32]:

      由式(5),每一個片段會得到對應(yīng)的H(i)的值。在此將H(i)定義為每一段所包含的信息量,對每段信息量時間序列作去趨勢波動分析,其結(jié)果如圖4所示。

      圖4給出了四大名著每段信息量時間序列的標度行為,《紅樓夢》、《三國演義》、《水滸傳》、《西游記》的標度指數(shù)分別為0.62,0.62,0.65,0.59。由此可得,每段信息量時間序列的標度指數(shù)和每段字數(shù)時間序列的標度指數(shù)幾乎相同。

      為了理解《紅樓夢》和《水滸傳》兩本小說存在轉(zhuǎn)變點的現(xiàn)象,對每段信息量時間序列劃分時序片段,其序列長為1 03,且滑動窗口S取1 000。同樣對每個時序片段運用去趨勢波動分析法分析,結(jié)果如圖5所示。

      由圖5可知,《紅樓夢》和《水滸傳》的信息量時間序列也存在標度指數(shù)分段現(xiàn)象,《紅樓夢》的每段信息量時間序列標度指數(shù)的轉(zhuǎn)變點L2與每段字數(shù)時間序列的標度指數(shù)轉(zhuǎn)變點L1一致,均在第72章節(jié)?!端疂G傳》的每段信息量時間序列標度指數(shù)的轉(zhuǎn)變點L2在第62章節(jié)。對《紅樓夢》和《水滸傳》每段信息量轉(zhuǎn)變點前后進行差異性檢驗,表3列出了雙樣本t檢驗(two-samplettest)的檢驗結(jié)果。

      表3 轉(zhuǎn)變點 L2前后雙樣本t檢驗結(jié)果Tab.3 Results of two-sample t test for the data before and after separation pointsL2

      表2和表3結(jié)果表明,《紅樓夢》和《水滸傳》無論在每段字數(shù)時間序列,還是在每段所含信息量時間序列上,均存在標度指數(shù)的轉(zhuǎn)變現(xiàn)象,且轉(zhuǎn)變點前后的標度指數(shù)差異性顯著(P<0.008)。

      5 結(jié) 論

      前人在英文版的Holy Bible[22]中,使用去趨勢波動分析研究了由單詞長度構(gòu)成的時間序列,發(fā)現(xiàn)了標度指數(shù)接近為0.6的無標度規(guī)律。本文在更高的層次即在段落層次和語句層次上使用去趨勢波動分析我國的四大名著文本,即分析每一名著的每段句子數(shù)時間序列、每段字數(shù)時間序列和每句字數(shù)時間序列。研究發(fā)現(xiàn),中國四大名著在各個層次上存在標度律,且每個層次上的標度指數(shù)也都接近于0.60。這說明中文小說文本在各個層次上均滿足固有的無標度規(guī)律,且具有相似的長程相關(guān)性,各個層次相似的無標度規(guī)律表明中文文本從微觀層次到宏觀層次具有相似的長程關(guān)聯(lián)性,為重構(gòu)語言形成與發(fā)展的理論模型提供幫助。

      此外,本文還佐證了《紅樓夢》的作者為曹雪芹和高鶚兩人的說法,并支持《水滸傳》一書有很大可能是施耐庵與羅貫中合作完成的觀點。用去趨勢波動分析法對每段字數(shù)時間序列的時序片段以及每段信息量時間序列的時序片段分析,得出了《紅樓夢》和《水滸傳》這兩本小說在段落字數(shù)以及段落信息量上存在著標度指數(shù)的前后顯著差別?!都t樓夢》的標度指數(shù)轉(zhuǎn)變點為第72章節(jié),即其前72章節(jié)和后48章節(jié)在段落結(jié)構(gòu)和段落信息量上存在著前后變化,該轉(zhuǎn)變點現(xiàn)象與學(xué)者們認為的《紅樓夢》前80章由曹雪芹創(chuàng)作、后40章由高鶚完成的說法相接近。不同的標度指數(shù)表征不同作者的寫作習(xí)慣以及表達方式,在一定程度上標度指數(shù)可以作為區(qū)分不同作者的依據(jù)[20]。而對于《水滸傳》,其標度指數(shù)也存在轉(zhuǎn)變點現(xiàn)象,約為第70章節(jié),從而支持了《水滸傳》一書有很大可能是兩人共同編寫的結(jié)論,與當(dāng)下許多學(xué)者認為的《水滸傳》是“施耐庵的本,羅貫中編次”的說法不謀而合[27-29]。

      猜你喜歡
      字數(shù)標度信息量
      層次分析法中兩種標度的對比分析
      字數(shù)變多 有妙招
      基于信息理論的交通信息量度量
      如何增加地方電視臺時政新聞的信息量
      新聞傳播(2016年11期)2016-07-10 12:04:01
      加權(quán)無標度網(wǎng)絡(luò)上SIRS 類傳播模型研究
      “字數(shù)多”不等于“具體”
      快樂語文(2016年32期)2016-04-10 10:47:25
      基于多尺度互信息量的數(shù)字視頻幀篡改檢測
      計算機工程(2015年4期)2015-07-05 08:29:20
      基于聯(lián)合熵和交互信息量的視頻篡改檢測
      創(chuàng)新孵化網(wǎng)絡(luò)演化無標度特征仿真分析
      填字數(shù)獨游戲
      邯郸市| 威信县| 水城县| 凤城市| 恩施市| 苍梧县| 井研县| 读书| 九龙县| 旬邑县| 鄄城县| 桐柏县| 绵阳市| 南澳县| 吉林省| 葫芦岛市| 沁源县| 会宁县| 凭祥市| 公安县| 东丽区| 汶川县| 高淳县| 德阳市| 淮北市| 南宁市| 苏尼特左旗| 新乐市| 天长市| 平和县| 阿荣旗| 资中县| 甘泉县| 岑巩县| 英吉沙县| 屏边| 万载县| 姚安县| 息烽县| 湖口县| 宁城县|