名詞分布是人類語言的不變量嗎？
——以德語書面語中名詞分布為例

2019-03-27 11:36:36段庭輝劉海濤

浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版)預(yù)印本 2019年10期

李媛段庭輝劉海濤

(1.浙江大學(xué) 外國語言文化與國際交流學(xué)院，浙江杭州 310058；2.耶拿大學(xué) 日耳曼語言學(xué)系，圖林根耶拿 07745)

一、引言

詞類分布是語言的一個(gè)重要不變量，它不僅能表現(xiàn)語言的共性，也能反映語言的特點(diǎn)[1]。Hudson認(rèn)為，隨機(jī)選取的詞屬于某一特定詞類的概率似乎是有規(guī)律的，但這一點(diǎn)我們卻完全沒有意識到[2]339。在任何一種語言中，名詞均數(shù)量龐大。名詞能夠表達(dá)自然界和人類社會(huì)各種事物的名稱,具有豐富的語法功能,在語言的基本單位之一句子中發(fā)揮著不可或缺的作用。此外，其他詞類的占比均與名詞占比相關(guān)[3]。因此，名詞分布研究的重要性不言而喻。

Hudson在對兩個(gè)大型英語語料庫研究的基礎(chǔ)上指出，名詞在英語書面語中的比例約為37%[2]。劉海濤對漢語的研究結(jié)果顯示，漢語中名詞占全部詞數(shù)的比例為39.29%[4]。Liang和Liu對比了包括德語在內(nèi)的七種語言中名詞的占比，發(fā)現(xiàn)在所有七種語言中，名詞所占比例均約為37%[5]。這項(xiàng)跨語言研究在一定程度上有助于我們理解名詞占比在人類語言中的穩(wěn)定性，但由于其語料、語體、統(tǒng)計(jì)方法的局限性，并沒有完全回答名詞分布的穩(wěn)定性問題。此外，研究雖引用了前人得出的名詞占比與文體有關(guān)的結(jié)論[3]2，但并未使用數(shù)據(jù)驗(yàn)證，也未探討還有哪些因素可能會(huì)對名詞占比產(chǎn)生影響。

名詞分布是人類語言的不變量嗎？為了更好地回答這一問題，我們嘗試尋找與英語語料庫更具可比性的德語平衡語料庫，并采用相同的統(tǒng)計(jì)方法對其進(jìn)行研究。之所以研究德語，是因?yàn)榈抡Z和英語雖同屬印歐語系西日耳曼語支，但兩種語言在構(gòu)詞形式上不盡相同。就名詞而言，一方面，德語的復(fù)合名詞比例高，信息相對集中，可能導(dǎo)致名詞的總量小于其他語言；另一方面，德語尤其是科技德語中的名詞化結(jié)構(gòu)多，名詞占比也許會(huì)因此高于其他語言?；谶@些原因，我們認(rèn)為采用德語語料庫對德語名詞分布進(jìn)行研究，有助于理解名詞占比在人類語言中是否穩(wěn)定不變的問題。而為了準(zhǔn)確回答這一問題，需要對以下三個(gè)方面進(jìn)行深入研究：德語中名詞的占比是多少？這一比例的高低是否與文體相關(guān)？時(shí)間因素與名詞占比有關(guān)系嗎？

因此，本文基于德國柏林—勃蘭登堡科學(xué)院的大型語料庫DWDS-Kernkorpus、Deutsches Textarchiv(DTA)以及圖賓根大學(xué)計(jì)算機(jī)語言學(xué)研究所的依存樹庫TüBa-D/Z，對德語書面語中的名詞所占比例進(jìn)行研究，并且針對不同文體和不同時(shí)期語料之間的差異進(jìn)行探討。DWDS-Kernkorpus包含20世紀(jì)不同文體的德語書面語及口語語料。由于本文的研究重點(diǎn)是書面語，在進(jìn)行統(tǒng)計(jì)時(shí)將口語語料的數(shù)據(jù)排除在外。該語料庫書面語部分的單詞總數(shù)超過1億，包含文學(xué)作品、應(yīng)用文、學(xué)術(shù)論文和報(bào)刊文章四類不同文體[6]。DTA收錄了1473年到1969年間共3 527篇語料，包含與DWDS-Kernkorpus語料庫對應(yīng)的四種文體，總詞數(shù)約1.5億[7]。TüBa-D/Z語料庫的語料來源為1989年到1999年間發(fā)表于德國主流媒體DieTageszeitung(《日報(bào)》)上的3 644篇文章，總詞數(shù)約為150萬[7]。

二、德語中名詞的占比

Hudson[2]對名詞的統(tǒng)計(jì)基于Brown[8]和LOB[9]兩個(gè)英語語料庫。其中Brown語料庫收錄了1961年在美國出版和發(fā)行的500篇文章，共計(jì)約100萬個(gè)單詞，涵蓋了15類不同的文體；而LOB語料庫是對應(yīng)Brown語料庫的英式英語語料庫，收錄了1961年在英國出版和發(fā)行的500篇文章，規(guī)模同樣在100萬個(gè)單詞左右，涵蓋了與Brown語料庫相對應(yīng)的15類不同文體。Hudson對名詞占比的統(tǒng)計(jì)基于Francis等[8]和Johansson等[9]所提供的原始數(shù)據(jù)，其統(tǒng)計(jì)結(jié)果如表1所示[2]332：

表1 Brown和LOB數(shù)據(jù)庫中的名詞占比

為了使我們的研究結(jié)果與Hudson[2]得出的結(jié)果具備可比性，我們在對德語中名詞的占比進(jìn)行統(tǒng)計(jì)之前，首先考察了Hudson對名詞的界定。他在得出名詞占比約為37%的結(jié)論時(shí)，將普通名詞、專有名詞和代詞都算作名詞，而這三個(gè)詞類又各自包含多個(gè)子類，其中普通名詞包括詞類標(biāo)記符號為“CD...”“NN...”“AP$”“APS...”的單詞，專有名詞包括詞類標(biāo)記符號為“NP...”“NC”“NR...”的單詞，代詞包括詞類標(biāo)記符號為“P...”“W...”“EX”的單詞。以上詞類標(biāo)記符號的具體含義在Francis等[8]和Johansson等的研究[9]中有詳細(xì)說明。

此外，我們注意到，Hudson在其論述中沒有說明是否將標(biāo)點(diǎn)符號算作單詞。為了澄清這一問題，我們基于Francis等[8]和Johansson等[9]的原始數(shù)據(jù)對Hudson的統(tǒng)計(jì)結(jié)果進(jìn)行了重新驗(yàn)證，結(jié)果如表2所示：

表2 Brown和LOB數(shù)據(jù)庫中的名詞占比(不含標(biāo)點(diǎn)和含標(biāo)點(diǎn))

表2中，“占比1”一列中的數(shù)據(jù)由名詞的數(shù)量除以所有單詞(不含標(biāo)點(diǎn)符號)的數(shù)量得出，根據(jù)這一標(biāo)準(zhǔn)，Brown語料庫和LOB語料庫的名詞占比分別為36.75%和35.85%；“占比2”一列中的數(shù)據(jù)由名詞的數(shù)量除以所有單詞(包含標(biāo)點(diǎn)符號)的數(shù)量得出，根據(jù)這一標(biāo)準(zhǔn)，Brown語料庫和LOB語料庫的名詞占比分別為32.76%和31.40%。可以看出，“占比1”中的數(shù)據(jù)與Hudson所統(tǒng)計(jì)出的數(shù)據(jù)(見表1)相符，說明Hudson在進(jìn)行統(tǒng)計(jì)時(shí)沒有計(jì)入標(biāo)點(diǎn)符號。

按照Hudson的統(tǒng)計(jì)方法和對名詞的界定標(biāo)準(zhǔn)，我們對DWDS-Kernkorpus(總單詞數(shù)102 698 905)以及TüBa-D/Z(總單詞數(shù)1 525 688)中的名詞占比進(jìn)行了統(tǒng)計(jì)，并將統(tǒng)計(jì)結(jié)果同Brown和LOB語料庫進(jìn)行比較，其結(jié)果如表3所示：

表3 四個(gè)語料庫中的名詞占比

由于兩個(gè)德語語料庫所采用的STTS標(biāo)記集[9]與Brown和LOB語料庫所采用的標(biāo)記集不同，我們在對STTS進(jìn)行仔細(xì)分析的基礎(chǔ)上找出了對應(yīng)Hudson劃分的三個(gè)名詞子類的各個(gè)詞類，其中普通名詞包括CARD、NN以及TRUNC，專有名詞包括NE，代詞包括PIAT、PIDAT、PIS、PPER、PPOSAT、PPOSS、PRELAT、PRELS、PRF、PWAT、PWAV、PWS。

基于上述分析，提出了一種復(fù)雜情境感知下用戶聚類協(xié)同推薦算法（Collaborative Filtering Recommendation Algorithm of User Clustering based on Complex Circumstance Awareness,UCCA-CF）。實(shí)驗(yàn)結(jié)果表明，該算法在降低推薦計(jì)算量的同時(shí)，提升了推薦質(zhì)量。

根據(jù)Hudson[2]的描述，他在統(tǒng)計(jì)名詞時(shí)沒有將this、that等指示代詞統(tǒng)計(jì)進(jìn)去，其原因或許為Brown語料庫和LOB語料庫的詞類標(biāo)記集中沒有對形容詞性的指示代詞和名詞性的指示代詞進(jìn)行區(qū)分，二者都被標(biāo)記為DT(Determiner[9]12)。如在句子“This apple is good.”中，this為形容詞性的DT，并不能算作嚴(yán)格意義上的代詞；而在句子“This is interesting.”中，this為名詞性的DT，是嚴(yán)格意義上的指示代詞。而在通行的德語詞類標(biāo)記集STTS中，對形容詞性的指示代詞和名詞性的指示代詞進(jìn)行了區(qū)分，分別被標(biāo)記為PDAT(形容詞性指示代詞)和PDS(名詞性指示代詞)[10]。為了同Hudson的劃分標(biāo)準(zhǔn)保持一致，我們在統(tǒng)計(jì)德語的代詞時(shí)也沒有將二者計(jì)入。

表3顯示，四個(gè)語料庫中名詞所占比例基本相當(dāng)：兩個(gè)德語語料庫中名詞所占比例分別為37.92%和38.02%，兩個(gè)英語語料庫中名詞所占比例分別為36.75%和35.85%。由此可見，從名詞占比來看，德語和英語具有相似的詞類分布特征，符合人類語言的普遍規(guī)律。

三、名詞分布與文體的關(guān)系

在對表3進(jìn)行細(xì)致觀察后我們發(fā)現(xiàn)，TüBa-D/Z語料庫中各個(gè)名詞子類的占比與其他三個(gè)數(shù)據(jù)庫差異較大，其中普通名詞和專有名詞的比例都高于其他三個(gè)語料庫，而代詞的比例明顯低于其他三個(gè)語料庫。由于TüBa-D/Z所包含的文體單一，只收錄了報(bào)刊文章，我們猜測這是不同的文體特征所導(dǎo)致的差異。下面我們將對四個(gè)語料庫中的不同文體進(jìn)行歸類，進(jìn)一步研究它們對名詞所占比例的影響。

如上文所述，Brown語料庫和LOB語料庫都包含了15類不同的文體。其中報(bào)刊報(bào)道(Press: Reportage)、報(bào)刊社論(Press: Editorial)、報(bào)刊書評(Press: Reviews)、宗教類文章(Religion)、技能與愛好類文章(Skills and Hobbies)、民間傳說(Popular Lore)、嚴(yán)肅文學(xué)(Belles Lettres)、傳記(Biography)、紀(jì)念性文章(Memoirs etc.)、雜文(Miscellaneous)及知識類文章(Learned)被歸并為信息類文體(INFORMATIONAL)，而其余的文體，如通俗小說(General Fiction)、神話與偵探小說(Mystery and Detective Fiction)、科幻小說(Science Fiction)、冒險(xiǎn)與西部文學(xué)(Adventure and Western Fiction)、浪漫與愛情故事(Romance and Love Story)及幽默文章(Humor)被歸并為想象類文體(Imaginative)。Hudson[2]對這兩大類文體中詞類的分布情況進(jìn)行了對比，結(jié)果顯示，無論在Brown語料庫還是LOB語料庫中，普通名詞在信息類文體中的平均比例都比其在想象類文體中的比例高出約7個(gè)百分點(diǎn)。與此同時(shí)，信息類文體中代詞的比例則比其在想象類文體中的比例約低8個(gè)百分點(diǎn)。而專有名詞在兩大類文體中的比例基本一致[2]332(見表4)。

表4 英語普通名詞、專有名詞和代詞在信息類文體和想象類文體中所占比例

為了考察上述差異是否在德語的不同文體中也存在，我們將DWDS-Kernkorpus所包含的四個(gè)不同文體的子語料庫也按信息類文體和想象類文體兩大類進(jìn)行拆分合并，其中信息類文體包括應(yīng)用文(Gebrauchsliteratur)、學(xué)術(shù)論文(Wissenschaft)和報(bào)刊文章(Zeitung)，想象類文體包括文學(xué)作品(Belletristik)。經(jīng)統(tǒng)計(jì)，名詞各個(gè)子類在兩類文體中所占比例如表5所示。

表5顯示，在德語書面語中，普通名詞在信息類文體中的比例為25.30%，比其在想象類文體中的比例高出約7個(gè)百分點(diǎn)；而代詞在信息類文體中的比例則比其在想象類文體中的比例約低7個(gè)百分點(diǎn)，只有想象類文體的一半。這一差異與Hudson所得出的英語書面語中兩類文體之間的差異基本一致。信息類文本需要描述并傳輸信息，所以需要更多使用普通名詞，特別是普通名詞中多具抽象性的派生名詞[11]。而想象類文體，比如文學(xué)作品重在敘述情節(jié)，由于情節(jié)的連貫性，會(huì)較多使用代詞指代前文提到的時(shí)間、地點(diǎn)和人物等，加強(qiáng)文本各部分的銜接。對于這一現(xiàn)象，F(xiàn)rancis等[8]、Biber[12]以及Tuldava[13]也做了類似的解釋，他們均指出，典型敘事性文章的文體特征之一是“較多地使用人稱代詞”。方夢之同樣發(fā)現(xiàn)代詞詞頻隨著文體正式程度的降低而增加，他比較了從美國商務(wù)出版局PB報(bào)告到短篇小說的11篇文體正式程度漸次降低的英語語料，發(fā)現(xiàn)后者的代詞分布數(shù)量是前者的10余倍，“小說中人稱代詞和物主代詞滿目皆是，在許多科技文獻(xiàn)中它們卻寥若星辰”[14]。

表5 DWDS-Kernkorpus語料庫中不同文體的名詞占比

此外，信息類文體，特別是應(yīng)用文、學(xué)術(shù)論文有一定的專業(yè)性和目標(biāo)指向，為了確保語義精確，需要較多使用概念等專有名詞。我們觀察到，專有名詞在德語不同文體中的比例差異確實(shí)較大：在信息類文體中是5.38%，而在想象類文體中是3.26%，與Hudson的結(jié)果(信息類文體5%，想象類文體4%)基本一致，支持了Biber等[15]的研究結(jié)論，即信息類文體特別是科學(xué)論文中專有名詞占有突出地位。

在本部分開頭我們曾提到，TüBa-D/Z語料庫中各個(gè)名詞子類的占比與其他三個(gè)語料庫中的占比差異較大，并猜測是不同的文體特征導(dǎo)致了這一差異。為了驗(yàn)證這一猜測，我們對Brown語料庫、LOB語料庫以及DWDS-Kernkorpus語料庫中報(bào)刊文章中的名詞占比進(jìn)行了單獨(dú)統(tǒng)計(jì)。如表6所示，TüBa-D/Z語料庫中各個(gè)名詞子類的比例與其他三個(gè)語料庫中的媒體類語料(報(bào)刊文章)相比不再有顯著差異。由此可以證實(shí)名詞子類占比的差異確實(shí)是由不同的文體特征所決定的。

表6 四個(gè)語料庫中媒體類語料的名詞占比

其實(shí)，報(bào)刊中專有名詞使用頻率高，是有其特殊原因的。正如魏欣欣和林大津?qū)τ⒄Z新聞?dòng)迷~特點(diǎn)的研究所顯示的，報(bào)刊的讀者群較為寬泛，文化程度高低不一，這就要求記者盡量使用大多數(shù)人能理解而又生動(dòng)形象的詞語。其中較有效的手段之一是“經(jīng)常在新聞報(bào)道中借用各國首都或大城市等地名、政府首腦名稱、標(biāo)志性建筑物名稱，來指代該國或其政府及有關(guān)機(jī)構(gòu)”[16]87。

綜上，與前人研究的結(jié)論一致[3]2，德語名詞的占比與文體相關(guān)。此外，本文基于大型語料庫的研究還發(fā)現(xiàn)，普通名詞、專有名詞和代詞這三類詞在德語不同文體中的占比與在英語的相應(yīng)文體中的占比基本相同，顯然，文體對名詞分布的影響也是自然語言的普遍規(guī)律。

四、名詞分布與時(shí)間的關(guān)系

在表6中我們看到，在對媒體類文章中的名詞占比進(jìn)行單獨(dú)統(tǒng)計(jì)時(shí)，各個(gè)語料庫之間的數(shù)據(jù)差異有所減小。盡管如此，差異仍然存在。由于各個(gè)語料庫所收錄文章的生成時(shí)間不同，我們無法排除語言歷時(shí)性發(fā)展對名詞所占比例的影響。為了進(jìn)一步考察時(shí)間因素對這一問題的影響，我們專門提取出DWDS-Kernkorpus與TüBa-D/Z中同一時(shí)期即20世紀(jì)90年代的報(bào)刊文章，將其與DWDS-Kernkorpus語料庫所有時(shí)期報(bào)刊文章中的名詞占比進(jìn)行對比，其結(jié)果如圖1所示。

圖1 德語名詞在20世紀(jì)90年代報(bào)刊文章(中、右)和20世紀(jì)所有報(bào)刊文章(左)中的占比

我們發(fā)現(xiàn)，DWDS-Kernkorpus、TüBa-D/Z所收錄的20世紀(jì)90年代的報(bào)刊文章中名詞各個(gè)子類占比之和分別為38.68%、38.02%，均接近整個(gè)20世紀(jì)報(bào)刊文章的名詞占比38.3%。從這一方面來看，我們無法得出時(shí)間因素對名詞占比有影響的結(jié)論。另一方面，通過對普通名詞、專有名詞和代詞三個(gè)名詞子類占比的分布情況進(jìn)行觀察可以得出，DWDS-Kernkorpus所收錄的20世紀(jì)90年代的報(bào)刊文章中普通名詞和專有名詞的比例25.46%、5.68%和整個(gè)20世紀(jì)報(bào)刊文章這兩個(gè)子類的比例25.78%、5.11%基本一致，而代詞的比例也較為接近，這一特征與TüBa-D/Z中的情況一致。由此，在對20世紀(jì)報(bào)刊語料研究的基礎(chǔ)上，可以得出名詞占比的歷時(shí)性變化沒有顯著性差異的結(jié)論。

這是否與20世紀(jì)90年代本身就是20世紀(jì)的一部分有關(guān)？我們的研究是否應(yīng)該在更廣闊的歷史維度中進(jìn)行？為了進(jìn)一步研究名詞占比的歷時(shí)性變化，我們又考察了一個(gè)時(shí)間跨度為500年的大型語料庫，即DTA(1)http://www.deutschestextarchiv.de/, 2019-09-02.。DTA語料庫是歷史語料篇章語料庫，收錄了1473—1969年間共3 527篇語料，包含與DWDS-Kernkorpus語料庫對應(yīng)的四種文體(文學(xué)作品、應(yīng)用文、學(xué)術(shù)論文和報(bào)刊文章)，總計(jì)詞數(shù)約1.5億(不含標(biāo)點(diǎn)，156 446 847單詞)。我們在統(tǒng)計(jì)DTA語料庫的名詞占比時(shí)，排除了124篇沒有進(jìn)行文體標(biāo)記的語料和427篇外來詞比例過高(大于5%)的文章，最終用于統(tǒng)計(jì)的語料共2 976篇，單詞量約1.33億。按照50年一個(gè)時(shí)段，對1500—1949年共9個(gè)時(shí)間段的名詞占比進(jìn)行了統(tǒng)計(jì)，結(jié)果如圖2所示。

圖2顯示，16—20世紀(jì)，名詞的總體比例基本保持不變，始終在35%到40%之間，但名詞各個(gè)子類的占比呈現(xiàn)出明顯的歷時(shí)性變化。具體來說，普通名詞的占比在過去的5個(gè)世紀(jì)中持續(xù)增長，從16世紀(jì)初的約14%增加到20世紀(jì)的約25%；與此同時(shí)，代詞的占比持續(xù)降低，從約17%下降到了約10%；而專有名詞的比例變化微小。

圖2 DTA語料庫16—20世紀(jì)名詞占比歷時(shí)變化

關(guān)于(德語)名詞內(nèi)部各子類間的這一動(dòng)態(tài)歷時(shí)性變化，目前國內(nèi)外均尚未有文獻(xiàn)提及，是本文的新發(fā)現(xiàn)。這一變化應(yīng)源于社會(huì)形態(tài)、科學(xué)技術(shù)和語言本身的發(fā)展。隨著社會(huì)關(guān)系日益復(fù)雜，新生事物增多，人們對客觀世界的認(rèn)知不斷加深且更加精準(zhǔn)，人們在運(yùn)用語言進(jìn)行交流時(shí)對普通名詞的需求也逐漸增加。《杜登詞典》1880年首次出版時(shí)有27 000個(gè)詞條，如今已增加到145 000個(gè)。2017年第27版與2013年第26版相比，新增從時(shí)事、科技、生活和口語中吸收的新鮮詞5 000個(gè)，其中絕大部分是名詞(2)https://www.duden.de/presse/5-000-Woerter-staerker-Der-neue-Duden-ist-da, 2019-09-05.。

與此同時(shí)，隨著政治、經(jīng)濟(jì)、科技、教育、文化等領(lǐng)域的發(fā)展，總體來說，德語呈現(xiàn)出簡單、經(jīng)濟(jì)與實(shí)用的發(fā)展趨勢[17]178-187。一方面，人們在語言使用上追求“語言經(jīng)濟(jì)性原則”；另一方面，德語書面語出現(xiàn)了越來越多的口語特征[18]377。德語本身出現(xiàn)了一些變化，比如：二格使用減少，二格由復(fù)合詞替代；復(fù)合詞增多，替代關(guān)系從句；分詞短語或名詞化結(jié)構(gòu)替代從句表達(dá)增多[19]25；句子變短、從句減少[18]377；名詞化結(jié)構(gòu)增多的趨勢明顯[20]212。這些變化均直接導(dǎo)致代詞的減少。或許這一變化不是德語的獨(dú)特發(fā)展規(guī)律，而是與名詞占比一樣，具有跨語言的普遍性。未來我們將通過對其他語言的歷史語料庫進(jìn)行研究來驗(yàn)證上述假設(shè)。

上述研究是基于DWDS-Kernkorpus和Tüba-D/Z語料庫收錄的20世紀(jì)報(bào)刊文章，從中并沒有得出名詞占比具有歷時(shí)性變化這一結(jié)論，因此，我們提取DTA語料庫中的報(bào)刊類文章進(jìn)行專門研究。鑒于DTA語料庫中1700年前的報(bào)刊文章數(shù)量很小(僅5篇)，可以忽略不計(jì)，我們只對18—20世紀(jì)的語料進(jìn)行了研究，其名詞比例統(tǒng)計(jì)結(jié)果如圖3所示。

結(jié)果顯示，DTA語料庫中報(bào)刊文章中的名詞比例呈現(xiàn)出與整個(gè)語料庫類似的歷時(shí)性變化趨勢。同時(shí)，名詞各個(gè)子類的占比也體現(xiàn)出顯著的文體特征，即報(bào)刊文章中普通名詞和專有名詞相對于其他文體的比例較高，這與上文對DWDS-Kernkorpus進(jìn)行研究得出的結(jié)論一致。由此可見，時(shí)間因素與文體類型均對名詞各個(gè)子類的占比有顯著影響，但名詞的總體比例并未受二者影響。換言之，跨越500年的數(shù)億真實(shí)語料告訴我們名詞分布可能真的就是人類語言的一個(gè)不變量，但與此同時(shí)，不變中也蘊(yùn)含著變化。這種變與不變之間的交互作用恰好體現(xiàn)了人類語言作為一種人驅(qū)復(fù)雜適應(yīng)系統(tǒng)的特質(zhì)[21]。

圖3 DTA語料庫17—20世紀(jì)報(bào)刊文章中名詞占比歷時(shí)變化

五、結(jié) 語

本文以Hudson對英語中名詞占比的研究、Liang和Liu對包括漢語在內(nèi)的多種語言中名詞占比的研究為出發(fā)點(diǎn)和研究范式，對德語書面語的名詞占比進(jìn)行了計(jì)量研究。通過對德國柏林—勃蘭登堡科學(xué)院的大型語料庫DWDS-Kernkorpus、DTA以及圖賓根依存樹庫TüBa-D/Z進(jìn)行分析，得出如下結(jié)論：首先，德語書面語中的名詞所占比約為38%，盡管德語復(fù)合名詞比例高、名詞化結(jié)構(gòu)多，但其名詞占比同英語以及其他語言中的名詞占比大致相符，從而進(jìn)一步證實(shí)了人類自然語言中名詞占比具有普遍規(guī)律這一結(jié)論；其次，不同文體中名詞及其各子類的占比有所差異，而這一差異由文體特征所決定，并且具有跨語言的相似性；最后，我們在對過去幾個(gè)世紀(jì)的語料進(jìn)行研究的基礎(chǔ)上，得出了時(shí)間因素與文體類型均對名詞各個(gè)子類占比有顯著影響，但名詞總體比例未受二者影響的結(jié)論。綜上，我們可以認(rèn)為，名詞分布是人類語言的不變量。名詞內(nèi)部普通名詞的比例不斷上升，而代詞比例逐漸下降這一新發(fā)現(xiàn)，則有待深入研究。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

名詞分布是人類語言的不變量嗎？——以德語書面語中名詞分布為例

一、 引 言

二、 德語中名詞的占比

三、 名詞分布與文體的關(guān)系