在博客上研究詞匯問題
馮志偉
(杭州師范大學(xué),杭州,311121)
[中圖分類號]H319.1
doi[編碼] 10.3969/j.issn.1674-8921.2015.02.002
作者簡介:馮志偉,杭州師范大學(xué)教授、博士生導(dǎo)師。主要研究方向為語言學(xué)和計算機科學(xué)的跨學(xué)科研究。電子郵箱:zwfeng2010@hotmail.com
“博客”這個術(shù)語源于英文單詞Blog。Blog是Weblog的簡稱,Weblog是由Web和Log構(gòu)成的“定中結(jié)構(gòu)”合成詞,是互聯(lián)網(wǎng)上的一種流水記錄,可以看成是一種“網(wǎng)絡(luò)日志”。Blogger則是指那些記錄并使用Weblog的人。博客文章具有更新頻繁、短小精悍、個性鮮明的特點。鑒于這些特性,我們可以把博客視作一種現(xiàn)代化平臺,用其來進行語言學(xué)研究。
在傳統(tǒng)的語言學(xué)研究中,語言學(xué)家通常使用筆和紙作為工具來進行工作,把他們的研究成果記錄在方格的稿紙上,人們把這樣的研究方式叫做“爬格子”,我已經(jīng)“爬”了50多年的“格子”了。今天,我們進入了信息網(wǎng)絡(luò)時代,有了博客這種互聯(lián)網(wǎng)研究平臺,盡管我已經(jīng)進入了古稀之年,仍然下決心改變一下傳統(tǒng)的“爬格子”式語言學(xué)研究方式。于是,我大膽地于2010年在新浪上開了一個博客,名為“馮志偉文化博客”①,嘗試著在博客上研究語言學(xué)問題,至今已經(jīng)有四年多了。
在這四年多的時間內(nèi),我發(fā)表了一千多篇博文。它們當(dāng)然不能算作科學(xué)研究的成果,因為大部分是隨性而發(fā),沒有經(jīng)過反復(fù)的推敲,但正由于是隨性而發(fā),并且通過網(wǎng)絡(luò)發(fā)布,可以把很多想法及時地與網(wǎng)友們交流和討論,取得他們的支持和幫助,集思廣益,相互提升。我深深地認(rèn)識到,博客是一種快捷高效的學(xué)術(shù)交流手段,值得推廣。這里,我愿意敘述一下自己如何在“馮志偉文化博客”上與網(wǎng)友們交流,一步一步地深化對于詞匯重要性的認(rèn)識。
在2011年2月11日的博客中,我寫了一篇題為《英語中的詞匯歧義現(xiàn)象——一切語言都具有歧義》②的博文,其主要內(nèi)容如下:
一詞多義是自然語言中存在的普遍現(xiàn)象,在英語學(xué)習(xí)中,如果詞義理解錯誤,就不能正確地了解句子的意思。一詞多義現(xiàn)象也就是詞匯的歧義(lexical ambiguity)。
英語中的名詞、代詞、動詞、形容詞、連接詞、介詞都存在詞匯歧義,我們應(yīng)當(dāng)細(xì)心地加以辨別。這里我通過一些實例來說明。
——名詞中的歧義
多義詞、同形異義詞、單復(fù)數(shù)、縮寫詞都可能造成歧義。
?多義詞:具有多個涵義的詞位叫做多義詞,多義詞中的各個涵義是有聯(lián)系的。
例如,在句子John is a bachelor中,bachelor有兩個不同的意思,一個是“單身漢”(unmarried man),另一個是“學(xué)士”(first university degree),從而造成歧義。我們可以把這種情況寫為如下形式:
(1) John is a bachelor.
→John is an unmarried man.
John holds a first university degree.
這表示bachelor是一個多義詞,它的不同意思由箭頭后面的兩個句子表示出來。
其他關(guān)于名詞歧義的例子還有:
(2) John is a doctor.
→John is a medical doctor.
John is a doctor of philosophy.
doctor的涵義可以是“醫(yī)生”,也可以是“博士”。
(3) He is looking for his glasses.
→He is looking for his drinking glasses.
He is looking for his reading glasses.
glasses的涵義可以是“玻璃杯”,也可以是“眼鏡”。
(4) Here is a little lamb.
→Here is a small lamb.
Here is a small amount of lamb.
lamb的含義可以是“小羊”,也可以是“羊肉”。
?同形異義詞:詞形相同而意思不同的詞叫同形異義詞,同形異義詞中的各個涵義之間沒有聯(lián)系。例如:
(1) He looked at the bank.
→He looked at the river bank.
He looked at the money bank.
bank的涵義可以是“河岸”,也可以是“銀行”,從而造成歧義。據(jù)詞源學(xué)家考證:“河岸”的意義來自斯堪底納維亞語,“銀行”的意義來自意大利語。
(2) The rest of the army was insufficient.
→The period of sleep of the army was insufficient.
The remainder of the army was insufficient.
rest的涵義是“睡眠時間”,也可以是“剩余物資”。
?名詞的單復(fù)數(shù)形式相同也會造成歧義。例如:
(1) I saw the sheep graze in the field.
→I saw this sheep graze in the field.
I saw these sheep graze in the field.
sheep的單數(shù)形式和復(fù)數(shù)形式相同,此處因為難于辨別它的數(shù),所以造成歧義。
(2) They put the condemned to death.
→They put the condemned person to death.
They put the condemned persons to death.
condemned這個過去分詞形式作為名詞使用,難于辨別它是單數(shù)還是復(fù)數(shù),所以產(chǎn)生了歧義。
?縮寫詞造成的歧義。例如:
(1) He is a news reporter from ABC.
→He is a news reporter from Australian Broadcasting Company.
He is a news reporter from American Broadcasting Company.
縮寫詞ABC的涵義可以是“澳大利亞廣播公司”,也可以是“美國廣播公司”。
(2) In this book, he talks about WWW.
→In this book, he talks about the World Without War.
In this book, he talks about the World Wide Web.
縮寫詞WWW的涵義可以是“沒有戰(zhàn)爭的世界”,也可以是“互聯(lián)網(wǎng)”。
——代詞中的歧義
(1) Nobody said he was wrong.
→Nobody said he himself was wrong.
Nobody said the person in question was wrong.
代詞he究竟是指“說話人自己”還是指“所說的另一個人”,難以分辨。
(2) He shot himself.
→He killed himself by shooting
He shot personally.
himself究竟是指“自己射擊自己”,即“自殺”,還是指射擊人“親自射擊”,難以分辨。
(3) Everyone was eating a large cake.
→Everyone was eating a large cake together.
Everyone was eating a large cake respectively.
Everyone是指“大家共同吃一個大蛋糕”,還是“每個人分別吃一個大蛋糕”,難以分辨。
(4) Every sailor loves a girl.
→Every sailor loves his own girl.
Every sailor loves the same girl.
Every是指“每一個海員都喜歡自己的姑娘”,還是“每一個海員都喜歡同一個姑娘”,難以分辨。
——動詞中的歧義
(1) I heard the child crying.
→I heard the child weeping.
I heard the child shouting.
crying的涵義可以是“哭”,也可以是“喊叫”。
(2) John is drawing a cart.
→John is pulling a cart.
John is making a picture of a cart.
drawing的涵義可以是“拉動”,也可以是“作畫”。
(3) They never saw the wood.
→They never saw the wood with their own eyes.
They never cut the wood with a saw.
saw的涵義可以是“看”,也可以是“鋸”。
——形容詞中的歧義
(1) John is a poor mechanic.
→John is a mechanic with little money.
John is a mechanic who lacks competence.
poor的涵義可以是“貧窮的”,也可以是“糟糕的”。
(2) She is a Japanese student.
→She is a student who is a Japanese.
She is a student who studies Japanese.
Japanese的涵義既是“日語的”,也是“日本的”。
(3) He tried to make the ship fast.
→He tried to speed up the ship.
He tried to fasten the ship.
fast的涵義可以是“快”,也可以是“拉緊”。
(4) That was a brilliant idea.
→That was a clever idea.
That was a stupid idea.
brilliant的涵義是“聰明的”,也可以是“愚蠢的”。
(5) He is a sweet salesman.
→He is a salesman who is sweet.
He is a man who sells sweets (在這種情況下,sweets是一個名詞)
sweet的涵義可以是“可親的”,也可以是“甜食”。
——連接詞中的歧義
(1) As it became cold, we do not go outside.
→When it becomes cold, we do not go outside.
Because it became cold, we do not go outside.
As的涵義可以是“當(dāng)什么時候”,也可以是“因為”。
(2) While I was working at night in the library, I saw Mary often.
→When I was working at night in the library, I saw Mary often.
Although I was working at night in the library, I saw Mary often.
While可以是“當(dāng)什么時候”,也可以是“盡管”。
(3) Since I lost my glasses yesterday, I haven’t been able to do any work.
→From the time when I lost my glasses yesterday till now, I haven’t been able to do any work.
Because I lost my glasses yesterday, I haven’t been able to do any work.
Since既可以指“從什么時候”,也可以指“因為”。
——介詞中的歧義
(1) The reminiscence of my father was very interesting.
→The reminiscence written by my father was very interesting.
The reminiscence about my father was very interesting. reminiscence of my father was very interesting.
→The reminiscence written by my father was very interesting.
The reminiscence about my father was very interesting.
of my father的涵義可以是“我父親寫的”,也可以是“關(guān)于我父親的”。
(2) John is with Tom.
→John stays with Tom.
John agrees with Tom.
with Tom的涵義可以是“跟Tom在一起”,也可以是“同意Tom的意見”。
(3) John hits the man with the stick.
→John hits the man by means of the stick.
John hits the man who carried the stick.
with the stick是一個介詞短語,它可以修飾名詞短語the man,也可以修飾動詞hits,從而造成歧義。這樣的句法結(jié)構(gòu)歧義與介詞with具有不同的涵義有關(guān),所以,也可以看成是由于with涵義的不同而造成的詞匯歧義。
(4) The damage was done by the river.
→The damage was brought about by the river.
The damage was done beside the river.
by的涵義可以是“由于”,也可以是“在什么旁邊”,從而造成歧義。
由以上的分析可以看出,英語中的詞匯歧義現(xiàn)象分布很廣,涉及到各主要的詞類,而且,不同的歧義都有很強的特異性,很不容易發(fā)現(xiàn)一般性的規(guī)律。這是英語學(xué)習(xí)的一個難點。
在英語學(xué)習(xí)中,我們應(yīng)當(dāng)根據(jù)語言環(huán)境或上下文,在多義詞的多個涵義中選擇最恰當(dāng)?shù)暮x,從而更好地掌握英語單詞的詞義,提高英語學(xué)習(xí)的效果。
這篇博文引起了網(wǎng)友們對于詞匯歧義研究的興趣,不少網(wǎng)友認(rèn)為,自然語言處理很重視句法分析,提出了不少的自動句法分析算法,但是對于詞匯的重要性估計不足,不注意詞匯的研究。我與網(wǎng)友們交流之后得到的結(jié)論是:
在自然語言中,一詞多義是一種普遍現(xiàn)象,不僅漢語中存在一詞多義,其他語言中也存在同樣的問題。在機器翻譯中,如果詞義翻譯錯誤,譯文不能正確表示原文的意思,也就沒有任何價值了,所以,詞義排歧是任何機器翻譯系統(tǒng)必須解決的大問題。此外,它還直接關(guān)系到信息檢索、文本分類、語音識別的效率。
網(wǎng)友們的興趣極大地鼓勵了我,我通過博文研究詞匯問題的勁頭兒更大了。在通讀了朱拉夫斯基(D. Jurafsky)和馬丁(J. Martin)的《語音與語言處理》(SpeechandLanguageProcessing,2009)一書之后,我了解到美國經(jīng)濟學(xué)家萊維特(Levitt)和記者杜布尼(Dubner)在2005年出版了《魔鬼經(jīng)濟學(xué)》(Freakonomics)一書。在這本暢銷數(shù)百萬冊的書中,萊維特和杜布尼介紹了一件非常有趣的事情:英文不動產(chǎn)廣告中的用詞往往會影響到房屋出售的效果。他們指出,在廣告中使用線性回歸可以很好地預(yù)測房屋在出售時的價格是高于還是低于要求的價格。如果出現(xiàn)“fantastic(好極了)、cute(逗人喜愛)、或charming(迷人)”這些詞語,房屋出售的價格就往往會低一些,如果出現(xiàn)“maple(楓樹)、granite(花崗石)”這樣的詞語,房屋出售的價格就往往會高一些。兩位作者假定,房地產(chǎn)經(jīng)紀(jì)人喜歡使用諸如“fantastic(好極了)”這樣褒義模糊的詞語來掩蓋房屋中某些質(zhì)量方面的缺陷,以便把房屋推銷出去。為了便于讀者理解,他們編出了下表中的一些數(shù)據(jù):
表1 不動產(chǎn)廣告中模糊形容詞的數(shù)量與房屋出售時高于要求價格的數(shù)量之間的關(guān)系的數(shù)據(jù)
下面用圖示對這種情況加以說明,x軸表示特征(模糊形容詞的數(shù)量),y軸表示價格。他們還繪出了與觀察數(shù)據(jù)擬合得很好的回歸線(regression line)。任何一條直線的方程是y=mx+b,如圖中所示,直線的斜率m=-4900,截距為b=16550,則方程為y=-4900x+16550。由此可以畫出如下的函數(shù)圖:
圖1 形容詞詞量與房屋售價的關(guān)系函數(shù)圖
這條直線的兩個參數(shù)(斜率m和截距b)可以看作一個把特征(在這種情況為x,形容詞的數(shù)量)映射到輸出值y(在這種情況為價格)的權(quán)值的集合??梢允褂脀代表權(quán)值,把這個線性方程表示如Price=w0+w1*Num_Adjectives。這樣一來,就可以使用線性方程從這些形容詞的數(shù)量來估計房屋的售價。如果使用一個以上的特征,那么,線性模型的能力就會真正強大起來。這種使用多個特征的線性回歸叫做多元線性回歸(multiple linear regression)。
房屋的最終價格大概還依賴于很多其他的因素,例如,當(dāng)前的房屋抵押率、市場上未售房屋的數(shù)量,等等??梢园堰@些因素作為變量來進行編碼,每一個因素的重要程度就是這些變量的權(quán)重,如下面的方程所示:
由此可見,詞匯不僅在語言中具有舉足輕重的作用,詞匯還是社會生活的一面鏡子,具有非常豐富的社會內(nèi)容,我們可以從詞匯中發(fā)現(xiàn)并挖掘出很多知識,從而利用詞匯來觀察社會。參考萊維特和杜布尼在《魔鬼經(jīng)濟學(xué)》中的這段有趣的敘述,我在2011年5月16日的博客中寫了博文《從用詞中挖掘知識》③,博文強調(diào):“詞匯中包含著非常豐富的內(nèi)容,從中我們可以發(fā)現(xiàn)挖掘出很多知識來。在自然語言處理中,我們千萬不可忽視詞匯的研究”。
網(wǎng)友們熱烈評論我的博文,他們說,沒有想到廣告中的用詞竟然會影響到房地產(chǎn)銷售的結(jié)果,語言的詞匯是多么重要啊!
為了在理論上加深我對于詞匯重要性的認(rèn)識,我又進一步從眾多的文獻中考察了前輩語言學(xué)家對詞匯研究重要性的論述。這時,南京師范大學(xué)外國語學(xué)院司聯(lián)合教授所撰寫的《句子語義學(xué)》(英文版)出版。他的工作與詞匯的重要性有關(guān),他邀我為此書寫“序言”,我應(yīng)邀成文,并把這個“序言”于2011年5月26日發(fā)表在博客上,題目叫作“《句子語義學(xué)》(英文版)序言”④。在這篇博文中,我強調(diào)了前輩語言學(xué)家對詞匯研究重要性的論述。
英國功能語言學(xué)的奠基人弗斯(Firth)認(rèn)為,詞匯是語言描述的中心。早在1957年,他就首先提出了搭配和類連接理論,在某種程度上將詞匯內(nèi)容從語法和語義學(xué)中分離出來。弗斯指出,所謂“搭配”(collocation),是指某些詞常常跟某些詞一起使用。他認(rèn)為,“意義取決于搭配”是組合平面上的一種抽象,它和從“概念”上或“思維”上分析詞義的方法沒有直接的聯(lián)系。night(夜晚)的意義之一是和dark(黑暗)的搭配關(guān)系,而dark的意義之一自然也是和night的搭配關(guān)系(Firth 1957)。cow(母牛)是常常和動詞to milk(擠牛奶)一起使用的。這兩個詞往往這樣搭配:They are milking the cows(他們給母牛擠奶);Cows give milk(母牛提供牛奶)。可是,tigress(母老虎)或lioness(母獅子)就不會和to milk搭配,講英語的人不會說*They are milking the tigresses或*Tigresses give milk。由此可見,在搭配時,cow的形式意義與tigress和lioness不同。在搭配中,詞匯意義起著主要的作用。
之后數(shù)十年,新弗斯學(xué)者始終堅持以詞匯研究為中心,強調(diào)詞匯與語法的辯證關(guān)系,深入發(fā)展了弗斯的詞匯理論。1966年,韓禮德(Halliday)提出詞匯不是用來填充語法確定的一套“空位”(slots),而是一個獨立的語言學(xué)層面;詞匯研究可以作為對語法理論的補充,卻不是語法理論的一部分,他主張把詞匯從語法研究中獨立地分離出來。
根據(jù)還原主義者(reductionist)的觀點,近百年來自然科學(xué)發(fā)展的歷史可以看成是探索如何把較小“基原”(primitives)的行為結(jié)合起來,用以解釋較大“結(jié)構(gòu)”(structure)的行為的歷史。在生物學(xué)中,遺傳的性質(zhì)用基因的行為來解釋,而基因的性質(zhì)用脫氧核糖核酸(DNA)的行為來解釋。在物理學(xué)中,物質(zhì)被還原為原子,而原子又被還原為比原子更小的粒子。語言學(xué)也逃不出這種還原主義思想的影響。語言學(xué)家可以使用語法范疇構(gòu)成諸如S→NP VP這樣的語法規(guī)則,把S看成是由NP和VP組成的,或者把S還原為NP和VP,再把NP和VP還原成具體的單詞。所有這些都可以把客觀事物(object)想象成由某些特征關(guān)聯(lián)而成的復(fù)雜特征的集合。這些特征中的信息用約束(constraints)來表示,所以這類模型通常叫作“基于約束的形式化方法”(constraint-based formalism)。
1900年,實驗心理學(xué)的奠基人溫德(Wilhelm Wundt)在《大眾心理學(xué)》(V?lkerpsychologie)一書中曾經(jīng)給句子下過這樣的定義(德文原文):“Den sprachlichen Ausdruck für die willkürliche Gliederung einer Gesammtvorstellung in ihre logische Beziehung zueinander gesetzten Bestandteil”,我將其譯成中文:“句子是把完整的思想任意分為它的組成成分并把它們置于邏輯關(guān)系之中的語言表示”。這段話可能是把句子分割為成分層次的還原主義思想的最早論述。
后來,溫德關(guān)于組成性的思想被萊昂納多·布龍菲爾德(Leonard Bloomfield)在他早期的著作《語言研究導(dǎo)論》(AnIntroductiontotheStudyofLanguage,1914)中引入了語言學(xué)。1933年在他的著作《語言論》(Language)發(fā)表以后,“直接成分分析法”(immediate-constituent analysis)成為美國結(jié)構(gòu)主義語言學(xué)研究中的相當(dāng)完善的方法。從古典時期開始的傳統(tǒng)的歐洲語法著重研究如何確定單詞(words)之間的關(guān)系,而不是研究確定成分(constituents)之間的關(guān)系。歐洲的句法學(xué)家們在諸如依存語法(dependency grammar)等形式語法中,強調(diào)以詞為基礎(chǔ)。但是,不論是以成分為基礎(chǔ)還是以單詞為基礎(chǔ),從實質(zhì)上說來,這些語言學(xué)研究的理論基礎(chǔ)都是“還原主義”(reductionism)。
從詞匯語義組成的角度,弗雷格(Frege)提出了“組成性原則”(compositionality principle)。Frege指出,句子的意義是由組成它的各個成分的意義組合而成的,組成成分的意義決定了整個句子的意義,組成成分的意義是句子的意義的函數(shù)?!敖M成性原則”成為了句法語義分析的一個基本的方法論原則,又叫做“弗雷格原則”(Frege Principle)。
不論從還原主義的角度看,還是從組成性原則的角度看,詞匯都是組成句子的基本成分,詞匯是語言的建筑材料,是話語實現(xiàn)的主要載體,而語法的作用則是把詞匯加以組合,構(gòu)筑更大的組合成分。
單詞本身的語義信息是很重要的,根據(jù)“還原主義”,句子的句法成分可以還原成單詞;根據(jù)“組成性原則”,句子的語義是由構(gòu)成該句子的單詞的語義以及這些單詞之間的語義關(guān)系組成的。因此,詞匯的分析和描述對于自然語言處理至關(guān)重要,我們應(yīng)當(dāng)重視詞匯的研究,善于從中發(fā)現(xiàn)語言現(xiàn)象后面隱藏著的內(nèi)在規(guī)律。
基于以上的理由,在語言學(xué)研究中,出現(xiàn)了詞匯主義(lexicalism)的傾向,強調(diào)詞匯的重要性。詞匯研究越來越受到語言學(xué)家的重視。
近些年來,語料庫證據(jù)支持的詞匯研究蓬勃發(fā)展。越來越多的實證研究表明,詞匯和語法在實現(xiàn)意義時是交織一起的,必須整合描述。詞匯是話語實現(xiàn)的主要載體,語法則起到管理意義、組合成份和構(gòu)筑詞項的作用,而不是更多。美國語言學(xué)家史密斯(N. Smith 1999)甚至認(rèn)為詞匯是語言間所有差異的潛在所在。排除詞匯差異這一因素,人類的語言只有一種。
詞匯不但在語言學(xué)研究中具有舉足輕重的重要作用,人類語言中的詞匯還是人類社會生活的反映,詞匯是人類社會生活的一面鏡子。詞匯在社會生活中的重要作用不可低估。如果仔細(xì)挖掘詞匯之間的內(nèi)在關(guān)系,可以發(fā)現(xiàn)人類社會中很多有趣的現(xiàn)象。因此,我們可以利用詞匯來觀察社會。
通過“馮志偉文化博客”這個平臺,我逐漸深化了對詞匯重要性的認(rèn)識。在與網(wǎng)友們的交流中,我及時吸取意見,集思廣益,使自己的這些認(rèn)識一步一步地得到提高。博客確實是一種大有用處的現(xiàn)代化語言學(xué)研究手段。它具有如下優(yōu)點:第一,短小精悍,通俗易懂,便于接受;第二,傳送快捷方便,立竿見影,便于交流;第三,討論集思廣益,取長補短,便于提高水平。這種現(xiàn)代化的研究方式是語言學(xué)前輩們從來沒有采用過的。有幸生活在這個信息時代,我們隨時隨地可以上網(wǎng)發(fā)表博文,這是千載難逢的好機會,何樂而不為?在當(dāng)代語言學(xué)研究中,我們應(yīng)當(dāng)充分利用博客這種現(xiàn)代化的手段,爭取做一個信息時代的新型語言學(xué)家。
附注
① 該博客的網(wǎng)址為:http://blog.sina.com.cn/u/1926267847。
② 參見:http://blog.sina.com.cn/s/blog_72d083c70100ofa2.html。
③ 參見:http://blog.sina.com.cn/s/blog_72d083c70100qwdq.html。
④ 參見:http://blog.sina.com.cn/s/blog_62e08edb0100rtpr.html。下文楷體字部分引自該博客。
參考文獻
Firth, J. R. 1957.PapersinLinguistics1934-1951 [M]. London: Oxford University Press.
Jurafsky, D. & J. Martin. 2009.SpeechandLanguageProcessing[M]. Upper Saddle River: Prentice-Hall.
Smith, N. 1999.Chomsky:IdeasandIdeals[M]. Cambridge: Cambridge University Press.
(責(zé)任編輯甄鳳超)