紀(jì)丹丹
摘要:詞是語(yǔ)言中一個(gè)多維性的概念,不同的研究方向和視角,便產(chǎn)生了不同的維度的詞。語(yǔ)法詞是語(yǔ)法學(xué)研究的對(duì)象,心理詞是心理語(yǔ)言學(xué)研究的對(duì)象。語(yǔ)法詞和心理詞兩者既有聯(lián)系,也有區(qū)別。語(yǔ)料庫(kù)中詞的切分標(biāo)準(zhǔn)就涉及到了語(yǔ)法詞與心理詞問(wèn)題。
關(guān)鍵詞:語(yǔ)料庫(kù);語(yǔ)法詞;心理詞
中圖分類號(hào):H3 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-864X(2016)02-0149-02
一、引言
語(yǔ)料庫(kù)是進(jìn)行語(yǔ)言學(xué)研究和計(jì)算機(jī)研究的大規(guī)模電子文本庫(kù),不同的語(yǔ)料庫(kù)有不同的作用,分詞語(yǔ)料庫(kù)就是針對(duì)分詞專門建立的自動(dòng)分詞語(yǔ)料庫(kù)。孫茂松(1999)在《談?wù)劃h語(yǔ)分詞語(yǔ)料庫(kù)的一致性問(wèn)題》中提出一個(gè)問(wèn)題:語(yǔ)料庫(kù)的分詞應(yīng)該傾向于切成“語(yǔ)法詞”還是“心理詞”?孫茂松認(rèn)為,所謂的“語(yǔ)法詞”是指語(yǔ)言學(xué)家心目中的詞,“心理詞”指不自覺(jué)得潛移默化于老百姓心目中的詞?!罢Z(yǔ)法詞”與“心理詞”兩者的定義不同,劃分標(biāo)準(zhǔn)也不同,語(yǔ)料庫(kù)的分詞應(yīng)該以哪一個(gè)為標(biāo)準(zhǔn),這是值得我們思考的問(wèn)題。孫茂松提出語(yǔ)料庫(kù)的分詞應(yīng)該突破“語(yǔ)法詞”的圈圈,把視野進(jìn)一步擴(kuò)大到“心理詞”上①。這樣,語(yǔ)料庫(kù)中詞的切分就不僅僅考慮了語(yǔ)法上的標(biāo)準(zhǔn),還注意到了讀者心理上詞的劃分情況。
本文擬就語(yǔ)料庫(kù)中詞的切分問(wèn)題進(jìn)行研究,探討語(yǔ)料庫(kù)中的分詞到底應(yīng)該如何執(zhí)行。
二、語(yǔ)法詞
章士釗最早提出了“詞”的概念,細(xì)致地區(qū)別了字、詞以及短語(yǔ)。黎錦錫指出“詞就是說(shuō)話的時(shí)候表示思想中的一個(gè)觀念的語(yǔ)詞”,這種說(shuō)法完全是從意義的角度對(duì)詞進(jìn)行的定義,忽略了虛詞,因而具有一定的局限性。王力把詞定義為“最小的意義的單位”,他在確定詞的過(guò)程中,還采用插入法和意義分析法來(lái)確定詞,這種確定詞的方法今天仍然在用。呂叔湘定義詞為“語(yǔ)言的最小的獨(dú)立運(yùn)用的單位”。目前學(xué)界比較認(rèn)定的是黃伯榮、廖序東提出的“詞是語(yǔ)言中最小的能夠獨(dú)立運(yùn)用的有音有義的單位”。這是從語(yǔ)法角度對(duì)詞所作出的本質(zhì)概括,所以也可以視為“語(yǔ)法詞”的定義。
語(yǔ)法詞是語(yǔ)法學(xué)研究的主要內(nèi)容之一,突出了詞的語(yǔ)法性,是語(yǔ)料庫(kù)中劃分詞的最主要的標(biāo)準(zhǔn)。
三、心理詞
心理詞是指讀者頭腦中對(duì)詞的表征,它包括了個(gè)人對(duì)該詞所包含的所有信息,如詞的拼音、意義、拼寫以及和其它詞的關(guān)系等。心理詞的實(shí)質(zhì)是看一個(gè)漢字組合在讀者認(rèn)知系統(tǒng)中是否是作為一個(gè)整體被表征的,從定義來(lái)看,心理詞突破了傳統(tǒng)的對(duì)詞的定義,范圍上有所擴(kuò)展和延伸,既包含了傳統(tǒng)意義上的詞,又包含了一些詞匯化的單位,如短語(yǔ)等②。心理詞是個(gè)比較寬泛的概念,相對(duì)于“語(yǔ)法詞”來(lái)說(shuō),它具有很大的主觀性以及模糊性,其分合程度因人、因詞而異。
心理詞與語(yǔ)法詞在某些情況下是可以一致的,如“成功”、“商店”等詞,在語(yǔ)法上和讀者的心理表征上都被認(rèn)為是詞。這時(shí),心理詞和語(yǔ)法詞都是讀者在閱讀中的基本語(yǔ)義單元,只不過(guò)語(yǔ)法詞是從語(yǔ)法的角度規(guī)定詞的構(gòu)成,而心理詞的定義更加關(guān)注讀者閱讀時(shí)加工的語(yǔ)義單元。
心理詞與語(yǔ)法詞在某些情況下也可能不一致,如“自然科學(xué)”,在語(yǔ)法上是“自然”和“科學(xué)”兩個(gè)詞,但是很多讀者在心理上將其劃分為一個(gè)詞,把它作為一個(gè)整體來(lái)接受。心理詞是存在于讀者心理詞典中的詞條,因每個(gè)人的知識(shí)掌握水平、經(jīng)驗(yàn)以及一些客觀原因的不同而不同,沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn),因此不同的讀者對(duì)詞所作出的判定不可能完全一致。如此看來(lái),心理詞與語(yǔ)法詞的標(biāo)準(zhǔn)也就可能一致,可能不一致。這也是心理詞的彈性和模糊性所在。
四、心理詞與語(yǔ)法詞切分分歧的原因
(一)語(yǔ)法知識(shí)水平
閆國(guó)利(2012)做過(guò)一組實(shí)驗(yàn),挑選一定數(shù)量的不同語(yǔ)法知識(shí)水平的人(中文專業(yè)的學(xué)生和一般的學(xué)生)對(duì)相同的篇章進(jìn)行詞切分,并且觀察他們?cè)~切分的差異。研究結(jié)果發(fā)現(xiàn):語(yǔ)法知識(shí)掌握水平影響讀者對(duì)詞的認(rèn)識(shí),當(dāng)讀者語(yǔ)法知識(shí)掌握少時(shí),對(duì)詞的認(rèn)識(shí)就比較模糊,切分的單元會(huì)比依據(jù)語(yǔ)法標(biāo)準(zhǔn)切分所獲得的詞單元大,因此心理詞與語(yǔ)法詞的差異也就很大;當(dāng)讀者掌握的語(yǔ)法知識(shí)較多時(shí),對(duì)詞的認(rèn)識(shí)會(huì)比較清晰,切分的單元更貼近依據(jù)語(yǔ)法標(biāo)準(zhǔn)切分所獲得的詞,因而心理詞與語(yǔ)法詞的差異也就較小。
因此不同的讀者對(duì)詞的切分存在分歧的最主要原因就是讀者語(yǔ)法知識(shí)的強(qiáng)弱。當(dāng)讀者的語(yǔ)法知識(shí)薄弱,缺乏清晰的詞概念,對(duì)什么是詞以及如何區(qū)分詞沒(méi)有明確的認(rèn)識(shí)的時(shí)候,就容易導(dǎo)致心理詞與語(yǔ)法詞之間的差異過(guò)大。比如“就是”,是由副詞與動(dòng)詞兩個(gè)語(yǔ)法詞組合起來(lái)的,但是很多人會(huì)憑感覺(jué)將它劃分為一個(gè)詞。還有很多讀者不是按照詞形或語(yǔ)言學(xué)標(biāo)準(zhǔn)完成詞的切分,而是受文本背景的影響,根據(jù)直覺(jué)完成詞切分,切分的單元表達(dá)一件事或者一個(gè)概念。
(二)漢語(yǔ)書(shū)寫系統(tǒng)的特點(diǎn)
漢語(yǔ)文本以字為基本書(shū)寫單位,每個(gè)漢字所占的空間大小一樣,并且漢字間的間隔也是等距的,詞與詞之間沒(méi)有明顯的物理線索標(biāo)記詞。因此漢語(yǔ)讀者如何對(duì)句子進(jìn)行切分,如何識(shí)別詞以及短語(yǔ),一直是語(yǔ)言學(xué)家們研究的問(wèn)題。關(guān)于讀者閱讀的基本信息單元問(wèn)題,目前學(xué)界有兩種說(shuō)法。一種是漢語(yǔ)閱讀是基于詞的閱讀,另一種觀點(diǎn)是漢語(yǔ)閱讀是基于字的閱讀。這兩種說(shuō)法都得到實(shí)驗(yàn)證據(jù)的支持。
(三)詞頻
詞頻是指某個(gè)固定搭配出現(xiàn)的次數(shù),出現(xiàn)的次數(shù)越多,頻率越高,變成心理詞的可能性就越高。如“豬肉”、“文化館”,從語(yǔ)法詞的角度劃分,“豬肉”應(yīng)該是由“豬”、“肉”兩個(gè)詞構(gòu)成;“文化館”由“文化”和“館”兩個(gè)詞構(gòu)成。但是由于這兩個(gè)詞搭配出現(xiàn)頻率很高,讀者從自己的閱讀經(jīng)驗(yàn)出發(fā),就更傾向于將它們看作是詞而不是短語(yǔ)。
(四)語(yǔ)義的聯(lián)系
不同詞之間的語(yǔ)義聯(lián)系是影響讀者對(duì)詞切分的因素之一。當(dāng)兩個(gè)詞之間的語(yǔ)義聯(lián)系密切時(shí),讀者的判斷會(huì)受到影響,從而將它們劃分為一個(gè)詞。如“研究方法”,從語(yǔ)法詞角度劃分,是“研究”和“方法”兩個(gè)詞;而讀者鑒于“研究”與“方法”兩個(gè)單元之間的語(yǔ)義上的密切聯(lián)系,會(huì)將“研究方法”看成一個(gè)整體。
(五)結(jié)構(gòu)上的相似性
由于語(yǔ)言單位結(jié)構(gòu)的相似性,我們?cè)趧澐衷~或短語(yǔ)的時(shí)候會(huì)錯(cuò)誤地進(jìn)行類比,故而劃分錯(cuò)了詞或短語(yǔ)。如,“白菜”不等于是“白的菜”,“黑板”不等于是“黑的板”,因此“白菜”、“黑板”是詞而不是短語(yǔ)。若是以此類推,認(rèn)為“牛肉”等于“牛的肉”,那么“牛肉”就是短語(yǔ)而不是詞。這就是不正確的反推,相似的語(yǔ)言結(jié)構(gòu)不代表屬于同一語(yǔ)法層級(jí)單位。
另外,語(yǔ)義的穩(wěn)固性、讀者閱讀過(guò)程中正確切分詞的需求、詞的定義方法不同等都是影響詞切分的因素。
五、心理詞進(jìn)入語(yǔ)料庫(kù)
漢語(yǔ)讀者進(jìn)行詞切分的時(shí)主要有兩個(gè)特點(diǎn):(1)把實(shí)詞和虛詞連在一起,如“等于”、“我的”。(2)把短語(yǔ)看作一個(gè)詞,“豬肉”、“一名”、“研究方法”。
對(duì)于“等于”、“豬肉”這樣的切分,我們是可以接受的,因?yàn)椤暗扔凇?、“豬肉”這樣的切分,一定程度上反映了人的心理傾向。這樣的切分,語(yǔ)料庫(kù)里是可以存在的。而“我的”、“一名”、“研究方法”這樣的切分,與語(yǔ)法詞的偏離較大,語(yǔ)料庫(kù)里是不能包容的。因此,我們需要引起關(guān)注的是:語(yǔ)料庫(kù)中詞的切分應(yīng)該考慮到心理詞的因素,但不是所有的心理詞都能進(jìn)入語(yǔ)料庫(kù)。那么,到底什么樣的心理詞能進(jìn)入語(yǔ)料庫(kù)?
心理詞的概念不單單是讀者頭腦中對(duì)詞的界定,對(duì)于像“豬肉”、“等于”這類詞的切分,讀者是從自身的閱讀經(jīng)驗(yàn)出發(fā),認(rèn)為讀者閱讀的基本信息單元不是詞典上的語(yǔ)法詞而是更貼近真實(shí)閱讀,更具有彈性以及靈活性的心理詞。從這個(gè)角度看,語(yǔ)料庫(kù)中詞的切分不應(yīng)該僅僅局限在語(yǔ)法詞上,我們應(yīng)該將觸角由“語(yǔ)法詞”延伸到“心理詞”。需要注意的是,我們也不能將“心理詞”的外延無(wú)限擴(kuò)大,導(dǎo)致它們急劇膨脹,阻礙“語(yǔ)法詞”的發(fā)展。換句話說(shuō),心理詞進(jìn)入語(yǔ)法詞必須有個(gè)限度。那心理詞進(jìn)入語(yǔ)料庫(kù)的度是什么?筆者認(rèn)為,第一,語(yǔ)料庫(kù)里切分的心理詞應(yīng)該是反映大多數(shù)語(yǔ)法知識(shí)水平較高的人(??埔陨纤剑┑墓餐睦韮A向,而不能是反映單個(gè)人的心理傾向。第二,切成的“心理詞”與“語(yǔ)法詞”之間差異不能過(guò)大,否則會(huì)給詞匯造成一定的混亂。第三,兩個(gè)相同的結(jié)構(gòu)體的心理詞在語(yǔ)料庫(kù)中的切分是否應(yīng)該一致,這個(gè)要具體問(wèn)題具體分析。把握好心理詞進(jìn)入語(yǔ)料庫(kù)的度,是目前語(yǔ)料庫(kù)中詞的切分問(wèn)題的一個(gè)難點(diǎn),實(shí)踐起來(lái)遇到的具體困難,還有待于我們?nèi)ソ鉀Q。
六、結(jié)語(yǔ)
語(yǔ)法詞和心理詞是漢語(yǔ)中很值得關(guān)注的兩種詞。語(yǔ)法詞是詞匯中最小的可以獨(dú)立運(yùn)用的音義結(jié)合體,心理詞是心理語(yǔ)言學(xué)中讀者頭腦中對(duì)詞的表征。兩者既有區(qū)別也有聯(lián)系。語(yǔ)法知識(shí)的掌握水平、漢語(yǔ)書(shū)寫系統(tǒng)的特點(diǎn)、詞頻、語(yǔ)義關(guān)系、結(jié)構(gòu)的相似性都會(huì)影響讀者對(duì)詞的切分。無(wú)論是語(yǔ)法知識(shí)掌握水平低的人還是語(yǔ)法知識(shí)掌握水平高的人,都不能完全將詞與其它語(yǔ)言成分區(qū)別開(kāi)來(lái),“語(yǔ)法詞”與“心理詞”這兩者在一個(gè)人身上是同時(shí)并存的。每個(gè)讀者詞切分出來(lái)的單元就是讀者頭腦中的心理詞,因而心理詞有極大的模糊性與主觀性。語(yǔ)料庫(kù)中應(yīng)收入反映絕大多數(shù)語(yǔ)法知識(shí)水平較高的人的共同心理傾向并且與“語(yǔ)法詞”差異較小的“心理詞”。
注釋:
①孫茂松.談?wù)劃h語(yǔ)分詞語(yǔ)料庫(kù)的一致性問(wèn)題[J].語(yǔ)言文字應(yīng)用,1999(2).
②孫莎莎.漢語(yǔ)心理詞加工的優(yōu)勢(shì)效應(yīng)[J].天津師范大學(xué),2012.
參考文獻(xiàn):
[1]張?zhí)m蘭.不同語(yǔ)法知識(shí)掌握水平對(duì)中文詞切分的影響[J].天津師范大學(xué),2009.
[2]閆國(guó)利.漢語(yǔ)閱讀中的心理詞加工[J].心理與行為研究,2012(10).
[3]高燕.詞匯詞·語(yǔ)法詞·拼寫詞[J].