李華勇
(四川文理學(xué)院外國(guó)語(yǔ)學(xué)院,四川達(dá)州635000)
人類(lèi)正在進(jìn)入“大數(shù)據(jù)”時(shí)代。大數(shù)據(jù)將對(duì)人文社會(huì)科學(xué)的各學(xué)科門(mén)類(lèi)產(chǎn)生巨大甚至是本質(zhì)上的變化[1]V。Cukier和Schoenberge于2013年指出互聯(lián)網(wǎng)革命性地改變了商業(yè)運(yùn)作模式、政府管理方法和人的生活方式,信息急劇增長(zhǎng)足以引起新的變革[2]。國(guó)外媒體將2013年稱(chēng)為“大數(shù)據(jù)元年”。研究者從不同的角度給出了不同的定義:大數(shù)據(jù)(big data)指所涉及數(shù)據(jù)的規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊[3],這是從數(shù)據(jù)的量的角度給出的定義;大數(shù)據(jù)指采用所有數(shù)據(jù)的方法[1],這是從研究時(shí)獲取數(shù)據(jù)方法視角給出的定義;從數(shù)據(jù)規(guī)模、數(shù)據(jù)流轉(zhuǎn)和動(dòng)態(tài)的數(shù)據(jù)體系、數(shù)據(jù)多樣性、數(shù)據(jù)的價(jià)值四個(gè)特征來(lái)定義大數(shù)據(jù);大數(shù)據(jù)指迅速獲取信息的能力[4],這是從數(shù)據(jù)的功能視角給出的定義。我們認(rèn)為大數(shù)據(jù)是一種思維方式和重要的資源庫(kù),它將改變我們認(rèn)識(shí)世界的方式,是獲取新知識(shí)和新發(fā)明的源泉。大數(shù)據(jù)這種新思維方式將從根本上改變我們對(duì)人文社會(huì)科學(xué)相關(guān)學(xué)科的觀念,實(shí)現(xiàn)相關(guān)學(xué)科研究的發(fā)展、深化和創(chuàng)新。
大數(shù)據(jù)將對(duì)語(yǔ)言學(xué)研究產(chǎn)生重要影響,促進(jìn)其量化研究的深入發(fā)展。大數(shù)據(jù)突破了自然科學(xué)和社會(huì)科學(xué)研究的界限,實(shí)現(xiàn)了數(shù)據(jù)的可通約性,通過(guò)數(shù)據(jù)溝通了不同學(xué)科的資源,促進(jìn)了學(xué)科交叉融合[5]。發(fā)源于上世紀(jì)60年代的語(yǔ)料庫(kù)語(yǔ)言學(xué),以經(jīng)驗(yàn)主義和科學(xué)理性主義為哲學(xué)基礎(chǔ),以自下而上(bottom-up)的歸納法為方法論[6];從一開(kāi)始就是建立在真實(shí)語(yǔ)言數(shù)據(jù)觀察的基礎(chǔ)上,以大量的日常使用語(yǔ)言為依據(jù),以概率為特征,以統(tǒng)計(jì)量化為手段,對(duì)語(yǔ)言進(jìn)行實(shí)證量化研究;基于真實(shí)語(yǔ)言使用數(shù)據(jù)的語(yǔ)料庫(kù)語(yǔ)言學(xué)研究使該學(xué)科帶上了科學(xué)的基因;語(yǔ)料庫(kù)越來(lái)越大,類(lèi)型越來(lái)越多樣化,標(biāo)注越來(lái)越詳細(xì),檢索統(tǒng)計(jì)越來(lái)越智能化。這些變化將會(huì)對(duì)語(yǔ)言學(xué)研究產(chǎn)生重要影響:拓展了語(yǔ)言學(xué)研究的視野和應(yīng)用服務(wù)領(lǐng)域。人們?nèi)粘I町a(chǎn)生的海量數(shù)據(jù)具有豐富的語(yǔ)言信息,同時(shí)還可能避免研究者的認(rèn)知偏見(jiàn)、語(yǔ)言感知誤差[5],對(duì)語(yǔ)言現(xiàn)象或語(yǔ)言事實(shí)的分析更加量化、客觀和科學(xué),更重要的是能夠借用語(yǔ)言大數(shù)據(jù)預(yù)測(cè)語(yǔ)言現(xiàn)象或事實(shí)發(fā)展的趨勢(shì),甚至通過(guò)相關(guān)語(yǔ)言數(shù)據(jù)信息的統(tǒng)計(jì)分析和建立相關(guān)數(shù)學(xué)模型,為相關(guān)公共服務(wù)領(lǐng)域迅速便捷地提供特別有價(jià)值的信息。例如,2009年H1N1流感爆發(fā)時(shí),Google公司基于美國(guó)人檢索與流感相關(guān)的詞條和2003—2008年美國(guó)疾控中心的流感數(shù)據(jù)進(jìn)行比較,聚焦于與流感相關(guān)的特定詞條被檢索的頻率與流感在時(shí)間和空間上傳播的關(guān)系,據(jù)此建立數(shù)學(xué)模型,成功地比美國(guó)疾控中心早1~2周預(yù)測(cè)到H1N1流感爆發(fā)的時(shí)間、地點(diǎn)、傳播源等非常有價(jià)值的信息[1,3]。這是一個(gè)融合了語(yǔ)言學(xué)、大數(shù)據(jù)、數(shù)學(xué)和計(jì)算機(jī)等學(xué)科,提前成功預(yù)測(cè)H1N1流感爆發(fā)并服務(wù)于公共領(lǐng)域的典型例子。
在大數(shù)據(jù)及其思維視野下,作為人文社會(huì)科學(xué)之一的語(yǔ)言學(xué)研究應(yīng)順應(yīng)科技和時(shí)代的發(fā)展,在更大范圍使用各種類(lèi)型的、共時(shí)和歷時(shí)的語(yǔ)言大數(shù)據(jù)來(lái)進(jìn)行相關(guān)實(shí)證研究,在更大范圍和層面上研究語(yǔ)言事實(shí)之間的相關(guān)關(guān)系。幾萬(wàn)詞、幾百萬(wàn)詞、幾千萬(wàn)詞甚至于幾億詞的語(yǔ)言數(shù)據(jù)按照大數(shù)據(jù)的理念在目前或未來(lái)形勢(shì)下都不能很好地滿足語(yǔ)言學(xué)研究的目的和要求。語(yǔ)言數(shù)據(jù)的獲取越來(lái)越容易,相對(duì)來(lái)說(shuō)建設(shè)服務(wù)于語(yǔ)言研究的更大規(guī)模的語(yǔ)料庫(kù)也越來(lái)越容易。比如:美國(guó)Mark Davies教授2013年建立的GloWbE語(yǔ)料庫(kù)規(guī)模達(dá)19億詞,“Google Books:British English”語(yǔ)言數(shù)據(jù)高達(dá)340億詞,“Google Books:American English”語(yǔ)言數(shù)據(jù)高達(dá)1 500億詞。大數(shù)據(jù)在進(jìn)行語(yǔ)言研究時(shí)有其獨(dú)特優(yōu)勢(shì):其一是能夠更加詳細(xì)地展示語(yǔ)言事實(shí)或現(xiàn)象的演化過(guò)程,其二是能在更大范圍內(nèi)發(fā)現(xiàn)語(yǔ)言變化的規(guī)律和趨勢(shì),其三是能夠在更大范圍和更大程度上發(fā)現(xiàn)語(yǔ)言事實(shí)的相關(guān)性。尤其是第三點(diǎn)更加重要,因?yàn)榇髷?shù)據(jù)的一個(gè)核心理念是由追尋因果關(guān)系轉(zhuǎn)變到追尋相關(guān)關(guān)系,相關(guān)關(guān)系比因果關(guān)系更為重要、更有價(jià)值——建立在相關(guān)關(guān)系分析基礎(chǔ)之上的預(yù)測(cè)是大數(shù)據(jù)的核心[1]75。顯然,現(xiàn)代語(yǔ)言學(xué)研究不僅要追尋語(yǔ)言事實(shí)之間的因果關(guān)系,更應(yīng)該在語(yǔ)言大數(shù)據(jù)中追尋語(yǔ)言事實(shí)或現(xiàn)象之間的相關(guān)關(guān)系,在對(duì)語(yǔ)言事實(shí)相關(guān)分析的基礎(chǔ)上對(duì)語(yǔ)言發(fā)展進(jìn)行預(yù)測(cè),進(jìn)而服務(wù)語(yǔ)言教學(xué)和其它需要語(yǔ)言支持的公共領(lǐng)域。過(guò)去的語(yǔ)言學(xué)研究是在探尋語(yǔ)言事實(shí)背后的“為什么”,而語(yǔ)言事實(shí)豐富多彩、變化多端和紛繁復(fù)雜,我們探尋到的“為什么”往往只能在一定范圍、一定時(shí)期解釋和說(shuō)明小部分語(yǔ)言事實(shí),以至于我們陷入建立了成百上千種語(yǔ)言學(xué)理論和模型也無(wú)法走出把所有語(yǔ)言事實(shí)解釋清楚的困境。造成這一局面的原因一方面是我們沒(méi)有在更大范圍內(nèi)弄清楚相關(guān)語(yǔ)言事實(shí)是什么,另一方面是我們的各種語(yǔ)言理論和模型各自為陣,沒(méi)有在更大范圍和空間上考慮用語(yǔ)言事實(shí)相關(guān)關(guān)系來(lái)對(duì)語(yǔ)言事實(shí)進(jìn)行解釋。大數(shù)據(jù)思維方式要求通過(guò)探求“是什么”而不是“為什么”來(lái)幫助我們更好地了解這個(gè)世界[1]83。相應(yīng)地,在大數(shù)據(jù)的今天,語(yǔ)言學(xué)研究得轉(zhuǎn)變研究路徑,才能夠擺脫語(yǔ)言研究的上述困境,轉(zhuǎn)變到尋找語(yǔ)言事實(shí)的“是什么”而不是研究“為什么”,在語(yǔ)言事實(shí)相關(guān)關(guān)系的指引下,更好地去了解和認(rèn)識(shí)語(yǔ)言研究路徑:語(yǔ)言事實(shí)相關(guān)關(guān)系分析很有用,它不但為我們認(rèn)知語(yǔ)言提供新的視角,而且提供的視角非常清晰。一旦把因果關(guān)系考慮進(jìn)來(lái),這些視角就有可能被蒙蔽掉[1]87。這樣做并不是說(shuō)研究語(yǔ)言時(shí)因果關(guān)系不重要,通常情況下,一旦完成了對(duì)語(yǔ)言事實(shí)的相關(guān)關(guān)系分析后,又不滿足于知道“是什么”時(shí),可以繼續(xù)探究更深層次的因果關(guān)系,追尋語(yǔ)言事實(shí)背后的“為什么”。
可見(jiàn),新形勢(shì)下的語(yǔ)言研究不能再像以前那樣以追求“為什么”為終極目標(biāo),而是在基于語(yǔ)言事實(shí)大數(shù)據(jù)基礎(chǔ)上研究語(yǔ)言事實(shí)“是什么”,在清晰綜合考量各種相關(guān)關(guān)系之后,再考慮是否需要繼續(xù)研究因果關(guān)系。
與小數(shù)據(jù)相比,大數(shù)據(jù)對(duì)語(yǔ)言研究具有獨(dú)特的優(yōu)勢(shì),它能讓研究者在更大范圍內(nèi)觀察到語(yǔ)言現(xiàn)象或事實(shí)的相關(guān)程度和演化的具體歷時(shí)過(guò)程,特別是低頻的、新近出現(xiàn)的語(yǔ)言現(xiàn)象。比如利用數(shù)據(jù)量為1 500億詞的美語(yǔ)“谷哥圖書(shū)”大數(shù)據(jù),借用COCA①的檢索界面來(lái)研究美語(yǔ)中“get被動(dòng)式”的使用頻率歷時(shí)變化趨勢(shì),由于使用的數(shù)據(jù)量高達(dá)1 500億詞,相比以前研究所用的幾萬(wàn)詞、幾百萬(wàn)或幾億來(lái)說(shuō),這些海量數(shù)據(jù)有助于更加精確地重現(xiàn)“get被動(dòng)式”的使用變化趨勢(shì)。在美語(yǔ)“谷哥圖書(shū)”中,get被動(dòng)式的使用頻率在1810s年為7.13/MIL②,經(jīng)過(guò)近200年的歷時(shí)發(fā)展和演化,到2000s年,其使用頻率上升到23.92,是1810年的3倍多。不但反映出get被動(dòng)式的使用頻率近200年總體趨勢(shì)是上升的,還反映出它在中途某些時(shí)間段是有波動(dòng)的(下降之后再上升)——由 1950s的 14.64下降到1960s的13.99,之后在1970s又升至14.6。如果某些研究人員收集的數(shù)據(jù)是集中在1950s—1960s這一時(shí)間段,據(jù)此研究會(huì)得出get被動(dòng)式的使用頻率是呈下降趨勢(shì)的結(jié)論;這一結(jié)論在1950s—1960s這個(gè)特定時(shí)間段是正確的,如果據(jù)此預(yù)測(cè)其在1970s之后的使用頻率仍然是下降的就錯(cuò)了??梢?jiàn),要在更大范圍和更長(zhǎng)時(shí)間段去預(yù)測(cè)相關(guān)語(yǔ)言現(xiàn)象的發(fā)展趨勢(shì),需要大數(shù)據(jù)才能做到。
Davies認(rèn)為小語(yǔ)料庫(kù)提供的低頻和中頻詞或結(jié)構(gòu)的型符(token)數(shù)量過(guò)小,不能很好地比較和觀察英式與美式英語(yǔ)兩種變體的差異[7]。同理,過(guò)小的數(shù)據(jù)不能展現(xiàn)低頻詞或結(jié)構(gòu)的使用特征與演化趨勢(shì),要詳細(xì)研究低頻詞或結(jié)構(gòu)的使用情況需要大數(shù)據(jù)支持。如果用布朗家族語(yǔ)料庫(kù)(the Brown Family of Corpus:Brown,F(xiàn)rown,LOB,F(xiàn)LOB)去檢索低頻率動(dòng)詞vacuum,返回的結(jié)果是0個(gè)型符,說(shuō)明不能利用庫(kù)容極小的布朗家族語(yǔ)料庫(kù)對(duì)vacuum進(jìn)行任何有意義的研究。但是如果在庫(kù)容超過(guò)4.5億詞的COCA語(yǔ)料庫(kù)中檢索,就能返回到882個(gè)型符,可以根據(jù)相應(yīng)的研究目標(biāo)和目的對(duì)動(dòng)詞vacuum的詳細(xì)使用情況與特征進(jìn)行描述??梢?jiàn)大數(shù)據(jù)對(duì)低頻率詞或結(jié)構(gòu)的研究具有獨(dú)特的優(yōu)勢(shì),甚至可以說(shuō),對(duì)小庫(kù)容檢索不到的低頻詞或結(jié)構(gòu)的研究只有在大數(shù)據(jù)中才可以完成。
過(guò)去由于大量客觀可以自動(dòng)檢索的語(yǔ)言數(shù)據(jù)比較匱乏,我們對(duì)詞匯或語(yǔ)言結(jié)構(gòu)進(jìn)行研究時(shí),絕大多數(shù)時(shí)候都基于語(yǔ)言研究者的語(yǔ)言直覺(jué)進(jìn)行少量舉例或引用經(jīng)典作品的例句,然后進(jìn)行理論思辨和演繹。在語(yǔ)言大數(shù)據(jù)日益豐富的今天,幾乎所有的語(yǔ)言研究都可以借助各種客觀的語(yǔ)言大數(shù)據(jù)進(jìn)行。比如,在進(jìn)行同義詞詞典編撰時(shí),可以借助語(yǔ)料庫(kù)大數(shù)據(jù)呈現(xiàn)的詞語(yǔ)相關(guān)性的強(qiáng)弱信息來(lái)取舍詞語(yǔ)和對(duì)所選詞語(yǔ)進(jìn)行排序,這類(lèi)基于真實(shí)語(yǔ)言大數(shù)據(jù)的同義詞詞典比通過(guò)語(yǔ)言直覺(jué)編撰的同類(lèi)詞典更加真實(shí)可靠,也更能滿足語(yǔ)言學(xué)習(xí)者的實(shí)際需求。
過(guò)去語(yǔ)言學(xué)研究在很大程度上受亞氏經(jīng)典范疇理論的影響。例如建立在經(jīng)典范疇理論上的規(guī)定語(yǔ)法、詞匯學(xué)和語(yǔ)義學(xué)認(rèn)為語(yǔ)言范疇的特征是二分的,邊界是清晰的,范疇內(nèi)成員地位是相同的。經(jīng)歷了維特根斯坦的“家族相似性”理論發(fā)展起來(lái)的原型范疇理論則認(rèn)為:范疇是由典型特征構(gòu)建起來(lái)的;范疇成員地位不平等,有典型和非典型之分;范疇成員之間由于相似性構(gòu)成連續(xù)統(tǒng)一;范疇邊界是模糊的[8]。原型范疇理論更符合日常生活中的語(yǔ)言使用與語(yǔ)言認(rèn)知實(shí)際。規(guī)定性語(yǔ)法明確提出應(yīng)該怎么用,不應(yīng)該怎么用,具有很強(qiáng)的規(guī)定性,正確與錯(cuò)誤是二元對(duì)立的。但是語(yǔ)言往往是動(dòng)態(tài)發(fā)展的,同時(shí)語(yǔ)言還具有模糊性特征,因此語(yǔ)法上正確與錯(cuò)誤的界限不明確。現(xiàn)在通過(guò)語(yǔ)言大數(shù)據(jù)檢索,就會(huì)發(fā)現(xiàn)語(yǔ)言現(xiàn)象的模糊性與連續(xù)性特點(diǎn)。我們?cè)趯W(xué)習(xí)英語(yǔ)語(yǔ)法時(shí)曾被相關(guān)語(yǔ)法書(shū)明確告知:to who是不正確的表達(dá),to whom才是正確的,因?yàn)榻樵~to后要接賓格。這種規(guī)定式的二元區(qū)分to who和to whom與它們的真實(shí)用法不相符。我們很容易從4.5億詞的COCA中檢索到to who這一規(guī)定被語(yǔ)法學(xué)家視為不正確和不規(guī)范的表達(dá)使用情況(見(jiàn)表1)。從表1可見(jiàn),to who表達(dá)在非正式的口語(yǔ)、小說(shuō)文體中有使用,其頻率分別為6.47、2.17;在比較正式的雜志、報(bào)紙和很正式的學(xué)術(shù)文體中也有使用,相應(yīng)的頻率為 2.03、2.33和1.80。盡管 to whom 這一表達(dá)在英語(yǔ)使用中更為常見(jiàn):在COCA中檢索發(fā)現(xiàn)它在口語(yǔ)和小說(shuō)文體中的使用頻率為5.01、9.89;在雜志、報(bào)紙和正式的學(xué)術(shù)文體中的使用頻率分別為 7.42、5.29、11.62。從這些數(shù)據(jù)可見(jiàn),to who與to whom的用法不存在絕對(duì)正確與錯(cuò)誤之分,只有在不同文體中常用與不常用之分,同時(shí)這種常用與不常用的界限也是模糊的。因此,這類(lèi)語(yǔ)言現(xiàn)象的認(rèn)識(shí)只有基于大量的客觀語(yǔ)言使用數(shù)據(jù)才能夠得到,不能僅憑語(yǔ)言研究者的語(yǔ)言直覺(jué)獲取。規(guī)定語(yǔ)法等理論的二元區(qū)分盡管對(duì)學(xué)術(shù)研究和語(yǔ)言教學(xué)帶來(lái)極大的方便,但是也有阻礙對(duì)語(yǔ)言真實(shí)用法研究和認(rèn)知的缺陷,需要根據(jù)大數(shù)據(jù)提供的證據(jù)來(lái)進(jìn)行修正。
表1 to who與to whom在COCA中的使用分布情況
語(yǔ)言是處在動(dòng)態(tài)發(fā)展和變化之中而非靜止的,一些語(yǔ)言現(xiàn)象和結(jié)構(gòu)隨著時(shí)間的推移,它們或消失或變異,同時(shí)新的語(yǔ)言結(jié)構(gòu)不斷出現(xiàn)。在計(jì)算機(jī)和大規(guī)模記錄存儲(chǔ)與檢索技術(shù)出現(xiàn)之前,沒(méi)法或者很難觀察和大規(guī)模重現(xiàn)語(yǔ)言現(xiàn)象或結(jié)構(gòu)的動(dòng)態(tài)發(fā)展過(guò)程?,F(xiàn)在利用大數(shù)據(jù)可以很容易監(jiān)視語(yǔ)言的發(fā)展,以海量客觀的數(shù)據(jù)深化了對(duì)語(yǔ)言動(dòng)態(tài)性的本質(zhì)屬性的認(rèn)識(shí)。牛津大學(xué)出版社每年都會(huì)根據(jù)語(yǔ)言大數(shù)據(jù)匯總發(fā)布本年度收錄的新詞語(yǔ);國(guó)家語(yǔ)言資源監(jiān)測(cè)與研究中心在12億字詞語(yǔ)言大數(shù)據(jù)基礎(chǔ)上,公布2013年的新詞語(yǔ)364條就是大數(shù)據(jù)用于監(jiān)視語(yǔ)言最新發(fā)展趨勢(shì)的一個(gè)例子。
正如桂詩(shī)春先生指出的那樣:數(shù)據(jù)的基本特征是頻數(shù)(frequency),表現(xiàn)為概率關(guān)系,這就促使以概率為基礎(chǔ)的語(yǔ)言研究的蓬勃發(fā)展[9]。Jurafsky指出語(yǔ)言的概率性對(duì)語(yǔ)言理解、產(chǎn)生,對(duì)意義提取、分解和生成產(chǎn)生作用;概率對(duì)建立語(yǔ)言變化和差異模型具有重要作用[10]。計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展使運(yùn)用語(yǔ)言數(shù)據(jù)獲取的途經(jīng)多樣化、數(shù)據(jù)檢索和計(jì)算便捷化、數(shù)據(jù)庫(kù)容巨型化,建立在語(yǔ)言數(shù)據(jù)概率性基礎(chǔ)及概率特征之上的語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)、語(yǔ)料庫(kù)語(yǔ)言學(xué)、心理語(yǔ)言學(xué)獲得前所未有的發(fā)展機(jī)遇。隨著語(yǔ)言數(shù)據(jù)的不斷充實(shí)和數(shù)據(jù)處理的自動(dòng)化程度不斷提高,應(yīng)把這些以概率為基礎(chǔ)的研究方向推向新的高度,以大數(shù)據(jù)重塑尊重語(yǔ)言事實(shí)的研究理念。
語(yǔ)言的歷時(shí)研究對(duì)探究語(yǔ)言及其結(jié)構(gòu)的演變趨勢(shì)和機(jī)制有著重要的價(jià)值;語(yǔ)言的歷時(shí)研究對(duì)各個(gè)階段語(yǔ)料的分布、數(shù)量及其分析處理手段有著特定的要求。以前由于語(yǔ)言歷時(shí)數(shù)據(jù)受限,要想在歷時(shí)研究方向?qū)崿F(xiàn)重大突破和取得比較客觀的結(jié)果幾乎不可能。隨著大數(shù)據(jù)的發(fā)展,海量語(yǔ)言歷時(shí)數(shù)據(jù)獲取、存儲(chǔ)和檢索變得簡(jiǎn)便易行,以語(yǔ)言歷時(shí)大數(shù)據(jù)為基礎(chǔ)的歷時(shí)研究在追溯語(yǔ)言結(jié)構(gòu)、詞匯、形態(tài)、語(yǔ)音及語(yǔ)言文化的詳盡演變爆發(fā)出新的活力,為語(yǔ)言歷時(shí)研究提供了堅(jiān)實(shí)的語(yǔ)料基礎(chǔ),是語(yǔ)言歷時(shí)研究創(chuàng)新的源泉。李華勇借用COHA論述了其對(duì)美語(yǔ)詞匯、形態(tài)、句法、語(yǔ)義到文化的歷時(shí)研究中的作用,就是一個(gè)較好的例子[11]。
受大數(shù)據(jù)思維的影響,語(yǔ)言研究取向有三個(gè)新轉(zhuǎn)變。正如舍恩伯格和庫(kù)克耶指出:“大數(shù)據(jù)代表著我們分析信息的三個(gè)轉(zhuǎn)變,這些轉(zhuǎn)變將改變我們理解和組建社會(huì)的方法。”[1]17轉(zhuǎn)變之一是語(yǔ)言研究由依據(jù)隨機(jī)取樣或例子列舉轉(zhuǎn)變到盡量分析更多的語(yǔ)言數(shù)據(jù),甚至是處理某個(gè)特定語(yǔ)言現(xiàn)象的所有數(shù)據(jù)。全樣本的語(yǔ)言數(shù)據(jù)有利于深入認(rèn)識(shí)、分析和解釋語(yǔ)言現(xiàn)象。轉(zhuǎn)變之二是語(yǔ)言研究不再追求小范圍的精確性。語(yǔ)言是紛繁復(fù)雜和變化多端的,面對(duì)語(yǔ)言大數(shù)據(jù),小范圍的精確會(huì)被大量的“例外”推翻,因此不再過(guò)度追求微觀層面上的精確性會(huì)讓我們?cè)谡Z(yǔ)言宏觀層面擁有更好的洞察力。轉(zhuǎn)變之三是語(yǔ)言研究由熱衷于尋找因果關(guān)系和構(gòu)建各種語(yǔ)言解釋模型轉(zhuǎn)變到研究語(yǔ)言事實(shí)的相關(guān)關(guān)系上。探索語(yǔ)言事實(shí)背后的因果關(guān)系是語(yǔ)言研究長(zhǎng)久以來(lái)的模式。即使確定因果關(guān)系的難度很大,或者根本不可能或者即使確定出來(lái)了作用也有限時(shí),我們還是習(xí)慣性地在尋找。在大數(shù)據(jù)思維的影響下,我們應(yīng)該努力追尋語(yǔ)言事實(shí)之間的相關(guān)關(guān)系,它將給我們的研究帶來(lái)非常新穎的觀點(diǎn)和有意義的發(fā)現(xiàn)。盡管語(yǔ)言相關(guān)關(guān)系不能準(zhǔn)確地解釋某一語(yǔ)言現(xiàn)象發(fā)生的原因,但是會(huì)提醒我們這一語(yǔ)言現(xiàn)象和哪些語(yǔ)言現(xiàn)象或因素有關(guān),或許這樣的提醒對(duì)我們理解和認(rèn)識(shí)這一語(yǔ)言現(xiàn)象已經(jīng)足夠了。
總之,語(yǔ)言研究的這三個(gè)新轉(zhuǎn)變是適應(yīng)大數(shù)據(jù)對(duì)語(yǔ)言研究帶來(lái)巨大變革趨勢(shì)的必然選擇,有助于語(yǔ)言研究深入發(fā)展和創(chuàng)新。
大數(shù)據(jù)及其思維方式將對(duì)人類(lèi)產(chǎn)生革命性的影響,促進(jìn)人文社會(huì)科學(xué)研究進(jìn)一步量化和客觀化。在大數(shù)據(jù)視野下,語(yǔ)言學(xué)研究將在更大范圍和規(guī)模上使用語(yǔ)言大數(shù)據(jù)進(jìn)行實(shí)證研究,由過(guò)去尋找語(yǔ)言事實(shí)背后的因果關(guān)系轉(zhuǎn)向追尋語(yǔ)言事實(shí)之間的相關(guān)關(guān)系。大數(shù)據(jù)對(duì)語(yǔ)言研究具有獨(dú)特的價(jià)值:能夠大范圍觀察語(yǔ)言事實(shí)的相關(guān)程度和演化過(guò)程,促使語(yǔ)言研究更加數(shù)據(jù)化和精細(xì)化,可以解決實(shí)證語(yǔ)言學(xué)相關(guān)理論的缺陷。大數(shù)據(jù)背景下的語(yǔ)言研究更加強(qiáng)調(diào)以概率為基礎(chǔ),更加注重歷時(shí)研究,積極謀求語(yǔ)言研究三個(gè)新取向的轉(zhuǎn)向。
注釋:
①美國(guó)語(yǔ)料庫(kù)語(yǔ)言學(xué)家Mark Davies創(chuàng)建,http://corpus.byu.edu/coca/。
②這里的單位/MIL意為每一百萬(wàn)詞出現(xiàn)的次數(shù),即每一萬(wàn)百詞中,get被動(dòng)式出現(xiàn)的次數(shù)為7.13。7.13是后臺(tái)統(tǒng)計(jì)的具體數(shù)據(jù)。后面相應(yīng)的數(shù)字單位/MIL省略了。
[1]維克托·邁爾·舍恩伯格,肯尼恩·庫(kù)克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[2]Cukier K N,Schoenberge V M.The rise of big data[J].Foreign affairs,1992(3):2013.
[3]Manyika M,Chuim,Brown B,et al.Big Data:The Next Frontier for Innovation,Competition,and Productivity[R].McKinsey & Company,2011:5.
[4]越國(guó)棟,易歡歡,糜萬(wàn)軍,等.大數(shù)據(jù)時(shí)代的歷史機(jī)遇:產(chǎn)業(yè)變革與數(shù)據(jù)科學(xué)[M].北京:清華大學(xué)出版社,2013:20-25.
[5]劉紅.大數(shù)據(jù):第二次數(shù)據(jù)革命[N].中國(guó)社會(huì)科學(xué)報(bào),2014-01-21(B1).
[6]李華勇.論語(yǔ)料庫(kù)語(yǔ)言學(xué)的學(xué)科地位[J].重慶理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014(7):119-124.
[7]Davies M.Powerful(yet simple)comparisons of a wide range of phenomena in British and American English[J].ICAME Journal,2014(38):39.
[8]Taylor J R.Linguistic Categorization[M].3rd ed.Oxford:OUP,2003:41-58.
[9]桂詩(shī)春.以概率為基礎(chǔ)的語(yǔ)言研究[J].外語(yǔ)教學(xué)與研究,2004(1):4.
[10]Jurafsky D.Probabilistic modeling in psycholinguistics:Linguistic comprehension and production[C]//Bob R,et al.Probabilistic Linguistics.MIT Press,2003:4-39.
[11]李華勇.拓展歷史認(rèn)知語(yǔ)言學(xué)研究新視野的工具——美語(yǔ)歷史語(yǔ)料庫(kù)(COHA)的應(yīng)用[J].重慶工商大學(xué)(社會(huì)科學(xué)版),2013,30(6):115-124.