• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)時代的漢語語言學(xué)研究

      2013-09-06 03:31:42詹衛(wèi)東
      關(guān)鍵詞:語言學(xué)漢語語言

      詹衛(wèi)東

      (北京大學(xué)中文系/中國語言學(xué)研究中心/計算語言學(xué)教育部重點實驗室,北京 100871)

      意大利哲人尼可羅·馬基亞維利(Niccolò Machiavelli)有句名言:“風(fēng)景畫家要描繪山巒之美,需先置身卑谷”。要思考今天這個時代如何去做語言學(xué)的研究,恐怕也應(yīng)該跳出語言學(xué)自身的藩籬,放眼環(huán)顧我們身處的社會環(huán)境和學(xué)術(shù)生態(tài),從時代進步的節(jié)奏和鄰近相關(guān)學(xué)科的發(fā)展脈絡(luò)中,或可反觀語言學(xué)的律動軌跡,把握未來的方向。

      一 身處大數(shù)據(jù)時代

      近幾年來,“大數(shù)據(jù)”(Big Data)這個詞見諸媒體越來越頻繁,無論是企業(yè)界,還是學(xué)術(shù)界,“大數(shù)據(jù)”都是一個正在迅速升溫的熱門話題。2013年年初,反映這一時代特征的代表性著作,舍恩伯格和庫克耶合著的《大數(shù)據(jù)時代:生活、工作與思維的大變革》[1]中文版和英文版先后面世①中文翻譯版先于英文原著出版,也可以算是信息時代的一個有趣特點。,為“2013年是大數(shù)據(jù)元年”提供了最好的注腳。正如該書副標(biāo)題所宣稱的,大數(shù)據(jù)是一場大變革,從生活到工作,乃至思維方式,影響可謂既廣又深。書中給出了很多佐證這一觀點的例子,這些令人印象深刻的例子,其引人入勝之處,既在于它們直接解決了大眾生活中面臨的一些普遍問題,同時又在于其解決之道正是引入了大規(guī)模數(shù)據(jù)資源和先進的數(shù)據(jù)分析技術(shù)。這里舉其中兩例略加說明,一個例子是商業(yè)消費領(lǐng)域的:研究人員從網(wǎng)上飛機票預(yù)定系統(tǒng)的機票銷售歷史數(shù)據(jù)中,提取機票價格隨時間波動的趨勢性規(guī)律,從而為人們選擇恰當(dāng)?shù)馁徠睍r機,節(jié)省購買成本[2]②這項研究后來得到風(fēng)險投資成立了名為Farecast的公司,該公司后來又被微軟公司以1.1億美元收購,集成到微軟Bing搜索引擎中為用戶提供服務(wù)(http://www.bing.com/travel)。。這個非常典型的基于大數(shù)據(jù)的商業(yè)應(yīng)用系統(tǒng),無疑對于企業(yè),對于普通消費者都有很強的吸引力,通過大數(shù)據(jù)計算,直接為社會創(chuàng)造了經(jīng)濟價值。另一個例子是公共衛(wèi)生領(lǐng)域的:研究人員發(fā)現(xiàn),從人們在Google搜索引擎中輸入的最常見的5 000萬個檢索關(guān)鍵詞數(shù)據(jù)中,可以找到一些特定的檢索模式。這些模式跟美國疾控中心存儲的季節(jié)性流感爆發(fā)期間的病例報告數(shù)據(jù)之間有很高的相關(guān)性,從而可以依據(jù)這些檢索模式,加上分布在全美各地的以百萬計的Google用戶的實時查詢數(shù)據(jù),來估計季節(jié)性流感在美國各州的傳播態(tài)勢。傳統(tǒng)的基于實際病例統(tǒng)計和實驗室病毒分析的方法通常需要一到兩周時間才能給出報告,而基于用戶查詢記錄的大數(shù)據(jù)方法則可以做到每天都發(fā)布流感態(tài)勢報告①Google流感趨勢網(wǎng)站(http://www.google.org/flutrends/us/#US)將流感狀態(tài)分為“極輕、輕、中等、重、極重”五級,并以五種顏色區(qū)分,在Google地圖上標(biāo)記每個地區(qū)的流感狀態(tài)。。這項研究成果發(fā)表在2009年2月份的《自然》(Nature)雜志上[3]。

      大數(shù)據(jù)處理的魅力不僅體現(xiàn)在上述典型的數(shù)據(jù)計算和分析領(lǐng)域,而且也開始在一些人文社會科學(xué)研究領(lǐng)域初試啼聲。比如基于維基百科(Wikipedia)②http://www.wikipedia.org/有285種語言,超過2200萬篇文章。的大規(guī)模文本分析來從某些特定角度展示人類歷史變遷的宏觀面貌,就是一個有代表性的例子[4]。研究人員利用一臺有4000個 CPU,內(nèi)存為64TB(1TB=1000GB,即1012字節(jié))的超級計算機對400萬篇以英語寫的百科文章進行處理,提取其中的日期、地點信息,并通過統(tǒng)計每篇文章中的情感詞,計算某個特定年份的情感指數(shù)(取值從極負(fù)面到極正面分為200級),用這種方法計算了1800-2012年間212年的情感指數(shù),并將計算結(jié)果用212張疊加的世界地圖來表示,即以地圖上不同地點標(biāo)記不同顏色來反映當(dāng)?shù)卦谀硞€特定年份的情感指數(shù)。這212張按年疊加帶有顏色變化的世界地圖以可視化(Visualization)的方式在網(wǎng)頁上呈現(xiàn)③https://www.youtube.com/watch?v=KmCQVIVpzWg,在某種程度上,可以說是直接把一幅“風(fēng)云際會、斗轉(zhuǎn)星移”的世界史動態(tài)畫卷鋪展在了讀者面前④需要說明的是,盡管上述這些大數(shù)據(jù)計算的例子確有震撼效果,但客觀而言,大數(shù)據(jù)計算無論在實際應(yīng)用還是科學(xué)研究中,都還在初期探索階段,基于大數(shù)據(jù)得到的結(jié)論有的已經(jīng)可以直接指導(dǎo)人們的社會實踐,但也有不少還只是起到一定的參考作用,并不能取代傳統(tǒng)的方法。。

      毫無疑問,“大數(shù)據(jù)”已經(jīng)給這個時代打下了鮮明的印記,身處其中,無論是否愿意,都將受其影響。就科學(xué)研究而言,有的學(xué)科因為直接涉及大數(shù)據(jù)分析而已經(jīng)發(fā)生顯著的變化,比如計算機科學(xué)與語言學(xué)的交叉學(xué)科——計算語言學(xué)在近十年來的發(fā)展,就是這樣的例證。下面不妨快速掃描一下這門年輕的學(xué)科近半個世紀(jì)的發(fā)展歷程,以更深刻地體會“大數(shù)據(jù)”對一個學(xué)科所帶來的沖擊和影響。漢語語言學(xué)未來的進程或可從中有所借鑒。

      二 來自計算語言學(xué)的啟示

      計算語言學(xué)(Computational Linguistics)從其應(yīng)用目標(biāo)來說,就是讓計算機能夠“理解”人類的自然語言(Natural Language Understanding,NLU)。這個任務(wù)的實質(zhì)是希望找到從語言的形式映射到語言的意義的機械方法。如果把“理解”人類的自然語言看做是人類智能行為的主要特征,那么,自然語言理解顯然屬于人工智能的研究范疇,即探求作為高級智能的人的語言行為在多大程度上可以機械化。

      作為一個誕生在僅僅半個世紀(jì)前的相當(dāng)新的研究領(lǐng)域,NLU所經(jīng)歷的發(fā)展過程稱得上是跌宕起伏。而伴隨其間的,可以說正是在NLU不同發(fā)展階段人們對于其處理對象——“自然語言”的不同理解。眾所周知,NLU脫胎于機器翻譯(Machine Translation,MT)。上世紀(jì)中葉,自動計算裝置在二戰(zhàn)中破譯密碼的威力在戰(zhàn)后繼續(xù)發(fā)酵,刺激著正在重建新世界的人們的想象力。用剛問世不久的電子計算機把一種自然語言翻譯成另一種自然語言順理成章地也被看做是密碼破譯的過程。MT從想法到能實際運行的演示系統(tǒng),只用了短短五年時間(1949-1954)。然而,由美國Georgetown大學(xué)和IBM聯(lián)合研制的第一個MT系統(tǒng)只是在媒體宣傳和爭取政府資助上獲得了實實在在的成功,真正能夠服務(wù)于社會解決翻譯問題的MT系統(tǒng)并沒有像其研制者所宣稱的那樣在三五年內(nèi)就問世。相反,1966年發(fā)布的著名的ALPAC⑤ALPAC是美國國會為調(diào)查MT而成立的“自動語言處理咨詢委員會”的英文名首字母縮寫。報告終結(jié)了MT的頭一個十年熱潮。人們開始透過計算機難以逾越的翻譯障礙反思人類自然語言本身的性質(zhì)。翻譯不再僅僅被簡單地看做是密碼破譯的信息處理過程,自然語言也不僅僅是一串單詞的序列。如何讓計算機真正“理解”人類的自然語言,語言的層次結(jié)構(gòu)該如何分析,如何從形式結(jié)構(gòu)映射到意義表示……等等理論問題開始引起來自計算機科學(xué)、數(shù)學(xué)、語言學(xué)等跨學(xué)科研究人員的深思,新興的交叉學(xué)科——計算語言學(xué)也正是在這個背景中走上歷史舞臺的。20世紀(jì)七八十年代,各種分析自然語言的形式理論和計算方法如雨后春筍般涌現(xiàn),其中著名的如基于概念依存圖(Concept Dependency Graph)的知識表示方法與腳本理論(Script Theory),廣義短語結(jié)構(gòu)語法(GPSG),詞匯功能語法(LFG),中心詞驅(qū)動的短語結(jié)構(gòu)語法(HPSG),擴充的遞歸轉(zhuǎn)移網(wǎng)絡(luò)(ATN)等等,均各領(lǐng)一時風(fēng)騷。不僅如此,語言學(xué)家提出的一些并不是直接要為計算機服務(wù)的語言學(xué)理論(如系統(tǒng)功能語法)也受到計算機科研人員的重視,被用來作為計算機模擬人類語言行為的理論指導(dǎo)[5]。在經(jīng)歷了MT被工業(yè)界和政府科研經(jīng)費資助冷落十年之后,科學(xué)家們在“理解”人類自然語言方面所取得的進展為NLU燃起了希望。這個階段,NLU躺在語言學(xué)的懷抱里,自然語言在理性主義哲學(xué)的觀照下被看做是有限結(jié)構(gòu)(有限規(guī)則)的無限遞歸應(yīng)用,MT的主流是基于規(guī)則的方法,計算機程序首先按照語言學(xué)理論提供的規(guī)則模型,拆解原文的結(jié)構(gòu),把原文句子分析為詞和短語結(jié)構(gòu),然后再按照目標(biāo)語言的語序和結(jié)構(gòu)要求,重新拼裝,生成譯文。但是,當(dāng)這些針對小規(guī)模語言實例“表現(xiàn)良好”的理論和方法遇到大規(guī)模真實語料時,無論是對原文的分析,還是對譯文的生成,研究人員總結(jié)的理想的規(guī)則卻遠(yuǎn)遠(yuǎn)無法勝任,人們對NLU的憧憬再次敗倒在自然語言的無比復(fù)雜性面前。NLU的大旗也逐漸易幟為NLP(Natural Language Processing,自然語言處理),比起“理解”自然語言這樣的目標(biāo),“處理”自然語言的信息,要務(wù)實得多。歷史年輪很快轉(zhuǎn)到了20世紀(jì)90年代,伴隨著互聯(lián)網(wǎng)的迅速普及,主要以自然語言作為載體的海量數(shù)字化信息開始進入人們的生活。在這樣的社會背景下,得益于計算技術(shù)的進步和大規(guī)模語言數(shù)據(jù)的易于獲得,以統(tǒng)計方法為主導(dǎo)的NLP應(yīng)用研究開始逐漸成為計算語言學(xué)學(xué)術(shù)會議和期刊論文的主角。從1990年IBM公司的Brown等人提出基于信源信道模型的統(tǒng)計機器翻譯模型[6,7]到2002年Och提出基于最大熵的統(tǒng)計機器翻譯方法[8],在時隔半個世紀(jì)后,統(tǒng)計機器翻譯再一次繞開了對語言結(jié)構(gòu)的“理解”,讓自然語言的翻譯任務(wù)又一次回歸到字符串信號處理[9,10]。2004 年 Och 加入 Google,基于統(tǒng)計的機器翻譯借力Google的大規(guī)模雙語對齊語料和并行計算平臺,通過互聯(lián)網(wǎng)開始為社會提供切實的翻譯服務(wù)①目前Google在線翻譯可以支持66種語言之間的互譯。。盡管跟以往基于規(guī)則的方法相比,翻譯質(zhì)量很難說有本質(zhì)性的改觀,但其開發(fā)周期短、維護成本低、支持語言多等諸多工程上的優(yōu)勢仍然廣為業(yè)界稱道。相比之下,傳統(tǒng)的“先理解,再翻譯”的所謂理性主義語言觀不再是理所當(dāng)然的信條。統(tǒng)計機器翻譯的后來居上,讓人們見識了計算機如何在大數(shù)據(jù)的平臺上做到“不懂也能裝懂”。為了近距離感受一下統(tǒng)計機器翻譯方法的效果,下面不妨利用網(wǎng)上的三個在線機器翻譯系統(tǒng)②MT1是國外的規(guī)則機器翻譯系統(tǒng);MT2是國內(nèi)的規(guī)則機器翻譯系統(tǒng);MT3是國外的統(tǒng)計機器翻譯系統(tǒng)。,來做一個漢英翻譯的小測試。見表1。

      表1 漢—英機器翻譯示例

      對比表1中的三個機器翻譯結(jié)果,不難發(fā)現(xiàn),基于統(tǒng)計方法的MT3表現(xiàn)要更勝一籌。以原文中的幾個語言難點:連續(xù)動詞結(jié)構(gòu)“聲明稱”“堅持要求”,專名“美伊駐軍地位協(xié)議”,以及引語句“不可延長”的翻譯結(jié)果來看,MT3的譯文結(jié)構(gòu)都更準(zhǔn)確,自然度也更高。基于規(guī)則的MT1系統(tǒng)的結(jié)果中出現(xiàn)了“stated said”“insisted requested”這樣明顯的語法錯誤。對“美伊駐軍地位協(xié)議”這個專名的翻譯,MT1勉強可以接受,而MT2則完全沒有翻譯出來,而且還把其中的“伊”當(dāng)成了第三人稱代詞,同時又無法確定其性別,因而譯文中出現(xiàn)了“He|she”帶上所有格標(biāo)記“’s”的奇怪形式。這是基于規(guī)則方法的機器翻譯系統(tǒng)更容易出現(xiàn)的問題。

      盡管上面給出的基于不同方法的機器譯文都算不上高質(zhì)量,但總體來說,基于統(tǒng)計方法開發(fā)的機器翻譯系統(tǒng)后來居上,超越現(xiàn)有的基于規(guī)則方法的機器翻譯系統(tǒng),已是不爭的事實。計算語言學(xué)中發(fā)生這種研究范式的轉(zhuǎn)變,并非偶然,而是有其深刻原因的:

      (1)社會已經(jīng)全面進入互聯(lián)網(wǎng)時代。這個時代的特點是信息量大,信息傳播速度快。自然語言的活躍程度遠(yuǎn)遠(yuǎn)高于以往任何一個時期。這就意味著語言字符本身的不確定性在增強①自然語言的不確定性體現(xiàn)在兩個方面:一是原本就有不少語言單位有不確定性;二是近年來由網(wǎng)絡(luò)而逐漸擴散到普通社會生活用語中的新興語言現(xiàn)象有明顯加快的趨勢。前者的例子如:(1)斯諾登給北京和華盛頓出了外交難題——美國“家務(wù)事”考驗中國。(2)北京和華盛頓的時差是13個小時。其中“北京和華盛頓”在例1中指中美兩國政府,例2中指地理上的兩個城市。這種不確定性在網(wǎng)絡(luò)時代變得更為常見。后者的例子比如“被畢業(yè),被自殺,被就業(yè),被代表,被失蹤,被小康,被增長,被繁榮,被開心、被捐款、被健康……”等等許多不合一般語法的“被××”構(gòu)造,“百度百科”中甚至有一個條目叫“被時代”。這類新的語言現(xiàn)象涉及語言中的字、詞、句、篇各個層次。。這種情況對基于理性主義的規(guī)則方法,是一個比較嚴(yán)峻的挑戰(zhàn)。而用統(tǒng)計方法來發(fā)現(xiàn)不確定性對象背后的概率性的規(guī)律,則更為適應(yīng)互聯(lián)網(wǎng)時代的這種特點。

      (2)互聯(lián)網(wǎng)規(guī)模的驚人增速為統(tǒng)計模型準(zhǔn)備了海量的數(shù)據(jù),為統(tǒng)計方法大展拳腳提供了充足的彈藥。比如基于手工構(gòu)建的Wiki百科文章和整個互聯(lián)網(wǎng)的網(wǎng)頁文獻,研究人員已經(jīng)獲得了巨型知識庫如 DBpedia,F(xiàn)reebase,Probase,WikiTaxonomy,YAGO等,并且仍在繼續(xù)擴大規(guī)模。以Freebase為例,庫中目前包含了39 732 785個主題和1 814 525 012個事實。基于如此龐大的知識庫,新型的計算機問答系統(tǒng)(QA)就有能力回答諸如“Which composer from the eternal city wrote the score for the Ecstasy scene?(哪位來自永恒之城的作曲家是《沉醉》一劇的作曲者?)”這樣的刁鉆問題。[11,12]

      (3)計算機的能力主要表現(xiàn)在“記憶”和“搜索”,而不是創(chuàng)新和演繹推理。統(tǒng)計方法在機器翻譯以及中文分詞等技術(shù)上的成績,可以理解為計算機依靠其強大記憶能力,在海量數(shù)據(jù)和恰當(dāng)?shù)慕y(tǒng)計模型兩駕馬車的輔佐下取得的成功。完全人工的規(guī)則在語言知識的概括度和層級的系統(tǒng)性等方面可以表現(xiàn)出簡潔的美感,但在工程應(yīng)用層面,卻缺乏對真實語料的有效覆蓋,缺乏對具體而微的詞語共現(xiàn)信息的準(zhǔn)確刻畫。人工規(guī)則更多的是在“類”(type)的層面描述語言對象的性質(zhì),而基于大數(shù)據(jù)的統(tǒng)計方法則基本上可以接近甚至做到在“例”(token)的層面描述語言對象的分布、搭配、對齊等方面的性質(zhì)。

      在上述這些因素的綜合作用下,隨著近十年來機器學(xué)習(xí)(Machine Learning)熱潮在NLP領(lǐng)域的推波助瀾,自然語言作為計算機的信息處理對象,其自身的特殊性越來越被工程技術(shù)人員淡化,研究人員更多的是從工程效果,而不是從內(nèi)在理據(jù)的角度去看待他們開發(fā)的NLP系統(tǒng)。一種觀念似乎已成為工程師們的共識:即便是最時髦的語言學(xué)理論,在NLP中也起不到多少錦上添花的作用。但是,話又說回來,這種狀況顯然并不是NLU的理想主義者所愿意看到的。當(dāng)工程師們津津樂道于NLP憑借統(tǒng)計模型、機器學(xué)習(xí)技術(shù)所取得的最新成就的時候,也不乏傳統(tǒng)的計算語言學(xué)的擁躉開始反思這個學(xué)科的未來之路。如果只是在工程上而不是在科學(xué)研究上具有獨立性,計算語言學(xué)豈不成了應(yīng)用統(tǒng)計學(xué)的一個分支[13]?要實現(xiàn)人工智能的終極理想NLU,僅靠NLP工程上的進步顯然是不夠的,沒有了科學(xué)根基的工程技術(shù),其命運大概只能是“行之不遠(yuǎn)”。那么,計算語言學(xué)以及更基礎(chǔ)的語言學(xué)研究前進的方向又在哪里呢?

      三 漢語研究的未來之路

      本文并不想冒險去預(yù)測未來,但從過去的問題出發(fā)去探索未來之路總不是壞事。反觀過去半個世紀(jì)計算語言學(xué)的發(fā)展歷程,其實不難看到關(guān)于語言的理論研究的問題所在:(1)理論語言學(xué)的關(guān)注點過于注重所謂的抽象的“語言能力”,而在一定程度上忽視了具體的“語言使用”。(2)過去的語言學(xué)建模中大都只看自然語言的終端語符序列,即語言成品,基本忽略了作為交際主體的人的能動性,以及在交際過程中除語言符號本身之外的其他非語言本體知識的作用。

      針對上述第一個問題,可以說大數(shù)據(jù)時代的語言工程正是一個改進的方向。現(xiàn)在比以往任何時候都能更容易地獲得豐富的語言資源。借助集群計算機強大的計算能力和選擇適當(dāng)?shù)慕y(tǒng)計模型,就有可能從海量語言數(shù)據(jù)中挖掘出更符合語言真實使用情況的規(guī)律知識,這不僅可以促進語言學(xué)理論研究,也有助于語言研究成果更好地轉(zhuǎn)化為信息處理產(chǎn)品。

      針對上述第二個問題,未來的語言學(xué)研究應(yīng)該更注重跟心理學(xué)、神經(jīng)科學(xué)、腦科學(xué)、認(rèn)知科學(xué)研究的互動,把注意力從僅僅盯在終端語符序列,拓展到也深入考察語言交際的心理過程,研究人類在概念組織、意義推理等能力上的內(nèi)在認(rèn)知機制。事實上,計算語言學(xué)領(lǐng)域近年來的熱點研究方向“隱喻理解”“情感分析”等,也已經(jīng)從應(yīng)用需求角度把這些值得深入探索的問題擺在了研究者的面前。已經(jīng)有學(xué)者注意到,從心理學(xué)角度對文本(語言)特征及其創(chuàng)作者(或說話人)所做的分析,可以在面向應(yīng)用的計算模型中發(fā)揮積極作用。比如基于英語的一些心理學(xué)研究發(fā)現(xiàn),心情沮喪的學(xué)生更多地使用第一人稱;說話人更多使用抽象的表達(dá)方式(形容詞比動詞更抽象)描述他人行為特征時,可能意味著描述中帶有更多偏見;人們在指稱表達(dá)式中給出的信息往往比所需要的更多①這跟Grice的“信息足量”語用原則并不完全一致。,等等[14]。

      上述這兩個方面中,第一個方面可能更具體一些,因為這是大數(shù)據(jù)時代對語言學(xué)提出的直接的要求,同時這也是語言學(xué)工作者的分內(nèi)之事。這個方面做好了,再去跟其他學(xué)科交叉結(jié)合,可能也會更容易一些,而且進行大規(guī)模語言工程建設(shè)的過程,同時也就是檢驗既有語言學(xué)理論的過程,在這個過程中,很可能也會提出新的理論問題。下面主要就這個方面簡略談兩點看法。

      第一,漢語的電子化的大規(guī)模語言資源的數(shù)量、類型多樣性、易獲得性等方面都還有待提高。跟英語的情況相比,漢語這方面目前仍有較大差距。以美國賓州大學(xué)的語言數(shù)據(jù)聯(lián)盟(LDC)②http://www.ldc.upenn.edu/為例,LDC是英語語言資源(同時也包括很多其他語種)的大超市,不同的研究單位按照LDC的格式規(guī)范將自己的語言資源提交給LDC,由LDC統(tǒng)一發(fā)布、管理、銷售(既有免費資源,也有收費資源)。從1993年成立至今,LDC的語言資源規(guī)模已經(jīng)達(dá)到565種(其中中文資源有50種),包括語料庫、知識庫、音頻資源、視頻資源等多種形式。中國中文信息學(xué)會仿照LDC的做法,在2003年成立了Chinese LDC(中文語言資源聯(lián)盟)③http://www.chineseldc.org/,目前語言資源規(guī)模僅95種。差距可見一斑。此外,隨著語言類型學(xué)的研究不斷深入,積累的語言數(shù)據(jù)不斷增加,國外也出現(xiàn)了可以方便查詢的世界語言在線數(shù)據(jù)庫,其中WALS(世界語言結(jié)構(gòu)地圖)④http://wals.info/languoid/lect/wals_code_mnd(世界語言在線地圖網(wǎng)站關(guān)于漢語普通話的數(shù)據(jù))是一個典型代表,WALS目前包含了2 678種語言的76 492個數(shù)據(jù)點。有些常見特征在很多語言中都有對應(yīng)的數(shù)據(jù)采集,比如關(guān)于“賓語和動詞的語序”特征,就有1 519種語言的數(shù)據(jù)包含在WALS數(shù)據(jù)庫中。國內(nèi)漢語方言研究和少數(shù)民族語言研究多年來也積累了很多紙面的和若干電子化的材料,但把這些材料大規(guī)模數(shù)據(jù)化,并且放在互聯(lián)網(wǎng)上供學(xué)術(shù)界使用,還未曾見到。我國學(xué)者向來有治學(xué)首先應(yīng)注重材料的傳統(tǒng)。在大數(shù)據(jù)時代,語言材料的規(guī)模已遠(yuǎn)超昔日,要繼承乾嘉學(xué)派以來的樸學(xué)之風(fēng),就應(yīng)該群策群力,聯(lián)合起來,盡快將漢語語言資源電子化,并加以系統(tǒng)整理,放到互聯(lián)網(wǎng)上供學(xué)界和社會使用。

      第二,大數(shù)據(jù)時代的漢語語言資源建設(shè)不僅追求“量”,同時也重視“質(zhì)”。語言資源的“質(zhì)”可以從多個方面體現(xiàn),包括:(1)語言范疇形式化;(2)語言數(shù)據(jù)專項化;(3)語言知識可視化??偟哪繕?biāo)就是讓大型語言數(shù)據(jù)庫規(guī)范、好用。

      語言范疇形式化是構(gòu)建大規(guī)模語言資源的理論基礎(chǔ)和工程基礎(chǔ),即提出一套元語言符號系統(tǒng),嚴(yán)密地表達(dá)一個語言模型,從而可以內(nèi)部一致地對語言對象(事實)進行標(biāo)識。比如漢語的詞類體系、短語結(jié)構(gòu)分類體系、語義分類體系等,都可以加以形式化,并用相應(yīng)的范疇標(biāo)記來標(biāo)注漢語的語料。以加工漢語樹庫(Treebank)為例,我們擬定了17個短語范疇標(biāo)記和95個詞范疇標(biāo)記①標(biāo)記集參見:http://ccl.pku.edu.cn/doubtfire/Projects/Treebank_Tags.pdf,對100多萬字的漢語真實語料進行了分詞、詞性標(biāo)注、句法結(jié)構(gòu)標(biāo)注。在標(biāo)注過程中,發(fā)現(xiàn)了一些用傳統(tǒng)的短語結(jié)構(gòu)語法理論難以描述的語言現(xiàn)象(比如“他這是想家想的”,其句法結(jié)構(gòu)樹就很難用現(xiàn)有的短語結(jié)構(gòu)進行標(biāo)注),這就促使我們重新思考原來的漢語句法理論設(shè)計。而在標(biāo)注完成后,我們可以定量分析樹庫中各詞類、短語類的分布情況,以及詞類序列構(gòu)成歧義結(jié)構(gòu)的情況等,這些定量分析反過來也可以評價初始的詞類劃分理論框架是否合理,為漢語的理論研究提供參考[15-17]。

      語言數(shù)據(jù)專項化是語言資源工程建設(shè)不斷深化和擴展的自然結(jié)果。為獲得優(yōu)質(zhì)語言數(shù)據(jù),人們已經(jīng)開始建設(shè)各種不同性質(zhì)適應(yīng)不同需求的大規(guī)模專項語言數(shù)據(jù)庫,比如中文輸入法中應(yīng)用的超大規(guī)模的領(lǐng)域詞典,文本情感分析中應(yīng)用的情感詞典,面向?qū)ν鉂h語教學(xué)的漢語述補結(jié)構(gòu)用法詞典等等,都是語言資源中的專項數(shù)據(jù)庫。跟早期的通用型語言數(shù)據(jù)庫相比,這些專項數(shù)據(jù)庫通常選擇特定的語言對象,有相對單一的應(yīng)用目的,因而有可能在資源規(guī)模、質(zhì)量和易用性等方面達(dá)到更高的水平。

      語言知識的可視化,目標(biāo)是以形象生動的方式展現(xiàn)枯燥的數(shù)據(jù)及數(shù)據(jù)間的關(guān)聯(lián)。無論是宏觀層面還是微觀層面的語言事實,如果可以通過可視化界面來呈現(xiàn)相應(yīng)的語言事實,用戶就更容易直觀地把握。下面是我們正在構(gòu)建的漢語述補結(jié)構(gòu)數(shù)據(jù)庫的兩個可視化頁面。見圖1、圖2。

      圖1 述語“吃”所帶結(jié)果補語

      圖2 計算機自動提取的“干凈”的相關(guān)事件角色

      圖1中“吃”所帶的補語詞“飽、完、掉、好……”等是人工搜集的。按照其在大規(guī)模語料中出現(xiàn)的頻次高低,安排它們離“吃”的位置遠(yuǎn)近,頻次高的距離“吃”近,反之則遠(yuǎn)。通過這種“距離像似性”,可以體會“吃”搭配不同補語的能力差異。點擊其中的補語節(jié)點“干凈”可以彈出一個文本框,顯示“吃-干凈”這個述補結(jié)構(gòu)的一些基本信息。進一步點擊框中的“事件角色”,則可以顯示“吃”“干凈”各自的事件參與角色和二者共享的事件角色。圖2中的詞語就是“干凈”的事件參與角色,這些詞語是從CCL現(xiàn)代漢語語料庫①http://ccl.pku.edu.cn:8080/ccl_corpus(3.3億字)中用程序自動抽取的,凡是跟“干凈”在同一個句子中共現(xiàn)的名詞,都被抽取出來,按照共現(xiàn)頻次高低安排其在圖中的位置、顏色及字號大小。頻次越高的詞位置越靠中間、顏色越亮、字號越大。盡管自動抽取的結(jié)果中有不少誤判,但因為數(shù)據(jù)量大,那些典型的跟“干凈”共現(xiàn)頻率高的名詞(如“衣服、人、水、房間……”)還是凸顯出來了。

      在大數(shù)據(jù)時代,語言學(xué)家擔(dān)當(dāng)著語言數(shù)據(jù)(知識)的挖掘者、整理者、呈現(xiàn)者的角色。作為一個漢語研究者,有責(zé)任去挖掘和發(fā)現(xiàn)新的、有價值的漢語事實,并作出盡可能詳盡的描寫和盡可能合理的解釋。而且漢語語言學(xué)研究應(yīng)更加開放,更加重視多學(xué)科的交叉和融合。這要求我們自覺地用更加多元的視角去看語言對象,像盲人摸象一樣,從單個視角,我們可能只能了解對象的一個側(cè)面,如果多一些視角,就可以提供關(guān)于研究對象的更為完整的畫面,使我們有可能更接近真理一些。這種開放的研究態(tài)度,并非大數(shù)據(jù)時代的新鮮事物,語言學(xué)理論研究中也早有先例。比如語言學(xué)家借鑒信息論的思想,提出把語言中的重音位置跟語言成分所負(fù)載信息量的大小關(guān)聯(lián)起來的理論[18],就是以跨學(xué)科視角開展研究的極佳例證?,F(xiàn)在我們已經(jīng)邁入到大數(shù)據(jù)時代,開展交叉和融合型的漢語語言學(xué)研究有更好的條件,理應(yīng)更加普遍。

      [1]Viktor Mayer-Sch?nberger,Kenneth Cukier.Big Data:A Revolution That Will Transform How We Live,Work,and Think[M].Eamon Dolan/Houghton Mifflin Harcourt.中文版《大數(shù)據(jù)時代》.盛揚燕,周 濤,譯.杭州:浙江人民出版社,2013.

      [2]Oren Etzioni,Rattapoom Tuchinda,Craig A Knoblock,Alexander Yates.To buy or not to buy:mining airfare data to minimize ticket purchase price[C]//Proceedings of The Ninth ACM SIGKDD International Conference on Knowledge Discovery and Data mining.washington D C,USA:August 24-27,2003.

      [3]Jeremy Ginsberg,Matthew H Mohebbi,Rajan S Patel,Lynnette Brammer,Mark S Smolinski,Larry Brilliant.Detecting influenza epidemics using search engine query data[J].Nature,2009(457):1012-1014.

      [4]Kalev H Leetaru.A big data approach to the humanities,arts and social sciences[J].Research Trends,2012(30).

      [5]馮志偉.自然語言處理的形式模型[M].北京:中國科學(xué)技術(shù)大學(xué)出版社,2010.

      [6]Peter F Brown,John Cocke,Stephen A Della Pietra,Vincent J Della Pietra,F(xiàn)redrick Jelinek,John D Lafferty,Robert L Mercer,Paul S Roossin.A Statistical Approach to Machine Translation[J].Computational Linguistics,1990,16(2).

      [7]Peter F Brown,Stephen A Della Pietra,Vincent J Della Pietra,Robert L Mercer.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2).

      [8]Franz Josef Och,Hermann Ney.Discriminative Training and Maximum Entropy Models for Statistical Machine Translation[C].Proceedings of ACL,2002:295-302.

      [9]劉 群.統(tǒng)計機器翻譯綜述[J].中文信息學(xué)報,2003(4):1-12.

      [10]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008.

      [11]Weikum G,Hoffart J,Nakashole N,Spaniol M,Suchanek F,Yosef M A.Big Data Methods for Computational Linguistics[J].IEEE Data Engineering Bulletin:Special Issue on Data Management beyond Database Systems,2012,35(3):46-55.

      [12]David Ferrucci,Eric Brown,Jennifer Chu-Carroll,James Fan,David Gondek,Aditya A Kalyanpur,Adam Lally,William J Murdock,Eric Nyberg,John Prager,Nico Schlaefer,Chris Welty.Building Watson:An Overview of the DeepQA Project[J].AI Magazine,2010,31(3).

      [13]Shuly Wintner.What Science Underlies Natural Language Engineering?[J].Computational Linguistics,2009,35(4):641-644.

      [14]Emiel Krahmer.What Computational Linguists Can Learn from Psychologists(and Vice Versa)[J].Computational Linguistics,2010,36(2):285-294.

      [15]詹衛(wèi)東.基于大規(guī)模中文樹庫的漢語句法知識獲取研究[C].第四屆漢學(xué)國際會議,中國臺北:臺灣中研院語言學(xué)研究所,2012.6.20-22.

      [16]詹衛(wèi)東.從語言工程的角度看“中心擴展條件”與“并列條件”[J].語言科學(xué),2012(5):449-463.

      [17]詹衛(wèi)東.計算機句法結(jié)構(gòu)分析需要什么樣的詞類知識——兼評近年來漢語詞類研究的新進展[J].中國語文,2013(2).

      [18]端木三.重音、信息和語言的分類[J].語言科學(xué),2007(5):5-18.

      猜你喜歡
      語言學(xué)漢語語言
      學(xué)漢語
      金橋(2022年6期)2022-06-20 01:36:16
      輕輕松松聊漢語 后海
      金橋(2020年11期)2020-12-14 07:52:56
      語言是刀
      文苑(2020年4期)2020-05-30 12:35:30
      讓語言描寫搖曳多姿
      追劇宅女教漢語
      漢語不能成為“亂燉”
      華人時刊(2017年17期)2017-11-09 03:12:08
      認(rèn)知語言學(xué)與對外漢語教學(xué)
      累積動態(tài)分析下的同聲傳譯語言壓縮
      我有我語言
      語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動
      红桥区| 望城县| 邵武市| 胶州市| 高淳县| 沈阳市| 封丘县| 长岛县| 乌鲁木齐市| 商南县| 淮阳县| 连云港市| 平湖市| 宁津县| 兴隆县| 哈巴河县| 新闻| 海原县| 忻城县| 新干县| 长子县| 普格县| 南开区| 东台市| 调兵山市| 洛川县| 双城市| 电白县| 自贡市| 沧州市| 惠安县| 东乡县| 南雄市| 榆林市| 上犹县| 宝应县| 定陶县| 丹凤县| 长宁县| 丰县| 满城县|