荀恩東,饒高琦,2,謝佳莉,3,黃志娥,4
(1. 北京語(yǔ)言大學(xué) 大數(shù)據(jù)與教育技術(shù)研究所,北京 100083;2. 北京語(yǔ)言大學(xué) 語(yǔ)言科學(xué)院,北京 100083;3. 廈門(mén)國(guó)家會(huì)計(jì)學(xué)院,福建 廈門(mén) 361005;4. 福州應(yīng)用技術(shù)大學(xué) 人文學(xué)院,福建 福州 350118)
?
現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)的建設(shè)與應(yīng)用
荀恩東1,饒高琦1,2,謝佳莉1,3,黃志娥1,4
(1. 北京語(yǔ)言大學(xué) 大數(shù)據(jù)與教育技術(shù)研究所,北京 100083;2. 北京語(yǔ)言大學(xué) 語(yǔ)言科學(xué)院,北京 100083;3. 廈門(mén)國(guó)家會(huì)計(jì)學(xué)院,福建 廈門(mén) 361005;4. 福州應(yīng)用技術(shù)大學(xué) 人文學(xué)院,福建 福州 350118)
詞匯是語(yǔ)言系統(tǒng)中最具活力的子系統(tǒng)。在語(yǔ)言演化的過(guò)程中,詞匯的歷時(shí)變化是語(yǔ)言學(xué)、歷史學(xué)、社會(huì)學(xué)等多學(xué)科所關(guān)注的信息。我們收集了時(shí)間跨度約為60年的同質(zhì)新聞?wù)Z料?;谧匀徽Z(yǔ)言處理技術(shù)我們開(kāi)發(fā)了現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)?;谠撈脚_(tái)可以利用頻率、累積和與累積頻率等方法從微觀和宏觀的角度上對(duì)詞匯的語(yǔ)義、語(yǔ)用等方面進(jìn)行研究。
歷時(shí)信息;詞匯演化;歷時(shí)計(jì)算;語(yǔ)料庫(kù)
詞是語(yǔ)言中有意義,能獨(dú)立運(yùn)用的最小單位,也是最能夠體現(xiàn)語(yǔ)言生活變遷的語(yǔ)言單位。每一個(gè)詞都有在其所屬語(yǔ)言社團(tuán)中獨(dú)特的發(fā)展過(guò)程。從微觀上說(shuō),一個(gè)詞語(yǔ)包括其使用情況的歷時(shí)信息,可以反映特定時(shí)間乃至特定領(lǐng)域在不同時(shí)期所受到關(guān)注的情況。從宏觀上講,整個(gè)詞匯的豐富程度是語(yǔ)言生活情況的重要體現(xiàn),從一個(gè)側(cè)面反映了社會(huì)變遷和人民生活的變化。每個(gè)時(shí)間斷面上的詞匯都帶有以往的語(yǔ)言歷史,是共時(shí)和歷時(shí)的混合產(chǎn)物[1]。
計(jì)量語(yǔ)言學(xué)關(guān)注今天的詞匯始于哪個(gè)歷史時(shí)期,還關(guān)注現(xiàn)在詞匯的使用狀況是如何形成的。語(yǔ)言的歷時(shí)信息同樣為計(jì)量史學(xué)所關(guān)注。而利用計(jì)量史學(xué)方法進(jìn)行的觀念史研究,則更注重特定詞語(yǔ)的歷時(shí)使用變化。金觀濤、劉清風(fēng)[2]使用晚清至民國(guó)有影響力的報(bào)刊雜志一億兩千萬(wàn)字作為數(shù)據(jù)源,通過(guò)表達(dá)同樣觀念的不同詞在不同時(shí)期使用頻率和上下文特征的研究,觀察并分析了100個(gè)中國(guó)現(xiàn)代政治術(shù)語(yǔ)的形成和發(fā)展,在史學(xué)界引起很大反響,但是其史料庫(kù)規(guī)模和選材偏執(zhí)也引起了爭(zhēng)議[3]。劉長(zhǎng)征運(yùn)用1981~2009年共29年的《深圳特區(qū)報(bào)》進(jìn)行了新詞語(yǔ)監(jiān)測(cè)和詞語(yǔ)生命力的研究[4]。涵蓋面更廣的語(yǔ)料庫(kù)如LIVAC則收集泛華語(yǔ)地區(qū)的新聞?wù)Z料四億字,在共時(shí)性和歷時(shí)性上都有突出貢獻(xiàn)[5]。在囊括兩岸三地新聞?wù)Z料的基礎(chǔ)上,持續(xù)更新,在此基礎(chǔ)上發(fā)布港臺(tái)京滬雙周、全年名人榜,熱詞榜等信息,并對(duì)兩岸三地的詞匯使用異同做出了定量的分析。LIVAC新聞?wù)Z料庫(kù)建設(shè)始于1995年,歷時(shí)僅17年。對(duì)于語(yǔ)言現(xiàn)象的變遷,這樣的跨度還略顯不足。谷歌公司2010年上線的服務(wù)Google Books N-gram Viewer,利用其數(shù)字化的520萬(wàn)冊(cè)圖書(shū)制作了可實(shí)現(xiàn)五元文法的詞匯歷時(shí)查詢[6]。覆蓋了1800~2000年間兩個(gè)世紀(jì)的語(yǔ)料。但其漢語(yǔ)圖書(shū)量較少,未對(duì)語(yǔ)料進(jìn)一步分類,且有效的查詢跨度少于200年。此外,圖書(shū)對(duì)于現(xiàn)實(shí)語(yǔ)言現(xiàn)象的變遷存在一定的滯后。
可見(jiàn),進(jìn)行語(yǔ)言歷時(shí)信息研究,尤其是詞語(yǔ)歷時(shí)信息的研究,需要大規(guī)模、長(zhǎng)時(shí)間跨度的語(yǔ)料。我們收集了時(shí)間跨度57年的某省日?qǐng)?bào)語(yǔ)料,為漢語(yǔ)詞匯的歷時(shí)信息提供了良好的基礎(chǔ)。在第二節(jié)中,我們將介紹歷時(shí)新聞?wù)Z料的構(gòu)成。對(duì)于特定詞語(yǔ)的微觀研究,頻次、頻率和頻序是計(jì)算語(yǔ)言學(xué)中的使用的經(jīng)典表征形式。在對(duì)宏觀語(yǔ)言現(xiàn)象的歷時(shí)研究中,采用前N%頻率累積和(TNFA)與總詞表前N%累積頻率歷時(shí)分布(TNFD)兩種可計(jì)算指標(biāo)對(duì)詞匯使用豐富程度和高頻詞匯來(lái)源的歷時(shí)分布進(jìn)行表征。這些可計(jì)算特征將在第三節(jié)中進(jìn)行討論?;谶@幾項(xiàng)表征,搭建了現(xiàn)代漢語(yǔ)詞匯歷時(shí)檢索系統(tǒng)(Diachro-nic Retrieval for Modern Chinese Word)。在線上開(kāi)放數(shù)據(jù)為廣大研究者所用。第四節(jié)將介紹該系統(tǒng)的設(shè)計(jì)和原理。最后一部分簡(jiǎn)要列舉了幾項(xiàng)基于該系統(tǒng)的應(yīng)用,并展望了未來(lái)的研究方向。
我們收集了自1949年11月創(chuàng)刊至2007年間的某省日?qǐng)?bào),全部語(yǔ)料7億字。該語(yǔ)料時(shí)間跨度大,覆蓋了共和國(guó)自成立以來(lái)的絕大部分歷史,記錄了期間的語(yǔ)言生活與社會(huì)生活的巨大變遷,對(duì)于各個(gè)學(xué)科的追蹤研究具有格外高的研究?jī)r(jià)值。以年為單位,對(duì)語(yǔ)料進(jìn)行整理。經(jīng)過(guò)分詞并去除標(biāo)點(diǎn)符號(hào)、拉丁字母與低頻命名實(shí)體等,共有328 000個(gè)詞形。各時(shí)間段語(yǔ)料規(guī)模如表1和圖1所示??梢?jiàn), 隨著時(shí)間的推移,語(yǔ)料規(guī)模逐漸擴(kuò)大,在1996年前后達(dá)到最高峰,接近1970年最低點(diǎn)的兩倍。這是報(bào)刊信息量加大,社會(huì)傳媒發(fā)展的結(jié)果。
表1 各時(shí)間段語(yǔ)料規(guī)模統(tǒng)計(jì)表
圖1 各年份語(yǔ)料規(guī)模(字?jǐn)?shù))
基于詞語(yǔ)歷時(shí)信息的研究,可以分為微觀的對(duì)特定詞語(yǔ)歷史信息的分析、跟蹤和宏觀的對(duì)整個(gè)語(yǔ)言基于詞語(yǔ)信息的歷時(shí)研究。對(duì)于前者,頻次、頻率和頻序是較為經(jīng)典的表征方式。后者又分為基于詞的歷時(shí)語(yǔ)言豐富程度的度量與高頻詞歷時(shí)分布的研究?;谠~的歷時(shí)語(yǔ)言豐富程度的度量,我們借用類似香農(nóng)熵的思想,使用前N%頻率累積和(TNFA)。高頻詞歷時(shí)分布則用總詞表前N%累積頻率歷時(shí)分布來(lái)加以描述。
3.1 微觀詞語(yǔ)歷時(shí)信息的表征形式
詞語(yǔ)出現(xiàn)的頻次是語(yǔ)料中最能直接表征其使用情況的特征。由于不同時(shí)間段的語(yǔ)料規(guī)模不一,使用詞語(yǔ)出現(xiàn)的頻率作為衡量該詞使用情況的標(biāo)準(zhǔn)顯然更為科學(xué)。頻率的定義如式(1)所示。
(1)
其中q(word)為詞語(yǔ)word的頻率,freq(word)是它在當(dāng)年語(yǔ)料中出現(xiàn)的頻次,Count為整個(gè)語(yǔ)料的全部詞次數(shù)。
另一種表征詞語(yǔ)使用狀況的方式是特定詞語(yǔ)在當(dāng)年詞表中的排名,如果該詞表是按照頻率降序排列的話,這種排名被稱作頻序[8]。相對(duì)于頻率,這項(xiàng)指標(biāo)更能反映出一個(gè)特定詞語(yǔ)在當(dāng)年相對(duì)于其他詞語(yǔ)的使用情況,顯示出其在整個(gè)語(yǔ)言生活中所占的地位。
3.2 基于詞語(yǔ)信息的宏觀語(yǔ)言現(xiàn)象表征
3.2.1 基于詞語(yǔ)信息的歷時(shí)語(yǔ)言豐富程度度量
詞形數(shù)的增減從一個(gè)方面反映了語(yǔ)言生活的豐富程度。而更具有說(shuō)明力的指標(biāo)是香農(nóng)熵。香農(nóng)熵的公式如式(2)所示[9]。
(2)
其中W為語(yǔ)料中的全體詞匯,設(shè)共n個(gè)詞,wi為第i個(gè)詞。p(wi)為第i個(gè)詞在語(yǔ)料庫(kù)中出現(xiàn)的概率。熵值的增高表明所有詞間使用頻率的差異較小,系統(tǒng)趨于平均和混亂。熵值的降低則表明詞語(yǔ)使用的頻率并不那么平均。圖2為各年詞的熵值變化。與圖1類似,在1970年前后落到谷底,而隨著改革開(kāi)放的開(kāi)始而逐漸回升。香農(nóng)熵的計(jì)算中帶有詞語(yǔ)使用的概率信息,較詞形數(shù)變化,可以更全面地反應(yīng)語(yǔ)言生活的豐富度。
圖2 各年語(yǔ)料的詞熵變化
香農(nóng)熵的計(jì)算是基于當(dāng)年全部詞匯進(jìn)行。我們提出一種更加直觀而靈活表現(xiàn)語(yǔ)言豐富程度的方式——年內(nèi)前N%累積和。其定義如下: 每年詞表中的詞目,按頻率降序排列,累積頻率(也被稱作覆蓋率)達(dá)到N% 時(shí)的詞數(shù)Y。
(3)
式(3)中Y代表年內(nèi)topN累積和,即達(dá)到累積頻率時(shí)詞的個(gè)數(shù);q(w)為詞表中詞w的頻率,詞表按頻率大小從大到小排練;N為待選定的累積頻率。
顯然,當(dāng)達(dá)到指定累積頻率所需的詞越多(即頻率累積的越慢),表明詞匯使用的越分散,豐富程度越高。反之亦然。圖3為1950~2007年的年內(nèi)前30%累積和。與圖2類似, 只是更為明顯。詞匯使
圖3 年內(nèi)前30%累計(jì)和
用的豐富程度改革開(kāi)放前總體低于改革開(kāi)放后,文革十年是一個(gè)明顯低谷。這符合我們的生活直覺(jué)與傳統(tǒng)語(yǔ)言學(xué)對(duì)語(yǔ)言發(fā)展的認(rèn)識(shí)[10]。
3.2.2 基于詞語(yǔ)分布的高頻詞歷時(shí)分布描述
我們使用總詞表前N%累積頻率的歷時(shí)分布來(lái)描述高頻詞的來(lái)源,定義如下: 使用全部語(yǔ)料形成的總詞表,按照頻率降序排列,當(dāng)累積頻率達(dá)到N%時(shí),該范圍內(nèi)的詞語(yǔ)[式(4)~(5)]在各年中出現(xiàn)頻率之和[式(6)]。以前50%為例,總詞表中按頻率降序,當(dāng)頻率累積到達(dá)50%時(shí),共有t個(gè)詞。這t個(gè)詞在1959年中,出現(xiàn)頻率之和,即為1959年對(duì)總詞匯的貢獻(xiàn)情況。這一指標(biāo)表征了高頻詞的歷時(shí)性分布與構(gòu)成。
(6)
前N累積和中公式(4):N為待選定的累積頻率;q(wi)為全部語(yǔ)料形成的總詞表中詞wi的頻率,詞表按頻率降序排列;公式(5): S是從總詞表中按照頻率從大到小取詞,其累積頻率達(dá)到N時(shí)所取出詞組成的集合。公式(6):p(wi)為wi在某一年(橫坐標(biāo)所指示的年份)中出現(xiàn)的頻率,將公式(5)上所取出的集合S里所有的詞累加得到的頻率和即為當(dāng)年語(yǔ)言對(duì)總高頻詞匯的貢獻(xiàn)和Y。
圖4是總詞表前50%累積頻率的歷時(shí)分布直方圖。從變化幅度上可以看出該項(xiàng)指標(biāo)對(duì)詞匯歷時(shí)分布的敏感性。同時(shí),也可以看出改革開(kāi)放后的詞語(yǔ)使用對(duì)總詞匯中使累積頻率達(dá)50%的詞匯有更重要的貢獻(xiàn),即改革開(kāi)放后的詞語(yǔ)使用對(duì)今天的影響更大。
圖4 總詞表前50%累計(jì)頻率歷時(shí)分布
基于上一部分所討論的幾種表征詞語(yǔ)歷時(shí)使用狀況的要素,我們?cè)O(shè)計(jì)了現(xiàn)代漢語(yǔ)歷時(shí)檢索系統(tǒng),提供在線詞語(yǔ)查詢和語(yǔ)言豐富度計(jì)算。我們將所收集語(yǔ)料,按照來(lái)源時(shí)間,以年為單位分割。使用北京語(yǔ)言大學(xué)研發(fā)的GPWS(通用自動(dòng)分詞系統(tǒng))對(duì)其進(jìn)行分詞和命名實(shí)體識(shí)別[11]。經(jīng)過(guò)此步驟后即可抽取出各年的詞表與總詞表。通過(guò)全文檢索系統(tǒng)對(duì)全部語(yǔ)料建立了倒排索引,并在索引中加入時(shí)間標(biāo)記。基于此,計(jì)算所有詞在各年和全部時(shí)間段的頻次、頻率、頻序與累積頻率(覆蓋率),形成支撐服務(wù)的后臺(tái)數(shù)據(jù)。系統(tǒng)設(shè)計(jì)流程圖如圖5所示。
在用戶界面圖6中,用戶在下拉框選擇歷年或全時(shí)高頻詞的覆蓋率(如前20%,前30%等等),可通過(guò)高頻詞歷時(shí)分布統(tǒng)計(jì)從宏觀上觀察語(yǔ)言使用狀況。在檢索框中輸入待查詢?cè)~語(yǔ),檢索詞語(yǔ)歷時(shí)信息(歷年頻次、頻率、頻序)以直方圖和折線圖的形式可視化顯示。在直方圖或折線圖上點(diǎn)擊某特定年份,便可獲得當(dāng)年待查詢?cè)~的使用實(shí)例。以查詢?cè)~為中心,上下文窗口為20個(gè)字,顯示檢索結(jié)果實(shí)例,方便研究者在統(tǒng)計(jì)數(shù)據(jù)之外能更詳實(shí)直觀的了解特定時(shí)間點(diǎn)上的語(yǔ)言現(xiàn)象。
現(xiàn)代漢語(yǔ)歷時(shí)檢索系統(tǒng)自2012年5月初上線以來(lái),展現(xiàn)出了較高的實(shí)用性與可用性。期間進(jìn)行了一次語(yǔ)料擴(kuò)充(延伸為1951~2012年)和兩次用戶界面改版。用戶的高頻查詢主要是新詞和公共領(lǐng)域相關(guān)概念兩方面。由于報(bào)刊新 聞?wù)Z料的特點(diǎn), 本系統(tǒng)主要功能體現(xiàn)是后者。對(duì)于新詞,如“宅女”、“忽悠”等隨著經(jīng)濟(jì)文化事業(yè)產(chǎn)生的詞, 不如網(wǎng)絡(luò)語(yǔ)料反應(yīng)快,但可以通過(guò)實(shí)時(shí)的新語(yǔ)料抓取來(lái)得到部分滿足。公共領(lǐng)域相關(guān)概念有環(huán)保、減肥、聽(tīng)證會(huì)等。單個(gè)詞語(yǔ)使用的變化,從一個(gè)側(cè)面揭示了一類社會(huì)問(wèn)題、社會(huì)現(xiàn)象發(fā)生發(fā)展以及受關(guān)注的過(guò)程。而這類詞總數(shù)的增多和使用頻率的增加,表明了公共空間作為社會(huì)發(fā)展標(biāo)志,從無(wú)到有、從小到大的過(guò)程,是符合生活直覺(jué)和社會(huì)發(fā)展規(guī)律的[12]。
圖5 系統(tǒng)設(shè)計(jì)流程圖
圖6 用戶界面
2002年,教育部發(fā)布了《第一批異形詞整理表》[13],對(duì)338個(gè)異形詞對(duì)進(jìn)行了整理和規(guī)范。異形詞的整理工作需要照顧到語(yǔ)言事實(shí)并充分考慮文化傳承,在大時(shí)間跨度上的統(tǒng)計(jì)分析是十分重要的。以“身份-身分”為例?!吧矸荨睘橥扑]詞形。從圖7中可以看出,兩者長(zhǎng)期穩(wěn)定共存(兩者都一直使用,無(wú)間斷),但是“身份”在1961年及其后均占據(jù)了絕對(duì)優(yōu)勢(shì)。該異形詞對(duì)的選擇都得到了“大數(shù)據(jù)實(shí)證”上的支持。對(duì)于未涵蓋的詞對(duì),以“交待-交代”為例,從圖8中可以看出在70年代以后兩者頻率降低并逐漸趨同。
圖7 身份-身分頻率變化圖
圖8 交待-交代頻率變化圖
就同一字/詞而言,其使用和語(yǔ)義在漫長(zhǎng)的時(shí)間流轉(zhuǎn)中也會(huì)發(fā)生巨大的變化。以“炒”為例,1950年檢出的45次使用中,全部為“把食物放在鍋里加熱并隨時(shí)翻動(dòng)使熟”,然而在1996年檢出的245次中僅有101次為此義,其余為表示“頻繁買賣”,或者是南方方言中表示解雇的“炒魷魚(yú)”,以及表示“擴(kuò)大影響”。一個(gè)有趣的現(xiàn)象是南方方言中表示解雇的“炒魷魚(yú)”。在1980年代初進(jìn)入新聞出版語(yǔ)言的時(shí)候共檢出兩次,均是在雙引號(hào)中引用;在1993年17次檢出中有11次在雙引號(hào)中;而到了2004、2005年各有一次檢出,均不在雙引號(hào)中。期間所伴隨的事件便是1999年開(kāi)始修訂的《現(xiàn)代漢語(yǔ)詞典》最終收錄了“炒魷魚(yú)”。
詞語(yǔ)的歷時(shí)信息體現(xiàn)了詞語(yǔ)在語(yǔ)言社團(tuán)中的使用,對(duì)語(yǔ)言社團(tuán)中重大事件的發(fā)生有著很好的表現(xiàn)作用。詞語(yǔ)取代現(xiàn)象還可以微觀的體現(xiàn)出語(yǔ)言生活的許多變遷。以南朝鮮-韓國(guó)兩詞的頻率查詢?yōu)槔?。如圖9所示, 南朝鮮在1960年前后出現(xiàn)使用高峰,恰好對(duì)應(yīng)了冷戰(zhàn)進(jìn)入高潮,武裝對(duì)峙白熱化。韓國(guó)和南朝鮮的使用頻率在1992年出現(xiàn)交叉。1992年之前,幾乎不使用韓國(guó)這一稱謂,之后則迅速停用了南朝鮮這一稱謂。這一節(jié)點(diǎn)所標(biāo)示的歷史事件即中韓于1992年建立外交關(guān)系。圖10為科學(xué)技術(shù)-科技的頻率圖,直觀地顯示出了“科技”取代“科學(xué)技術(shù)”的過(guò)程。
圖9 南朝鮮-韓國(guó)頻率圖
圖10 科學(xué)技術(shù)-科技頻率圖
縮略語(yǔ)隨著原短語(yǔ)使用的增長(zhǎng),自身使用也增長(zhǎng),基于人類交際的最省力原則,最終取代本詞?;谏缃痪W(wǎng)絡(luò)、微博和Twitter的公共事件預(yù)測(cè)研究方興未艾[14-16],與本系統(tǒng)探測(cè)事件發(fā)生和語(yǔ)言趨勢(shì)的原理本質(zhì)上類似,都是利用了群體智慧。歷時(shí)的語(yǔ)料數(shù)據(jù),尤其是詞信息數(shù)據(jù)在何等程度上有助于語(yǔ)言使用情況的預(yù)測(cè),乃至熱點(diǎn)的追蹤和挖掘,將是十分值得深入研究的問(wèn)題。
許多詞在不同時(shí)代有迥異的語(yǔ)義,其使用情況亦大為不同。我們通過(guò)歷時(shí)語(yǔ)言實(shí)例的查詢能夠?qū)ζ溥M(jìn)行一定區(qū)分。在詞語(yǔ)的研究方面上,現(xiàn)在的詞語(yǔ)歷時(shí)檢索系統(tǒng)是面向詞語(yǔ)使用情況的歷時(shí)變化,等于說(shuō)是基于一元語(yǔ)法(Unigram)的統(tǒng)計(jì)研究,怎樣合理地注入更多上下文信息,利用報(bào)紙語(yǔ)料中版面、板塊這一天然分類信息,提供分領(lǐng)域的查詢和對(duì)比,提供更可靠的自動(dòng)化分析也是未來(lái)的研究方向。
此外,基于統(tǒng)計(jì)的自動(dòng)分詞技術(shù)并不考慮語(yǔ)言的歷時(shí)特性。前文示例中詞語(yǔ)淺層特征在不同時(shí)間段上有著明顯的差異,這是否可以對(duì)統(tǒng)計(jì)自動(dòng)分詞提供一定反饋?從資源建設(shè)上來(lái)講,單一媒體作為語(yǔ)料來(lái)源,必然有其偏執(zhí),如何平衡的融合其他不同時(shí)間跨度上的語(yǔ)料;如何基于語(yǔ)料特點(diǎn),尋找具有應(yīng)用價(jià)值的衡量指標(biāo),這些都是在這套系統(tǒng)的研發(fā)過(guò)程中產(chǎn)生的新的學(xué)術(shù)問(wèn)題,并期待系統(tǒng)的使用者和開(kāi)發(fā)者共同進(jìn)行更深入的研究與探索。
[1] 葛本儀. 詞匯的動(dòng)態(tài)研究與詞匯規(guī)范[A]. 載《詞匯學(xué)理論與應(yīng)用》蘇新春,蘇寶榮主編. 北京: 商務(wù)印書(shū)館. 2004.
[2] 金觀濤,劉慶峰. 觀念史研究[M]. 北京: 法律出版社.2009.
[3] 張仲民. “局部真實(shí)”的觀念史研究.《東方早報(bào)》2010年5月23日B05版.
[4] 劉長(zhǎng)征. 基于動(dòng)態(tài)流通語(yǔ)料庫(kù)的新詞語(yǔ)監(jiān)測(cè)研究[M]. 北京: 世界圖書(shū)出版社.2011.
[5] 鄒嘉彥,鄺藹兒,陸斌,蔡永富. 漢語(yǔ)共時(shí)語(yǔ)料庫(kù)與追蹤語(yǔ)料庫(kù)[J]. 中文信息學(xué)報(bào),2011,25(6):38-45.
[6] Jean-Baptiste Michel, Yuan Kui Shen,Aviva Presser Aiden etl. Quantitative Analysis of Culture Using Millions of Digitized Books. Science 331, 176(2011); DOI: 10.1126/science.1199644.
[7] 李宇明. 權(quán)威方言在漢語(yǔ)規(guī)范中的地位[J]. 清華大學(xué)學(xué)報(bào), 2004,5:24-29.
[8] 教育部語(yǔ)言文字信息管理司. 中國(guó)語(yǔ)言生活狀況報(bào)告[M]. 北京: 商務(wù)印書(shū)館,2009:525-534.
[9] 克勞德·艾爾伍德·香農(nóng). 《通信的數(shù)學(xué)理論》 (A mathematical theory of communication) 貝爾系統(tǒng)技術(shù),1948,1:379-423.
[10] 葉蜚聲,徐通鏘. 語(yǔ)言學(xué)剛要(修訂版)[M]. 北京: 北京大學(xué)出版社.2010.
[11] 宋柔,羅智勇.現(xiàn)代漢語(yǔ)通用分詞系統(tǒng)(GPWS v3.5)http://democlip.blcu.edu.cn:8081/gpws/
[12] 尤爾根-哈貝馬斯. 公共領(lǐng)域的結(jié)構(gòu)轉(zhuǎn)型[M]. 上海: 學(xué)林出版社.1999.
[13] 《第一批異形詞整理表》,中華人民共和國(guó)教育部. 2002
[14] Shen Yu,Subhash Kak. A Survey of Prediction Using Social Media[C]. ArXive-prints. March, 2012.
[15] 路榮,張旸,楊青. 社交網(wǎng)絡(luò)中新聞趨勢(shì)的預(yù)測(cè)分析[J]. 中文信息學(xué)報(bào). 2012,26(5):85-90.
[16] 洪宇,張宇,劉挺,李生. 話題檢測(cè)與跟蹤的評(píng)測(cè)及研究綜述[J]. 中文信息學(xué)報(bào). 2007,21(6):71-87.
Diachronic Retrieval for Modern Chinese Word: System Construction and Its Application
XUN Endong1, RAO Gaoqi1,2, XIE Jiali1,3, HUANG Zhi’e1,4
(1. Institute of Big Data and Educational Technology, Beijing Language and Culture University, Beijing 100083, China; 2. Faculty of Linguistic Sciences, Beijing Language and Culture University, Beijing 100083, China; 3. Xiamen National Accounting Institute, Xiamen, Fujian 361005, China; 4. School of Humanities, Fujian Universitity of Technology, Fuzhou, Fujian 350118, China)
Lexicon is the most active and time sensitive sub system of a language. During the evolution of a language, diachronic changes in vocabulary are focused by linguist, historian and sociologist etc. We collected large scale of corpora with a large time span, and developed the system of Diachronic Retrieval for Modern Chinese Word with natural language processing technology. It provides search indexes on frequency, cumulative sum, cumulative frequency etc., for possible studies on the semantics pragmatics and other aspects of the word.
diachronic information; lexicon evolution; diachronic computing; corpus
荀恩東(1967—),通訊作者,教授,主要研究領(lǐng)域?yàn)檎Z(yǔ)言信息處理、語(yǔ)言教育技術(shù)。E?mail:xunendong@blcu.edu.cn饒高琦(1987—),博士研究生,主要研究領(lǐng)域?yàn)橛?jì)算語(yǔ)言學(xué)、語(yǔ)言規(guī)劃。E?mail:raogaoqi@blcu.edu.cn謝佳莉(1988—),主要研究領(lǐng)域?yàn)檎Z(yǔ)言信息處理、教育技術(shù)。
1003-0077(2015)03-0169-08
2013-04-08 定稿日期: 2013-07-9
國(guó)家自然科學(xué)基金(61300081,61170162);國(guó)家語(yǔ)委項(xiàng)目(YB125-42);國(guó)家高技術(shù)研究(863)發(fā)展計(jì)劃(2015AA015409)。
TP391
A