北京大學(xué)CCL語(yǔ)料庫(kù)的研制*

2019-08-22 00:49:44北京大學(xué)詹衛(wèi)東常寶寶諶貽榮

語(yǔ)料庫(kù)語(yǔ)言學(xué) 2019年1期

北京大學(xué) 詹衛(wèi)東郭銳常寶寶諶貽榮陳龍

提要：北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心CCL語(yǔ)料庫(kù)是面向語(yǔ)言學(xué)本體研究和語(yǔ)言教學(xué)的大規(guī)模語(yǔ)料庫(kù)，目前包括現(xiàn)代漢語(yǔ)、古代漢語(yǔ)和漢英句對(duì)齊平行語(yǔ)料，規(guī)模超過(guò)7億漢字。CCL語(yǔ)料庫(kù)檢索系統(tǒng)以包括漢字、字母、標(biāo)點(diǎn)等在內(nèi)的字符為基本索引單位，提供普通查詢(xún)、批量查詢(xún)、模式查詢(xún)等多種檢索方式。同時(shí)該系統(tǒng)支持限定范圍查詢(xún)、基于復(fù)雜檢索表達(dá)式的查詢(xún)、統(tǒng)計(jì)模式頻次、對(duì)查詢(xún)結(jié)果進(jìn)行排序、下載查詢(xún)結(jié)果等功能。本文介紹CCL語(yǔ)料庫(kù)的建設(shè)情況與主要功能，具體涉及語(yǔ)料分布概況、語(yǔ)料庫(kù)查詢(xún)功能和使用方式、語(yǔ)料庫(kù)索引與檢索技術(shù)架構(gòu)等。

1.引言

在語(yǔ)言本體研究及語(yǔ)言應(yīng)用領(lǐng)域（如語(yǔ)言教學(xué)、教材編寫(xiě)、詞典編纂等方面），語(yǔ)料庫(kù)都發(fā)揮著非常重要的作用。另外，在自然語(yǔ)言處理領(lǐng)域，數(shù)據(jù)驅(qū)動(dòng)的方式亦是當(dāng)前主流。國(guó)際上的BNC語(yǔ)料庫(kù)、COCA語(yǔ)料庫(kù)、美國(guó)賓州大學(xué)LDC收集的多語(yǔ)種語(yǔ)言資源；國(guó)內(nèi)的國(guó)家語(yǔ)委語(yǔ)料庫(kù)、北京語(yǔ)言大學(xué)的BCC語(yǔ)料庫(kù)（荀恩東等 2016），以及本文要介紹的北京大學(xué)CCL語(yǔ)料庫(kù)等，均被廣泛應(yīng)用于語(yǔ)言學(xué)研究、教學(xué)領(lǐng)域以及自然語(yǔ)言處理中。可以說(shuō)，經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展，語(yǔ)料庫(kù)已經(jīng)成為現(xiàn)代語(yǔ)言學(xué)相關(guān)領(lǐng)域必不可少的基礎(chǔ)資源和研究工具1。

北京大學(xué)CCL語(yǔ)料庫(kù)是由北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心（簡(jiǎn)稱(chēng)CCL）開(kāi)發(fā)的大規(guī)模中文語(yǔ)料庫(kù)。CCL成立于2000年1月。同年9月被教育部批準(zhǔn)為全國(guó)普通高等學(xué)校人文社會(huì)科學(xué)重點(diǎn)研究基地。成立之初，設(shè)定的目標(biāo)即為“努力把基地建設(shè)成為國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究中心、國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究信息資料庫(kù)、國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究學(xué)術(shù)交流中心”。其中第二項(xiàng)目標(biāo)的主要工作內(nèi)容就是構(gòu)建大規(guī)模語(yǔ)料庫(kù)，免費(fèi)向全球用戶(hù)開(kāi)放，服務(wù)漢語(yǔ)研究和教學(xué)2。根據(jù)這個(gè)定位和具體的任務(wù)要求，CCL研究人員聯(lián)合北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所，研發(fā)了CCL語(yǔ)料庫(kù)，于2004年底在CCL網(wǎng)站上發(fā)布了首個(gè)版本。此后分別在2006年、2009年、2014年歷經(jīng)多次語(yǔ)料擴(kuò)容和檢索系統(tǒng)功能升級(jí)，系統(tǒng)運(yùn)行至今已有近十五年，而且仍在根據(jù)研究工作需要和用戶(hù)反饋持續(xù)更新。CCL語(yǔ)料庫(kù)在海內(nèi)外漢語(yǔ)研究和教學(xué)領(lǐng)域得到了廣泛應(yīng)用，產(chǎn)生了較大的影響。本文將詳細(xì)介紹CCL語(yǔ)料庫(kù)的研制情況和使用方法。

2.CCL語(yǔ)料庫(kù)的設(shè)計(jì)理念與語(yǔ)料分布

語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展過(guò)程中，對(duì)于原始語(yǔ)料是否應(yīng)加以標(biāo)注，一直有兩種對(duì)立的主張。一種觀點(diǎn)認(rèn)為語(yǔ)料庫(kù)應(yīng)該保持原樣，不做標(biāo)注。因?yàn)闃?biāo)注意味著預(yù)設(shè)的理論注入，可能帶來(lái)謬誤。真正的語(yǔ)言學(xué)知識(shí)，應(yīng)該來(lái)自原始語(yǔ)料本身，不帶任何預(yù)設(shè)的偏見(jiàn)。另一種觀點(diǎn)認(rèn)為語(yǔ)料標(biāo)注有助于更好地研究語(yǔ)言，標(biāo)注信息豐富的語(yǔ)料庫(kù)可以在包括語(yǔ)言本體、語(yǔ)言認(rèn)知等領(lǐng)域提供更好的工具支持。支持前一種觀點(diǎn)的有一些著名的語(yǔ)料庫(kù)語(yǔ)言學(xué)家，比如Sinclair（2004）、Teubert（2005）等。支持后一種觀點(diǎn)的語(yǔ)言學(xué)者大概更多，可參見(jiàn)Leech（1993，1997，2005）、Gries（2012）等。這兩種主張的背后，其實(shí)是對(duì)語(yǔ)料庫(kù)在語(yǔ)言研究中所起作用的定位差異，即所謂語(yǔ)料庫(kù)驅(qū)動(dòng)的語(yǔ)言學(xué)（corpus-driven linguistics）與基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)（corpus-based linguistics）之分。前者把語(yǔ)料本身作為語(yǔ)言學(xué)理論的數(shù)據(jù)來(lái)源，追求在純粹的原始語(yǔ)言數(shù)據(jù)基礎(chǔ)上，構(gòu)建全新的、區(qū)別于傳統(tǒng)的、真正意義上的語(yǔ)料庫(kù)語(yǔ)言學(xué)理論；后者把語(yǔ)料庫(kù)作為工具看待，主張?jiān)跇?biāo)注語(yǔ)料基礎(chǔ)上，檢驗(yàn)并發(fā)展已有的語(yǔ)言學(xué)理論。

在北大CCL語(yǔ)料庫(kù)系統(tǒng)設(shè)計(jì)之初，研究人員一方面受到上述語(yǔ)料庫(kù)語(yǔ)言學(xué)“兩種路線之爭(zhēng)”的大背景影響；另一方面，也更主要的是，中文文本語(yǔ)料的自動(dòng)分詞、詞性標(biāo)注技術(shù)在當(dāng)時(shí)的技術(shù)條件下還不夠成熟，如果要進(jìn)行詞匯級(jí)的標(biāo)注處理，需要較多的人工干預(yù)，成本較高，因此選擇了基本保持自然文本狀態(tài)，僅做文本的篇章分類(lèi)和少量信息標(biāo)注的路線。把語(yǔ)料庫(kù)建設(shè)的工作集中在兩個(gè)方面：一是完成基本的電子文本的文字校對(duì)；二是開(kāi)發(fā)功能豐富的、支持語(yǔ)言學(xué)研究的例句檢索系統(tǒng)。這樣可以大大縮短語(yǔ)料庫(kù)的開(kāi)發(fā)周期。

根據(jù)當(dāng)時(shí)的技術(shù)條件和已有的電子文本積累，CCL語(yǔ)料庫(kù)確定入庫(kù)的語(yǔ)料類(lèi)型包括三大類(lèi)：現(xiàn)代漢語(yǔ)語(yǔ)料、古代漢語(yǔ)語(yǔ)料和漢英句對(duì)齊語(yǔ)料。從規(guī)模上講，以現(xiàn)代漢語(yǔ)和古代漢語(yǔ)語(yǔ)料為主。主要為漢語(yǔ)本體研究提供服務(wù)，漢英句對(duì)齊語(yǔ)料可以為漢英對(duì)比研究提供支持。下面分別介紹三類(lèi)語(yǔ)料的小類(lèi)構(gòu)成以及所占比例。

（一）現(xiàn)代漢語(yǔ)語(yǔ)料

CCL語(yǔ)料庫(kù)中現(xiàn)代漢語(yǔ)語(yǔ)料近12億字節(jié)3，包含10645個(gè)不同字形的漢字。其中1949年之前的語(yǔ)料為“現(xiàn)代”語(yǔ)料，1949年之后的為“當(dāng)代”語(yǔ)料?，F(xiàn)代文獻(xiàn)約0.15億字節(jié)，占全部現(xiàn)代漢語(yǔ)語(yǔ)料的1.28%；當(dāng)代文獻(xiàn)，涵蓋了口語(yǔ)、文學(xué)、網(wǎng)絡(luò)語(yǔ)料、應(yīng)用文等10類(lèi)，約11.8億字節(jié)，占現(xiàn)代漢語(yǔ)語(yǔ)料的98.72%?，F(xiàn)代漢語(yǔ)語(yǔ)料的分類(lèi)及規(guī)模統(tǒng)計(jì)詳見(jiàn)表1。

表1 現(xiàn)代漢語(yǔ)語(yǔ)料規(guī)模統(tǒng)計(jì)

（二）古代漢語(yǔ)語(yǔ)料

CCL語(yǔ)料庫(kù)中古代漢語(yǔ)語(yǔ)料近4億字節(jié)4，包含18,898個(gè)不同字形的漢字。古代漢語(yǔ)語(yǔ)料根據(jù)語(yǔ)料所在的朝代分類(lèi)。對(duì)于一些不方便按照朝代分類(lèi)的語(yǔ)料，CCL語(yǔ)料庫(kù)將它們歸入其他雜類(lèi)。各朝代語(yǔ)料收錄了從周代到民國(guó)的1.64億字節(jié)的語(yǔ)料（占比41.05%）；雜類(lèi)語(yǔ)料2.36億字節(jié)（占比58.95%）。古代漢語(yǔ)語(yǔ)料的分類(lèi)及規(guī)模統(tǒng)計(jì)詳見(jiàn)表2。

表2 古代漢語(yǔ)語(yǔ)料規(guī)模統(tǒng)計(jì)

（續(xù)表）

（三）漢英對(duì)齊雙語(yǔ)語(yǔ)料

CCL語(yǔ)料庫(kù)中漢英句子對(duì)齊語(yǔ)料約0.716億字節(jié)，其中包含747個(gè)漢譯英文件和1627個(gè)英譯漢文件，約23.36萬(wàn)個(gè)對(duì)齊的句子對(duì)（具有翻譯關(guān)系），含600多萬(wàn)漢字和近400萬(wàn)英語(yǔ)單詞。語(yǔ)料以書(shū)面語(yǔ)為主，也包含少量口語(yǔ)，分為應(yīng)用文、文學(xué)和新聞三類(lèi)文體，涉及政治、科技、體育等多個(gè)領(lǐng)域。表3列出了這些對(duì)齊語(yǔ)料在不同文體中的統(tǒng)計(jì)信息。

表3 漢英句子對(duì)齊語(yǔ)料規(guī)模統(tǒng)計(jì)

CCL語(yǔ)料庫(kù)中的中文語(yǔ)料和英文語(yǔ)料均未做詞匯、句法信息標(biāo)注。僅做了篇章層面的少量分類(lèi)信息標(biāo)注。對(duì)于中文語(yǔ)料，以文件夾和文件名表示領(lǐng)域分類(lèi)、文體信息和作者信息等；對(duì)于漢英對(duì)齊語(yǔ)料，在原始語(yǔ)料的XML文件中，標(biāo)注了一篇文獻(xiàn)的領(lǐng)域、文體、作者、譯者、原文語(yǔ)種等信息。這些標(biāo)注信息可以在檢索時(shí)由用戶(hù)指定為檢索條件。參見(jiàn)下文3.4和3.5小節(jié)的說(shuō)明。

3.CCL語(yǔ)料庫(kù)的檢索功能

CCL語(yǔ)料庫(kù)中，單語(yǔ)語(yǔ)料庫(kù)支持普通查詢(xún)、批量查詢(xún)和模式查詢(xún)?nèi)N查詢(xún)方式，雙語(yǔ)語(yǔ)料庫(kù)在普通查詢(xún)外還提供了檢索界面更為友好的高級(jí)查詢(xún)頁(yè)面。以下結(jié)合示例詳細(xì)介紹這些查詢(xún)功能的具體使用方式。

3.1 普通查詢(xún)

普通查詢(xún)功能通過(guò)查詢(xún)表達(dá)式使用。查詢(xún)表達(dá)式由關(guān)鍵字、數(shù)字、分隔符、操作符、基本項(xiàng)、過(guò)濾項(xiàng)、簡(jiǎn)單項(xiàng)、復(fù)雜項(xiàng)、子句等8項(xiàng)組成。這些項(xiàng)目的具體層級(jí)關(guān)系見(jiàn)表4。

表4 查詢(xún)表達(dá)式的構(gòu)成形式

表4中包含了3組特殊符號(hào)（共8個(gè)），第一組（Operator1）和第二組（Operator2）都是二元操作符，置于兩個(gè)項(xiàng)目之間。第三組（Operator3）只有一個(gè)符號(hào)，是一元操作符，后接一個(gè)項(xiàng)目。這些符號(hào)的具體含義見(jiàn)表5。

表5 操作符和分隔符的含義與作用

需要補(bǔ)充說(shuō)明的是：

（1）Operator2這一組操作符中，“$”和“+”這兩個(gè)操作符可以在查詢(xún)表達(dá)式中多次使用，且兩個(gè)操作符還可以組合使用。其他三個(gè)操作符僅能使用一次，并且只能單用，不能與同組其他操作符同時(shí)使用。

（2）西文冒號(hào)“:”總是跟在關(guān)鍵字之后使用。關(guān)鍵字author代表“作者”，pattern代表“重疊模式”，name代表“中文語(yǔ)料文件名”，type代表“文章類(lèi)型”，ch代表“中文句子”，en代表“英文句子”，translator代表“譯者”，enname代表“英文語(yǔ)料文件名”。這些關(guān)鍵字相當(dāng)于語(yǔ)料的特征，可以在全文檢索的同時(shí)，進(jìn)一步指定這些特征的值，從而達(dá)到更精準(zhǔn)檢索（或縮小檢索范圍）的目的。有點(diǎn)類(lèi)似過(guò)濾操作，因此上面表4又把“:”稱(chēng)為分隔符，用于構(gòu)成查詢(xún)表達(dá)式中的“過(guò)濾項(xiàng)”。

（3）西文嘆號(hào)“!”后接一個(gè)簡(jiǎn)單項(xiàng)，標(biāo)示該簡(jiǎn)單項(xiàng)是查詢(xún)表達(dá)式中的主要查詢(xún)條件，即中心詞。在顯示查詢(xún)結(jié)果時(shí)，該項(xiàng)匹配的字符串將置于一行的中心位置，并高亮顯示（參見(jiàn)下文3.6）。如果查詢(xún)表達(dá)式不包含“!”，則默認(rèn)第一個(gè)簡(jiǎn)單項(xiàng)為中心詞。一個(gè)查詢(xún)表達(dá)式中有且僅有一個(gè)中心詞（可以有0或1個(gè)西文嘆號(hào)）。

為幫助理解上述符號(hào)的含義和用法，表6給出了一些查詢(xún)表達(dá)式的示例。

表6 查詢(xún)表達(dá)式示例

表6中例1和例2的查詢(xún)結(jié)果相同。這也附帶說(shuō)明了，為達(dá)到一個(gè)查詢(xún)目的，查詢(xún)表達(dá)式可以有不止一種寫(xiě)法。例1和例2的查詢(xún)結(jié)果在顯示時(shí)會(huì)有細(xì)微差異。例1中“了?！笔且粋€(gè)簡(jiǎn)單項(xiàng)，因此會(huì)作為一個(gè)檢索單位，居中定位顯示。例2中“了”是一個(gè)簡(jiǎn)單項(xiàng)，“?！笔且粋€(gè)簡(jiǎn)單項(xiàng)，二者緊鄰出現(xiàn)，會(huì)作為兩個(gè)檢索單位，其中“了”是居中定位的詞語(yǔ)。

值得一提的是，CCL語(yǔ)料庫(kù)檢索系統(tǒng)是搭建在開(kāi)源的全文搜索引擎工具包Lucene之上的（詳見(jiàn)第4節(jié)）。作為全文搜索引擎，一般會(huì)屏蔽標(biāo)點(diǎn)符號(hào)這類(lèi)很少被搜索的符號(hào)5。但是，考慮到語(yǔ)言學(xué)研究中，標(biāo)點(diǎn)符號(hào)是一類(lèi)重要的字符，CCL語(yǔ)料庫(kù)檢索系統(tǒng)也支持對(duì)標(biāo)點(diǎn)符號(hào)的檢索，將標(biāo)點(diǎn)符號(hào)跟一般漢字等同看待。在上面的查詢(xún)表達(dá)式示例中，例1和例2展示了標(biāo)點(diǎn)符號(hào)的作用，可以在句號(hào)等標(biāo)點(diǎn)的輔助下檢索句尾包含“了”的句子。

這里再舉一個(gè)例子說(shuō)明標(biāo)點(diǎn)符號(hào)檢索的作用。比如在比較“高興”和“快樂(lè)”的用法差異時(shí)，查詢(xún)它們跟書(shū)名號(hào)《》共現(xiàn)的情況，查詢(xún)表達(dá)式分別為“《$5高興$5》”和“《$5快樂(lè)$5》”。前者在CCL語(yǔ)料庫(kù)中僅檢索到5條結(jié)果；后者則檢索到214條結(jié)果。不難發(fā)現(xiàn)，“快樂(lè)”用于標(biāo)題的概率遠(yuǎn)多于“高興”。這無(wú)疑可以為分析二者的詞義和用法差異提供一定的線索。

查詢(xún)表達(dá)式中的“基本項(xiàng)”是不含操作符的任意字符串。系統(tǒng)關(guān)鍵字如果不緊跟西文冒號(hào)，也會(huì)被當(dāng)作普通字符串看待，比如查詢(xún)表達(dá)式“author”，將返回的結(jié)果是包含author的文本行。對(duì)于“基本項(xiàng)”的搜索規(guī)則，漢語(yǔ)是精確匹配。英語(yǔ)是兼容詞形變體的精確匹配。例如在查詢(xún)單詞“take”時(shí)，會(huì)將took、taken、taking、takes等同時(shí)作為匹配目標(biāo)，返回包含這些詞形的文本行。

3.2 批量查詢(xún)

在批量查詢(xún)頁(yè)面，用戶(hù)可以把符合格式規(guī)范的多個(gè)查詢(xún)表達(dá)式寫(xiě)在一個(gè)文本文件中，每個(gè)查詢(xún)表達(dá)式占一行，然后將該文件上傳到CCL語(yǔ)料庫(kù)檢索系統(tǒng)，進(jìn)行批量查詢(xún)。系統(tǒng)默認(rèn)允許的最大查詢(xún)個(gè)數(shù)為30個(gè)查詢(xún)表達(dá)式。文件需采用GBK編碼，不支持UTF-8編碼。

批量查詢(xún)可以把用戶(hù)感興趣的語(yǔ)料庫(kù)檢索任務(wù)集中在一起，一次性完成。比如，用戶(hù)想對(duì)比“把”字結(jié)構(gòu)跟“著、了、過(guò)”分別共現(xiàn)的情況，就可以使用批量查詢(xún)來(lái)實(shí)現(xiàn)。表7為批量查詢(xún)“把$4了”“把$4著”“把$4過(guò)”這三種格式的查詢(xún)結(jié)果6。返回的結(jié)果網(wǎng)頁(yè)中列出了每個(gè)查詢(xún)表達(dá)式命中的結(jié)果的個(gè)數(shù)。每個(gè)查詢(xún)表達(dá)式上都有一個(gè)超鏈接，點(diǎn)擊后可進(jìn)入該查詢(xún)表達(dá)式對(duì)應(yīng)的具體查詢(xún)結(jié)果。對(duì)比顯示，“把”字結(jié)構(gòu)跟“了”共現(xiàn)的頻率遠(yuǎn)遠(yuǎn)高于“著”和“過(guò)”。

表7 批量查詢(xún)返回的結(jié)果頁(yè)面示例

3.3 模式查詢(xún)

在模式查詢(xún)頁(yè)面，用戶(hù)可以指定特定的模式檢索跟該模式匹配的例句，例如“愛(ài)X不X”“X來(lái)Y去”等，模式中字母為變項(xiàng)，相同字母代表相同的文字，不同字母代表不同的文字。例如：“X來(lái)X去”將匹配包含“跑來(lái)跑去、說(shuō)來(lái)說(shuō)去”等的例句；“X來(lái)Y去”將匹配包含“思來(lái)想去、顛來(lái)倒去”等的例句。

為了與原文中的字母進(jìn)行區(qū)分，在模式查詢(xún)表達(dá)式中，要求匹配的變項(xiàng)字符用括號(hào)括起來(lái)。此外，變項(xiàng)的長(zhǎng)度也可以由用戶(hù)指定。表8是一些模式查詢(xún)的示例。

表8 模式查詢(xún)示例

模式查詢(xún)表達(dá)式中的變項(xiàng)可以有三種方式指定字符串長(zhǎng)度。如表8中所示：（X，=2）表示變項(xiàng)X為2個(gè)字符長(zhǎng)度；（Y＜4）表示變項(xiàng)Y長(zhǎng)度小于4個(gè)字符，即1到3個(gè)字符長(zhǎng)度；（Z，2-4）表示變項(xiàng)Z的長(zhǎng)度介于2到4個(gè)字符之間。相同的兩個(gè)變項(xiàng)，長(zhǎng)度也相同，如果給兩個(gè)相同變項(xiàng)指定不同的長(zhǎng)度，則系統(tǒng)會(huì)報(bào)錯(cuò)。相同變項(xiàng)的長(zhǎng)度只需指定一次即可。此外，變項(xiàng)長(zhǎng)度未指定時(shí)，系統(tǒng)默認(rèn)變項(xiàng)長(zhǎng)度為1-10個(gè)字符。也就是說(shuō)，模式查詢(xún)表達(dá)式“愛(ài)（V）不（V）”等價(jià)于“愛(ài)（V，1-10）不（V）”。此外，需要注意的是，模式表達(dá)式中的“V”不是代表動(dòng)詞，“V”跟“X”的作用是一樣的，僅代表變項(xiàng)。模式表達(dá)式中相同字母代表相同的變項(xiàng)，不同字母代表不同變項(xiàng)。

模式查詢(xún)功能返回結(jié)果可以像普通查詢(xún)一樣，返回原文例句，也可以點(diǎn)擊模式查詢(xún)頁(yè)面上的“統(tǒng)計(jì)”按鈕，對(duì)模式中的變項(xiàng)進(jìn)行頻次計(jì)數(shù)，并按頻次大小降序輸出。比如查詢(xún)模式“愛(ài)（X，＜3）不（X）”中變項(xiàng)X的統(tǒng)計(jì)信息為：X共有51種，頻次最高的前5個(gè)是：愛(ài)理不理：98；（X，理）、愛(ài)得不得：18；（X，得）、愛(ài)信不信：18；（X，信）、愛(ài)聽(tīng)不聽(tīng)：8；（X，聽(tīng)）、愛(ài)吃不吃：8；（X，吃）。跟模式匹配的實(shí)例后面是出現(xiàn)頻次值，括號(hào)中是變項(xiàng)X的值。

3.4 高級(jí)查詢(xún)

在CCL漢英句對(duì)齊語(yǔ)料庫(kù)中，提供了高級(jí)查詢(xún)頁(yè)面。該頁(yè)面的查詢(xún)功能跟3.1節(jié)介紹的普通查詢(xún)是一樣的。但通過(guò)區(qū)分不同的查詢(xún)關(guān)鍵字段，使得用戶(hù)表達(dá)查詢(xún)意圖更為直觀方便。用戶(hù)可以根據(jù)自己的需要，指定語(yǔ)料的作者、譯者、類(lèi)型、模式（特指漢語(yǔ)的各種重疊形式）、中文篇名、英文篇名等作為查詢(xún)條件。各條件之間是邏輯“并”的關(guān)系。比如在“作者”字段指定查詢(xún)“諶容”，在模式字段指定查詢(xún)“AA”（表示單音節(jié)重疊），則相當(dāng)于普通查詢(xún)模式下輸入查詢(xún)表達(dá)式：author:諶容 pattern:AA。

3.5 指定查詢(xún)范圍

CCL語(yǔ)料庫(kù)默認(rèn)情況下是針對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行檢索。同時(shí)也提供了用戶(hù)選擇語(yǔ)料查詢(xún)范圍的功能。選擇的范圍可以具體到若干篇特定的文本。上文3.1節(jié)已經(jīng)提到，CCL語(yǔ)料庫(kù)在文件目錄結(jié)構(gòu)和文件名中標(biāo)記了語(yǔ)料的一些篇章信息，比如“口語(yǔ)”目錄下，存放的是口語(yǔ)體的相關(guān)文件，在“西漢”目錄下，存放的是西漢時(shí)期的文獻(xiàn)語(yǔ)料，文件“張承志北方的河.txt”的文件名中包含了作者“張承志”的信息。在查詢(xún)范圍選擇頁(yè)面上，CCL語(yǔ)料庫(kù)的全部文件目錄和文件名信息以樹(shù)狀方式呈現(xiàn)，用戶(hù)可展開(kāi)每個(gè)目錄及其子目錄直到列出該目錄下包含的所有文件，通過(guò)勾選樹(shù)節(jié)點(diǎn)前的方框，來(lái)指定將某個(gè)特定的目錄或文件列入查詢(xún)范圍。

圖1顯示了選擇語(yǔ)料范圍的界面，左圖是現(xiàn)代漢語(yǔ)語(yǔ)料文件目錄的示意，右圖是古代漢語(yǔ)語(yǔ)料文件目錄的示意。左圖中勾選的查詢(xún)范圍是：“口語(yǔ)”目錄下的“1982北京話調(diào)查資料.txt”文件和“電視訪談”目錄下的所有文件。右圖中勾選的查詢(xún)范圍是：“春秋”目錄下的“左傳.txt”以及“西漢”目錄下的“劉向戰(zhàn)國(guó)策.txt”這兩個(gè)文件。

圖1 查詢(xún)范圍選擇界面

通過(guò)上面的界面指定查詢(xún)范圍，跟在普通查詢(xún)表達(dá)式中用過(guò)濾項(xiàng)來(lái)表示檢索條件可以達(dá)到相同效果。例如：“現(xiàn)代”目錄下有子目錄“小說(shuō)”，其下有文件“老舍四世同堂.txt”“老舍短篇.txt”“老舍長(zhǎng)篇1.txt”“老舍長(zhǎng)篇2.txt”等四個(gè)文件是作家老舍的語(yǔ)料。在查找范圍頁(yè)面上勾選這4個(gè)文件，相當(dāng)于在普通查詢(xún)表達(dá)式中指定“author:老舍”作為查詢(xún)項(xiàng)。

3.6 查詢(xún)結(jié)果的顯示與下載

CCL語(yǔ)料庫(kù)的查詢(xún)結(jié)果以原始語(yǔ)料文件（純文本格式）中的一個(gè)自然文本行為單位輸出顯示，用戶(hù)可以指定查詢(xún)結(jié)果的顯示長(zhǎng)度（左右n個(gè)字范圍），默認(rèn)為一行60個(gè)字符。如果想顯示查詢(xún)關(guān)鍵字所在的整行，可以通過(guò)指定足夠大的顯示長(zhǎng)度（比如1,000）來(lái)實(shí)現(xiàn)。當(dāng)用戶(hù)指定的顯示長(zhǎng)度超過(guò)原文本行的字符長(zhǎng)度時(shí)，以原文本行長(zhǎng)度為限顯示查詢(xún)結(jié)果。查詢(xún)結(jié)果中，被查詢(xún)項(xiàng)會(huì)被標(biāo)成紅色，稱(chēng)為標(biāo)亮詞。中心詞是特殊的標(biāo)亮詞，在顯示查詢(xún)結(jié)果的每行文本時(shí)，以中心詞位于頁(yè)面水平中心位置對(duì)齊。用戶(hù)可用操作符“！”指定中心詞。若不指定，則默認(rèn)第一個(gè)標(biāo)亮詞為中心詞（參見(jiàn)3.1節(jié)表5和表6的說(shuō)明）。下面是查詢(xún)“被$10把$3!給$2了”的結(jié)果頁(yè)面示例，“被、把、給、了”四個(gè)詞為高亮詞，均以紅色加下劃線形式顯示，“給”是居于中心位置的高亮詞。

圖2 檢索結(jié)果頁(yè)面示例

如圖2所示，檢索結(jié)果頁(yè)面左上角位置有“下載”按鈕，用戶(hù)可指定下載的查詢(xún)結(jié)果條數(shù)（默認(rèn)為500條），點(diǎn)擊“下載”按鈕，可將查詢(xún)結(jié)果以本文文件（*.txt）格式保存至本地電腦。每句之后注明該句所在文件名、文件作者等信息。

CCL語(yǔ)料庫(kù)檢索結(jié)果的計(jì)數(shù)規(guī)則是每一個(gè)命中查詢(xún)表達(dá)式的實(shí)例計(jì)1次。在顯示檢索結(jié)果頁(yè)面，如果一個(gè)文本行（相當(dāng)于自然段）有多個(gè)實(shí)例命中，則每次命中均占一行顯示。在該行的左側(cè)用兩級(jí)編號(hào)來(lái)標(biāo)識(shí)。比如“1.1”表示第一個(gè)文本行的第一條命中記錄，“3.2”表示第三個(gè)文本行的第二條命中記錄。

關(guān)于查詢(xún)結(jié)果的顯示，CCL語(yǔ)料庫(kù)還提供排序和擴(kuò)展功能：排序功能可對(duì)查詢(xún)結(jié)果按照中心詞左邊或右邊的字符進(jìn)行排序，排序依據(jù)為字符的計(jì)算機(jī)內(nèi)碼升序或降序。擴(kuò)展功能包括擴(kuò)展顯示命中記錄的“上下文”，“在結(jié)果中檢索”等。限于篇幅，這里就不展開(kāi)說(shuō)明了。

4.CCL語(yǔ)料庫(kù)檢索系統(tǒng)的開(kāi)發(fā)

CCL語(yǔ)料庫(kù)的設(shè)計(jì)理念是在原始未標(biāo)注文本基礎(chǔ)上提供盡可能豐富的檢索功能，方便語(yǔ)言研究和教學(xué)工作者查找例句。因此，檢索系統(tǒng)的程序?qū)崿F(xiàn)，采取了在開(kāi)源的全文檢索工具包基礎(chǔ)上，根據(jù)語(yǔ)言研究需要再做二次開(kāi)發(fā)的路線。這樣相當(dāng)于站在巨人的肩膀上借力登高望遠(yuǎn)，可以大大縮短開(kāi)發(fā)周期，同時(shí)實(shí)現(xiàn)比較好的開(kāi)發(fā)效果。

CCL語(yǔ)料庫(kù)檢索系統(tǒng)的核心引擎基于Lucene開(kāi)源工具包。Lucene是一套用于全文索引和檢索的開(kāi)源工具包，由Apache軟件基金會(huì)支持，其Java程序語(yǔ)言的版本被廣泛應(yīng)用于需要進(jìn)行全文檢索的各類(lèi)應(yīng)用系統(tǒng)中。Lucene因其索引結(jié)構(gòu)具有可增量維護(hù)的特色，檢索效率高，問(wèn)世后很快在計(jì)算機(jī)全文檢索系統(tǒng)開(kāi)發(fā)領(lǐng)域受到關(guān)注。為方便將Lucene用于網(wǎng)頁(yè)環(huán)境下的檢索系統(tǒng)開(kāi)發(fā)，全文檢索系統(tǒng)開(kāi)發(fā)人員在Lucene基礎(chǔ)上，又進(jìn)一步搭建了以XML文件格式來(lái)包裝Lucene核心檢索引擎的WebLucene，其系統(tǒng)框架如圖3所示。

圖3 Lucene檢索系統(tǒng)的工作框架

圖3中程序模塊用實(shí)線方框表示，比如“查詢(xún)表達(dá)式分析器”就是一個(gè)程序模塊。其余文字內(nèi)容表示的是各種數(shù)據(jù)（字符串，文件等），比如“用戶(hù)查詢(xún)表達(dá)式”就是一個(gè)字符串；“檢索結(jié)果頁(yè)面”就是一個(gè)基于html（超文本標(biāo)記語(yǔ)言）的網(wǎng)頁(yè)文件。跟一般的檢索系統(tǒng)架構(gòu)類(lèi)似，Lucene也分為“索引”和“檢索”兩個(gè)部分。圖3虛線框內(nèi)是索引模塊。在索引環(huán)節(jié)，WebLucene的作用是將原始txt文本文件改為XML格式的文件，相當(dāng)于把無(wú)結(jié)構(gòu)的文本，轉(zhuǎn)為半結(jié)構(gòu)化的類(lèi)似數(shù)據(jù)庫(kù)格式的文件：一個(gè)文件由若干個(gè)文檔記錄（doc）組成，一個(gè)文檔又由若干個(gè)字段（field）組成（比如語(yǔ)料的“作者、類(lèi)型、重疊模式”等等，都可以表示為單獨(dú)的字段），這樣就可以針對(duì)不同字段，設(shè)置更具針對(duì)性的索引，從而在檢索階段，提供更為豐富的檢索條件組合功能。圖中Lucene字串分析器包含了一個(gè)針對(duì)漢字的CJK字符分析器，專(zhuān)門(mén)處理漢字文本。Lucene索引程序以這樣的XML文件為輸入，生成索引文件，索引文件包含了原文內(nèi)容，因此實(shí)際檢索系統(tǒng)只需要訪問(wèn)索引文件獲取檢索結(jié)果，不再需要從原始文件中抽取檢索結(jié)果。在增加語(yǔ)料文件時(shí)，Lucene索引可以不改變現(xiàn)有的索引文件，實(shí)現(xiàn)增量式索引構(gòu)建，便于語(yǔ)料庫(kù)的擴(kuò)容或訂制專(zhuān)用的語(yǔ)料庫(kù)。在檢索環(huán)節(jié)，WebLucene的作用是將檢索結(jié)果輸出為網(wǎng)頁(yè)，支持用戶(hù)通過(guò)瀏覽器訪問(wèn)檢索結(jié)果。

圖3所示的索引和檢索框架是對(duì)一般的全文檢索系統(tǒng)而言的，并不能完全滿(mǎn)足語(yǔ)言學(xué)研究的需要。以語(yǔ)言研究為目的檢索例句，往往是以句子為搜索范圍的。而且，語(yǔ)言研究時(shí)查詢(xún)關(guān)鍵字除了普通的詞語(yǔ)，往往需要檢索不連續(xù)共現(xiàn)情況（比如離合詞用法），或者符合某些形式特征的字符串模式（比如動(dòng)詞重疊等）而不是確定的詞語(yǔ)字符串。針對(duì)上述檢索需求，就有必要對(duì)原始文檔做分割，設(shè)計(jì)特定的查詢(xún)表達(dá)式，并增加索引字段。上文3.1和3.3節(jié)詳細(xì)介紹了CCL語(yǔ)料庫(kù)檢索系統(tǒng)設(shè)計(jì)的操作符和多種組合的查詢(xún)表達(dá)式，以及模式查詢(xún)表達(dá)式，具體實(shí)現(xiàn)的策略包括：

（1）在原始語(yǔ)料預(yù)處理階段，將原始純文本格式文件轉(zhuǎn)為XML格式文件時(shí)，一個(gè)原始文本按照自然段落切分為若干個(gè)文檔記錄，即相當(dāng)于把一個(gè)句子（或一個(gè)自然段）看作一篇文章，從而在Lucene全文檢索系統(tǒng)（針對(duì)一篇文章進(jìn)行檢索）的框架中達(dá)到為語(yǔ)言研究服務(wù)的目的；

（2）在原始語(yǔ)料預(yù)處理階段，將查詢(xún)表達(dá)式中定義的關(guān)鍵字，均設(shè)置為XML文件中的字段，從而為這些字段的文本內(nèi)容建立獨(dú)立的索引，為后續(xù)的查詢(xún)做準(zhǔn)備；

（3）在“查詢(xún)表達(dá)式分析器”程序中，將CCL檢索系統(tǒng)定義的復(fù)雜查詢(xún)表達(dá)式分解為若干項(xiàng)簡(jiǎn)單的Lucene查詢(xún)表達(dá)式的組合，然后交由Lucene檢索程序去訪問(wèn)索引文件查詢(xún)每一個(gè)簡(jiǎn)單的查詢(xún)表達(dá)式，最后將各個(gè)簡(jiǎn)單查詢(xún)表達(dá)式的檢索結(jié)果進(jìn)行合并，返回最終結(jié)果；

（4）在模式查詢(xún)中，先利用查詢(xún)表達(dá)式中確定的字符串（常項(xiàng)）部分，按照普通查詢(xún)表達(dá)式的檢索辦法，得到命中結(jié)果的文檔集，然后根據(jù)模式查詢(xún)表達(dá)式的模板槽（變項(xiàng)）部分，生成字符串方程，通過(guò)求解方程，過(guò)濾出文檔集中滿(mǎn)足條件的特定文檔（例句）。方程需要滿(mǎn)足兩方面的條件：一是方程的字符串解拼接后能還原得到原文字符串；二是字符串解要滿(mǎn)足長(zhǎng)度限制。例如，查詢(xún)“（X，=2）不（X）的問(wèn)題”這一模式，檢索系統(tǒng)先按照普通查詢(xún)表達(dá)式“不$2的問(wèn)題”進(jìn)行查詢(xún)，先把該表達(dá)式拆解為“不”和“的問(wèn)題”兩個(gè)基本項(xiàng)，在索引文件中查找包含這兩個(gè)字符串的文檔，求交集，并核查“不”和“的問(wèn)題”在原文中的位置偏移量之差是否不超過(guò)2個(gè)字符，將這樣得到的結(jié)果文檔集編號(hào)作為第一個(gè)階段的結(jié)果輸出。假設(shè)該集合中包含兩個(gè)字符串：A.不是需不需要的問(wèn)題 B.不是文化不文化的問(wèn)題。A對(duì)應(yīng)的字符串方程為：X=“是需”，Y=“需要”，Length（X）=2；B對(duì)應(yīng)的字符串方程為：X=“文化”，Y=“文化”，Length（X）=2。顯然，A文檔，X≠Y，不符合查詢(xún)要求。B文檔符合查詢(xún)要求，作為結(jié)果，將B文檔“文化不文化的問(wèn)題”作為最終的實(shí)例結(jié)果輸出，同時(shí)輸出模式中的變項(xiàng)X的字符串解為“文化”。

簡(jiǎn)而言之，CCL語(yǔ)料庫(kù)檢索系統(tǒng)在Lucene和WebLucene全文檢索引擎的架構(gòu)基礎(chǔ)上，針對(duì)語(yǔ)言學(xué)研究的需要，在查詢(xún)表達(dá)式解析，檢索結(jié)果后處理等環(huán)節(jié)，做了許多針對(duì)性的改進(jìn)，豐富了檢索功能。

此外，為提高在網(wǎng)絡(luò)環(huán)境下響應(yīng)檢索請(qǐng)求的效率，CCL語(yǔ)料庫(kù)檢索系統(tǒng)還引入了Memcached服務(wù)器。Memcached是一套分布式的高速緩存系統(tǒng)，常用來(lái)提高網(wǎng)站的訪問(wèn)速度。因?yàn)槟Ｊ讲樵?xún)中求解字符串方程是實(shí)時(shí)進(jìn)行的，并無(wú)事先索引，因而耗時(shí)較長(zhǎng)。針對(duì)這一問(wèn)題，CCL語(yǔ)料庫(kù)檢索系統(tǒng)利用Memcached服務(wù)對(duì)模式查詢(xún)的結(jié)果進(jìn)行了緩存處理。當(dāng)用戶(hù)的模式查詢(xún)發(fā)送到服務(wù)器，服務(wù)器會(huì)首先查看Memcached服務(wù)器中是否有對(duì)應(yīng)的結(jié)果，若已有結(jié)果則直接返回，若無(wú)再執(zhí)行具體的模式查詢(xún)，并將查詢(xún)結(jié)果以json格式存儲(chǔ)到Memcached中。

5.結(jié)語(yǔ)

語(yǔ)料庫(kù)的建設(shè)總是包含著兩個(gè)重要的方面，一是選什么語(yǔ)料，二是語(yǔ)料如何使用。CCL語(yǔ)料庫(kù)是2003年開(kāi)始設(shè)計(jì)，歷時(shí)一年多完成了第一版的系統(tǒng)開(kāi)發(fā)。當(dāng)時(shí)確定的選材原則是語(yǔ)料要規(guī)模盡可能大、覆蓋領(lǐng)域盡可能多。開(kāi)始選取的主要是相對(duì)傳統(tǒng)規(guī)范的文本，后期在發(fā)展過(guò)程中又逐漸吸收了一定比例的網(wǎng)絡(luò)語(yǔ)料，以反映漢語(yǔ)在新時(shí)期的發(fā)展情況。在語(yǔ)料使用方式方面，則是確定了通過(guò)互聯(lián)網(wǎng)提供免費(fèi)查詢(xún)服務(wù)的原則。當(dāng)時(shí)谷歌、百度等互聯(lián)網(wǎng)搜索網(wǎng)站問(wèn)世不久，正逐漸成為新一代的主流檢索工具，而在面向語(yǔ)言研究的檢索方面，中國(guó)還沒(méi)有類(lèi)似的在線語(yǔ)料檢索系統(tǒng)。北大CCL語(yǔ)料庫(kù)是比較早做此嘗試的系統(tǒng)。在這樣的大背景下，CCL語(yǔ)料庫(kù)上網(wǎng)發(fā)布不久就引起了海內(nèi)外漢語(yǔ)學(xué)界的關(guān)注7，逐漸成為漢語(yǔ)研究和教學(xué)領(lǐng)域非常常用的語(yǔ)料庫(kù)之一。

近十年來(lái)隨著互聯(lián)網(wǎng)的飛速發(fā)展，世界逐漸進(jìn)入到“大數(shù)據(jù)”時(shí)代。語(yǔ)料庫(kù)的規(guī)模也已從億字級(jí)跨入百億字級(jí)甚至萬(wàn)億字級(jí)。越來(lái)越多的大規(guī)模在線語(yǔ)料庫(kù)開(kāi)始提供多語(yǔ)言的查詢(xún)服務(wù)，還有的語(yǔ)料庫(kù)系統(tǒng)把互聯(lián)網(wǎng)搜索引擎作為語(yǔ)料來(lái)源，以整個(gè)網(wǎng)絡(luò)的文本資源作為檢索對(duì)象。語(yǔ)料庫(kù)檢索系統(tǒng)也不再只是提供例句作為檢索結(jié)果，而是在檢索的基礎(chǔ)上進(jìn)一步提供豐富的數(shù)據(jù)分析以及數(shù)據(jù)可視化?？梢哉f(shuō)，語(yǔ)料庫(kù)的類(lèi)型越來(lái)越豐富，檢索手段和結(jié)果呈現(xiàn)形式也越來(lái)越多樣。

在新的形勢(shì)下，CCL語(yǔ)料庫(kù)也在謀求新的發(fā)展。不過(guò)，正如十多年前創(chuàng)建時(shí)，CCL語(yǔ)料庫(kù)基本上是自底向上（bottom-up）技術(shù)路線的產(chǎn)物，缺少一個(gè)自頂向下（top-down）的頂層設(shè)計(jì)?，F(xiàn)在CCL語(yǔ)料庫(kù)的升級(jí)之路，也仍然將延續(xù)這一方式：主要是利用現(xiàn)有的技術(shù)手段，逐步將更多類(lèi)型的語(yǔ)料融入到CCL語(yǔ)料庫(kù)檢索系統(tǒng)中。近年來(lái)，北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心在一些項(xiàng)目的支持下，出于課題研究的需要，陸續(xù)收集和構(gòu)建了一些專(zhuān)項(xiàng)語(yǔ)料庫(kù)，包括：（1）早期北京話材料（如近代西人北京話教科書(shū)匯編、日本北京話教科書(shū)匯編、清末民初京味小說(shuō)書(shū)系等）；（2）留學(xué)生漢語(yǔ)作文語(yǔ)料；（3）漢語(yǔ)構(gòu)式語(yǔ)料庫(kù)；（4）中文學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù)；（5）海外華文網(wǎng)絡(luò)語(yǔ)料等等。這些語(yǔ)料將以專(zhuān)題語(yǔ)料庫(kù)的形式，融入現(xiàn)有的CCL語(yǔ)料庫(kù)中。同時(shí)，在語(yǔ)料預(yù)處理方面，將嘗試做一定的中文分詞和詞性標(biāo)注；在檢索功能方面，將提供更多樣的統(tǒng)計(jì)數(shù)據(jù)信息，并增加對(duì)一些檢索結(jié)果的可視化支持。此外，目前的CCL語(yǔ)料庫(kù)僅針對(duì)用戶(hù)的檢索請(qǐng)求提供單向的查詢(xún)結(jié)果反饋。未來(lái)將考慮增加用戶(hù)與CCL語(yǔ)料庫(kù)之間的交互功能，為用戶(hù)提供更多的定制服務(wù)?？偠灾珻CL語(yǔ)料庫(kù)的發(fā)展愿景仍然是以建設(shè)“國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究信息資料庫(kù)”為目標(biāo)，希望在廣大用戶(hù)良性反饋的基礎(chǔ)上，通過(guò)合理擴(kuò)容和功能升級(jí)，為學(xué)界提供更優(yōu)質(zhì)的服務(wù)。

注釋

1.可參見(jiàn)馮志偉（2002，2006）對(duì)世界上語(yǔ)料庫(kù)發(fā)展的歷史做的詳細(xì)介紹；詹衛(wèi)東（2018）對(duì)全球范圍內(nèi)近三十年來(lái)中文語(yǔ)言資源的建設(shè)和應(yīng)用情況所做的述評(píng)。

2.CCL語(yǔ)料庫(kù)網(wǎng)址http://ccl.pku.edu.cn:8080/ccl_corpus或http://ccl.pku.edu.cn/corpus.asp。

3.對(duì)語(yǔ)料庫(kù)規(guī)模的定量表示一般以字符（如漢字、英文字母、標(biāo)點(diǎn)符號(hào)等）或詞語(yǔ)數(shù)量為單位。CCL語(yǔ)料庫(kù)中文文本未經(jīng)分詞，無(wú)法計(jì)量詞語(yǔ)個(gè)數(shù)。CCL語(yǔ)料的文本均為GBK編碼，即一個(gè)中文字符在計(jì)算機(jī)中以?xún)蓚€(gè)字節(jié)表示。這樣字節(jié)數(shù)與字符數(shù)的對(duì)應(yīng)關(guān)系大致為2：1。12億字節(jié)相當(dāng)于6億字符。除標(biāo)點(diǎn)、非漢字的字母、阿拉伯?dāng)?shù)字等字符外，漢字字符數(shù)約為5億。有關(guān)CCL語(yǔ)料庫(kù)文本類(lèi)別及字?jǐn)?shù)統(tǒng)計(jì)的更多信息可訪問(wèn)網(wǎng)頁(yè)查詢(xún)：http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html。

4.CCL語(yǔ)料庫(kù)古代漢語(yǔ)文本約2億字符，1.637億漢字。

5.全文搜索引擎一般會(huì)把不大可能有人搜索的符號(hào)，比如標(biāo)點(diǎn)符號(hào)、虛詞（如“的”）等做屏蔽處理，即把這類(lèi)符號(hào)加入搜索系統(tǒng)的停用詞表（stopword list）中。

6.在普通查詢(xún)頁(yè)面，指定查詢(xún)表達(dá)式“把$4（了|著|過(guò)）”也可檢索出所有包含“把”跟“了、著、過(guò)”分別共現(xiàn)的例句，但檢索結(jié)果是混在一起計(jì)數(shù)，并返回例句的。批量查詢(xún)模式是對(duì)3個(gè)查詢(xún)表達(dá)式的檢索結(jié)果分別計(jì)數(shù)，分別返回每個(gè)表達(dá)式的檢索例句。

7.2005年CCL語(yǔ)料庫(kù)檢索系統(tǒng)的日志文件顯示當(dāng)年的日均查詢(xún)量達(dá)到5000次。很有意思的一個(gè)現(xiàn)象是，按月統(tǒng)計(jì)2005年CCL語(yǔ)料庫(kù)的檢索量中，5-6月份，12-1月份為全年檢索量的兩個(gè)高峰值，絕大多數(shù)檢索的來(lái)源IP地址都顯示檢索請(qǐng)求來(lái)自中國(guó)教育科研網(wǎng)（CERNET）的網(wǎng)段范圍，即集中在高?？蒲袡C(jī)構(gòu)。很可能是在這兩個(gè)時(shí)間段內(nèi)，由于課程期末論文或?qū)W位論文的需要，產(chǎn)生了大量的語(yǔ)料檢索需求。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看