• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      北京大學(xué)CCL語(yǔ)料庫(kù)的研制*

      2019-08-22 00:49:44北京大學(xué)詹衛(wèi)東常寶寶諶貽榮
      關(guān)鍵詞:檢索系統(tǒng)表達(dá)式語(yǔ)料

      北京大學(xué) 詹衛(wèi)東 郭 銳 常寶寶 諶貽榮 陳 龍

      提要:北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心CCL語(yǔ)料庫(kù)是面向語(yǔ)言學(xué)本體研究和語(yǔ)言教學(xué)的大規(guī)模語(yǔ)料庫(kù),目前包括現(xiàn)代漢語(yǔ)、古代漢語(yǔ)和漢英句對(duì)齊平行語(yǔ)料,規(guī)模超過(guò)7億漢字。CCL語(yǔ)料庫(kù)檢索系統(tǒng)以包括漢字、字母、標(biāo)點(diǎn)等在內(nèi)的字符為基本索引單位,提供普通查詢(xún)、批量查詢(xún)、模式查詢(xún)等多種檢索方式。同時(shí)該系統(tǒng)支持限定范圍查詢(xún)、基于復(fù)雜檢索表達(dá)式的查詢(xún)、統(tǒng)計(jì)模式頻次、對(duì)查詢(xún)結(jié)果進(jìn)行排序、下載查詢(xún)結(jié)果等功能。本文介紹CCL語(yǔ)料庫(kù)的建設(shè)情況與主要功能,具體涉及語(yǔ)料分布概況、語(yǔ)料庫(kù)查詢(xún)功能和使用方式、語(yǔ)料庫(kù)索引與檢索技術(shù)架構(gòu)等。

      1.引言

      在語(yǔ)言本體研究及語(yǔ)言應(yīng)用領(lǐng)域(如語(yǔ)言教學(xué)、教材編寫(xiě)、詞典編纂等方面),語(yǔ)料庫(kù)都發(fā)揮著非常重要的作用。另外,在自然語(yǔ)言處理領(lǐng)域,數(shù)據(jù)驅(qū)動(dòng)的方式亦是當(dāng)前主流。國(guó)際上的BNC語(yǔ)料庫(kù)、COCA語(yǔ)料庫(kù)、美國(guó)賓州大學(xué)LDC收集的多語(yǔ)種語(yǔ)言資源;國(guó)內(nèi)的國(guó)家語(yǔ)委語(yǔ)料庫(kù)、北京語(yǔ)言大學(xué)的BCC語(yǔ)料庫(kù)(荀恩東等 2016),以及本文要介紹的北京大學(xué)CCL語(yǔ)料庫(kù)等,均被廣泛應(yīng)用于語(yǔ)言學(xué)研究、教學(xué)領(lǐng)域以及自然語(yǔ)言處理中。可以說(shuō),經(jīng)過(guò)半個(gè)多世紀(jì)的發(fā)展,語(yǔ)料庫(kù)已經(jīng)成為現(xiàn)代語(yǔ)言學(xué)相關(guān)領(lǐng)域必不可少的基礎(chǔ)資源和研究工具1。

      北京大學(xué)CCL語(yǔ)料庫(kù)是由北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心(簡(jiǎn)稱(chēng)CCL)開(kāi)發(fā)的大規(guī)模中文語(yǔ)料庫(kù)。CCL成立于2000年1月。同年9月被教育部批準(zhǔn)為全國(guó)普通高等學(xué)校人文社會(huì)科學(xué)重點(diǎn)研究基地。成立之初,設(shè)定的目標(biāo)即為“努力把基地建設(shè)成為國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究中心、國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究信息資料庫(kù)、國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究學(xué)術(shù)交流中心”。其中第二項(xiàng)目標(biāo)的主要工作內(nèi)容就是構(gòu)建大規(guī)模語(yǔ)料庫(kù),免費(fèi)向全球用戶(hù)開(kāi)放,服務(wù)漢語(yǔ)研究和教學(xué)2。根據(jù)這個(gè)定位和具體的任務(wù)要求,CCL研究人員聯(lián)合北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所,研發(fā)了CCL語(yǔ)料庫(kù),于2004年底在CCL網(wǎng)站上發(fā)布了首個(gè)版本。此后分別在2006年、2009年、2014年歷經(jīng)多次語(yǔ)料擴(kuò)容和檢索系統(tǒng)功能升級(jí),系統(tǒng)運(yùn)行至今已有近十五年,而且仍在根據(jù)研究工作需要和用戶(hù)反饋持續(xù)更新。CCL語(yǔ)料庫(kù)在海內(nèi)外漢語(yǔ)研究和教學(xué)領(lǐng)域得到了廣泛應(yīng)用,產(chǎn)生了較大的影響。本文將詳細(xì)介紹CCL語(yǔ)料庫(kù)的研制情況和使用方法。

      2.CCL語(yǔ)料庫(kù)的設(shè)計(jì)理念與語(yǔ)料分布

      語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展過(guò)程中,對(duì)于原始語(yǔ)料是否應(yīng)加以標(biāo)注,一直有兩種對(duì)立的主張。一種觀點(diǎn)認(rèn)為語(yǔ)料庫(kù)應(yīng)該保持原樣,不做標(biāo)注。因?yàn)闃?biāo)注意味著預(yù)設(shè)的理論注入,可能帶來(lái)謬誤。真正的語(yǔ)言學(xué)知識(shí),應(yīng)該來(lái)自原始語(yǔ)料本身,不帶任何預(yù)設(shè)的偏見(jiàn)。另一種觀點(diǎn)認(rèn)為語(yǔ)料標(biāo)注有助于更好地研究語(yǔ)言,標(biāo)注信息豐富的語(yǔ)料庫(kù)可以在包括語(yǔ)言本體、語(yǔ)言認(rèn)知等領(lǐng)域提供更好的工具支持。支持前一種觀點(diǎn)的有一些著名的語(yǔ)料庫(kù)語(yǔ)言學(xué)家,比如Sinclair(2004)、Teubert(2005)等。支持后一種觀點(diǎn)的語(yǔ)言學(xué)者大概更多,可參見(jiàn)Leech(1993,1997,2005)、Gries(2012)等。這兩種主張的背后,其實(shí)是對(duì)語(yǔ)料庫(kù)在語(yǔ)言研究中所起作用的定位差異,即所謂語(yǔ)料庫(kù)驅(qū)動(dòng)的語(yǔ)言學(xué)(corpus-driven linguistics)與基于語(yǔ)料庫(kù)的語(yǔ)言學(xué)(corpus-based linguistics)之分。前者把語(yǔ)料本身作為語(yǔ)言學(xué)理論的數(shù)據(jù)來(lái)源,追求在純粹的原始語(yǔ)言數(shù)據(jù)基礎(chǔ)上,構(gòu)建全新的、區(qū)別于傳統(tǒng)的、真正意義上的語(yǔ)料庫(kù)語(yǔ)言學(xué)理論;后者把語(yǔ)料庫(kù)作為工具看待,主張?jiān)跇?biāo)注語(yǔ)料基礎(chǔ)上,檢驗(yàn)并發(fā)展已有的語(yǔ)言學(xué)理論。

      在北大CCL語(yǔ)料庫(kù)系統(tǒng)設(shè)計(jì)之初,研究人員一方面受到上述語(yǔ)料庫(kù)語(yǔ)言學(xué)“兩種路線之爭(zhēng)”的大背景影響;另一方面,也更主要的是,中文文本語(yǔ)料的自動(dòng)分詞、詞性標(biāo)注技術(shù)在當(dāng)時(shí)的技術(shù)條件下還不夠成熟,如果要進(jìn)行詞匯級(jí)的標(biāo)注處理,需要較多的人工干預(yù),成本較高,因此選擇了基本保持自然文本狀態(tài),僅做文本的篇章分類(lèi)和少量信息標(biāo)注的路線。把語(yǔ)料庫(kù)建設(shè)的工作集中在兩個(gè)方面:一是完成基本的電子文本的文字校對(duì);二是開(kāi)發(fā)功能豐富的、支持語(yǔ)言學(xué)研究的例句檢索系統(tǒng)。這樣可以大大縮短語(yǔ)料庫(kù)的開(kāi)發(fā)周期。

      根據(jù)當(dāng)時(shí)的技術(shù)條件和已有的電子文本積累,CCL語(yǔ)料庫(kù)確定入庫(kù)的語(yǔ)料類(lèi)型包括三大類(lèi):現(xiàn)代漢語(yǔ)語(yǔ)料、古代漢語(yǔ)語(yǔ)料和漢英句對(duì)齊語(yǔ)料。從規(guī)模上講,以現(xiàn)代漢語(yǔ)和古代漢語(yǔ)語(yǔ)料為主。主要為漢語(yǔ)本體研究提供服務(wù),漢英句對(duì)齊語(yǔ)料可以為漢英對(duì)比研究提供支持。下面分別介紹三類(lèi)語(yǔ)料的小類(lèi)構(gòu)成以及所占比例。

      (一)現(xiàn)代漢語(yǔ)語(yǔ)料

      CCL語(yǔ)料庫(kù)中現(xiàn)代漢語(yǔ)語(yǔ)料近12億字節(jié)3,包含10645個(gè)不同字形的漢字。其中1949年之前的語(yǔ)料為“現(xiàn)代”語(yǔ)料,1949年之后的為“當(dāng)代”語(yǔ)料?,F(xiàn)代文獻(xiàn)約0.15億字節(jié),占全部現(xiàn)代漢語(yǔ)語(yǔ)料的1.28%;當(dāng)代文獻(xiàn),涵蓋了口語(yǔ)、文學(xué)、網(wǎng)絡(luò)語(yǔ)料、應(yīng)用文等10類(lèi),約11.8億字節(jié),占現(xiàn)代漢語(yǔ)語(yǔ)料的98.72%?,F(xiàn)代漢語(yǔ)語(yǔ)料的分類(lèi)及規(guī)模統(tǒng)計(jì)詳見(jiàn)表1。

      表1 現(xiàn)代漢語(yǔ)語(yǔ)料規(guī)模統(tǒng)計(jì)

      (二)古代漢語(yǔ)語(yǔ)料

      CCL語(yǔ)料庫(kù)中古代漢語(yǔ)語(yǔ)料近4億字節(jié)4,包含18,898個(gè)不同字形的漢字。古代漢語(yǔ)語(yǔ)料根據(jù)語(yǔ)料所在的朝代分類(lèi)。對(duì)于一些不方便按照朝代分類(lèi)的語(yǔ)料,CCL語(yǔ)料庫(kù)將它們歸入其他雜類(lèi)。各朝代語(yǔ)料收錄了從周代到民國(guó)的1.64億字節(jié)的語(yǔ)料(占比41.05%);雜類(lèi)語(yǔ)料2.36億字節(jié)(占比58.95%)。古代漢語(yǔ)語(yǔ)料的分類(lèi)及規(guī)模統(tǒng)計(jì)詳見(jiàn)表2。

      表2 古代漢語(yǔ)語(yǔ)料規(guī)模統(tǒng)計(jì)

      (續(xù)表)

      (三)漢英對(duì)齊雙語(yǔ)語(yǔ)料

      CCL語(yǔ)料庫(kù)中漢英句子對(duì)齊語(yǔ)料約0.716億字節(jié),其中包含747個(gè)漢譯英文件和1627個(gè)英譯漢文件,約23.36萬(wàn)個(gè)對(duì)齊的句子對(duì)(具有翻譯關(guān)系),含600多萬(wàn)漢字和近400萬(wàn)英語(yǔ)單詞。語(yǔ)料以書(shū)面語(yǔ)為主,也包含少量口語(yǔ),分為應(yīng)用文、文學(xué)和新聞三類(lèi)文體,涉及政治、科技、體育等多個(gè)領(lǐng)域。表3列出了這些對(duì)齊語(yǔ)料在不同文體中的統(tǒng)計(jì)信息。

      表3 漢英句子對(duì)齊語(yǔ)料規(guī)模統(tǒng)計(jì)

      CCL語(yǔ)料庫(kù)中的中文語(yǔ)料和英文語(yǔ)料均未做詞匯、句法信息標(biāo)注。僅做了篇章層面的少量分類(lèi)信息標(biāo)注。對(duì)于中文語(yǔ)料,以文件夾和文件名表示領(lǐng)域分類(lèi)、文體信息和作者信息等;對(duì)于漢英對(duì)齊語(yǔ)料,在原始語(yǔ)料的XML文件中,標(biāo)注了一篇文獻(xiàn)的領(lǐng)域、文體、作者、譯者、原文語(yǔ)種等信息。這些標(biāo)注信息可以在檢索時(shí)由用戶(hù)指定為檢索條件。參見(jiàn)下文3.4和3.5小節(jié)的說(shuō)明。

      3.CCL語(yǔ)料庫(kù)的檢索功能

      CCL語(yǔ)料庫(kù)中,單語(yǔ)語(yǔ)料庫(kù)支持普通查詢(xún)、批量查詢(xún)和模式查詢(xún)?nèi)N查詢(xún)方式,雙語(yǔ)語(yǔ)料庫(kù)在普通查詢(xún)外還提供了檢索界面更為友好的高級(jí)查詢(xún)頁(yè)面。以下結(jié)合示例詳細(xì)介紹這些查詢(xún)功能的具體使用方式。

      3.1 普通查詢(xún)

      普通查詢(xún)功能通過(guò)查詢(xún)表達(dá)式使用。查詢(xún)表達(dá)式由關(guān)鍵字、數(shù)字、分隔符、操作符、基本項(xiàng)、過(guò)濾項(xiàng)、簡(jiǎn)單項(xiàng)、復(fù)雜項(xiàng)、子句等8項(xiàng)組成。這些項(xiàng)目的具體層級(jí)關(guān)系見(jiàn)表4。

      表4 查詢(xún)表達(dá)式的構(gòu)成形式

      表4中包含了3組特殊符號(hào)(共8個(gè)),第一組(Operator1)和第二組(Operator2)都是二元操作符,置于兩個(gè)項(xiàng)目之間。第三組(Operator3)只有一個(gè)符號(hào),是一元操作符,后接一個(gè)項(xiàng)目。這些符號(hào)的具體含義見(jiàn)表5。

      表5 操作符和分隔符的含義與作用

      需要補(bǔ)充說(shuō)明的是:

      (1)Operator2這一組操作符中,“$”和“+”這兩個(gè)操作符可以在查詢(xún)表達(dá)式中多次使用,且兩個(gè)操作符還可以組合使用。其他三個(gè)操作符僅能使用一次,并且只能單用,不能與同組其他操作符同時(shí)使用。

      (2)西文冒號(hào)“:”總是跟在關(guān)鍵字之后使用。關(guān)鍵字author代表“作者”,pattern代表“重疊模式”,name代表“中文語(yǔ)料文件名”,type代表“文章類(lèi)型”,ch代表“中文句子”,en代表“英文句子”,translator代表“譯者”,enname代表“英文語(yǔ)料文件名”。這些關(guān)鍵字相當(dāng)于語(yǔ)料的特征,可以在全文檢索的同時(shí),進(jìn)一步指定這些特征的值,從而達(dá)到更精準(zhǔn)檢索(或縮小檢索范圍)的目的。有點(diǎn)類(lèi)似過(guò)濾操作,因此上面表4又把“:”稱(chēng)為分隔符,用于構(gòu)成查詢(xún)表達(dá)式中的“過(guò)濾項(xiàng)”。

      (3)西文嘆號(hào)“!”后接一個(gè)簡(jiǎn)單項(xiàng),標(biāo)示該簡(jiǎn)單項(xiàng)是查詢(xún)表達(dá)式中的主要查詢(xún)條件,即中心詞。在顯示查詢(xún)結(jié)果時(shí),該項(xiàng)匹配的字符串將置于一行的中心位置,并高亮顯示(參見(jiàn)下文3.6)。如果查詢(xún)表達(dá)式不包含“!”,則默認(rèn)第一個(gè)簡(jiǎn)單項(xiàng)為中心詞。一個(gè)查詢(xún)表達(dá)式中有且僅有一個(gè)中心詞(可以有0或1個(gè)西文嘆號(hào))。

      為幫助理解上述符號(hào)的含義和用法,表6給出了一些查詢(xún)表達(dá)式的示例。

      表6 查詢(xún)表達(dá)式示例

      表6中例1和例2的查詢(xún)結(jié)果相同。這也附帶說(shuō)明了,為達(dá)到一個(gè)查詢(xún)目的,查詢(xún)表達(dá)式可以有不止一種寫(xiě)法。例1和例2的查詢(xún)結(jié)果在顯示時(shí)會(huì)有細(xì)微差異。例1中“了?!笔且粋€(gè)簡(jiǎn)單項(xiàng),因此會(huì)作為一個(gè)檢索單位,居中定位顯示。例2中“了”是一個(gè)簡(jiǎn)單項(xiàng),“?!笔且粋€(gè)簡(jiǎn)單項(xiàng),二者緊鄰出現(xiàn),會(huì)作為兩個(gè)檢索單位,其中“了”是居中定位的詞語(yǔ)。

      值得一提的是,CCL語(yǔ)料庫(kù)檢索系統(tǒng)是搭建在開(kāi)源的全文搜索引擎工具包Lucene之上的(詳見(jiàn)第4節(jié))。作為全文搜索引擎,一般會(huì)屏蔽標(biāo)點(diǎn)符號(hào)這類(lèi)很少被搜索的符號(hào)5。但是,考慮到語(yǔ)言學(xué)研究中,標(biāo)點(diǎn)符號(hào)是一類(lèi)重要的字符,CCL語(yǔ)料庫(kù)檢索系統(tǒng)也支持對(duì)標(biāo)點(diǎn)符號(hào)的檢索,將標(biāo)點(diǎn)符號(hào)跟一般漢字等同看待。在上面的查詢(xún)表達(dá)式示例中,例1和例2展示了標(biāo)點(diǎn)符號(hào)的作用,可以在句號(hào)等標(biāo)點(diǎn)的輔助下檢索句尾包含“了”的句子。

      這里再舉一個(gè)例子說(shuō)明標(biāo)點(diǎn)符號(hào)檢索的作用。比如在比較“高興”和“快樂(lè)”的用法差異時(shí),查詢(xún)它們跟書(shū)名號(hào)《》共現(xiàn)的情況,查詢(xún)表達(dá)式分別為“《$5高興$5》”和“《$5快樂(lè)$5》”。前者在CCL語(yǔ)料庫(kù)中僅檢索到5條結(jié)果;后者則檢索到214條結(jié)果。不難發(fā)現(xiàn),“快樂(lè)”用于標(biāo)題的概率遠(yuǎn)多于“高興”。這無(wú)疑可以為分析二者的詞義和用法差異提供一定的線索。

      查詢(xún)表達(dá)式中的“基本項(xiàng)”是不含操作符的任意字符串。系統(tǒng)關(guān)鍵字如果不緊跟西文冒號(hào),也會(huì)被當(dāng)作普通字符串看待,比如查詢(xún)表達(dá)式“author”,將返回的結(jié)果是包含author的文本行。對(duì)于“基本項(xiàng)”的搜索規(guī)則,漢語(yǔ)是精確匹配。英語(yǔ)是兼容詞形變體的精確匹配。例如在查詢(xún)單詞“take”時(shí),會(huì)將took、taken、taking、takes等同時(shí)作為匹配目標(biāo),返回包含這些詞形的文本行。

      3.2 批量查詢(xún)

      在批量查詢(xún)頁(yè)面,用戶(hù)可以把符合格式規(guī)范的多個(gè)查詢(xún)表達(dá)式寫(xiě)在一個(gè)文本文件中,每個(gè)查詢(xún)表達(dá)式占一行,然后將該文件上傳到CCL語(yǔ)料庫(kù)檢索系統(tǒng),進(jìn)行批量查詢(xún)。系統(tǒng)默認(rèn)允許的最大查詢(xún)個(gè)數(shù)為30個(gè)查詢(xún)表達(dá)式。文件需采用GBK編碼,不支持UTF-8編碼。

      批量查詢(xún)可以把用戶(hù)感興趣的語(yǔ)料庫(kù)檢索任務(wù)集中在一起,一次性完成。比如,用戶(hù)想對(duì)比“把”字結(jié)構(gòu)跟“著、了、過(guò)”分別共現(xiàn)的情況,就可以使用批量查詢(xún)來(lái)實(shí)現(xiàn)。表7為批量查詢(xún)“把$4了”“把$4著”“把$4過(guò)”這三種格式的查詢(xún)結(jié)果6。返回的結(jié)果網(wǎng)頁(yè)中列出了每個(gè)查詢(xún)表達(dá)式命中的結(jié)果的個(gè)數(shù)。每個(gè)查詢(xún)表達(dá)式上都有一個(gè)超鏈接,點(diǎn)擊后可進(jìn)入該查詢(xún)表達(dá)式對(duì)應(yīng)的具體查詢(xún)結(jié)果。對(duì)比顯示,“把”字結(jié)構(gòu)跟“了”共現(xiàn)的頻率遠(yuǎn)遠(yuǎn)高于“著”和“過(guò)”。

      表7 批量查詢(xún)返回的結(jié)果頁(yè)面示例

      3.3 模式查詢(xún)

      在模式查詢(xún)頁(yè)面,用戶(hù)可以指定特定的模式檢索跟該模式匹配的例句,例如“愛(ài)X不X”“X來(lái)Y去”等,模式中字母為變項(xiàng),相同字母代表相同的文字,不同字母代表不同的文字。例如:“X來(lái)X去”將匹配包含“跑來(lái)跑去、說(shuō)來(lái)說(shuō)去”等的例句;“X來(lái)Y去”將匹配包含“思來(lái)想去、顛來(lái)倒去”等的例句。

      為了與原文中的字母進(jìn)行區(qū)分,在模式查詢(xún)表達(dá)式中,要求匹配的變項(xiàng)字符用括號(hào)括起來(lái)。此外,變項(xiàng)的長(zhǎng)度也可以由用戶(hù)指定。表8是一些模式查詢(xún)的示例。

      表8 模式查詢(xún)示例

      模式查詢(xún)表達(dá)式中的變項(xiàng)可以有三種方式指定字符串長(zhǎng)度。如表8中所示:(X,=2)表示變項(xiàng)X為2個(gè)字符長(zhǎng)度;(Y<4)表示變項(xiàng)Y長(zhǎng)度小于4個(gè)字符,即1到3個(gè)字符長(zhǎng)度;(Z,2-4)表示變項(xiàng)Z的長(zhǎng)度介于2到4個(gè)字符之間。相同的兩個(gè)變項(xiàng),長(zhǎng)度也相同,如果給兩個(gè)相同變項(xiàng)指定不同的長(zhǎng)度,則系統(tǒng)會(huì)報(bào)錯(cuò)。相同變項(xiàng)的長(zhǎng)度只需指定一次即可。此外,變項(xiàng)長(zhǎng)度未指定時(shí),系統(tǒng)默認(rèn)變項(xiàng)長(zhǎng)度為1-10個(gè)字符。也就是說(shuō),模式查詢(xún)表達(dá)式“愛(ài)(V)不(V)”等價(jià)于“愛(ài)(V,1-10)不(V)”。此外,需要注意的是,模式表達(dá)式中的“V”不是代表動(dòng)詞,“V”跟“X”的作用是一樣的,僅代表變項(xiàng)。模式表達(dá)式中相同字母代表相同的變項(xiàng),不同字母代表不同變項(xiàng)。

      模式查詢(xún)功能返回結(jié)果可以像普通查詢(xún)一樣,返回原文例句,也可以點(diǎn)擊模式查詢(xún)頁(yè)面上的“統(tǒng)計(jì)”按鈕,對(duì)模式中的變項(xiàng)進(jìn)行頻次計(jì)數(shù),并按頻次大小降序輸出。比如查詢(xún)模式“愛(ài)(X,<3)不(X)”中變項(xiàng)X的統(tǒng)計(jì)信息為:X共有51種,頻次最高的前5個(gè)是:愛(ài)理不理:98;(X,理)、愛(ài)得不得:18;(X,得)、愛(ài)信不信:18;(X,信)、愛(ài)聽(tīng)不聽(tīng):8;(X,聽(tīng))、愛(ài)吃不吃:8;(X,吃)。跟模式匹配的實(shí)例后面是出現(xiàn)頻次值,括號(hào)中是變項(xiàng)X的值。

      3.4 高級(jí)查詢(xún)

      在CCL漢英句對(duì)齊語(yǔ)料庫(kù)中,提供了高級(jí)查詢(xún)頁(yè)面。該頁(yè)面的查詢(xún)功能跟3.1節(jié)介紹的普通查詢(xún)是一樣的。但通過(guò)區(qū)分不同的查詢(xún)關(guān)鍵字段,使得用戶(hù)表達(dá)查詢(xún)意圖更為直觀方便。用戶(hù)可以根據(jù)自己的需要,指定語(yǔ)料的作者、譯者、類(lèi)型、模式(特指漢語(yǔ)的各種重疊形式)、中文篇名、英文篇名等作為查詢(xún)條件。各條件之間是邏輯“并”的關(guān)系。比如在“作者”字段指定查詢(xún)“諶容”,在模式字段指定查詢(xún)“AA”(表示單音節(jié)重疊),則相當(dāng)于普通查詢(xún)模式下輸入查詢(xún)表達(dá)式:author:諶容 pattern:AA。

      3.5 指定查詢(xún)范圍

      CCL語(yǔ)料庫(kù)默認(rèn)情況下是針對(duì)整個(gè)語(yǔ)料庫(kù)進(jìn)行檢索。同時(shí)也提供了用戶(hù)選擇語(yǔ)料查詢(xún)范圍的功能。選擇的范圍可以具體到若干篇特定的文本。上文3.1節(jié)已經(jīng)提到,CCL語(yǔ)料庫(kù)在文件目錄結(jié)構(gòu)和文件名中標(biāo)記了語(yǔ)料的一些篇章信息,比如“口語(yǔ)”目錄下,存放的是口語(yǔ)體的相關(guān)文件,在“西漢”目錄下,存放的是西漢時(shí)期的文獻(xiàn)語(yǔ)料,文件“張承志北方的河.txt”的文件名中包含了作者“張承志”的信息。在查詢(xún)范圍選擇頁(yè)面上,CCL語(yǔ)料庫(kù)的全部文件目錄和文件名信息以樹(shù)狀方式呈現(xiàn),用戶(hù)可展開(kāi)每個(gè)目錄及其子目錄直到列出該目錄下包含的所有文件,通過(guò)勾選樹(shù)節(jié)點(diǎn)前的方框,來(lái)指定將某個(gè)特定的目錄或文件列入查詢(xún)范圍。

      圖1顯示了選擇語(yǔ)料范圍的界面,左圖是現(xiàn)代漢語(yǔ)語(yǔ)料文件目錄的示意,右圖是古代漢語(yǔ)語(yǔ)料文件目錄的示意。左圖中勾選的查詢(xún)范圍是:“口語(yǔ)”目錄下的“1982北京話調(diào)查資料.txt”文件和“電視訪談”目錄下的所有文件。右圖中勾選的查詢(xún)范圍是:“春秋”目錄下的“左傳.txt”以及“西漢”目錄下的“劉向戰(zhàn)國(guó)策.txt”這兩個(gè)文件。

      圖1 查詢(xún)范圍選擇界面

      通過(guò)上面的界面指定查詢(xún)范圍,跟在普通查詢(xún)表達(dá)式中用過(guò)濾項(xiàng)來(lái)表示檢索條件可以達(dá)到相同效果。例如:“現(xiàn)代”目錄下有子目錄“小說(shuō)”,其下有文件“老舍四世同堂.txt”“老舍短篇.txt”“老舍長(zhǎng)篇1.txt”“老舍長(zhǎng)篇2.txt”等四個(gè)文件是作家老舍的語(yǔ)料。在查找范圍頁(yè)面上勾選這4個(gè)文件,相當(dāng)于在普通查詢(xún)表達(dá)式中指定“author:老舍”作為查詢(xún)項(xiàng)。

      3.6 查詢(xún)結(jié)果的顯示與下載

      CCL語(yǔ)料庫(kù)的查詢(xún)結(jié)果以原始語(yǔ)料文件(純文本格式)中的一個(gè)自然文本行為單位輸出顯示,用戶(hù)可以指定查詢(xún)結(jié)果的顯示長(zhǎng)度(左右n個(gè)字范圍),默認(rèn)為一行60個(gè)字符。如果想顯示查詢(xún)關(guān)鍵字所在的整行,可以通過(guò)指定足夠大的顯示長(zhǎng)度(比如1,000)來(lái)實(shí)現(xiàn)。當(dāng)用戶(hù)指定的顯示長(zhǎng)度超過(guò)原文本行的字符長(zhǎng)度時(shí),以原文本行長(zhǎng)度為限顯示查詢(xún)結(jié)果。查詢(xún)結(jié)果中,被查詢(xún)項(xiàng)會(huì)被標(biāo)成紅色,稱(chēng)為標(biāo)亮詞。中心詞是特殊的標(biāo)亮詞,在顯示查詢(xún)結(jié)果的每行文本時(shí),以中心詞位于頁(yè)面水平中心位置對(duì)齊。用戶(hù)可用操作符“!”指定中心詞。若不指定,則默認(rèn)第一個(gè)標(biāo)亮詞為中心詞(參見(jiàn)3.1節(jié)表5和表6的說(shuō)明)。下面是查詢(xún)“被$10把$3!給$2了”的結(jié)果頁(yè)面示例,“被、把、給、了”四個(gè)詞為高亮詞,均以紅色加下劃線形式顯示,“給”是居于中心位置的高亮詞。

      圖2 檢索結(jié)果頁(yè)面示例

      如圖2所示,檢索結(jié)果頁(yè)面左上角位置有“下載”按鈕,用戶(hù)可指定下載的查詢(xún)結(jié)果條數(shù)(默認(rèn)為500條),點(diǎn)擊“下載”按鈕,可將查詢(xún)結(jié)果以本文文件(*.txt)格式保存至本地電腦。每句之后注明該句所在文件名、文件作者等信息。

      CCL語(yǔ)料庫(kù)檢索結(jié)果的計(jì)數(shù)規(guī)則是每一個(gè)命中查詢(xún)表達(dá)式的實(shí)例計(jì)1次。在顯示檢索結(jié)果頁(yè)面,如果一個(gè)文本行(相當(dāng)于自然段)有多個(gè)實(shí)例命中,則每次命中均占一行顯示。在該行的左側(cè)用兩級(jí)編號(hào)來(lái)標(biāo)識(shí)。比如“1.1”表示第一個(gè)文本行的第一條命中記錄,“3.2”表示第三個(gè)文本行的第二條命中記錄。

      關(guān)于查詢(xún)結(jié)果的顯示,CCL語(yǔ)料庫(kù)還提供排序和擴(kuò)展功能:排序功能可對(duì)查詢(xún)結(jié)果按照中心詞左邊或右邊的字符進(jìn)行排序,排序依據(jù)為字符的計(jì)算機(jī)內(nèi)碼升序或降序。擴(kuò)展功能包括擴(kuò)展顯示命中記錄的“上下文”,“在結(jié)果中檢索”等。限于篇幅,這里就不展開(kāi)說(shuō)明了。

      4.CCL語(yǔ)料庫(kù)檢索系統(tǒng)的開(kāi)發(fā)

      CCL語(yǔ)料庫(kù)的設(shè)計(jì)理念是在原始未標(biāo)注文本基礎(chǔ)上提供盡可能豐富的檢索功能,方便語(yǔ)言研究和教學(xué)工作者查找例句。因此,檢索系統(tǒng)的程序?qū)崿F(xiàn),采取了在開(kāi)源的全文檢索工具包基礎(chǔ)上,根據(jù)語(yǔ)言研究需要再做二次開(kāi)發(fā)的路線。這樣相當(dāng)于站在巨人的肩膀上借力登高望遠(yuǎn),可以大大縮短開(kāi)發(fā)周期,同時(shí)實(shí)現(xiàn)比較好的開(kāi)發(fā)效果。

      CCL語(yǔ)料庫(kù)檢索系統(tǒng)的核心引擎基于Lucene開(kāi)源工具包。Lucene是一套用于全文索引和檢索的開(kāi)源工具包,由Apache軟件基金會(huì)支持,其Java程序語(yǔ)言的版本被廣泛應(yīng)用于需要進(jìn)行全文檢索的各類(lèi)應(yīng)用系統(tǒng)中。Lucene因其索引結(jié)構(gòu)具有可增量維護(hù)的特色,檢索效率高,問(wèn)世后很快在計(jì)算機(jī)全文檢索系統(tǒng)開(kāi)發(fā)領(lǐng)域受到關(guān)注。為方便將Lucene用于網(wǎng)頁(yè)環(huán)境下的檢索系統(tǒng)開(kāi)發(fā),全文檢索系統(tǒng)開(kāi)發(fā)人員在Lucene基礎(chǔ)上,又進(jìn)一步搭建了以XML文件格式來(lái)包裝Lucene核心檢索引擎的WebLucene,其系統(tǒng)框架如圖3所示。

      圖3 Lucene檢索系統(tǒng)的工作框架

      圖3中程序模塊用實(shí)線方框表示,比如“查詢(xún)表達(dá)式分析器”就是一個(gè)程序模塊。其余文字內(nèi)容表示的是各種數(shù)據(jù)(字符串,文件等),比如“用戶(hù)查詢(xún)表達(dá)式”就是一個(gè)字符串;“檢索結(jié)果頁(yè)面”就是一個(gè)基于html(超文本標(biāo)記語(yǔ)言)的網(wǎng)頁(yè)文件。跟一般的檢索系統(tǒng)架構(gòu)類(lèi)似,Lucene也分為“索引”和“檢索”兩個(gè)部分。圖3虛線框內(nèi)是索引模塊。在索引環(huán)節(jié),WebLucene的作用是將原始txt文本文件改為XML格式的文件,相當(dāng)于把無(wú)結(jié)構(gòu)的文本,轉(zhuǎn)為半結(jié)構(gòu)化的類(lèi)似數(shù)據(jù)庫(kù)格式的文件:一個(gè)文件由若干個(gè)文檔記錄(doc)組成,一個(gè)文檔又由若干個(gè)字段(field)組成(比如語(yǔ)料的“作者、類(lèi)型、重疊模式”等等,都可以表示為單獨(dú)的字段),這樣就可以針對(duì)不同字段,設(shè)置更具針對(duì)性的索引,從而在檢索階段,提供更為豐富的檢索條件組合功能。圖中Lucene字串分析器包含了一個(gè)針對(duì)漢字的CJK字符分析器,專(zhuān)門(mén)處理漢字文本。Lucene索引程序以這樣的XML文件為輸入,生成索引文件,索引文件包含了原文內(nèi)容,因此實(shí)際檢索系統(tǒng)只需要訪問(wèn)索引文件獲取檢索結(jié)果,不再需要從原始文件中抽取檢索結(jié)果。在增加語(yǔ)料文件時(shí),Lucene索引可以不改變現(xiàn)有的索引文件,實(shí)現(xiàn)增量式索引構(gòu)建,便于語(yǔ)料庫(kù)的擴(kuò)容或訂制專(zhuān)用的語(yǔ)料庫(kù)。在檢索環(huán)節(jié),WebLucene的作用是將檢索結(jié)果輸出為網(wǎng)頁(yè),支持用戶(hù)通過(guò)瀏覽器訪問(wèn)檢索結(jié)果。

      圖3所示的索引和檢索框架是對(duì)一般的全文檢索系統(tǒng)而言的,并不能完全滿(mǎn)足語(yǔ)言學(xué)研究的需要。以語(yǔ)言研究為目的檢索例句,往往是以句子為搜索范圍的。而且,語(yǔ)言研究時(shí)查詢(xún)關(guān)鍵字除了普通的詞語(yǔ),往往需要檢索不連續(xù)共現(xiàn)情況(比如離合詞用法),或者符合某些形式特征的字符串模式(比如動(dòng)詞重疊等)而不是確定的詞語(yǔ)字符串。針對(duì)上述檢索需求,就有必要對(duì)原始文檔做分割,設(shè)計(jì)特定的查詢(xún)表達(dá)式,并增加索引字段。上文3.1和3.3節(jié)詳細(xì)介紹了CCL語(yǔ)料庫(kù)檢索系統(tǒng)設(shè)計(jì)的操作符和多種組合的查詢(xún)表達(dá)式,以及模式查詢(xún)表達(dá)式,具體實(shí)現(xiàn)的策略包括:

      (1)在原始語(yǔ)料預(yù)處理階段,將原始純文本格式文件轉(zhuǎn)為XML格式文件時(shí),一個(gè)原始文本按照自然段落切分為若干個(gè)文檔記錄,即相當(dāng)于把一個(gè)句子(或一個(gè)自然段)看作一篇文章,從而在Lucene全文檢索系統(tǒng)(針對(duì)一篇文章進(jìn)行檢索)的框架中達(dá)到為語(yǔ)言研究服務(wù)的目的;

      (2)在原始語(yǔ)料預(yù)處理階段,將查詢(xún)表達(dá)式中定義的關(guān)鍵字,均設(shè)置為XML文件中的字段,從而為這些字段的文本內(nèi)容建立獨(dú)立的索引,為后續(xù)的查詢(xún)做準(zhǔn)備;

      (3)在“查詢(xún)表達(dá)式分析器”程序中,將CCL檢索系統(tǒng)定義的復(fù)雜查詢(xún)表達(dá)式分解為若干項(xiàng)簡(jiǎn)單的Lucene查詢(xún)表達(dá)式的組合,然后交由Lucene檢索程序去訪問(wèn)索引文件查詢(xún)每一個(gè)簡(jiǎn)單的查詢(xún)表達(dá)式,最后將各個(gè)簡(jiǎn)單查詢(xún)表達(dá)式的檢索結(jié)果進(jìn)行合并,返回最終結(jié)果;

      (4)在模式查詢(xún)中,先利用查詢(xún)表達(dá)式中確定的字符串(常項(xiàng))部分,按照普通查詢(xún)表達(dá)式的檢索辦法,得到命中結(jié)果的文檔集,然后根據(jù)模式查詢(xún)表達(dá)式的模板槽(變項(xiàng))部分,生成字符串方程,通過(guò)求解方程,過(guò)濾出文檔集中滿(mǎn)足條件的特定文檔(例句)。方程需要滿(mǎn)足兩方面的條件:一是方程的字符串解拼接后能還原得到原文字符串;二是字符串解要滿(mǎn)足長(zhǎng)度限制。例如,查詢(xún)“(X,=2)不(X)的問(wèn)題”這一模式,檢索系統(tǒng)先按照普通查詢(xún)表達(dá)式“不$2的問(wèn)題”進(jìn)行查詢(xún),先把該表達(dá)式拆解為“不”和“的問(wèn)題”兩個(gè)基本項(xiàng),在索引文件中查找包含這兩個(gè)字符串的文檔,求交集,并核查“不”和“的問(wèn)題”在原文中的位置偏移量之差是否不超過(guò)2個(gè)字符,將這樣得到的結(jié)果文檔集編號(hào)作為第一個(gè)階段的結(jié)果輸出。假設(shè)該集合中包含兩個(gè)字符串:A.不是需不需要的問(wèn)題 B.不是文化不文化的問(wèn)題。A對(duì)應(yīng)的字符串方程為:X=“是需”,Y=“需要”,Length(X)=2;B對(duì)應(yīng)的字符串方程為:X=“文化”,Y=“文化”,Length(X)=2。顯然,A文檔,X≠Y,不符合查詢(xún)要求。B文檔符合查詢(xún)要求,作為結(jié)果,將B文檔“文化不文化的問(wèn)題”作為最終的實(shí)例結(jié)果輸出,同時(shí)輸出模式中的變項(xiàng)X的字符串解為“文化”。

      簡(jiǎn)而言之,CCL語(yǔ)料庫(kù)檢索系統(tǒng)在Lucene和WebLucene全文檢索引擎的架構(gòu)基礎(chǔ)上,針對(duì)語(yǔ)言學(xué)研究的需要,在查詢(xún)表達(dá)式解析,檢索結(jié)果后處理等環(huán)節(jié),做了許多針對(duì)性的改進(jìn),豐富了檢索功能。

      此外,為提高在網(wǎng)絡(luò)環(huán)境下響應(yīng)檢索請(qǐng)求的效率,CCL語(yǔ)料庫(kù)檢索系統(tǒng)還引入了Memcached服務(wù)器。Memcached是一套分布式的高速緩存系統(tǒng),常用來(lái)提高網(wǎng)站的訪問(wèn)速度。因?yàn)槟J讲樵?xún)中求解字符串方程是實(shí)時(shí)進(jìn)行的,并無(wú)事先索引,因而耗時(shí)較長(zhǎng)。針對(duì)這一問(wèn)題,CCL語(yǔ)料庫(kù)檢索系統(tǒng)利用Memcached服務(wù)對(duì)模式查詢(xún)的結(jié)果進(jìn)行了緩存處理。當(dāng)用戶(hù)的模式查詢(xún)發(fā)送到服務(wù)器,服務(wù)器會(huì)首先查看Memcached服務(wù)器中是否有對(duì)應(yīng)的結(jié)果,若已有結(jié)果則直接返回,若無(wú)再執(zhí)行具體的模式查詢(xún),并將查詢(xún)結(jié)果以json格式存儲(chǔ)到Memcached中。

      5.結(jié)語(yǔ)

      語(yǔ)料庫(kù)的建設(shè)總是包含著兩個(gè)重要的方面,一是選什么語(yǔ)料,二是語(yǔ)料如何使用。CCL語(yǔ)料庫(kù)是2003年開(kāi)始設(shè)計(jì),歷時(shí)一年多完成了第一版的系統(tǒng)開(kāi)發(fā)。當(dāng)時(shí)確定的選材原則是語(yǔ)料要規(guī)模盡可能大、覆蓋領(lǐng)域盡可能多。開(kāi)始選取的主要是相對(duì)傳統(tǒng)規(guī)范的文本,后期在發(fā)展過(guò)程中又逐漸吸收了一定比例的網(wǎng)絡(luò)語(yǔ)料,以反映漢語(yǔ)在新時(shí)期的發(fā)展情況。在語(yǔ)料使用方式方面,則是確定了通過(guò)互聯(lián)網(wǎng)提供免費(fèi)查詢(xún)服務(wù)的原則。當(dāng)時(shí)谷歌、百度等互聯(lián)網(wǎng)搜索網(wǎng)站問(wèn)世不久,正逐漸成為新一代的主流檢索工具,而在面向語(yǔ)言研究的檢索方面,中國(guó)還沒(méi)有類(lèi)似的在線語(yǔ)料檢索系統(tǒng)。北大CCL語(yǔ)料庫(kù)是比較早做此嘗試的系統(tǒng)。在這樣的大背景下,CCL語(yǔ)料庫(kù)上網(wǎng)發(fā)布不久就引起了海內(nèi)外漢語(yǔ)學(xué)界的關(guān)注7,逐漸成為漢語(yǔ)研究和教學(xué)領(lǐng)域非常常用的語(yǔ)料庫(kù)之一。

      近十年來(lái)隨著互聯(lián)網(wǎng)的飛速發(fā)展,世界逐漸進(jìn)入到“大數(shù)據(jù)”時(shí)代。語(yǔ)料庫(kù)的規(guī)模也已從億字級(jí)跨入百億字級(jí)甚至萬(wàn)億字級(jí)。越來(lái)越多的大規(guī)模在線語(yǔ)料庫(kù)開(kāi)始提供多語(yǔ)言的查詢(xún)服務(wù),還有的語(yǔ)料庫(kù)系統(tǒng)把互聯(lián)網(wǎng)搜索引擎作為語(yǔ)料來(lái)源,以整個(gè)網(wǎng)絡(luò)的文本資源作為檢索對(duì)象。語(yǔ)料庫(kù)檢索系統(tǒng)也不再只是提供例句作為檢索結(jié)果,而是在檢索的基礎(chǔ)上進(jìn)一步提供豐富的數(shù)據(jù)分析以及數(shù)據(jù)可視化??梢哉f(shuō),語(yǔ)料庫(kù)的類(lèi)型越來(lái)越豐富,檢索手段和結(jié)果呈現(xiàn)形式也越來(lái)越多樣。

      在新的形勢(shì)下,CCL語(yǔ)料庫(kù)也在謀求新的發(fā)展。不過(guò),正如十多年前創(chuàng)建時(shí),CCL語(yǔ)料庫(kù)基本上是自底向上(bottom-up)技術(shù)路線的產(chǎn)物,缺少一個(gè)自頂向下(top-down)的頂層設(shè)計(jì)?,F(xiàn)在CCL語(yǔ)料庫(kù)的升級(jí)之路,也仍然將延續(xù)這一方式:主要是利用現(xiàn)有的技術(shù)手段,逐步將更多類(lèi)型的語(yǔ)料融入到CCL語(yǔ)料庫(kù)檢索系統(tǒng)中。近年來(lái),北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心在一些項(xiàng)目的支持下,出于課題研究的需要,陸續(xù)收集和構(gòu)建了一些專(zhuān)項(xiàng)語(yǔ)料庫(kù),包括:(1)早期北京話材料(如近代西人北京話教科書(shū)匯編、日本北京話教科書(shū)匯編、清末民初京味小說(shuō)書(shū)系等);(2)留學(xué)生漢語(yǔ)作文語(yǔ)料;(3)漢語(yǔ)構(gòu)式語(yǔ)料庫(kù);(4)中文學(xué)術(shù)文獻(xiàn)語(yǔ)料庫(kù);(5)海外華文網(wǎng)絡(luò)語(yǔ)料等等。這些語(yǔ)料將以專(zhuān)題語(yǔ)料庫(kù)的形式,融入現(xiàn)有的CCL語(yǔ)料庫(kù)中。同時(shí),在語(yǔ)料預(yù)處理方面,將嘗試做一定的中文分詞和詞性標(biāo)注;在檢索功能方面,將提供更多樣的統(tǒng)計(jì)數(shù)據(jù)信息,并增加對(duì)一些檢索結(jié)果的可視化支持。此外,目前的CCL語(yǔ)料庫(kù)僅針對(duì)用戶(hù)的檢索請(qǐng)求提供單向的查詢(xún)結(jié)果反饋。未來(lái)將考慮增加用戶(hù)與CCL語(yǔ)料庫(kù)之間的交互功能,為用戶(hù)提供更多的定制服務(wù)??偠灾珻CL語(yǔ)料庫(kù)的發(fā)展愿景仍然是以建設(shè)“國(guó)際一流的漢語(yǔ)語(yǔ)言學(xué)研究信息資料庫(kù)”為目標(biāo),希望在廣大用戶(hù)良性反饋的基礎(chǔ)上,通過(guò)合理擴(kuò)容和功能升級(jí),為學(xué)界提供更優(yōu)質(zhì)的服務(wù)。

      注 釋

      1.可參見(jiàn)馮志偉(2002,2006)對(duì)世界上語(yǔ)料庫(kù)發(fā)展的歷史做的詳細(xì)介紹;詹衛(wèi)東(2018)對(duì)全球范圍內(nèi)近三十年來(lái)中文語(yǔ)言資源的建設(shè)和應(yīng)用情況所做的述評(píng)。

      2.CCL語(yǔ)料庫(kù)網(wǎng)址http://ccl.pku.edu.cn:8080/ccl_corpus或http://ccl.pku.edu.cn/corpus.asp。

      3.對(duì)語(yǔ)料庫(kù)規(guī)模的定量表示一般以字符(如漢字、英文字母、標(biāo)點(diǎn)符號(hào)等)或詞語(yǔ)數(shù)量為單位。CCL語(yǔ)料庫(kù)中文文本未經(jīng)分詞,無(wú)法計(jì)量詞語(yǔ)個(gè)數(shù)。CCL語(yǔ)料的文本均為GBK編碼,即一個(gè)中文字符在計(jì)算機(jī)中以?xún)蓚€(gè)字節(jié)表示。這樣字節(jié)數(shù)與字符數(shù)的對(duì)應(yīng)關(guān)系大致為2:1。12億字節(jié)相當(dāng)于6億字符。除標(biāo)點(diǎn)、非漢字的字母、阿拉伯?dāng)?shù)字等字符外,漢字字符數(shù)約為5億。有關(guān)CCL語(yǔ)料庫(kù)文本類(lèi)別及字?jǐn)?shù)統(tǒng)計(jì)的更多信息可訪問(wèn)網(wǎng)頁(yè)查詢(xún):http://ccl.pku.edu.cn:8080/ccl_corpus/corpus_statistics.html。

      4.CCL語(yǔ)料庫(kù)古代漢語(yǔ)文本約2億字符,1.637億漢字。

      5.全文搜索引擎一般會(huì)把不大可能有人搜索的符號(hào),比如標(biāo)點(diǎn)符號(hào)、虛詞(如“的”)等做屏蔽處理,即把這類(lèi)符號(hào)加入搜索系統(tǒng)的停用詞表(stopword list)中。

      6.在普通查詢(xún)頁(yè)面,指定查詢(xún)表達(dá)式“把$4(了|著|過(guò))”也可檢索出所有包含“把”跟“了、著、過(guò)”分別共現(xiàn)的例句,但檢索結(jié)果是混在一起計(jì)數(shù),并返回例句的。批量查詢(xún)模式是對(duì)3個(gè)查詢(xún)表達(dá)式的檢索結(jié)果分別計(jì)數(shù),分別返回每個(gè)表達(dá)式的檢索例句。

      7.2005年CCL語(yǔ)料庫(kù)檢索系統(tǒng)的日志文件顯示當(dāng)年的日均查詢(xún)量達(dá)到5000次。很有意思的一個(gè)現(xiàn)象是,按月統(tǒng)計(jì)2005年CCL語(yǔ)料庫(kù)的檢索量中,5-6月份,12-1月份為全年檢索量的兩個(gè)高峰值,絕大多數(shù)檢索的來(lái)源IP地址都顯示檢索請(qǐng)求來(lái)自中國(guó)教育科研網(wǎng)(CERNET)的網(wǎng)段范圍,即集中在高??蒲袡C(jī)構(gòu)。很可能是在這兩個(gè)時(shí)間段內(nèi),由于課程期末論文或?qū)W位論文的需要,產(chǎn)生了大量的語(yǔ)料檢索需求。

      猜你喜歡
      檢索系統(tǒng)表達(dá)式語(yǔ)料
      一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
      表達(dá)式轉(zhuǎn)換及求值探析
      淺析C語(yǔ)言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
      收錄《信號(hào)處理》的檢索系統(tǒng)及數(shù)據(jù)庫(kù)
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
      本刊被以下檢索系統(tǒng)及數(shù)據(jù)庫(kù)收錄
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語(yǔ)料
      青神县| 通渭县| 滦平县| 富顺县| 南城县| 射洪县| 台湾省| 巨鹿县| 达尔| 平南县| 东海县| 高邑县| 莱西市| 科技| 茂名市| 揭东县| 井冈山市| 孟村| 石屏县| 玉龙| 德格县| 青岛市| 林周县| 松阳县| 高尔夫| 九台市| 富阳市| 嫩江县| 和龙市| 肇州县| 积石山| 玉环县| 大埔县| 桂阳县| 巩义市| 常熟市| 静宁县| 沿河| 古蔺县| 延寿县| 克什克腾旗|