華南農(nóng)業(yè)大學(xué) 呂 靖 鄧 飛
提要:AgriDEAP農(nóng)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)是DEAP學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的農(nóng)學(xué)子庫(kù)。本文主要介紹AgriDEAP的建設(shè)目標(biāo)、語(yǔ)料來(lái)源和建庫(kù)方法。同時(shí),本文對(duì)AgriDEAP的基本構(gòu)成和應(yīng)用前景也做了介紹和探討。
隨著學(xué)術(shù)英語(yǔ)研究的蓬勃發(fā)展,當(dāng)前國(guó)內(nèi)外已建成不少學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),有據(jù)可查的至少有數(shù)十種。國(guó)外的如1:蘭卡斯特學(xué)術(shù)英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)(LANCAWE)、英國(guó)學(xué)術(shù)英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)(BAWE)、英國(guó)學(xué)術(shù)英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)(BASE)、英語(yǔ)作為世界語(yǔ)的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)(ELFA)、學(xué)術(shù)英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)(CASE)、英語(yǔ)科學(xué)寫作Coru?a語(yǔ)料庫(kù)(CC)、密歇根學(xué)術(shù)英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)(MICASE)、密歇根高年級(jí)學(xué)生英語(yǔ)論文語(yǔ)料庫(kù)(MICUSP)、古英語(yǔ)醫(yī)學(xué)寫作語(yǔ)料庫(kù)(CEEM)、Pearson國(guó)際學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)。國(guó)內(nèi)的如:交大科技英語(yǔ)語(yǔ)料庫(kù)(楊惠中、黃人杰 1982)、廣州石油英語(yǔ)語(yǔ)料庫(kù)(祝啟波 1991)、中外科技期刊論文語(yǔ)料庫(kù)(胡志清 2007)、《應(yīng)用語(yǔ)言學(xué)》期刊論文語(yǔ)料庫(kù)(梁茂成、劉霞 2014)、學(xué)習(xí)者英語(yǔ)學(xué)術(shù)論文語(yǔ)料庫(kù)和國(guó)際期刊論文語(yǔ)料庫(kù)(婁寶翠 2017)等?,F(xiàn)有的學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)從庫(kù)容看,最高的也沒(méi)有超過(guò)千萬(wàn)量級(jí),低的只有數(shù)十萬(wàn)詞;從抽樣數(shù)量看,每個(gè)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)包含的文本數(shù)量也不盡相同,少的僅有幾十篇,多的有數(shù)千篇,前者如哲學(xué)英語(yǔ)語(yǔ)料庫(kù)(CEPHiT)只有近40篇,后者如英國(guó)學(xué)術(shù)英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)有2,700多篇;從時(shí)間跨度看,既有中古學(xué)術(shù)英語(yǔ),又有現(xiàn)代學(xué)術(shù)英語(yǔ);從儲(chǔ)存格式來(lái)看,不少語(yǔ)料庫(kù)既有純文本格式,又有XML格式。當(dāng)前已有的語(yǔ)料庫(kù)涵蓋了口語(yǔ)與筆語(yǔ)、專家與學(xué)生、本族語(yǔ)與非本族語(yǔ)、古語(yǔ)與現(xiàn)代語(yǔ)等多種類型,可謂資源豐富,但在學(xué)科門類的覆蓋面和代表性、團(tuán)隊(duì)合作的廣泛性和系統(tǒng)性、語(yǔ)料使用的共享度和利用率等方面還有很大的提升空間(崔維霞、王均松 2013;衛(wèi)乃興 2016;徐秀玲、許家金 2017)。
就專門的農(nóng)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)而言,有多位學(xué)者曾提出過(guò)建設(shè)農(nóng)業(yè)或農(nóng)科學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的設(shè)想(如范晶晶、李麗霞 2014;劉萍等 2015;栗娜2015;張律2019),但真正建成的很少,目前已經(jīng)建成且對(duì)外開(kāi)放的只有華中農(nóng)業(yè)大學(xué)的農(nóng)科學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)2(劉萍等 2016),而且這些語(yǔ)料庫(kù)的構(gòu)建設(shè)想自成體系,沒(méi)有系統(tǒng)考慮與其他學(xué)科學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的一致性和可比性。
鑒于以上情況,本課題在中國(guó)外語(yǔ)與教育研究中心學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)建設(shè)項(xiàng)目(DEAP)的統(tǒng)一指導(dǎo)下,建設(shè)了農(nóng)學(xué)學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),庫(kù)容540萬(wàn)詞,含1,112篇論文,簡(jiǎn)稱AgriDEAP。AgriDEAP將同DEAP的其他子庫(kù)一起通過(guò)BFSU CQPwe6語(yǔ)料庫(kù)平臺(tái)面向社會(huì)開(kāi)放,以下將主要介紹該庫(kù)的建設(shè)目標(biāo)、建設(shè)過(guò)程和應(yīng)用前景。
本課題以“中國(guó)外語(yǔ)教育基金專用英語(yǔ)語(yǔ)料庫(kù)(DEAP)建設(shè)項(xiàng)目”的整體理念和方案為指導(dǎo),在充分考慮農(nóng)學(xué)學(xué)科和農(nóng)學(xué)期刊個(gè)性的同時(shí),盡力保持與DEAP項(xiàng)目的整體一致性。總體來(lái)說(shuō),AgriDEAP主要為了實(shí)現(xiàn)以下目標(biāo):(1)建成一個(gè)500萬(wàn)詞以上、能夠反映農(nóng)學(xué)國(guó)際核心期刊論文的語(yǔ)言特征的語(yǔ)料庫(kù);(2)支撐農(nóng)學(xué)高質(zhì)量論文的英語(yǔ)寫作和跨學(xué)科對(duì)比研究,助力我國(guó)農(nóng)學(xué)科研的國(guó)際交流與競(jìng)爭(zhēng);(3)支撐農(nóng)學(xué)學(xué)術(shù)英語(yǔ)教學(xué)的開(kāi)展,推動(dòng)農(nóng)業(yè)院校英語(yǔ)學(xué)科的特色化建設(shè),特別是為促進(jìn)農(nóng)學(xué)學(xué)術(shù)英語(yǔ)詞典及教材的編寫或術(shù)語(yǔ)庫(kù)的建設(shè),為學(xué)術(shù)英語(yǔ)教學(xué)提供更多的語(yǔ)言資源。
根據(jù)McEneryet al.(2006:5)的定義,語(yǔ)料庫(kù)應(yīng)具備四大基本特征:(1)可機(jī)讀;(2)來(lái)自于真實(shí)語(yǔ)言;(3)經(jīng)過(guò)抽樣選??;(4)有代表性。對(duì)建庫(kù)最有挑戰(zhàn)的是第(3)和第(4)項(xiàng)要求。代表性是語(yǔ)料庫(kù)的靈魂,是語(yǔ)料庫(kù)與文本素材庫(kù)的重要區(qū)別,而保證代表性的關(guān)鍵是抽樣的科學(xué)性。
根據(jù)國(guó)務(wù)院學(xué)位委員會(huì)第六屆學(xué)科評(píng)議組編制的《學(xué)位授予和人才培養(yǎng)學(xué)科目錄(2018年4月更新)》,農(nóng)學(xué)專業(yè)一級(jí)學(xué)科“農(nóng)學(xué)”之下包含了9個(gè)二級(jí)學(xué)科:作物學(xué)、園藝學(xué)、農(nóng)業(yè)資源與環(huán)境、植物保護(hù)、畜牧學(xué)、獸醫(yī)學(xué)、林學(xué)、水產(chǎn)和草學(xué)。各二級(jí)學(xué)科之下又有3—9個(gè)三級(jí)學(xué)科,覆蓋面較廣。但需要注意的是,農(nóng)學(xué)研究實(shí)際上未必就只存在于這9大二級(jí)學(xué)科及其子學(xué)科之中,由于學(xué)科交叉普遍存在,農(nóng)學(xué)期刊也未必會(huì)清晰地按照這些子學(xué)科來(lái)劃分界線。為了既能反映一些期刊的學(xué)科定位,又能反映另一些期刊的綜合特征,我們?cè)诿恳患?jí)學(xué)科分類上都設(shè)置了綜合類。具體的學(xué)科分布情況如表1所示。
表1 AgriDEAP語(yǔ)料的學(xué)科分布
各二級(jí)學(xué)科的語(yǔ)料是通過(guò)隨機(jī)抽樣來(lái)收錄的,抽樣篇數(shù)在保持總體平衡的同時(shí),也與它們?nèi)?jí)學(xué)科的數(shù)量多少有一定的關(guān)系,其中水產(chǎn)學(xué)、林學(xué)和獸醫(yī)學(xué)的三級(jí)學(xué)科數(shù)量最多(各有8—9個(gè)),因此被抽出來(lái)的總數(shù)也相對(duì)會(huì)多一些。抽出來(lái)的語(yǔ)料按照二級(jí)學(xué)科來(lái)編號(hào),語(yǔ)料命名方法是:三個(gè)字母的學(xué)科簡(jiǎn)稱+三位數(shù)的順序編碼。
在期刊的選擇上,主要收集了各子學(xué)科的專業(yè)期刊及其綜合期刊的論文,側(cè)重考慮期刊的學(xué)科代表性和期刊的影響因子,下載了影響因子在各子學(xué)科內(nèi)相對(duì)較高的論文,時(shí)間跨度為2016—2018年。
期刊的確定主要參考了4個(gè)方面的信息與標(biāo)準(zhǔn):(1)屬于SCI國(guó)際核心,影響因子在本三級(jí)學(xué)科或綜合學(xué)科內(nèi)較高;(2)參考了《中國(guó)農(nóng)業(yè)科學(xué)院院選SCI核心期刊目錄》;(3)咨詢了相關(guān)學(xué)科的專家教授;(4)網(wǎng)上搜索國(guó)內(nèi)各子學(xué)科的學(xué)術(shù)帶頭人,根據(jù)公開(kāi)的成果介紹,參照了他們論文發(fā)表的期刊名錄。最終確定收集以下期刊中的文章來(lái)創(chuàng)建語(yǔ)料庫(kù)(見(jiàn)表2)。
表2 AgriDEAP的語(yǔ)料來(lái)源
(待續(xù))
(續(xù)表)
(待續(xù))
(續(xù)表)
以上是AgriDEAP規(guī)劃的語(yǔ)料來(lái)源,但在實(shí)際的下載過(guò)程中,每種期刊的下載數(shù)量不完全相同。一是因?yàn)楦鞣N期刊本身的刊期不同,刊文量不一;二是因?yàn)橛行┢诳辉诰W(wǎng)上公開(kāi)了部分論文的下載鏈接?;谝陨锨闆r,AgriDEAP建設(shè)團(tuán)隊(duì)采集了表2中能夠下載到的近三年的文章,共下載了將近2.5萬(wàn)篇論文,總詞次逾億詞。
在論文下載前,根據(jù)表2的期刊種類,提前設(shè)計(jì)好文本下載時(shí)需要保存的文件夾和子文件夾層級(jí),目的是避免混亂,減輕后期的元信息標(biāo)注工作。以三級(jí)學(xué)科茶學(xué)的論文下載為例,文件層級(jí)設(shè)計(jì)為“農(nóng)學(xué)-園藝學(xué)-茶學(xué)-期刊名-年份-刊期(卷號(hào))-文章”。論文下載后,使用Python命令把每篇文章的路徑提取出來(lái),存入Excel,就相當(dāng)于完成了每篇語(yǔ)料元信息的提取。
使用以上方法,團(tuán)隊(duì)在Excel中匯總了近2.5萬(wàn)條語(yǔ)料的信息,對(duì)這些語(yǔ)料進(jìn)行編號(hào),然后使用Excel函數(shù)進(jìn)行“不放回隨機(jī)取樣”,先后抽取了約1,150篇文章,將其中的通告、刊訊、其他信息舍棄,剩下的1,112篇論文被納入語(yǔ)料庫(kù)。
語(yǔ)料整理主要包括格式轉(zhuǎn)換、文本清潔、格式整理和標(biāo)注等環(huán)節(jié),對(duì)于一些程式化的問(wèn)題盡量尋找自動(dòng)化、半自動(dòng)化的方法解決。
網(wǎng)上下載的期刊論文一般都是PDF格式,需要轉(zhuǎn)成語(yǔ)料庫(kù)通用的TXT格式。首先,我們先將PDF轉(zhuǎn)換為DOC(X)格式,然后再轉(zhuǎn)換為TXT格式,因?yàn)檫@樣處理便于在WORD上刪除圖形、公式和參考文獻(xiàn)等信息。同時(shí)我們使用了Adobe Acrobat DC,可以直接在上面編輯PDF文檔,刪除無(wú)關(guān)內(nèi)容,然后直接另存為TXT格式即可。接下來(lái),所有的文件轉(zhuǎn)換成功之后,在Excel中按照表1的命名規(guī)則對(duì)語(yǔ)料進(jìn)行編碼,再用Python程序讀取Excel的新編碼自動(dòng)對(duì)語(yǔ)料重命名。最后,打開(kāi)保存語(yǔ)料的最外層文件夾,使用右上角Windows系統(tǒng)自帶的搜索功能,搜索所有的TXT文檔,全部存入新文件夾。此時(shí),語(yǔ)料庫(kù)已初具雛形。
格式轉(zhuǎn)換時(shí)還應(yīng)注意編碼問(wèn)題,英文語(yǔ)料一般應(yīng)轉(zhuǎn)換為ANSI編碼。用Adobe Acrobat DC直接轉(zhuǎn)換的TXT格式為UNICODE編碼,但不宜馬上將其改換為ANSI編碼,因?yàn)閁NICODE可以表達(dá)更多的字符,貿(mào)然轉(zhuǎn)換會(huì)造成很多亂碼,影響語(yǔ)料的質(zhì)量和可讀性。因此,要先選取少數(shù)TXT文檔,將其副本轉(zhuǎn)換為ANSI編碼,然后跟UNICODE原本對(duì)比,找出易亂碼的字符,用ANSI可識(shí)別的字符統(tǒng)一替換之后再轉(zhuǎn)換。AgriDEAP主要對(duì)兩類情況進(jìn)行了替換:(1)多字母合體造成的亂碼。多個(gè)字母合為整體,無(wú)法對(duì)單個(gè)字母進(jìn)行修改操作。這種情況多是含f的字母組合,如fl、ff、ffi,看似是2—3個(gè)字母,實(shí)際只占了一個(gè)位置;(2)非西方語(yǔ)言的文字符號(hào)容易造成亂碼,如?、?、?等,可改為拼寫相似的c、a、o。因?yàn)檫@些符號(hào)多出現(xiàn)在姓名或公式當(dāng)中,改變后并不影響語(yǔ)料的學(xué)術(shù)語(yǔ)言特征。由于異常符號(hào)較多,這樣處理雖然無(wú)法杜絕亂碼,但至少可以減少亂碼,增強(qiáng)語(yǔ)料的可讀性和整潔度。確定替換項(xiàng)目后,使用EmEditor等文本編輯器可以實(shí)現(xiàn)對(duì)全部語(yǔ)料的批量替換。替換完畢后,再使用EditPlus將所有語(yǔ)料批量轉(zhuǎn)換為ANSI編碼。
文本清潔及預(yù)處理涉及了許多細(xì)節(jié),這里僅列舉幾項(xiàng)最常見(jiàn)或比較難處理的任務(wù),包括:(1)消除多余的空格、空行;(2)全角、半角標(biāo)點(diǎn)轉(zhuǎn)換;(3)刪除文內(nèi)注(in-text citation);(4)糾正斷頭句;(5)糾正連體句。
對(duì)于前兩項(xiàng)任務(wù),使用“文本整理器”可一鍵實(shí)現(xiàn)“全角—半角”的全部轉(zhuǎn)換,并可消除部分冗余的空格或空行。但是“文本整理器”的處理能力有限,一些特殊的空格和空行無(wú)法用其消除,而且不支持UNICODE編碼的文本。使用EmEditor結(jié)合正則表達(dá)式清除了其他多余的空格和空行。
刪除文內(nèi)注時(shí),考慮了兩種情況:一是“作者+年份”式的文內(nèi)注,如:“(Johnson 2020)”,需要全部刪除;二是只有年份的文內(nèi)注,作者是正文的一部分,如:Johnson(2020),只需刪除年份。使用正則表達(dá)式在EmEditor中分別刪除了這兩種文內(nèi)注。
斷頭句又稱折腰句,指一些句子還沒(méi)有結(jié)束就突然斷開(kāi),出現(xiàn)非自然換行。這種情況在語(yǔ)料庫(kù)建設(shè)中很常見(jiàn),往往數(shù)量眾多,無(wú)法用手工排查和糾正。由于干擾因素多,正則表達(dá)式分成以下幾步可以實(shí)現(xiàn)較好的糾正效果。
(1)斷頭句的基本判斷標(biāo)準(zhǔn)是:上一行以換行符結(jié)尾( );下一行以小寫字母或標(biāo)點(diǎn)符號(hào)(逗號(hào)/句號(hào))開(kāi)頭。打開(kāi)EmEditor,導(dǎo)入所有語(yǔ)料的TXT文本,點(diǎn)擊“搜索-替換”,勾選“使用正則表達(dá)式”和“區(qū)分大小寫”,輸入以下公式后,點(diǎn)擊“全部替換”,然后點(diǎn)擊“文件-全部保存”。
查找框: ^s{0,2}([a-z.,])| ^s{5,}([a-z.,])
替換框:1
注意:有些正常換行的首個(gè)單詞也可能是小寫,特別是一些論文的abstract和keywords這兩個(gè)詞全部小寫,它們單獨(dú)占一行??梢韵扔谜齽t表達(dá)式在這兩個(gè)詞前面自動(dòng)加上一個(gè)大寫的輔助標(biāo)記,再執(zhí)行以上操作,之后再自動(dòng)去除輔助標(biāo)記。
(2)斷行處的新行開(kāi)頭是數(shù)字,彌補(bǔ)辦法如下。
查找框: ^(s{0,2}[0789])| ^(s{0,2}d{2,})
替換框:12
注意:1前有1個(gè)空格,同時(shí)勾選“區(qū)分大小寫”和“使用正則表達(dá)式”。本操作無(wú)法解決由1—6開(kāi)頭斷行的數(shù)字,因?yàn)橛行┱撐牡男?biāo)題是以1—6作為編號(hào)開(kāi)頭的,它們不是斷頭句,所以不能使用本方法排除。
(3)斷行處是大寫字母或1—6的數(shù)字,彌補(bǔ)辦法如下。
查找框:s(of|by|with|the|around|for|in|on|above|is|was|are|were|can|would|should|a nd|this)$
替換框:1
注意:1前有1個(gè)空格,勾選“使用正則表達(dá)式”,不勾選“區(qū)分大小寫”。該公式是用介詞、冠詞、助動(dòng)詞等非自然結(jié)尾詞為判斷標(biāo)準(zhǔn)來(lái)迂回查找斷頭句。因?yàn)檫@些詞一般不用句尾,后面緊跟換行符往往屬于異常情況。完成了這一步,絕大多數(shù)的斷頭句可以被批量糾正過(guò)來(lái)。
文本清潔和預(yù)處理還有一個(gè)常見(jiàn)的棘手問(wèn)題是連體句,即有些詞句甚至段落在格式轉(zhuǎn)換過(guò)程中丟失了所有空格,如“Ilovecorpuslinguistics”。這種情況也很難在大量的語(yǔ)料中用肉眼識(shí)別。AgriDEAP使用Python程序3自動(dòng)判斷尋找語(yǔ)料中的連體句,并抽取出語(yǔ)料所在的文檔,然后再手工整理。
在格式整理方面,AgriDEAP主要對(duì)以下三類情況進(jìn)行了整理和標(biāo)記:(1)刪除了行文中的數(shù)學(xué)公式。雖然在最初的格式轉(zhuǎn)換時(shí),已刪除大量的數(shù)學(xué)公式,但有些公式不是獨(dú)立列出的,而是句子中的一部分,當(dāng)時(shí)沒(méi)有刪除?,F(xiàn)在需要手工刪除這些公式,同時(shí)用兩個(gè)“$”占據(jù)原來(lái)的位置,以免影響語(yǔ)料的可讀性,使人誤以為缺少了句子成分。(2)刪除了文章中的網(wǎng)址。用正則表達(dá)式查找、刪除了語(yǔ)料中的網(wǎng)址,并用三個(gè)@來(lái)代替,避免成分缺失。(3)排查了每篇論文的結(jié)構(gòu),必要時(shí)打上輔助標(biāo)記。通過(guò)觀察,可以發(fā)現(xiàn)農(nóng)學(xué)學(xué)術(shù)語(yǔ)料最典型的結(jié)構(gòu)是“題目-作者-單位-摘要-關(guān)鍵詞-引言-文獻(xiàn)綜述-研究方法-實(shí)驗(yàn)結(jié)果-討論-結(jié)論-鳴謝”。該結(jié)構(gòu)很模式化,可以用來(lái)實(shí)現(xiàn)XML的自動(dòng)標(biāo)注,但也有例外,如有些語(yǔ)料沒(méi)有小標(biāo)題,這時(shí)就可以使用Python程序提取出缺少引言的語(yǔ)料,然后手工核對(duì),對(duì)于少數(shù)有引言內(nèi)容但沒(méi)有引言標(biāo)題的語(yǔ)料,添加輔助標(biāo)記“(Introduction)”,以方便計(jì)算機(jī)自動(dòng)識(shí)別。
經(jīng)過(guò)格式整理后,對(duì)有規(guī)范標(biāo)題的論文,先使用Python程序自動(dòng)進(jìn)行XML標(biāo)注,再手工校對(duì)一遍。對(duì)沒(méi)有標(biāo)題的論文,使用手工標(biāo)注。
AgriDEAP有著廣泛的應(yīng)用前景,包括但不限于以下方面。
(1)便于開(kāi)展跨學(xué)科的對(duì)比研究,本課題的語(yǔ)料庫(kù)融入DEAP這一大型學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù)的架構(gòu)之下,統(tǒng)一了與其他學(xué)科學(xué)術(shù)語(yǔ)料庫(kù)的尺度,為跨學(xué)科比較研究提供了可能(許家金、梁茂成 2011)。
(2)可以用于研究農(nóng)學(xué)學(xué)術(shù)英語(yǔ)的語(yǔ)言特征,如:搭配、措詞、短語(yǔ)結(jié)構(gòu)、句法結(jié)構(gòu)分析,學(xué)術(shù)話語(yǔ)分析等。
(3)可以用于研究農(nóng)學(xué)學(xué)術(shù)英語(yǔ)的語(yǔ)篇特征和寫作特點(diǎn),如:引言、研究方法、結(jié)果與討論等篇章結(jié)構(gòu)的寫作方法和語(yǔ)步分析等。
(4)可以用于農(nóng)學(xué)學(xué)術(shù)英語(yǔ)寫作或翻譯教學(xué)課程的開(kāi)發(fā)與教材的編寫。
(5)可以用于提取農(nóng)學(xué)各領(lǐng)域的專業(yè)術(shù)語(yǔ)和短語(yǔ),編寫術(shù)語(yǔ)詞典和短語(yǔ)詞典,DEAP的醫(yī)學(xué)子庫(kù)已在詞典編纂方面進(jìn)行了成功探索(許家金 2017)。
(6)可以用于AI的學(xué)習(xí)和訓(xùn)練等。
隨著語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)的發(fā)展,相信語(yǔ)料庫(kù)越來(lái)越多的應(yīng)用潛力會(huì)被發(fā)掘出來(lái)。屆時(shí)AgriDEAP將會(huì)同DEAP的其他子庫(kù)及其他各類語(yǔ)料庫(kù)一道,繼續(xù)為語(yǔ)言乃至人工智能的研究和應(yīng)用發(fā)揮基礎(chǔ)性的作用。
注 釋
1 Corpus Finder [EB/OL].[2020-02-01].http://www.helsinki.fi/varieng/CoRD/corpora/corpusfinder/.
2 華中農(nóng)業(yè)大學(xué)農(nóng)科學(xué)術(shù)英語(yǔ)語(yǔ)料庫(kù),網(wǎng)址:http://211.69.132.28/,訪客的賬號(hào)和密碼都是test。
3 限于篇幅,本文無(wú)法列出Python的程序代碼,該代碼將會(huì)發(fā)布在www.corpus4u.org論壇里,具體操作視頻會(huì)上傳到bilibili.com網(wǎng)站,搜索用戶名biggertree即可見(jiàn)。