• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      PowerGrep在語料標(biāo)注中的應(yīng)用

      2013-07-24 18:45:14王朝暉
      關(guān)鍵詞:賦碼批量語料

      余 軍,王朝暉

      (廈門理工學(xué)院 外國語學(xué)院,福建 廈門 361024)

      PowerGrep在語料標(biāo)注中的應(yīng)用

      余 軍,王朝暉

      (廈門理工學(xué)院 外國語學(xué)院,福建 廈門 361024)

      語料庫標(biāo)注是語料庫構(gòu)建的一個(gè)重要環(huán)節(jié),除詞性標(biāo)注外的各類標(biāo)注一般都較難實(shí)現(xiàn)批量操作或自動化.本文介紹了文本處理軟件PowerGrep的查找、替換等主要功能及其功能賴以實(shí)現(xiàn)的正則表達(dá)式,并以自建的電子商務(wù)翻譯語料庫的標(biāo)注處理為例,說明如何利用PowerGrep在替換標(biāo)注賦碼、添加標(biāo)注以及校對標(biāo)注等方面實(shí)現(xiàn)批量操作.

      PowerGrep;正則表達(dá)式;語料標(biāo)注;語料加工

      1 引言

      除生語料庫之外,語料庫的構(gòu)建一般都需要對語料進(jìn)行標(biāo)注,包括常見的文本頭標(biāo)注和詞性標(biāo)注,以及錯(cuò)誤標(biāo)注、句法標(biāo)注、語義標(biāo)注、語用標(biāo)注等其他各類標(biāo)注,還包括語料庫構(gòu)建者根據(jù)研究需要制定的標(biāo)注類型,如筆者所構(gòu)建的多模態(tài)雙語學(xué)習(xí)者語料庫中的技巧標(biāo)注和評價(jià)標(biāo)注[1].對語料庫進(jìn)行標(biāo)注可以為語料庫帶來增值(added value)[2].語料標(biāo)注有人工、半自動化及自動化等三種方式,視乎標(biāo)注類型而定.詞性標(biāo)注一般都是使用軟件自動生成,而其他類型的標(biāo)注一般都較難實(shí)現(xiàn)自動化[3].標(biāo)注的流程包括文本預(yù)處理,自動標(biāo)注或者人工標(biāo)注,以及標(biāo)注校對,在這三個(gè)步驟中,運(yùn)用功能強(qiáng)大的文本處理軟件PowerGrep,可極大地提高語料標(biāo)注的效率,但目前此類探討較少.本文以筆者自建的電子商務(wù)翻譯語料庫為例,介紹如何運(yùn)用PowerGrep對語料進(jìn)行標(biāo)注加工和處理,以期廣大語料庫語言學(xué)研究者了解這一語料加工利器的使用,加深對語言庫語言學(xué)研究工具的發(fā)掘利用.

      2 PowerGrep與正則表達(dá)式

      PowerGREP是一款基于正則表達(dá)式的文本檢索和處理軟件,可在不同的文件夾內(nèi),對不同的文件進(jìn)行批量的文本搜索、替換,支持txt、htm l、xls、xm l、doc、pdf等多種文件格式,可以完成復(fù)雜的文本和二進(jìn)制替換操作,是應(yīng)用正則表達(dá)式在文本文件中搜索替換的強(qiáng)大工具.正則表達(dá)式(Regular Expression)是用來描述或者匹配一系列符合某個(gè)句法規(guī)則的字符串的單個(gè)字符串,起源于科學(xué)家對人類神經(jīng)系統(tǒng)工作原理的早期研究.計(jì)算機(jī)發(fā)展以后,美國數(shù)學(xué)家Stephen Kleene把它引進(jìn)到計(jì)算機(jī)領(lǐng)域[4].正則表達(dá)式由普通字符和元字符(metacharacters)組成.普通字符包括大小寫的字母和數(shù)字,而元字符則具有特殊的含義,例如“d”(不含引號,后同)可以匹配任意一個(gè)數(shù)字字符.有關(guān)元字符的詳細(xì)描述,可參考《PowerGREP與語料庫加工》一文[3].

      PowerGrep的主要功能包括查找(search)、查找和替換(search and replace)、數(shù)據(jù)采集(collect)等.其主界面如圖1所示:

      圖1

      PowerGrep的操作,一般分為以下幾個(gè)步驟∶

      (1)在左側(cè)的文件瀏覽界面中選擇需要處理的文件.用鼠標(biāo)左鍵選中單個(gè)或者多個(gè)文件后,點(diǎn)擊軟件左上角的“√”即可,文件選中后,會在文件名左側(cè)出現(xiàn)綠色的“√”;也可以用鼠標(biāo)選中單個(gè)或者多個(gè)文件夾,之后點(diǎn)擊軟件左上角的“√√”,即可選中所選文件夾內(nèi)的全部文件;

      (2)在右側(cè)的Action type中選擇“Search”(查找)或“Search and replace”(查找并替換)等操作模式;

      (3)以查找并替換模式為例,選擇該模式后,在Search框輸入需檢索的字符串,在替換框輸入需替換的字符串,點(diǎn)擊軟件上方的“Replace”,即可實(shí)現(xiàn)替換操作.

      3 PowerGrep在語料標(biāo)注中的應(yīng)用

      由于其強(qiáng)大的文本搜索及替換功能,PowerGrep可以高效地實(shí)現(xiàn)對標(biāo)注的各種加工目的,節(jié)省大量人力.下面以筆者構(gòu)建的電子商務(wù)翻譯語料庫為例,介紹PowerGrep在批量替換標(biāo)注賦碼、批量添加標(biāo)注以及批量校對標(biāo)注等方面的應(yīng)用.

      3.1 批量替換標(biāo)注賦碼

      筆者構(gòu)建的電子商務(wù)翻譯語料庫,對英文文本和中文文本分別使用CLAWS4和中科院ICTCLAS 2008軟件進(jìn)行了詞性標(biāo)注.CLAWS4的賦碼標(biāo)記是“_”,而ICTCLAS則是“/”.為了便于檢索起見,有必要統(tǒng)一為一種賦碼標(biāo)記.雖然一般的辦公軟件如記事本、Word等都能通過查找替換操作實(shí)現(xiàn)這一目的,但由于不支持批量操作,會耗費(fèi)大量的人力.用PowerGrep處理起來則極其簡單、快捷,步驟如下:

      (1)在使用CLAWS及ICTCLAS進(jìn)行詞性標(biāo)注之前,在PowerGrep中選擇全部文本,Action type選擇“Search and replace”,在Search欄輸入“/”,在Replacement欄輸入“##”,點(diǎn)擊“Replace”,將“/”替換為“##”.這一操作的目的是將文本中可能存在的與詞性賦碼標(biāo)記相同的“/”先替換為其他符號,以免在詞性標(biāo)注之后被混為詞性賦碼標(biāo)記而替換掉.

      (2)使用CLAWS和ICTCLAS對全部文本進(jìn)行詞性標(biāo)注;

      (3)在PowerGrep中選擇詞性標(biāo)注后的全部文本,參照步驟1的方法將“/”批量替換為“_”;

      (4)再將“##”批量替換還原為“/”.

      3.2 批量添加標(biāo)注

      電子商務(wù)翻譯語料庫除詞性標(biāo)注外,還對部分語料做了錯(cuò)誤標(biāo)注,賦碼標(biāo)記為<>.例如,“Precautions 常見問題處理<Term>”,Precautions在產(chǎn)品說明書中是一個(gè)常見術(shù)語,意思是“注意事項(xiàng)”,譯為“常見問題處理”是錯(cuò)誤的,筆者用<Term>這一標(biāo)注碼對這一術(shù)語翻譯錯(cuò)誤做出標(biāo)注.國內(nèi)對語料進(jìn)行錯(cuò)誤標(biāo)注的語料庫不多,其中較為著名的是CLEC,其言語失誤標(biāo)注碼多達(dá)61種,每個(gè)標(biāo)注碼包含3個(gè)字符,如fm1指Spelling錯(cuò)誤[5].標(biāo)注者需要較為熟悉標(biāo)注系統(tǒng),判斷錯(cuò)誤類型后手工輸入對應(yīng)的標(biāo)注碼,設(shè)計(jì)為3個(gè)標(biāo)注碼可以減輕手工輸入的負(fù)擔(dān).但錯(cuò)誤標(biāo)注碼即便是3個(gè)字符,在數(shù)量較大的情況下,手工輸入的工作量仍然非常大,對此筆者深有體會,由此產(chǎn)生了利用PowerGrep批量添加標(biāo)注的嘗試.操作方式如下:

      (1)復(fù)制<>符號,在需要輸入標(biāo)注碼的地方,按ctrl+v,即可將<>粘貼至該處.這一方法比手工依次輸入<>或者在某些文本處理軟件中通過鼠標(biāo)點(diǎn)擊預(yù)制好的字符集都要高效省力;

      (2)在<>中輸入標(biāo)注碼對應(yīng)的數(shù)字及字母,標(biāo)注者需要較為熟悉這些標(biāo)注碼及其對應(yīng)的數(shù)字及字母,例如,1代表“Spelling”,2代表“Term”.這樣只需輸入1個(gè)字符即可完成標(biāo)注.

      (3)標(biāo)注全部完成之后,利用PowerGrep將數(shù)字或者字母代表的標(biāo)注碼還原為完整的標(biāo)注碼.例如,在PowerGrep中選中全部文件,在Search欄輸入“(<)(1)(>)”,在Replacement欄輸入“1Spelling3”,點(diǎn)擊“Replace”,即可完成全部Spelling錯(cuò)誤的標(biāo)注碼還原.

      “Spelling”和“Term”這種標(biāo)注碼相比3個(gè)字符的標(biāo)注碼而言,雖然較長,卻更為直觀,在省卻了長串字符輸入的情況下,值得推廣.

      3.3 批量校對標(biāo)注

      上述人工輸入的標(biāo)注可能存在錯(cuò)誤.例如,有時(shí)會遺漏數(shù)字或者字母的輸入,導(dǎo)致只有<>賦碼標(biāo)記,在PowerGrep中搜索“<>”即可查出此類錯(cuò)誤.另一種可能是輸入了非數(shù)字或者非字母的字符,如“#”,可在PowerGrep中搜索“<[^0-9a-zA-Z]>”,即可查出此類問題.

      PowerGrep的文本檢索功能非常強(qiáng)大,可通過正則表達(dá)式查找各種存在問題的標(biāo)注,達(dá)到批量檢查校對的目的.

      4 結(jié)語

      數(shù)十年來語料庫語言學(xué)的迅猛發(fā)展得益于一大批高質(zhì)量語料庫的構(gòu)建,如BNC,ICE和ICLE等,目前語料庫的構(gòu)建已愈來愈專門化,語料庫構(gòu)建的技術(shù)門檻阻礙了一些有志于語料庫研究的人士加入語料庫構(gòu)建的行列,而利用各種正則表達(dá)式,PowerGrep在語料加工方面可以實(shí)現(xiàn)各種批量操作,其在語料庫構(gòu)建及檢索中有著廣闊的應(yīng)用前景和發(fā)展?jié)摿?對PowerGrep這類功能強(qiáng)大的文本處理軟件的應(yīng)用探索,有利于更多的語料庫研究者掌握相關(guān)技術(shù),共同促進(jìn)語料庫建設(shè)的繁榮發(fā)展.

      〔1〕余軍.CAT平臺下多模態(tài)學(xué)習(xí)者雙語語料庫構(gòu)建[J].廈門理工學(xué)院學(xué)報(bào),2012(03).

      〔2〕Leech,G.Introducing corpus annotation [A].In R. Garside,G.Leech&A.M cEnery(eds.)Corpus Annotation:Linguistic Information from Computer Text Corpora[C].London:Longman,1997.

      〔3〕嚴(yán)華,王立非.PowerGREP與語料庫加工[J].外語電化教學(xué),2010(03).

      〔4〕薛學(xué)彥,李文中.PowerGREP與語料庫信息檢索[A].衛(wèi)乃興,李文中,濮建忠.語料庫應(yīng)用研究[C].上海:上海外語教育出版社,2005.

      〔5〕桂詩春.中國學(xué)習(xí)者英語言語失誤分析[A].楊慧中,桂詩春,楊達(dá)復(fù).基于CLEC語料庫的中國學(xué)習(xí)者英語分析[C].上海:上海外語教育出版社,2005.

      H31

      A

      1673-260X(2013)11-0249-02

      福建省社會科學(xué)規(guī)劃項(xiàng)目資助(2010B153)

      猜你喜歡
      賦碼批量語料
      基于實(shí)物“ID”的變電站整站賦碼管控系統(tǒng)及方法研究
      吉林電力(2022年2期)2022-11-10 09:24:38
      批量提交在配置分發(fā)中的應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      淺議高校網(wǎng)銀批量代發(fā)
      煙包二維碼賦碼離線還是凹印在線?
      《苗防備覽》中的湘西語料
      中短單,我們選擇小盒賦碼
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      基于AUTOIT3和VBA的POWERPOINT操作題自動批量批改
      兰坪| 兰坪| 尼玛县| 罗山县| 夏津县| 邹城市| 忻城县| 叶城县| 江华| 长阳| 拜泉县| 台东县| 浦北县| 盐城市| 库尔勒市| 六枝特区| 兖州市| 昆山市| 罗江县| 广河县| 恩平市| 富阳市| 广河县| 巢湖市| 长春市| 岫岩| 巴南区| 比如县| 双城市| 廊坊市| 五指山市| 清丰县| 横山县| 信宜市| 乌兰察布市| 辽阳市| 南华县| 剑阁县| 河北省| 武山县| 肇源县|