●李 景,李國鵬,汪 濱,劉 華,程永紅
(1.中國標(biāo)準(zhǔn)化研究院;2.中國科學(xué)院 文獻(xiàn)情報(bào)中心;3.中國科學(xué)技術(shù)信息研究所,北京 10088)
語料庫,指存放原始語言材料的數(shù)據(jù)倉庫。一般的語料庫其語料加工來源非常廣泛,包括叢書、詞典、專著、辭源等。標(biāo)準(zhǔn)文獻(xiàn)語料庫的加工主要以標(biāo)準(zhǔn)文獻(xiàn)和技術(shù)法規(guī)為主。知識庫,是用于知識管理的一種特殊的工具,以便于有關(guān)知識領(lǐng)域知識的采集、整理以及提取。知識庫中的知識對象,是求解問題所需專業(yè)領(lǐng)域知識的集合,包括基本事實(shí)、規(guī)則和其他有關(guān)信息。
語料庫、知識庫和知識組織體系的構(gòu)建,是知識管理和知識服務(wù)的基礎(chǔ)、前沿和熱點(diǎn),語料庫的根本目的是為實(shí)現(xiàn)語義標(biāo)引、機(jī)器翻譯、知識關(guān)聯(lián)、數(shù)據(jù)挖掘、智能檢索等功能和模塊提供基礎(chǔ)和支撐。國家標(biāo)準(zhǔn)館作為國家重點(diǎn)支持、面向全國服務(wù)的國家級標(biāo)準(zhǔn)文獻(xiàn)服務(wù)機(jī)構(gòu),不但在迅速實(shí)現(xiàn)館藏資源數(shù)字化、服務(wù)模式網(wǎng)絡(luò)化的轉(zhuǎn)變方面負(fù)有責(zé)無旁貸的重任,而且面臨著以國家級館藏文獻(xiàn)資源提供知識服務(wù),滿足全國企業(yè)和用戶標(biāo)準(zhǔn)信息需求的使命。以國家標(biāo)準(zhǔn)館數(shù)字資源為用戶提供知識服務(wù),直接關(guān)系著國家的標(biāo)準(zhǔn)文獻(xiàn)資源建設(shè)能否持續(xù)穩(wěn)定發(fā)展,關(guān)系著全國用戶能否更加便捷、高效的利用標(biāo)準(zhǔn)文獻(xiàn)數(shù)字資源,也關(guān)系著國家標(biāo)準(zhǔn)館能否順應(yīng)知識經(jīng)濟(jì)時(shí)代要求,實(shí)現(xiàn)可持續(xù)發(fā)展。
現(xiàn)代網(wǎng)絡(luò)條件下,語料庫的構(gòu)建通常以基礎(chǔ)術(shù)語數(shù)據(jù)庫和相關(guān)領(lǐng)域文獻(xiàn)素材中的敘詞為素材,輔以專業(yè)詞典,提煉語料。對已提煉的語料進(jìn)行標(biāo)注和注釋,通過審核后,錄入語料庫,并逐步建立和完善語料素材間的關(guān)聯(lián)關(guān)系。標(biāo)準(zhǔn)文獻(xiàn)語料庫的構(gòu)建分為兩部分:一是語料數(shù)據(jù)庫(簡稱“語料庫”)的構(gòu)建;二是語料庫原型系統(tǒng)的開發(fā)。
(1)文本抓取和準(zhǔn)備:標(biāo)準(zhǔn)文本和Web信息的獲取和數(shù)字化文本的準(zhǔn)備。(2)語料提取:從標(biāo)準(zhǔn)文獻(xiàn)中提取語料信息。(3) 標(biāo)注和注釋。① 標(biāo)注:將文本信息中的語料(概念,知識對象)進(jìn)行標(biāo)記和表示,分為詞法標(biāo)注,語義特征標(biāo)注,雙語(中英文)的對應(yīng)。② 注釋:為概念添加定性描述。(4)建立數(shù)據(jù)庫:將語料素材錄入數(shù)據(jù)庫,并建立雙語語料映射表。(5)更新、維護(hù)和修復(fù):不斷補(bǔ)充完善語料素材,填充數(shù)量,提高質(zhì)量,校正語料(知識對象)之間的關(guān)系,使之更加符合邏輯性。
原型系統(tǒng)總體設(shè)計(jì)采用通用的B/S(客戶端/瀏覽器)結(jié)構(gòu),系統(tǒng)支持通用格式數(shù)據(jù)庫的導(dǎo)入導(dǎo)出。(1) 客戶端(實(shí)現(xiàn)):語料的錄入、注釋,語料庫的編輯、校正,中英文文本的對照,實(shí)現(xiàn)對語料庫中語料素材(知識對象)的調(diào)用,對文檔的管理與標(biāo)引,對譯文模板進(jìn)行調(diào)用。(2)服務(wù)器端(實(shí)現(xiàn)):語料素材(知識對象)的集中存儲、語料庫版本的管理與配置。
在標(biāo)準(zhǔn)文獻(xiàn)資源方面,依托“標(biāo)準(zhǔn)文獻(xiàn)譯文數(shù)據(jù)庫建設(shè)”項(xiàng)目,國家標(biāo)準(zhǔn)館擁有經(jīng)過篩選鑒別的國家標(biāo)準(zhǔn)和等同采用 (IDT) 國際標(biāo)準(zhǔn)的數(shù)字化文本10956件的數(shù)據(jù)庫,擁有譯文數(shù)字化資源文本36519件 (BS:2161件;DIN:3957件;GOST:4312件;IEC:3577件;ISO:10289件;ITU:5649件;JIS:674件,截至2011年1月27日),擁有中英文對照敘詞表等語料素材38663條。等同采用的標(biāo)準(zhǔn)文本經(jīng)過比對后,可以提煉出規(guī)范的譯文模版和準(zhǔn)確的雙語種術(shù)語對照,敘詞表則可以作為構(gòu)建語料庫的素材和基礎(chǔ)。
原型系統(tǒng)中實(shí)現(xiàn)了分專業(yè)領(lǐng)域?yàn)g覽語料資源,點(diǎn)擊圖1頁面左側(cè)菜單可以分專業(yè)領(lǐng)域?qū)Ш?,瀏覽不同專業(yè)領(lǐng)域的語料(見圖2)。
原型系統(tǒng)中實(shí)現(xiàn)了對逐項(xiàng)語料進(jìn)行瀏覽,在圖1顯示的界面中點(diǎn)擊一條語料,如“中醫(yī)學(xué)”,能夠顯示該條語料的詳細(xì)信息。
圖1 分專業(yè)瀏覽語料的原型系統(tǒng)頁面
圖2 對逐項(xiàng)語料進(jìn)行瀏覽的原型系統(tǒng)頁面
(1)功能需求。① 模糊檢索功能:實(shí)現(xiàn)雙語輸入的模糊檢索功能。② 關(guān)鍵詞檢索功能:輸入中英文關(guān)鍵詞,查詢對應(yīng)的語料。③ 標(biāo)準(zhǔn)號檢索功能:輸入標(biāo)準(zhǔn)號,查詢該標(biāo)準(zhǔn)中包含的語料素材。
(2) 功能實(shí)現(xiàn)。功能需求 ① 的實(shí)現(xiàn)見圖3,該功能通過原型系統(tǒng)主頁面檢索框?qū)崿F(xiàn)。功能需求 ②的實(shí)現(xiàn)見圖4。通過在查詢界面輸入關(guān)鍵詞,“啟用模糊匹配”功能,如輸入“中醫(yī)”,可以查詢到包含“中醫(yī)”的“中醫(yī)學(xué)”和“中醫(yī)基礎(chǔ)理論”兩條術(shù)語。需求功能 ③ 的實(shí)現(xiàn)見圖5。在查詢界面輸入標(biāo)準(zhǔn)號,可以顯示該標(biāo)準(zhǔn)中包含的語料素材。
圖3 原型系統(tǒng)首頁(簡單檢索界面)
圖4 關(guān)鍵詞檢索功能的原型系統(tǒng)頁面
圖5 利用標(biāo)準(zhǔn)號檢索的原型系統(tǒng)頁面
(1)語料錄入功能,能夠在原型系統(tǒng)中增加新的語料記錄。
(2)語料編輯功能,能夠?qū)ο到y(tǒng)里有的語料進(jìn)行修改、編輯、操作、保存等功能。
圖6 原型系統(tǒng)架構(gòu)圖
以語料數(shù)據(jù)庫為中心數(shù)據(jù)庫,實(shí)現(xiàn)檢索、語料記錄概覽(列表展示)、詳情瀏覽、語料錄入和編輯、以及后臺管理(數(shù)據(jù)的批量導(dǎo)入和導(dǎo)出),見圖6。其中的檢索、語料記錄概覽(列表展示)、詳情瀏覽、語料錄入和語料編輯、以及后臺管理(部分)功能為已實(shí)現(xiàn)功能。后臺管理中的用戶管理、角色管理、授權(quán)管理、資源管理、統(tǒng)計(jì)分析等功能,以及館內(nèi)接口和對外接口,由于經(jīng)費(fèi)和時(shí)間所限,留待后續(xù)研究中實(shí)現(xiàn)。
本文的研究,促進(jìn)標(biāo)準(zhǔn)化術(shù)語信息資源的建設(shè)和標(biāo)準(zhǔn)化術(shù)語應(yīng)用系統(tǒng)的研發(fā),可以有效幫助標(biāo)準(zhǔn)制定人員的工作,促進(jìn)我國標(biāo)準(zhǔn)化工作整體水平的提升。同時(shí)為廣大用戶(包括政府部門、企業(yè)、個(gè)人)提供便捷、高效、準(zhǔn)確、全面的標(biāo)準(zhǔn)術(shù)語編寫和信息服務(wù),以保證標(biāo)準(zhǔn)文本中術(shù)語的協(xié)調(diào)性和一致性,從而促進(jìn)標(biāo)準(zhǔn)質(zhì)量的提升。
通過實(shí)施本課題完善標(biāo)準(zhǔn)術(shù)語數(shù)據(jù)資源、標(biāo)準(zhǔn)文獻(xiàn)語料庫及其相關(guān)的資源建設(shè),為進(jìn)一步開展標(biāo)準(zhǔn)中術(shù)語的推廣普及和相關(guān)研究構(gòu)建了一個(gè)技術(shù)支撐平臺。研究形成的提供支持翻譯功能的語料庫,能夠在翻譯服務(wù)中,提高翻譯文本的質(zhì)量。同時(shí)還能夠提供翻譯文本與原標(biāo)準(zhǔn)文本的比對功能,達(dá)到校核質(zhì)保的目的,提高譯文質(zhì)量。
從國家層面來講,希望能推動我國的國家標(biāo)準(zhǔn)走向國際,提供有力的工具。目前國標(biāo)英文版的轉(zhuǎn)化工作困難重重,沒有大規(guī)模開展。雖然有多種原因,但缺乏多語種版本的語料和適當(dāng)工具,是一個(gè)重要因素。通過這個(gè)課題建立標(biāo)準(zhǔn)文獻(xiàn)語料庫,希望對國標(biāo)走向國際化產(chǎn)生實(shí)際的推動。同樣,語料庫的建立,對于國外標(biāo)準(zhǔn)翻譯成中文,或者是對我國的采標(biāo)工作也將有所裨益。
可以將已有的語料加工合并入標(biāo)準(zhǔn)文獻(xiàn)信息加工流程中,增加標(biāo)準(zhǔn)文獻(xiàn)標(biāo)引的深度和精度,改善數(shù)據(jù)加工質(zhì)量,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。
如將完備的語料記錄輸入數(shù)據(jù)庫底層,可以完善檢索用詞庫,增加用戶輸入檢索式時(shí)模糊匹配的精度,提高標(biāo)準(zhǔn)文獻(xiàn)的檢全率和檢準(zhǔn)率。完備的語料庫,能夠反映詞匯的語義映射關(guān)系和語義限制。
如果僅僅按照用戶輸入的檢索詞進(jìn)行檢索,肯定會造成“漏檢”。用戶輸入的檢索詞和用戶自身的知識背景、檢索能力以及檢索經(jīng)驗(yàn)相關(guān),可能只是某一概念的若干同義詞、近義詞或是相關(guān)術(shù)語中的一個(gè)。研究者可以利用本體規(guī)范概念集自動地將檢索詞映射到它的同義詞、近義詞和相關(guān)詞上,利用一組規(guī)范的概念進(jìn)行檢索。[1]
另一方面,一個(gè)詞可以有多個(gè)含義,用戶進(jìn)行檢索時(shí)往往只是針對它的一個(gè)含義。如果只進(jìn)行簡單匹配,會造成“誤檢”。例如,用戶輸入“牡丹”,可能會查找到花卉牡丹,也可能會找出牡丹江市、牡丹牌電視機(jī)等信息。就算是查找“植物”&“牡丹”,這兩個(gè)名詞也是用于多種不同科、屬植物的別名,如野牡丹科植物、毛茛科-芍藥屬-牡丹組植物,或者是一種名為“緋牡丹”的仙人掌科多漿植物,還有菊花品種“綠牡丹”等。這時(shí),可以利用本體來分析用戶檢索詞匯和信息資源語義類型以及二者的語義匹配程度。在分析用戶檢索詞的語義時(shí),可以直接向用戶提供輸入詞匯的語義類型或語義關(guān)系,讓用戶通過選擇加以明確。也可以利用用戶模式、用戶檢索式和用戶所選擇的信息資源的詞匯構(gòu)成等,根據(jù)概念關(guān)系來判斷具體檢索詞的語義。[1,2]
基于本體的語料庫(或稱知識庫)能夠表示信息內(nèi)容與知識組織體系之間的鏈接??梢詫⒈倔w知識庫與信息系統(tǒng)進(jìn)行鏈接,從而使用戶在使用信息的過程中,更加便捷地利用本體來理解具體的概念(知識對象)并鏈接相關(guān)概念(知識對象)和相關(guān)資源。鏈接方式可以是靜態(tài)的(即有關(guān)鏈接事先嵌入到信息單元中,不能進(jìn)行修改),也可以是動態(tài)的(即在需要時(shí),由系統(tǒng)析取詞匯和鏈接相應(yīng)的本體)。這類應(yīng)用一般多用于專業(yè)領(lǐng)域,所以進(jìn)行語義分析和選擇本體的工作都相對明確和簡潔。
[1]張曉林.走向知識服務(wù)——21世紀(jì)中國學(xué)術(shù)信息服務(wù)的挑戰(zhàn)與發(fā)展[M].成都:四川大學(xué)出版社.2001:22-50.
[2]李景.本體理論在文獻(xiàn)檢索系統(tǒng)中的應(yīng)用研究[M].北京:北京圖書館出版社,2005:99-122.