張廣慶,鄭 金,蘇 濤
(1.青島市標(biāo)準(zhǔn)化研究院,青島 266071;2.同方威視技術(shù)股份有限公司,北京 100084)
淺談術(shù)語(yǔ)數(shù)據(jù)庫(kù)建設(shè)的若干問題
張廣慶1,鄭 金2,蘇 濤1
(1.青島市標(biāo)準(zhǔn)化研究院,青島 266071;2.同方威視技術(shù)股份有限公司,北京 100084)
本文簡(jiǎn)要探討術(shù)語(yǔ)數(shù)據(jù)的來源、術(shù)語(yǔ)數(shù)據(jù)庫(kù)設(shè)計(jì)和術(shù)語(yǔ)軟件檢索方式等問題,并結(jié)合實(shí)際的術(shù)語(yǔ)數(shù)據(jù)給出了一種術(shù)語(yǔ)數(shù)據(jù)庫(kù)設(shè)計(jì)方案,可以滿足常規(guī)的術(shù)語(yǔ)檢索要求。
術(shù)語(yǔ);術(shù)語(yǔ)數(shù)據(jù)庫(kù);數(shù)據(jù)來源;檢索
術(shù)語(yǔ),是在特定專業(yè)領(lǐng)域中一般概念的詞語(yǔ)指稱,在我國(guó)常稱為名詞或科技名詞。人們通常使用術(shù)語(yǔ)出版物獲知各行業(yè)術(shù)語(yǔ)知識(shí),詞典、辭書、術(shù)語(yǔ)標(biāo)準(zhǔn)是目前國(guó)內(nèi)最常見的出版物。從發(fā)達(dá)國(guó)家術(shù)語(yǔ)的發(fā)展現(xiàn)狀來看,絕大部分術(shù)語(yǔ)已經(jīng)是以數(shù)字化的形式來展現(xiàn)。通過數(shù)字化編輯、在線打印、全文檢索、專業(yè)數(shù)據(jù)庫(kù)等計(jì)算機(jī)技術(shù)的融合使用,國(guó)外科技工作者可以更加便利地查閱和使用術(shù)語(yǔ)。
術(shù)語(yǔ)數(shù)據(jù)庫(kù)也稱術(shù)語(yǔ)庫(kù),是指專門存儲(chǔ)名詞術(shù)語(yǔ)信息、詞語(yǔ)信息以及術(shù)語(yǔ)工作和語(yǔ)言規(guī)范工作成果的一種源數(shù)據(jù)庫(kù),屬于計(jì)算語(yǔ)言學(xué)領(lǐng)域,是現(xiàn)代語(yǔ)言學(xué)、現(xiàn)代術(shù)語(yǔ)學(xué)、現(xiàn)代計(jì)算機(jī)技術(shù)相結(jié)合的產(chǎn)物。術(shù)語(yǔ)的關(guān)系模型滿足二維表格屬性,適合使用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行數(shù)字化管理。本文以常見的Microsoft Access單機(jī)版關(guān)系型數(shù)據(jù)庫(kù)為例,簡(jiǎn)要探討術(shù)語(yǔ)數(shù)據(jù)庫(kù)建設(shè)中的若干問題。
全國(guó)科學(xué)技術(shù)名詞審定委員會(huì)(以下簡(jiǎn)稱“全國(guó)科技名詞委”)代表國(guó)家進(jìn)行術(shù)語(yǔ)審定工作[1],其預(yù)計(jì)2018年底編纂出版的《中華科學(xué)技術(shù)大詞典》,計(jì)劃收錄兩岸100個(gè)學(xué)科、約60萬(wàn)組術(shù)語(yǔ),實(shí)現(xiàn)大陸名與臺(tái)灣名、中文名和英文名的對(duì)照。在其官網(wǎng)(http://www.cnctst.cn)上,可以免費(fèi)查詢到80多個(gè)學(xué)科、30余萬(wàn)條規(guī)范術(shù)語(yǔ)。官網(wǎng)上顯示的術(shù)語(yǔ)信息參見圖1。
圖1 全國(guó)科技名詞委官網(wǎng)中的術(shù)語(yǔ)信息
中國(guó)國(guó)家標(biāo)準(zhǔn)化管理委員會(huì)(以下簡(jiǎn)稱“國(guó)標(biāo)委”)統(tǒng)一管理全國(guó)標(biāo)準(zhǔn)化工作,并代表國(guó)家參加國(guó)際標(biāo)準(zhǔn)化組織(ISO)等國(guó)際組織的技術(shù)活動(dòng),其負(fù)責(zé)制修訂了國(guó)家標(biāo)準(zhǔn)7萬(wàn)多項(xiàng)、行業(yè)標(biāo)準(zhǔn)15萬(wàn)多項(xiàng)。國(guó)標(biāo)委管理的“國(guó)家標(biāo)準(zhǔn)全文公開系統(tǒng)”(http://www.gb688.cn/bzgk/gb/index),可以免費(fèi)查閱5千多項(xiàng)國(guó)家標(biāo)準(zhǔn)全文內(nèi)容。術(shù)語(yǔ)標(biāo)準(zhǔn)作為標(biāo)準(zhǔn)的一個(gè)重要分支,約有國(guó)家標(biāo)準(zhǔn)1590項(xiàng)、行業(yè)標(biāo)準(zhǔn)890項(xiàng)。術(shù)語(yǔ)標(biāo)準(zhǔn)中顯示的術(shù)語(yǔ)信息參見圖2。
圖2 GB/T 33528-2017標(biāo)準(zhǔn)中的術(shù)語(yǔ)信息
按照國(guó)家標(biāo)準(zhǔn)GB 1.1-2009規(guī)定,“術(shù)語(yǔ)和定義”部分是一份標(biāo)準(zhǔn)的可選要素,它僅給出為理解標(biāo)準(zhǔn)中某些術(shù)語(yǔ)所必需的定義,大多數(shù)國(guó)家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)都編制有該內(nèi)容。按照7萬(wàn)項(xiàng)國(guó)家標(biāo)準(zhǔn)和15萬(wàn)項(xiàng)行業(yè)標(biāo)準(zhǔn)預(yù)計(jì),非術(shù)語(yǔ)標(biāo)準(zhǔn)編制的術(shù)語(yǔ)總量有幾十萬(wàn)到幾百萬(wàn)組?!靶g(shù)語(yǔ)和定義”部分顯示的術(shù)語(yǔ)信息參見圖3。
圖3 GB/T 1.1-2009標(biāo)準(zhǔn)中的術(shù)語(yǔ)信息
數(shù)據(jù)庫(kù)設(shè)計(jì)是指根據(jù)用戶的需求,在某一具體的數(shù)據(jù)庫(kù)管理系統(tǒng)上,設(shè)計(jì)數(shù)據(jù)庫(kù)的結(jié)構(gòu)和建立數(shù)據(jù)庫(kù)的過程,一般分為系統(tǒng)需求分析、概念結(jié)構(gòu)設(shè)計(jì)、邏輯結(jié)構(gòu)設(shè)計(jì)、物理結(jié)構(gòu)設(shè)計(jì)、數(shù)據(jù)庫(kù)實(shí)施、數(shù)據(jù)庫(kù)運(yùn)行與維護(hù)等階段。
通過分析、對(duì)比術(shù)語(yǔ)數(shù)據(jù)的三種來源,可以看出,其信息組成滿足簡(jiǎn)單的二元關(guān)系(即二維表格形式),應(yīng)當(dāng)使用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行管理。術(shù)語(yǔ)數(shù)據(jù)包含的基本信息應(yīng)有:術(shù)語(yǔ)中文名稱、英文名稱、相關(guān)名稱、定義、學(xué)科、數(shù)據(jù)種類(出版物、術(shù)語(yǔ)標(biāo)準(zhǔn)或標(biāo)準(zhǔn)定義)、出版物或標(biāo)準(zhǔn)名稱、標(biāo)準(zhǔn)號(hào)、標(biāo)準(zhǔn)術(shù)語(yǔ)分類、出版物版本、發(fā)布日期(出版年代或標(biāo)準(zhǔn)實(shí)施日期)、注釋等。這些術(shù)語(yǔ)信息主要應(yīng)用于翻譯輔助、辭書編纂、信息檢索、術(shù)語(yǔ)標(biāo)準(zhǔn)化等領(lǐng)域。
E-R圖也稱實(shí)體-聯(lián)系圖,是描述現(xiàn)實(shí)世界概念結(jié)構(gòu)模型的有效方法。實(shí)體用矩形表示,實(shí)體名在框內(nèi)標(biāo)注;實(shí)體的屬性用橢圓表示,與對(duì)應(yīng)的實(shí)體用直線連接;實(shí)體間的聯(lián)系用菱形表示,聯(lián)系名在菱形框內(nèi)標(biāo)注,與對(duì)應(yīng)的實(shí)體用直線連接,在直線上標(biāo)注聯(lián)系的類型(一對(duì)一、一對(duì)多或多對(duì)多,通常用1:1、1:n或m:n表示)。術(shù)語(yǔ)信息的E-R圖參見圖4。
圖4 術(shù)語(yǔ)信息的E-R圖
本文采用Microsoft Access數(shù)據(jù)庫(kù),將概念結(jié)構(gòu)設(shè)計(jì)中的術(shù)語(yǔ)信息的E-R圖轉(zhuǎn)換成Access支持的關(guān)系數(shù)據(jù)模型。實(shí)際設(shè)計(jì)中,常常增加1個(gè)有意義的編號(hào)字段,作為一條記錄的唯一號(hào)或者主鍵。參見表1。
表1 術(shù)語(yǔ)信息數(shù)據(jù)模型
數(shù)據(jù)庫(kù)的物理結(jié)構(gòu)是指數(shù)據(jù)庫(kù)在物理設(shè)備上的存儲(chǔ)結(jié)構(gòu)與存取方法,不同的數(shù)據(jù)庫(kù)管理系統(tǒng)有不同的物理結(jié)構(gòu)。數(shù)據(jù)庫(kù)的物理設(shè)計(jì)就是給一個(gè)邏輯數(shù)據(jù)模型選取一個(gè)適合應(yīng)用要求的物理結(jié)構(gòu)的過程。通常有以下內(nèi)容:
(1)確定數(shù)據(jù)庫(kù)文件的存放位置和空間要求:
術(shù)語(yǔ)表的邏輯結(jié)構(gòu)較單一,可選擇生成一個(gè)access數(shù)據(jù)庫(kù)文件。在術(shù)語(yǔ)的數(shù)據(jù)類型中,將日期按照文本(10)、備注按照文本(200)估算,1條術(shù)語(yǔ)信息約占用1130字節(jié),100萬(wàn)條術(shù)語(yǔ)信息約需空間1G字節(jié)(1024×1024×1130),因此,數(shù)據(jù)庫(kù)文件所在的邏輯盤不應(yīng)低于1G字節(jié)的空間。
(2)確定索引存取方法:
按照“是否經(jīng)常作為查詢條件使用” 的情況分析,應(yīng)在術(shù)語(yǔ)中文名、英文名、相關(guān)名稱、定義等四項(xiàng)信息上建立索引,索引類型是有重復(fù)的索引。
根據(jù)邏輯結(jié)構(gòu)設(shè)計(jì)和物理結(jié)構(gòu)設(shè)計(jì)兩個(gè)階段的結(jié)果,在計(jì)算機(jī)上建立實(shí)際的數(shù)據(jù)庫(kù)結(jié)構(gòu)、裝入術(shù)語(yǔ)數(shù)據(jù)、編制應(yīng)用程序并測(cè)試、試運(yùn)行、編制實(shí)施文檔的過程。
(1)建立實(shí)際的數(shù)據(jù)庫(kù)結(jié)構(gòu):
利用Microsoft Access數(shù)據(jù)庫(kù)創(chuàng)建一個(gè)新的術(shù)語(yǔ)數(shù)據(jù)庫(kù)文件termdb.mdb,并建立新表myterm,按照表1術(shù)語(yǔ)信息數(shù)據(jù)模型填寫并完善各字段內(nèi)容,各字段內(nèi)容見圖5和圖6。
圖5 表myterm各字段主要內(nèi)容
圖6 表myterm中term_id字段常規(guī)內(nèi)容
(2)裝入術(shù)語(yǔ)數(shù)據(jù):
筆者收集整理了7個(gè)術(shù)語(yǔ)標(biāo)準(zhǔn)中的1818條術(shù)語(yǔ),并加以完善各字段內(nèi)容,以這些術(shù)語(yǔ)為例,裝入表myterm中。術(shù)語(yǔ)標(biāo)準(zhǔn)見表2。
表2 術(shù)語(yǔ)標(biāo)準(zhǔn)樣本
(3)編制應(yīng)用程序并測(cè)試:
常用的關(guān)系型數(shù)據(jù)庫(kù)開發(fā)工具有Visio Foxpro、Delphi、Oracle SQL Developer、PowerBuilder等,使用這些圖形軟件開發(fā)工具,可以非常方便地開發(fā)出術(shù)語(yǔ)數(shù)據(jù)庫(kù)的查詢應(yīng)用程序。應(yīng)用程序編制好后,需要經(jīng)過多次調(diào)試來滿足不同的查詢要求。
(4)術(shù)語(yǔ)數(shù)據(jù)庫(kù)及應(yīng)用程序打包試運(yùn)行:
以Powerbuilder9.0開發(fā)工具為例,為使術(shù)語(yǔ)數(shù)據(jù)庫(kù)和應(yīng)用程序能安裝到其它計(jì)算機(jī)上使用,應(yīng)至少將termdb.mdb、libjcc.dll、libjsybheap.dll、pbdwe90.dll、pbodb90.dll、pbvm90.dll和開發(fā)的查詢軟件一起安裝。查詢軟件使用ODBC方式連接術(shù)語(yǔ)數(shù)據(jù)庫(kù)時(shí),也要使用以下參數(shù)連接:"ConnectStr ing='driver=Microsoft Access Driver (*.mdb);DBQ=c:myterm ermdb.mdb;UID=sa;PWD=",斜體部分應(yīng)使用實(shí)際的文件夾。
(5)編制實(shí)施文檔:
實(shí)施文檔一般包括硬件環(huán)境、操作系統(tǒng)、支持軟件、空間要求、安裝說明、備份等內(nèi)容。
該階段主要包括:維護(hù)數(shù)據(jù)庫(kù)的安全性與完整性,檢測(cè)并改善數(shù)據(jù)庫(kù)性能,重新組織和構(gòu)造數(shù)據(jù)庫(kù)。
可以使用單字段法(也稱獨(dú)立字段)、全字段法、分類瀏覽法、組合字段法、記憶法等檢索方式,參見筆者所著《常用標(biāo)準(zhǔn)題錄信息查詢方法介紹》[2]一文,本文不再詳述。
[1] 郭劍.術(shù)語(yǔ)數(shù)據(jù)庫(kù)建設(shè)之我見[J].中國(guó)科技術(shù)語(yǔ),2015,17(5):57-60.
[2] 張廣慶,劉曉寧.常用標(biāo)準(zhǔn)題錄信息查詢方法介紹[J].質(zhì)量探索,2016,(8):80-85.
Discussion on the Construction and Application of Terminological Database
ZHANG Guang-qing1, ZHENG Jin2, SU Tao1
(1. Qingdao Institute of Standardization, Qingdao, Shandong 266071, China; 2. Nuctech Company Limited, Beijing 100084, China)
This paper briefly discusses the origin of terminological data, terminological database design, terminological software retrieval methods, etc. Then the author provides a terminological database design scheme in combination with practical data, which can meet the general requirements of search terms.
term; terminological database; data sources; retrieval
H083
A
1672-6286(2017)03-0077-06
張廣慶(1971-),男,山東巨野人。質(zhì)量高級(jí)工程師,主要從事組織機(jī)構(gòu)代碼、軟件、信息化、標(biāo)準(zhǔn)等領(lǐng)域研究。