那日松 劉 青 陳永朝 朱 磊
(1.杭州師范大學(xué),浙江杭州 310012 2.全國科技名詞審定委員會(huì),北京 100717 3.比利時(shí)魯汶大學(xué),比利時(shí)魯汶)
法律領(lǐng)域術(shù)語部件的描述
那日松1劉 青2陳永朝3朱 磊1
(1.杭州師范大學(xué),浙江杭州 310012 2.全國科技名詞審定委員會(huì),北京 100717 3.比利時(shí)魯汶大學(xué),比利時(shí)魯汶)
從實(shí)現(xiàn)自動(dòng)抽取法律術(shù)語的目的出發(fā),立足于法律術(shù)語具有術(shù)語部件的特點(diǎn),建立了由579條部件組成的法律術(shù)語部件庫,并針對各種屬性的術(shù)語部件做出統(tǒng)計(jì)分析,完成了每個(gè)法律術(shù)語部件“生成能力”和“貢獻(xiàn)度”兩個(gè)屬性的詳細(xì)描述。
法律術(shù)語,術(shù)語自動(dòng)抽取,術(shù)語部件,貢獻(xiàn)度,生成能力
任何領(lǐng)域的術(shù)語都有其構(gòu)成的部件。比如信息科學(xué)領(lǐng)域術(shù)語多用“程序”“自動(dòng)”“操作”“軟件”“數(shù)據(jù)”“型”等部件;而法律術(shù)語多用“法”“案”“罪”“證據(jù)”“犯”等部件。不同領(lǐng)域術(shù)語方面的差異從表面上來看,主要表現(xiàn)在部件使用的不同上。本文基于這個(gè)特點(diǎn),重點(diǎn)搜集、總結(jié)和描述法律術(shù)語部件,把法律術(shù)語分為有特殊標(biāo)記的法律術(shù)語和無特殊標(biāo)記的法律術(shù)語兩類,建立了應(yīng)用于法律術(shù)語自動(dòng)抽取研究的法律術(shù)語部件庫。這對于自動(dòng)發(fā)現(xiàn)和判斷法律術(shù)語具有重要的作用。
本研究使用由8589條詞條構(gòu)成的法律術(shù)語庫[1],分析所用語料來源于香港雙語法律信息系統(tǒng)(Bilingual Legal Information System,BLIS)[2],分詞工具使用漢語分詞系統(tǒng) (Institute of ComputingTechnology,Chinese Lexical Analysis System,ICTCLAS)。
課題組主要依據(jù)GB/T 19102—2003對術(shù)語部件的定義和描述,參照吳云芳在信息科學(xué)與技術(shù)領(lǐng)域選取術(shù)語部件的方法來選取法律術(shù)語部件。
2003年,GB/T 19102—2003《術(shù)語部件庫的信息描述規(guī)范》中對“術(shù)語部件”給出的定義是:術(shù)語部件是組成多詞術(shù)語的詞。特定領(lǐng)域中結(jié)合緊密、生成能力強(qiáng)、使用穩(wěn)定的語言片段也可以看作術(shù)語部件[3]。
吳云芳通過對30 000條信息科學(xué)與技術(shù)領(lǐng)域的術(shù)語進(jìn)行分析,給出術(shù)語部件描述的方法與策略,并由何燕將術(shù)語部件庫應(yīng)用到術(shù)語自動(dòng)抽取工作中[4]。吳云芳認(rèn)為單詞型術(shù)語本身就是術(shù)語部件,術(shù)語部件比術(shù)語有更強(qiáng)的術(shù)語生成能力[5]。她把單詞型科技術(shù)語和科技術(shù)語中出現(xiàn)較多的單字選為科技術(shù)語部件。參照她的方法,課題組把選擇法律術(shù)語部件的重心放在單詞型法律術(shù)語和一些法律術(shù)語中出現(xiàn)較多的單字上。
課題組要建立的法律術(shù)語部件庫中包括對每個(gè)術(shù)語部件的屬性的詳細(xì)描述,為實(shí)現(xiàn)法律術(shù)語自動(dòng)抽取研究服務(wù)。在術(shù)語提取中結(jié)合術(shù)語部件庫,可以提高術(shù)語識別的正確率與召回率[4]。
法律術(shù)語部件庫的建立主要包含兩部分內(nèi)容:法律術(shù)語部件的選取和法律術(shù)語部件屬性的描述。建設(shè)法律術(shù)語部件庫的基本流程如圖1所示。
1.法律術(shù)語部件的選取
法律術(shù)語部件的選取包括選取單詞型法律術(shù)語部件和選取單字術(shù)語部件兩方面工作。
(1)單詞型法律術(shù)語部件
對法律術(shù)語庫中的法律術(shù)語進(jìn)行自動(dòng)分詞標(biāo)注,選取單詞型法律術(shù)語,再通過人工標(biāo)注進(jìn)行篩選,最后共獲得459個(gè)單詞型法律術(shù)語部件。
(2)單字術(shù)語部件
圖1 術(shù)語部件庫建設(shè)的基本流程
首先對法律術(shù)語庫進(jìn)行字頻統(tǒng)計(jì),總共有1607個(gè)單字,然后通過人工標(biāo)注對獲得的所有單字進(jìn)行數(shù)字和標(biāo)點(diǎn)符號的過濾,最后剔除與單詞型法律術(shù)語部件共同的單字(也有部分單詞型法律術(shù)語是單字)后得到120個(gè)單字部件。
2.法律術(shù)語部件的描述
吳云芳認(rèn)為:部件描述是從內(nèi)部結(jié)構(gòu)出發(fā)來為術(shù)語的自動(dòng)發(fā)現(xiàn)提供知識[5]。為了更好地表示和掌握這些具有領(lǐng)域特異性的術(shù)語部件,同時(shí)從實(shí)現(xiàn)法律術(shù)語自動(dòng)抽取服務(wù)這個(gè)目標(biāo)出發(fā),課題組選擇了兩個(gè)不同的屬性進(jìn)行描述。
(1)對生成能力的描述
課題組將法律術(shù)語部件在法律術(shù)語庫中出現(xiàn)頻次的多少,以及該術(shù)語部件對于包含它的詞/詞組中所起的作用視為該法律術(shù)語部件的生成能力。課題組重點(diǎn)關(guān)注法律術(shù)語部件的術(shù)語生成能力,統(tǒng)計(jì)每個(gè)術(shù)語部件構(gòu)成的法律術(shù)語個(gè)數(shù)的統(tǒng)計(jì)。例如:在法律術(shù)語庫中包含“條例”部件的法律術(shù)語有1342個(gè),占整個(gè)法律術(shù)語庫的15.6%,那么15.6%即為部件“條例”的生成能力。
所有的法律術(shù)語部件都有生成能力,但是能力的強(qiáng)弱不同,有些部件生成能力較強(qiáng),如“罪”,很多新生術(shù)語會(huì)包含該部件;有些部件生成能力較弱,如“服刑”,很少有法律術(shù)語包含該部件。不管生成能力強(qiáng)弱,法律術(shù)語部件對于包含它們的詞/詞組被判斷為法律術(shù)語都起到關(guān)鍵的作用。
(2)對貢獻(xiàn)度的描述
課題組首次提出對法律術(shù)語部件貢獻(xiàn)度的描述。所謂貢獻(xiàn)度,即法律術(shù)語部件對包含它的詞/詞組被判斷為法律術(shù)語起到的作用或貢獻(xiàn)程度。例如:部件“條例”在法律術(shù)語庫中出現(xiàn)1342次,而包含部件“條例”的這1342個(gè)條目全都成為了法律術(shù)語,因此部件“條例”的貢獻(xiàn)度是100%的。
大部分單詞型法律術(shù)語基本上都具有100%的貢獻(xiàn)度,而大部分單字部件不具有100%貢獻(xiàn)度。這也說明了有些部件直接決定一個(gè)條目是否為術(shù)語,而有些部件還需要其他信息(搭配)的輔助才可以決定一個(gè)條目是否為術(shù)語。比如部件“則”單獨(dú)出現(xiàn)時(shí)無法提供完整的法律相關(guān)概念和信息,但當(dāng)有其他信息輔助時(shí),有可能將該條目判斷為法律,“原則”和“否則”均不是法律術(shù)語;“通則”和“規(guī)則”是法律術(shù)語,也具有法律概念。在法律術(shù)語庫中共出現(xiàn)了6個(gè)帶部件“則”的搭配:附則、規(guī)則、守則、原則、準(zhǔn)則和通則,6個(gè)搭配中除了“原則”外都具備法律概念,因此部件“則”的貢獻(xiàn)度為83.3%(5/6)。
因此,在描述法律術(shù)語部件時(shí),需要對不能有100%貢獻(xiàn)度的部件做特殊處理。以部件“法”為例,課題組以法律術(shù)語庫中的條目為考察對象,提取出所有包含部件“法”的搭配,然后選擇對法律術(shù)語判斷起到排除作用的搭配,也即包含部件“法”但是沒有法律概念的條目,例如“辦法”“語法”“分類法”等,把這些條目列出來,用于今后排除非法律術(shù)語操作的參考。
建立的部分法律術(shù)語部件庫如圖2所示:
圖2 法律術(shù)語部件庫
該法律術(shù)語部件庫現(xiàn)階段包含579條法律術(shù)語部件,對法律術(shù)語庫中全部8589條法律術(shù)語的覆蓋率為96.7%。其中單詞型法律術(shù)語部件的覆蓋率為81%;單字法律術(shù)語部件的覆蓋率為88.24%。
法律術(shù)語部件庫的建設(shè)是一個(gè)不斷完善的過程,需要時(shí)時(shí)更新部件和屬性描述。隨著法律術(shù)語部件庫的完善,可以更多地發(fā)現(xiàn)法律術(shù)語判斷中的問題,并為法律術(shù)語自動(dòng)抽取工作服務(wù)。
[1]那日松,劉青,朱磊.法律術(shù)語特征研究[J].中國科技術(shù)語,2011(4):22-26.
[2]揭春雨,劉曉月,冼景炬,等.從網(wǎng)絡(luò)獲取香港法律雙語語料[C]//全國第八屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2005:193-199.
[3]中國標(biāo)準(zhǔn)研究中心.GB/T 19102—2003術(shù)語部件庫的信息描述規(guī)范[S].北京:全國術(shù)語標(biāo)準(zhǔn)化技術(shù)委員會(huì),2003:1-4.
[4]何燕,穗志方,段慧明,等.一種結(jié)合術(shù)語部件庫的術(shù)語提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006(23):4-7.
[5]吳云芳,穗志方,邱利坤,等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語部件描述[J].語言文字應(yīng)用,2003(4):34-39.
[6]馮志偉.現(xiàn)代術(shù)語學(xué)引論[M].北京:語文出版社,1997:1-18.
[7]封鵬程.現(xiàn)代漢語法律語料庫的建立及其詞匯計(jì)量研究[D].南京:南京師范大學(xué),2005.
Building the Legal Term Component Database for Automatic Term Extraction
Narisong LIU Qing CHEN Yongzhao ZHU Lei
Based on the purpose of automatic extraction and characteristics of term components in the legal field,we constructed a legal term component database which is composed of 579 components.Also,based on statistical analyses of these term components,we described the“generation capacity”and“contribution”of each term component.
legal term,automatic term extraction,term component
N04;D9
A
1673-8578(2011)06-0013-03
2011-10-09
國家自然科學(xué)基金專項(xiàng)基金項(xiàng)目“基于語料庫的術(shù)語自動(dòng)處理關(guān)鍵技術(shù)研究”(J1025001)
那日松(1980—),女,內(nèi)蒙古興安盟人,博士,杭州師范大學(xué)應(yīng)用語言學(xué)研究中心助理研究員,研究方向?yàn)橛?jì)算語言學(xué)、術(shù)語學(xué)等。通信方式:narsujin@163.com。