• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      法律術(shù)語(yǔ)特征研究

      2011-01-04 01:41:08那日松
      中國(guó)科技術(shù)語(yǔ) 2011年4期
      關(guān)鍵詞:詞法詞組術(shù)語(yǔ)

      那日松 劉 青 朱 磊

      (杭州師范大學(xué),浙江杭州 310036)

      法律術(shù)語(yǔ)特征研究

      那日松 劉 青 朱 磊

      (杭州師范大學(xué),浙江杭州 310036)

      闡述了以三種方式快速獲取候選法律術(shù)語(yǔ)集,并對(duì)該候選法律術(shù)語(yǔ)集進(jìn)行人工術(shù)語(yǔ)標(biāo)注來(lái)構(gòu)造法律術(shù)語(yǔ)庫(kù)的過(guò)程。再通過(guò)研究法律術(shù)語(yǔ)庫(kù),最終獲得了法律術(shù)語(yǔ)的長(zhǎng)度和一系列構(gòu)詞法特征。

      法律術(shù)語(yǔ),術(shù)語(yǔ)長(zhǎng)度,術(shù)語(yǔ)詞法特征

      前言

      術(shù)語(yǔ)抽取研究不是脫離語(yǔ)言而獨(dú)立進(jìn)行的,在法律術(shù)語(yǔ)抽取研究中需要語(yǔ)言學(xué)知識(shí),可以借助構(gòu)造法律術(shù)語(yǔ)知識(shí)庫(kù)來(lái)輔助術(shù)語(yǔ)抽取[1]。通過(guò)快速建立法律術(shù)語(yǔ)庫(kù)來(lái)挖掘法律術(shù)語(yǔ)的長(zhǎng)度和一系列法律術(shù)語(yǔ)結(jié)構(gòu)詞法特征。

      該研究的語(yǔ)料來(lái)源于香港雙語(yǔ)法律信息系統(tǒng)(Bilingual Legal Information System,BLIS),選擇其中50 500個(gè)文件作為實(shí)驗(yàn)語(yǔ)料。

      一 快速構(gòu)造法律術(shù)語(yǔ)庫(kù)

      研究中以三種方式獲取候選法律術(shù)語(yǔ)集,通過(guò)對(duì)候選法律術(shù)語(yǔ)集進(jìn)行標(biāo)注來(lái)構(gòu)造法律術(shù)語(yǔ)庫(kù),共獲得8828個(gè)法律術(shù)語(yǔ)。

      1.法律術(shù)語(yǔ)標(biāo)注標(biāo)準(zhǔn)

      法律術(shù)語(yǔ)標(biāo)注的主要標(biāo)準(zhǔn)是判斷詞或詞組是否具有明確的科學(xué)概念,如果概念不清楚,則不作為術(shù)語(yǔ)。

      法律術(shù)語(yǔ)標(biāo)注過(guò)程的判斷依據(jù)有:

      (1)以法律術(shù)語(yǔ)部件作為過(guò)濾[2],比如:條、法、訟、例、約、罪、押、案、律、判、罰、訴、刑、審、證。

      (2)過(guò)濾最不可能的詞尾,比如:的、在等等(雖然也存在特例,但是大部分不能作為術(shù)語(yǔ)的詞尾)。

      (3)參照“百度知道”的解釋及其與法律領(lǐng)域的相關(guān)性。

      2.候選法律術(shù)語(yǔ)集

      (1)通過(guò)標(biāo)注《漢英法律詞匯》的詞條來(lái)獲取法律術(shù)語(yǔ)

      本研究選擇BLIS提供的《漢英法律詞匯》作為研究對(duì)象,該書(shū)由香港律政司法律草擬科于1999年12月出版,當(dāng)中收載約11 500個(gè)詞條,主要取材于1998年9月出版的《英漢法律詞匯》(第三版)。

      經(jīng)過(guò)再次整理,共獲得8129個(gè)詞條,在不考慮詞性和不同含義的情況下,去掉重復(fù)項(xiàng)后得到7201個(gè)詞形。

      通過(guò)對(duì)該7201條法律詞匯進(jìn)行法律術(shù)語(yǔ)標(biāo)注后,共獲得4800個(gè)法律術(shù)語(yǔ)。

      (2)通過(guò)提取和標(biāo)注法律條文的標(biāo)題來(lái)獲取法律術(shù)語(yǔ)

      項(xiàng)目組對(duì)五萬(wàn)多個(gè)文件進(jìn)行標(biāo)題抽取后,共獲得2151個(gè)標(biāo)題,再經(jīng)過(guò)標(biāo)注后有2083個(gè)為法律術(shù)語(yǔ)。

      (3)通過(guò)提取和標(biāo)注詞/詞組單元來(lái)獲取法律術(shù)語(yǔ)

      為了快速建立法律術(shù)語(yǔ)庫(kù),節(jié)省在語(yǔ)料中抽取符合條件的詞/詞組的時(shí)間,項(xiàng)目組限定提取目標(biāo)為加書(shū)名號(hào)和雙引號(hào)的字符串。通過(guò)該步驟,得到如下結(jié)果:加書(shū)名號(hào)的字符串共2952個(gè),其中篩選出法律術(shù)語(yǔ)2803個(gè);加雙引號(hào)的字符串共12 949個(gè),其中篩選出法律術(shù)語(yǔ)1821個(gè)。

      二 法律術(shù)語(yǔ)的長(zhǎng)度信息

      現(xiàn)有的統(tǒng)計(jì)[3-5]顯示,科技領(lǐng)域的術(shù)語(yǔ)70%以上主要是由2~6個(gè)字組成。法律領(lǐng)域術(shù)語(yǔ)又是什么情況呢,項(xiàng)目組將通過(guò)以下步驟分析給出。

      首先,對(duì)加有標(biāo)號(hào)的術(shù)語(yǔ)詞條進(jìn)行如下處理:如果標(biāo)號(hào)括住整個(gè)詞條,則去掉標(biāo)號(hào);如果標(biāo)號(hào)只括住部分詞條,則保留標(biāo)號(hào)。舉例如表1所示:

      表1 對(duì)加有標(biāo)號(hào)的術(shù)語(yǔ)詞條的處理

      1.字長(zhǎng)

      字長(zhǎng)信息統(tǒng)計(jì)如圖1所示:

      圖1 法律術(shù)語(yǔ)字長(zhǎng)統(tǒng)計(jì)

      統(tǒng)計(jì)發(fā)現(xiàn)法律術(shù)語(yǔ)字長(zhǎng)范圍在1~53個(gè)之間,其中大部分法律術(shù)語(yǔ)字長(zhǎng)范圍集中在2~20個(gè)之間,并且2~20字長(zhǎng)度的法律術(shù)語(yǔ)都出現(xiàn)超過(guò)100次,總數(shù)占整個(gè)法律術(shù)語(yǔ)庫(kù)的95.6%。其中4字長(zhǎng)的法律術(shù)語(yǔ)數(shù)量最多,為1843個(gè),占整個(gè)法律術(shù)語(yǔ)庫(kù)的21%。此外,5字術(shù)語(yǔ)和6字術(shù)語(yǔ)也較多,4字術(shù)語(yǔ)、5字術(shù)語(yǔ)和6字術(shù)語(yǔ)三者共占整個(gè)法律術(shù)語(yǔ)庫(kù)的41.9%。該結(jié)論與周浪[6]和邢紅兵[7]關(guān)于科技術(shù)語(yǔ)字長(zhǎng)信息的結(jié)論很類似,共同點(diǎn)是4字術(shù)語(yǔ)數(shù)量最多,不同點(diǎn)是法律術(shù)語(yǔ)在字長(zhǎng)的分布上不只是集中在2~6字之間,還擴(kuò)展到2~20字之間,這是由法律術(shù)語(yǔ)的特殊性所決定的。

      2.詞長(zhǎng)

      項(xiàng)目組使用了漢語(yǔ)分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)對(duì)法律術(shù)語(yǔ)庫(kù)進(jìn)行分詞后,獲得的詞長(zhǎng)信息如圖2所示:

      統(tǒng)計(jì)發(fā)現(xiàn)法律術(shù)語(yǔ)詞長(zhǎng)分布在1~28個(gè)之間,其中單詞型術(shù)語(yǔ)所占比例為5.5%。由2~4個(gè)單詞組成的術(shù)語(yǔ)最多,共占整個(gè)法律術(shù)語(yǔ)庫(kù)的55.3%。由1~12個(gè)單詞組成的術(shù)語(yǔ)占整個(gè)法律術(shù)語(yǔ)庫(kù)的96.2%。該結(jié)論與張蓉[8]、李蕓[9]、周浪[6]分析的科技領(lǐng)域術(shù)語(yǔ)詞長(zhǎng)信息統(tǒng)計(jì)結(jié)果很接近,共同點(diǎn)是由2~4個(gè)單詞組成的術(shù)語(yǔ)最多,不同點(diǎn)是法律術(shù)語(yǔ)的詞長(zhǎng)分布較寬,分布在1~12個(gè)詞之間,而科技術(shù)語(yǔ)一般詞長(zhǎng)分布在2~6個(gè)詞之間。對(duì)于法律術(shù)語(yǔ)庫(kù)中術(shù)語(yǔ)詞長(zhǎng)分布的舉例見(jiàn)表2。

      圖2 法律術(shù)語(yǔ)詞長(zhǎng)統(tǒng)計(jì)

      表2 法律術(shù)語(yǔ)庫(kù)中術(shù)語(yǔ)詞長(zhǎng)分布特征舉例①

      法律術(shù)語(yǔ)字長(zhǎng)和詞長(zhǎng)的這些分析結(jié)果與科技領(lǐng)域術(shù)語(yǔ)各項(xiàng)已有的研究成果相近。

      總結(jié)如下:

      (1)法律術(shù)語(yǔ)也是以詞組型術(shù)語(yǔ)為主;

      (2)2~4個(gè)單詞組成的法律術(shù)語(yǔ)數(shù)目最多;

      (3)由于法律術(shù)語(yǔ)在標(biāo)點(diǎn)符號(hào)使用上的頻繁等特點(diǎn)導(dǎo)致法律術(shù)語(yǔ)的單詞構(gòu)成寬度較大,一般為2~10個(gè)單詞。

      三 法律術(shù)語(yǔ)結(jié)構(gòu)的詞法規(guī)則

      根據(jù)上面總結(jié)出的法律術(shù)語(yǔ)詞長(zhǎng)分布特征,我們把法律術(shù)語(yǔ)分為三類:(1)單詞型法律術(shù)語(yǔ);(2)詞長(zhǎng)為2~4的詞組型法律術(shù)語(yǔ);(3)詞長(zhǎng)大于4的詞組型法律術(shù)語(yǔ)。如圖3所示:

      圖3 三類不同長(zhǎng)度法律術(shù)語(yǔ)的出現(xiàn)頻率

      傳統(tǒng)的術(shù)語(yǔ)研究將名詞短語(yǔ)視為術(shù)語(yǔ)的唯一候選,雖然這種限制保證了一定的正確率,但是犧牲了召回率。筆者通過(guò)對(duì)法律術(shù)語(yǔ)庫(kù)進(jìn)行分析標(biāo)注后發(fā)現(xiàn),法律術(shù)語(yǔ)也可以是其他類型的詞/詞組,應(yīng)該以較寬松的語(yǔ)法規(guī)則從語(yǔ)料庫(kù)中抽取術(shù)語(yǔ)候選項(xiàng)。

      1.單詞型法律術(shù)語(yǔ)的詞性分布特征

      表3 單詞型法律術(shù)語(yǔ)的詞性分布特征

      從表3的分布特征來(lái)看,單詞型法律術(shù)語(yǔ)的主要詞性是動(dòng)詞和名詞,其他詞性所占比率較少。這一結(jié)果與科技領(lǐng)域單詞型術(shù)語(yǔ)有差異,科技領(lǐng)域術(shù)語(yǔ)主要是以名詞性術(shù)語(yǔ)為主。

      2.2~4詞法律術(shù)語(yǔ)的詞法模式

      (1)2詞術(shù)語(yǔ)的詞法模式

      法律術(shù)語(yǔ)庫(kù)中有1995條2詞法律術(shù)語(yǔ),共有105種詞法模式,其中出現(xiàn)20次以上的模式有16種,這16種詞法模式共涵蓋了1753條2詞術(shù)語(yǔ),總體覆蓋率是87.9%,其中前5種詞法模式如表4。

      表4 2詞法律術(shù)語(yǔ)中的前5種詞法模式

      (2)3詞術(shù)語(yǔ)的詞法模式

      法律術(shù)語(yǔ)庫(kù)中有1791條3詞法律術(shù)語(yǔ),共有363種詞法模式,其中出現(xiàn)20次以上的模式有18種,這18種詞法模式共涵蓋了914條3詞術(shù)語(yǔ),總體覆蓋率是51%,其中出現(xiàn)次數(shù)超過(guò)100次的4種詞法模式如表5。

      表5 3詞法律術(shù)語(yǔ)中的前4種詞法模式

      (3)4詞術(shù)語(yǔ)的詞法模式

      法律術(shù)語(yǔ)庫(kù)中有1097條4詞法律術(shù)語(yǔ),共有565種詞法模式,其中出現(xiàn)20次以上的模式有5種,這5種詞法模式共涵蓋了116條4詞術(shù)語(yǔ),總體覆蓋率是10.6%,其中出現(xiàn)次數(shù)超過(guò)20的5種詞法模式如表6。

      表6 4詞法律術(shù)語(yǔ)中的前5種詞法模式

      (4)4詞以上法律術(shù)語(yǔ)的詞法模式

      法律術(shù)語(yǔ)庫(kù)中有3458條4詞以上法律術(shù)語(yǔ),共有2694種詞法模式,其中出現(xiàn)20次以上的模式有4種,這4種詞法模式共涵蓋了134條4詞以上術(shù)語(yǔ),總體覆蓋率是3.9%,其中出現(xiàn)次數(shù)超過(guò)20的4種詞法模式如表7。

      表7 4詞以上法律術(shù)語(yǔ)中的前4種詞法模式

      從法律術(shù)語(yǔ)詞法特征的分析結(jié)果來(lái)看,詞法種類越來(lái)越多,單詞型和詞數(shù)較少的法律術(shù)語(yǔ)詞法特征還有典型性,詞數(shù)較多的法律術(shù)語(yǔ)詞法特征太過(guò)分散,法律術(shù)語(yǔ)庫(kù)規(guī)模和收集手段的片面性導(dǎo)致不可能涵蓋所有單詞/詞組型法律術(shù)語(yǔ)的詞法特征,但是這些特征都與科技領(lǐng)域術(shù)語(yǔ)的詞法特征相近。

      根據(jù)以上統(tǒng)計(jì)數(shù)據(jù)總結(jié)出詞組型法律術(shù)語(yǔ)如下特點(diǎn):

      特點(diǎn)一:詞組型法律術(shù)語(yǔ)候選項(xiàng)中至少有一個(gè)詞屬于“n”“v”或“a”;

      特點(diǎn)二:63%的詞組型法律術(shù)語(yǔ)都包含法律術(shù)語(yǔ)部件,該法律術(shù)語(yǔ)部件是前面項(xiàng)目組標(biāo)注法律術(shù)語(yǔ)候選庫(kù)時(shí)使用的部件,只是簡(jiǎn)單的單字部件,如果項(xiàng)目組完善法律術(shù)語(yǔ)部件,詞組型法律術(shù)語(yǔ)包含法律部件的百分率會(huì)更高;

      特點(diǎn)三:2~4詞構(gòu)成的詞組型法律術(shù)語(yǔ)的詞法模式可以應(yīng)用于詞組型法律術(shù)語(yǔ)自動(dòng)抽取研究中,但是4詞以上的詞法模式還有待總結(jié)和分析。

      注釋

      ①所有表中使用的詞性標(biāo)注符號(hào)的具體含義為:v表示動(dòng)詞,n表示名詞,vn表示名動(dòng)詞,a表示形容詞,ng表示名語(yǔ)素,b表示區(qū)別詞,c表示連詞,ad表示副形詞,t表示時(shí)間詞,j表示簡(jiǎn)稱略語(yǔ),r表示代詞,u表示助詞,ag表示形語(yǔ)素,w表示標(biāo)點(diǎn)符號(hào),ns表示地名,k表示后接成分,f表示方位詞,l表示習(xí)用語(yǔ),i表示成語(yǔ),d表示副詞,q表示量詞。

      [1]Anne Condamines.Terminology:New needs,New Perspectives[J].Terminology,1995,2(2):218-238.

      [2]吳云芳,穗志方,邱利坤,等.信息科學(xué)與技術(shù)領(lǐng)域術(shù)語(yǔ)部件描述[J].語(yǔ)言文字應(yīng)用,2003(4):34-39.

      [3]馮志偉.現(xiàn)代術(shù)語(yǔ)學(xué)引論[M].北京:語(yǔ)文出版社,1997.

      [4]李蕓,王強(qiáng)軍.信息技術(shù)領(lǐng)域術(shù)語(yǔ)自動(dòng)提取研究[C]∥輝煌二十年——中國(guó)中文信息學(xué)會(huì)二十周年學(xué)術(shù)會(huì)議論文集,2001.

      [5]穗志芳.科學(xué)技術(shù)領(lǐng)域術(shù)語(yǔ)自動(dòng)識(shí)別策略[C]∥第二屆中日自然語(yǔ)言處理專家研討會(huì)論文集,2002.

      [6]周浪.中文術(shù)語(yǔ)抽取若干問(wèn)題研究[D].南京:南京理工大學(xué)博士研究生學(xué)位論文,2009.

      [7]邢紅兵.信息領(lǐng)域漢語(yǔ)術(shù)語(yǔ)的特征及其在語(yǔ)料中的分布規(guī)律[J].術(shù)語(yǔ)標(biāo)準(zhǔn)化與信息技術(shù),2000,(3).

      [8]張蓉.術(shù)語(yǔ)定義抽取、聚類與術(shù)語(yǔ)識(shí)別研究[D].北京:北京語(yǔ)言大學(xué)博士論文,2006.

      [9]李蕓.信息科學(xué)和信息技術(shù)術(shù)語(yǔ)概念體系研究[D].北京:北京語(yǔ)言大學(xué)博士論文,2003.

      Features of Legal Terms

      Narisong LIU Qing ZHU Lei

      This paper introduces three ways on quickly obtaining candidate set of legal terms,and also introduces the procedures of constructing the legal term glossary based on annotation work.We finally obtain the length of legal terms and a series of lexical features based on the research of legal term glossary.

      legal term,length of term,lexical features

      N04;D9

      A

      1673-8578(2011)04-0022-05

      2011-02-25

      國(guó)家自然科學(xué)基金專項(xiàng)基金項(xiàng)目“基于語(yǔ)料庫(kù)的術(shù)語(yǔ)自動(dòng)處理關(guān)鍵技術(shù)研究”(J1025001)

      那日松(1980—),女,內(nèi)蒙古興安盟人,蒙古族,博士,杭州師范大學(xué)應(yīng)用語(yǔ)言學(xué)研究中心助理研究員,研究方向:計(jì)算語(yǔ)言學(xué)、術(shù)語(yǔ)學(xué)。通信方式:narsujin@163.com。

      猜你喜歡
      詞法詞組術(shù)語(yǔ)
      詞法 名詞、代詞和冠詞
      應(yīng)用于詞法分析器的算法分析優(yōu)化
      談對(duì)外漢語(yǔ)“詞法詞”教學(xué)
      副詞和副詞詞組
      有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
      從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)
      2010年高考英語(yǔ)“相似”考題例析
      奧運(yùn)術(shù)語(yǔ)
      籃球術(shù)語(yǔ)及游泳術(shù)語(yǔ)
      托克托县| 宜兴市| 铁岭市| 资兴市| 芒康县| 通州区| 青阳县| 六枝特区| 泊头市| 买车| 门头沟区| 故城县| 沅江市| 苍溪县| 石狮市| 巴马| 墨脱县| 荔波县| 灵台县| 桦甸市| 三原县| 股票| 冷水江市| 余干县| 浮梁县| 莫力| 响水县| 黑河市| 屯昌县| 乌拉特后旗| 竹山县| 江安县| 大渡口区| 马关县| 镇远县| 长岛县| 徐州市| 克山县| 凤冈县| 临漳县| 合水县|