閆琪琪 張海軍
摘 要:領(lǐng)域術(shù)語特征研究是領(lǐng)域術(shù)語自動(dòng)抽取的基礎(chǔ)。研究抽取詞典詞條和領(lǐng)域高頻術(shù)語集構(gòu)建教育術(shù)語庫,使用中科院分詞軟件和統(tǒng)計(jì)方法對教育術(shù)語的特征進(jìn)行分析。分析結(jié)果表明教育術(shù)語字長為2-11,詞長為1-6詞,單詞術(shù)語占教育術(shù)語庫28%。對比教育、科技和法律的術(shù)語特征發(fā)現(xiàn)其具有顯著區(qū)別,對領(lǐng)域術(shù)語自動(dòng)抽取及信息處理相關(guān)研究具有重要理論意義。
關(guān)鍵詞:教育術(shù)語;術(shù)語自動(dòng)抽??;教育術(shù)語特征
中圖分類號:G434
術(shù)語自動(dòng)抽取是自然語言處理的基礎(chǔ)性研究。目前術(shù)語研究主要針對科技名詞術(shù)語展開,社會(huì)科學(xué)領(lǐng)域的術(shù)語研究并未得到重視,嚴(yán)重制約了領(lǐng)域術(shù)語規(guī)范化工作。除共性外,各學(xué)科領(lǐng)域術(shù)語又具有其各自的特征。不同領(lǐng)域術(shù)語特征研究將為各領(lǐng)域術(shù)語自動(dòng)抽取提供必須的語言學(xué)基礎(chǔ)。
領(lǐng)域術(shù)語特征研究對術(shù)語語言特征展開,語言特征指術(shù)語具有完整的語言含義和穩(wěn)定的組成結(jié)構(gòu)。目前面向術(shù)語特征的研究大都是術(shù)語的構(gòu)詞特征和長度特征。何燕[1]研究針對計(jì)算機(jī)領(lǐng)域術(shù)語語言特征構(gòu)成雙詞模板,有效的抽取領(lǐng)域術(shù)語;李嵩[2]對語言學(xué)領(lǐng)域單詞型和詞組型術(shù)語詞長和構(gòu)詞特征進(jìn)行系統(tǒng)分析,從語言學(xué)視角形成了語言學(xué)術(shù)語集;季培培[3]從領(lǐng)域術(shù)語外部關(guān)聯(lián)和內(nèi)部構(gòu)成,分別闡述術(shù)語的語言特征。
在構(gòu)建教育術(shù)語庫基礎(chǔ)上,借鑒科技術(shù)語特征研究的統(tǒng)計(jì)方法,對教育術(shù)語字長特征、詞長特征和構(gòu)詞特征進(jìn)行系統(tǒng)分析,比較教育、科技和法律領(lǐng)域術(shù)語特征,最終形成教育術(shù)語的語言規(guī)則。
1 教育領(lǐng)域術(shù)語特征分析
語料來源:一是1998年《教育大辭典》;二是2002-2013年《民族雙語教育》期刊2077篇。
1.1 構(gòu)建領(lǐng)域術(shù)語庫
針對兩類文本語料特征采用不同方法實(shí)現(xiàn)術(shù)語抽取。
詞典類文本,詞條有清晰的邊界特征。詞條邊界分別用標(biāo)簽
教育期刊,以題目和關(guān)鍵詞為語料,借助停用詞表和詞頻過濾候選術(shù)語,最終得到領(lǐng)域術(shù)語3395條?!督逃筠o典》最新修訂距今已16年,教育新詞匯不斷涌現(xiàn),合并新術(shù)語并剔除重復(fù)項(xiàng),確保術(shù)語庫術(shù)語的實(shí)時(shí)性。借助百度百科進(jìn)行校對,剔除模糊術(shù)語。校對中發(fā)現(xiàn)了大量人名、地名和機(jī)構(gòu)名等,考慮其蘊(yùn)含的領(lǐng)域內(nèi)涵,予以保留。最終術(shù)語庫共含術(shù)語22110條。
1.2 術(shù)語長度特征分析
一是術(shù)語含字長度,術(shù)語所含漢字字?jǐn)?shù);二是術(shù)語含詞長度,術(shù)語含字或詞的個(gè)數(shù)。
1.2.1 術(shù)語含字長度
以統(tǒng)計(jì)學(xué)方法為理論基礎(chǔ),建立領(lǐng)域術(shù)語特征統(tǒng)計(jì)平臺。教育術(shù)語字長分析結(jié)果如下:
教育術(shù)語字長為1-38,集中在2-11(大于1%),占術(shù)語庫97.31%。4字術(shù)語最多有6527條,占27.82%。此外,2字、3字和6字術(shù)語也較多,與4字術(shù)語共占68.40%。結(jié)果與周浪[4]等人的研究相符,但教育術(shù)語2-6字術(shù)語僅占78.46%,顯然無法涵蓋領(lǐng)域大部分術(shù)語。
1.2.2 術(shù)語含詞長度
術(shù)語預(yù)處理借助中科院分詞系統(tǒng),但缺乏領(lǐng)域詞典的現(xiàn)狀,使分詞結(jié)果存在漏分和誤分。為保證語料正確性,對分詞結(jié)果進(jìn)行人工校對。最終得到術(shù)語含詞長度結(jié)果(見圖1)。
教育術(shù)語詞長主要為1-20詞,1-6詞術(shù)語最多,占98.88%。單詞2詞和3詞術(shù)語分別為28.03%、37.83%和20.88%。研究結(jié)果與張榕等人科技術(shù)語研究基本一致。共同點(diǎn)是術(shù)語詞長集中在2-6詞,但教育術(shù)語中單詞術(shù)語含量更高。
總結(jié)教育術(shù)語長度特征有以下幾點(diǎn):
(1)術(shù)語字長為1-38字,2-17字術(shù)語占97.31%。
(2)術(shù)語詞長集中在1-6詞,最長達(dá)到20詞,術(shù)語含字長度與詞頻成反比。
(3)與科技術(shù)語類似,教育領(lǐng)域詞組型術(shù)語占主要地位。
1.3 教育領(lǐng)域術(shù)語的構(gòu)詞規(guī)則分析
術(shù)語可分為:單詞型術(shù)語和詞組型術(shù)語。根據(jù)詞頻分布詞組型術(shù)語可分為:2-4詞和4詞長以上術(shù)語。單詞術(shù)語占28.69%,2-4詞術(shù)語占63.41%,4詞以上術(shù)語占5.32%?,F(xiàn)有研究忽視低頻術(shù)語,確保抽取正確率,但犧牲了召回率。
1.3.1 單詞術(shù)語構(gòu)詞規(guī)則
單詞術(shù)語詞性以名詞為主,占77.86%。但教育單詞術(shù)語中含大量專業(yè)名詞、動(dòng)詞、成語、機(jī)構(gòu)名及人名等。這與以簡單名詞為主的科技單詞術(shù)語構(gòu)成存在差異。
1.3.2 詞組型術(shù)語構(gòu)詞規(guī)則
2詞術(shù)語共7804條,有74種構(gòu)詞規(guī)則。詞頻300次以上的構(gòu)詞規(guī)則有7種,覆蓋率達(dá)到82.65%。
3詞術(shù)語有4488條,構(gòu)詞規(guī)則299種,詞頻100次以上構(gòu)詞規(guī)則有10種,覆蓋率為54.75%。
4詞術(shù)語為1727條,4詞術(shù)語構(gòu)詞規(guī)則有439個(gè),詞頻超過40次的構(gòu)詞規(guī)則有7種,覆蓋率為30.40%。
4詞以上術(shù)語有1176條,構(gòu)詞規(guī)則有876種,頻率10次以上只有5種,均為5詞術(shù)語。
2 領(lǐng)域術(shù)語特征比較
科技領(lǐng)域[5]和法律領(lǐng)域術(shù)語特征[6]研究結(jié)果與教育領(lǐng)域術(shù)語特征研究比較后發(fā)現(xiàn),雖然各領(lǐng)域都基本滿足中文術(shù)語特征,但領(lǐng)域間存在顯著差異。
比較長度特征,共同點(diǎn)是術(shù)語長度特征均符合中文術(shù)語長度特征,但法律和教育術(shù)語在2-10字和2-6詞之上有擴(kuò)展。
分析構(gòu)詞特征,各領(lǐng)域單詞術(shù)語以名詞為主,但教育單詞術(shù)語存在大量習(xí)語和專用名詞。法律與教育領(lǐng)域詞組型術(shù)語類似,存在大量的形容詞,而科技領(lǐng)域存在習(xí)語和語素詞。
結(jié)合術(shù)語構(gòu)詞特征分析(1-6詞)教育領(lǐng)域術(shù)語有以下特征:
特征1:單詞型術(shù)語以名詞、動(dòng)詞占主要地位,其它詞性的較少。
特征2:詞組型術(shù)語構(gòu)成中以名詞為主,動(dòng)詞、數(shù)詞、量詞等詞出現(xiàn)頻率較高,副詞、區(qū)別詞、連詞、時(shí)間詞、助詞等也偶有出現(xiàn)。
特征3:術(shù)語詞性分析發(fā)現(xiàn)術(shù)語首部詞匯以名詞、地名、名動(dòng)詞、人名及區(qū)別詞為主,尾部詞匯主要有名詞、動(dòng)詞、名動(dòng)詞。區(qū)別詞、形容詞及機(jī)構(gòu)名也可做首詞,尾詞可用數(shù)詞、語素詞等。
3 結(jié)束語
借鑒科技術(shù)語特征分析方法對教育術(shù)語庫長度特征和構(gòu)詞特征進(jìn)行分析,并對科技、法律和教育領(lǐng)域術(shù)語特征進(jìn)行比較,最終得出教育領(lǐng)域術(shù)語的特征,并歸納出1-6詞領(lǐng)域術(shù)語語言特征,為術(shù)語自動(dòng)抽取奠定了理論基礎(chǔ),下一步擬結(jié)合術(shù)語語言特征提出一種混合策略方法提取教育領(lǐng)域術(shù)語。
參考文獻(xiàn):
[1]何燕.穗志方 等.一種結(jié)合術(shù)語部件庫的術(shù)語提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2006(33):4-7.
[2]李嵩.語言學(xué)文獻(xiàn)標(biāo)題的術(shù)語提取研究[D].濟(jì)南:山東大學(xué),2007.
[3]季培培,鄢小燕.面向領(lǐng)域中文文本信息處理的術(shù)語識別與抽取研究綜述[J].圖書情報(bào)工作,2010(16):124-129.
[4]周浪,張亮.基于詞頻分布變化統(tǒng)計(jì)的術(shù)語抽取方法[J].計(jì)算機(jī)科學(xué),2009(05):177-180.
[5]韓紅旗,安小米.C-value值和unithood指標(biāo)結(jié)合的中文科技術(shù)語抽取[J].圖書情報(bào)工作,2012(19):85-89.
[6]那日松,劉青.法律領(lǐng)域術(shù)語特征研究[J].中國科技術(shù)語,2011(04):22-26.
作者簡介:閆琪琪(1990-),女,新疆烏魯木齊人,碩士研究生,主要研究方向:自然語言處理;通信作者:張海軍(1973-),男,博士,副教授,主要研究方向?yàn)樽匀徽Z言處理,信息抽取技術(shù)。
作者單位:新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆烏魯木齊 830054
基金項(xiàng)目:國家自然科學(xué)基金項(xiàng)目(NO.61163045,61263044);新疆維吾爾自治區(qū)自然科學(xué)基金(NO.2012211A057);新疆師范大學(xué)重點(diǎn)學(xué)科招標(biāo)課題(NO.12XSXZ0601);新疆師范大學(xué)研究生創(chuàng)新金項(xiàng)目(NO.20131201)。