• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于文獻(xiàn)計(jì)量的中文科技新詞探討

      2018-03-01 07:19趙偉
      中國科技術(shù)語 2018年6期
      關(guān)鍵詞:文獻(xiàn)計(jì)量學(xué)大數(shù)據(jù)

      摘要:文章以中國知網(wǎng)的中文學(xué)術(shù)文獻(xiàn)數(shù)據(jù)庫為基礎(chǔ),利用詞頻統(tǒng)計(jì),結(jié)合時(shí)間參數(shù),對中文科技新詞做了探討。文章認(rèn)為,高被引論文的關(guān)鍵詞包含了專業(yè)領(lǐng)域的重要中文科技名詞。統(tǒng)計(jì)結(jié)果表明,大部分高被引論文為基金論文。由于基金論文在全部論文中所占比例較低,因此,不需要考慮全部新論文,只要對其中基金論文的關(guān)鍵詞做詞頻統(tǒng)計(jì),就有助于發(fā)現(xiàn)大部分重要中文科技新詞。這樣,既減少了工作量,也減少了盲目性。此項(xiàng)工作對科研工作者和術(shù)語工作者有一定幫助。

      關(guān)鍵詞:大數(shù)據(jù);文獻(xiàn)計(jì)量學(xué);基金論文;詞頻統(tǒng)計(jì);中文科技新詞

      中圖分類號:N04;H083;G353.1文獻(xiàn)標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2018.06.003

      Discussion on the Chinese Scientific Neologism Based on Bibliometrics//ZHAO Wei

      Abstract:This paper discusses the Chinese scientific neologisms based on the academic literature database of CNKI by use of the word frequency statistics considering time parameter. The author propose that important Chinese scientific terms are included in the keywords of highly cited papers, and our statistical results show that the most of highly cited papers are funded papers. So, most of important Chinese scientific neologisms can be found by term frequency statistics based on the keywords of funded papers. Considering the proportion of funded papers is relatively small, we think this method can reduce the workload and blindness.

      Keywords:big data; bibliometrics; funded paper; word frequency statistics; Chinese scientific neologism

      引言

      首先說明,本文所指的科技新詞,是指在所考察時(shí)段才出現(xiàn),而在該時(shí)段之前沒有出現(xiàn)過的科技名詞??萍夹略~發(fā)現(xiàn)越早,越可以及早規(guī)范定名,就可以盡量避免因定名過晚,多名并存導(dǎo)致的混亂。

      從中國知網(wǎng)(CNKI)來看,關(guān)于這方面的文獻(xiàn),主要有3篇:才磊的《科技新詞工作初探》[1],張暉的《科技新詞工作實(shí)踐探索》[2]和余恒、崔辰州、張暉的《天文學(xué)英語新詞自動提取系統(tǒng)》[3]?!犊萍夹略~工作初探》主要就科技新詞的概念、科技新詞的界定、科技新詞的來源及其構(gòu)成著手,探討了如何開展科技新詞的命名及審定工作,但未討論具體如何操作?!犊萍夹略~工作實(shí)踐探索》在操作層面做了探討,提出自動抽取與專家推薦相結(jié)合的辦法,但實(shí)際效果與期望有一定差距,未能持續(xù)開展工作。在中文名出現(xiàn)之前就及早發(fā)現(xiàn)英文科技新詞并為之確定中文名是最理想的。因此,《天文學(xué)英語新詞自動提取系統(tǒng)》就提出了一套全新的天文學(xué)英語新詞自動提取系統(tǒng)。該系統(tǒng)綜合使用腳本過濾、術(shù)語識別、正則表達(dá)匹配等多種方法,能夠自動追蹤Ar Xiv論文數(shù)據(jù)庫的更新,分析天文學(xué)論文的內(nèi)容,生成推薦術(shù)語列表。但一個(gè)問題是Ar Xiv論文數(shù)據(jù)庫雖然可以免費(fèi)獲取,但覆蓋的學(xué)科及論文數(shù)量都太少,大部分學(xué)科都缺乏可免費(fèi)獲取的系統(tǒng)、全面的論文資源,因此作用有限;另一個(gè)問題是該系統(tǒng)雖然按照詞頻統(tǒng)計(jì)生成了新詞列表,但并不是每個(gè)科技新詞都值得為之定名——很多科技新詞沒什么價(jià)值,往往過段時(shí)間就會被淘汰或很少使用。所以,如果對每個(gè)科技新詞都要關(guān)注,都要定名,就會做很多無用功。對科技新詞而言,更重要的是確定其重要性,只有重要的科技新詞才需要及早定名。

      術(shù)語學(xué)工作者或不熟悉某專業(yè)領(lǐng)域的科研工作者,雖然對相關(guān)專業(yè)也有一定了解,但畢竟不了解該領(lǐng)域發(fā)展的前沿,所以能首先認(rèn)識到一個(gè)科技新詞(包括中文或英文新詞)重要性的,更多的可能還是一線專家。一個(gè)科技新詞的定名,需由相關(guān)領(lǐng)域的眾多專家經(jīng)過一定時(shí)間的討論,按照一定的程序才能審定公布。而了解一個(gè)科技新詞的重要性,并在該領(lǐng)域從事科研工作的專家,出于學(xué)術(shù)競爭及創(chuàng)新性的考慮,往往會盡快使用該詞發(fā)表論文,而不會等到許多專家都知道,再經(jīng)過較長時(shí)間討論并給出規(guī)范名稱再使用該詞。他使用該科技新詞時(shí),要么自己為該詞命名,要么沿用別人用過的名稱。所以,大多數(shù)科技新詞,在規(guī)范的中文名稱審定公布之前,就已經(jīng)有其他中文名稱存在了。因此,要想由術(shù)語學(xué)工作者、名詞審定工作者,在其他人命名之前就首先為一個(gè)重要的科技新詞確定中文名,是一項(xiàng)比較困難的工作。更可行、更容易的是及早發(fā)現(xiàn)一個(gè)重要的已有中文名的科技新詞。

      鑒于英文科技期刊的國際影響力,目前大家對英文科技新詞及其中文譯名都比較重視。但實(shí)際上,除了英文科技新詞之外,探討原創(chuàng)的中文科技新詞也很重要:首先,中國已成為具有重要影響的科技大國,有很多重要科技成果是首先用中文發(fā)表的,因此,中文科技論文里有很多原創(chuàng)的重要的科技新詞。其次,在世界歷史的長河中,中國曾經(jīng)在很長一段時(shí)間里遙遙領(lǐng)先西方,目前中國正處于民族偉大復(fù)興的征途中。許多有識之士認(rèn)為,按照目前的發(fā)展趨勢,中國將來有望再度領(lǐng)先世界。中國的科技、文化、中文也將有望像現(xiàn)在的美國的科技、文化和英文一樣,成為世界的主流,越來越多的重要的科技新詞也將首先在中文科技論文里出現(xiàn)。因此,不管是立足現(xiàn)實(shí),還是面向長遠(yuǎn),探討中文科技新詞都具有重要意義。所以,筆者在此主要探討及早發(fā)現(xiàn)重要中文科技新詞的問題。

      關(guān)于發(fā)現(xiàn)中文科技新詞,要考慮兩個(gè)問題,一是來源,二是如何篩選。

      關(guān)于來源,筆者認(rèn)為,科技名詞畢竟屬于專業(yè)領(lǐng)域,要從專業(yè)文獻(xiàn)數(shù)據(jù)庫中篩選,否則選用良莠不齊的非專業(yè)文獻(xiàn),從數(shù)量上求多求全,會做很多無用功??紤]到科技新詞反映了科技發(fā)展動態(tài),筆者以中國知網(wǎng)的期刊論文數(shù)據(jù)庫為數(shù)據(jù)源,選擇論文的關(guān)鍵詞篩選科技新詞。選擇論文關(guān)鍵詞的原因在于方便中文分詞。對選擇論文的關(guān)鍵詞篩選科技新詞,有人提出異議,認(rèn)為在實(shí)踐中存在科技新詞可能首先不在論文的關(guān)鍵詞中出現(xiàn),而在正文中出現(xiàn)的情況。但筆者認(rèn)為,一個(gè)重要的科技新詞,不可能在該領(lǐng)域所有時(shí)段、所有論文的關(guān)鍵詞中都不出現(xiàn),它總會在某些時(shí)段、某些論文的關(guān)鍵詞中出現(xiàn),否則該詞就無足輕重。因此,即使在出現(xiàn)該新詞的時(shí)段的論文的關(guān)鍵詞中沒有發(fā)現(xiàn)該詞——這意味著該詞在該時(shí)段雖然是新詞,但并未得到大家關(guān)注;也能在其后的某些時(shí)段、某些論文的關(guān)鍵詞中發(fā)現(xiàn)該詞——這意味著該詞的重要性在這些時(shí)段才逐漸得到了大家的認(rèn)可,該詞也成為這些時(shí)段的重要科技名詞。所以對關(guān)鍵詞做詞頻統(tǒng)計(jì),在原則上可以發(fā)現(xiàn)所有重要的科技新詞。

      關(guān)于篩選方式,利用大數(shù)據(jù)做詞頻統(tǒng)計(jì)是發(fā)展方向,但需要改進(jìn)。實(shí)際上,現(xiàn)代科技發(fā)展越來越快,各學(xué)科越來越趨向縱深與融合,專家精通的領(lǐng)域也越來越狹窄,很難對所在領(lǐng)域的最新進(jìn)展有全面系統(tǒng)的了解,所以僅依靠少數(shù)專家提供科技名詞的傳統(tǒng)模式已經(jīng)難以適應(yīng)現(xiàn)代科技快速發(fā)展的需求,需與時(shí)俱進(jìn),探索新的模式。利用大數(shù)據(jù)統(tǒng)計(jì)選詞就可以從宏觀量化上彌補(bǔ)這個(gè)不足。改進(jìn)的思路是建立一個(gè)可盡早判斷科技名詞是否重要的大概原則,以便盡量縮小篩選范圍,當(dāng)然還要保證是新詞,不是以前出現(xiàn)過的舊詞。

      一重要名詞與重要論文

      科技新詞的定名不能等太久,否則其使用就會越來越混亂。而新詞剛出現(xiàn)的時(shí)候,其所代表的概念的內(nèi)涵和外延都不太穩(wěn)定,與所在領(lǐng)域的其他科技名詞的關(guān)系也不太清晰,因此,即使該領(lǐng)域?qū)<乙残枰纫欢螘r(shí)間才能發(fā)現(xiàn)其是否重要,不可能一蹴而就。這就是一對矛盾。這里所說的判斷科技新詞重要性的原則,不是從科技新詞的科學(xué)意義上來判斷的,而是從術(shù)語學(xué)的角度,為了減少工作量,縮小篩選范圍而發(fā)現(xiàn)的形式特征。但這些形式特征足以保證大多數(shù)具有重要科學(xué)意義的科技新詞,在設(shè)定的較小的范圍內(nèi),在其出現(xiàn)的早期就被發(fā)現(xiàn),因而可以盡量減小這個(gè)矛盾。

      對術(shù)語學(xué)工作者或不熟悉某領(lǐng)域的科研工作者來說,從一個(gè)科技名詞的名稱上來判斷該詞是否重要并不容易。但如果有很多論文和不同的作者研究、使用的名詞,即高頻詞應(yīng)該很重要。顯然,這種判斷對舊詞來說是成立的。但對新論文、新名詞來說,這樣判斷就行不通了,因?yàn)檠芯?、使用新詞的論文和作者都很少,該詞詞頻不可能很高。所以,不能從詞頻角度來判斷新詞是否重要。

      另一方面,如果一篇重要論文把該詞作為關(guān)鍵詞,就能判斷出這個(gè)科技名詞可能很重要,即重要論文的關(guān)鍵詞就包含重要名詞。這就把判斷科技名詞重要性的問題轉(zhuǎn)化為判斷論文重要性的問題。對舊論文舊名詞來說,判斷其重要性還是很容易的:一篇論文是否重要,一般來說,目前的判斷標(biāo)準(zhǔn)還是以被引頻次為主,即高被引論文就是重要論文。高被引論文的關(guān)鍵詞就包含重要科技名詞。所以,可以用高被引論文關(guān)鍵詞詞頻統(tǒng)計(jì)的方法來發(fā)現(xiàn)重要名詞。但對新論文新名詞來說,從論文被引頻次判斷就行不通了。因?yàn)樾抡撐膭偝霈F(xiàn)不久,人們不能立刻判斷出其是否重要,還需要有一過程,因而被引頻次可能不高。所以,對于新論文新名詞,就需要尋找其他特征。如果找到了與高被引論文有關(guān)的其他特征,就可以根據(jù)這些特征預(yù)判新論文、科技新詞的重要性。

      二與重要論文有關(guān)的特征

      中國知網(wǎng)的檢索條件有:支持基金、來源類別、來源期刊3個(gè)選項(xiàng),另外檢索結(jié)果的分類瀏覽還有研究層次,這幾項(xiàng)與論文的重要性有關(guān),需要仔細(xì)分析。

      1.基金論文

      一篇論文是作者一個(gè)研究項(xiàng)目的成果,是否重要是從結(jié)果來判斷的,但這個(gè)研究項(xiàng)目還是一個(gè)過程,我們還可以從整個(gè)研究過程來看??梢哉J(rèn)為,一篇重要的論文來自于一個(gè)重要的研究項(xiàng)目。而一個(gè)重要的研究項(xiàng)目在源頭上一般是需要有資金資助的,而有資金資助的研究成果當(dāng)然就是基金論文了。所以,是否有基金資助有可能作為論文重要性預(yù)判的一個(gè)重要依據(jù),基金論文很可能會成為重要論文,或者說大部分基金論文比非基金論文重要。

      由此可以想到:基金論文的被引頻次一般比非基金論文的被引頻次要高。實(shí)際上,已經(jīng)有多篇文獻(xiàn)發(fā)現(xiàn)了這個(gè)規(guī)律,如董建軍通過對中國知網(wǎng)中國學(xué)術(shù)文獻(xiàn)出版總庫中收錄的各類基金論文的文獻(xiàn)量和篇均被引頻次的研究,發(fā)現(xiàn)基金論文從整體上來看能夠獲得比一般論文較高的被引用[4];戚爾鵬,葉鷹用Web of Science數(shù)據(jù)庫收錄的2010—2012年基礎(chǔ)學(xué)科論文數(shù)據(jù)進(jìn)行實(shí)證研究,結(jié)果揭示除邏輯學(xué)外所有基礎(chǔ)學(xué)科的基金資助引用優(yōu)勢為正,表明基金論文的被引頻次和影響力普遍高于非基金論文。討論分析了基金論文獲得較高引用的原因,揭示基金論文更易獲得引用是因其具有相對較高的品質(zhì)[5]。

      以上是從文獻(xiàn)的質(zhì)量來比較,從數(shù)量來看,又是如何呢?即高被引論文中的基金論文能占多大比例呢?關(guān)于這方面的統(tǒng)計(jì)數(shù)據(jù),目前還沒有查到相關(guān)文獻(xiàn)。為此,筆者分別以數(shù)學(xué)、物理學(xué)、化學(xué)、力學(xué)和生物學(xué)為文獻(xiàn)檢索目錄,檢索了中國知網(wǎng)2010—2012年歷年的期刊論文、高被引期刊論文(這里指被引頻次≥5,檢索時(shí)間為2018年8月中下旬),并篩選出高被引論文中的基金論文。統(tǒng)計(jì)結(jié)果見表1。

      從表1可見,這些學(xué)科的大部分高被引論文是基金論文。除數(shù)學(xué)略高于64%以外,其他4個(gè)學(xué)科的高被引論文中的基金論文所占比例都高達(dá)70%以上,有些甚至超過80%。顯然,數(shù)學(xué)研究主要依靠研究人員自身的理論思維,而其他學(xué)科則還與客觀世界的實(shí)踐、實(shí)驗(yàn)有關(guān),需要具備一定的物質(zhì)條件,沒有資金支持,研究工作很難開展,而有更多資金支持就可能做出更好的研究成果,這是科技領(lǐng)域大部分高被引論文是基金論文的重要原因。

      既然統(tǒng)計(jì)數(shù)據(jù)表明大部分高被引論文是基金論文,而高被引基金論文又只是全部基金論文的子集,那么某時(shí)段期刊論文中的全部基金論文就包含了該時(shí)段大部分高被引論文,即重要論文。這些論文之間的集合關(guān)系可用圖1表示。其中,A代表期

      刊論文,B代表高被引論文,C代表基金論文,B∩C代表高被引基金論文,B∩C占了B的大部分。

      顯然,從宏觀比例上看,論文越多,其所包含的關(guān)鍵詞也越多。因此,對該時(shí)段全部基金論文(C)的關(guān)鍵詞做詞頻統(tǒng)計(jì),就可以發(fā)現(xiàn)該時(shí)段大部分高被引論文(B∩C)的關(guān)鍵詞,這些關(guān)鍵詞就包含了該時(shí)段大部分重要論文(B)的關(guān)鍵詞,即該時(shí)段大部分重要的關(guān)鍵詞。實(shí)際上,科研工作者在申請科研基金的時(shí)候,需對所在領(lǐng)域文獻(xiàn)有充分了解,因此基金論文會引用之前的高被引論文,所以,基金論文的關(guān)鍵詞會包含所在學(xué)科的一些重要科技名詞。對新時(shí)段而言,對該時(shí)段全部基金論文的關(guān)鍵詞做詞頻統(tǒng)計(jì),就可能提前找到將來被發(fā)現(xiàn)具有重要意義的大部分科技名詞。

      2.來源類別與來源期刊

      對來源類別來說,顯然,SCI來源期刊、EI來源期刊、核心期刊、CSSCI、CSCD都是比較重要的期刊,在這些期刊上發(fā)表的論文一般來講比其他期刊論文重要。檢索時(shí),文獻(xiàn)分類目錄選擇對應(yīng)的學(xué)科,來源類別可以選擇以上那些重要的分類,當(dāng)然也可以是全部期刊。選擇來源類別主要是為了包含綜合性期刊里的專業(yè)論文。

      對來源期刊來說,檢索每個(gè)學(xué)科的專業(yè)期刊時(shí),如果文獻(xiàn)分類目錄選擇對應(yīng)的學(xué)科,則檢索出的文獻(xiàn)就會比不選擇學(xué)科的檢索結(jié)果少很多。如檢索《力學(xué)進(jìn)展》2010—2012年的文獻(xiàn)時(shí),文獻(xiàn)分類目錄選擇“力學(xué)”時(shí),找到135條結(jié)果;但不做任何選擇時(shí),找到240條結(jié)果。這是因?yàn)?,現(xiàn)在各學(xué)科都是互相交叉、融合發(fā)展,而不僅僅局限于本學(xué)科本專業(yè)。所以,在檢索某學(xué)科的專業(yè)期刊時(shí),不能選擇文獻(xiàn)分類目錄中的學(xué)科選項(xiàng),而是要不做任何選擇,就包含了專業(yè)期刊里的全部論文。

      以上選擇期刊來源類別并對應(yīng)學(xué)科目錄的檢索結(jié)果,和選擇全部專業(yè)期刊并不對應(yīng)學(xué)科目錄的結(jié)果有重復(fù),需要查重并刪除重復(fù)的內(nèi)容。

      3.研究層次

      檢索結(jié)果的分組瀏覽下有個(gè)“研究層次”選項(xiàng),顯然,重要的科技新詞與“研究層次”下的“基礎(chǔ)與應(yīng)用基礎(chǔ)研究(自科)”及“工程技術(shù)(自科)”關(guān)系密切,其他層次可不用考慮。

      三如何查新

      檢索到了需要的重要論文之后,要對這些論文的關(guān)鍵詞做詞頻統(tǒng)計(jì),才能發(fā)現(xiàn)重要的科技名詞。但詞頻統(tǒng)計(jì)發(fā)現(xiàn)的不同名詞很多,而且大部分都是之前很早就出現(xiàn)過的舊名詞,新名詞很少。如果一一檢驗(yàn),既費(fèi)時(shí)又費(fèi)力,會做很多無用功。那么怎樣才能盡快發(fā)現(xiàn)新名詞呢?為行文方便,以下舉例說明。

      前文曾說過本文所指的新名詞,是指在所考察時(shí)段才出現(xiàn),而在該時(shí)段之前沒有出現(xiàn)的名詞。例如,在t1—t2期間才出現(xiàn)的新名詞,在t1之前(包括t0—t1期間)就沒有出現(xiàn)。我們可以考察延拓的時(shí)段t0—t2。知網(wǎng)的文獻(xiàn)檢索結(jié)果有“PubTime發(fā)表時(shí)間”這一項(xiàng)。顯然,如果在做詞頻統(tǒng)計(jì)的時(shí)候,同時(shí)統(tǒng)計(jì)關(guān)鍵詞在t0—t2期間最早出現(xiàn)的時(shí)間,就會發(fā)現(xiàn)在t1—t2期間出現(xiàn)過的很多關(guān)鍵詞,最早在t0—t1期間就已出現(xiàn),這些關(guān)鍵詞就肯定不是t1—t2期間才出現(xiàn)的新名詞,這就可以篩掉很多舊名詞,只剩下少數(shù)最早出現(xiàn)時(shí)間在t1—t2之間的術(shù)語才需要檢驗(yàn)是否新名詞,這就可以減少很多工作量。

      顯然,時(shí)段t0—t1越長,篩掉的舊名詞就越多,需要人工一一檢驗(yàn)t1—t2之間的新詞就越少。當(dāng)t0—t1足夠長之后,就會篩掉該專業(yè)發(fā)展歷史上幾乎所有的舊名詞,這時(shí)候基本上只需要統(tǒng)計(jì)關(guān)鍵詞的詞頻和最早出現(xiàn)的時(shí)間,不用人工一一檢驗(yàn),就可發(fā)現(xiàn)t1—t2之間的新詞。而時(shí)段t0—t1足夠長的情況,實(shí)際上相當(dāng)于一個(gè)包含該專業(yè)發(fā)展歷史上所有常用和重要術(shù)語的語料庫和術(shù)語庫,由此也可見建設(shè)完備的語料庫和術(shù)語庫對發(fā)現(xiàn)科技新詞的重要性。另外,如果所考察的時(shí)段較長或該時(shí)段距離現(xiàn)在時(shí)間較早,就不能以基金論文為考察對象,而應(yīng)以該時(shí)段的高被引論文做時(shí)段延拓和詞頻統(tǒng)計(jì)。

      四發(fā)現(xiàn)重要中文科技新詞的步驟

      以下用對基金論文做詞頻統(tǒng)計(jì)發(fā)現(xiàn)t1—t2期間甲學(xué)科重要科技新詞為例詳細(xì)說明。

      (1)將考察的時(shí)段延拓為t0—t2。

      (2)檢索文獻(xiàn)分類目錄為甲學(xué)科,來源類別為SCI來源期刊、EI來源期刊、核心期刊、CSCD,分類瀏覽為“基礎(chǔ)與應(yīng)用基礎(chǔ)研究(自科)”及“工程技術(shù)(自科)”的論文,或者選擇全部期刊論文,從中篩選出基金論文文件。

      (3)檢索來源期刊為甲學(xué)科領(lǐng)域的重要專業(yè)期刊,分類瀏覽為“基礎(chǔ)與應(yīng)用基礎(chǔ)研究(自科)”及“工程技術(shù)(自科)”的論文,從中篩選出另一個(gè)基金論文文件。

      (4)對上述兩個(gè)文件做查重,重復(fù)的論文只保留一個(gè),形成一個(gè)包含為t0—t2期間全部基金論文的文件。

      (5)對這個(gè)包含全部基金論文文件的關(guān)鍵詞做詞頻統(tǒng)計(jì),同時(shí)統(tǒng)計(jì)每個(gè)關(guān)鍵詞所在論文的發(fā)表時(shí)間,最后形成一個(gè)包含所有不同關(guān)鍵詞、詞頻及與每個(gè)關(guān)鍵詞對應(yīng)的最早論文發(fā)表時(shí)間的列表。

      (6)根據(jù)這個(gè)列表,最早發(fā)表時(shí)間在t1之前的論文對應(yīng)的關(guān)鍵詞就是舊名詞,這些名詞占了很大比例,不需要再檢驗(yàn)。需要檢驗(yàn)的是該列表中在t1之后才出現(xiàn)的論文的關(guān)鍵詞是否為新名詞。這些名詞分兩部分,一部分名詞是雖然在該列表中在t1之后才出現(xiàn),但在整個(gè)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中(或該學(xué)科的文獻(xiàn)中)在t1之前出現(xiàn)過,這部分也是舊名詞;另一部分是在整個(gè)知網(wǎng)文獻(xiàn)數(shù)據(jù)庫中(或該學(xué)科的文獻(xiàn)中)在t1之后才出現(xiàn)的名詞,這部分名詞就是t1—t2期間才出現(xiàn)的新名詞。

      (7)發(fā)現(xiàn)中文新名詞之后,還要再查找與中文新名詞相對應(yīng)的英文名詞,反過來,也要以英文名詞查找與之對應(yīng)的中文名詞,這個(gè)過程不能忽略。因?yàn)橹形拿~與英文名詞有可能不是一一對應(yīng)的關(guān)系,在這個(gè)過程中就有可能發(fā)現(xiàn)看似不同的中文名詞表達(dá)的卻是相同的概念。實(shí)際上,對于首先在英文中出現(xiàn)的新名詞而言,有不同的中文譯名是很常見的現(xiàn)象,所以對這些名詞需要格外注意。

      另外,關(guān)鍵詞詞頻統(tǒng)計(jì)的本質(zhì)是術(shù)語查重,要以消除關(guān)鍵詞中的空格和符號形成的連續(xù)文字串為對象進(jìn)行統(tǒng)計(jì)[6],這樣就把文字相同而符號不同的中文名詞統(tǒng)一視為為一個(gè)中文名詞,也能發(fā)現(xiàn)相同中文名詞的不同表現(xiàn)形式。對英文名詞也要做類似的處理。

      在此基礎(chǔ)上,就可以形成表示各種新概念的中英文新名詞列表,供專家審定。

      五查新詞范例

      以下以對中國知網(wǎng)2011—2012年間的力學(xué)領(lǐng)域期刊基金論文做詞頻統(tǒng)計(jì)來查找科技新詞為例,來驗(yàn)證此方法的效果。選擇力學(xué)學(xué)科的原因在于,力學(xué)是發(fā)展成熟的經(jīng)典學(xué)科,新概念、科技新詞發(fā)展較慢,所以,更能檢驗(yàn)此方法的效果。選擇該時(shí)段的原因在于,可用到目前為止(2018年9月)的文獻(xiàn)中出現(xiàn)這些科技新詞的詞頻和高被引論文的被引頻次來驗(yàn)證其重要性。限于篇幅,僅展示2011—2012年間出現(xiàn)的部分力學(xué)新詞,見表2。表2中的時(shí)段詞頻是指該時(shí)段力學(xué)領(lǐng)域期刊基金文獻(xiàn)中出現(xiàn)的關(guān)鍵詞的詞頻;全部詞頻是指迄今為止(2018年10月),所有類型中文文獻(xiàn)包含論文主題或摘要在內(nèi)的詞頻;最高被引論文頻次是指論文主題或摘要中包含該名詞的論文的最高被引頻次。由表2可見,這些當(dāng)時(shí)出現(xiàn)的新詞在現(xiàn)在來看還是比較重要的。由此可見,用本文的方法發(fā)現(xiàn)新詞確實(shí)行之有效。

      六結(jié)語

      用對基金論文做詞頻統(tǒng)計(jì)的方法發(fā)現(xiàn)中文科技新詞的意義在于:所發(fā)現(xiàn)的基金論文中的新詞的重要性,是經(jīng)過專家判斷的,有一定的可靠性;在做詞頻統(tǒng)計(jì)時(shí),只要所考察的時(shí)段足夠新,所發(fā)現(xiàn)的名詞就是該時(shí)段的新詞,而不是舊詞;統(tǒng)計(jì)數(shù)據(jù)表明,大部分重要論文是基金論文。因此,所考察時(shí)段全部基金論文的新詞,在數(shù)量上包含了該時(shí)段的大部分重要新詞;由于基金論文在該時(shí)段全部論文中所占比例較低,因此,只對其中的基金論文做詞頻統(tǒng)計(jì),既減少了工作量,又減少了盲目性??紤]到應(yīng)用的方便性,本研究未采用專業(yè)軟件,而是用Excel來實(shí)現(xiàn)的。希望此文對科研工作者和術(shù)語學(xué)工作者有一定幫助。

      參考文獻(xiàn)

      [1] 才磊.科技新詞工作初探[J].中國科技術(shù)語,2008(2):49-51.

      [2] 張暉.科技新詞工作實(shí)踐探索[J].中國科技術(shù)語,2013(6):5-9.

      [3] 余恒,崔辰州,張暉.天文學(xué)英語新詞自動提取系統(tǒng)[J].天文研究與技術(shù),2015(3):374-380.

      [4] 董建軍.中國知網(wǎng)收錄的基金論文資助現(xiàn)狀和被引情況分析[J].中國科技期刊研究,2013(2):307-312.

      [5] 戚爾鵬,葉鷹.基礎(chǔ)學(xué)科論文的基金資助引用優(yōu)勢研究[J].大學(xué)圖書館學(xué)報(bào),2015(6):11-16.

      [6] 趙偉.術(shù)語查重探討[J].中國科技術(shù)語,2016(4):19-24.

      猜你喜歡
      文獻(xiàn)計(jì)量學(xué)大數(shù)據(jù)
      《現(xiàn)代泌尿外科雜志》2011~2013年文獻(xiàn)計(jì)量學(xué)指標(biāo)分析
      《廣西民族研究》創(chuàng)辦30年來刊發(fā)文章的回顧與展望
      中文圖書評價(jià)體系研究
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      噶尔县| 龙口市| 浦江县| 易门县| 平和县| 峨眉山市| 乌鲁木齐市| 修水县| 巴塘县| 房山区| 班戈县| 临江市| 武陟县| 潼关县| 扎兰屯市| 奉化市| 赤壁市| 荥经县| 沿河| 凌海市| 宜兴市| 临漳县| 平潭县| 虞城县| 东乡| 屯留县| 搜索| 若羌县| 会东县| 泸州市| 美姑县| 孝义市| 宜川县| 来宾市| 开封县| 安徽省| 安陆市| 攀枝花市| 苏尼特右旗| 阿图什市| 安岳县|