• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      詞頻分析法中高頻詞閾值界定方法適用性的實證分析

      2017-10-22 10:24:58劉奕杉王玉琳李明鑫
      數(shù)字圖書館論壇 2017年9期
      關鍵詞:普賴斯高頻詞詞頻

      劉奕杉,王玉琳,李明鑫

      (東北師范大學信息科學與技術學院,長春 130117)

      詞頻分析法中高頻詞閾值界定方法適用性的實證分析

      劉奕杉,王玉琳,李明鑫

      (東北師范大學信息科學與技術學院,長春 130117)

      詞頻分析法是文獻計量學的重要分析方法之一,而確定高頻詞閾值是進行詞頻分析的必要前提,高頻詞閾值的選取不僅決定詞頻分析法的分析結果,而且對整個分析研究都有著極其重要的影響。本文首先以近三年國內(nèi)運用詞頻分析法展開研究的文獻為調(diào)研基礎,發(fā)現(xiàn)目前學界常用的高頻詞閾值選取方法主要有自定義選取法、高低頻詞界定公式選取法、普賴斯公式選取法及混合選取法四類;其次,以個人知識管理領域的文獻為研究對象,對前三類高頻詞閾值選取方法分別進行取值計算并做領域熱點聚類分析,對比驗證聚類結果,同時以此結果為基礎討論高頻詞閾值選擇對分析結果的影響及其合理性;最后,指出我國學界在高頻詞閾值選取方面存在主觀性強、方法原理不明、改進方法適用性不明,高低頻詞界定公式和普賴斯公式適用性尚待研究等問題。

      高頻詞;文獻計量學;詞頻分析

      1 引言

      在科學研究中,常通過表達文獻核心內(nèi)容的關鍵詞或主題詞的出現(xiàn)頻次確定該領域的研究重點和發(fā)展動向。由于一篇文獻的關鍵詞或主題詞是文獻核心內(nèi)容的濃縮和提煉,因此,如果某一關鍵詞或主題詞在其領域文獻中反復出現(xiàn),則可認為該關鍵詞或主題詞所表征的研究主題即為該領域的研究熱點[1]。詞頻分析法可以結合其他方法(如共詞分析、多維尺度分析、知識圖譜等),加深對研究主題的理解。雖然詞頻分析法的實踐應用廣泛,但很少有對其方法理論的深入研究,缺乏對其內(nèi)涵、特征、模式、流程等內(nèi)在規(guī)律的系統(tǒng)歸納。此外,對詞頻分析法與傳統(tǒng)文獻綜述法在方法論基礎、研究對象、應用范圍等方面的探討亦比較少見[2]。

      確定領域高頻詞是運用詞頻分析等方法進行下一步工作的基礎,因此如何合理界定領域高頻詞成為重要的研究課題。如楊建林對基于詞頻閾值和基于貢獻強度閾值的兩種選詞策略進行分析,得出將這兩種方法合并后得到的關鍵詞集具有更好的共詞分析效果[3];陳果等提出基于學科背景的全局視角,對比關鍵詞在領域內(nèi)外的出現(xiàn)頻率,提出領域度計算公式,并融合領域度和熱度指標進行關鍵詞篩選[4];安興茹提出基于正態(tài)分布的方法,通過實證分析,驗證關鍵詞或主題詞在文獻庫中的分布符合正態(tài)分布,并根據(jù)正態(tài)分布的特性,提出詞頻分析法高頻詞閾值的計算方法[5]。

      目前已有學者嘗試提出改進高頻詞閾值的方法,但這些新方法是否具有廣泛的適用性,是否能解決目前高頻詞閾值選取中存在的問題,以及使用這些新方法是否會產(chǎn)生新的問題,在學界尚無法達成共識,還需要繼續(xù)探討;而傳統(tǒng)高頻詞閾值選取方法相對不規(guī)范,因此關于高頻詞閾值的選取方法未來還有很長的路要走。

      2 常用高頻詞閾值選取方法

      為反映目前我國學界關于高頻詞閾值選取方法的現(xiàn)狀,本文在中國學術期刊網(wǎng)絡出版總庫中檢索“研究熱點”相關的文獻。以摘要=“熱點”and主題=“詞頻+共詞”為檢索式,選取來源類別為CSSCI,檢索時間為2015—2017年的文獻,共得到229條記錄,再通過人工篩選,去除不符合研究主題的文獻,最終得到174篇文獻。

      2.1 近三年“研究熱點”類文獻的統(tǒng)計結果分析

      本文通過提取174篇文獻中高頻詞閾值的方法,并以此為代表,整理目前我國學界常用的高頻詞閾值選取方法,結果見表1。

      表1 高頻詞閾值選取方法

      2.2 自定義選取法

      從表1可以看出,目前我國學界在研究領域熱點問題時,常用的高頻詞選取辦法是自定義選取法,合計129篇,占比74.14%。自定義選取法,作者可根據(jù)研究需要自行規(guī)定高頻詞的選取方法和高頻詞的閾值,這種選擇方法主觀性強,在閾值的選擇上較隨意。通過本文所得到的174篇文獻的研究數(shù)據(jù)發(fā)現(xiàn),樣本文獻數(shù)據(jù)量從58—25 990篇,頻次的選擇從2—300次,跨度比較大。對這些具有一定隨意性的高頻詞選取方法所選出的高頻詞進行分析,其分析結果的準確性和科學性值得商榷。即使是同一領域的研究,也存在不同研究者有不同取值標準的現(xiàn)象,從而導致研究結果不一致。

      2.2.1 頻次選取法

      從調(diào)研結果來看,最常用的自定義方法是頻次選取法,即作者自行規(guī)定高頻詞的閾值,這類文獻占比45.98%。這種高頻詞選取方法主要依據(jù)研究者在研究過程中遇到的具體情況和自身經(jīng)驗,選取合適的閾值來確定高頻詞。這種方法的優(yōu)點是操作簡便,可節(jié)省大量時間和精力,使研究者把更多注意力放在后續(xù)分析研究上。但由于此種方法的全部操作步驟均為研究者自定義,其可信度和科學性無法保證,尤其高頻詞閾值的確定是后續(xù)分析研究的基礎。

      在現(xiàn)有樣本數(shù)據(jù)中,有11篇文獻的研究者在使用頻次選取法時,按照高頻詞累計頻次達到總頻次40%左右的取詞標準進行取詞,占頻次選取法文獻的13.75%,全部樣本文獻的6.32%。由此也可以看出,在頻次選取法的實際應用中,研究者的主觀意愿在一定程度上占據(jù)主導地位。

      2.2.2 前N位選取法

      前N位選取法即按照詞頻由高到低進行排序,作者自選前N位詞為高頻詞;這類文獻共44篇,占比25.29%。這種方法與頻次選取法類似,也是以研究者主觀意志為主的一種高頻詞選取方法。

      不同的是,這種方法的隨意性更大。前N位選取法中N的閾值如何界定,目前沒有標準。從本文樣本統(tǒng)計結果來看,高頻詞閾值選取標準從前5—100位不等,其所選第N位高頻詞的出現(xiàn)頻次也從2—100次不等。由于這種方法是將具體頻次數(shù)據(jù)抽象為排名形式,因此不可避免地丟失部分具體頻次信息。這種更抽象的前N位選取法,通常使研究者更易忽略其截取頻次的合理性,而更關注所選高頻詞個數(shù)是否更易構造相異矩陣,是否能夠為研究帶來更多的方便。

      2.2.3 中心度選取法

      目前,由于詞頻分析軟件的普及,在進行詞頻分析時,大量文獻選擇把原始數(shù)據(jù)直接導入詞頻分析軟件中(如CiteSpace、Ucinet等),以關鍵詞中心度為排序依據(jù)選取高頻詞的樣本數(shù)據(jù)共5篇,占比2.87%。實際上,CiteSpace等詞頻分析軟件的工作原理是根據(jù)詞頻多少來確定相應的節(jié)點中心度,因此這種以中心度確定高頻詞的方法其實質與前N位選取法的原理一致。

      2.3 高低頻詞界定公式選取法

      第二大類方法是用高低頻詞界定公式確定高頻詞閾值。高低頻詞界定公式由Donohue在1973年提出,源于齊普夫第二定律[6]。高低頻詞界定公式作為文獻計量學里的一項重要內(nèi)容,本應是用于高頻詞閾值界定的一種普遍方法,但從本文樣本調(diào)研結果來看,實際上使用此高低頻詞界定公式法進行高頻詞選取的文獻只有11篇,僅占比6.32%。

      (1)依賴I1。從此公式可知,詞頻閾值完全由I1決定,計算出的高頻詞個數(shù)一般過多或過少,這可能是計算結果不理想的外在原因[5]。

      (2)理論基礎和適用性。高低頻詞界定公式是由齊普夫第二定律得來,同齊普夫第二定律一樣都是針對某一具體文獻得出的詞頻分界公式,而非針對文獻庫得出,所以高低頻詞界定公式在基于文獻庫的高頻主題詞和關鍵詞閾值計算上,缺乏理論基礎和適用條件[5]。

      相較于自定義選取法,用高低頻詞界定公式計算高頻詞比較復雜,雖然孫清蘭對其進行過改良,提供相對簡便的算法[6],但與自定義方法相比,高頻詞的選取仍然比較復雜。因此,由于上述兩方面原因,學界較少使用高低頻詞界定公式方法界定領域高頻詞。

      2.4 普賴斯公式選取法

      雖然在選擇領域高頻詞方面有許多學者提出多種方法,如熊回香等使用大數(shù)據(jù)搜索與挖掘共現(xiàn)平臺提取特征詞[7],巴志超等用LDA和word2vec模型提取高頻詞[8],姚小嬌用詞頻g指數(shù)方法界定高頻詞等[9]。但就目前統(tǒng)計來看,除作者自定義和用高低頻詞界定公式界定高頻詞這兩種方法外,還主要借用普賴斯公式來確定領域高頻詞(共計5篇,占比2.87%)。

      普賴斯公式最早被用于確定高被引文獻,進而確定某研究領域內(nèi)的核心作者。因方法相較于用高低頻詞界定公式更簡單,比自定義選取法更科學,逐漸被T學者接受并應用于不同領域的研究中。其高頻詞閾值根據(jù)普賴斯公式確定,計算公式:,其中M為高頻詞閾值,Nmax表示區(qū)間學術論文被引頻次最高值[10]。

      普賴斯公式可以用于確定領域核心文獻,因此在一定程度上利用此公式確定領域核心關鍵詞也是可行的。但在具體應用時,還需進一步改進,如將自變量Nmax表示為關鍵詞的頻次最高值,而不是被引次數(shù)的最高值,這樣用此公式得出的結果才更符合“領域核心詞”(即領域高頻詞)。

      為更清晰地表現(xiàn)上述我國學界常用的三類(5種)高頻詞閾值選取方法,在此將這5種方法歸納、對比,整理見表2。

      2.5 混合選取法

      混合選取法指將表2中兩種或兩種以上方法合并使用的情況。最常用的方法為先用高低詞頻界定公式或普賴斯公式計算得出一個高頻詞閾值,由于該閾值與實際情況存在一定差異,不能滿足研究需要或為研究帶來不必要的麻煩。對此,研究者通常根據(jù)實際情況進行人工選詞,即在公式計算結果的基礎上,人工擴大或縮小范圍,自定義閾值。

      表2 5種常用高頻詞閾值選取方法對比

      3 高頻詞閾值選取的實證分析

      本文以上述總結出的我國學界目前常用的三大類高頻詞選取方法為基礎,對個人知識管理領域的研究文獻進行實證研究,并將所得結果進行對比驗證,以此說明不同高頻詞閾值選取方法對選詞結果的影響,以及不同選詞結果對后續(xù)分析研究的影響。本文僅通過聚類分析方法來體現(xiàn)其影響,對于多維尺度分析、網(wǎng)絡節(jié)點分析等定量方法,以及領域熱點、發(fā)展趨勢分析等定性方法暫不予以說明。

      本文通過中國知識基礎設施工程的期刊數(shù)據(jù)庫,檢索得到“個人知識管理”領域的文獻,共得1 241條記錄。用Bicomb軟件提取所有文獻的關鍵詞[15],經(jīng)過數(shù)據(jù)清洗后共得2 412個關鍵詞,將詞頻出現(xiàn)頻次按由高到低排序,部分結果(Top 20)如表3所示。

      表3 個人知識管理領域關鍵詞詞頻統(tǒng)計表(Top 20)

      3.1 二八定律驗證自定義選取法

      從本文第一部分分析來看,絕大多數(shù)自定義選取法憑研究者意愿進行。但根據(jù)統(tǒng)計,自定義選取法的詞頻截取比例通常在8%—40%。因此,為重現(xiàn)自定義選取方法并同時體現(xiàn)一定的取詞依據(jù),本文以二八定律為基礎,對自定義選取法進行實證驗證,選取個人知識管理領域的高頻詞。依照表3中的統(tǒng)計結果,從高到低抽取累計占比達20%的詞為該領域的高頻詞。

      按照此種方法抽取高頻詞,應抽取的高頻詞范圍為所有頻次大于或等于15的詞,即位于前30位的詞為個人知識管理領域的高頻詞,累計占比20.14%。用SPSS軟件對此30個高頻詞進行聚類分析,以倒數(shù)第二大聚類層次作為劃分標準,統(tǒng)計聚類類別。

      在選取前30個詞為高頻詞的條件下,個人知識管理領域的關鍵詞大致可以分為三類,即“顯性知識”“隱性知識”與“圖書館”為第一類;“個人知識”“組織知識”“個人學習”“組織學習”“知識經(jīng)濟時代”與“知識結構”為第二類;其余如“博客”“應用”與“策略”等為第三類。

      3.2 高低頻詞界定公式選取法的驗證

      據(jù)統(tǒng)計,關鍵詞詞頻為1的共有1 860個詞,將其代入高低頻詞界定公式,計算得出高頻詞閾值為60,即由高低頻詞界定公式確定的個人知識管理領域的高頻詞為所有出現(xiàn)頻次大于60次的詞匯。因此,如果按照高低頻詞界定公式方法取詞,那么個人知識管理領域的高頻詞為表3中的前3個詞,即“博客”“隱性知識”與“個人知識”。由于此方法只提取到3個高頻詞,不便進行聚類分析。

      3.3 普賴斯公式選取法的驗證

      根據(jù)對普賴斯公式選取法的論述,可知普賴斯公式確定高頻詞主要取決于區(qū)間關鍵詞出現(xiàn)的頻次。由表3可見,個人知識管理領域文獻的關鍵詞最高頻次為74次。因此,根據(jù)普賴斯公式計算得出的高頻詞閾值6.4。即頻次大于或等于6的詞均為個人知識管理領域的高頻詞,共計103個。同樣用SPSS得出這103個高頻詞的聚類分析結果。

      將此聚類結果大致分為三類:“顯性知識”“隱性知識”與“圖書館”為第一類;“知識獲取”“知識利用”與“知識管理工具”等為第二類;“學習型組織”“個人學習”與“組織學習”等為第三類。對比前30個詞的聚類結果,雖然二八定律取值后的聚類劃分結果也是三類,但兩種方式的聚類結果差別較大。以“個人知識”“組織知識”“知識經(jīng)濟時代”“個人學習”與“組織學習”這5個詞為例來說明,在頻次大于或等于15(Top 30)的詞為領域高頻詞時,這5個詞是被劃分為同一類;而在頻次大于或等于6(Top 103)的詞為領域高頻詞時,這5個詞則被劃分到兩大類中,即“個人知識”“組織知識”“知識經(jīng)濟時代”與“知識獲取”“知識利用”等歸為第二類,而“個人學習”“組織學習”則與“學習型組織”“企業(yè)”“知識管理能力”等歸為第三類,即相同的5個詞在聚類類別上發(fā)生了明顯變化。由此可以說明,即使使用同一組數(shù)據(jù),由于截頻方法或截取閾值不同,也會產(chǎn)生明顯不同的聚類分析結果,從而導致后續(xù)分析結論發(fā)生偏差。

      據(jù)此可以推測,在面對不同高頻詞截取結果時,同樣是以高頻詞分析為基礎的多維尺度圖、節(jié)點網(wǎng)絡圖等多種分析方法的呈現(xiàn)結果不一樣,而目前我國學者對于領域發(fā)展、熱點分析、趨勢預測等的把握基本上是由聚類分析圖、多維尺度圖、節(jié)點網(wǎng)絡圖等綜合得出,即不同的呈現(xiàn)結果必然會導致研究者分析結果的差異,由此可以證明不同的高頻詞選取方法導致不同的截取結果,確實會對后續(xù)的分析結果產(chǎn)生不同影響。

      3.4 三種方法驗證結果對比

      從上述驗證結果可以看出,即使是在同一研究領域,由于高頻詞閾值選擇的方法不同,所確定的高頻詞也是明顯不同,甚至差異巨大。在個人知識管理領域中,用二八定律確定的高頻詞閾值為15,包含前30個高頻詞;用高低頻詞界定公式方法確定的閾值為60,包含前3個高頻詞;用普賴斯公式方法確定的閾值為6,包含前103個高頻詞。三種方法確定的高頻詞數(shù)量最高相差100,相比之下,選用二八定律截取出的高頻詞閾值更合理。

      目前我國學界在應用普賴斯公式計算高頻詞閾值時,絕大多數(shù)存在適用性問題。即將普賴斯公式計算得出的M值(實際代表高被引文獻的閾值)用做高頻詞閾值。為說明普賴斯公式在高頻詞閾值界定上的不合理應用,及其對聚類分析結果的影響,本文特將這種情況列出,并與前文中所取閾值較合理的二八定律方法(閾值15)的聚類結果進行對比分析。

      通過檢索個人知識管理領域文獻得到的最高被引次數(shù)為430,普賴斯公式計算結果約為16。以16作為高頻詞閾值,則可獲取個人知識管理領域的前27個關鍵詞高頻詞。通過對前27個詞的聚類,分析發(fā)現(xiàn)個人知識管理領域的關鍵詞可以聚為四類,明顯不同于前30個詞的三類劃分,并且同樣出現(xiàn)了同一關鍵詞被劃分在不同聚類的情況,如“博客”在前30個詞的聚類中應劃歸第三類,而在前27個詞的聚類中應劃歸在第二類,與“教師”“大學生”“知識管理系統(tǒng)”和“知識創(chuàng)新”等詞劃成一類。由此可見,即使截取的高頻詞閾值差異很小,對于聚類分析結果的影響也是很大的,仍然會對研究者的分析結論造成較大的影響,進而影響其對當前領域發(fā)展的認識和對未來發(fā)展趨勢的判斷。

      通過上述實證研究,再次證實不同高頻詞選取方法對結果的巨大影響。在高頻詞取值差異的影響下,后續(xù)分析研究的可信度和科學價值值得商榷。因此,若想保證后續(xù)分析中的研究價值和意義,規(guī)范、科學地確定領域高頻詞是一個必不可少且十分重要的前提條件。但僅從目前我國學界的研究現(xiàn)狀來看,絕大多數(shù)研究者尚未意識到高頻詞閾值的選取會對后續(xù)分析結論帶來嚴重影響,更沒有意識到現(xiàn)有高頻詞選取方式中的不足,以及其對分析研究的不利影響。

      3.5 驗證研究的結論

      從三種選取方法的結果對比來看,用二八定律方法來確定領域高頻詞閾值是較合理的。一是以二八定律代替完全憑借研究者主觀意愿的自定義選取方式相對客觀;二是二八定律作為較成熟的理論,已成功應用在圖書情報領域的諸多研究主題中,將其應用于高頻詞界定是有其理論依據(jù)的,以20%累計詞頻覆蓋率作為該領域的核心關鍵詞是合理的;三是從驗證結果來看,二八定律所選取的高頻詞閾值較合理,與高低頻詞界定公式取詞偏少、普賴斯公式取詞偏多的情況相比,二八定律截取的高頻詞數(shù)量更適中,更符合研究者的需求;四是二八定律取詞法在操作上更簡便,即使對高低頻詞界定公式、普賴斯公式等方法運用不夠熟練,也可以按照此定律取得合適的結果;五是二八定律是一個定值,既不需要經(jīng)過公式計算,也不需要考慮公式中由于自變量取值不準確而對閾值計算造成的影響。因此,相較于其他的高頻詞界定方法,二八定律更適用。

      4 高頻詞閾值選取方面存在的問題

      4.1 主觀性強

      目前,學界進行的大部分詞頻分析或以詞頻分析為基礎的研究,對于高頻詞的截取數(shù)量和選取方法沒有明確概念;且大多以作者關鍵詞作為選詞標準,而作者關鍵詞本身就是文獻作者的主觀性選取結果;又因高頻詞的截取也是研究者的自主選擇,不同研究者有不同態(tài)度,最終可能會導致結果不同,整個研究的主觀性過強。

      由于一些研究的領域較新,已有文獻數(shù)據(jù)量不大,導致用公式計算得出的結果不準確,閾值界定范圍過小,無法進行下一步分析。如張叢昱等雖使用普賴斯公式,但其實際計算結果與預期結果存在較大差異,最終只能根據(jù)作者對領域的理解,并結合公式計算數(shù)據(jù)確定高頻詞閾值的范圍[16],這也是混合選取法出現(xiàn)的根本原因之一。

      4.2 方法原理不明

      目前我國學者對某一領域的現(xiàn)狀、趨勢、熱點的研究較多,但大部分文獻在進行分析前,對如何準確地選擇合適的高頻詞,以及高頻詞閾值選擇標準等問題并未給出明確說明。大部分研究者只是在更換研究領域后,機械性照搬前人文獻和寫作模式。如依靠普賴斯公式計算得出詞頻大于6的詞為領域高頻詞,但是對普賴斯公式的原理、優(yōu)缺點、所取閾值是否合理等問題并未詳加考量。

      4.3 改進方法適用性不明

      目前,高頻詞閾值的選取方法并沒有形成統(tǒng)一概念,因此有人對當前高頻詞閾值選取方法提出異議并給予相應改進方法。即使有學者提出改進此問題的方法,且在某一領域內(nèi)檢測其適用性,但這種新方法也可能存在問題。巴志超等認為,文獻中構建的語義網(wǎng)絡度分布并不符合冪律分布特性,但沒有過多討論是否由于模型的參數(shù)設置、Top N的關鍵詞選擇以及語義度量指標等因素的影響和相互關系,也未檢驗構建的網(wǎng)絡結構中的其他分布,如節(jié)點權值分布、中間中心性分布等是否符合冪律分布特性[8]。也就是說這一類文獻雖然對提出的問題進行改善,但也可能只對提出的問題進行改善,并不排除可能會并發(fā)其他影響。而這些新方法本身也具有局限性,是研究者對詞頻截取中出現(xiàn)的某一問題或某幾個問題做出的改進,而研究者對新方法的驗證也僅是采用了某一領域的某一組數(shù)據(jù)。因此這種方法是否真正適用于該領域或其他領域,以及使用這種方法是否會產(chǎn)生其他并發(fā)性問題還需要進一步討論。

      4.4 高低頻詞界定公式存在適用性問題

      從已有研究的情況來看,高低頻詞界定公式的取值偏大,導致截取到的高頻詞過少。造成這種情況的原因有兩個:一是研究領域的相關主題本身比較分散,因此關鍵詞重復率不高,僅出現(xiàn)1次的關鍵詞數(shù)量較多。二是我國期刊文獻的關鍵詞多為作者關鍵詞,即文獻作者自定義的關鍵詞,這種作者關鍵詞的規(guī)范性不足,對同一事物可能存在多種不同說法。因此,大量不規(guī)范的作者自定義關鍵詞就成為僅出現(xiàn)1次的關鍵詞的主要組成部分,從而導致高低頻詞界定公式取值結果偏大,無法為領域高頻詞的確定提供合理參考。

      4.5 普賴斯公式適用性不明

      目前我國大多數(shù)學者將普賴斯公式的計算結果直接作為確定高頻詞的方法,這種做法雖然簡單易行,在實際科學研究中有其獨特優(yōu)勢和實用性。但此公式畢竟是為確定高被引文獻而設計的,將其直接應用于領域高頻詞提取,實際上是不適合的。公式中自變量Nmax表示區(qū)間學術論文被引頻次最高值,即被引次數(shù)的最高值,計算得出的M值應該是“被引量”(即高被引文獻的閾值)而不應是“關鍵詞頻次”(高頻詞閾值)。因此,將普賴斯公式直接用于確定高頻詞閾值值得商榷,目前僅有少數(shù)研究者意識到該問題。如胡利勇雖然在界定高頻詞時借用普賴斯公式[17],但同時對該公式究竟是否適用于界定高頻詞提出質疑。

      5 關于高頻詞閾值界定方法改進的思考

      5.1 普賴斯公式法的改進

      除上文中提到的將現(xiàn)有普賴斯公式中的自變量變?yōu)椤白罡哧P鍵詞頻次”來增加其應用于高頻詞界定的合理性之外,也可以在普賴斯公式確定領域核心文獻的基礎上,嘗試將這些核心文獻中的關鍵詞作為領域核心關鍵詞。普通計算關鍵詞詞頻的方法是單純將關鍵詞累加,并沒有考慮到核心文獻中的關鍵詞應該具有更大的影響。如高影響力作者的一篇高被引文獻中的關鍵詞與普通文獻的關鍵詞權重完全相同。為顯示出高被引文獻的影響力,可以將被引次數(shù)作為權重參數(shù)加入到關鍵詞詞頻的計算中。被引次數(shù)越多,經(jīng)過加權后的關鍵詞累加值也就越高,其相對應的核心關鍵詞的頻次就越高,這種方法的優(yōu)點是可以突出核心文獻對所在領域的影響?,F(xiàn)有高頻詞取值方法是將所有文獻中的關鍵詞無差別計數(shù),即無視核心文獻的被引量和重要程度,與其他影響力一般的普通文獻采用同樣的關鍵詞頻次計數(shù)方式,這對于領域熱點問題的分析和未來研究趨勢的把握是非常不利的。被引次數(shù)高的核心文獻對于同一領域熱點研究趨勢的影響明顯高于普通文獻,因此在進行領域熱點或趨勢分析時,應考慮核心文獻的領域影響力并在研究方法中體現(xiàn)出來?,F(xiàn)有領域高頻詞提取方法均未將該問題考慮在內(nèi)。

      5.2 高低頻詞界定公式法的改進

      上文研究可進一步發(fā)現(xiàn),目前造成高低頻詞界定公式界定高頻詞不理想的原因是領域內(nèi)關鍵詞分布較分散,雖然在具體計算前都有數(shù)據(jù)清洗流程,但這種清洗只能達到降噪的效果,無法解決關鍵詞分散現(xiàn)象,分散現(xiàn)象的直觀表現(xiàn)就是存在大量僅出現(xiàn)1次的關鍵詞。使用普通清洗方法無法降低僅出現(xiàn)1次的關鍵詞數(shù)量,所以只能借助其他方法來處理,從而降低人為標注關鍵詞而產(chǎn)生的不規(guī)范行為對高低頻詞界定公式取值結果的影響。如當文獻數(shù)量與關鍵詞數(shù)量為1:1.5時,定義僅出現(xiàn)1次的關鍵詞在全部關鍵詞集中的比例為x;當文獻數(shù)量與關鍵詞數(shù)量為1:2時,定義僅出現(xiàn)1次的關鍵詞在全部關鍵詞集中的比例為y;在不同的文獻與關鍵詞數(shù)量比例區(qū)間下,僅出現(xiàn)1次的關鍵詞數(shù)量在全部關鍵詞數(shù)量中的占比應是不一樣的。將此經(jīng)過處理后的僅出現(xiàn)1次關鍵詞數(shù)代入高低頻詞界定公式,這樣可以在一定程度上避免高低頻詞界定公式計算結果過大而截取到的高頻詞過少或取不到高頻詞的情況。對于文獻數(shù)量與關鍵詞數(shù)量比例區(qū)間的劃分方法,各區(qū)間僅出現(xiàn)1次的關鍵詞所占比例等具體量值的確定,以及如何區(qū)分由于研究主題分散和作者關鍵詞不規(guī)范這兩種情況導致的關鍵詞集分散等問題,尚有待進一步研究。

      6 結語

      高頻詞的閾值選取是詞頻分析的重要基礎,而我國學界對于詞頻的閾值選取存在嚴重的不規(guī)范現(xiàn)象。在總結目前常用的三種高頻詞界定方式之后,引入個人知識管理領域樣本進行實證檢驗,說明高頻詞截取的不同結果對后續(xù)分析的影響,總結出二八定律方法更適用于截取領域高頻詞。同時指出目前我國高頻詞界定方面存在主觀性強、方法原理不明、改進方法適用性不明等問題。針對我國目前常用的高頻詞界定方法的不足,提出關于高頻詞界定方法的改良設想;但改良后的具體數(shù)值、應用條件等一系列問題未能明確,期待后續(xù)研究能夠解決這些問題??傮w來說,在高頻詞界定領域存在一種重實踐輕理論的現(xiàn)象:依靠選取高頻詞進行的分析研究眾多,但多數(shù)只是機械地仿照前人關于領域熱點的研究模式進行,而對于高頻詞界定方法本身進行研究的論文并不多。總之,高頻詞界定方法中還存在許多問題,未來需要學者繼續(xù)關注此問題,更加注重高頻詞界定方法的內(nèi)在理論研究并提出有效且權威的界定方法,以減輕這種方法的亂用現(xiàn)象。

      [1]馬費成,張勤.國內(nèi)外知識管理研究熱點——基于詞頻的統(tǒng)計分析[J].情報學報,2006,25(2):163-171.

      [2]張勤.詞頻分析法在學科發(fā)展動態(tài)研究中的應用綜述[J].圖書情報知識,2011(2):95-98.

      [3]楊建林.關鍵詞選擇策略及其對共詞分析的影響[J].情報學報,2014,33(10):1083-1090.

      [4]陳果,肖璐,趙雪芹.領域知識分析中的關鍵詞選擇方法研究——一種以學科為背景的全局視角[J].情報學報,2014,33(9):959-968.

      [5]安興茹.基于正態(tài)分布的詞頻分析法高頻詞閾值研究[J].情報雜志,2014(10):129-136.

      [6]孫清蘭.高頻詞與低頻詞的界分及詞頻估算法[J].中國圖書館學報,1992(2):78-81.

      [7]熊回香,楊雪萍.社會化標注系統(tǒng)中的個性化信息推薦研究[J]. 情報學報,2016,35(5):549-560.

      [8]巴志超,李綱,朱世偉.共現(xiàn)分析中的關鍵詞選擇與語義度量方法研究[J].情報學報,2016,35(2):197-207.

      [9]姚小嬌.我國財經(jīng)類高校近10年圖書情報學研究熱點分析[J].圖書館學刊,2015(2):137-140.

      [10]王佑鎂,陳慧斌.近十年我國電子書包研究熱點與發(fā)展趨勢——基于共詞矩陣的知識圖譜分析[J].中國電化教育,2014(5):4-10.

      [11]李迎迎.國內(nèi)“互聯(lián)網(wǎng)+”領域研究熱點及內(nèi)容分析[J].情報雜志,2016(8):128-132.

      [12]趙蓉英, 魏明坤. 2010——2015年國內(nèi)外情報學研究熱點可視化比較[J].圖書館雜志,2016,35(8):15-22.

      [13]朱莎,楊浩,馮琳.國際“數(shù)字鴻溝”研究的現(xiàn)狀、熱點及前沿分析——兼論對教育信息化及教育均衡發(fā)展的啟示[J].遠程教育雜志,2017,35(1):82-93.

      [14]王米雪,張立國.我國智慧教育領域的研究熱點與發(fā)展趨勢分析——基于詞頻分析法、共詞聚類法和多維尺度分析法[J].現(xiàn)代教育技術,2017,27(3):41-48.

      [15]崔雷,劉偉,閆雷,等.文獻數(shù)據(jù)庫中書目信息共現(xiàn)挖掘系統(tǒng)的開發(fā)[J].現(xiàn)代圖書情報技術,2008(8):70-75.

      [16]張叢昱,張云中.國內(nèi)近十年Folksonomy領域研究熱點與趨勢[J].新世紀圖書館,2016(7):91-96.

      [17]胡利勇.圖書情報領域高被引論文共詞聚類分析[J].圖書館學刊,2016(8):132-135.

      An Empirical Analysis for the Applicability of the Methods of Definition of High-Frequency Words in Word Frequency Analysis

      LIU YiShan, WANG YuLin, LI MingXin
      (School of Information Science and Technology, Northeast Normal University, Changchun 130117, China)

      Word frequency analysis method is one of the important analysis methods in bibliometrics, and the selection of high-frequency word is a necessary premise. It is to say that the selection of high-frequency word determines the results of word frequency analysis, impacts the whole analysis program. First, the paper cleared up the nearly three years papers in China by using word frequency analysis method for hot spots analysis, and found four common classes selections of highfrequency word methods mainly include: the author set the selection method, Donohue’s formula selection, price formula selection and mixed selection. Secondly, we use the literature of personal knowledge management as the research object, and calculate the frond three kinds of high frequency words selections respectively, and compare the results with clustering analysis, then we discuss the effect and applicability of high-frequency word threshold selection on the analysis results. At last, the paper pointed out that there were some problems, such as the subjective is high, principle is unclear, improved methods’ principle is unclear, the Donohue’s formula and price formula’s applicability are still unsure, in the study of high-frequency word threshold selection in our country.

      High-Frequency Word; Bibliometrics; Word Frequency Analysis

      G250

      10.3772/j.issn.1673-2286.2017.09.007

      劉奕杉,女,1992年生,碩士研究生,研究方向:數(shù)字信息資源管理,E-mail:2387161672@qq.com。

      王玉琳,女,1994年生,碩士研究生,研究方向:數(shù)字信息資源管理。

      李明鑫,男,1978年生,博士,講師,研究方向:數(shù)字信息資源管理。

      2017-08-07)

      猜你喜歡
      普賴斯高頻詞詞頻
      開槍致14人受傷,還能保釋上班?
      30份政府工作報告中的高頻詞
      小康(2022年7期)2022-03-10 11:15:54
      省級兩會上的高頻詞
      小康(2022年7期)2022-03-10 11:15:54
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      28份政府工作報告中的高頻詞
      小康(2021年7期)2021-03-15 05:29:03
      省級兩會上的高頻詞
      小康(2021年7期)2021-03-15 05:29:03
      詞頻,一部隱秘的歷史
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      忘記
      东平县| 淮北市| 东台市| 开封市| 固阳县| 安宁市| 上虞市| 集贤县| 阳东县| 忻州市| 遂溪县| 包头市| 聊城市| 玉环县| 绥化市| 阆中市| 从江县| 枞阳县| 防城港市| 尚志市| 墨脱县| 白山市| 德令哈市| 甘肃省| 满城县| 永泰县| 莒南县| 石嘴山市| 三河市| 罗山县| 教育| 高青县| 嘉峪关市| 固始县| 巨鹿县| 东山县| 兴化市| 云霄县| 达孜县| 上思县| 宜昌市|