• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)頁(yè)分類(lèi)技術(shù)研究現(xiàn)狀與發(fā)展趨勢(shì)的圖譜分析

      2019-07-08 05:33庫(kù)爾班·麥麥提吾守爾·斯拉木
      現(xiàn)代電子技術(shù) 2019年13期
      關(guān)鍵詞:網(wǎng)頁(yè)圖譜分類(lèi)

      庫(kù)爾班·麥麥提 吾守爾·斯拉木

      摘 ?要: 以Web of Science中1998—2017年間收錄的1 277篇網(wǎng)頁(yè)分類(lèi)領(lǐng)域文獻(xiàn)為研究對(duì)象,采用CiteSpace可視化工具,并使用科學(xué)計(jì)量學(xué)方法,系統(tǒng)回顧了網(wǎng)頁(yè)分類(lèi)領(lǐng)域中主要的研究機(jī)構(gòu)、研究熱點(diǎn)及研究脈絡(luò)等內(nèi)容。研究發(fā)現(xiàn),目前的網(wǎng)頁(yè)分類(lèi)技術(shù)已完成理念界定和概念推廣,并形成較為完善的研究體系結(jié)構(gòu)。在該領(lǐng)域中,中國(guó)科學(xué)院和北京大學(xué)具有較強(qiáng)的科研能力,而美國(guó)在國(guó)際影響力上處于領(lǐng)先地位。另外,文中發(fā)現(xiàn)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘是近幾年網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究熱點(diǎn)。文中的分析結(jié)果將為我國(guó)網(wǎng)頁(yè)分類(lèi)技術(shù)領(lǐng)域的研究提供一些參考。

      關(guān)鍵詞: 網(wǎng)頁(yè)分類(lèi); 文獻(xiàn)計(jì)量學(xué); 圖譜分析; CiteSpace; 研究機(jī)構(gòu); 研究熱點(diǎn); 研究脈絡(luò)

      中圖分類(lèi)號(hào): TN915.03?34 ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)13?0081?05

      Atlas analysis of webpage classification technology research status and developing trend

      Kurban Mamat, Wushour Silamu

      (College of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)

      Abstract: 1 277 webpage classification field documents collected from Web of Science in 1998—2017 are taken as the research object, and the CiteSpace visualization tool and scientometrics method are used to systematically review the main research institutions, research hotspots and research contents in the field of webpage classification. It is found that the concept definition and concept generalization of current webpage classification technology have completed, and a relatively complete research system structure was formed. In this field, the Chinese Academy of Sciences and Peking University have strong scientific research capabilities, but the United States is in the leading position of international influence. It is also found that the machine learning and data mining are the research hotpots of webpage classification field in recent years. The analysis results of this paper will provide some references for the research of webpage classification technology in our country.

      Keywords: webpage classification; bibliometrics; atlas analysis; CiteSpace; research institute; research hotspot; research context

      0 ?引 ?言

      隨著互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,網(wǎng)絡(luò)信息量呈指數(shù)級(jí)增加,網(wǎng)頁(yè)瀏覽成為直觀展示各類(lèi)信息的主要途徑。如今,各式各樣、不同功能的網(wǎng)頁(yè)層出不窮,如何快速定位并發(fā)現(xiàn)所需信息是人們一直以來(lái)關(guān)注的重點(diǎn)。為了能夠高效地獲得所需信息,人們一般對(duì)網(wǎng)頁(yè)文檔先進(jìn)行分類(lèi),然后在此基礎(chǔ)上尋找所需信息。研究人員對(duì)于網(wǎng)頁(yè)分類(lèi)研究已經(jīng)進(jìn)行了大量卓有成效的工作。本文通過(guò)研究國(guó)內(nèi)外當(dāng)前有關(guān)網(wǎng)頁(yè)分類(lèi)的大量文獻(xiàn),從而了解國(guó)內(nèi)外網(wǎng)頁(yè)分類(lèi)研究領(lǐng)域的現(xiàn)狀與研究趨勢(shì)。

      目前,國(guó)內(nèi)雖然有研究人員從不同的角度對(duì)網(wǎng)頁(yè)分類(lèi)進(jìn)行研究,卻對(duì)于分析國(guó)際上網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究并不全面。因此,本文以Web of Science的核心數(shù)據(jù)庫(kù)為數(shù)據(jù)源,運(yùn)用CiteSpace工具對(duì)收集到的文獻(xiàn)進(jìn)行可視分析并闡述以下三個(gè)方面:國(guó)內(nèi)外近20年在網(wǎng)頁(yè)領(lǐng)域的主要研究機(jī)構(gòu);國(guó)內(nèi)外近20年來(lái)網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究熱點(diǎn);國(guó)內(nèi)外近20年網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究脈絡(luò)。

      首先,闡述了數(shù)據(jù)來(lái)源與研究方法;其次,對(duì)網(wǎng)頁(yè)分類(lèi)研究進(jìn)行可視分析,得到該領(lǐng)域的主要研究機(jī)構(gòu)、研究熱點(diǎn)及演化脈絡(luò);最后,對(duì)分析結(jié)果進(jìn)行討論和比較,試圖客觀和形象地展示國(guó)內(nèi)外網(wǎng)頁(yè)分類(lèi)領(lǐng)域研究現(xiàn)狀與發(fā)展趨勢(shì),幫助我國(guó)網(wǎng)頁(yè)分類(lèi)的后續(xù)研究人員能更準(zhǔn)確地掌握該領(lǐng)域的研究動(dòng)態(tài)。

      1 ?數(shù)據(jù)來(lái)源和研究方法的說(shuō)明

      1.1 ?數(shù)據(jù)來(lái)源

      本文數(shù)據(jù)來(lái)源于信息檢索平臺(tái)Web of Science的核心數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)覆蓋學(xué)科較廣,是一個(gè)綜合性學(xué)術(shù)信息資源平臺(tái)。本文采用以下方式收集數(shù)據(jù):

      1) 主題詞檢索方法,TS=((web page classification)OR (web page categorization))為檢索式。

      2) 文獻(xiàn)時(shí)間跨度限定為1998—2017年。

      3) 文獻(xiàn)類(lèi)型限定為“ARTICLE OR PROCEEDINGS PAPER”。

      最終得到1 277篇核心合集文獻(xiàn)并下載文獻(xiàn)的題錄,題錄包括25個(gè)基本屬性信息。

      1.2 ?研究方法說(shuō)明

      科學(xué)知識(shí)圖譜是將某領(lǐng)域的知識(shí)脈絡(luò)及其演進(jìn)歷程進(jìn)行集中展現(xiàn)的引文網(wǎng)絡(luò)圖譜,可自動(dòng)標(biāo)識(shí)知識(shí)基礎(chǔ)的引文節(jié)點(diǎn)文獻(xiàn),以及共引聚類(lèi)所表征的研究前沿[1]。本文通過(guò)CiteSpace可視化工具對(duì)收集到的1 277篇網(wǎng)頁(yè)分類(lèi)領(lǐng)域文獻(xiàn)進(jìn)行研究,并通過(guò)對(duì)機(jī)構(gòu)及作者的合作網(wǎng)絡(luò)、研究熱點(diǎn)的共詞以及演化過(guò)程進(jìn)行分析,為未來(lái)研究網(wǎng)絡(luò)分類(lèi)技術(shù)提供宏觀了解該領(lǐng)域的視角和思路??梢暬ぞ逤iteSpace是由陳超美博士開(kāi)發(fā)的知識(shí)圖譜工具。該工具可以對(duì)海量文獻(xiàn)進(jìn)行可視化定量分析,有效探測(cè)并發(fā)現(xiàn)某個(gè)研究領(lǐng)域的研究熱點(diǎn)、研究趨勢(shì)等關(guān)鍵信息。該工具可以直接導(dǎo)入Web of Science上下載的文獻(xiàn)題錄,免費(fèi)供研究人員使用,適用于很多研究領(lǐng)域的文獻(xiàn)分析工作。

      2 ?研究結(jié)果與分析

      2.1 ?主要研究機(jī)構(gòu)分析

      研究機(jī)構(gòu)是進(jìn)行學(xué)科研究的專(zhuān)門(mén)性組織。通過(guò)制作、研究機(jī)構(gòu)的知識(shí)圖譜,可以及時(shí)了解某一研究領(lǐng)域的權(quán)威機(jī)構(gòu),從而了解和把握該領(lǐng)域的研究趨勢(shì),緊跟研究熱點(diǎn)。

      表1 按文獻(xiàn)發(fā)表數(shù)量排名Top12 的研究機(jī)構(gòu)

      本文對(duì)收集到的文獻(xiàn)進(jìn)行基本統(tǒng)計(jì)分析。其中,發(fā)表文獻(xiàn)量超過(guò)5篇以上的研究機(jī)構(gòu)有35個(gè),發(fā)文量在6~10篇的有19個(gè),發(fā)文量在11~20篇的有5個(gè),發(fā)文量在20篇以上的只有1個(gè)。

      表1所示為多產(chǎn)文獻(xiàn)數(shù)量排名Top12位的研究機(jī)構(gòu)。以國(guó)家或地區(qū)來(lái)看,Top12榜單里中國(guó)的研究機(jī)構(gòu)占6個(gè), 美國(guó)的研究機(jī)構(gòu)有2個(gè),新加坡、印度、西班牙及加拿大各1個(gè)。以研究機(jī)構(gòu)來(lái)看,中國(guó)科學(xué)院發(fā)表文獻(xiàn)量以31篇位于榜首,排名第二位的清華大學(xué)發(fā)表文獻(xiàn)量是15篇。

      圖1所示是設(shè)定一系列閾值后得到的研究機(jī)構(gòu)的合作網(wǎng)絡(luò)圖。其中,圓形節(jié)點(diǎn)的大小代表研究機(jī)構(gòu)發(fā)文量的多少,而連接線的粗細(xì)代表研究機(jī)構(gòu)間合作關(guān)系的緊密程度。

      中心性可以代表該節(jié)點(diǎn)在整個(gè)網(wǎng)絡(luò)圖譜中的影響力。中心性的大小與節(jié)點(diǎn)的影響力成正比,中心性越大,影響力越大。中心性大于0的研究機(jī)構(gòu)有36個(gè),從表1研究機(jī)構(gòu)的中心性來(lái)看,中國(guó)科學(xué)院與北京大學(xué)的中心性最大,表示這兩個(gè)研究機(jī)構(gòu)的文獻(xiàn)質(zhì)量較好,對(duì)其他研究機(jī)構(gòu)影響較大。

      圖1 ?研究機(jī)構(gòu)合作網(wǎng)絡(luò)共現(xiàn)分析

      總體來(lái)說(shuō),中國(guó)的研究機(jī)構(gòu)在國(guó)際網(wǎng)頁(yè)分類(lèi)領(lǐng)域上有著非常重要的地位,發(fā)文量及研究機(jī)構(gòu)的數(shù)量相比其他國(guó)家較多。但從國(guó)家中心性的角度來(lái)看,美國(guó)的中心性排首位,其次是西班牙,中國(guó)的中心性排在第三位。這表明,美國(guó)和西班牙的研究機(jī)構(gòu)的發(fā)文量雖然少,但是國(guó)際影響力比較大,而中國(guó)的研究機(jī)構(gòu)相互之間影響和聯(lián)系比較大,但國(guó)際影響力較小。我國(guó)在該領(lǐng)域的研究仍然具有較大進(jìn)步空間。

      2.2 ?基于共詞分析的研究熱點(diǎn)

      關(guān)鍵詞是論文核心內(nèi)容的凝練與濃縮,對(duì)關(guān)鍵詞進(jìn)行圖譜分析,能揭示網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究熱點(diǎn),并可以發(fā)現(xiàn)論文之間的內(nèi)部聯(lián)系和研究領(lǐng)域的前沿問(wèn)題[2]。鑒于此,為了了解近29年國(guó)際上網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究熱點(diǎn),本文通過(guò)關(guān)鍵詞共現(xiàn)分析來(lái)鑒別該領(lǐng)域的主要熱點(diǎn),并對(duì)該研究領(lǐng)域主題結(jié)構(gòu)的發(fā)展變化做出判斷。通過(guò)運(yùn)行CiteSpace之后可以得到關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,如圖2所示。其中的圓形節(jié)點(diǎn)代表關(guān)鍵詞,節(jié)點(diǎn)越大表示關(guān)鍵詞出現(xiàn)的頻次越多。不同層次的圓環(huán)代表關(guān)鍵詞出現(xiàn)的不同年份,顏色越冷關(guān)鍵詞被引的年份越早。表2所示是中心性大于0頻次較高的主要關(guān)鍵詞。

      1) 頻數(shù)(Freq)指標(biāo)計(jì)量分析

      頻次是對(duì)節(jié)點(diǎn)進(jìn)行統(tǒng)計(jì)后得到的數(shù)值,對(duì)文獻(xiàn)的關(guān)鍵詞進(jìn)行統(tǒng)計(jì)分析后可以發(fā)現(xiàn)該領(lǐng)域的研究現(xiàn)狀。如表2所示,1999—2001年關(guān)于分類(lèi)的關(guān)鍵詞頻次較高,且文本分類(lèi)技術(shù)的發(fā)展早于網(wǎng)頁(yè)分類(lèi),是網(wǎng)頁(yè)分類(lèi)技術(shù)發(fā)展的基礎(chǔ)。2002—2005年,首次出現(xiàn)的高頻詞有“algorithm”“information retrieval”“Feature selection”等,文獻(xiàn)[3]使用基于同義詞合并的特征選擇的方法對(duì)文本進(jìn)行分類(lèi)。從2006年開(kāi)始,首次出現(xiàn)的關(guān)鍵詞較多,但頻次較低。1999—2006年間數(shù)據(jù)分析表明網(wǎng)頁(yè)分類(lèi)領(lǐng)域開(kāi)始逐漸成熟,延伸到多個(gè)研究領(lǐng)域,從該時(shí)期網(wǎng)頁(yè)分類(lèi)技術(shù)開(kāi)始快速發(fā)展,國(guó)內(nèi)外的眾多研究者給予了更多的關(guān)注。

      圖2 ?關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜

      表2 ?關(guān)鍵詞Top13的排名統(tǒng)計(jì)及首次出現(xiàn)年份

      2) 中心性(Centrality)指標(biāo)計(jì)量分析

      通過(guò)關(guān)鍵詞的中心性,可以更直觀地發(fā)現(xiàn)該研究領(lǐng)域的熱點(diǎn)問(wèn)題。中心性較高的13個(gè)主題見(jiàn)表2?!癱lassification”“Text classfication”“algorithm”是中心性排名靠前的關(guān)鍵詞。由關(guān)鍵詞的中心性可知,在網(wǎng)頁(yè)分類(lèi)技術(shù)研究領(lǐng)域中,算法的研究對(duì)網(wǎng)頁(yè)分類(lèi)提供了重要支撐。文獻(xiàn)[4]使用超文本誘導(dǎo)主題搜索(HITS)算法對(duì)網(wǎng)頁(yè)進(jìn)行分類(lèi)。2004—2006年,出現(xiàn)的高中心性關(guān)鍵詞有“support vector machine”“Data mining”“classifier”等。支持向量機(jī)是機(jī)器學(xué)習(xí)領(lǐng)域中的一種學(xué)習(xí)模型,數(shù)據(jù)挖掘是橫跨多個(gè)學(xué)科、多個(gè)領(lǐng)域挖掘信息的技術(shù),分類(lèi)器可以構(gòu)造分類(lèi)模型,而分類(lèi)是數(shù)據(jù)挖掘中的一種重要方法。通過(guò)上面的關(guān)鍵詞,發(fā)現(xiàn)關(guān)鍵詞之間聯(lián)系緊密,網(wǎng)頁(yè)分類(lèi)涉及的領(lǐng)域非常廣泛,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等技術(shù)對(duì)網(wǎng)頁(yè)分類(lèi)領(lǐng)域的發(fā)展奠定了最扎實(shí)的基礎(chǔ),為后續(xù)的發(fā)展提供了強(qiáng)有力的技術(shù)支撐。近幾年,人工智能技術(shù)開(kāi)始融入到網(wǎng)頁(yè)分類(lèi)領(lǐng)域上,該技術(shù)對(duì)網(wǎng)頁(yè)分類(lèi)的運(yùn)用使該領(lǐng)域突破了新的高度,也帶來(lái)了新的機(jī)遇和挑戰(zhàn)。

      3) 突現(xiàn)(Burst)指標(biāo)計(jì)量分析

      Burst指標(biāo)是指變量在一段時(shí)期內(nèi)發(fā)生顯著變化的值,用突現(xiàn)值來(lái)分析文獻(xiàn)深層變化的信息?!癢eb search”是最早出現(xiàn)的突現(xiàn)值,突現(xiàn)值為3.148 15,從該突現(xiàn)值發(fā)現(xiàn)網(wǎng)頁(yè)分類(lèi)技術(shù)在2000年左右還處于初步發(fā)展階段,網(wǎng)頁(yè)搜索技術(shù)在該階段變成研究熱點(diǎn)。2003—2005年每年都有突現(xiàn)值,分別是“information retrieval”“support vector machine”“Feature selection”,該時(shí)間段網(wǎng)頁(yè)分類(lèi)領(lǐng)域發(fā)展迅速,研究熱點(diǎn)逐漸變多,研究者通過(guò)不同的視角分析網(wǎng)頁(yè)分類(lèi)。2009年出現(xiàn)的突現(xiàn)詞是“framework”,文獻(xiàn)[5]提出對(duì)短文本分類(lèi)的框架。通過(guò)對(duì)突現(xiàn)詞的整體分析,可以發(fā)現(xiàn)典型的基礎(chǔ)技術(shù)在該領(lǐng)域的一段時(shí)期內(nèi)發(fā)生顯著的變化,并引領(lǐng)該領(lǐng)域的后續(xù)發(fā)展。

      3 ?研究演化分析

      1973年美國(guó)情報(bào)學(xué)家Henry Smal首次提出了共被引分析的概念。共被引分析(Co?Citation Analysis)是指當(dāng)兩篇文獻(xiàn)同時(shí)出現(xiàn)在另一篇文獻(xiàn)的參考目錄時(shí),則這兩篇文獻(xiàn)已構(gòu)成共被引關(guān)系。原始數(shù)據(jù)集中的共被引文獻(xiàn)可以當(dāng)作該研究領(lǐng)域的知識(shí)基礎(chǔ),知識(shí)基礎(chǔ)的聚類(lèi)和演變研究是探究熱點(diǎn)主題、研究演化的重要依據(jù)。在CiteSpace中設(shè)置一系列參數(shù)并運(yùn)行之后得到共被引文獻(xiàn)共現(xiàn)聚類(lèi)圖譜,如圖3所示。

      圖3 ?共被引文獻(xiàn)共現(xiàn)聚類(lèi)圖譜

      1) 1998—2005年:通過(guò)圖3的聚類(lèi)和分析,該階段的共被引文獻(xiàn)量較多,并且文獻(xiàn)之間的內(nèi)在聯(lián)系較密切。通過(guò)該階段的大量文獻(xiàn)發(fā)現(xiàn),該階段的研究主要集中在“網(wǎng)頁(yè)分類(lèi)算法研究”和“網(wǎng)頁(yè)分類(lèi)技術(shù)的理念推介”兩個(gè)方面。于2002年發(fā)表的文獻(xiàn)[6]的共被引次數(shù)較多,該文獻(xiàn)主要研究的是機(jī)器學(xué)習(xí)在文本自動(dòng)分類(lèi)中的應(yīng)用。文獻(xiàn)[6]詳細(xì)討論了文本表示、分類(lèi)器構(gòu)造和分類(lèi)器評(píng)估三個(gè)方面的問(wèn)題,為后期研究提供了重要理論支持。 文獻(xiàn)[7]在關(guān)于網(wǎng)頁(yè)分類(lèi)研究中參考了該文獻(xiàn),這也表明文本分類(lèi)技術(shù)是網(wǎng)頁(yè)分類(lèi)領(lǐng)域的前沿分支。研究網(wǎng)頁(yè)分類(lèi)算法是推動(dòng)網(wǎng)頁(yè)分類(lèi)技術(shù)發(fā)展的基礎(chǔ)研究,文獻(xiàn)[4]提出超文本誘導(dǎo)主題搜索算法,該算法通過(guò)減少輸入數(shù)據(jù)的大小來(lái)減少網(wǎng)頁(yè)分類(lèi)所需的時(shí)間。通過(guò)圖3的分析,可以發(fā)現(xiàn)該階段網(wǎng)頁(yè)分類(lèi)領(lǐng)域有很多優(yōu)秀的研究成果,這些研究成果為后續(xù)的網(wǎng)頁(yè)分類(lèi)技術(shù)的發(fā)展提供了豐富的理論和實(shí)踐基礎(chǔ)。

      2) 2006—2011年:該階段的共被引文獻(xiàn)量相比第一階段少了很多,文獻(xiàn)之間的聯(lián)系還算密切,該階段的高共被引文獻(xiàn)是于2009年發(fā)表的文獻(xiàn)[8],該文獻(xiàn)主要有三方面的貢獻(xiàn),分別是:針對(duì)網(wǎng)頁(yè)分類(lèi),探索并總結(jié)了有用的網(wǎng)頁(yè)特性和算法;列舉網(wǎng)頁(yè)分類(lèi)的主要應(yīng)用程序;討論未來(lái)的研究方向。該文獻(xiàn)最大的優(yōu)點(diǎn)就是系統(tǒng)地總結(jié)了國(guó)內(nèi)外專(zhuān)家的研究結(jié)論和成果,并在此基礎(chǔ)上對(duì)未來(lái)的發(fā)展方向進(jìn)行分析和討論。文獻(xiàn)[9]在關(guān)于網(wǎng)頁(yè)分類(lèi)優(yōu)化方法和網(wǎng)頁(yè)分類(lèi)模型改進(jìn)的文獻(xiàn)中參考過(guò)該文獻(xiàn)。文獻(xiàn)[10]是該階段的第二個(gè)高共被引文獻(xiàn),該文獻(xiàn)主要介紹支持向量機(jī)的庫(kù)文件LIBSVM的實(shí)現(xiàn)細(xì)節(jié),并詳細(xì)討論了支持向量機(jī)優(yōu)化問(wèn)題、理論收斂的多類(lèi)分類(lèi)概率估計(jì)和參數(shù)選擇等問(wèn)題。支持向量機(jī)應(yīng)用到網(wǎng)頁(yè)分類(lèi)技術(shù)上不僅提高了網(wǎng)頁(yè)分類(lèi)的效率,還提高了準(zhǔn)確率。文獻(xiàn)[11]利用支持向量機(jī)提出了高效的網(wǎng)頁(yè)自動(dòng)分類(lèi)方法。通過(guò)該階段的共被引文獻(xiàn)分析,該階段的網(wǎng)頁(yè)分類(lèi)領(lǐng)域不管是在理論研究上還是在實(shí)用系統(tǒng)上都取得了很多優(yōu)秀的成果,尤其是與機(jī)器學(xué)習(xí)技術(shù)的結(jié)合產(chǎn)生了很多有效率、有準(zhǔn)確率的網(wǎng)頁(yè)自動(dòng)分類(lèi)系統(tǒng)。

      3) 2012—2017年:如圖3所示,該階段的高共被引文獻(xiàn)相較于前兩個(gè)階段少很多,導(dǎo)致該結(jié)果的原因有兩個(gè):第一是因?yàn)槟甏容^近,很多優(yōu)秀的文獻(xiàn)還沒(méi)有被人挖掘并引用;第二是因?yàn)榫W(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究分支越來(lái)越細(xì)化,研究中心呈現(xiàn)多態(tài)化,因此文獻(xiàn)分布越來(lái)越廣。該階段共被引次數(shù)較多的是文獻(xiàn)[12],主要講的是基于關(guān)鍵詞抽取技術(shù)的文本分類(lèi)。通過(guò)多個(gè)分類(lèi)算法的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),決策樹(shù)算法具有非常好的文本分類(lèi)精度,文獻(xiàn)中的樸素貝葉斯、決策樹(shù)和K?近鄰算法的對(duì)比實(shí)驗(yàn)分析給后面的研究者提供了很好的參考作用。文獻(xiàn)[5]在關(guān)于短文本分類(lèi)中就參考過(guò)上述文獻(xiàn)。該階段網(wǎng)頁(yè)分類(lèi)領(lǐng)域不斷擴(kuò)大,不斷涉及其他領(lǐng)域的技術(shù),如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、特征選擇等技術(shù)。

      本文利用CiteSpace工具對(duì)國(guó)內(nèi)外近20年有關(guān)網(wǎng)頁(yè)分類(lèi)領(lǐng)域的文獻(xiàn)進(jìn)行可視分析,對(duì)網(wǎng)頁(yè)分類(lèi)領(lǐng)域的主要研究國(guó)家、研究機(jī)構(gòu)、研究熱點(diǎn)和演化過(guò)程有了一定的了解。通過(guò)以上分析和介紹,網(wǎng)頁(yè)分類(lèi)領(lǐng)域分為以下三個(gè)階段:初創(chuàng)期(1998—2005年);發(fā)展期(2006—2011年);深化期(2012年—至今),如表3所示。

      表3 主題詞階段分析表

      4 ?結(jié) ?語(yǔ)

      結(jié)合前文分析對(duì)本文的總結(jié)如下:

      1) 國(guó)際網(wǎng)頁(yè)分類(lèi)領(lǐng)域的發(fā)展已經(jīng)趨于穩(wěn)定狀態(tài)。從研究機(jī)構(gòu)的影響力來(lái)看,在文獻(xiàn)的數(shù)量和質(zhì)量上,中國(guó)的研究機(jī)構(gòu)處于領(lǐng)先地位,尤其是中國(guó)科學(xué)院不僅發(fā)文量多影響力也比較大。從國(guó)家的角度來(lái)看,美國(guó)對(duì)其他國(guó)家的影響力最大,其次是西班牙,中國(guó)排名第三。

      2) 國(guó)際網(wǎng)頁(yè)分類(lèi)領(lǐng)域的研究熱點(diǎn)主要在機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘兩方面較突出。這兩方面的研究成功地讓網(wǎng)頁(yè)分類(lèi)技術(shù)不管在效率上還是正確率上相較以前提高了很多。

      3) 國(guó)際網(wǎng)頁(yè)分類(lèi)領(lǐng)域現(xiàn)在已經(jīng)形成了較為完善的研究網(wǎng)絡(luò)。有很多優(yōu)秀的文獻(xiàn)提供了理論基礎(chǔ)和實(shí)驗(yàn)論證,該領(lǐng)域還在不斷地拓展自己的領(lǐng)域,研究分支越來(lái)越細(xì)化。

      參考文獻(xiàn)

      [1] 陳悅,陳超美,劉則淵,等.CiteSpace知識(shí)圖譜的方法論功能[J].科學(xué)學(xué)研究,2015,33(2):242?253.

      CHEN Yue, CHEN Chaomei, LIU Zeyuan, et al. The metho?dology function of CiteSpace mapping knowledge domains [J]. Studies in science of science, 2015, 33(2): 242?253.

      [2] 胡海霞.基于CNKI的計(jì)算機(jī)科學(xué)期刊論文的計(jì)量分析[J].宜春學(xué)院學(xué)報(bào),2017,39(6):50?54.

      HU Haixia. Quantitative analysis on the journal article of computer science based on CNKI data [J]. Journal of Yichun University, 2017, 39(6): 50?54.

      [3] YAO H, LIU C, ZHANG P, et al. A feature selection method based on synonym merging in text classification system [J]. EURASIP journal on wireless communications & networking, 2017, 166: 1?8.

      [4] MEADI M N, BABAHENINI M C, AHMED A T. New use of the HITS algorithm for fast web page classification [J]. Turkish journal of electrical engineering & computer sciences, 2017, 25(3): 2015?2032.

      [5] NANDINI V, JANANI C R, MAHESWARI P U. A framework for measuring similarity between terms in short text categorization [C]// 2016 Online International Conference on Green Engineering and Technologies. Coimbatore: IEEE, 2017: 1?7.

      [6] SEBASTIANI F. Machine learning in automated text categorization [J]. ACM computing surveys, 2002, 34(1): 1?47.

      [7] LEE J H, YEH W C, CHUANG M C. Web page classification based on a simplified swarm optimization [J]. Applied mathematics and computation, 2015, 270(C): 13?24.

      [8] QI X, DAVISON B D. Web page classification: features and algorithms [J]. ACM computing surveys, 2009, 41(2): 1?31.

      [9] LI H, XU Z, LI T, et al. An optimized approach for massive Web page classification using entity similarity based on semantic network [J]. Future generation computer systems, 2017, 76: 510?518.

      [10] CHANG C C, LIN C J. LIBSVM: a library for support vector machines [J]. ACM transactions on intelligent systems and technology, 2011, 2(3): 1?27.

      [11] BHALLA V K, KUMAR N. An efficient scheme for automatic Web pages categorization using the support vector machine [J]. New review of hypermedia & multimedia, 2016, 22(3): 223?242.

      [12] MNAKA S, RADHA N. Text classification using keyword extraction technique [J]. International journal of advanced research in computer science and software engineering, 2013(4): 128?132.

      猜你喜歡
      網(wǎng)頁(yè)圖譜分類(lèi)
      分類(lèi)算一算
      繪一張成長(zhǎng)圖譜
      分類(lèi)討論求坐標(biāo)
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      基于URL和網(wǎng)頁(yè)類(lèi)型的網(wǎng)頁(yè)信息采集研究
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      新建县| 达州市| 开原市| 灌阳县| 互助| 延安市| 嘉黎县| 邮箱| 延安市| 衡东县| 海晏县| 赤水市| 仪征市| 略阳县| 康平县| 龙岩市| 华阴市| 玉树县| 石柱| 二手房| 芮城县| 昭觉县| 道孚县| 敖汉旗| 甘孜县| 五原县| 正定县| 澄城县| 大悟县| 二连浩特市| 邵阳市| 浑源县| 习水县| 禹城市| 上饶市| 栾川县| 武夷山市| 海淀区| 紫金县| 五峰| 奉化市|