• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Web文本挖掘及可視化

      2018-05-03 04:09鄧遠(yuǎn)飛林曉偉
      價(jià)值工程 2018年14期
      關(guān)鍵詞:詞云分詞預(yù)處理

      鄧遠(yuǎn)飛 林曉偉

      摘要: 文本挖掘和文本可視化是計(jì)算機(jī)中重要應(yīng)用技術(shù),能夠形象地高度概括文本信息中的核心內(nèi)容,方便人們快速地理解和吸收文本中的核心思想。本文闡述文本挖掘預(yù)處理簡要處理流程,然后闡述使用R軟件進(jìn)行文本挖掘,實(shí)現(xiàn)詞項(xiàng)聚類、文本聚類、繪畫詞項(xiàng)云圖、詞項(xiàng)網(wǎng)絡(luò)圖等,找出其中隱藏的文本信息,并以可視化方式展現(xiàn)出來。最后對(duì)文本挖掘和文本可視化技術(shù)進(jìn)行總結(jié)和展望。

      Abstract: Text mining and text visualization are important application technologies in computers. They can summarize the core content of text information highly and help people quickly understand and absorb the core ideas in the text. This article elaborates the brief processing flow of text mining preprocessing, and then elaborates the use of R software for text mining, and implements term clustering, text clustering, drawing term cloud diagrams, term network diagrams, etc., to find the hidden text information, and visualize it. Finally, it summarizes and prospects text mining and text visualization technologies.

      關(guān)鍵詞: 預(yù)處理;分詞;文本聚類;文本可視化;詞云

      Key words: preprocessing;word segmentation;text clustering;text visualization;word cloud

      中圖分類號(hào):TP319 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-4311(2018)14-0216-03

      0 引言

      文本無處不在,是信息交流的主要傳媒之一。Web文本挖掘是指從大量非結(jié)構(gòu)化、異構(gòu)的Web文檔的集合中發(fā)現(xiàn)有效的、潛在可用的及最終可理解知識(shí)的過程。Web文本挖掘可以對(duì) Web上文檔內(nèi)容進(jìn)行關(guān)聯(lián)分析、分類、聚類等。互聯(lián)網(wǎng)時(shí)代,如何利用文本挖掘技術(shù),從大量半結(jié)構(gòu)化文本數(shù)據(jù)中抽取關(guān)鍵信息、提升理解速度等,這是一個(gè)復(fù)雜的綜合性研究課題。文本可視化技術(shù)綜合了文本分析、數(shù)據(jù)挖掘、數(shù)據(jù)可視化等學(xué)科的理論和方法,為人們理解復(fù)雜的文本內(nèi)容、結(jié)構(gòu)和內(nèi)在的規(guī)律等信息的有效手段,旨在最大程度的實(shí)現(xiàn)抽象與概括海量的文本信息,方便用戶快速理解和吸收文本的主要內(nèi)容。

      本文所要處理的數(shù)據(jù)文本源,已在前階段研究工作中完成,已經(jīng)將處理后的花語文本存儲(chǔ)到MySQL數(shù)據(jù)庫中。本文使用R軟件實(shí)現(xiàn)文本預(yù)處理、詞項(xiàng)聚類、文本聚類和文本可視化等。

      1 文本預(yù)處理

      數(shù)據(jù)分類有按花材分類、送花對(duì)象分類和送花用途分類。在本文中,“玫瑰+戀人+愛情”表示為選取花材為“玫瑰”,送花對(duì)象為“戀人”,送花用途為“愛情”的花語文本。“康乃馨+父母+節(jié)慶”表示為選取花材為“康乃馨”,送花對(duì)象為“父母”,送花用途為“節(jié)慶”的花語文本。

      對(duì)文本預(yù)處理,需經(jīng)過如圖1所示的若干流程:讀取花語文本數(shù)據(jù)、中文分詞(加載自定義詞典)、去除停用詞等、轉(zhuǎn)換文本表示、構(gòu)建詞項(xiàng)-文檔矩陣。中文分詞是中文文本挖掘研究的基礎(chǔ)與難點(diǎn),中文分詞的準(zhǔn)確與否,關(guān)系到能否準(zhǔn)確識(shí)別語句含義,直接影響文本挖掘結(jié)果的分析。分詞后詞項(xiàng)數(shù)量過多,還需進(jìn)行詞項(xiàng)降維、去除無意義詞語。文本預(yù)處理部分使用R軟件中的jiebaR包相關(guān)函數(shù)進(jìn)行處理,其中函數(shù)worker進(jìn)行中文分詞處理,函數(shù)filter_segment剔除停用詞,達(dá)到過濾分詞結(jié)果的效果。

      2 聚類分析

      聚類是將數(shù)據(jù)劃分到不同分類的過程,從很多文檔中把內(nèi)容相似的文檔聚為一類,同類中的對(duì)象有很大相似性,而不同類間的對(duì)象有很大相異性。

      根據(jù)前文分析的結(jié)果,百合和康乃馨的產(chǎn)品頻數(shù)大致相近。另外,百合主要是送給戀人對(duì)象,而康乃馨主要是送給父母對(duì)象,選取這兩種花材的花語進(jìn)行聚類分析,以探究在花材送與對(duì)象表達(dá)的情感不同時(shí)花語表達(dá)的主題內(nèi)容。

      2.1 詞項(xiàng)聚類

      選取“百合+康乃馨”花語,刪除稀疏詞項(xiàng),使用函數(shù)hclust對(duì)詞項(xiàng)層次聚類,樹狀圖被劃分為3個(gè)簇,繪制如圖2聚類圖。

      圖2中,母親、母親節(jié)詞語被分到同一組中,表達(dá)了送與父母的主題;健康、朋友詞語被分到同一組中,表達(dá)了送與朋友的主題;而歲月、關(guān)懷、周年紀(jì)念、爛漫、真摯等詞語被分到一組,表達(dá)了送與戀人的主題。賣家在配置花語上,送與不同的對(duì)象所表達(dá)的主題也不相同,驗(yàn)證了百合花主要送與戀人與朋友,康乃馨主要送與父母與朋友。

      2.2 文本聚類

      選取“玫瑰+康乃馨”花語,對(duì)分詞后的花語文本進(jìn)行k-means聚類,使用函數(shù)kmeans將花語文本劃分為3個(gè)簇,具體的聚類分組和每組頻繁詞項(xiàng)如下:

      由上述簇和詞項(xiàng)可知,每個(gè)簇都圍繞著一個(gè)明確的主題。賣家對(duì)百合、康乃馨產(chǎn)品設(shè)置的花語中,簇1與朋友、友情有關(guān),簇2與戀人、愛情有關(guān),簇3與父母、節(jié)慶有關(guān)。賣家對(duì)百合、康乃馨產(chǎn)品主要表達(dá)三個(gè)主題,分別是愛情、親情和友情。

      3 文本可視化

      文本可視化是通過對(duì)文本資源的分析,發(fā)現(xiàn)特定信息,并使用計(jì)算機(jī)技術(shù)以圖形化方式呈現(xiàn)來的一種方法,其目的是以豐富的圖形方式呈現(xiàn),方便快速理解和吸收文本核心內(nèi)容。本文分別選取“玫瑰+戀人+愛情”和“康乃馨+父母+節(jié)慶”花語進(jìn)一步分析,探究花材、送花對(duì)象、送花用途與花語的關(guān)系。

      3.1 詞項(xiàng)云

      詞項(xiàng)云又稱標(biāo)簽云,是常見的文本關(guān)鍵字可視化方法。建立詞項(xiàng)-文檔矩陣后,通過R程序包wordcloud函數(shù)繪制詞項(xiàng)云。

      3.1.1 “玫瑰+戀人+愛情” 詞項(xiàng)云

      選取“玫瑰+戀人+愛情”花語,設(shè)置 min.freq=14,繪制如圖3的詞項(xiàng)云圖。

      由圖3可看出,其中心圍繞著:愛、幸福、永遠(yuǎn)、愛情、祝福、思念等詞語。這表明,玫瑰主要是用來表達(dá)愛(愛情)、幸福、思念等。

      3.1.2 “康乃馨+父母+節(jié)慶” 詞項(xiàng)云

      選取“康乃馨+父母+節(jié)慶”花語,設(shè)置 min.freq=4,繪制如圖4的詞項(xiàng)云圖。

      由圖4看出,其中心圍繞著:媽媽、祝福、愛、快樂、幸福、溫暖等詞語。這表明,康乃馨主要是用來表達(dá)母愛、幸福、快樂等。

      3.2 詞項(xiàng)網(wǎng)絡(luò)

      詞項(xiàng)網(wǎng)絡(luò)用來描述詞語之間關(guān)聯(lián),直觀展現(xiàn)出詞語之間關(guān)聯(lián)。為了簡化詞項(xiàng)網(wǎng)絡(luò)圖對(duì)詞項(xiàng)-文檔矩陣,降維處理,保留20~30個(gè)左右中心詞項(xiàng)。

      3.2.1 “玫瑰+戀人+愛情”詞項(xiàng)網(wǎng)絡(luò)

      由圖5可看出,在“玫瑰+戀人+愛情”產(chǎn)品的花語設(shè)置中,與其他詞項(xiàng)之間兩兩聯(lián)系、緊密度較大的有:愛、祝福、永遠(yuǎn)、爛漫、擁有等。同時(shí)也說明,賣家在對(duì)玫瑰送給戀人表達(dá)愛情的花語設(shè)置中,愛、祝福、永遠(yuǎn)、爛漫、擁有等詞是結(jié)隊(duì)出現(xiàn)。

      3.2.2 “康乃馨+父母+節(jié)慶”詞項(xiàng)網(wǎng)絡(luò)

      由圖6可看出,在“康乃馨+父母+節(jié)慶”產(chǎn)品的花語設(shè)置中,與其他詞項(xiàng)之間兩兩聯(lián)系、緊密度較大的有:媽媽、幸福、母親、祝福、健康等。同時(shí)也說明,賣家在對(duì)康乃馨送給母親用于節(jié)慶的花語設(shè)計(jì)上,媽媽、母親、幸福、祝福、健康等詞是結(jié)隊(duì)出現(xiàn)。

      4 結(jié)束語

      本文對(duì)花語詞項(xiàng)和文本進(jìn)行聚類分析,繪畫詞項(xiàng)云和詞項(xiàng)網(wǎng)絡(luò)圖并分析,驗(yàn)證了網(wǎng)店在針對(duì)不同的花材、送花對(duì)象、送花用途的花產(chǎn)品時(shí),其表達(dá)的主題內(nèi)容不同,所搭配的花語也不同。實(shí)際文本挖掘應(yīng)用中,如果文本樣本數(shù)據(jù)量偏少,則會(huì)導(dǎo)致關(guān)鍵詞出現(xiàn)頻次不夠,數(shù)據(jù)分布不能夠很好的反映其特征,聚類結(jié)果不明顯,只能粗略反映某種主題。本文通過文本可視化技術(shù),生成直觀的詞云圖與詞項(xiàng)網(wǎng)絡(luò)圖,充分概括文字和數(shù)據(jù)分析得到的結(jié)果,以容易理解和接受的方式展現(xiàn)出來。隨著文本挖掘技術(shù)的逐步發(fā)展,其應(yīng)用范圍也越來越廣。

      參考文獻(xiàn):

      [1]李曉笛.Web文本挖掘技術(shù)研究及應(yīng)用[D].北京交通大學(xué),2015.

      [2]沈記全,唐菁,楊炳儒.Web文本挖掘系統(tǒng)及其分類算法的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(17):37-39.

      [3]楊彥波,劉濱,祁明月.信息可視化研究綜述[J].河北科技大學(xué)學(xué)報(bào),2014(01):91-102.

      猜你喜歡
      詞云分詞預(yù)處理
      分詞在英語教學(xué)中的妙用
      基于預(yù)處理MUSIC算法的分布式陣列DOA估計(jì)
      淺談PLC在預(yù)處理生產(chǎn)線自動(dòng)化改造中的應(yīng)用
      絡(luò)合萃取法預(yù)處理H酸廢水
      基于自適應(yīng)預(yù)處理的改進(jìn)CPF-GMRES算法
      圖學(xué)學(xué)報(bào)(2014年2期)2014-03-06
      論英語不定式和-ing分詞的語義傳承
      丹阳市| 宜章县| 天峨县| 绥棱县| 蛟河市| 虹口区| 东台市| 抚远县| 杭锦旗| 广东省| 开江县| 青阳县| 甘洛县| 桃园县| 西宁市| 清原| 德昌县| 电白县| 图片| 板桥市| 大新县| 阳高县| 五莲县| 奉新县| 夏邑县| 德化县| 津南区| 湟源县| 双柏县| 涪陵区| 临桂县| 密山市| 呼伦贝尔市| 邢台市| 平南县| 化州市| 高邑县| 探索| 宜君县| 湘西| 娄底市|