404 Not Found

nginx 404 Not Found

404 Not Found

nginx

基于Word的中文詞頻分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

2020-12-09 05:24:35楊鵬張利強(qiáng)賀斯慧

企業(yè)科技與發(fā)展 2020年10期

關(guān)鍵詞：詞頻

楊鵬張利強(qiáng) 賀斯慧

【摘要】隨著互聯(lián)網(wǎng)的飛速發(fā)展，各類網(wǎng)絡(luò)開發(fā)平臺(tái)飛速成長(zhǎng)，供用戶在網(wǎng)絡(luò)上暢所欲言，交流學(xué)習(xí)。但是，各種垃圾信息在網(wǎng)絡(luò)上頻繁發(fā)布，違背了網(wǎng)絡(luò)平臺(tái)開發(fā)的初衷，污染了網(wǎng)絡(luò)環(huán)境。為杜絕此類垃圾信息，各大平臺(tái)都采取各種措施優(yōu)化網(wǎng)絡(luò)環(huán)境，但是效果不佳，究其原因在于文字的任意組合排列都會(huì)產(chǎn)生不同的信息，而在攔截垃圾信息時(shí)必須進(jìn)行模板化配置攔截，這就導(dǎo)致垃圾信息是可變的而攔截信息卻要人為操作。為解決此類問題，可以將垃圾信息細(xì)化成單獨(dú)的個(gè)體，也就是對(duì)信息進(jìn)行分詞。

【關(guān)鍵詞】word分詞;詞頻;中文分詞

【中圖分類號(hào)】TP311.52 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688（2020）10-0070-03

0 引言

中文分詞處理需要對(duì)現(xiàn)有的中文信息至少?gòu)淖帧⒃~、句等3個(gè)層面進(jìn)行處理，甚至必須從語義、詞性等方面處理才能分析出其中意義。在中文里面，詞是最小的語言單位，如果不處理好中文分詞的問題，那么處理語句問題也就無從談起，所以中文分詞是中文處理技術(shù)的基礎(chǔ)。相對(duì)于其他語言，中文分詞是比較復(fù)雜的。英語的單詞之間有著空格相隔，檢索方便，并且采用窮舉的方式表達(dá)其意，因此不存在分詞的說法。中文語句之間是沒有分割符的，想要處理中文，就需要專門的技術(shù)支撐。隨著自然語言的興起發(fā)展，涌現(xiàn)眾多算法支撐中文分詞。根據(jù)特點(diǎn)，我們可以分為以下幾類：匹配算法、理解算法、統(tǒng)計(jì)算法、語義算法。每種方法各有優(yōu)劣，目前沒有單一的算法能達(dá)到令人滿意的結(jié)果，只有優(yōu)勢(shì)互補(bǔ)才能得到相對(duì)好的結(jié)果。

本文結(jié)合各類算法并利用現(xiàn)有的網(wǎng)絡(luò)環(huán)境提供了多種基于詞典的分詞算法，選用Java語言利用Word分詞去除詞句相近的多重歧義。能夠準(zhǔn)確地識(shí)別時(shí)間、日期及數(shù)字等數(shù)量詞，結(jié)合中國(guó)國(guó)情能夠識(shí)別出人名、地名、組織結(jié)構(gòu)名等未登錄詞。提供配置化改變?cè)~庫行為及豐富分詞的功能;用戶自己上傳詞庫，自動(dòng)監(jiān)聽詞庫改變;能夠在現(xiàn)在流行的分布式環(huán)境下提供支持，提供統(tǒng)計(jì)詞頻、拼音、未登錄詞、量詞等功能。結(jié)合市面上各種各大分布式框架進(jìn)行Lucene、Solr、ElasticSearch、Luke集成實(shí)時(shí)處理。

1 分詞算法

分詞算法大體可以總結(jié)為四大類，分別是基于規(guī)則的分詞、基于統(tǒng)計(jì)的分詞、基于語義的分詞、基于理解的分詞。

1.1 基于規(guī)則的分詞方法

基于規(guī)則的分詞方法是一種機(jī)械分詞方法，需要依托于字典的詞庫模型分詞，按照定義的策略將要分解的字符串與詞庫模型進(jìn)行逐條匹配。找到則匹配成功。這種方式和數(shù)據(jù)庫的搜索類似，因此該方法受一定的環(huán)境限制，倘若詞庫過于龐大，在匹配時(shí)就會(huì)消耗大量的資源和時(shí)間。這種方法需要保證文本的掃描順序、詞典及匹配規(guī)則。文本的掃描索引類似鏈表查詢節(jié)點(diǎn)，有正向、逆向、雙向3種選擇。原則上可以分為正向最大匹配法和逆向最大匹配法及雙向結(jié)合最佳匹配法。

1.2 基于統(tǒng)計(jì)的分詞方法

基于統(tǒng)計(jì)的分詞的主要思路：詞是能夠窮舉的穩(wěn)定組合，因此如果相鄰的字出現(xiàn)在同一場(chǎng)景下的次數(shù)過多就可能組成一個(gè)詞?；谶@樣的規(guī)則，我們通過字出現(xiàn)的概率和頻率統(tǒng)計(jì)詞的可信度。對(duì)文本中字之間出現(xiàn)位置頻度進(jìn)行統(tǒng)計(jì)，得出它們之間的相作用信息。該信息體現(xiàn)了文字之間的緊密度。當(dāng)緊密度大于閾值時(shí)，可以將這個(gè)字組合認(rèn)為是一個(gè)詞。該方法所應(yīng)用的主要的統(tǒng)計(jì)模型是N-gram模型，也就是本系統(tǒng)主要使用的模型。市面上還有其他成熟模型，例如條件隨機(jī)模型、最大熵模型、隱馬爾可夫模型等。

1.3 基于理解的分詞方法

利用計(jì)算機(jī)的運(yùn)算，按照策略模擬大腦運(yùn)算并分析句子的含義，從而達(dá)到識(shí)別效果。這是一種先進(jìn)的分詞方式，它結(jié)合了句法、語義、分詞等多種分詞方式進(jìn)行處理。主要包括分詞系統(tǒng)、歧義識(shí)別系統(tǒng)、總控系統(tǒng)。在總控系統(tǒng)的協(xié)調(diào)下，分詞系統(tǒng)可以對(duì)分詞的相關(guān)詞、句子等信息進(jìn)行判斷，模擬人對(duì)文本的理解過程，這種方法需要大量的語言知識(shí)庫。

2 系統(tǒng)設(shè)計(jì)

本系統(tǒng)從應(yīng)用上劃分為兩大塊;一是作為開放平臺(tái)供人們使用統(tǒng)計(jì)，用于日常中文分析結(jié)合網(wǎng)絡(luò)環(huán)境動(dòng)態(tài)識(shí)別語言多重含義，分解短語統(tǒng)計(jì)詞性;二是作為開發(fā)平臺(tái)銜接市面上各大信息分析框架如Lucence、Solr、ElasticSearch、Luke、Redis等各大分布式緩存框架，提供分詞處理驅(qū)動(dòng)。

2.1 分詞引擎

分詞引擎，分詞實(shí)現(xiàn)支撐主要由分詞詞典和規(guī)則庫組成。利用責(zé)任鏈模式，流程如下：輸入待處理中文文本→基本分詞→歧義字段切分→命名實(shí)體的識(shí)別→未登陸詞的識(shí)別→分詞過濾→分詞結(jié)果。上述組成分詞引擎，作為開放平臺(tái)和開發(fā)平臺(tái)的功能支撐（如圖1所示）。

2.2 平臺(tái)架構(gòu)

開放平臺(tái)主要采用流行的Web應(yīng)用，通過前端應(yīng)用傳遞分詞結(jié)果，由后端進(jìn)行處理，調(diào)用分詞引擎將分詞信息返回給調(diào)用者，調(diào)用者通過分析框架和引擎進(jìn)行分詞統(tǒng)計(jì)分析。開發(fā)平臺(tái)采用依賴包和請(qǐng)求配置等進(jìn)行接入，不會(huì)破壞系統(tǒng)的原來架構(gòu)和代碼，作為一個(gè)插拔式的、拿來即用的應(yīng)用。

2.3 開發(fā)語言

開發(fā)語言選用面向?qū)ο蟮恼Z言JAVA作為基礎(chǔ)引擎的功能開發(fā)語言，現(xiàn)在市面上常用應(yīng)用分布在Web端和App端，而這兩端的后臺(tái)支撐80%左右都是JAVA語言，并且JAVA語言在數(shù)據(jù)分析存儲(chǔ)方面也有著巨大的優(yōu)勢(shì)，比如常搭配分布式使用的ES（ElasticSearch）、Hadoop、Spark等高性能框架。我們采用JAVA語言開發(fā)分詞引擎可以很好地接入這些框架。

2.4 分詞組件

Word分詞器自帶多種詞典分詞算法，文本相似算法覆蓋面廣泛，利用N-gram模型識(shí)別短語歧義，底層也是采用JAVA語言編寫，因此可以更加方便地接入各大平臺(tái)，并且為分詞引擎提供很好的環(huán)境支持。

3 系統(tǒng)主要模塊設(shè)計(jì)與實(shí)現(xiàn)

3.1 word分詞

用戶通過Web表單提交待分詞的中文文本，前端通過Axios.create（config）方法創(chuàng)建Axios實(shí)體攔截用戶請(qǐng)求，調(diào)用axiosInstance.interceptor.response.use（config）方法轉(zhuǎn)發(fā)請(qǐng)求，系統(tǒng)后端在接到請(qǐng)求后初始化繼承自SpringSecurity的OncePerRequestFilter的filter對(duì)象，并調(diào)用其doFilterInternal（）方法獲得用戶提交的數(shù)據(jù)與請(qǐng)求。獲取文本后，調(diào)用SplitFactory.getInstance（wordConfig.xml）讀取word分詞依賴，并生成analyzer實(shí)例，analyzer調(diào)用tokenStream（“text”，splitWordStr）得到分詞切片器對(duì)象tokenStream，然后對(duì)分詞切片器進(jìn)行停用詞、詞庫、自建字典、優(yōu)先級(jí)設(shè)置，設(shè)置完成后通過split獲得分詞結(jié)果，同時(shí)調(diào)用數(shù)據(jù)訪問類將結(jié)果存入數(shù)據(jù)庫中，供后期詞頻統(tǒng)計(jì)使用。

3.2 詞頻字典

數(shù)據(jù)字典是后端應(yīng)用開發(fā)漫長(zhǎng)過程中總結(jié)出來的一套通用的程序設(shè)計(jì)方法，它的作用是存儲(chǔ)除了需求業(yè)務(wù)主體之外的屬性信息，從而統(tǒng)一維護(hù)管理。例如，用戶存在性別屬性，性別又有男、女的取值范圍，此時(shí)該屬性的取值范圍或者說取值枚舉就需要用統(tǒng)一數(shù)據(jù)集進(jìn)行維護(hù)，這就是數(shù)據(jù)字典的作用。在詞頻分析系統(tǒng)中，為了更快速地對(duì)詞頻進(jìn)行分析，借用數(shù)據(jù)字典的思想，將所有字詞作為數(shù)據(jù)元，在數(shù)據(jù)庫中存儲(chǔ)字詞出現(xiàn)的次數(shù)及與其他詞語相關(guān)出現(xiàn)的次數(shù)，將這些結(jié)果作為詞的屬性，使用枚舉類型統(tǒng)一管理配置。

3.3 詞頻分析

詞頻WordFrequency表示的是某一個(gè)詞語在文本中出現(xiàn)的頻率。假定在文本字符串集S{s1，s2，s3，…，sn}中包含n個(gè)字符串，包含特征詞的Wi的字符串?dāng)?shù)為m，m除以n的結(jié)果就是關(guān)鍵詞Wi的詞頻，即

WFi值越大，表示詞語在文本中出現(xiàn)的概率高，則該詞語的參考價(jià)值高，反之則表示該詞語參考價(jià)值低。當(dāng)WFi極低時(shí)，表明該詞對(duì)文本內(nèi)容沒有貢獻(xiàn)，刪除該詞對(duì)分詞結(jié)果沒有影響，所以為了降低系統(tǒng)的復(fù)雜度，系統(tǒng)通過最小風(fēng)險(xiǎn)估計(jì)法，設(shè)置一個(gè)最低閾值，當(dāng)WFi低于該值時(shí)，自動(dòng)刪除該詞。

詞頻分析的實(shí)現(xiàn)過程核心如下：

調(diào)用new WordInfomation（）方法初始化用于保存關(guān)鍵詞、出現(xiàn)次數(shù)、相關(guān)度的WordInformation對(duì)象，并將當(dāng)前關(guān)鍵詞通過setInfo（keyString.getString（））注入wordInformation中，并通過while循環(huán)進(jìn)行遍歷查詢比較，統(tǒng)計(jì)該詞在字符串中出現(xiàn)的次數(shù)及與之相關(guān)的詞語。While（keyStringList.hasNext（））{ if（keyString）在文本中出現(xiàn)，那么調(diào)用setInfoNumberCount（wordInformation.getInfoNumber（）+1）;累加出現(xiàn)記錄次數(shù)。完成遍歷后，將出現(xiàn)次數(shù)除以字符串總數(shù)，得出詞頻概率，并通wordDaoImplement對(duì)象的update（wordFreq）方法將其存入數(shù)據(jù)庫中。

3.4 結(jié)果展示

為了更直觀、高效地將分詞與詞頻結(jié)果展示給用戶，后臺(tái)完成分詞統(tǒng)計(jì)后，將結(jié)果封裝到j(luò)son對(duì)象中，并通過response對(duì)象將json轉(zhuǎn)發(fā)給前臺(tái)頁面，前臺(tái)頁面中使用Vue進(jìn)行數(shù)據(jù)解析，首先調(diào)用initRender（）對(duì)頁面中需要使用的form、laydateInstance、formInstance等layUI組件進(jìn)行初始化，完成初始化后通過$.each（res.data，function（i，obj））方法完成數(shù)據(jù)的綁定，然后通過render方法將數(shù)據(jù)進(jìn)行渲染刷新，將結(jié)果展現(xiàn)給用戶（如圖2所示）。

4 結(jié)語

目前，分詞引擎主要利用自然語言中的技術(shù)，尚不能完美地處理語法分析的問題。在語法詞義等方面的自動(dòng)分析研究還需要進(jìn)一步挖掘。在自然語法挖掘方面，神經(jīng)網(wǎng)絡(luò)分詞具有顯著的優(yōu)勢(shì)。但是，目前人們的狀態(tài)轉(zhuǎn)義和規(guī)則推理尚不能完全表達(dá)出人類大腦思維的機(jī)制;對(duì)復(fù)雜、模糊的信息處理，仍然處于無能為力的地步;分詞庫的建設(shè)和詞典選擇還具備大量的人為因素。對(duì)此，本文提出了一種基于Word的中文詞頻分析系統(tǒng)，采用Javaweb框架技術(shù)，將傳統(tǒng)分詞進(jìn)行平臺(tái)化，為垃圾信息處理提供前置服務(wù)和參考。

參考文獻(xiàn)

[1]丁潔，趙景惠.基于N-gram模型的中文分詞算法的研究[J].福建電腦，2017（5）：110，116.

[2]楊貴軍，徐雪，鳳麗洲，等.基于最大匹配算法的似然導(dǎo)向中文分詞方法[J].統(tǒng)計(jì)與信息論壇，2019，34（3）：19-24.

[3]于舒曼，馬秀峰.基于詞頻分析和共詞聚類的圖書館創(chuàng)客空間研究熱點(diǎn)分析[J].大學(xué)圖書情報(bào)學(xué)刊，2019，37（2）：99-103.

404 Not Found

nginx

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

404 Not Found

404 Not Found

404 Not Found

404 Not Found

404 Not Found

404 Not Found

基于Word的中文詞頻分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

404 Not Found

404 Not Found

404 Not Found

404 Not Found

404 Not Found