• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本分類的農(nóng)業(yè)種植信息集成推薦方法研究

      2018-03-22 07:10:45唐東明
      關(guān)鍵詞:分詞分類文本

      彭 爭(zhēng),唐東明

      (西南民族大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,四川 成都 610041)

      中國(guó)作為農(nóng)業(yè)大國(guó),每年都積累包括作物的苗情、土情、水情、蟲情、氣象和災(zāi)害等,面對(duì)如此海量的數(shù)據(jù),目前迫切需要研究解決的問(wèn)題是如何充分利用數(shù)據(jù),從而為農(nóng)民提供指導(dǎo)性和實(shí)用性的信息.目前互聯(lián)網(wǎng)上存在海量的線上資源,線上的農(nóng)業(yè)電子資源對(duì)農(nóng)民具有重要的意義.然而目前廣大農(nóng)民卻不知道怎么查找相應(yīng)的數(shù)據(jù)來(lái)解決實(shí)際生產(chǎn)生活中的問(wèn)題.經(jīng)調(diào)查,他們大多只是在百度上進(jìn)行簡(jiǎn)單檢索,一方面問(wèn)題描述不夠清晰,另一方面檢索到的結(jié)果充斥著大量廣告,最重要的是檢索不到真正有用的信息.而本研究致力于打造的服務(wù)于農(nóng)民種植的應(yīng)用,將網(wǎng)絡(luò)上海量的農(nóng)業(yè)信息進(jìn)行匯總整理,構(gòu)建知識(shí)庫(kù),使農(nóng)民使用時(shí)更加精準(zhǔn),將相關(guān)種植信息關(guān)聯(lián)在一起,具有很強(qiáng)的現(xiàn)實(shí)意義.

      目前新聞文本分類是文本挖掘里面較為常見的場(chǎng)景,然而面對(duì)海量的信息內(nèi)容常常采用人工標(biāo)記新聞?lì)悇e的方式,不僅消耗了大量的人力資源,同時(shí)也因?yàn)楦鞣N因素導(dǎo)致標(biāo)注信息不準(zhǔn)確導(dǎo)致的信息利用率不高[2].

      本文主要通過(guò)KNN算法對(duì)10類待挖掘的文章進(jìn)行處理,通過(guò)對(duì)主題權(quán)重的聚類等實(shí)現(xiàn)農(nóng)業(yè)新聞文本的自動(dòng)分類,通過(guò)分析記錄用戶的瀏覽歷史記錄挖掘出潛在的有價(jià)值的信息和知識(shí)進(jìn)而達(dá)到個(gè)性化推薦的目的.本文設(shè)計(jì)并實(shí)現(xiàn)了基于文本分類算法的農(nóng)業(yè)種植信息推薦系統(tǒng).

      1 系統(tǒng)設(shè)計(jì)

      本系統(tǒng)構(gòu)建的果農(nóng)幫推薦系統(tǒng)將各類農(nóng)業(yè)信息采集、存取、清洗、分析和可視化等進(jìn)行深度集成,通過(guò)數(shù)據(jù)分析優(yōu)化已有的種植方案,并將結(jié)果展示給農(nóng)民.用機(jī)器學(xué)習(xí)方法進(jìn)行分析研究,探索相對(duì)最優(yōu)的農(nóng)民種植策略問(wèn)題,通過(guò)匯總的農(nóng)業(yè)種植信息和災(zāi)害防治信息的集成展示可以對(duì)農(nóng)業(yè)種植經(jīng)行系統(tǒng)化指導(dǎo),根據(jù)農(nóng)民的興趣來(lái)幫助農(nóng)民獲得更多有針對(duì)性的信息,最終設(shè)計(jì)并實(shí)現(xiàn)基于大數(shù)據(jù)的果蔬種植推薦系統(tǒng).具體研究?jī)?nèi)容如下:

      用戶使用該系統(tǒng)過(guò)程中,如果是新用戶,則需要進(jìn)行注冊(cè)操作,選擇自己感興趣的領(lǐng)域話題進(jìn)行標(biāo)注.如果是已注冊(cè)的用戶,則直接進(jìn)行登錄即可.當(dāng)用戶再次登錄該系統(tǒng)以后,系統(tǒng)會(huì)根據(jù)用戶的瀏覽記錄和感興趣的標(biāo)簽與數(shù)據(jù)庫(kù)中處理后的關(guān)鍵詞庫(kù)進(jìn)行相關(guān)匹配,運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行推薦,從而滿足用戶個(gè)性化需求[2].

      系統(tǒng)的整體架構(gòu)如圖1所示:

      圖1 系統(tǒng)整體架構(gòu)Fig.1 System flow diagram

      1.1 數(shù)據(jù)庫(kù)設(shè)計(jì)

      該系統(tǒng)采用MongoDB進(jìn)行數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn).MongoDB是一個(gè)開源的,基于分布式的,面向文檔存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫(kù).考慮到用戶的喜好等屬性會(huì)有多個(gè)記錄因此將其字段設(shè)置為array類型方便存儲(chǔ),本系統(tǒng)主要數(shù)據(jù)庫(kù)設(shè)計(jì)如表1和表2所示:

      表1 article表Table 1 Article Attribute Table

      表2 user表Table 2 User Attribute Table

      網(wǎng)絡(luò)新聞文本具有數(shù)據(jù)量龐大,獲取成本比較低,多樣性豐富,用戶自發(fā)進(jìn)行發(fā)布以及信息及時(shí)性等特點(diǎn)[3-5].本文構(gòu)建的推薦系統(tǒng)的服務(wù)的用戶為以農(nóng)業(yè)種植用戶為主,兼具其他農(nóng)業(yè)從業(yè)人員.考慮到農(nóng)業(yè)數(shù)據(jù)種類豐富,農(nóng)業(yè)信息涉及的范圍非常廣泛,因此數(shù)據(jù)集分類更加多樣化.

      對(duì)于農(nóng)戶來(lái)說(shuō),在種植環(huán)節(jié),農(nóng)民迫切希望了解市場(chǎng)的供需關(guān)系,提前對(duì)市場(chǎng)需求進(jìn)行一定的預(yù)判以便決定種植農(nóng)作物的品種和數(shù)量.在作物的生長(zhǎng)環(huán)節(jié),農(nóng)民更關(guān)心天氣信息以及災(zāi)害防治等,而作物快成熟以后,農(nóng)民更希望了解市場(chǎng)價(jià)格趨勢(shì)等問(wèn)題[6].

      農(nóng)業(yè)類新聞文本數(shù)據(jù)具有以下特點(diǎn),例如文本類形式使得結(jié)構(gòu)化信息較少,一般只具有發(fā)布時(shí)間,標(biāo)題,作者,內(nèi)容等幾個(gè)簡(jiǎn)單屬性,使得進(jìn)行分析時(shí)無(wú)法進(jìn)行結(jié)構(gòu)化檢索等,只能通過(guò)自然語(yǔ)言處理的相關(guān)方法進(jìn)行一系列的處理[6].其次,農(nóng)業(yè)類文本的分類較多,涉及行業(yè)如種植、養(yǎng)殖、病蟲害識(shí)別、市場(chǎng)趨勢(shì)等并無(wú)統(tǒng)一分類規(guī)范[9].此外,農(nóng)業(yè)新聞對(duì)準(zhǔn)確性要求較高,農(nóng)業(yè)新聞是農(nóng)民獲取信息的主要方式,若信息分類不準(zhǔn)確會(huì)造成用戶體驗(yàn)不好,影響推薦效果.

      1.2 文本數(shù)據(jù)處理

      機(jī)器學(xué)習(xí)具有很多分類方法可以應(yīng)用在新聞文本的自動(dòng)分類上,例如KNN,SVM,樸素貝葉斯,決策樹等,它們都有各自的優(yōu)缺點(diǎn).其中KNN,SVM等比較適合多分類場(chǎng)景.下本文利用爬蟲技術(shù)在各大主流農(nóng)業(yè)網(wǎng)站共收集了10種不同類別的農(nóng)業(yè)新聞數(shù)據(jù).判斷一篇未知新聞屬于哪個(gè)具體分類是一個(gè)監(jiān)督分類問(wèn)題,實(shí)驗(yàn)中有10類新聞數(shù)據(jù)集,每100篇屬于一類,目標(biāo)是構(gòu)建一個(gè)有效的模式來(lái)判定未知新聞的類別.

      本文主要進(jìn)行農(nóng)業(yè)類新聞的分析,因此利用現(xiàn)有的成熟的爬蟲技術(shù),在遵循robosts.txt協(xié)議的基礎(chǔ)上,爬取主流農(nóng)業(yè)類新聞網(wǎng)站各類原始農(nóng)業(yè)新聞文本數(shù)據(jù)如下:將爬到的原始數(shù)據(jù)集存為文本文檔,作為原始的數(shù)據(jù)集和語(yǔ)料庫(kù),如圖2所示.

      圖2 待分類源農(nóng)業(yè)數(shù)據(jù)Fig.2 The agricultural data source

      1.3 文字?jǐn)?shù)值化

      針對(duì)上一步收集到的原始信息,首先進(jìn)行數(shù)據(jù)清洗和整理,處理過(guò)程如下:利用python中的jieba庫(kù)進(jìn)行分詞和詞頻統(tǒng)計(jì),利用TF-IDF方法進(jìn)行詞頻統(tǒng)計(jì),在處理過(guò)程中考慮到虛詞標(biāo)點(diǎn)符號(hào)等干擾項(xiàng),因此進(jìn)行停用詞的過(guò)濾.接著利用sklearn庫(kù)中的KNN進(jìn)行文本信息挖掘,最后進(jìn)行結(jié)果分析和評(píng)估[10].

      首先利用jieba庫(kù)進(jìn)行中文分詞處理.結(jié)巴(jieba)是集成在python中的一個(gè)工具包,可以對(duì)一段中文進(jìn)行分詞,代碼清晰,擴(kuò)展性好有三種分詞模式,可以適應(yīng)不同需求.其主要的處理思路如下:

      ①加載默認(rèn)詞典dict.txt;

      ②從內(nèi)存的詞典中構(gòu)建該句子的有向無(wú)環(huán)圖;

      ③對(duì)于詞典中未收錄詞,使用HMM模型的viterbi算法嘗試分詞處理;

      ④已收錄詞和未收錄詞全部分詞完畢后,使用dp尋找DAG的最大概率路徑;

      ⑤輸出分詞結(jié)果.

      接下來(lái)將文本中的詞語(yǔ)轉(zhuǎn)換為詞頻矩陣,并利用TfidfTransformer()方法統(tǒng)計(jì)每個(gè)詞語(yǔ)的tf-idf權(quán)值.再將文本轉(zhuǎn)為詞頻矩陣,返回[(文章idx,詞語(yǔ)id),詞頻],獲取詞袋模型中所有詞語(yǔ),遍歷所有文本和獲取某一文本下的詞語(yǔ)權(quán)重[7].

      經(jīng)過(guò)測(cè)試實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)jieba分詞后的結(jié)果中占比較多的多為“的”等并沒(méi)有實(shí)際含義的虛詞,這些詞匯是幾乎在每篇文章中常見的停止詞.因此加載停用詞詞典處理,這樣可以減小數(shù)據(jù)的大小,同時(shí)也使得分析的語(yǔ)料更有說(shuō)服力.將構(gòu)建的語(yǔ)料庫(kù)進(jìn)行初步切詞處理和去除停用詞如圖3所示:

      圖3 農(nóng)業(yè)新聞分詞結(jié)果Fig.3 Agricultural vocabulary segmentation results

      1.4 文本分類

      基于KNN(k-NearestNeighbor,簡(jiǎn)稱KNN)的分類器是一種常見的有監(jiān)督學(xué)習(xí)的分類方法.K近鄰的輸入為實(shí)例的特征向量,對(duì)應(yīng)于特征空間的點(diǎn);輸出位實(shí)力的類別,可以取多類.該方法假設(shè)給定一個(gè)訓(xùn)練數(shù)據(jù)集,其中的實(shí)例類別已給定.分類時(shí)對(duì)新的實(shí)例,根據(jù)其k個(gè)最近鄰的訓(xùn)練實(shí)例的類別,通過(guò)多數(shù)表決的等方式進(jìn)行預(yù)測(cè).

      首先加載訓(xùn)練文本,并將數(shù)據(jù)集進(jìn)行切分進(jìn)行初步的預(yù)處理.接下來(lái),通過(guò)調(diào)用fit_transform接口進(jìn)行訓(xùn)練樣本數(shù)據(jù),生成詞語(yǔ)的TF-IDF向量空間模型.直接調(diào)用python中sklearn庫(kù)的KNN方法進(jìn)行分類器的訓(xùn)練,以保證模型的最佳效果.

      待訓(xùn)練好分類器以后,加載待預(yù)測(cè)文本數(shù)據(jù),經(jīng)行未知類別樣本的預(yù)測(cè).經(jīng)測(cè)試,該方法準(zhǔn)確并快速的將未知文本進(jìn)行了自動(dòng)分類.

      2 農(nóng)業(yè)信息集成與推薦

      當(dāng)對(duì)農(nóng)業(yè)新聞文本進(jìn)行向量?jī)?yōu)化以后,接下來(lái)便可以對(duì)于收集到的農(nóng)業(yè)類新聞文本,采用余弦相似度(cosine similiarity)計(jì)算多篇文章間的相似程度,通過(guò)計(jì)算不同的向量的差異的大小,來(lái)計(jì)算文本的相似度[11].相似度度量的值越小,說(shuō)明個(gè)體間相似度越小,相似度的值越大說(shuō)明兩篇文本的差異越大.余弦相似度計(jì)算原理如下:

      圖4 文章余弦相似度計(jì)算Fig.4 Article cosine similarity calculation

      如圖4所示,通過(guò)對(duì)文章進(jìn)行相似的計(jì)算分析可以看出,文章本身之間相似度最高,所以對(duì)角線為0.由此,對(duì)每一篇文章進(jìn)行向量化處理,構(gòu)建出與這篇文章最相關(guān)的5篇文章并按照相似程度進(jìn)行排序.

      3 系統(tǒng)運(yùn)行結(jié)果

      該系統(tǒng)可以實(shí)現(xiàn)農(nóng)業(yè)新聞的自動(dòng)爬取,利用python的scrapy框架進(jìn)行對(duì)主流農(nóng)業(yè)網(wǎng)站的信息爬取.爬取到的數(shù)據(jù)經(jīng)過(guò)清洗整理后存儲(chǔ)在mongodb數(shù)據(jù)庫(kù)中.網(wǎng)站的主界面在不登陸情況下,顯示各個(gè)分類后的新聞模塊;用戶注冊(cè)后,瀏覽不同類別的文章后,在歷史瀏覽中會(huì)顯示瀏覽記錄,方便用戶今后查閱.爬取到的信息通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)生成摘要展現(xiàn)在文章列表中,將文章最精華的部分展示給用戶減少用戶的信息處理時(shí)間.通過(guò)記錄過(guò)用戶瀏覽過(guò)的歷史記錄和偏好,在用戶點(diǎn)擊一定數(shù)量的文章以后,后臺(tái)通過(guò)算法自動(dòng)推算出用戶最感興趣的內(nèi)容,將結(jié)果按照相關(guān)程度進(jìn)行排序最后展示在“我的推薦”一欄.用戶登錄后會(huì)根據(jù)用戶瀏覽記錄及感興趣標(biāo)簽等信息顯示個(gè)性化推薦后的新聞以及瀏覽過(guò)的農(nóng)業(yè)新聞?dòng)涗?,用戶可以瀏覽最近天氣以及種植相關(guān)信息.系統(tǒng)在實(shí)際運(yùn)行中,可極大方便用戶的檢索時(shí)間,用戶可以最快速的定位到自己感興趣的話題和內(nèi)容,該系統(tǒng)對(duì)農(nóng)業(yè)的發(fā)展具有一定的促進(jìn)作用.系統(tǒng)的最終運(yùn)行部分界面如圖5所示:

      圖5 系統(tǒng)最終實(shí)現(xiàn)界面Fig.5 System interface

      4 總結(jié)與展望

      本文將機(jī)器學(xué)習(xí)算法應(yīng)用于傳統(tǒng)的農(nóng)業(yè)領(lǐng)域,實(shí)現(xiàn)了對(duì)種植信息的集成和挖掘,文本的自動(dòng)分類以及個(gè)性化推薦等相關(guān)功能,在一定程度上滿足了農(nóng)民用戶的現(xiàn)實(shí)需求.隨著大數(shù)據(jù)和移動(dòng)計(jì)算時(shí)代的來(lái)臨,往往使用單一數(shù)據(jù)源的靜態(tài)歷史數(shù)據(jù)方法的推薦系統(tǒng)[10],無(wú)法滿足用戶的需求因?yàn)橛脩粼诓煌I(lǐng)域具有不同的興趣[14-17],并沒(méi)有考慮到用戶的興趣也隨著時(shí)間會(huì)發(fā)生變化,今后可以考慮用戶的選擇受當(dāng)前所處的地點(diǎn),時(shí)間,周圍相關(guān)人員等眾多因素的影響所以更為智能推薦系統(tǒng)可以利用大數(shù)據(jù)和移動(dòng)計(jì)算技術(shù)來(lái)增強(qiáng)“跨域”感知能力,構(gòu)建推薦平臺(tái).

      [1]何潔.基于Web使用數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)設(shè)計(jì)[J].數(shù)字技術(shù)與應(yīng)用,2012(07):141-142.

      [2]游蘭,彭慶喜,王時(shí)繪.基于Web使用挖掘的個(gè)性化站點(diǎn)研究[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(03):51-54.

      [3]姜楠,趙杏,狄查美玲,等.移動(dòng)農(nóng)業(yè)信息推薦系統(tǒng)設(shè)計(jì)[J].大連民族大學(xué)學(xué)報(bào),2016,18(05):505-508.

      [4]陳龍飛,趙雪.信息推薦技術(shù)與農(nóng)資網(wǎng)站個(gè)性化推薦技術(shù)綜述[J].河北科技師范學(xué)院學(xué)報(bào),2013(04):46-51.

      [5]張峰,茶正早,羅微,等.面向中低端手機(jī)的移動(dòng)農(nóng)業(yè)應(yīng)用軟件研究——以香蕉小助手為例[J].安徽農(nóng)業(yè)科學(xué),2009(18):8806-8808.

      [6]賈寶紅,王曉蓉,馬雪,等.天津市農(nóng)業(yè)信息推送服務(wù)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].山西農(nóng)業(yè)科學(xué),2015,43(10):1329-1332 +1362.

      [7]牛秀萍.基于隱馬爾科夫模型詞性標(biāo)注的研究[D].太原理工大學(xué),2013.

      [8]姜麗紅,徐博藝,席俊紅.基于案例推理的過(guò)濾算法及智能信息推薦系統(tǒng)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2006(S1):1074-1077.

      [9]吳潤(rùn)方.農(nóng)業(yè)專家系統(tǒng)應(yīng)用綜述[J].科技廣場(chǎng),2016,172(03):179-181.

      [10]劉建國(guó),周濤,汪秉宏.個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J].自然科學(xué)進(jìn)展,2009(01):1-15.

      [11]張小彬.中文Web文本分類關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[D].西安電子科技大學(xué),2011.

      [12]馬建斌,李瀅,滕桂法,等.KNN和SVM算法在中文文本自動(dòng)分類技術(shù)上的比較研究[J].河北農(nóng)業(yè)大學(xué)學(xué)報(bào),2008(03):120-123.

      [13]郭平,劉波,沈岳.農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述[J].軟件,2013(03):1-6.

      [14]趙璞,朱孟帥,秦波,等.農(nóng)業(yè)APP研究進(jìn)展及展望[J].農(nóng)業(yè)展望,2016(02):59-64.

      [15]趙秋云,魏樂(lè),舒紅平,等.農(nóng)業(yè)信息化應(yīng)用軟件開發(fā)平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].農(nóng)機(jī)化研究,2015(11):230-235.

      [16]付娟妮.基于信息用戶的新聞推薦系統(tǒng)特點(diǎn)及構(gòu)建[J].企業(yè)科技與發(fā)展,2013(15):39-40.

      [17]李春子,葉穎澤,賀立源.提高我國(guó)農(nóng)業(yè)網(wǎng)站建設(shè)質(zhì)量的方法探討[J].高等農(nóng)業(yè)教育,2009(09):93-95.

      猜你喜歡
      分詞分類文本
      分類算一算
      在808DA上文本顯示的改善
      結(jié)巴分詞在詞云中的應(yīng)用
      分類討論求坐標(biāo)
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      數(shù)據(jù)分析中的分類討論
      教你一招:數(shù)的分類
      值得重視的分詞的特殊用法
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      如何快速走進(jìn)文本
      腾冲县| 台山市| 沁阳市| 洪泽县| 砚山县| 从江县| 丁青县| 镇雄县| 图们市| 济宁市| 浠水县| 德令哈市| 安岳县| 玛曲县| 呼图壁县| 黄龙县| 高碑店市| 都江堰市| 文登市| 璧山县| 潼南县| 清镇市| 景宁| 株洲市| 图木舒克市| 云南省| 禄丰县| 连平县| 皮山县| 沂南县| 龙泉市| 大竹县| 芦溪县| 高陵县| 松滋市| 鄂托克前旗| 文化| 腾冲县| 芒康县| 文山县| 页游|