徐建鵬,張 輝,伍 瓊,王 暉,汪 兵
(1.安徽省農(nóng)村綜合經(jīng)濟信息中心,安徽 合肥 230001; 2.天長市氣象局,安徽 滁州 239064)
氣象為農(nóng)服務工作一直是氣象部門業(yè)務工作的重中之重,是氣象部門服務“鄉(xiāng)村振興戰(zhàn)略”的重要抓手。隨著傳統(tǒng)農(nóng)業(yè)向現(xiàn)代化農(nóng)業(yè)轉型發(fā)展,農(nóng)業(yè)生產(chǎn)經(jīng)營模式發(fā)生了變革,農(nóng)業(yè)產(chǎn)業(yè)結構日趨多元,同時鄉(xiāng)村信息產(chǎn)業(yè)日趨完善,農(nóng)業(yè)農(nóng)村對氣象為農(nóng)服務的需求發(fā)生了巨大的變化[1]。同時,氣象為農(nóng)服務手段也由傳統(tǒng)的電視、報紙、手機短信息變?yōu)榱艘跃W(wǎng)絡為主,網(wǎng)站、手機App、微信、微博已經(jīng)成為氣象為農(nóng)服務的主要媒介,安徽省建立了“惠農(nóng)氣象”“聚農(nóng)e購”“愛上農(nóng)家樂”3個服務平臺[2]。本文基于Hadoop架構、自然語言處理、相關度分析等大數(shù)據(jù)和人工智能相關技術,開發(fā)一種氣象為農(nóng)服務大數(shù)據(jù)平臺,實現(xiàn)氣象、農(nóng)業(yè)、工商等多源涉農(nóng)數(shù)據(jù)的集成、氣象為農(nóng)服務信息的精準化推薦以及服務效果評估,為安徽省氣象部門對新型農(nóng)業(yè)經(jīng)營主體開展精準性、針對性的信息服務提供重要技術支持。
平臺基于大數(shù)據(jù)的架構,按照統(tǒng)一資源匯集、統(tǒng)一數(shù)據(jù)治理、統(tǒng)一數(shù)據(jù)資源管控、統(tǒng)一數(shù)據(jù)共享服務以及統(tǒng)一的大數(shù)據(jù)開發(fā)應用支撐服務的一體化設計理念,全面接入氣象、農(nóng)業(yè)、農(nóng)機、組織、文化、林業(yè)、工商等部門的網(wǎng)站、手機APP、微信等服務媒介的多源異構涉農(nóng)大數(shù)據(jù)資源,實現(xiàn)了涉農(nóng)數(shù)據(jù)資源從采集、存儲交換、清洗融合、智慧分析、數(shù)據(jù)共享到可視化展示的全流程貫通[3]。本文平臺的系統(tǒng)邏輯架構如圖1所示。
圖1 系統(tǒng)邏輯架構
數(shù)據(jù)源層:對接安徽省氣象局氣象為農(nóng)服務各大應用系統(tǒng)及設備,包括信息系統(tǒng)、網(wǎng)絡設備、傳感器、互聯(lián)網(wǎng)、手機APP等,接入安徽各涉農(nóng)部門的數(shù)據(jù)資源,數(shù)據(jù)類型支持結構化、半結構化、非結構化數(shù)據(jù)。
數(shù)據(jù)采集層:建立強大的數(shù)據(jù)感知與獲取能力,通過JDBC/OGG、消息隊列、爬蟲、網(wǎng)絡接口、FTP、物聯(lián)網(wǎng)等各種數(shù)據(jù)采集技術,匯聚安徽省各類涉農(nóng)數(shù)據(jù)資源。
數(shù)據(jù)存儲層:對原始數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)集成融合、數(shù)據(jù)規(guī)約與數(shù)據(jù)“轉換”等預處理,基于HDFS、DBMS、分布式消息隊列、內(nèi)存數(shù)據(jù)庫等各種存儲技術,實現(xiàn)海量異種數(shù)據(jù)(結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù))的存儲。
分析挖掘層:提供完善的大數(shù)據(jù)分析挖掘功能,包括模型管理、統(tǒng)計分析工具、數(shù)據(jù)挖掘工具、預測分析工具、深度學習工具、語義引擎等。并且具備完善的數(shù)據(jù)分析與數(shù)據(jù)挖掘接口,能對接業(yè)界主流的數(shù)據(jù)分析與數(shù)據(jù)挖掘工具。
應用服務層:提供用戶畫像、服務預測、數(shù)據(jù)監(jiān)控等精細化服務,開展信息服務、農(nóng)氣產(chǎn)品、趨利避害、應用案例等的大數(shù)據(jù)可視化服務。
根據(jù)本文平臺能力定位和業(yè)務需求,充分考慮不同業(yè)務場景對數(shù)據(jù)服務支撐的訴求,經(jīng)過嚴格的測試與豐富的架構經(jīng)驗,本文平臺采用Hadoop分布式文件存儲/處理系統(tǒng)結合內(nèi)存數(shù)據(jù)庫和MPP數(shù)據(jù)形成混合式存儲架構[4],采用Flume NG對各類應用系統(tǒng)產(chǎn)生的用戶日志數(shù)據(jù)進行收集,采用Kafka分布式消息隊列中間件來解決數(shù)據(jù)收集的速度和數(shù)據(jù)處理速度不一致問題,并采用Storm對數(shù)據(jù)做實時處理,處理完成后用Redis+MySQL做數(shù)據(jù)的持久化,應用服務程序以Java語言編寫,主要開發(fā)工具為Android Studio。
1.3.1 多元異構數(shù)據(jù)資源集成
利用自動感知、網(wǎng)絡爬蟲、系統(tǒng)填報、數(shù)據(jù)交換、數(shù)據(jù)調(diào)度等多種采集技術,將農(nóng)村相關數(shù)據(jù)資源按照數(shù)據(jù)格式、數(shù)據(jù)體量、數(shù)據(jù)種類、數(shù)據(jù)維度進行聚類、采集,根據(jù)不同的數(shù)據(jù)類型建立存儲模型:結構化數(shù)據(jù)主要存放于MPP數(shù)據(jù)庫中;原始非結構化數(shù)據(jù)存放于HDFS中,部分經(jīng)過預處理解析所得的標簽數(shù)據(jù)存放在MPP數(shù)據(jù)庫中,并建立聯(lián)合索引,實現(xiàn)高速的查詢關聯(lián)[4]。
1.3.2 自然語言處理技術
將服務產(chǎn)品通過結巴分詞工具進行分詞,通過增補關聯(lián)變量、剔除噪聲數(shù)據(jù)、無關變量、無效樣本等方法對分詞結果進行清洗,使用TF-IDF模型公式(1)生成服務產(chǎn)品的關鍵詞指標[5]。
TFIDF=TF×IDF
(1)
其中,TF為服務內(nèi)容內(nèi)頻率,IDF為關鍵詞在所有文檔中出現(xiàn)的頻率的相反值。關鍵詞在某個服務中出現(xiàn)的頻率最大、在所有服務中出現(xiàn)的頻率越小,表明該關鍵詞對這個服務內(nèi)容的特征標識作用越大。
通過整理和規(guī)范化數(shù)據(jù)等方法對分詞結果進行清洗處理,將區(qū)分正常詞庫和停用詞庫,形成服務內(nèi)容的關鍵詞集合標識[6]。表1和表2分別為2條服務產(chǎn)品的關鍵詞指標TFIDF聚合。
表1 服務內(nèi)容1關鍵詞指標集合表
表2 服務內(nèi)容2關鍵詞指標集合表
1.3.3 用戶偏好服務產(chǎn)品推薦
2個服務內(nèi)容的相似度通過重合的關鍵詞的TFIDF值來衡量,本文使用夾角余弦算法來計算服務內(nèi)容關鍵詞的相似度,夾角越小,相似度越高,計算方式如公式(2)所示:
(2)
其中,A、B分別代表2個不同的服務產(chǎn)品,Ai和Bi分別代表向量A和向量B對于這個集合中各個關鍵詞的詞頻。
表1和表2的2個服務內(nèi)容中有2個重合的關鍵詞:安徽、小麥,因此2條新聞的相關性由這2個關鍵詞決定,得到服務內(nèi)容特征以后,還需要得到用戶特征才能對兩者進行匹配和推薦。用戶通過閱讀、點贊、評論、分享來表達自己對服務內(nèi)容的喜愛,這樣的網(wǎng)絡行為數(shù)據(jù)[7]與用戶行為結合后,就能得到用戶的特征分。隨著用戶閱讀的服務數(shù)越來越多,該用戶的標簽也越來越多,并且越發(fā)精準。當?shù)玫椒諆?nèi)容的特征后,就能與用戶的關鍵詞列表作匹配[8],得出服務產(chǎn)品與用戶閱讀特征的匹配度,做出個性化服務產(chǎn)品推薦。
1.3.4 服務產(chǎn)品熱度值計算
利用百度熱點、今日頭條等建立互聯(lián)網(wǎng)熱詞庫,確認服務產(chǎn)品初始熱度,由于皖南、皖北的種植作物種類和氣候差異較大,因此對服務產(chǎn)品的關鍵詞庫的初始熱度做了關注度統(tǒng)計,計算方式如公式(3)所示,即欄目的關注度系數(shù)等于該欄目的閱讀用戶數(shù)除以各欄目的平均閱讀用戶數(shù),根據(jù)實際情況,作一定的人工調(diào)整。
(3)
其中,m是農(nóng)業(yè)信息欄目分類數(shù),N(i)為服務產(chǎn)品i的閱讀用戶數(shù)。
隨著時間流逝,用戶對信息服務的熱度值會衰減,并且衰減趨勢越來越快,直至趨近于0。新聞i的熱度系數(shù)公式如下:
(4)
根據(jù)農(nóng)業(yè)服務產(chǎn)品的特點,設定1個月的熱度衰減周期,用戶點擊、收藏、分享、評論等行為會提高熱度值,建立用戶行為提升熱度規(guī)則,最終計算服務產(chǎn)品熱度指數(shù)[9]。
1.3.5 涉農(nóng)大數(shù)據(jù)可視化
集成Tableau和Pentaho作為數(shù)據(jù)展示與可視化工具,實現(xiàn)了餅狀圖、柱狀圖、折線圖、雷達圖、散點圖、樹圖等方式展示各類數(shù)據(jù),集成GIS、三維場景的直觀表達,滿足不同用戶的應用展示需求[10]。提供系統(tǒng)SDK包及標準接口供第三方應用系統(tǒng)進行調(diào)用,實現(xiàn)了電腦、LED顯示屏等多終端的內(nèi)容和規(guī)格自適應、樣式和風格預定義。
氣象為農(nóng)服務大數(shù)據(jù)服務平臺實現(xiàn)了安徽涉農(nóng)數(shù)據(jù)資源的多源接入、統(tǒng)一匯聚、集中存儲、深度利用,對用戶需求及互聯(lián)網(wǎng)傳播進行分析,跟蹤評估服務產(chǎn)品網(wǎng)絡傳播效果,為網(wǎng)絡用戶提供精準化的信息推薦服務[11]。
1)建立涉農(nóng)大數(shù)據(jù)資源池。
①通過部門聯(lián)動、數(shù)據(jù)共享等途徑,實現(xiàn)對全省22個農(nóng)業(yè)氣象觀測站、85個土壤水分觀測站、64個農(nóng)業(yè)物聯(lián)網(wǎng)監(jiān)測信息,全省農(nóng)業(yè)生產(chǎn)經(jīng)營主體、農(nóng)產(chǎn)品電商、病蟲害知識庫等101 TB的數(shù)據(jù)集中調(diào)度與管理,為氣象為農(nóng)服務提供數(shù)據(jù)支撐。②匯集了冬小麥、玉米、大豆、一季稻等主糧作物,油菜、茶葉、酥梨等經(jīng)濟作物,大棚蔬菜、設施草莓、河塘水產(chǎn)養(yǎng)殖等特色農(nóng)業(yè)的“種(養(yǎng))、管、收”3大關鍵農(nóng)事活動,農(nóng)用天氣預報、災害評估、產(chǎn)量預測、天氣指數(shù)保險4大類、10余種、20多個指標、指數(shù)和模型,為農(nóng)業(yè)氣象服務產(chǎn)品制作提供技術支持[12]。
2)進行網(wǎng)絡用戶需求分析預測。
①對用戶網(wǎng)絡行為進行畫像[13],建立了農(nóng)業(yè)行業(yè)、地理位置等4類用戶標簽24項指標,發(fā)現(xiàn)網(wǎng)絡用戶的聚類特征[14],刻畫出網(wǎng)絡用戶作物種類、種植區(qū)域、經(jīng)濟產(chǎn)業(yè)等精準畫像[15]。②對服務產(chǎn)品進行自然語言解析[16],按照區(qū)域、作物、時效、類別4個維度20個分類標簽,對服務產(chǎn)品進行了分類。③建立網(wǎng)絡用戶需求模型,將用戶特征與各服務產(chǎn)品語義、信息獲取渠道關聯(lián)[17],根據(jù)用戶訪問平臺習慣,結合近期網(wǎng)絡關注熱點和天氣預測信息,智能生成符合用戶需求的服務內(nèi)容[6]。
3)開展精準化的信息推薦服務。
開發(fā)網(wǎng)絡數(shù)據(jù)收集和服務產(chǎn)品推薦WebAPI/WebService數(shù)據(jù)接口,嵌入“惠農(nóng)氣象”“聚農(nóng)e購”“愛上農(nóng)家樂”3個服務平臺,實時獲取用戶信息,并為用戶提供氣象服務、農(nóng)業(yè)生產(chǎn)、市場行情、農(nóng)業(yè)科技、涉農(nóng)政策等綜合服務信息的精準化智能推薦服務。
4)進行網(wǎng)絡傳播效果分析評估。
①對通過服務產(chǎn)品的網(wǎng)絡用戶訪問情況按區(qū)域、行業(yè)進行統(tǒng)計分析,生成分類產(chǎn)品傳播熱度指數(shù),直觀反映服務產(chǎn)品在互聯(lián)網(wǎng)受歡迎的程度和傳播范圍。②根據(jù)服務產(chǎn)品的語義生成近期關注熱度標簽,集合農(nóng)業(yè)高影響天氣預報和病蟲害發(fā)生發(fā)展情況,開展服務重點預測,指導后續(xù)關鍵農(nóng)時農(nóng)事建議和決策服務產(chǎn)品制作[18]。
5)搭建氣象為農(nóng)大數(shù)據(jù)展示系統(tǒng)。
氣象為農(nóng)服務大數(shù)據(jù)展示系統(tǒng)主要模塊由用戶畫像、服務評估、數(shù)據(jù)監(jiān)控、農(nóng)氣產(chǎn)品、信息服務、趨利避害、應用案例7個功能模塊組成,如圖2所示。
圖2 平臺功能結構
氣象為農(nóng)服務大數(shù)據(jù)服務平臺匯集安徽省各涉農(nóng)部門、農(nóng)業(yè)生產(chǎn)經(jīng)營主體、農(nóng)業(yè)生產(chǎn)環(huán)境以及管理的各類涉農(nóng)數(shù)據(jù)資源,通過用戶行為分析建立用戶畫像[19],為安徽省農(nóng)業(yè)企業(yè)、農(nóng)民專業(yè)合作社、種養(yǎng)大戶等提供精細化、針對性的技術支撐、信息產(chǎn)品和信息服務[20]。圖3集中展示了平臺用戶畫像及其關聯(lián)的平臺信息服務產(chǎn)品。
圖3 平臺用戶精準畫像
平臺通過對服務產(chǎn)品的熱詞進行分析,生成了服務產(chǎn)品的熱度指數(shù),開展各類氣象為農(nóng)服務產(chǎn)品的服務效果評估,有效提高了服務產(chǎn)品的實用性。圖4集中展示了不同時間段和不同市縣的關注重點和服務熱點。
圖4 服務效果分析
圖5所示頁面實時監(jiān)控展示各類農(nóng)業(yè)氣象觀測數(shù)據(jù),并對各類觀測數(shù)據(jù)進行分析統(tǒng)計,為農(nóng)業(yè)業(yè)務人員開展科研和管理提供了便捷服務。
圖5 數(shù)據(jù)采集監(jiān)控
通過搭建氣象為農(nóng)服務大數(shù)據(jù)展示系統(tǒng),在實現(xiàn)數(shù)據(jù)、服務的實時監(jiān)控的基礎上,直觀全面地展示了安徽氣象為農(nóng)服務效果和效益。
安徽氣象為農(nóng)服務大數(shù)據(jù)服務平臺通過云計算、大數(shù)據(jù)、人工智能等新技術的深入應用[21],為安徽省氣象局為農(nóng)服務3大平臺(惠農(nóng)氣象、聚農(nóng)e購與愛上農(nóng)家樂)提供了數(shù)據(jù)支撐和技術支持[22],實現(xiàn)了對不同網(wǎng)絡群體個性化、智能化的信息推薦服務和網(wǎng)絡傳播效果評估,探索實現(xiàn)從“人找信息”到“信息找人”的轉變。本文平臺已在安徽氣象為農(nóng)業(yè)務服務中應用,使得氣象為農(nóng)服務、業(yè)務和管理全過程都充滿智慧,提升了安徽氣象為農(nóng)服務能力,具有較好的行業(yè)知名度和社會影響力,受到各級領導、中央和地方媒體的廣泛關注。但本文平臺未深入使用大數(shù)據(jù)和人工智能相關技術,后續(xù)將進一步加深相關技術的研究與應用。