• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于科技情報Hadoop平臺的系統(tǒng)研究

      2018-01-25 10:52:38李時玉孫沫卿郭建偉
      物聯(lián)網(wǎng)技術(shù) 2018年1期
      關(guān)鍵詞:科技情報數(shù)據(jù)挖掘大數(shù)據(jù)

      李時玉 孫沫卿 郭建偉

      摘 要:科技情報大數(shù)據(jù)運(yùn)用行業(yè)人工智能分析技術(shù),基于及時、海量、跨領(lǐng)域、高縱深的互聯(lián)網(wǎng)大數(shù)據(jù),為政府和企事業(yè)單位打造可定向抓取、語義分析、深度學(xué)習(xí)、完善知識圖譜的人工智能科技情報解決方案。還可以滿足地區(qū)競爭力、企業(yè)發(fā)展、競對狀況、行業(yè)/技術(shù)跟蹤等方面的科技情報挖掘需求。IDC估計,到2020年,33%的數(shù)據(jù)將包含有價值的信息。Hadoop的目的在于基于一種新的方法來存儲和處理復(fù)雜的數(shù)據(jù)。通過把數(shù)據(jù)均衡分布到集群上,復(fù)制副本以確保數(shù)據(jù)的可靠性和容錯性。存儲和計算都分布到多個機(jī)器上,以充分體現(xiàn)數(shù)據(jù)的本地性,且當(dāng)前很多數(shù)據(jù)庫也支持?jǐn)?shù)據(jù)分片技術(shù)。Hadoop分布式系統(tǒng)已成為大數(shù)據(jù)挖掘系統(tǒng)的重要組成部分。文中在Hadoop分布式平臺上完成了科技情報數(shù)據(jù)深度分析的一次實踐。

      關(guān)鍵詞:Hadoop;數(shù)據(jù)挖掘;科技情報;大數(shù)據(jù)

      中圖分類號:TP309 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2018)01-00-03

      0 引 言

      大數(shù)據(jù)擁有數(shù)據(jù)量巨大;數(shù)據(jù)類型多樣;數(shù)據(jù)中富含價值;在盡可能短的時間內(nèi)挖掘出數(shù)據(jù)的真實性等典型特征[1]。

      數(shù)據(jù)挖掘技術(shù)[2](Data Mining)可在大型數(shù)據(jù)庫中自動發(fā)現(xiàn)有用信息,具有聚類分析,預(yù)測建模,關(guān)聯(lián)分析,異常檢測等功能,既可以獨立運(yùn)行,也可以聯(lián)合操作。聚類分析實用的技術(shù)包括K均值、凝聚層次聚類、dbscan、簇評估等,主要目的在于通過基于原型、密度、圖像等的聚類,發(fā)現(xiàn)其間關(guān)系。預(yù)測建模更多的是一種可視化角度分析方法,利用分類、回歸等方法建立模型以解決問題。數(shù)據(jù)挖掘技術(shù)分為統(tǒng)計方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。

      計算機(jī)機(jī)器人專業(yè)博士鄧侃[3]表示,大數(shù)據(jù)不是忽悠,關(guān)鍵要能夠發(fā)現(xiàn)其中的價值,而數(shù)據(jù)挖掘的算法、云計算和并行計算就是發(fā)現(xiàn)數(shù)據(jù)價值的工具。

      科技情報服務(wù)平臺維護(hù)的公益類科技服務(wù)平臺,是為順應(yīng)情報系統(tǒng)的網(wǎng)絡(luò)化、智能化、集成化和決策化的未來發(fā)展要求而構(gòu)建的自動化情報收集與服務(wù)體系,可從每日涌現(xiàn)在互聯(lián)網(wǎng)上的海量信息中快速、準(zhǔn)確地獲取有用信息,并完成對情報資料的自動篩選、分類、分析工作,為政府部門、科研人員和企業(yè)提供具有前瞻性、時效性和專業(yè)化的情報服務(wù)。它采用知識管理的理念和技術(shù)對科技信息資源進(jìn)行深度挖掘和戰(zhàn)略優(yōu)化,通過強(qiáng)化科技信息的智能采集和深度加工、發(fā)布和共享機(jī)制,構(gòu)建科技情報創(chuàng)新服務(wù)體系。

      1 數(shù)據(jù)挖掘簡介

      數(shù)據(jù)挖掘的主要任務(wù)是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等[4]。

      (1)關(guān)聯(lián)分析(Association Analysis)。關(guān)聯(lián)規(guī)則由Rakesh Apwal等人率先提出。兩個或兩個以上變量取值之間存在的規(guī)律稱為關(guān)聯(lián),使得所挖掘的規(guī)則更符合需求。

      (2)聚類分析(Clustering)。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。

      (3)分類(Classification)。分類即找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。

      (4)預(yù)測(Predication)。預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型預(yù)測未來數(shù)據(jù)的種類及特征。

      (5)時序模式(Time-Series Pattern)。時序模式是指通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。

      (6)偏差分析(Deviation)。在偏差中包括很多有價值的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在諸多異常情況,而發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況非常重要。

      2 科技信息采集與存儲系統(tǒng)

      使用垂直搜索技術(shù)在互聯(lián)網(wǎng)擴(kuò)大信息搜集途徑,實現(xiàn)了科技信息的采集與存儲[5]。智能情報加工系統(tǒng)運(yùn)用信息抽取、機(jī)器學(xué)習(xí)、自然語言理解、信息檢索等技術(shù)對文本進(jìn)行處理,實現(xiàn)對海量信息的數(shù)據(jù)挖掘,完成數(shù)據(jù)的自動分類、聚類、去除重復(fù)信息、發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、自動文摘的生成等??萍夹畔l(fā)布與共享平臺通過將門戶型科技信息發(fā)布平臺作為情報發(fā)布、信息共享、交流互動的窗口與載體,可提供情報簡報的自動生成、定題服務(wù)等功能。

      該平臺是集情報收集、存儲、處理和分析于一體的新一代綜合性信息系統(tǒng)。其主要功能是協(xié)助情報人員制定情報計劃,系統(tǒng)地收集信息,并對收集到的信息進(jìn)行分析和加工,生成情報產(chǎn)品并提交給用戶,為用戶提供公益情報服務(wù)。

      3 科技信息采集與存儲體系

      科技信息采集與存儲體系的主要功能在于可完成情報信息分類體系規(guī)劃與情報信息源規(guī)劃。采用垂直網(wǎng)站抓取技術(shù),通過設(shè)置關(guān)鍵詞、數(shù)據(jù)源、重要程度等抓取策略,自動發(fā)現(xiàn)互聯(lián)網(wǎng)相關(guān)內(nèi)容,并對頁面進(jìn)行抓取。通過索引技術(shù)對抓取到的文檔進(jìn)行全文索引,為用戶提供全局文檔信息搜索結(jié)果;搜索結(jié)果以知識樹的方式展現(xiàn),并實現(xiàn)對抓取內(nèi)容的管理。

      抓取器由URL 搜索引擎、頁面抓取引擎[6](頁面抓取器)組成,用以實現(xiàn)URL發(fā)現(xiàn)。抓取器需要對頁面中的目錄頁面、列表頁面等非描述性內(nèi)容頁面進(jìn)行剔除。URL搜索引擎首先對全互聯(lián)網(wǎng)相關(guān)內(nèi)容的URL進(jìn)行搜索,并執(zhí)行去重檢測,以保證相同頁面只被抓取一次。

      頁面抓取引擎抓取頁面后,對其內(nèi)容進(jìn)行分析,剔除其中的非正文內(nèi)容頁面。抓取器內(nèi)含定時抓取策略,可按一定時間周期和抓取策略進(jìn)行循環(huán)抓取,以確保我們能夠及時獲取互聯(lián)網(wǎng)更新的內(nèi)容。

      4 數(shù)據(jù)聚類算法

      聚類,即一些給定的元素或者對象分散存儲在數(shù)據(jù)庫中,根據(jù)我們感興趣的對象屬性對其進(jìn)行聚集,同類對象之間相似度高,不同類之間差異較大。其最大的特點是事先不確定類別。這其中最經(jīng)典的算法非KMeans算法[7]莫屬,而這也是最常用的聚類算法。在給定K值和K個初始類簇中心點的情況下,把每個點(亦即數(shù)據(jù)記錄)分到離其最近的類簇中心點所代表的類簇中,待所有點分配完畢后,根據(jù)類簇內(nèi)的所有點重新計算該類簇的中心點(取平均值),然后迭代進(jìn)行分配點和更新類簇中心點的步驟,直至類簇中心點變化微小,或達(dá)到指定的迭代次數(shù)為止。KMeans算法雖然思想比較簡單,但合理確定K值和K個初始類簇的中心點對于聚類效果而言有很大影響。

      5 信息抓取管理平臺

      “信息抓取管理平臺”是控制抓取的后臺工具,分為“關(guān)鍵詞抓取”和“深度抓取”。

      “關(guān)鍵詞抓取”[8]是指在互聯(lián)網(wǎng)上抓取具有特定關(guān)鍵詞的網(wǎng)頁,每24小時抓取一次,于夜晚進(jìn)行,以保證抓取網(wǎng)頁與互聯(lián)網(wǎng)上的信息同步更新。

      “深度抓取”[9]是指一次性獲取某個網(wǎng)站的全部信息,以快速積累初始數(shù)據(jù)。深度抓取是一次性的抓取,不會更新。

      5.1 關(guān)鍵內(nèi)容抓取

      根據(jù)“北京科技信息網(wǎng)”的需求,確定數(shù)據(jù)搜索內(nèi)容包括 “科技政策”“科技動態(tài)”等頻道內(nèi)容。抓取器通過設(shè)定依內(nèi)容抓取的策略,對全網(wǎng)內(nèi)容進(jìn)行抓取。并通過后端的內(nèi)容聚合進(jìn)行內(nèi)容的后處理,以便實現(xiàn)關(guān)鍵內(nèi)容的抓取。如圖1所示,當(dāng)標(biāo)簽位置為“普通抓取”時,可實現(xiàn)對關(guān)鍵內(nèi)容的抓取。

      5.2 深度抓取

      “北京市科技信息網(wǎng)”對一些特定網(wǎng)站設(shè)定了全站內(nèi)容抓取,對全站內(nèi)容進(jìn)行一次性內(nèi)容獲取,并實時對其更新的內(nèi)容進(jìn)行監(jiān)控,同步抓取。如圖2所示,當(dāng)標(biāo)簽位置為“深度抓取”時,可以實現(xiàn)對全站內(nèi)容的抓取。

      5.3 工作狀況的實時監(jiān)控與回溯查詢

      實時監(jiān)控終端對引擎運(yùn)行的各項指標(biāo)進(jìn)行實時監(jiān)控,以隨時掌握引擎的運(yùn)行狀態(tài)?!盎厮莶樵兤脚_”可查看已抓取的網(wǎng)頁和網(wǎng)頁去噪情況?;厮莶樵兤脚_界面如圖3所示。

      6 分詞功能介紹

      分詞程序主要包含4大模塊,分別為數(shù)據(jù)輸入模塊、基本前向后向分詞、數(shù)量詞識別以及歧義消解模塊。

      7 去重功能介紹

      該模塊可對網(wǎng)頁進(jìn)行去重操作[10]。

      8 分類功能介紹

      實現(xiàn)中文信息自動分門別類[11]是一項及其復(fù)雜的工作。本系統(tǒng)根據(jù)中文智能分詞技術(shù)[12]實現(xiàn)了分類功能,即根據(jù)文本內(nèi)容的特點分別歸類。通過人工對其進(jìn)行簡單的“訓(xùn)練”后,可對文本進(jìn)行高速智能的自動分類。分類可實現(xiàn)多層的樹狀結(jié)構(gòu),允許一篇文檔同時屬于多個分類。分類過程主要包括文本預(yù)處理,抽取特征項,分類算法等。

      9 結(jié) 語

      系統(tǒng)擁有的網(wǎng)絡(luò)化情報自動采集、智能加工、發(fā)布共享體系架構(gòu)等功能使得該體系能夠利用先進(jìn)的科技信息采集工具,實現(xiàn)異構(gòu)信息資源的采集、轉(zhuǎn)變、整理、合成,以統(tǒng)一的模版格式實現(xiàn)科技情報信息資源服務(wù),去除科技信息資源種類、架構(gòu)等無關(guān)信息,實現(xiàn)用戶的透明操作;采用統(tǒng)一的信息采集、加工處理、管理平臺,實現(xiàn)采集、加工處理過程的個性化流程個性化定制;實現(xiàn)了科技情報信息資源面向不同種類用戶和不同種類應(yīng)用的科技信息發(fā)布服務(wù);基于網(wǎng)絡(luò)的自動化情報收集、加工與發(fā)布體系是公益性情報服務(wù)平臺的發(fā)展趨勢。

      參考文獻(xiàn)

      [1]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].桂林:廣西師范大學(xué)出版社,2015.

      [2] J Han,M Kamber.Data Mining: Concepts and Techniques, Second Edition, second ed[Z].San Francisco: Morgan Kaufmann,2006.

      [3] Jeremy Chow.Redpoll:A machine learning library based on hadoop[D].CS Dept. Jinan University, Guangzhou,2010.

      [4]鄒志文,朱金偉.數(shù)據(jù)挖掘算法研究與綜述[J].計算機(jī)工程與設(shè)計,2005,26(9):2304-2307.

      [5]王元祥.高速數(shù)據(jù)采集系統(tǒng)的設(shè)計實現(xiàn)及存儲瓶頸問題的解決[D].武漢:華中科技大學(xué),2007.

      [6]翁巖青.網(wǎng)頁抓取策略研究[D].哈爾濱:哈爾濱工程大學(xué),2010.

      [7]賴玉霞,劉建平.K-means算法的初始聚類中心的優(yōu)化[J].計算機(jī)工程與應(yīng)用,2008,44(10):147-149.

      [8]戴玉剛,楊南,李佩,等.基于藏文網(wǎng)絡(luò)信息的關(guān)鍵詞抓取算法改進(jìn)[J].中文信息,2014(11):1-2.

      [9]陳劍.某電商網(wǎng)站數(shù)據(jù)抓取策略的設(shè)計與實現(xiàn)[D].北京:北京大學(xué),2014.

      [10]高凱,王永成,肖君,等.網(wǎng)頁去重策略[J].上海交通大學(xué)學(xué)報,2006,40(5):775-777,782.

      [11]岑杰.面向情報領(lǐng)域的文本自動分類系統(tǒng)的設(shè)計與實現(xiàn)[D].西安:西安電子科技大學(xué),2008.

      [12]曹羽中,曹勇剛,金茂忠,等.支持智能中文分詞的互聯(lián)網(wǎng)搜索引擎的構(gòu)建[J].計算機(jī)工程與設(shè)計,2006,27(23):4395-4398,4407.

      猜你喜歡
      科技情報數(shù)據(jù)挖掘大數(shù)據(jù)
      基于數(shù)據(jù)工程的國防科技情報生態(tài)體系構(gòu)建
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      銅陵市科技情報工作存在的問題與發(fā)展對策
      安徽科技(2018年9期)2018-12-31 12:54:31
      加強(qiáng)科技情報檔案管理工作的建議
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于創(chuàng)新環(huán)境下的科技情報研究
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      宁阳县| 高邮市| 潍坊市| 洞头县| 固镇县| 广河县| 巴林左旗| 西昌市| 藁城市| 油尖旺区| 中西区| 上饶市| 安宁市| 白城市| 洛宁县| 任丘市| 蒲城县| 小金县| 克山县| 榆中县| 朝阳市| 濮阳市| 张家口市| 新田县| 六安市| 固安县| 兖州市| 庄浪县| 明光市| 永福县| 沙湾县| 泰和县| 多伦县| 云林县| 嘉义县| 隆子县| 潢川县| 庆城县| 嘉祥县| 石嘴山市| 嵊泗县|