• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談數(shù)據(jù)挖掘技術(shù)在科技搜索服務(wù)中的應(yīng)用*

      2021-06-28 11:07:34王彥婕
      山西電子技術(shù) 2021年3期
      關(guān)鍵詞:分詞數(shù)據(jù)挖掘詞語

      王彥婕

      (山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030012)

      1 緒論

      隨著信息產(chǎn)業(yè)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)逐步成為大眾獲取與交流信息的最大平臺,我們通過在網(wǎng)頁中簡單地搜索相關(guān)詞語就可以得到我們想要的信息,在科技服務(wù)平臺網(wǎng)上搜索關(guān)鍵詞就能獲取科技相關(guān)方面的知識。在搜索引擎不斷更新交替的現(xiàn)狀下,最初的傳統(tǒng)搜索服務(wù)手段已經(jīng)被淘汰,現(xiàn)代社會越來越不滿足落后且單一的大眾化搜索服務(wù),信息發(fā)展急切需要全面精準(zhǔn)的專業(yè)化信息檢索服務(wù)。本文基于數(shù)據(jù)挖掘技術(shù),獲取了大量科技類文本數(shù)據(jù),并結(jié)合項目已有的大量科技平臺數(shù)據(jù),建立一個數(shù)據(jù)量大且有效性高的數(shù)據(jù)庫,并對數(shù)據(jù)進(jìn)行清洗、處理、量化、建模等步驟,以便于進(jìn)一步服務(wù)于科技搜索引擎。

      2 數(shù)據(jù)采集

      數(shù)據(jù)采集是所有數(shù)據(jù)挖掘研究的基礎(chǔ),構(gòu)建一個數(shù)據(jù)量大,數(shù)據(jù)有效性高的數(shù)據(jù)資源庫是一切數(shù)據(jù)挖掘研究的基礎(chǔ)。我們可以利用網(wǎng)絡(luò)爬蟲技術(shù)來定向獲取或非定向獲取數(shù)據(jù),根據(jù)網(wǎng)絡(luò)爬蟲相關(guān)規(guī)則:以某個選定科技服務(wù)網(wǎng)站作為起始網(wǎng)站,通過各個網(wǎng)站頁面的超鏈接遍歷整個網(wǎng)絡(luò),利用URL根據(jù)廣度優(yōu)先算法從一個網(wǎng)頁文檔爬取到另外一個網(wǎng)頁文檔來獲取所有數(shù)據(jù)信息。

      數(shù)據(jù)采集后將所有數(shù)據(jù)匯集形成自有科技數(shù)據(jù)庫。整合現(xiàn)有數(shù)據(jù),包含各類科技數(shù)據(jù);科技項目中整個項目生命周期中的數(shù)據(jù)包括管理數(shù)據(jù)、申報數(shù)據(jù)、申報信息、結(jié)題驗收信息及產(chǎn)生的成果數(shù)據(jù);科技論文內(nèi)容、負(fù)責(zé)人及參與人信息;還包括科研設(shè)施與儀器、生物(物種)資源與實驗材料、科技文獻(xiàn)、科學(xué)數(shù)據(jù)、重點科技創(chuàng)新平臺、重點實驗室、工程技術(shù)研究中心、科技創(chuàng)新團(tuán)隊、科技基礎(chǔ)條件平臺、創(chuàng)新券服務(wù)等數(shù)據(jù)。只有數(shù)據(jù)庫足夠完全,基于數(shù)據(jù)挖掘形成的科技引擎才足夠可靠。

      3 數(shù)據(jù)清洗

      分析整理平臺現(xiàn)有數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進(jìn)行篩查和清洗,最后融合形成自有科技數(shù)據(jù)庫。我們爬取到的數(shù)據(jù)多為文本數(shù)據(jù),文本有其自身特征,比如有很多對我們搜索不太相關(guān)的符號、語氣詞、連詞、亂碼等以及“得”、“啊”、“呀”、“和”、“這”等詞,這些詞基本會出現(xiàn)在所有爬取到或項目已有的文本數(shù)據(jù)中,但這些詞對搜索服務(wù)沒有任何幫助,數(shù)據(jù)建模也毫無意義,因此文本數(shù)據(jù)預(yù)處理就是要將無用詞都刪除掉。我們可以參考停用詞表,停用詞表就是研究人員通過多次數(shù)據(jù)分析及采集總結(jié)出的對數(shù)據(jù)挖掘用處不大的詞語,因此我們選用一個停用詞表對我們的數(shù)據(jù)進(jìn)行清洗。

      4 數(shù)據(jù)處理-分詞技術(shù)

      分詞技術(shù)是數(shù)據(jù)挖掘的基礎(chǔ)。分詞技術(shù)根據(jù)分詞的原理和詞性特征可分為2種:第一種是基于詞典分詞的算法,也可以理解為字符串匹配分詞算法。這種算法是按照特定的規(guī)則將我們構(gòu)建的數(shù)據(jù)庫中的數(shù)據(jù)與一個已經(jīng)建立成功的可靠詞典進(jìn)行比對匹配,若在詞典中找到該詞則比對匹配成功,識別了這個詞匯,反之拋棄。常見的基于詞典的分詞算法有單向最大匹配算法和雙向匹配法。基于詞典的分詞算法是目前應(yīng)用最廣泛和頻繁的,分詞效率快,分詞方法簡單,因此之前很長時間研究者們都致力于提升這種分詞算法的有效性,進(jìn)行優(yōu)化,比如設(shè)定數(shù)據(jù)字符長度,數(shù)據(jù)結(jié)構(gòu)等。第二種分詞方式是基于統(tǒng)計學(xué)的機器學(xué)習(xí)分詞方法,這類機器學(xué)習(xí)算法目前常見的有HMM、CRF、SVM、深度學(xué)習(xí)等算法,機器學(xué)習(xí)算法的基本思路是將數(shù)據(jù)進(jìn)行訓(xùn)練,考慮到了詞出現(xiàn)的頻率,且結(jié)合上下文,因此具備更高的挖掘基礎(chǔ),對數(shù)據(jù)有更佳的識別效果。

      本文通過分詞算法可以將科技數(shù)據(jù)進(jìn)行分詞處理,綜合考慮以上介紹的兩種數(shù)據(jù)挖掘中的分詞技術(shù),本研究采用哈爾濱理工大學(xué)LTP對科技數(shù)據(jù)的語料進(jìn)行分詞處理,處理過后的科技本文數(shù)據(jù)實例結(jié)果如表1所示。

      表1 分詞處理結(jié)果

      5 數(shù)據(jù)挖掘及建模

      在利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了科技類數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)分詞處理等處理后,再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。大數(shù)據(jù)處理技術(shù)是通過運用大數(shù)據(jù)處理計算框架,對數(shù)據(jù)進(jìn)行分布式計算。在計算之前要將詞語數(shù)值化。

      數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,構(gòu)建數(shù)據(jù)之間的關(guān)系網(wǎng),尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中挖掘有效信息的過程。數(shù)據(jù)挖掘一般和計算機科學(xué)相關(guān),并通過機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等方法來實現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。所涉及相關(guān)算法包括:TSP、Best-first Search、Word2vec、TF-IDF、WordNet等算法。

      5.1 Word2vec將詞語數(shù)值化

      采用Word2vec訓(xùn)練構(gòu)建并分詞后的科技類數(shù)據(jù)庫,將所有詞語向量化,變成可用于計算和建模的數(shù)值。簡單來講,Word2vec是一款能高效地將詞轉(zhuǎn)變?yōu)槎嗑S向量的計算工具,其計算思想是:先構(gòu)造一個目標(biāo)函數(shù),詞向量是構(gòu)造目標(biāo)函數(shù)的輔助參數(shù)。通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化,可以獲得各個參數(shù),包括所需要的詞向量。主要通過神經(jīng)網(wǎng)絡(luò)將詞映射到一個N維空間,N維空間表示了詞的特征。在當(dāng)前研究中人們經(jīng)常使用的方法有CBOW模型與Skip-gram模型,圖1和圖2分別給出了兩種模型的示意圖。

      圖1 CBOW說明圖

      圖2 SG說明圖

      其中,Skip-gram模型的方式是使用選取的目標(biāo)詞預(yù)測文本中其他詞語的向量表示,而CBOW則相反,它是根據(jù)詞語所在文本的上下文環(huán)境推測目標(biāo)中心詞,輸出中心詞的向量表示。相比較而言,Skip-pram模型用于將科技文本數(shù)據(jù)向量化的效果更好。

      5.2 TF-IDF數(shù)據(jù)挖掘算法

      將科技文本數(shù)據(jù)向量化后,我們可以運用TF-IDF算法對數(shù)據(jù)進(jìn)行加權(quán)處理。TF-IDF是統(tǒng)計學(xué)的一個公式,運用于評估一個詞語對于整個文本或者整個數(shù)據(jù)庫的重要程度,我們主觀地認(rèn)為一個詞語的重要性取決于這個詞在數(shù)據(jù)庫中出現(xiàn)的頻度,出現(xiàn)次數(shù)越多,越重要。比如在一篇科技類論文中,“爬蟲技術(shù)”一次頻繁出現(xiàn),那我們認(rèn)為該論文主要研究爬蟲技術(shù)。因此某詞語在一篇科技類文檔中出現(xiàn)次數(shù)越多, 同時在我們構(gòu)建的數(shù)據(jù)庫中出現(xiàn)次數(shù)越少, 越能夠凸顯本文檔,這就是TF-IDF數(shù)據(jù)挖掘算法的意義。

      6 結(jié)束語

      通過數(shù)據(jù)挖掘后的數(shù)據(jù)是數(shù)值化的、有效性高的、利于進(jìn)一步建模利用與搜索服務(wù)的數(shù)據(jù)。通過本文的研究成果,節(jié)約了大量數(shù)據(jù)分析的時間,有很強的可行性,對實現(xiàn)智能化科技信息服務(wù),形成“互聯(lián)網(wǎng)+專業(yè)化科技服務(wù)”的新型科技服務(wù)體系模型,打造科技服務(wù)生態(tài)圈,拓展科技服務(wù)業(yè)有很高的利用價值。

      猜你喜歡
      分詞數(shù)據(jù)挖掘詞語
      容易混淆的詞語
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      找詞語
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      詞語欣賞
      值得重視的分詞的特殊用法
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      一枚詞語一門靜
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      阳曲县| 海宁市| 石渠县| 吐鲁番市| 理塘县| 石河子市| 开鲁县| 蚌埠市| 耿马| 万安县| 光泽县| 承德市| 房产| 科技| 屯门区| 阳江市| 吐鲁番市| 镇远县| 阳信县| 德安县| 离岛区| 枣强县| 仙桃市| 临夏市| 崇仁县| 汪清县| 东源县| 平阴县| 塘沽区| 铜陵市| 那曲县| 长子县| 高雄市| 固镇县| 平原县| 来宾市| 齐齐哈尔市| 合川市| 松溪县| 庆阳市| 宜阳县|