淺談數(shù)據(jù)挖掘技術(shù)在科技搜索服務(wù)中的應(yīng)用*

2021-06-28 11:07:34王彥婕

山西電子技術(shù) 2021年3期

王彥婕

(山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司，山西太原 030012)

1 緒論

隨著信息產(chǎn)業(yè)技術(shù)的不斷發(fā)展，互聯(lián)網(wǎng)逐步成為大眾獲取與交流信息的最大平臺，我們通過在網(wǎng)頁中簡單地搜索相關(guān)詞語就可以得到我們想要的信息，在科技服務(wù)平臺網(wǎng)上搜索關(guān)鍵詞就能獲取科技相關(guān)方面的知識。在搜索引擎不斷更新交替的現(xiàn)狀下，最初的傳統(tǒng)搜索服務(wù)手段已經(jīng)被淘汰，現(xiàn)代社會越來越不滿足落后且單一的大眾化搜索服務(wù)，信息發(fā)展急切需要全面精準(zhǔn)的專業(yè)化信息檢索服務(wù)。本文基于數(shù)據(jù)挖掘技術(shù)，獲取了大量科技類文本數(shù)據(jù)，并結(jié)合項目已有的大量科技平臺數(shù)據(jù)，建立一個數(shù)據(jù)量大且有效性高的數(shù)據(jù)庫，并對數(shù)據(jù)進(jìn)行清洗、處理、量化、建模等步驟，以便于進(jìn)一步服務(wù)于科技搜索引擎。

2 數(shù)據(jù)采集

數(shù)據(jù)采集是所有數(shù)據(jù)挖掘研究的基礎(chǔ)，構(gòu)建一個數(shù)據(jù)量大，數(shù)據(jù)有效性高的數(shù)據(jù)資源庫是一切數(shù)據(jù)挖掘研究的基礎(chǔ)。我們可以利用網(wǎng)絡(luò)爬蟲技術(shù)來定向獲取或非定向獲取數(shù)據(jù)，根據(jù)網(wǎng)絡(luò)爬蟲相關(guān)規(guī)則：以某個選定科技服務(wù)網(wǎng)站作為起始網(wǎng)站，通過各個網(wǎng)站頁面的超鏈接遍歷整個網(wǎng)絡(luò)，利用URL根據(jù)廣度優(yōu)先算法從一個網(wǎng)頁文檔爬取到另外一個網(wǎng)頁文檔來獲取所有數(shù)據(jù)信息。

數(shù)據(jù)采集后將所有數(shù)據(jù)匯集形成自有科技數(shù)據(jù)庫。整合現(xiàn)有數(shù)據(jù)，包含各類科技數(shù)據(jù)；科技項目中整個項目生命周期中的數(shù)據(jù)包括管理數(shù)據(jù)、申報數(shù)據(jù)、申報信息、結(jié)題驗收信息及產(chǎn)生的成果數(shù)據(jù)；科技論文內(nèi)容、負(fù)責(zé)人及參與人信息；還包括科研設(shè)施與儀器、生物(物種)資源與實驗材料、科技文獻(xiàn)、科學(xué)數(shù)據(jù)、重點科技創(chuàng)新平臺、重點實驗室、工程技術(shù)研究中心、科技創(chuàng)新團(tuán)隊、科技基礎(chǔ)條件平臺、創(chuàng)新券服務(wù)等數(shù)據(jù)。只有數(shù)據(jù)庫足夠完全，基于數(shù)據(jù)挖掘形成的科技引擎才足夠可靠。

3 數(shù)據(jù)清洗

分析整理平臺現(xiàn)有數(shù)據(jù)，進(jìn)行數(shù)據(jù)預(yù)處理，對數(shù)據(jù)進(jìn)行篩查和清洗，最后融合形成自有科技數(shù)據(jù)庫。我們爬取到的數(shù)據(jù)多為文本數(shù)據(jù)，文本有其自身特征，比如有很多對我們搜索不太相關(guān)的符號、語氣詞、連詞、亂碼等以及“得”、“啊”、“呀”、“和”、“這”等詞，這些詞基本會出現(xiàn)在所有爬取到或項目已有的文本數(shù)據(jù)中，但這些詞對搜索服務(wù)沒有任何幫助，數(shù)據(jù)建模也毫無意義，因此文本數(shù)據(jù)預(yù)處理就是要將無用詞都刪除掉。我們可以參考停用詞表，停用詞表就是研究人員通過多次數(shù)據(jù)分析及采集總結(jié)出的對數(shù)據(jù)挖掘用處不大的詞語，因此我們選用一個停用詞表對我們的數(shù)據(jù)進(jìn)行清洗。

4 數(shù)據(jù)處理-分詞技術(shù)

分詞技術(shù)是數(shù)據(jù)挖掘的基礎(chǔ)。分詞技術(shù)根據(jù)分詞的原理和詞性特征可分為2種：第一種是基于詞典分詞的算法，也可以理解為字符串匹配分詞算法。這種算法是按照特定的規(guī)則將我們構(gòu)建的數(shù)據(jù)庫中的數(shù)據(jù)與一個已經(jīng)建立成功的可靠詞典進(jìn)行比對匹配，若在詞典中找到該詞則比對匹配成功，識別了這個詞匯，反之拋棄。常見的基于詞典的分詞算法有單向最大匹配算法和雙向匹配法。基于詞典的分詞算法是目前應(yīng)用最廣泛和頻繁的，分詞效率快，分詞方法簡單，因此之前很長時間研究者們都致力于提升這種分詞算法的有效性，進(jìn)行優(yōu)化，比如設(shè)定數(shù)據(jù)字符長度，數(shù)據(jù)結(jié)構(gòu)等。第二種分詞方式是基于統(tǒng)計學(xué)的機器學(xué)習(xí)分詞方法，這類機器學(xué)習(xí)算法目前常見的有HMM、CRF、SVM、深度學(xué)習(xí)等算法，機器學(xué)習(xí)算法的基本思路是將數(shù)據(jù)進(jìn)行訓(xùn)練，考慮到了詞出現(xiàn)的頻率，且結(jié)合上下文，因此具備更高的挖掘基礎(chǔ)，對數(shù)據(jù)有更佳的識別效果。

本文通過分詞算法可以將科技數(shù)據(jù)進(jìn)行分詞處理，綜合考慮以上介紹的兩種數(shù)據(jù)挖掘中的分詞技術(shù)，本研究采用哈爾濱理工大學(xué)LTP對科技數(shù)據(jù)的語料進(jìn)行分詞處理，處理過后的科技本文數(shù)據(jù)實例結(jié)果如表1所示。

表1 分詞處理結(jié)果

5 數(shù)據(jù)挖掘及建模

在利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了科技類數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)分詞處理等處理后，再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。大數(shù)據(jù)處理技術(shù)是通過運用大數(shù)據(jù)處理計算框架，對數(shù)據(jù)進(jìn)行分布式計算。在計算之前要將詞語數(shù)值化。

數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法，構(gòu)建數(shù)據(jù)之間的關(guān)系網(wǎng)，尋找隱藏在數(shù)據(jù)中的信息，是從數(shù)據(jù)庫中挖掘有效信息的過程。數(shù)據(jù)挖掘一般和計算機科學(xué)相關(guān)，并通過機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等方法來實現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘，搜索文本信息需要理解人類的自然語言，文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。所涉及相關(guān)算法包括：TSP、Best-first Search、Word2vec、TF-IDF、WordNet等算法。

5.1 Word2vec將詞語數(shù)值化

采用Word2vec訓(xùn)練構(gòu)建并分詞后的科技類數(shù)據(jù)庫，將所有詞語向量化，變成可用于計算和建模的數(shù)值。簡單來講，Word2vec是一款能高效地將詞轉(zhuǎn)變?yōu)槎嗑S向量的計算工具，其計算思想是：先構(gòu)造一個目標(biāo)函數(shù)，詞向量是構(gòu)造目標(biāo)函數(shù)的輔助參數(shù)。通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化，可以獲得各個參數(shù)，包括所需要的詞向量。主要通過神經(jīng)網(wǎng)絡(luò)將詞映射到一個N維空間，N維空間表示了詞的特征。在當(dāng)前研究中人們經(jīng)常使用的方法有CBOW模型與Skip-gram模型，圖1和圖2分別給出了兩種模型的示意圖。

圖1 CBOW說明圖

圖2 SG說明圖

其中，Skip-gram模型的方式是使用選取的目標(biāo)詞預(yù)測文本中其他詞語的向量表示，而CBOW則相反，它是根據(jù)詞語所在文本的上下文環(huán)境推測目標(biāo)中心詞，輸出中心詞的向量表示。相比較而言，Skip-pram模型用于將科技文本數(shù)據(jù)向量化的效果更好。

5.2 TF-IDF數(shù)據(jù)挖掘算法

將科技文本數(shù)據(jù)向量化后，我們可以運用TF-IDF算法對數(shù)據(jù)進(jìn)行加權(quán)處理。TF-IDF是統(tǒng)計學(xué)的一個公式，運用于評估一個詞語對于整個文本或者整個數(shù)據(jù)庫的重要程度，我們主觀地認(rèn)為一個詞語的重要性取決于這個詞在數(shù)據(jù)庫中出現(xiàn)的頻度，出現(xiàn)次數(shù)越多，越重要。比如在一篇科技類論文中，“爬蟲技術(shù)”一次頻繁出現(xiàn)，那我們認(rèn)為該論文主要研究爬蟲技術(shù)。因此某詞語在一篇科技類文檔中出現(xiàn)次數(shù)越多, 同時在我們構(gòu)建的數(shù)據(jù)庫中出現(xiàn)次數(shù)越少, 越能夠凸顯本文檔，這就是TF-IDF數(shù)據(jù)挖掘算法的意義。

6 結(jié)束語

通過數(shù)據(jù)挖掘后的數(shù)據(jù)是數(shù)值化的、有效性高的、利于進(jìn)一步建模利用與搜索服務(wù)的數(shù)據(jù)。通過本文的研究成果，節(jié)約了大量數(shù)據(jù)分析的時間，有很強的可行性，對實現(xiàn)智能化科技信息服務(wù)，形成“互聯(lián)網(wǎng)+專業(yè)化科技服務(wù)”的新型科技服務(wù)體系模型，打造科技服務(wù)生態(tài)圈，拓展科技服務(wù)業(yè)有很高的利用價值。