王彥婕
(山西省信息產(chǎn)業(yè)技術(shù)研究院有限公司,山西 太原 030012)
隨著信息產(chǎn)業(yè)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)逐步成為大眾獲取與交流信息的最大平臺,我們通過在網(wǎng)頁中簡單地搜索相關(guān)詞語就可以得到我們想要的信息,在科技服務(wù)平臺網(wǎng)上搜索關(guān)鍵詞就能獲取科技相關(guān)方面的知識。在搜索引擎不斷更新交替的現(xiàn)狀下,最初的傳統(tǒng)搜索服務(wù)手段已經(jīng)被淘汰,現(xiàn)代社會越來越不滿足落后且單一的大眾化搜索服務(wù),信息發(fā)展急切需要全面精準(zhǔn)的專業(yè)化信息檢索服務(wù)。本文基于數(shù)據(jù)挖掘技術(shù),獲取了大量科技類文本數(shù)據(jù),并結(jié)合項目已有的大量科技平臺數(shù)據(jù),建立一個數(shù)據(jù)量大且有效性高的數(shù)據(jù)庫,并對數(shù)據(jù)進(jìn)行清洗、處理、量化、建模等步驟,以便于進(jìn)一步服務(wù)于科技搜索引擎。
數(shù)據(jù)采集是所有數(shù)據(jù)挖掘研究的基礎(chǔ),構(gòu)建一個數(shù)據(jù)量大,數(shù)據(jù)有效性高的數(shù)據(jù)資源庫是一切數(shù)據(jù)挖掘研究的基礎(chǔ)。我們可以利用網(wǎng)絡(luò)爬蟲技術(shù)來定向獲取或非定向獲取數(shù)據(jù),根據(jù)網(wǎng)絡(luò)爬蟲相關(guān)規(guī)則:以某個選定科技服務(wù)網(wǎng)站作為起始網(wǎng)站,通過各個網(wǎng)站頁面的超鏈接遍歷整個網(wǎng)絡(luò),利用URL根據(jù)廣度優(yōu)先算法從一個網(wǎng)頁文檔爬取到另外一個網(wǎng)頁文檔來獲取所有數(shù)據(jù)信息。
數(shù)據(jù)采集后將所有數(shù)據(jù)匯集形成自有科技數(shù)據(jù)庫。整合現(xiàn)有數(shù)據(jù),包含各類科技數(shù)據(jù);科技項目中整個項目生命周期中的數(shù)據(jù)包括管理數(shù)據(jù)、申報數(shù)據(jù)、申報信息、結(jié)題驗收信息及產(chǎn)生的成果數(shù)據(jù);科技論文內(nèi)容、負(fù)責(zé)人及參與人信息;還包括科研設(shè)施與儀器、生物(物種)資源與實驗材料、科技文獻(xiàn)、科學(xué)數(shù)據(jù)、重點科技創(chuàng)新平臺、重點實驗室、工程技術(shù)研究中心、科技創(chuàng)新團(tuán)隊、科技基礎(chǔ)條件平臺、創(chuàng)新券服務(wù)等數(shù)據(jù)。只有數(shù)據(jù)庫足夠完全,基于數(shù)據(jù)挖掘形成的科技引擎才足夠可靠。
分析整理平臺現(xiàn)有數(shù)據(jù),進(jìn)行數(shù)據(jù)預(yù)處理,對數(shù)據(jù)進(jìn)行篩查和清洗,最后融合形成自有科技數(shù)據(jù)庫。我們爬取到的數(shù)據(jù)多為文本數(shù)據(jù),文本有其自身特征,比如有很多對我們搜索不太相關(guān)的符號、語氣詞、連詞、亂碼等以及“得”、“啊”、“呀”、“和”、“這”等詞,這些詞基本會出現(xiàn)在所有爬取到或項目已有的文本數(shù)據(jù)中,但這些詞對搜索服務(wù)沒有任何幫助,數(shù)據(jù)建模也毫無意義,因此文本數(shù)據(jù)預(yù)處理就是要將無用詞都刪除掉。我們可以參考停用詞表,停用詞表就是研究人員通過多次數(shù)據(jù)分析及采集總結(jié)出的對數(shù)據(jù)挖掘用處不大的詞語,因此我們選用一個停用詞表對我們的數(shù)據(jù)進(jìn)行清洗。
分詞技術(shù)是數(shù)據(jù)挖掘的基礎(chǔ)。分詞技術(shù)根據(jù)分詞的原理和詞性特征可分為2種:第一種是基于詞典分詞的算法,也可以理解為字符串匹配分詞算法。這種算法是按照特定的規(guī)則將我們構(gòu)建的數(shù)據(jù)庫中的數(shù)據(jù)與一個已經(jīng)建立成功的可靠詞典進(jìn)行比對匹配,若在詞典中找到該詞則比對匹配成功,識別了這個詞匯,反之拋棄。常見的基于詞典的分詞算法有單向最大匹配算法和雙向匹配法。基于詞典的分詞算法是目前應(yīng)用最廣泛和頻繁的,分詞效率快,分詞方法簡單,因此之前很長時間研究者們都致力于提升這種分詞算法的有效性,進(jìn)行優(yōu)化,比如設(shè)定數(shù)據(jù)字符長度,數(shù)據(jù)結(jié)構(gòu)等。第二種分詞方式是基于統(tǒng)計學(xué)的機器學(xué)習(xí)分詞方法,這類機器學(xué)習(xí)算法目前常見的有HMM、CRF、SVM、深度學(xué)習(xí)等算法,機器學(xué)習(xí)算法的基本思路是將數(shù)據(jù)進(jìn)行訓(xùn)練,考慮到了詞出現(xiàn)的頻率,且結(jié)合上下文,因此具備更高的挖掘基礎(chǔ),對數(shù)據(jù)有更佳的識別效果。
本文通過分詞算法可以將科技數(shù)據(jù)進(jìn)行分詞處理,綜合考慮以上介紹的兩種數(shù)據(jù)挖掘中的分詞技術(shù),本研究采用哈爾濱理工大學(xué)LTP對科技數(shù)據(jù)的語料進(jìn)行分詞處理,處理過后的科技本文數(shù)據(jù)實例結(jié)果如表1所示。
表1 分詞處理結(jié)果
在利用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行了科技類數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)分詞處理等處理后,再進(jìn)行進(jìn)一步的數(shù)據(jù)挖掘。大數(shù)據(jù)處理技術(shù)是通過運用大數(shù)據(jù)處理計算框架,對數(shù)據(jù)進(jìn)行分布式計算。在計算之前要將詞語數(shù)值化。
數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中采用自動或半自動的建模算法,構(gòu)建數(shù)據(jù)之間的關(guān)系網(wǎng),尋找隱藏在數(shù)據(jù)中的信息,是從數(shù)據(jù)庫中挖掘有效信息的過程。數(shù)據(jù)挖掘一般和計算機科學(xué)相關(guān),并通過機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)等方法來實現(xiàn)知識挖掘。在搜索引擎中主要是進(jìn)行文本挖掘,搜索文本信息需要理解人類的自然語言,文本挖掘指從大量文本數(shù)據(jù)中抽取隱含的、未知的、可能有用的信息。所涉及相關(guān)算法包括:TSP、Best-first Search、Word2vec、TF-IDF、WordNet等算法。
采用Word2vec訓(xùn)練構(gòu)建并分詞后的科技類數(shù)據(jù)庫,將所有詞語向量化,變成可用于計算和建模的數(shù)值。簡單來講,Word2vec是一款能高效地將詞轉(zhuǎn)變?yōu)槎嗑S向量的計算工具,其計算思想是:先構(gòu)造一個目標(biāo)函數(shù),詞向量是構(gòu)造目標(biāo)函數(shù)的輔助參數(shù)。通過對目標(biāo)函數(shù)進(jìn)行優(yōu)化,可以獲得各個參數(shù),包括所需要的詞向量。主要通過神經(jīng)網(wǎng)絡(luò)將詞映射到一個N維空間,N維空間表示了詞的特征。在當(dāng)前研究中人們經(jīng)常使用的方法有CBOW模型與Skip-gram模型,圖1和圖2分別給出了兩種模型的示意圖。
圖1 CBOW說明圖
圖2 SG說明圖
其中,Skip-gram模型的方式是使用選取的目標(biāo)詞預(yù)測文本中其他詞語的向量表示,而CBOW則相反,它是根據(jù)詞語所在文本的上下文環(huán)境推測目標(biāo)中心詞,輸出中心詞的向量表示。相比較而言,Skip-pram模型用于將科技文本數(shù)據(jù)向量化的效果更好。
將科技文本數(shù)據(jù)向量化后,我們可以運用TF-IDF算法對數(shù)據(jù)進(jìn)行加權(quán)處理。TF-IDF是統(tǒng)計學(xué)的一個公式,運用于評估一個詞語對于整個文本或者整個數(shù)據(jù)庫的重要程度,我們主觀地認(rèn)為一個詞語的重要性取決于這個詞在數(shù)據(jù)庫中出現(xiàn)的頻度,出現(xiàn)次數(shù)越多,越重要。比如在一篇科技類論文中,“爬蟲技術(shù)”一次頻繁出現(xiàn),那我們認(rèn)為該論文主要研究爬蟲技術(shù)。因此某詞語在一篇科技類文檔中出現(xiàn)次數(shù)越多, 同時在我們構(gòu)建的數(shù)據(jù)庫中出現(xiàn)次數(shù)越少, 越能夠凸顯本文檔,這就是TF-IDF數(shù)據(jù)挖掘算法的意義。
通過數(shù)據(jù)挖掘后的數(shù)據(jù)是數(shù)值化的、有效性高的、利于進(jìn)一步建模利用與搜索服務(wù)的數(shù)據(jù)。通過本文的研究成果,節(jié)約了大量數(shù)據(jù)分析的時間,有很強的可行性,對實現(xiàn)智能化科技信息服務(wù),形成“互聯(lián)網(wǎng)+專業(yè)化科技服務(wù)”的新型科技服務(wù)體系模型,打造科技服務(wù)生態(tài)圈,拓展科技服務(wù)業(yè)有很高的利用價值。