董海峰
摘要:隨著經(jīng)濟的不斷發(fā)展,計算機網(wǎng)絡也在不斷的發(fā)展,編程語言也應運而生,Python成為了應用比較廣泛的解釋型腳本語言,在很多領域都進行應用,Python簡單易懂,開放性強,在系統(tǒng)的開發(fā)方面應用很方便。這篇文章研究Python編程語言的特點,進行技術分析,在開發(fā)領域的應用和在大數(shù)據(jù)時代下Python編程語言的發(fā)展方向,為以后的研究學習鋪下道路。
關鍵詞:Python;應用;軟件
中圖分類號:TP311.5 文獻標識碼:A 文章編號:1007-9416(2020)07-0101-02
0 引言
作為一門解釋型腳本語言,Python具備開源性、門檻低、可移植性強及擁有更為豐富的資源庫的特點,目前已經(jīng)成為比較主流的編程語言之一,在包括Web開發(fā)在內的多領域都有著深入的應用。
1 多種語言在數(shù)據(jù)挖掘方面的比較
現(xiàn)在市場上有很多腳本語言,寫爬蟲程序的語言可以使用C、C++、C#、PHP、Java、Python,但是在數(shù)據(jù)挖掘階段大多數(shù)人還是習慣使用Python,因為相比較而言,Python更加具有開源性、簡潔性、類庫性這些特點。
(1)PHP有其自身的優(yōu)勢,性能很強、配合簡單、穩(wěn)定、容易部署、跨平臺性也很強,但是也是有很大的缺點的,不適合做爬蟲、自動運行腳本.科學運算項目,這語言基本構架就不適合,并且它是個單進程的程序,不夠穩(wěn)定,運行運行著就會莫名其妙的自己掛掉,所以后期維護很困難。(2)Java語言簡單、安全、穩(wěn)定、跨平臺,但是需要運行環(huán)境、不適合開發(fā)桌面應用程序,而且Java的代碼量很大,一旦需要修改就會很麻煩,不適合開發(fā)爬蟲,比較適合金融系統(tǒng)的構建。(3)C/C++語言非常靈活、嚴謹、精確,但是門檻高難學,開發(fā)效率低,寫爬蟲代碼需要的時間長,所以一般不用C/C++語言來寫爬蟲代碼。(4)Python語言簡單明了,類庫性強,一般在開發(fā)的時候,使用Python語言可以起到事半功倍的效果[1]。
2 Python語言的特點
第一,相對于C、C++、Java等編輯/靜態(tài)類型語言,python的開發(fā)效率提升了3-5倍,也就是說代碼量是其他編程語言的三分之一,而且無需編譯、鏈接步驟,提高程序員效率,代碼非常簡單,上手非常容易。比如我們要完成某個功能,如果用Java 需要100行代碼,但用Python可能只需要20行代碼,這是Python具有巨大吸引力的一大特點,很適合剛剛入門進行學習的初學者,可以增強學習者的信心,使得工作科學有效的開展。第二,Python語言具有開源性和靈活性,簡單地說,你可以自由地發(fā)布這個軟件的拷貝,閱讀它的源代碼,對它做改動,把它的一部分用于新的自由軟件中。它具有腳本語言中最豐富和強大的類庫,具有可移植性,Python提供多種可選的獨立程序,如用戶圖形界面、數(shù)據(jù)庫接入、基于web系統(tǒng)、還提供了操作系統(tǒng)接口,使用起來很方便,語法非常清晰,它甚至不是一種格式自由的語言。例如,它要求if語句的下一行必須向右縮進,否則不能通過編譯。Python作為一門解釋型的語言,它天生具有跨平臺的特征,只要為平臺提供了相應的Python解釋器,Python就可以在該平臺上運行[2]。它也是一種功能強大而完善的通用型語言,也促使了大家都喜歡使用它。
3 基于Python的計算機軟件應用技術分析
3.1 建立相應的文件
需要建立相應的文件,利用scrapy-redis進行建立的文件夾包含三個:第一,需要儲存爬蟲的內容;第二,需要儲存爬蟲規(guī)范;第三,需要將爬蟲內容和規(guī)范儲存在文件內。
3.2 信息爬取
在爬取信息得實際流程中,我們需要分為以下幾步進行。
3.2.1 獲取軟件
我們需要進行獲取軟件,得到準確的URL,就需要進行網(wǎng)絡爬蟲,檢索數(shù)據(jù)的URL,然后和需要的數(shù)據(jù)資料進行比對,將得到的準確的URL放進資料庫,按順序排隊,然后再等URL出來,利用地址進行查詢相應的網(wǎng)站信息,再將有用的信息資料存放在資料庫中,已經(jīng)使用過的URL就需要放入已經(jīng)使用的資料庫里面。
3.2.2 將所獲得的信息存儲起來
需要將所獲得的信息儲存起來,就需要對所獲得的信息進行檢索檢查,取其精華,去其糟粕,只留下有用的信息,在檢索的過程中,可能會出現(xiàn)很多的類似或者抄襲的現(xiàn)象,這是就需要去掉該頁面的信息。這種情況如果沒有處理好,就會出現(xiàn)很多沒有用的信息愛占用著磁盤的空間,是一種資源的浪費,所以在對頁面進行分析的時候,要注重選取信息的環(huán)節(jié),加大篩選的準確性。畢竟每臺電腦的內存都是有限的,所以一定要通過URL查詢到網(wǎng)址之后,就行相應的頁面分析篩選,選出正確的信息進行存儲[3]。
3.2.3 預處理
預處理是指進行第一步處理,使信息中的文字和頁面中的廣告分離,取走需要的信息,進行簡單的篩選處理工作,對需要的信息留下進行處理加工。
3.2.4 分頁檢索能力
在使用的時候,如果客戶需要使用分頁檢索功能,那就可以對答案進行篩選、排列的操作,來呈現(xiàn)出準確的答案。
4 計算機語言軟件在大數(shù)據(jù)時代下的發(fā)展方向
4.1 通信領域的發(fā)展
我國大部分的通信公司為了制定合理的通信方案,常常要收集大量的用戶資料。若使用計算機分析軟件,對用戶的通信習慣等方面進行科學預估,進而針對性的對網(wǎng)絡用戶提供超值的通信方案,可對客戶科學建議月租、流量包等方面的套餐,滿足用戶多元化的上網(wǎng)需求,從而改善部分通信公司逐漸下滑的運營情況。具體而言,通信公司可以利用數(shù)據(jù)挖掘等技術,在計算機軟件技術的基礎上,收集并歸納公司客戶的通信數(shù)據(jù)及相關資料,總結客戶平常的通信習慣,進而對其建議公司所推出的的相關套餐及通信活動[4]??傊跀?shù)據(jù)信息爆炸式增長的時代,通信公司應利用計算機軟件技術,不斷加強公司的通信服務質量,進而持續(xù)增強公司的經(jīng)濟效益,使公司得以快速發(fā)展。所以,在大數(shù)據(jù)環(huán)境下,計算機軟件技術在通信領域的應用可以作為其未來的發(fā)展趨勢。
4.2 企業(yè)數(shù)據(jù)信息的發(fā)展
現(xiàn)如今,大部分企業(yè)的穩(wěn)步發(fā)展均要依靠客戶數(shù)據(jù)信息的有效處理。企業(yè)可以利用計算機軟件技術對海量數(shù)據(jù)進行科學的分析,從而獲得有利于企業(yè)快速發(fā)展的數(shù)據(jù)價值規(guī)律。此外,企業(yè)通過運用計算機軟件技術,還能提高企業(yè)人員的工作效率。而且,利用計算機軟件技術,企業(yè)還能獲得客戶多方面的數(shù)據(jù)信息。但是要注意,在進行客戶數(shù)據(jù)信息的分析處理時,要選擇有代表性的數(shù)據(jù)進行整合分類。在大數(shù)據(jù)時代下,每位客戶的數(shù)據(jù)信息都比較多。如若要對客戶所有的數(shù)據(jù)信息進行完整的分析,便會消耗一定的時間和精力。所以,在對客戶數(shù)據(jù)進行分析時,要進行抽樣化分析,即應以某一部分有代表性的樣品為例,進行抽樣化處理[5]。而且,計算機軟件技術還會給出客戶的整體消費偏好。利用計算機軟件技術的探究方法,對用戶的數(shù)據(jù)進行分析、對比,可總結出用戶的消費偏好。還能通過用戶的消費偏好,針對性的為客戶制定相應的產(chǎn)品方案或購買計劃,滿足客戶多樣化的需求,進而提升企業(yè)的產(chǎn)品評價。同時。企業(yè)也可將計算機軟件技術應用于多種領域,以最大限度地發(fā)揮其應用價值。
5 結語
總體來說,在計算機實際應用中,若要進行數(shù)據(jù)挖掘,通常會采用網(wǎng)絡爬蟲的方法來進行,而Python語言在編寫網(wǎng)絡爬蟲程序時,具有較大的優(yōu)勢,因此,大多情況下都會將Python作為編寫網(wǎng)絡爬蟲的首要語言。
參考文獻
[1] 彭揚劍.試析計算機軟件技術在大數(shù)據(jù)時代的應用[J].信息記錄材料,2019,20(6):93-94.
[2] 郭佳興.計算機軟件技術在大數(shù)據(jù)時代的應用探討[J].數(shù)字技術與應用,2019,37(5):220-221.
[3] 趙金金.分層技術在計算機軟件開發(fā)中的應用效果分析[J].湖北農(nóng)機化,2019(09):48.
[4] 劉洪.計算機軟件開發(fā)中分層技術的應用研究[J].信息與電腦(理論版),2019(9):29-30.
[5] 王鴻燕.計算機軟件技術在大數(shù)據(jù)時代的應用分析[J].電腦知識與技術,2019,15(14):253-254.