李家驁,張 豪,楊相群
(南京工程學(xué)院,南京 211167)
隨著中國經(jīng)濟(jì)的不斷發(fā)展,依賴于移動互聯(lián)網(wǎng)和移動終端供應(yīng)商的移動社交類APP逐漸成為新的潮流。以“微信”為代表的APP革新了人們信息傳遞與,而新技術(shù)介入、大眾需求變化,使社交類APP在其設(shè)計(jì)、開發(fā)、演變、升級等過程均呈現(xiàn)出差異化趨勢。
移動社交APP就是指安裝在移動終端上,提供用戶信息傳遞和交互等功能的應(yīng)用統(tǒng)稱[2]。初期的互聯(lián)網(wǎng)行業(yè)中為用戶提供交互交談的服務(wù),例如:BBS,新聞組等呈現(xiàn)為在線社區(qū)的形式。隨著信息技術(shù)的快速發(fā)展,社交網(wǎng)絡(luò)的載體逐漸從傳統(tǒng)的電腦與WEB頁面變成了智能手機(jī)APP,并已涉及和影響到了社會大眾生產(chǎn)生活的方方面面。[1]
本文選用360應(yīng)用軟件市場作為案例,并基于request和BeautifulSoup以及re評論爬蟲,分析、設(shè)計(jì)與實(shí)現(xiàn),通過request爬取內(nèi)容,運(yùn)用BeautifulSoup解析爬取到得信息,運(yùn)用正則表達(dá)式re讀取我們想要得信息。
首先了解到,該網(wǎng)站的評論是有AJAX異步加載的,無法獲取評論的真實(shí)URL,所以需要分析真實(shí)的URL構(gòu)成以及規(guī)律,從而對爬蟲程序進(jìn)行設(shè)計(jì)。在借助到瀏覽器可查看客服端和服務(wù)端之間可以通信的過程的幫助下,通過點(diǎn)擊加載更多評論的按鈕URL由兩部分構(gòu)成,并且只有頁數(shù)和編號在變化,即需要設(shè)計(jì)2個變量來表示真實(shí)的URL。
基于這種方式,需要獲取更多的評論就需要更多次的請求,于是通過URL改造成一個循環(huán),讓程序的每循環(huán)一次可以拿到下一頁的URL。而在此處需要格外注意網(wǎng)站的反爬蟲和網(wǎng)絡(luò)安全保護(hù)機(jī)制,因此在程序設(shè)計(jì)時必須在每次爬取內(nèi)容的時候設(shè)置一點(diǎn)點(diǎn)停頓的時間 time.sleep(random.random()),否則將會觸發(fā)網(wǎng)站的安全保護(hù)系統(tǒng)甚至拒絕訪問。
在獲取網(wǎng)站內(nèi)容的過程中,首先需要借助Python中的request庫,并設(shè)置請求頭和代理。通過這種方式規(guī)避了網(wǎng)站的反爬蟲機(jī)制?,F(xiàn)在再利用request.get()方法獲取網(wǎng)頁內(nèi)容,設(shè)置捕捉到的信息內(nèi)容編碼為utf-8。此時,我們已經(jīng)初步的獲取到所要的網(wǎng)頁內(nèi)容。
進(jìn)一步的信息加工處理是通過BeautifulSoup工具來解析獲得的網(wǎng)頁內(nèi)容,在解析前我們需要對獲取內(nèi)容進(jìn)行初步篩選。調(diào)用f ind all函數(shù)獲得所有div元素里面的內(nèi)容,在拿到所有帶有html格式的內(nèi)容即評論信息之后,可以采用re正則表達(dá)式內(nèi)容提取出來,并調(diào)用re.compile()方法得到我們最終想要的信息。
運(yùn)用Scrapy框架里包含的Feed exports命令可以很方便地導(dǎo)出文件,保存爬取到的用戶評論,再利用程序?qū)?shù)據(jù)進(jìn)行篩選與清洗,提取具有用戶體驗(yàn)性質(zhì)的內(nèi)容并借助詞云分析工具得到了用戶體驗(yàn)的關(guān)鍵詞。
通過對軟件商店中用戶評價的關(guān)鍵字詞進(jìn)行分析后不難發(fā)現(xiàn),多數(shù)用戶的意見反饋集中在,微信的安裝包體積較大,程序占用空間較大,以及媒體編輯功能較為單薄以及注冊流程優(yōu)化等問題。其中,對微信功能建設(shè)方面的意見中,圖片編輯、夜間模式和聊天記錄的訴求較多。這反映出了,目前微信極簡化的產(chǎn)品定位,在信息爆炸的當(dāng)前稍顯落后,在用戶間的信息傳播和交流中,圖片和視頻等多媒體信息的傳播比重正逐漸提高,用戶對于多媒體的編輯處理功能要求提高。而在產(chǎn)品內(nèi)容的用戶評價,則集中在公眾號的內(nèi)容,騰訊會員特權(quán)兩方面。
實(shí)驗(yàn)數(shù)據(jù)表明,在用戶體驗(yàn)的五個維度中,社會體驗(yàn)的影響效應(yīng)最大,即用戶在社會聯(lián)系中尋求社會的認(rèn)可,實(shí)現(xiàn)自己與親人朋友甚至陌生人的聯(lián)系,達(dá)到自己的社交意愿,這正是移動社交軟件的本質(zhì)功能。[3]用戶在使用社交軟件時,傾向于穩(wěn)定且高效地實(shí)現(xiàn)自身的社交意愿。這要求移動社交軟件重視且具備社會體驗(yàn)建設(shè),進(jìn)而提升用戶粘性,提升用戶滿意度。
產(chǎn)品界面的設(shè)計(jì)和產(chǎn)品服務(wù)方式的改進(jìn)升級至關(guān)重要,人類是“視覺動物”,優(yōu)美的產(chǎn)品界面設(shè)計(jì)能給用戶帶來視覺感官的沖擊,色彩鮮明和風(fēng)格簡單的同時強(qiáng)調(diào)功能齊全。用戶的需求是產(chǎn)品設(shè)計(jì)的出發(fā)點(diǎn),捕捉用戶的多樣化需求,收集反饋信息反作用于產(chǎn)品,促使其提供的服務(wù)多樣化發(fā)展。
打破現(xiàn)有的技術(shù)壁壘,開發(fā)和突破算法瓶頸能夠進(jìn)一步降低用戶學(xué)習(xí)成本和使用門檻。通過大數(shù)據(jù)算法的加持,能夠?qū)崿F(xiàn)將用戶需求精確定位,進(jìn)而實(shí)現(xiàn)流量變現(xiàn),提升經(jīng)濟(jì)效益。對代碼結(jié)構(gòu)的優(yōu)化和提升也有助于提升系統(tǒng)響應(yīng)能力,以微信為例,用戶的反饋較多的集中在頁面更新以及信息加載速度較慢,并且缺乏快速有效的投訴反饋渠道。
總之,基于網(wǎng)絡(luò)爬蟲研究社交類APP的運(yùn)營與優(yōu)化具備重要的現(xiàn)實(shí)意義,如何打破現(xiàn)有的技術(shù)壁壘進(jìn)行研發(fā)是之后需要關(guān)注的重點(diǎn)。只有不斷總結(jié)并改進(jìn),才是促進(jìn)社交類APP優(yōu)化與提升的關(guān)鍵。