• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      APP 用戶差評行為影響因素研究

      2022-02-25 06:45:00丁文強(qiáng)
      軟件導(dǎo)刊 2022年1期
      關(guān)鍵詞:開發(fā)者文檔文本

      丁文強(qiáng),苗 虹

      (江蘇科技大學(xué)經(jīng)濟(jì)管理學(xué)院,江蘇 鎮(zhèn)江 212003)

      0 引言

      隨著信息技術(shù)的不斷發(fā)展,應(yīng)用程序(APP)如雨后春筍般出現(xiàn)在各大應(yīng)用市場中,APP 開發(fā)者之間的競爭異常激烈。應(yīng)用市場允許開發(fā)者發(fā)布以及用戶購買、下載、評論APP,用戶可以根據(jù)使用體驗(yàn)給APP 打出最低1 星、最高5 星的評分。Palomba 等[1]研究表明,星級評分和用戶評論對開發(fā)團(tuán)隊(duì)的盈利有重大影響,低星級的APP 往往很難在應(yīng)用市場中生存下來,大量優(yōu)質(zhì)評論能使APP 獲得更高曝光度,負(fù)面評論則會使開發(fā)者面臨損失。研究表明,當(dāng)評論數(shù)量達(dá)到一定規(guī)模時,低認(rèn)知需求用戶受評論數(shù)量的影響較大,高認(rèn)知需求用戶受評論質(zhì)量的影響較大[2];而對于體驗(yàn)型產(chǎn)品而言,評論數(shù)量對用戶的影響更為明顯[3]。因此,開發(fā)者通常會通過推出試用版本的方式積累原始用戶,通過擴(kuò)充功能、進(jìn)階增值服務(wù)等方式獲得盈利。

      在互聯(lián)網(wǎng)時代,越來越多的用戶愿意通過在線評論的方式分享自身使用體驗(yàn),這些評論包含大量有價值的信息。潛在用戶除了通過開發(fā)者介紹的信息了解APP 外,還會借助用戶評分進(jìn)行決策,在線評論成為其獲取信息的重要來源[4-5]。然而,不少消費(fèi)者都有過給出好評等級卻寫出負(fù)面評論的經(jīng)歷,消費(fèi)者擔(dān)心給出差評會受到賣家的報復(fù),從而違心給出正面評價[6]。評論星級與文本之間的不一致性使得高星級評論中也有著差評的存在,用戶的識別難度大大增加[7]。鑒于此,本文擬探究用戶是否會對開發(fā)者在試用版本后推出增值收費(fèi)服務(wù)等營利行為作出負(fù)面評價,以及新版本軟件的功能、質(zhì)量與開發(fā)團(tuán)隊(duì)推送頻率等對用戶差評意愿的影響。

      1 相關(guān)研究

      文本挖掘是從文本中提取出高質(zhì)量信息的過程,其應(yīng)用多集中在商品以及企業(yè)產(chǎn)品評價方面。目前,有許多學(xué)者面向APP 評論進(jìn)行文本挖掘研究,例如胡甜媛等[8]將評論體現(xiàn)的反饋定義為軟件滿足的需求、存在的問題以及未達(dá)到的期望,通過構(gòu)建評價對象與評價觀點(diǎn)抽取規(guī)則,有效挖掘體現(xiàn)使用反饋的APP 用戶評論;呂宏玉等[9]針對APP 用戶特性,提出基于挖掘范圍識別和關(guān)聯(lián)規(guī)則的APP評論特征方法;張莉曼等[10]從APP 用戶需求表達(dá)狀態(tài)和表達(dá)過程出發(fā),剖析用戶需求的3 種表達(dá)形式,從用戶生成數(shù)據(jù)中聚合需求信息,生成高價需求情報,然后再推送給需求者;Zhou 等[11]以亞馬遜生態(tài)系統(tǒng)為例,利用LDA 模型提取與客戶需求相關(guān)的主題,并使用KANO 模型對客戶需求進(jìn)行定量分類;Kim 等[12]利用LDA 模型對Twitter 用戶發(fā)布的信息進(jìn)行挖掘,從而更加高效地對用戶進(jìn)行好友推薦和內(nèi)容推送;王欣研等[13]提出學(xué)術(shù)APP 在線評論主題語義關(guān)聯(lián)研究方法,基于詞向量相關(guān)性獲得主題語義關(guān)聯(lián),構(gòu)建語義關(guān)聯(lián)圖譜,為APP 平臺運(yùn)營者完善功能提供了參考依據(jù)。以上研究多從用戶需求和軟件特征的角度進(jìn)行文本挖掘。本文嘗試從開發(fā)者的角度分析評論文本,通過開發(fā)者將應(yīng)用免費(fèi)上架后再向用戶推送付費(fèi)版本這一行為,研究用戶作出負(fù)面評價的影響因素。

      2 研究框架與方法

      2.1 研究框架

      本文研究框架如圖1 所示。首先采集APP 的用戶評論,對數(shù)據(jù)進(jìn)行預(yù)處理;然后從用戶評論集中人工篩選出500 條好評和500 條差評,分為訓(xùn)練集和測試集,采用邏輯回歸模型進(jìn)行評論分類,篩選出差評文本。利用LDA 模型對差評集合進(jìn)行主題提取,生成文檔—主題矩陣詞匯—主題矩陣,并展示可視化結(jié)果。通過上述實(shí)驗(yàn)結(jié)果,驗(yàn)證開發(fā)者在試用版本后推出增值收費(fèi)服務(wù)等營利行為是否會得到用戶差評,以及是否存在某些因素對此起到調(diào)節(jié)作用。

      Fig.1 Research framework圖1 研究框架

      2.2 LDA 模型

      LDA 主題模型是包含文檔、主題、詞項(xiàng)3 種結(jié)構(gòu)的3 層貝葉斯概率模型[14],其利用概率統(tǒng)計(jì)思想對文檔進(jìn)行建模,能將文檔集中每篇文檔的主題以概率分布的形式給出,通過判斷文本的相似性進(jìn)行更深層次的語義挖掘,將文本中隱藏的主題挖掘出來。

      LDA 模型的原理如圖2 所示。首先定義一個包含m 個文檔的文檔集合D(d1,d2…dm)、主題集合T,字典中有V個詞匯。已知每個文檔包含n 個詞匯,則Nm表示第m 篇文章中的詞匯量,Wm,n表示第m 個文檔中的第n 個詞。文本集中隱藏了k 個主題(T1,T2…Tk),Zm,n表示第m 個文檔中第n 個詞的主題。每個文檔都有各自的主題,服從Dirichlet分布,參數(shù)為α,則對于第m 個文檔,其主題分布θm 為Dirichle(tα)。主題中的詞匯服從Dirichlet 分布,參數(shù)為β,則對于任意一個主題K,其詞分布φk 為Dirichle(tβ)。α、β為模型中的超參數(shù),影響著模型主題分布與詞匯分布的平滑度。兩個隱含變量θ 和φ 分別表示文檔集D 中d 文檔對應(yīng)到不同主題的概率和主題集T 中k 主題生成不同單詞的概率,其中θ 為K 維向量,φ 為v 維向量。

      Fig.2 LDA model圖2 LDA 模型

      LDA 的聯(lián)合概率計(jì)算方法如式(1)所示,式中w 為已知變量,先驗(yàn)參數(shù)可參考前人經(jīng)驗(yàn)確定;z 為某篇文章的所有主題,可由θ 確定。LDA 的訓(xùn)練過程主要為確定θ 和φ 值的過程,這些參數(shù)一旦確定,對于新加入的文檔,可以認(rèn)為主題詞—詞分布的φ 是穩(wěn)定的,參照Gibbs Sampling 公式確定θ 和φ。

      LDA 生成文本的步驟見表1。

      Table 1 LDA model test generation steps表1 LDA 模型生成文本步驟

      2.3 邏輯回歸模型

      邏輯回歸模型[15]是一種經(jīng)典的分類算法,適用于對用戶評論數(shù)據(jù)進(jìn)行分類。其訓(xùn)練速度較快,且具有較好的分類效果,是使用最為廣泛的分類方法之一。該模型可根據(jù)一組自變量輸入計(jì)算出歸屬每種類別的概率,常使用二項(xiàng)邏輯回歸方法,即類別只有0 和1 兩種,其條件概率分布表示為:

      式中,x∈Rn 為輸入,稱為實(shí)例特征;Y∈(0,1)為輸出,兩個分類可以對評論是好評還是差評進(jìn)行判斷;w∈Rn 和b∈R為參數(shù);w 為權(quán)值向量,對應(yīng)每個輸入特征的權(quán)重;b為偏置。

      3 數(shù)據(jù)采集與預(yù)處理

      3.1 數(shù)據(jù)來源

      APPexchange(https://APPexchange.salesforce.com/)是saleforce推出的應(yīng)用平臺,現(xiàn)今已上架3 000多種APP,擁有上萬在線用戶,旨在為用戶提供大量優(yōu)質(zhì)APP。利用Python+Selenium 的方法采集APPexchange平臺中免費(fèi)APP的用戶評論數(shù)據(jù),共有14 290條,刪除非英文評論、無意義評論(“Waste Time”“Highly Recommended”)以及顯示異常評論等,得到14 068條有效評論。爬取的部分?jǐn)?shù)據(jù)內(nèi)容如圖3所示。

      Fig.3 Partial test data display圖3 部分試驗(yàn)數(shù)據(jù)展示

      3.2 數(shù)據(jù)預(yù)處理

      由于用戶在平臺中的評論比較隨意,不可避免地會出現(xiàn)很多與研究主題無關(guān)的無效評論,因此對數(shù)據(jù)進(jìn)行預(yù)處理有助于提升模型效率,處理方法主要分為以下3 種:①分詞。進(jìn)行數(shù)據(jù)處理時,計(jì)算機(jī)理解的最小處理單位為單詞,因此需要將語句拆分成有意義的單詞;②去除停用詞。分詞結(jié)果中通常會出現(xiàn)很多無意義的符號,使用停用詞表刪除文本中的連詞、量詞、介詞等無意義詞語,剔除無用標(biāo)點(diǎn),可以提高檢索效率、優(yōu)化內(nèi)存,文本處理時若遇到停用表中的詞,系統(tǒng)會停止處理,將其扔掉;③次干提取,詞形還原。去除相似單詞的詞綴,得到單詞詞根,否則主題模型會將這些單詞當(dāng)作不同的實(shí)體進(jìn)行處理,詞形還原則是利用上下文語境將單詞還原成詞根。

      3.3 邏輯回歸分類

      對采集到的評論信息進(jìn)行人工標(biāo)注,得到好評和差評各500 條。做好標(biāo)簽,正面評論用1 表示,負(fù)面評論用0 表示,采用空間向量表示預(yù)處理后的詞組,組成語料庫。將語料庫以7∶3 的比例劃分為訓(xùn)練集和測試集,利用邏輯回歸算法對訓(xùn)練矩陣進(jìn)行分類器訓(xùn)練,將訓(xùn)練好的分類器運(yùn)用到測試矩陣中進(jìn)行預(yù)測,然后對模型效果進(jìn)行評估,最后調(diào)用訓(xùn)練好的邏輯回歸模型對采集到的評論進(jìn)行分類。

      經(jīng)過訓(xùn)練,得到如圖4 所示的試驗(yàn)結(jié)果,可以看出各項(xiàng)模型評價指標(biāo)均大于0.9,說明預(yù)測效果較為理想。使用訓(xùn)練好的分類器對用戶評論進(jìn)行分類,可形成用戶差評集合。

      Fig.4 Logical regression model evaluation圖4 邏輯回歸模型評估

      3.4 主題個數(shù)確定

      LDA算法需要確定超參數(shù)α和β,以及主題數(shù)量k。實(shí)踐中常將超參數(shù)α和β值設(shè)置為0.1和0.01[16],本文亦是如此。

      確定主題數(shù)量是構(gòu)建LDA 模型的難點(diǎn),主題數(shù)量影響著整個模型性能的優(yōu)劣。當(dāng)主題數(shù)目過多時,會產(chǎn)生很多無明顯意義的主題;當(dāng)主題數(shù)目過少時,主題粒度過大,一個主題包含多層語義。目前主題數(shù)量常基于困惑度和主題連貫性確定[17],由于困惑度依賴概率和詞頻,沒有考慮到詞匯在用戶評論中的上下文聯(lián)系,因此本文選擇后者確定用戶評論集的最佳主題數(shù)量[18]。通過Python 自帶的模型方法確定主題數(shù)量,根據(jù)LDA 提取的主題相似度計(jì)算相應(yīng)得分,得分越高,模型質(zhì)量越好。將主題數(shù)量分別設(shè)置為10、15、20、25、30,通過網(wǎng)格搜索法(Grid Search)進(jìn)行調(diào)參。由圖5(彩圖掃OSID 碼可見)可以看出,當(dāng)主題數(shù)量為10 時效果最好,當(dāng)主題數(shù)量繼續(xù)縮小時,評分仍會繼續(xù)上升,但主題數(shù)目過少時會造成一個評論包含多個主題的情況,不利于分析提取的主題。經(jīng)過多次試驗(yàn),最終設(shè)定主題數(shù)量為10。

      Fig.5 Number of themes圖5 主題數(shù)量

      4 主題分析

      通過LDA 模型對用戶差評集合進(jìn)行分析,得到文檔—主題矩陣和主題—詞匯矩陣。表2 為運(yùn)行LDA 模型后得到的主題—詞匯矩陣,展示了評論集合中出現(xiàn)的與10 個主題相關(guān)的特征詞。圖6 為主題4 包含的前30 個主題詞,特征詞“APP、free、pay”共現(xiàn)在部分軟件版本升級的差評集中,說明確實(shí)存在開發(fā)者先將APP 免費(fèi)上架,在限免一段時間后推送增值服務(wù)的情況,最終有用戶針對該現(xiàn)象給出了負(fù)面評價。由此證實(shí),將付費(fèi)APP 偽裝成免費(fèi)型上架,后期再推送付費(fèi)版本會對用戶差評行為產(chǎn)生影響。

      Table 2 Theme-vocabulary matrix表2 主題—詞匯矩陣

      Fig.6 PyLDAvis visualization圖6 PyLDAvis 可視化圖

      通過pyLDAvis 對主題進(jìn)行可視化,將圖6 中的關(guān)鍵詞導(dǎo)入到主題詞關(guān)聯(lián)圖中(見圖7),發(fā)現(xiàn)了關(guān)鍵詞“email、address、day”,說明開發(fā)者可能會通過電子郵件的方式向用戶推送營銷信息,且較為頻繁。關(guān)鍵詞“pay、version、feature、upgrade”聯(lián)系緊密,說明更新版本可能會增加新的功能適配用戶需求,如果用戶對新版本感到滿意可能會接受付費(fèi)行為,但當(dāng)升級版本沒有達(dá)到預(yù)期效果時會給出差評。

      從提取的主題中可以看出,導(dǎo)致用戶差評行為的因素有很多,需要對這些因素的重要程度進(jìn)行比較。Pyldavis 左側(cè)面板展示了LDA 模型分類出的不同主題,主題氣泡大小可顯示主題強(qiáng)度,氣泡越大說明該主題的重要程度越高,氣泡之間的距離表示兩個主題之間的相似程度。根據(jù)以上信息繪制圖8,可以看出,主題4 占比為10.7%,說明付費(fèi)APP 偽裝成免費(fèi)APP 上架,后期進(jìn)行收費(fèi)的主題較為靠前,且與主題1 的12.5%較為接近。前3 個主題反映的是開發(fā)團(tuán)隊(duì)的支持與服務(wù)、APP 的適配程度和程序包解決方案等問題。后幾個主題解讀效果不是很好,主要為APP 的賬戶、插件、設(shè)置等出現(xiàn)的問題以及對開發(fā)團(tuán)隊(duì)的反饋??傮w來說,開發(fā)者將APP 上架于免費(fèi)專區(qū),后期進(jìn)行增值服務(wù)的行為容易造成用戶不滿,開發(fā)者需提升更新后版本的質(zhì)量,達(dá)到物超所值的效果。

      Fig.7 Keywords association chart圖7 關(guān)鍵詞關(guān)聯(lián)圖譜

      Fig.8 Proportion of themes圖8 各主題占比

      5 結(jié)語

      本文基于邏輯回歸算法對APP 的評論集進(jìn)行分類,篩選出差評數(shù)據(jù),然后利用LDA 模型分析評論數(shù)據(jù),探究是否存在開發(fā)者在試用版本后推出進(jìn)階收費(fèi)服務(wù)等營利行為,以及這一現(xiàn)象與用戶差評行為的關(guān)系。實(shí)驗(yàn)結(jié)果表明,開發(fā)者將應(yīng)用免費(fèi)上架后再向用戶推送付費(fèi)版本的行為是用戶作出差評的原因之一,尤其是當(dāng)開發(fā)團(tuán)隊(duì)頻繁地對用戶推送付費(fèi)版本信息時,更有可能導(dǎo)致用戶給予差評;付費(fèi)版本的質(zhì)量和功能可能會對用戶差評行為起到調(diào)節(jié)作用。

      當(dāng)使用免費(fèi)版本的用戶達(dá)到一定規(guī)模時,開發(fā)團(tuán)隊(duì)為獲取更高利潤,往往會推出付費(fèi)或高級版本進(jìn)行營利行為,如果未做好營銷推廣工作可能會導(dǎo)致用戶給予差評,影響APP 下載量。開發(fā)者應(yīng)合理制定價格策略,注重與用戶的溝通。如果付費(fèi)版本的功能與免費(fèi)版相比得到明顯提升,且價格合理,相信用戶樂意進(jìn)行付費(fèi)版本的嘗試。

      本文研究方法仍存在一定局限性,根據(jù)實(shí)際需求調(diào)整pyldavis 中參數(shù)λ 的值可以得到更有意義的主題詞。此外,LDA 模型超參數(shù)的設(shè)定會影響主題模型的結(jié)果,因此在今后研究中將考慮更多參數(shù)對試驗(yàn)結(jié)果的影響,而不是參照其他文獻(xiàn)的推薦值,以便模型更加擬合試驗(yàn)數(shù)據(jù)。

      猜你喜歡
      開發(fā)者文檔文本
      有人一聲不吭向你扔了個文檔
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      16%游戲開發(fā)者看好VR
      CHIP新電腦(2016年3期)2016-03-10 13:06:42
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      iOS開發(fā)者調(diào)查
      電腦迷(2015年8期)2015-05-30 12:27:10
      iOS開發(fā)者調(diào)查
      電腦迷(2015年4期)2015-05-30 05:24:09
      如何快速走進(jìn)文本
      語文知識(2014年1期)2014-02-28 21:59:13
      普定县| 太和县| 永善县| 阜新市| 潢川县| 达日县| 工布江达县| 汝州市| 威远县| 集贤县| 南木林县| 东安县| 宜阳县| 台南县| 甘孜| 贵德县| 富顺县| 曲靖市| 丹东市| 棋牌| 万盛区| 家居| 新丰县| 乌拉特中旗| 疏附县| 宣汉县| 安康市| 东至县| 德昌县| 喀喇沁旗| 三穗县| 延安市| 阿荣旗| 烟台市| 芒康县| 财经| 容城县| 方山县| 依安县| 浙江省| 景德镇市|