江 楠,汪 琪,王召義
在線評論中產(chǎn)品屬性提取研究現(xiàn)狀——基于2006—2020年CNKI文獻計量分析
江楠,汪琪,王召義
(安徽商貿(mào)職業(yè)技術學院 電子商務學院,安徽 蕪湖 241002)
采用文獻計量與可視化分析方法,對我國電子商務領域中在線評論的產(chǎn)品屬性提取進行探索研究,總結知識結構,分析研究現(xiàn)狀,為我國未來在線評論產(chǎn)品屬性提取研究的發(fā)展提供參考依據(jù)。
屬性提?。辉诰€評論;計量分析
隨著電子商務的快速發(fā)展,大多數(shù)消費者都選擇更加便捷的電商購物消費方式。消費者在購物前會查看賣家提供的商品屬性信息,當賣家提供的商品屬性信息吸引了消費者后,消費者在最終決定購買該商品前會查看歷史消費者留下的商品評價。從評論中挖掘出備受關注的產(chǎn)品屬性信息是更好地利用這些價值的一個行之有效的方法。[1]產(chǎn)品屬性提取可以為潛在用戶提供購買決策,可以幫助商家定位市場需求,同時還有助于商業(yè)價值的發(fā)現(xiàn)。[2]有關在線評論中產(chǎn)品屬性提取的研究應運而生,并成為近幾年電商領域的研究熱點。
國內(nèi)外對于商品特征提取的研究主要有Hu和Liu發(fā)表的文章,文中提出首先利用關聯(lián)規(guī)則挖掘提取數(shù)據(jù)以及使用修剪搜索來獲得特征對象候選集合中的真實特征對象。[3]Liu等人提出應用于推薦系統(tǒng)的觀點提取和產(chǎn)品特征提取的方法[4],使用形容詞跟隨在副詞之后的關聯(lián)規(guī)則挖掘觀點對象,并且通過n-gram窗口圍繞觀點對象來提取產(chǎn)品特征對象。ZhijunYan,Meiming Xing等人提出了Page Rank算法進行商品特征提取[5],并對該算法進行適當?shù)臄U展和優(yōu)化,取得了比較好的效果。李實等基于Hu等人的研究方法并結合中文評論的語言特點對方法進行了改進[6],提出適用于中文的商品特征提取方法。史偉等將TF-IDF公式與加權方法相結合[7],并將結果按TF-IDF的計算值進行降序排列以提取特征詞。林欽和等人運用情感計算理論[8],挖掘商品評論信息中的商品特征及相應的情感褒貶態(tài)度,利用依存關系找到特征—極性詞對以及程度副詞和否定詞,并提出了商品評論情感傾向程度的計算方式。劉鴻宇等基于評論詞與商品特征的依存關系[9],結合點互信息、名詞剪枝、結合頻度的評論詞的過濾方法提取商品特征。肖璐、陳果提出了利用詞頻過濾掉一些無用的特征的自動提取方法和用人工的手段刪除描述產(chǎn)品特征較弱的詞的人工提取相結合的方式提取特征詞。[10]
雖然學界對于產(chǎn)品屬性提取的研究時間較長,但對于產(chǎn)品屬性提取尚未形成一定的理論體系。在此背景下,對產(chǎn)品屬性提取研究進行文獻計量研究,采用文獻計量、詞頻分析以及數(shù)據(jù)可視化等方法對有關論文分別從數(shù)據(jù)整體描述、研究內(nèi)容、關鍵詞三個方面進行統(tǒng)計分析,有助于準確把握產(chǎn)品屬性提取研究的發(fā)展路徑、揭示產(chǎn)品屬性提取研究的主要特點、展望產(chǎn)品屬性提取研究的未來發(fā)展方向,對未來在線評論中商品屬性提取的理論研究及實踐應用具有一定的參考價值。
描述性分析是統(tǒng)計分析的第一個步驟,對調(diào)查所得的大量數(shù)據(jù)資料進行初步的整理和歸納,以找出這些資料的內(nèi)在規(guī)律、集中趨勢和分散趨勢。主要借助各種數(shù)據(jù)所表示的統(tǒng)計量,如均數(shù)、百分比等,對數(shù)據(jù)進行單因素分析。本文對于統(tǒng)計得到的文獻從研究論文的年度發(fā)文量、研究機構、基金支持等方面進行描述性統(tǒng)計分析。
研究內(nèi)容可以反映相關領域研究的熱點及趨勢,往往不是單一的,而是經(jīng)常與其他內(nèi)容相結合,形成完整的體系。隨著產(chǎn)品屬性提取研究的不斷深入,研究內(nèi)容也在不斷豐富,要想了解產(chǎn)品屬性提取研究的熱點及發(fā)展趨勢,需對現(xiàn)有文獻的主要研究內(nèi)容進行分析研究。作者邀請學校及企業(yè)專家共5位,采用德爾菲法,背靠背地征詢專家意見,分析產(chǎn)品屬性提取研究的熱點及發(fā)展趨勢。
德爾菲法也稱專家調(diào)查法,1946年由美國Olaf Helmer和T.Gordon發(fā)明。具體做法是選取研究課題領域內(nèi)的專家組成專家小組,通過匿名的方式征求各專家的意見,經(jīng)過專家多次的反饋和修正,最終使得專家的意見達成一致,匯總專家綜合意見以對研究對象做出預測和評價。[11]在本文中的具體應用步驟如下:
步驟一:向所有專家提出分析產(chǎn)品屬性提取領域研究的熱點及發(fā)展趨勢預測的問題,并附上有關問題的所有背景材料,同時請專家提出還需要什么材料,然后由專家做書面答復;
步驟二:各個專家根據(jù)收到的材料提出自己的預測意見并說明自己是怎樣利用這些材料并提出預測結果的;
步驟三:將各位專家第一次判斷意見匯總,列成圖表進行對比,再分發(fā)給各位專家,讓專家比較自己同他人的不同意見,修改自己的意見和判斷;
步驟四:將所有專家的修改意見收集起來并進行匯總,將匯總結果再次分發(fā)給各位專家,以便做第二次修改。向?qū)<疫M行反饋的時候,只給出各種意見,但并不說明發(fā)表各種意見的專家的具體姓名。重復進行這一過程直到每一個專家不再改變自己的意見為止;
步驟五:對專家的意見進行綜合處理。
關鍵詞是對文章研究內(nèi)容及方法的概括凝練,對關鍵詞的整理分析可以從總體上反映該研究領域的研究內(nèi)容主要特點、相關研究內(nèi)容之間的內(nèi)在邏輯關系、研究主題發(fā)展變化規(guī)律及研究熱點問題。[12]兩個或更多個關鍵詞在同一篇文獻中同時出現(xiàn)時叫關鍵詞的共現(xiàn),對關鍵詞的共現(xiàn)分析可以恰當描述某一學科領域內(nèi)部組成關系及其結構,揭示學科的發(fā)展動態(tài)和發(fā)展趨勢,還可以用于發(fā)現(xiàn)新的學科增長點和突破口。如果兩個關鍵詞同時與某關鍵詞有較強的共現(xiàn)關系,則這兩個關鍵詞之間也可能存在某種關聯(lián),有可能產(chǎn)生學科上的創(chuàng)新。[13]
Citespace軟件是美國德雷賽爾大學華人學者陳超美博士開發(fā)的用于計量和分析科學文獻數(shù)的JAVA應用程序,可以通過一系列可視化圖譜的繪制來形成對學科演化潛在動力機制的分析和學科發(fā)展前沿的探索。[14]通過Citespace軟件對文獻關鍵詞進行分析,可以得出關鍵詞共現(xiàn)網(wǎng)絡。關鍵詞共現(xiàn)網(wǎng)絡中節(jié)點數(shù)就是關鍵詞個數(shù),邊數(shù)就是關鍵詞之間的連線數(shù)。只要關鍵詞在同一篇文獻中出現(xiàn)過,兩者之間就會有一條連線。關鍵詞大小代表的是關鍵詞頻次,頻次越大,關鍵詞越大。同時Citespace軟件還可以生成時域和空間網(wǎng)絡圖,時域圖可以更好地反映研究內(nèi)容隨時間的變化特點。本文選擇Citespace軟件對關鍵詞進行共現(xiàn)分析。
本文將從數(shù)據(jù)整體描述、研究內(nèi)容、關鍵詞三個方面對產(chǎn)品屬性提取研究進行分析。
中國知網(wǎng)(CNKI)是目前國內(nèi)期刊資源最完備、更新速度最快的論文期刊數(shù)據(jù)庫,文章以被中國知網(wǎng)(CNKI)收錄的有關商品屬性提取的論文為研究對象。專家學者對于“產(chǎn)品屬性提取”字段有不同的字段表達,相近詞主要包括“商品特征提取”,所以在中國知網(wǎng)(CNKI)設置“商品特征提取”并含“產(chǎn)品屬性提取”為檢索主題詞,檢索出初始文獻152條,剔除無關論文18篇,獲得有效論文134條。利用八爪魚軟件對文獻進行清洗與挖掘,將研究論文的年度發(fā)文量、研究機構、基金支持等信息輸入Excel進行簡單的統(tǒng)計分析。
年度發(fā)文量可以反映專家學者對某一領域的研究和關注程度。如圖1所示,關于產(chǎn)品屬性提取的研究開始于2006年,2006年至2018年局部有減弱,整體呈上升趨勢,2019年和2020年文獻量有所下降。根據(jù)年度文獻量可以將研究階段分為三個階段:第一階段(2006-2010年)為起步階段,該階段為理論探索階段,文獻數(shù)量占總文獻數(shù)量的7.46%,文獻數(shù)量很少。第二階段(2011-2016年)為發(fā)展階段,該階段研究不斷深入,研究成果數(shù)量在快速增加,文獻數(shù)量占總文獻數(shù)量的37.3%,文獻數(shù)量較多。第三階段(2017-2020年)為穩(wěn)定期,該階段研究的范圍不斷擴大,文獻成果呈現(xiàn)穩(wěn)定高產(chǎn)特征,文獻數(shù)量占總文獻量的53.73%。近幾年文獻數(shù)量的穩(wěn)定高產(chǎn)與消費者逐漸認識到在線商品評論中相關信息重要性有關。隨著近幾年在線商品評論數(shù)量的不斷增加,其中蘊含的有用信息逐漸被商家、消費者以及平臺所認識到,而對于在線評論中產(chǎn)品屬性提取研究的重要性逐漸被專家學者們所重視,對于其相關研究也就更加深入全面。
圖1 2006—2020年研究文獻數(shù)量統(tǒng)計
機構發(fā)文量是判斷該機構在相關領域研究深度的重要指標。通過對產(chǎn)品屬性提取的134篇文獻作者工作機構研究,排名前三的分別是電子科技大學、大連理工大學、北京郵電大學及天津大學(北京郵電大學與天津大學并列第三)。表1為研究機構具體發(fā)文數(shù)量(發(fā)表論文數(shù)大于或等于3),從表中可以看出發(fā)表論文數(shù)量大于或等于3的機構為12所,共計文獻48篇,剩余86篇以發(fā)表量1或2篇的形式分散于其他機構,說明對于產(chǎn)品屬性提取研究相對廣泛。
表1 研究機構發(fā)文數(shù)量統(tǒng)計結果
文獻基金支持狀況可以直觀反映相關部門對于該研究領域的重視程度。通過對產(chǎn)品屬性提取的134篇文獻基金支持狀況進行分析,具體數(shù)據(jù)見表2(文獻數(shù)量大于等于2篇),獲得國家自然科學基金支持文獻數(shù)量的最多,總計27篇,占比20.15%,在支持數(shù)量超過2篇的基金中也可以發(fā)現(xiàn)國家級基金還有另外3項,教育部基金1項,省級基金2項,說明國家層面和省部級層面對產(chǎn)品屬性提取相關領域重視程度較高。
表2 文獻基金支持統(tǒng)計結果
對134篇文獻的研究內(nèi)容進行統(tǒng)計整理,并采用德爾菲法進行分析。根據(jù)分析結果發(fā)現(xiàn)文獻研究內(nèi)容主要包括四大部分,一是理論基礎研究,二是特征提取,三是情感分析,四是推薦系統(tǒng),每一大部分研究內(nèi)容中又包括小的研究內(nèi)容,具體研究內(nèi)容見表3。從表3中的統(tǒng)計數(shù)據(jù)可以看出,在商品屬性提取研究中,對于理論基礎的研究文獻數(shù)量并不多,大多文獻綜述集中于研究方法的介紹。涉及特征提取的研究文獻數(shù)量最多,其中,對于文本預處理以及特征詞提取與過濾的研究文獻數(shù)量最多,分別為65篇及37篇。對于情感分析的研究數(shù)量同樣較多,特別是情感詞典的構建與情感極性預測,均為19篇。對于推薦系統(tǒng)的研究文獻數(shù)量較少,最多的部分僅為11篇。
從這些研究內(nèi)容的分布頻數(shù)來看,理論基礎研究并不是該領域的研究重點,這與商品屬性提取研究的性質(zhì)有關。產(chǎn)品屬性提取研究側重于技術研究,更加注重研究的方式方法,所以理論基礎研究相對較少。涉及特征提取的文獻數(shù)量最多,這與特征提取是情感分析以及推薦系統(tǒng)兩部分研究內(nèi)容的必備條件有關。由于文本預處理以及特征詞提取及過濾的方法較為復雜,所以對這兩部分研究文獻數(shù)量較多。近幾年的特征提取研究往往與情感分析相結合,從而分析特征詞的情感極性,并應用于特征價格研究、商家信譽維度構建及維護、用戶推薦等方面,所以情感分析內(nèi)容以及推薦系統(tǒng)的研究在近幾年逐漸成為該領域的研究熱點問題。從所涉及相關研究內(nèi)容的文獻數(shù)量來看,對于情感分析的研究相對推薦系統(tǒng)來說更加廣泛與成熟。未來對于產(chǎn)品屬性提取研究的重點應向推薦系統(tǒng)等實際應用方面轉(zhuǎn)變。
表3 文獻研究內(nèi)容統(tǒng)計結果
1.關鍵詞統(tǒng)計分析
利用Citespace對134篇文獻的關鍵詞進行共現(xiàn)分析,得出關鍵詞共現(xiàn)圖譜(圖2),其中,頻次排名靠前的關鍵詞為“特征提取”“情感分析”“商品評論”“在線評論”和“推薦系統(tǒng)”,可以看出特征提取、情感分析與推薦系統(tǒng)等應用型研究是該領域的研究熱點,這與前文關于研究內(nèi)容的分析結果不謀而合。通過關鍵詞之間的線性連接發(fā)現(xiàn)“特征提取”“情感分析”這兩個關鍵詞與其他關鍵詞之間的連接更為密切,是商品特征提取研究領域的基礎。通過統(tǒng)計發(fā)現(xiàn)其中出現(xiàn)頻次大于3的關鍵詞如表4所示,從這些關鍵詞中我們可以發(fā)現(xiàn),多數(shù)關鍵詞集中于研究方法的表述,表明對于產(chǎn)品屬性提取的研究內(nèi)容比較固定,但是研究方法具有多樣性特點。
圖2 關鍵詞共現(xiàn)圖譜
表4 關鍵詞頻次統(tǒng)計結果
2.關鍵詞演化分析
關鍵詞的演化能夠反映該領域研究內(nèi)容的演變過程、研究熱點及研究重點,本文從關鍵詞的歷年分布情況、歷年新增熱門關鍵詞兩個方面進行分析研究。
首先是關鍵詞的歷年分布統(tǒng)計分析,從2006年至今共獲得關鍵詞491個,歷年關鍵詞具體數(shù)量見圖3,從圖3中可以發(fā)現(xiàn),自2006年以來,關鍵詞數(shù)量總體呈上升趨勢,特別是從2015年開始關鍵詞數(shù)量快速增長,說明對于產(chǎn)品屬性提取的研究重視程度得到大幅度提升。
圖3 歷年關鍵詞數(shù)量統(tǒng)計結果
新增關鍵詞在一定程度上反映該研究領域新的研究主題出現(xiàn),筆者利用citespace軟件對關鍵詞進行時區(qū)分析,得到關鍵詞時區(qū)圖譜(圖4)。從關鍵詞時區(qū)圖譜中可以看出研究熱點的變化情況,從最早的文本挖掘、情感分析為研究熱點,到產(chǎn)品屬性及特征提取,一直到近兩年對于推薦系統(tǒng)以及目標檢測的研究,反映了研究內(nèi)容的不斷深入和研究的應用性的不斷加強。根據(jù)關鍵詞時區(qū)分布,本文將關鍵詞研究年份按關鍵詞增長速度劃分為2006—2014年、2015—2020年兩個階段(表5),根據(jù)表5可以看出2006—2014年出現(xiàn)頻次排名靠前的關鍵詞分別是商品評論、特征提取、文本分類、文本挖掘、語義理解和極性分析,從這些關鍵詞可以看出,在2006—2014年對于產(chǎn)品屬性提取研究的主題主要集中于對評論文本的特征提取及基礎分析。2015-2020年出現(xiàn)頻次排名靠前關鍵詞分別為情感分析、特征提取、在線評論、推薦系統(tǒng)、卷積神經(jīng)網(wǎng)絡、商品評論、深度學習和主題模型等,從關鍵詞分布可以看出,2015—2020年相較于2006—2014年,對于產(chǎn)品屬性提取的研究不再局限于特征提取,而是增加了情感分析、推薦系統(tǒng)這一類將文本分析運用到實際中的研究,同時也增加了卷積神經(jīng)網(wǎng)絡、深度學習、主題模型這一類方法研究關鍵詞,突出了現(xiàn)階段研究方法的重要性,表明對于該領域的研究方法在不斷更新完善。
圖4 關鍵詞時區(qū)圖譜
表5 分階段關鍵詞統(tǒng)計分析
論文主要通過對中國知網(wǎng)中以產(chǎn)品屬性提取為研究主題的134篇文獻進行總體數(shù)據(jù)統(tǒng)計、研究內(nèi)容、研究方法以及關鍵詞四個方面進行研究分析,得出以下四個方面的結果:
第一,在總體研究趨勢方面,通過統(tǒng)計分析得出,研究文獻數(shù)量在逐年增加,文獻基金支持狀況中國家自然科學基金數(shù)遙遙領先,說明對產(chǎn)品屬性提取領域的研究重視程度在不斷提高。通過機構發(fā)文量研究發(fā)現(xiàn),機構研究文獻數(shù)量相對比較平均,大多數(shù)機構研究文獻數(shù)量僅為1篇,說明研究機構分散,沒有代表性機構,機構間合作性較差。在未來的研究工作中,機構應加強領域研究的系統(tǒng)性,充分發(fā)揮出研究機構的研究優(yōu)勢,強化研究機構之間的合作深度,使得該領域的研究范圍擴大,研究深度加深。
第二,在研究內(nèi)容方面,對于產(chǎn)品屬性提取的研究內(nèi)容主要包括特征提取、情感分析以及推薦系統(tǒng)這三部分應用型研究,理論基礎研究薄弱,個別理論基礎研究也僅限于研究方法理論,缺乏其他相關領域的結合,在未來的研究中產(chǎn)品屬性提取可以結合經(jīng)濟學、市場營銷和心理學等領域的相關理論來進行研究,這些理論能夠為產(chǎn)品屬性提取研究提供新的視角。
第三,在關鍵詞分析方面,本文通過對歷年關鍵詞數(shù)量以及不同階段關鍵詞變化的研究清楚了解到產(chǎn)品屬性提取領域的研究熱點和研究趨勢,同時探知到這個領域的未來潛在研究價值點所在。[15]隨著大數(shù)據(jù)技術的不斷發(fā)展,產(chǎn)品屬性提取的研究主題也在不斷更新,推薦系統(tǒng),深度學習、記憶網(wǎng)絡等都是目前的研究熱點,未來與產(chǎn)品屬性提取相關的應用研究如屬性提取與價格、屬性提取與消費者行為預測、屬性提取與供應鏈管理等都將是未來研究的主題。
本文立足于中國知網(wǎng)(CNKI)進行文獻收集,收集主題僅為“產(chǎn)品屬性提取”“商品特征提取”,收集到的數(shù)據(jù)難免不足,而且筆者在統(tǒng)計作者數(shù)據(jù)時并未將重名作者進行處理,對研究的結果均具有一定的影響。在研究內(nèi)容方面,僅對文獻進行了描述性統(tǒng)計分析以及研究內(nèi)容和關鍵詞分析,研究的全面性不夠,這些都是本文的不足之處,爭取在以后的研究過程中慢慢改進。
[1]王浩.電子商務個性化信息推薦服務計量分析與發(fā)展對策研究[J].內(nèi)蒙古科技與經(jīng)濟,2016(8):59-62.
[2]趙妍妍,秦兵,劉挺.文本情感分析綜述[J].軟件學報,2010(8):1834-1848.
[3]Hu,Liu.Mining and summarizing customer reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seattle, Washington. USA, August.DBLP,2004:168-177.
[4]Liu Y, Pi D ,Cheng Q. Ensemble Kernel Method: SVM Classification Based on Game Theory[J].Journal of Systems Engineering and Electronics,2016(1):251-259.
[5]Yan Z J,Xing M M, Zhang D S.EXPRS:an extended pagerank method for product feature extraction from online consumer reviews[J].Information&management,2015(7):850-858.
[6]李實,葉強,李一軍,等.中文網(wǎng)絡客戶評論的產(chǎn)品特征挖掘方法研究[J].管理科學學報,2009(2):3016-3019.
[7]史偉,洪偉,何紹義.基于微博的產(chǎn)品評論挖掘:情感分析的方法[J].情報學報,2014(12):1311-1321.
[8]林欽和.基于情感計算的商品評論分析系統(tǒng)[J].計算機應用于軟件,2014(12):39-44.
[9]劉鴻宇,趙妍妍,秦兵,等.評價對象抽取及其傾向性分析[J].中文信息學報,2010(1):84-88.
[10]肖璐,陳果,劉繼云.基于情感分析的企業(yè)產(chǎn)品級競爭對手識別研究——以用戶評論為數(shù)據(jù)源[J].圖書情報工作,2016(1):83-90+97.
[11]馬志翠.X學院物流管理專業(yè)大學生就業(yè)能力評價與提升研究[D].石家莊:河北科技大學,2020.
[12]王楓云,韋梅.中國城市治理模式研究的文獻計量分析——以2002-2019年CNKI中文文獻為樣本[J].城市治理,2020(3):61-69.
[13]張勤,徐緒松.定性定量結合的分析方法——共詞分析法[J].技術經(jīng)濟,2010(6):20-24.
[14]候劍華,胡志剛.citespace軟件應用研究的回顧與展望[J].信息計量學研究與應用,2013(4):99-103.
[15]李良強,楊銳,曹云忠,等.我國涉農(nóng)電子商務研究回顧——基于CSSCI的文獻計量分析[J].電子科技大學學報,2018(2):24-30.
Current Status of Research on Product Attribute Extraction Among Online Reviews——Based on the bibliometric analysis of CNKI from 2006 to 2020
Jiang Nan, Wang Qi, Wang Zhaoyi
Using bibliometrics and visual analysis methods, this paper explores the product attribute extraction of online reviews in the field of e-commerce in China. Based on the research, we can summarize the knowledge structure, analyze the research status, and provide a reference for the development of China’s future online review.
Attribute extraction; Online comments; Quantitative analysis
2021-09-23
安徽省高等學校自然科學研究項目(KJ2020A1075);安徽商貿(mào)職業(yè)技術學院科研項目(2020KZZ05);安徽商貿(mào)職業(yè)技術學院學科(專業(yè))拔尖人才學術資助項目(Smbjrc202101 )
江楠(1992- ),女,安徽池州人,安徽商貿(mào)職業(yè)技術學院電子商務學院助教,碩士。
10.13685/j.cnki.abc. 000607
F724.6;F274
A
1671-9255(2022)01-0022-06