祁瑞華 楊明昕 徐琳宏 關(guān)菁華
摘 要:[目的/意義]圖書評(píng)論是出版社、圖書館和用戶研究讀者觀點(diǎn)的重要線索,評(píng)論特征抽取研究是提高圖書評(píng)論觀點(diǎn)精準(zhǔn)挖掘效率和準(zhǔn)確率的基礎(chǔ)性工作。[方法/過程]分別從評(píng)論特征抽取研究和圖書評(píng)論特征聚類、語義表示、隱性特征抽取的典型方法等方面對(duì)國內(nèi)外研究現(xiàn)狀進(jìn)行客觀分析,梳理相關(guān)領(lǐng)域研究發(fā)展脈絡(luò)和趨勢(shì)。[結(jié)果/結(jié)論]指出圖書評(píng)論特征抽取效率和準(zhǔn)確率的提高需要考慮特征聚類、語義表示和隱性特征抽取等關(guān)鍵問題。
關(guān)鍵詞:圖書評(píng)論;特征抽取;綜述
DOI:10.3969/j.issn.1008-0821.2019.09.018
〔中圖分類號(hào)〕N99 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2019)09-0160-08
Abstract:[Purpose/Significance]Book review is an important clue for publishers,libraries and users to evaluate works.Feature extraction is the basic work to improve the efficiency and accuracy of the fine grained opinion mining of book reviews.[Method/Process]This paper made an objective analysis of the current research situation at home and abroad from the perspectives of the research on the reviewfeatureextraction,the clustering of book review feature,semantic representation,and the typical methods of the extraction of implicit feature,and sorted out the development context and trends of the research in related fields.[Result/Conclusion]It is pointed out that to improve the efficiency and accuracy of featureextractionin book reviews,some key issues should be considered,such as feature clustering,semantic representation and implicit featureextraction.
Key words:book review;feature extraction;survey
圖書評(píng)論是出版社、圖書館和用戶研究讀者對(duì)作品評(píng)價(jià)信息的重要線索。圖書評(píng)論特征抽取的目標(biāo)是從評(píng)論文本中抽取關(guān)鍵要素,在此基礎(chǔ)上研究用戶對(duì)圖書具體方面所持的評(píng)價(jià)和態(tài)度。評(píng)論特征抽取既能幫助用戶詳細(xì)了解圖書質(zhì)量做出購買決策,也能幫助出版社和用戶實(shí)現(xiàn)精準(zhǔn)觀點(diǎn)挖掘,從而提高圖書評(píng)論觀點(diǎn)挖掘的效率和準(zhǔn)確率。
評(píng)論特征抽取屬于細(xì)粒度的觀點(diǎn)挖掘,在情報(bào)學(xué)和自然語言處理領(lǐng)域受到廣泛關(guān)注。在中國知網(wǎng)全部數(shù)據(jù)庫高級(jí)檢索下,檢索條件為(主題=“評(píng)論”或者題名=“評(píng)論”)并且(主題=“特征”或者題名=“特征”或者主題=“挖掘”或者題名=“挖掘”或者主題=“抽取”或者題名=“抽取”)時(shí),檢索到“評(píng)論特征抽取”相關(guān)文獻(xiàn)4 166篇。但是圖書評(píng)論領(lǐng)域得到的關(guān)注明顯不足,當(dāng)檢索條件加上:并且(主題=“圖書”或者題名=“圖書”)時(shí)文獻(xiàn)稀缺,僅檢索到63篇文獻(xiàn),發(fā)展年度趨勢(shì)見圖1。
近年國內(nèi)學(xué)者李光敏等[1]從產(chǎn)品特征頻繁項(xiàng)、特征—意見共現(xiàn)關(guān)系、模型訓(xùn)練和顯隱式特征匹配的角度分析了國內(nèi)外產(chǎn)品評(píng)論特征抽取研究的進(jìn)展和不足,指出語義表示、網(wǎng)絡(luò)文本和隱性特征需要重點(diǎn)關(guān)注,但限于篇幅并未細(xì)分領(lǐng)域綜述。
隨著大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)評(píng)論文本的大量涌現(xiàn),圖書評(píng)論特征抽取領(lǐng)域出現(xiàn)了新特點(diǎn)、新問題,這些關(guān)鍵問題本領(lǐng)域現(xiàn)有文獻(xiàn)未能全部覆蓋。為此本文利用文獻(xiàn)檢索順查法和追溯法擴(kuò)大文獻(xiàn)研究范圍,從中國知網(wǎng)和國外相關(guān)文獻(xiàn)中,選擇55篇有關(guān)“評(píng)論特征抽取”的代表文獻(xiàn),其中2010年前9篇,2010~2014年23篇,2015年以后23篇。國外文獻(xiàn)32篇、國內(nèi)文獻(xiàn)23篇,其中圖書評(píng)論領(lǐng)域文獻(xiàn)17篇。在此基礎(chǔ)上針對(duì)圖書評(píng)論的特點(diǎn),分別從特征聚類、語義表示和隱性特征3個(gè)方面重點(diǎn)論述與圖書評(píng)論特征抽取相關(guān)的典型方法和關(guān)鍵問題,對(duì)國內(nèi)外研究現(xiàn)狀進(jìn)行客觀分析,對(duì)未來發(fā)展趨勢(shì)做出展望,以期為進(jìn)一步研究提供新的思路。
1 產(chǎn)品評(píng)論特征抽取
產(chǎn)品評(píng)論特征抽取的目標(biāo)是從評(píng)論文本中抽取評(píng)價(jià)的具體對(duì)象,是細(xì)粒度觀點(diǎn)挖掘和情感識(shí)別任務(wù)的基礎(chǔ)性工作。隨著自然語言處理技術(shù)的發(fā)展,機(jī)器學(xué)習(xí)方法有效改善了特征抽取模型的泛化能力。根據(jù)訓(xùn)練樣本是否需要標(biāo)注,特征抽取方法可分為有監(jiān)督方法和無監(jiān)督方法。
1.1 有監(jiān)督方法
有監(jiān)督方法將特征詞抽取看作文本序列標(biāo)注任務(wù),基于訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)分布一致的假設(shè),通過對(duì)訓(xùn)練集的學(xué)習(xí)建立模型實(shí)現(xiàn)對(duì)測試集的預(yù)測。有監(jiān)督方法從標(biāo)注數(shù)據(jù)中識(shí)別特征詞的準(zhǔn)確率較高,主要算法有隱馬爾科夫、條件隨機(jī)場、支持向量機(jī)、最大熵模型或決策樹等。如Jin W等[2]用隱馬爾科夫算法抽取產(chǎn)品顯性特征詞和觀點(diǎn)詞,鑒別特征詞—觀點(diǎn)詞對(duì)進(jìn)行觀點(diǎn)詞分類取得較好效果,但隱馬爾科夫模型作為生成模型不適合處理內(nèi)容豐富相互冗余的語料。條件隨機(jī)場作為判別模型更適合處理這些語料,如Li F等[3]用Tree CRFs算法學(xué)習(xí)句法依存關(guān)系并利用Skip-chain CRFs算法克服長距離依存關(guān)系,將發(fā)現(xiàn)的語義關(guān)聯(lián)作為輸入信息抽取特征詞;Hamdan H等[4]提取詞根、詞性、大小寫等特征利用條件隨機(jī)場抽取特征詞。有監(jiān)督方法的共性問題是人工標(biāo)注語料成本高、主觀性強(qiáng),缺乏知識(shí)重組的過程,在復(fù)雜問題和大規(guī)模數(shù)據(jù)中的魯棒性受限制。
近年來隨著終身學(xué)習(xí)算法的提出,Shu L等[5-6]將終身學(xué)習(xí)機(jī)制引入到條件隨機(jī)場算法抽取評(píng)論特征詞,利用多領(lǐng)域知識(shí)和無標(biāo)簽數(shù)據(jù)使得整個(gè)學(xué)習(xí)過程保持對(duì)外界環(huán)境的感知,增強(qiáng)了模型的性能,是今后有監(jiān)督特征詞抽取方法獲得突破性進(jìn)展的可能途徑。
此外深度學(xué)習(xí)算法在觀點(diǎn)挖掘任務(wù)中也有很好的表現(xiàn),Poria S等[7]基于深層卷積神經(jīng)網(wǎng)絡(luò)抽取視頻對(duì)白文本特征,結(jié)合畫面人物表情和語音多模態(tài)特征生成特征向量,將句子級(jí)別情感分析的準(zhǔn)確率提升了14%。隨后Poria S等[8]又提出七層卷積神經(jīng)網(wǎng)絡(luò)結(jié)合啟發(fā)式語言模板用于觀點(diǎn)特征詞的標(biāo)注,實(shí)驗(yàn)表明詞嵌入特征能有效引入語義知識(shí),非線性的深層卷積神經(jīng)網(wǎng)絡(luò)比線性模型更能適應(yīng)自然世界中的數(shù)據(jù)。
1.2 無監(jiān)督方法
無監(jiān)督方法可以探索性地揭示未標(biāo)注數(shù)據(jù)的規(guī)律,避免人工標(biāo)注的高成本和主觀性,目前主要采用統(tǒng)計(jì)法、詞共現(xiàn)法、基于規(guī)則方法和主題模型等特征抽取方法。
早期研究以統(tǒng)計(jì)法為主,借助詞頻閾值等條件篩選特征詞,此類方法簡單高效,代表研究如Hu M等[9]通過關(guān)聯(lián)規(guī)則挖掘電子產(chǎn)品評(píng)論中的名詞詞組頻繁項(xiàng)集抽取產(chǎn)品特征。詞頻統(tǒng)計(jì)方法只關(guān)注高頻詞,往往漏掉非高頻特征詞。為解決這一問題,Hu M等[10]嘗試將高頻詞附近名詞補(bǔ)充到特征詞集,Santosh R等[11]用詞匯Bigram代替Unigram統(tǒng)計(jì)抽取特征詞,韓客松等[12]、何新貴等[13]嘗試詞頻結(jié)合詞位置權(quán)重和提示信息權(quán)重方法,但不能從根本上避免統(tǒng)計(jì)法的局限。
詞共現(xiàn)法假設(shè)詞義關(guān)聯(lián)緊密程度與詞共現(xiàn)頻率正相關(guān),通過構(gòu)建詞共現(xiàn)網(wǎng)絡(luò)圖抽取特征詞,如耿煥同等[14]利用詞共現(xiàn)圖和主題間連接特征抽取文檔特征詞,Liu K等[15]構(gòu)建異構(gòu)語義和觀點(diǎn)關(guān)系圖并通過協(xié)同排序算法和詞匯偏好信息抽取特征詞,均改善了非高頻特征詞的抽取,但詞共現(xiàn)網(wǎng)絡(luò)圖對(duì)評(píng)論文本長度敏感,當(dāng)文本信息不足以構(gòu)建結(jié)構(gòu)合理的共現(xiàn)網(wǎng)絡(luò)時(shí),特征詞抽取的準(zhǔn)確率明顯下降[16]。
當(dāng)前特征詞抽取普遍采用基于規(guī)則的方法,句法規(guī)則能夠抽象文本內(nèi)部結(jié)構(gòu)、概括特征依存模式,因而被廣泛采用。代表研究有Qiu G等[17]提出雙向傳播算法利用句法依存關(guān)系建立特征模版,在少量初始觀點(diǎn)詞種子集上迭代抽取特征詞,能適應(yīng)多領(lǐng)域,但在小規(guī)模語料上召回率低,原因在于人工抽取的語法規(guī)則無法涵蓋豐富的語言事實(shí)。為解決這一問題,Zhang L等[18]基于部分—整體模式和否定詞模式改進(jìn)了雙向傳播算法,Zhao Y等[19]提出提取句法結(jié)構(gòu)的直接啟發(fā)式算法和結(jié)構(gòu)句法結(jié)構(gòu)的泛化方法,Kang Y等[20]基于規(guī)則抽取在線評(píng)論的主觀特征和客觀特征,這些嘗試一定程度上提高了召回率,但遠(yuǎn)距離依存關(guān)系、否定關(guān)系、引用關(guān)系和句法不規(guī)范文本等仍然難以用規(guī)則顯式地表示。
普遍采用的特征抽取無監(jiān)督方法還有基于主題模型的方法,主要基于隱含狄利克雷主題模型及其改進(jìn)模型抽取特征詞,如Ma B等[21]通過隱含狄利克雷主題模型生成特征詞及其同義詞的候選集,Ye Y等[22]提出改進(jìn)的MF-LDA模型抽取微博客特征詞,Chen Y等[23]提出結(jié)合文本聚類和特征選擇的FSC-LDA模型,Xie W等[24]提出基于草圖的主題模型抽取推特中的突發(fā)主題,有效地對(duì)推特信息流降維并生成快照??傮w上,主題模型發(fā)現(xiàn)的是粗粒度的評(píng)價(jià)對(duì)象,需要提前人工設(shè)置主題數(shù)量,不能發(fā)現(xiàn)訓(xùn)練集中未出現(xiàn)而在測試集存在的特征詞,在短文本或高噪音的網(wǎng)絡(luò)文本上效果也有待改善。
近年來無監(jiān)督特征詞抽取傳統(tǒng)方法與有監(jiān)督方法、深度學(xué)習(xí)、終身學(xué)習(xí)等機(jī)器學(xué)習(xí)方法結(jié)合的研究發(fā)現(xiàn),模型泛化能力和準(zhǔn)確率都得到明顯改善[25],是評(píng)論特征自動(dòng)抽取技術(shù)發(fā)展的主要趨勢(shì)。
2 圖書評(píng)論特征抽取
2.1 研究背景
圖書評(píng)論是一種特殊的產(chǎn)品評(píng)論,國內(nèi)外學(xué)者從不同角度的持續(xù)關(guān)注和探討,為圖書評(píng)論特征詞抽取研究奠定了基礎(chǔ)。
從圖書推薦指標(biāo)體系的角度,Sohail S S等[26-27]以計(jì)算機(jī)類圖書為研究對(duì)象,將圖書評(píng)論關(guān)注的方面分為7類,根據(jù)用戶需求和特征重要程度分配權(quán)重計(jì)算綜合評(píng)分排序推薦圖書,結(jié)果由20位用戶主觀反饋驗(yàn)證。李雁翎等[28]提出綜合評(píng)價(jià)作者、出版社、圖書館、銷售和網(wǎng)絡(luò)輿情信息的圖書評(píng)價(jià)體系及分析模型;從評(píng)論信息有效性的角度,張麗等[29]基于統(tǒng)計(jì)方法從評(píng)論標(biāo)題和正文、圖書種類、評(píng)論有用性的維度分析了當(dāng)當(dāng)網(wǎng)年度暢銷的3本圖書網(wǎng)絡(luò)評(píng)論,提出幫助用戶識(shí)別有效評(píng)論的方法;從中華圖書海外評(píng)論的角度,劉朝暉[30]依托接受理論和測試?yán)碚搶?duì)《紅樓夢(mèng)》兩個(gè)譯本的可接受性做了定量分析,發(fā)現(xiàn)兩個(gè)譯本的可接受性無本質(zhì)區(qū)別,實(shí)驗(yàn)中的讀者是未讀過原著的美國大學(xué)生;陳梅等[31]統(tǒng)計(jì)了亞馬遜網(wǎng)站上100頁典籍英譯作品譯本、譯者、出版社和評(píng)分人數(shù),發(fā)現(xiàn)流行譯本的譯者多來自英美;張陽[32]歸納了亞馬遜網(wǎng)站上10種《論語》譯本的90份讀者評(píng)論特征,分析總結(jié)了閱讀群體對(duì)譯本風(fēng)格的偏好;何曉花[33]人工歸納了米歇爾《道德經(jīng)》譯本的245條網(wǎng)上評(píng)論,研究情感極性分布及其變化;從評(píng)論特征抽取的角度,李實(shí)等[34]基于關(guān)聯(lián)規(guī)則挖掘《達(dá)芬奇密碼》一書在卓越網(wǎng)的評(píng)論,實(shí)驗(yàn)結(jié)果中評(píng)論特征的查準(zhǔn)率有待提高。
圖書評(píng)論特征抽取研究取得了一定成果,然而網(wǎng)絡(luò)圖書評(píng)論的規(guī)模迅速膨脹,海量評(píng)論信息已經(jīng)超出人工處理的能力,需要采用自動(dòng)方法精煉大規(guī)模信息。而目前國內(nèi)相關(guān)研究還主要限于小樣本數(shù)據(jù)的統(tǒng)計(jì)分析,缺乏有說服力的數(shù)據(jù)支持,特征提取和分析方法局限于人工歸納,欠缺對(duì)互聯(lián)網(wǎng)環(huán)境的適應(yīng)性,特征抽取的效率和質(zhì)量亟待進(jìn)一步提升,性能還有待改善。在圖書質(zhì)量評(píng)價(jià)中引入自然語言處理和語義分析已經(jīng)被證明是有效的,但尚處于研究的初級(jí)階段,方法還未成熟[35]。下面結(jié)合圖書評(píng)論特征抽取的3個(gè)關(guān)鍵問題:主題聚類、語義表示和隱性特征抽取進(jìn)行分析。
2.2 主題聚類
與傳統(tǒng)文檔相比,網(wǎng)絡(luò)評(píng)論文本多源異構(gòu)、噪音大、主題稀疏、不規(guī)范表達(dá)多[37];與電子產(chǎn)品評(píng)論相比,圖書評(píng)論偏重于用戶體驗(yàn)的表達(dá),圖書評(píng)論中的微主題呈現(xiàn)相對(duì)分散的特點(diǎn)[35],圖書評(píng)論特征抽取需要解決的問題首先是快速高效降維。
主題聚類能夠在缺乏先驗(yàn)知識(shí)的情況下自動(dòng)抽取評(píng)論文本的結(jié)構(gòu)與特點(diǎn),提煉大規(guī)模文本的關(guān)鍵內(nèi)容,提高特征抽取的效率和質(zhì)量,加快讀者閱讀和獲取信息的速度。目前圖書評(píng)論主題聚類主要采用隱含狄利克雷模型及其改進(jìn)模型,如Zhang P等[37]針對(duì)圖書評(píng)論微主題相對(duì)分散的特點(diǎn),提出基于Group-LDA的讀者檢測方法,結(jié)合圖書章節(jié)信息描述文檔主題,檢測主題類別與讀者群體類型之間的相關(guān)性。陳曉美[38]結(jié)合觀點(diǎn)分離與觀點(diǎn)摘要集成算法,提出基于隱含狄利克雷模型的圖書評(píng)論觀點(diǎn)識(shí)別和深度觀點(diǎn)判定方法,但只在《卡爾威特的教育》一書上進(jìn)行了實(shí)證研究。張鳳瑜[39]在10本圖書評(píng)論上通過聚類算法和人工篩選,分別建立了圖書評(píng)論特征詞典和傾向性詞典,語料范圍比較有限。
圖書評(píng)論主題聚類現(xiàn)有研究主要面向特定少量作品數(shù)據(jù),難以適應(yīng)網(wǎng)絡(luò)評(píng)論大數(shù)據(jù)環(huán)境。解決思路可以借鑒電子產(chǎn)品評(píng)論主題聚類方法,如Santosh R等[11]用組平均聚類算法抽取亞馬遜網(wǎng)站商品評(píng)論中的名詞詞組,根據(jù)聚類結(jié)果計(jì)算特征詞評(píng)分函數(shù),方法適應(yīng)多領(lǐng)域和不同規(guī)模的數(shù)據(jù)集;Fitriyani S R[40]面向大數(shù)據(jù)主題檢測任務(wù)提出小批量K-means方法,有效縮減了計(jì)算時(shí)間;Pang J等[41]從相似度擴(kuò)散視角提出相似度層疊聚類方法,有效處理噪聲和稀疏問題;Schouten K等[42]提出基于詞共現(xiàn)關(guān)聯(lián)規(guī)則主題聚類,為大數(shù)據(jù)集的特征抽取提供了思路。
2.3 語義表示
文本語義理解往往存在歧義,引入語義知識(shí)是提高網(wǎng)絡(luò)評(píng)論特征抽取精準(zhǔn)程度的關(guān)鍵,是當(dāng)前研究的前沿和熱點(diǎn)[43]。圖書評(píng)論中最受用戶關(guān)注的是圖書內(nèi)容[29],網(wǎng)絡(luò)評(píng)論中對(duì)圖書內(nèi)容的引用表達(dá)形式多樣,大量冗余信息干擾著圖書評(píng)論特征抽取。引入語義表示有助于圖書評(píng)論全局語義信息的準(zhǔn)確表達(dá),是值得關(guān)注的技術(shù)方法。
圖書評(píng)論語義資源構(gòu)建方面,郭順利等[44]將豆瓣網(wǎng)圖書評(píng)論用戶情感分為7類,利用改進(jìn)SO-PMI算法和同義詞林?jǐn)U展方法,基于情感種子詞自動(dòng)構(gòu)建了中文圖書評(píng)論情感語義詞典,指出圖書評(píng)論中的副詞和連詞對(duì)情感類別判斷有明顯影響,此方法的性能依賴短文本的準(zhǔn)確分詞、情感種子詞數(shù)量和語料規(guī)模。領(lǐng)域語義資源應(yīng)用方面,陳炯等[45]借助同義詞詞林建立產(chǎn)品屬性模板,挖掘圖書評(píng)論中的語言知識(shí),但實(shí)驗(yàn)結(jié)果召回率低,原因是人工標(biāo)注存在主觀性,此外隱性產(chǎn)品特征識(shí)別也存在困難。張鳳瑜[39]基于自建的特征詞典和傾向性詞典提出基于規(guī)則與統(tǒng)計(jì)的圖書語義好評(píng)度計(jì)算方法,還需在大規(guī)模數(shù)據(jù)上進(jìn)一步驗(yàn)證。
在以自然語言形式表達(dá)的評(píng)論文本中,領(lǐng)域知識(shí)的表現(xiàn)形式主要是短語實(shí)體以及實(shí)體間的關(guān)系,近年廣泛應(yīng)用在智能問答、知識(shí)推理和搜索引擎等領(lǐng)域的常識(shí)知識(shí)庫和領(lǐng)域知識(shí)庫已成為特征抽取重要的知識(shí)來源,是提高圖書評(píng)論特征抽取準(zhǔn)確率和效率的主要趨勢(shì)之一[46]。
在常識(shí)知識(shí)庫中,自然語言的實(shí)體關(guān)系表示為計(jì)算機(jī)可理解的結(jié)構(gòu)化語義知識(shí),現(xiàn)有的Freebase、Google's Knowledge Graph等大規(guī)模知識(shí)庫中存儲(chǔ)了大量常識(shí)和事實(shí),但仍有自然世界中的詞匯在知識(shí)庫中未得到體現(xiàn)。對(duì)此學(xué)界持有不同觀點(diǎn)。閉合世界假設(shè)認(rèn)為知識(shí)庫中不存在的實(shí)體關(guān)系就是錯(cuò)誤的,而開放世界假設(shè)認(rèn)為,知識(shí)庫中不存在的實(shí)體關(guān)系可能是正確的,也可能是錯(cuò)誤的。本文認(rèn)為,現(xiàn)有知識(shí)庫無法窮舉自然界中的所有實(shí)體關(guān)系,因此開放世界假設(shè)更合理,對(duì)知識(shí)庫尤其是垂直領(lǐng)域知識(shí)庫的自動(dòng)補(bǔ)全是評(píng)論特征抽取下一步研究的重點(diǎn)??山梃b研究有Poria S等[47]利用句子依存關(guān)系、WordNet和SenticNet常識(shí)知識(shí)庫,基于規(guī)則檢測產(chǎn)品評(píng)論中評(píng)價(jià)對(duì)象,提高了在公開數(shù)據(jù)集上的準(zhǔn)確率和召回率。Su Q等[48]利用中文概念詞典等多源知識(shí),基于COP-Kmean聚類算法思想提出相互強(qiáng)化規(guī)則來挖掘產(chǎn)品特征類別和觀點(diǎn)詞群之間的關(guān)系,通過隱性產(chǎn)品特征和觀點(diǎn)詞之間的映射提高特征抽取性能。
領(lǐng)域知識(shí)庫能夠精確表達(dá)特定領(lǐng)域的先驗(yàn)信息,對(duì)領(lǐng)域智能問答、情感分類等任務(wù)都起到重要的作用,是評(píng)論特征抽取的關(guān)鍵因素??山梃b研究有Dengel A[49]從亞馬遜網(wǎng)站上健康追蹤器產(chǎn)品評(píng)論中抽取常用名詞短語,結(jié)合WordNet的語義知識(shí)建立了評(píng)論特征領(lǐng)域模型,指出特征抽取錯(cuò)誤與領(lǐng)域名詞相關(guān),因?yàn)閱渭兛紤]名詞詞頻會(huì)忽略一些稀有而重要的特征。宋曉雷等[50]針對(duì)汽車領(lǐng)域基于詞形模板、詞性模板、模糊匹配方法、剪枝法、雙向Bootstrapping方法和K均值聚類方法提出評(píng)論特征抽取方法。孟雷等[51]針對(duì)金融領(lǐng)域提出基于依存句法分析的事件元素核心詞抽取方法,結(jié)合短語結(jié)構(gòu)句法識(shí)別事件元素邊界,有助于提高特征抽取的準(zhǔn)確率。
2.4 隱性特征抽取
根據(jù)特征是否在評(píng)論文本中顯性出現(xiàn),可分為顯性特征和隱性特征。隱性特征是未顯性出現(xiàn)的語義層面上的實(shí)際評(píng)論對(duì)象或情感,圖書評(píng)論中隱性特征占相當(dāng)?shù)谋壤?,如評(píng)論“書拿起來軟塌塌的”中的實(shí)際評(píng)價(jià)對(duì)象“書的質(zhì)量”和負(fù)面情感都是隱性表達(dá)的,隱性特征機(jī)理復(fù)雜沒有固定的表達(dá)范式,涉及的詞性和語法結(jié)構(gòu)多變,是需要?jiǎng)?chuàng)新性思考的研究難點(diǎn)。
目前圖書評(píng)論領(lǐng)域隱性特征抽取的文獻(xiàn)稀少,國內(nèi)有陳曉美[38]嘗試分析一本著作評(píng)論文本的隱性特征??山梃b的隱性特征抽取研究有Cruz I等[52]基于人工標(biāo)注的隱性特征詞標(biāo)識(shí),采用線性鏈條件隨機(jī)場序列標(biāo)注算法,在公開語料的隱性特征抽取實(shí)驗(yàn)中獲得了較好效果;Poria S等[7-8]和Su Q等[48]分別基于聚類和基于規(guī)則方法,同時(shí)抽取產(chǎn)品評(píng)論的顯性特征詞和隱性特征詞;Zhang Y等[53]基于共詞關(guān)系抽取隱性特征詞,優(yōu)勢(shì)在于不需要先驗(yàn)知識(shí)或人工標(biāo)注,但共詞關(guān)系無法體現(xiàn)同義詞、近義詞等語義關(guān)聯(lián);Hai Z等[54]提出兩階段共現(xiàn)關(guān)聯(lián)規(guī)則挖掘隱性特征詞,應(yīng)用共現(xiàn)矩陣顯著關(guān)聯(lián)規(guī)則集的聚類為特征抽取生成健壯規(guī)則;聶卉[55]從信息整合的視角構(gòu)建基于特征序列描述的隱特征聚類模型,利用依存句法和詞法修飾關(guān)系量化用戶評(píng)價(jià)觀點(diǎn)。
總體上,現(xiàn)有文獻(xiàn)為隱性特征詞挖掘奠定了基礎(chǔ),但現(xiàn)有方法主要面向特定的領(lǐng)域,尚無文獻(xiàn)提出跨領(lǐng)域的通用方法,圖書評(píng)論領(lǐng)域隱性特征詞抽取還需進(jìn)一步深入研究。國內(nèi)外關(guān)于評(píng)論特征的研究總體情況見表1。
3 總結(jié)與展望
現(xiàn)有研究為評(píng)論特征抽取奠定了良好的基礎(chǔ),但直接以圖書評(píng)論特征詞抽取為研究對(duì)象的文獻(xiàn)非常有限,實(shí)踐層面對(duì)圖書評(píng)論的主題聚類、語義表示和隱性特征研究關(guān)注不足,以圖書評(píng)論為研究對(duì)象的文獻(xiàn)多為基于主觀判斷的例舉式定性研究,即使采用定量研究也僅對(duì)小樣本數(shù)據(jù)統(tǒng)計(jì)分析,具體觀點(diǎn)內(nèi)容分析限于人工歸納,缺乏有說服力的數(shù)據(jù)支持。
本文結(jié)合現(xiàn)有圖書評(píng)論特征抽取的研究基礎(chǔ),針對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用環(huán)境的挑戰(zhàn),從兩個(gè)方面對(duì)圖書評(píng)論挖掘研究進(jìn)行展望:首先,加強(qiáng)大數(shù)據(jù)環(huán)境下的圖書評(píng)論特征研究有助于國際視野下的圖書評(píng)論分析,綜合運(yùn)用大數(shù)據(jù)采集、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)、終身學(xué)習(xí)等新興技術(shù),可以客觀地分析國內(nèi)外讀者對(duì)于熱點(diǎn)圖書出版物的觀點(diǎn)態(tài)度,能夠有效對(duì)比特定圖書不同版本的讀者反映和觀點(diǎn)摘要,形成的研究模式可以推廣到跨語言圖書評(píng)論觀點(diǎn)挖掘,從更廣泛意義上探討對(duì)我國圖書出版事業(yè)的啟示。其次,國內(nèi)圖書評(píng)論挖掘研究的深度和廣度尚待加強(qiáng),從深度方面,圖書評(píng)論領(lǐng)域的本體構(gòu)建、知識(shí)圖譜推理、命名實(shí)體識(shí)別、情感分析和語料自動(dòng)標(biāo)注技術(shù)的深入研究有助于改善海量高噪音的互聯(lián)網(wǎng)圖書評(píng)論挖掘的準(zhǔn)確率和效率,但國內(nèi)現(xiàn)有研究較少涉及;從廣度方面,國內(nèi)已有研究文獻(xiàn)的數(shù)據(jù)來源比較單一,而來源廣泛的在線圖書評(píng)論語料有助于更加公平客觀地獲取讀者觀點(diǎn)和市場反饋。
參考文獻(xiàn)
[1]李光敏,陳熾,邢江,等.網(wǎng)絡(luò)文本評(píng)論中產(chǎn)品特征抽取綜述[J].現(xiàn)代情報(bào),2016,36(8):168-173.
[2]Jin W,Ho H H.A Novel Lexicalized Hmm-based Learning Framework for Web Opinion Mining[C]//Proceedings of the 26th Annual International Conference on Machine Learning,2009:465-472.
[3]Li F,Han C,Huang M,Zhu X,et al.Structure-aware Review Mining and Summarization[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.
[4]Hamdan H,Bellot P,Béchet F.Supervised Methods for Aspect-based Sentiment Analysis[C]//Proceedings of the 8th International Workshop on Semantic Evaluation,2014:596-600.
[5]Shu L,Liu B,Xu H,et al.Supervised Opinion Aspect Extraction By Exploiting Past Extraction Results[J].arXiv Preprint arXiv:1612.07940,2016.
[6]Shu L,Xu H,Liu B.Lifelong Learning Crf for Supervised Aspect Extraction[J].arXiv Preprint arXiv:1705.00251,2017.
[7]Poria S,Cambria E,Gelbukh A.Deep Convolutional Neural Network Textual Features and Multiple Kernel Learning for Utterance-level Multimodal Sentiment Analysis[C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing,2015:2539-2544.
[8]Poria S,Cambria E,Gelbukh A.Aspect Extraction for Opinion mining with a Deep Convolutional Neural Network[J].Knowledge-Based Systems,2016,108:42-49.
[9]Hu M,LiuB.Mining and Summarizing Customer Reviews[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2004:168-177.
[10]Hu M,Liu B.Mining Opinion Features in Customer Reviews[C]//Association for the Advancement of Artificial Intelligence,2004,4(4):755-760.
[11]Santosh R,Prasad P,Vasudeva V.An Unsupervised Approach to Product Attribute Extraction[C]//Proceedings of the 31th European Conference on IR Research on Advances in Information Retrieval,2009:796-800.
[12]韓客松,王永成.一種用于主題提取的非線性加權(quán)方法[J].情報(bào)學(xué)報(bào),2000,(6):650-653.
[13]何新貴,彭甫陽.中文文本的關(guān)鍵詞自動(dòng)抽取和模糊分類[J].中文信息學(xué)報(bào),1999,(1):10-16.
[14]耿煥同,蔡慶生,于琨,等.一種基于詞共現(xiàn)圖的文檔主題詞自動(dòng)抽取方法[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2006,(2):156-162.
[15]Liu K,Xu L,Zhao J.Extracting Opinion Targets and Opinion Words from Online Reviews with Graph Co-ranking[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics,2014,(1):314-324.
[16]Ma T,Zhao Y W,Zhou H,et al.Natural Disaster Topic Extraction in Sina Microblogging Based on Graph Analysis[J].Expert Systems with Applications,2019,115:346-355.
[17]Qiu G,Liu B,Bu J,et al.Opinion Word Expansion and Target Extraction through Double Propagation[J].Computational Linguistics,2011,37(1):9-27.
[18]Zhang L,Liu B,Lim S H,et al.Extracting and Ranking Product Features in Opinion Documents[C]//Proceedings of the 23rd International Conference on Computational Linguistics:Posters.Association for Computational Linguistics,2010:1462-1470.
[19]Zhao Y,Qin B,Hu S,et al.Generalizing Syntactic Structures for Product Attribute Candidate Extraction[C]//Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,2010:377-380.
[20]Kang Y,Zhou L.RubE:Rule-based Methods for Extracting Product Features from Online Consumer Reviews[J].Information & Management,2017,54(2):166-176.
[21]Ma B,Zhang D,Yan Z,Kim T.An LDA and Synonym Lexicon Based Approach to Product Feature Extraction from Online Consumer Product Reviews[J].Journal of Electronic Commerce Research,2013,14(4):304-314.
[22]Ye Y,Du Y,F(xiàn)u X.Hot Topic Extraction Based on Chinese Microblog's Features Topic Model[C]//2016 IEEE International Conference on Cloud Computing and Big Data Analysis,2016:348-353.
[23]Chen Y,Li W,Guo W,et al.Popular Topic Detection in Chinese Micro-blog Based on the Modified LDA Model[C]//2015 12th Web Information System and Application Conference.IEEE,2015:37-42.
[24]Xie W,Zhu F,Jiang J,et al.Topicsketch:Real-time Bursty Topic Detection from Twitter[J].IEEE Transactions on Knowledge and Data Engineering,2016,28(8):2216-2229.
[25]Pontiki M,Galanis D,Papageorgiou H,et al.SemEval-2016 Task 5:Aspect Based Sentiment Analysis[C].Proceedings of the 10th International Workshop on Semantic Evaluation,2016:19-30.
[26]Sohail S S,Siddiqui J,Ali R.Book Recommendation System Using Opinion Mining[C]//International Conference on IEEE,2013:1609-1614.