• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      中文在線產(chǎn)品評(píng)論中“特征—觀點(diǎn)對(duì)”的挖掘方法

      2019-05-25 07:50:26尹裴
      中國(guó)集體經(jīng)濟(jì) 2019年12期
      關(guān)鍵詞:語(yǔ)義

      尹裴

      摘要:文章主要針對(duì)中文在線產(chǎn)品評(píng)論進(jìn)行研究,識(shí)別與抽取其中的基本評(píng)價(jià)單元——“特征、觀點(diǎn)對(duì)”(Feature-Opinion Pair,F(xiàn)OP),提出基于語(yǔ)義詞典的特征觀點(diǎn)對(duì)提取方法。先通過分詞與詞性標(biāo)注產(chǎn)生實(shí)詞序列,并保留其中特定的名詞、動(dòng)詞、形容詞與副詞生成產(chǎn)品特征與觀點(diǎn)詞序列,再通過進(jìn)一步的精煉與映射成為評(píng)論特征與觀點(diǎn)詞序列,最后運(yùn)用匹配與抽取算法自動(dòng)生成特征觀點(diǎn)對(duì)。實(shí)驗(yàn)結(jié)果表明,本方法的查全率約為87.62%,查準(zhǔn)率約為79.44%,其性能與基線方法相比,有明顯地提高。

      關(guān)鍵詞:在線產(chǎn)品評(píng)論;產(chǎn)品特征;特征觀點(diǎn)對(duì);語(yǔ)義

      一、引言

      隨著口碑營(yíng)銷等新型營(yíng)銷模式的興起,在線評(píng)論的挖掘受到越來越多的關(guān)注。用戶往往是根據(jù)產(chǎn)品的不同特征發(fā)表相應(yīng)的觀點(diǎn),所以評(píng)論中的產(chǎn)品特征及其觀點(diǎn)便成為反應(yīng)用戶對(duì)產(chǎn)品認(rèn)知和評(píng)價(jià)的基本單元。

      特征觀點(diǎn)對(duì)的提取是挖掘評(píng)論商業(yè)價(jià)值的最重要一步。現(xiàn)有的方法多為針對(duì)英文評(píng)論中特征觀點(diǎn)對(duì)的提取。英文評(píng)論句式固定、語(yǔ)法規(guī)范,而中文評(píng)論則存在口語(yǔ)化嚴(yán)重、語(yǔ)法不規(guī)范、語(yǔ)義模糊及主語(yǔ)缺失的特點(diǎn),在一定程度上加大了評(píng)論挖掘的難度。由于中文與英文在表達(dá)方式上的較大差別,英文評(píng)論挖掘的方法無法直接應(yīng)用到中文評(píng)論中。

      因此,本文主要針對(duì)中文產(chǎn)品評(píng)論中的特征觀點(diǎn)對(duì)進(jìn)行挖掘,在已有研究的基礎(chǔ)上,提出基于語(yǔ)義詞庫(kù)的挖掘方法,并通過實(shí)驗(yàn)來驗(yàn)證該方法的有效性,最后再分類統(tǒng)計(jì)特征觀點(diǎn),實(shí)現(xiàn)評(píng)論信息的有效組織。

      二、文獻(xiàn)綜述

      基于統(tǒng)計(jì)的方法利用基于統(tǒng)計(jì)的算法識(shí)別特征詞,再采用鄰近原則來判斷相應(yīng)的觀點(diǎn)。例如,Liu(2006)首先識(shí)別句子中的名詞或名詞短語(yǔ),然后使用關(guān)聯(lián)規(guī)則挖掘出頻繁項(xiàng)作為產(chǎn)品特征,將離產(chǎn)品特征最近的形容詞作為評(píng)論觀點(diǎn)。Scaffidi(2007)通過人工建立特定產(chǎn)品的特征集合來識(shí)別評(píng)論中的產(chǎn)品特征,再將與產(chǎn)品特征相鄰的形容詞作為評(píng)論觀點(diǎn)。Zhang等(2010)通過條件隨機(jī)場(chǎng)識(shí)別產(chǎn)品特征,再基于鄰近原則與語(yǔ)法樹識(shí)別與產(chǎn)品特征相對(duì)應(yīng)的評(píng)價(jià)觀點(diǎn)。

      基于語(yǔ)義的方法將語(yǔ)言學(xué)知識(shí)引入評(píng)論挖掘,通過構(gòu)建語(yǔ)言模式、語(yǔ)法規(guī)則或情感詞典來識(shí)別特征觀點(diǎn)對(duì)。例如,Zhuang, Jing和Zhu(2006)基于WordNet人工定義電影的特征及觀點(diǎn),通過依存句法圖獲取特征-觀點(diǎn)對(duì)。Miao, Li和Zeng(2010)通過人工預(yù)先定義語(yǔ)法規(guī)則識(shí)別特征觀點(diǎn)對(duì)。Zhao等(2010)通過獲取句法路徑與計(jì)算句法路徑編輯距離抽取特征觀點(diǎn)對(duì)。Vu等(2011)利用預(yù)先定義的語(yǔ)法規(guī)則與同義詞挖掘特征觀點(diǎn)對(duì)。Qiu等(2009)利用句法依存樹識(shí)別特征觀點(diǎn)對(duì),Qiu等(2011)基于人工挑選的種子觀點(diǎn)詞,自動(dòng)學(xué)習(xí)更多的評(píng)價(jià)觀點(diǎn)及其評(píng)價(jià)對(duì)象。Somprasertsri和Lalitrojwong(2010)構(gòu)建領(lǐng)域本體存儲(chǔ)產(chǎn)品特征的同義詞和觀點(diǎn)詞的極性。

      三、特征-觀點(diǎn)對(duì)的提取方法

      本文提出一種基于語(yǔ)義詞庫(kù)的、直接提取產(chǎn)品特征與觀點(diǎn)的方法,針對(duì)產(chǎn)品評(píng)論構(gòu)建語(yǔ)義詞庫(kù)存儲(chǔ)產(chǎn)品特征與觀點(diǎn),以及特征與特征、觀點(diǎn)與觀點(diǎn)及特征與觀點(diǎn)之間的語(yǔ)義關(guān)系,在此基礎(chǔ)上實(shí)現(xiàn)對(duì)產(chǎn)品特征及其觀點(diǎn)的識(shí)別與提取。其基本流程如圖1所示。

      1. 步驟1:分詞與詞性標(biāo)注

      分詞是將評(píng)論劃分為若干詞語(yǔ)及標(biāo)點(diǎn),并為每個(gè)詞語(yǔ)及標(biāo)點(diǎn)標(biāo)注相應(yīng)詞性。經(jīng)過分詞與詞性標(biāo)注處理后,建立事務(wù)數(shù)據(jù)庫(kù),以文本文件的形式存儲(chǔ)評(píng)論。以句子為單位,提取評(píng)論中的名詞、形容詞、動(dòng)詞、副詞及相關(guān)短語(yǔ)作為項(xiàng),生成實(shí)詞序列。

      2. 步驟2:產(chǎn)品特征與觀點(diǎn)標(biāo)注

      建立詞庫(kù),存儲(chǔ)產(chǎn)品特征、觀點(diǎn)及常見副詞,以便從實(shí)詞序列中識(shí)別產(chǎn)品特征及其觀點(diǎn)。根據(jù)“常見副詞庫(kù)”、“觀點(diǎn)詞庫(kù)”和“特征詞庫(kù)”,將評(píng)論中的詞語(yǔ)標(biāo)注為特征(F)或觀點(diǎn)(O),無法匹配的詞語(yǔ)則刪除。該過程如圖1所示。

      3. 步驟3:精煉“產(chǎn)品特征-觀點(diǎn)詞對(duì)”

      經(jīng)標(biāo)注得到的“產(chǎn)品特征-觀點(diǎn)詞對(duì)”較為粗糙,存在冗余、歧義和特征缺失等問題,因此需要精煉,去其糟粕取其精華。

      (1) 降低冗余。將語(yǔ)義上相同或相近的詞語(yǔ)進(jìn)行合并。多個(gè)產(chǎn)品特征可能指示產(chǎn)品的同一方面也合并。某些基本特征與其使用動(dòng)作相對(duì)應(yīng),如“揚(yáng)聲器”與“外放”、“瀏覽器”與“瀏覽”等,也將其合并。

      (2)減少歧義。某些特征詞前面必須加上限定詞才具有實(shí)際的意義,若單獨(dú)使用則產(chǎn)生歧義。本文采用互信息來衡量特征詞與其限定詞之間的共現(xiàn)性,以獲取匹配規(guī)則。

      互信息越大,特征詞w1與w2匹配效果越好。

      (3)特征缺失處理。中文評(píng)論常出現(xiàn)主語(yǔ)缺失的現(xiàn)象,即存在隱式特征,需要根據(jù)觀點(diǎn)詞補(bǔ)充相應(yīng)特征詞。觀點(diǎn)詞可分為兩類:一類是明確指示有限個(gè)具體特征的觀點(diǎn)詞,稱為特征指示詞,如“貴”指示“價(jià)格”;另一類是具有籠統(tǒng)含義,可修飾任意特征的觀點(diǎn)詞,稱為一般觀點(diǎn)詞,如“不錯(cuò)”。對(duì)于特征指示詞自動(dòng)匹配其所指示的特征;而一般觀點(diǎn)詞則自動(dòng)與其相鄰的、同一短句中的特征配對(duì)。

      4. 步驟4:“特征-觀點(diǎn)詞對(duì)”匹配與抽取

      (1) FO模式(或OF模式)。該模式中特征與觀點(diǎn)一一對(duì)應(yīng),直接生成特征觀點(diǎn)對(duì)

      (2)FFO模式。該模式為多個(gè)特征與單個(gè)觀點(diǎn)的組合形式,根據(jù)特征之間的關(guān)系,F(xiàn)FO模式可進(jìn)一步分為兩類:一是 特征間具有層次性,如“手機(jī)操作方便”,經(jīng)標(biāo)注為“手機(jī)/F操作/F方便/O”,其中“操作”為手機(jī)的使用行為,與“手機(jī)”是上下層關(guān)系,僅保留最后一個(gè)F,生成特征觀點(diǎn)對(duì)(操作,方便)。二是評(píng)論特征間具有同位性,如“外觀和操作系統(tǒng)都不錯(cuò)”,經(jīng)標(biāo)注為“外觀/F操作系統(tǒng)/F不錯(cuò)/O”,其中“外觀”和“操作系統(tǒng)”為并列關(guān)系,生成特征觀點(diǎn)對(duì)(外觀,不錯(cuò))與(操作系統(tǒng),不錯(cuò))。

      (3)FOO模式。該模式為單個(gè)特征與多個(gè)觀點(diǎn)的組合形式,根據(jù)“F”與“O”之間的搭配關(guān)系,F(xiàn)OO模式可進(jìn)一步分為兩類:一是每個(gè)觀點(diǎn)詞都用來形容評(píng)論特征,如 “屏幕大而清晰”,經(jīng)標(biāo)注為“屏幕/F大/O清晰/O”,其中“大”和“清晰”都形容“屏幕”,生成特征觀點(diǎn)對(duì)(屏幕,大)與(屏幕,清晰)。二是含有無法搭配評(píng)論特征的觀點(diǎn)詞,如 “按鍵靈活清楚”,經(jīng)標(biāo)注為“按鍵/F靈活/O清楚/O”,其中“靈活”修飾“按鍵”,而“清楚”與“按鍵”因無法搭配而刪除。

      (4)FFOFOO模式。該模式為多特征多觀點(diǎn)的組合形式,可以“F”開頭和“O”結(jié)尾的最長(zhǎng)序列為對(duì)象,將其拆分成FFO模式或FOO模式。

      四、實(shí)驗(yàn)設(shè)計(jì)

      (一)實(shí)驗(yàn)準(zhǔn)備

      本文選擇電子商務(wù)網(wǎng)站的手機(jī)評(píng)論作為語(yǔ)料來源。采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研制的ICTCLAS進(jìn)行分詞和詞性標(biāo)注,并用“,”替代評(píng)論中的空格、“~”、“/”等符號(hào)。對(duì)于評(píng)論中出現(xiàn)的專有名詞與口語(yǔ)化詞匯,則按照未登錄詞進(jìn)行標(biāo)注。

      挑選兩名語(yǔ)言學(xué)學(xué)者對(duì)實(shí)驗(yàn)語(yǔ)料人工標(biāo)注特征觀點(diǎn)對(duì)。標(biāo)注結(jié)果如表1所示。結(jié)果顯示96.3%的評(píng)論句中包含特征觀點(diǎn)對(duì),說明特征觀點(diǎn)對(duì)是產(chǎn)品評(píng)論中的重要的基本單元。同時(shí),觀點(diǎn)詞總數(shù)多于特征觀點(diǎn)對(duì)總數(shù),說明存在隱式特征。

      本文使用信息檢索領(lǐng)域標(biāo)準(zhǔn)的評(píng)價(jià)準(zhǔn)則:準(zhǔn)確率(P)、召回率(R)和調(diào)和評(píng)價(jià)值(F)來對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià)。具體定義為:P=|A∩B|/|A|;R=|A∩B|/|B|;F = 2*P*R/(P+R)。其中,A表示系統(tǒng)識(shí)別出的特征觀點(diǎn)對(duì)集合,B表示人工標(biāo)注的特征觀點(diǎn)對(duì)集合。

      (二)對(duì)比實(shí)驗(yàn)

      從基于統(tǒng)計(jì)與基于語(yǔ)義兩類研究中分別選取具有代表性的方法作為基線實(shí)驗(yàn),與本文提出的方法進(jìn)行對(duì)比。1. Liu (2006)提出的基于關(guān)聯(lián)規(guī)則與鄰近匹配原則的算法。2. Popescu和Etzioni提出的基于互信息與句法規(guī)則的算法。表2列出了對(duì)比實(shí)驗(yàn)結(jié)果。

      本文提出的方法在召回率和調(diào)和評(píng)價(jià)值上都高于兩組基線方法,說明基于語(yǔ)義的方法總體上優(yōu)于基于統(tǒng)計(jì)的方法,且以詞庫(kù)為基礎(chǔ),分析詞語(yǔ)間的語(yǔ)義關(guān)系,更有利于評(píng)論挖掘。

      五、總結(jié)

      本文針對(duì)中文在線產(chǎn)品評(píng)論進(jìn)行研究,提出基于語(yǔ)義詞典的方法,對(duì)評(píng)論中的基本評(píng)價(jià)單元“特征觀點(diǎn)對(duì)”實(shí)現(xiàn)有效地識(shí)別與提取。針對(duì)已有研究的不足,本文通過建立詞庫(kù)存儲(chǔ)產(chǎn)品特征及其多種表達(dá)形式,再經(jīng)同義詞合并解決評(píng)論的口語(yǔ)化問題;通過特征與特征的共現(xiàn)性消除語(yǔ)義上的歧義;根據(jù)特征與觀點(diǎn)間的語(yǔ)義關(guān)系補(bǔ)充句中缺失的主語(yǔ);通過將產(chǎn)品特征映射為評(píng)論特征減少特征集的維度,便于對(duì)挖掘結(jié)果進(jìn)行有效地統(tǒng)計(jì)分析。

      最后,設(shè)計(jì)對(duì)比實(shí)驗(yàn),結(jié)果表明本文提出的方法能有效地提高中文產(chǎn)品評(píng)論挖掘的效果。今后的研究將對(duì)所得到的特征觀點(diǎn)對(duì)進(jìn)行情感極性分類,以此比較不同產(chǎn)品的優(yōu)缺點(diǎn),將評(píng)論挖掘應(yīng)用到商業(yè)實(shí)例中。

      參考文獻(xiàn):

      [1]Popescu A.M. and Etzioni,O. Extracting Product Features and Opinions from Reviews[C]//Proc. Proceedings of Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing(HLT/EMNLP), Vancouver, Canada,2005.

      [2]Scaffidi C., Bierhoff K., Chang E., et al,Red Opal:Product-Feature Scoring from Reviews [C]// Proc. of the 8th ACM Conf. on Electronic commerce,2007.

      [3]Zhang S., Jia W., Xia Y., Meng Y., Yu H. Extracting Product Features and Sentiments from Chinese Customer Reviews[C]// Proc. of the the 7th Intl Conf. on Language Resources and Evaluation, 2010.

      [4]Zhuang L., Jing F., Zhu X. Movie Review Mining and Summarization [C]//Proc. of the 15th ACM Intl Conf. on Information and Knowledge Management, 2006.

      [5]Miao Q., Li Q., Zeng D. Fine-Grained Opinion Mining by Integrating Multiple Review Sources [J]. Journal of the American Society for Information Science and Technology,2010(11).

      [6]Vu T.T., Pham H.T., Luu C.T., Ha Q.T. A Feature-Based Opinion Mining Model on Product Reviews in Vietnamese [J].Studies in Computational Intelligence,2011.

      [7]Qiu, G., Liu, B., Bu, J., Chen, C. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proc. of the 21st Intl Joint Conf. on Artificial intelligence,2009.

      [8]Qiu, G., Liu, B., Bu, J., Chen, C. Opinion Word Expansion and Target Extraction through Double Propagation[J]. Computational Linguistics,2011(01).

      [9]Somprasertsri G., Lalitrojwong P. Mining Feature-Opinion in Online Customer Reviews for Opinion Summarization [J].Journal of Universal Computer Science, 2010(06).

      *基金項(xiàng)目:國(guó)家自然科學(xué)基金青年項(xiàng)目(71601119)“基于在線評(píng)論情感分析的社交媒體用戶推薦”;教育部人文社會(huì)科學(xué)研究一般項(xiàng)目(16YJCZH138)“在線評(píng)論中面向產(chǎn)品特征的消費(fèi)者意見挖掘:細(xì)粒度的情感分析視角”;上海市教育發(fā)展基金會(huì)和上海市教育委員會(huì)“晨光計(jì)劃”(16CG53)“社會(huì)網(wǎng)絡(luò)環(huán)境下基于情感分析的用戶推薦研究”;上海高校青年教師培養(yǎng)資助計(jì)劃(ZZslg16019)“基于細(xì)粒度情感分析的在線評(píng)論意見挖掘”。

      (作者單位:上海理工大學(xué)管理學(xué)院)

      猜你喜歡
      語(yǔ)義
      為什么字看久了就不認(rèn)識(shí)了
      語(yǔ)言與語(yǔ)義
      “社會(huì)”一詞的語(yǔ)義流動(dòng)與新陳代謝
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      “吃+NP”的語(yǔ)義生成機(jī)制研究
      “V+了+NP1+NP2”中V的語(yǔ)義指向簡(jiǎn)談
      認(rèn)知范疇模糊與語(yǔ)義模糊
      “V+X+算+X”構(gòu)式的語(yǔ)義功能及語(yǔ)義網(wǎng)絡(luò)——兼及與“V+X+是+X”構(gòu)式的轉(zhuǎn)換
      “熊孩子”語(yǔ)義新探
      “深+N季”組配的認(rèn)知語(yǔ)義分析
      绥滨县| 宁夏| 江达县| 确山县| 安陆市| 融水| 莫力| 开鲁县| 正安县| 巴楚县| 呈贡县| 五寨县| 江城| 峡江县| 临澧县| 武鸣县| 江陵县| 监利县| 门头沟区| 驻马店市| 贵阳市| 开化县| 泗水县| 运城市| 涿鹿县| 德化县| 怀来县| 克东县| 台湾省| 定兴县| 民丰县| 萨嘎县| 镇原县| 祁门县| 唐河县| 龙陵县| 津南区| 社会| 临安市| 沾化县| 河北省|