• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于二分網(wǎng)中心節(jié)點識別的產(chǎn)品評論特征-觀點詞對提取研究①

      2018-11-14 11:36:20臣,吉莉,唐
      計算機系統(tǒng)應(yīng)用 2018年11期
      關(guān)鍵詞:無權(quán)特征詞權(quán)值

      劉 臣,吉 莉,唐 莉

      (上海理工大學(xué) 管理學(xué)院,上海 200093)

      1 引言

      近年來,隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,催生了電子商務(wù)這種購物模式.消費者購買和使用產(chǎn)品之后會在網(wǎng)上發(fā)表對產(chǎn)品的評論,因此電商平臺上產(chǎn)生了大量的商品評論文本數(shù)據(jù).這些評論中的觀點詞是把握消費者情感傾向的關(guān)鍵,而觀點詞所修飾的特征詞則反映了消費者對于產(chǎn)品關(guān)注的焦點.這些特征觀點詞不僅影響著消費者的購買意向,同時也可以作為商家了解競爭對手的一個窗口,從而提高產(chǎn)品質(zhì)量,更好地為消費者服務(wù).如何從這些海量評論文本中有效地提取商品特征詞和觀點詞,更好為消費者跟商家服務(wù),是意見挖掘領(lǐng)域中的熱點問題.在這些特征詞觀點詞中又有高頻詞和低頻詞之分,高頻詞更能準(zhǔn)確地反應(yīng)消費者關(guān)注產(chǎn)品的焦點,所以本文重點挖掘出產(chǎn)品評論中高頻特征觀點詞.

      近些年有很多學(xué)者針對產(chǎn)品特征詞觀點詞提取進(jìn)行了研究.Zhao等人[1]提出MaxEnt-LDA為產(chǎn)品特征詞和觀點詞聯(lián)合建模,并利用句法特征使兩者分離.但在實際數(shù)據(jù)中,卻很難識別出評論文本中出現(xiàn)的高頻特征詞.Hu等人[2]利用關(guān)聯(lián)規(guī)則算法,將名詞中的頻繁項集提取出來作為候選特征詞,再將產(chǎn)品特征詞所在句子中的形容詞提取出來作為觀點詞.這種單純的將名詞作為候選特征詞的方法,會產(chǎn)生許多不相關(guān)的特征詞,降低結(jié)果的準(zhǔn)確率.Popescu等人[3]將Hu等人的方法做了改進(jìn),首先用PMI算法將停用詞過濾,再通過句法依存關(guān)系和特征詞來提取觀點詞.李實等人[4]基于對關(guān)聯(lián)規(guī)則算法的改進(jìn)對產(chǎn)品評論的特征信息進(jìn)行挖掘.馬柏樟等人[5]提出基于潛在狄利特雷分布模型的產(chǎn)品特征提取方法.Qiu等人[6]、Hai等人[7]基于雙向傳播算法,利用特征觀點詞之間的修飾關(guān)系或依存關(guān)系,觀點詞提取特征詞、特征詞提取觀點詞的雙向傳播模式.實驗結(jié)果表明,利用雙向傳播算法提取特征詞和觀點詞的召回率較高,但隨著迭代的深入開始出現(xiàn)較多的無關(guān)詞,導(dǎo)致準(zhǔn)確率較低.

      孫曉等人[8]提出了基于條件隨機場模型和支持向量機的層疊模型,提取產(chǎn)品評論中的特征詞和觀點詞.劉臣等人[9]則是將評論中的名詞組塊作為產(chǎn)品特征,動詞組塊作為觀點詞來提取特征觀點詞.劉通等人[10]依據(jù)N-Gram的邊界平均信息熵的指標(biāo)和子串依賴關(guān)系對候選項進(jìn)行過濾并提取特征.Jin等人[11]采用HMMs模型識別特征觀點詞.李志義等人[12]在條件隨機場模型(CRFs)的基礎(chǔ)上,通過分析特征詞和觀點詞之間存在的依存關(guān)系抽取特征觀點詞.Titov等人[13]利用多粒度主題模型,提取出按主題自動聚類的特征詞和觀點詞.彭云等人[14]提出語義關(guān)系約束的主題模型SRC-LDA (Semantic Relation Constrained LDA),用來提取細(xì)粒度特征和情感詞.Kamal等人[15]對評論文本進(jìn)行語言學(xué)和語義分析,利用相關(guān)規(guī)則實現(xiàn)評論文本的產(chǎn)品特征觀點詞對的提取.

      其他一些學(xué)者基于節(jié)點排序算法,將特征詞和觀點詞進(jìn)行重要性排序.例如郝亞輝[16]將評論中的特征詞和觀點詞間的句法依存關(guān)系模式作為HUB節(jié)點,再利用HITS算法對候選特征詞和觀點詞進(jìn)行排序,提高了特征詞和情感詞的準(zhǔn)確率.Liu等人[17]提出了一種協(xié)同排序算法來估計每個候選詞的可信度,并提取出具有較高可信度的候選詞作為候選目標(biāo)詞.Zhang等人[18]對特征候選進(jìn)行特征重要性排序,由特征相關(guān)性和特征頻率兩個因素決定,利用HITS算法查找重要特征并將其排序.但這些研究中,都是以等權(quán)重的方式處理候選特征詞和觀點詞節(jié)點,沒有考慮到節(jié)點權(quán)重的大小對節(jié)點重要性排序的影響.

      本文將從二分網(wǎng)絡(luò)的節(jié)點重要性排序角度來識別特征觀點詞,建立特征-觀點對二分網(wǎng)絡(luò).針對網(wǎng)絡(luò)是否加權(quán),分為無權(quán)網(wǎng)絡(luò)和加權(quán)網(wǎng)絡(luò).首先在無權(quán)網(wǎng)絡(luò)中提出了B-核分解算法,B-核分解算法是將兩類節(jié)點的度值作為度量值對節(jié)點的重要性進(jìn)行排序.后針對無權(quán)網(wǎng)絡(luò)的缺陷改進(jìn)算法,提出了BW-核分解算法.BW-核分解算法則是將節(jié)點的權(quán)值作為度量值對節(jié)點進(jìn)行重要性的排序.本文從京東上選取了四種產(chǎn)品的評論數(shù)據(jù)集作為研究對象,評價指標(biāo)采用目前廣泛接受的準(zhǔn)確率(Precision)和召回率(Recall)、F值(F-measure)來衡量算法的有效性.

      2 特征-觀點對二分網(wǎng)絡(luò)的構(gòu)建

      2.1 特征-觀點對二分網(wǎng)絡(luò)的表示

      本文從二分網(wǎng)絡(luò)的角度來識別高頻特征觀點詞,因此首先構(gòu)建特征-觀點對二分網(wǎng)絡(luò).二分網(wǎng)絡(luò)是由兩種類型的節(jié)點構(gòu)成,不同類型的節(jié)點之間才有連邊.在復(fù)雜網(wǎng)絡(luò)研究中,對于給定的網(wǎng)絡(luò)如果節(jié)點集可以分為兩個互不相交的非空子集X和Y,使得中的每一條邊的兩個端點中必定有一個屬于X,另一個屬于Y.則將稱為二分網(wǎng)絡(luò)其中在特征-觀點對二分網(wǎng)絡(luò)中,包括特征詞和觀點詞兩類節(jié)點.X中的元素表示特征詞節(jié)點,Y中的元素表示觀點詞節(jié)點,E表示連邊即特征詞和觀點詞的修飾關(guān)系.典型的特征-觀點對二分網(wǎng)絡(luò)如圖1所示.

      圖1 特征-觀點對二分網(wǎng)絡(luò)圖

      2.2 特征-觀點對二分網(wǎng)絡(luò)中的度和點權(quán)

      節(jié)點的度是單頂點網(wǎng)絡(luò)中常見的基本性質(zhì),通常是指與該節(jié)點連接的邊的數(shù)量.在二分網(wǎng)絡(luò)中,一個節(jié)點的度同樣也是指與該節(jié)點連接的邊的數(shù)量,且兩類節(jié)點的度之和相等[19].在特征-觀點對二分網(wǎng)絡(luò)中,一個特征詞的度即為與其相連的觀點詞的的個數(shù),一個觀點詞的度即為與其相連的特征詞的個數(shù).所有特征詞節(jié)點的度之和等于所有觀點詞節(jié)點的度之和.用公式表示即為:

      3 特征-觀點對提取

      本文在無權(quán)特征-觀點對二分網(wǎng)絡(luò)中,首先提出了將兩類節(jié)點的度值作為度量值來評價節(jié)點重要性的算法,我們將之稱為B-核分解算法.一般來說,如果僅用節(jié)點的度值作為度量值來評價節(jié)點重要性是不夠精確的.這是由于現(xiàn)實生活中,許多網(wǎng)絡(luò)都是加權(quán)網(wǎng)絡(luò),權(quán)重及其分布會對網(wǎng)絡(luò)的屬性和功能產(chǎn)生重要影響.權(quán)重的大小,代表了兩個節(jié)點之間聯(lián)系的緊密程度.即當(dāng)兩個節(jié)點同時出現(xiàn)的次數(shù)越多時,兩者之間存在某種關(guān)聯(lián)的可能性越大.例如當(dāng)候選特征觀點詞對總是共同出現(xiàn)時,說明兩者是固定搭配的可能性越大,就越有可能是真正的特征觀點詞.而度只能用來表示兩類節(jié)點共同出現(xiàn)過,但共同出現(xiàn)的詞對不一定就是真正的特征觀點詞對.因為在候選特征觀點詞集中,錯誤的特征觀點詞對也會共同出現(xiàn).相對于度值來說,將權(quán)重作為度量值可以更有效地詮釋節(jié)點的重要性.所以本文對B-核分解算法進(jìn)行了調(diào)整,提出將權(quán)值大小作為評價節(jié)點重要性排序的度量值,我們稱為BW-核分解算法.上述兩種算法的目的是對特征-觀點對二分網(wǎng)絡(luò)中的節(jié)點進(jìn)行重要性排序,從而識別出中心節(jié)點,找出特征觀點詞.

      3.1 B-核分解算法

      首先計算網(wǎng)絡(luò)中每個節(jié)點的度值,確定網(wǎng)絡(luò)中所有節(jié)點的最小度值.通過遞歸地移除網(wǎng)絡(luò)中所有度值小于或等于的節(jié)點,從而將網(wǎng)絡(luò)分成若干層.被去除的節(jié)點的集合,稱為網(wǎng)絡(luò)的B-shell(B-殼),簡稱.B-shell同時作為節(jié)點重要性排序指標(biāo),值越大,節(jié)點重要性越大.剩下的節(jié)點的集合稱為網(wǎng)絡(luò)的B-核.以下是B-核算法.

      算法1.B-核算法CFO: 候選特征觀點詞集.B: 無權(quán)特征-觀點對二分網(wǎng)絡(luò).表示網(wǎng)絡(luò)中的節(jié)點.Ranking set: 新特征觀點詞排序集.i Step 1: Input: CFO Step 2: 構(gòu)建網(wǎng)絡(luò)B Step 3: Fori inB:E is empty set bmin=min_degree(B)If is feature:i.degree≤bmin i If :i If is opinion:i.degree≤bmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node are recalculated Step 4: Output: Ranking set If :i

      通過B-核分解算法能夠確定所有節(jié)點在網(wǎng)絡(luò)中所處的層級,并給出節(jié)點的重要性排序,識別出二分網(wǎng)絡(luò)中的中心節(jié)點.下面我們用實例對B-核算法進(jìn)行更加直觀地解釋.首先構(gòu)建一個無權(quán)特征-觀點對二分網(wǎng)絡(luò),如圖2所示.該網(wǎng)絡(luò)包含特征詞和觀點詞兩類節(jié)點,連邊表示它們之間的修飾關(guān)系.例如節(jié)點A表示的特征詞是“質(zhì)量”,那么與它有連邊的節(jié)點H、I、J可以分別表示為觀點詞“好”、“差”和“不錯”.每個節(jié)點連邊的個數(shù)表示此節(jié)點的度,例如節(jié)點A的度值為b=3,節(jié)點L的度值為b=2.

      圖2 無權(quán)特征-觀點對二分網(wǎng)絡(luò)圖

      再根據(jù)B-核分解算法對節(jié)點重要性進(jìn)行排序,排序結(jié)果如圖3所示.該網(wǎng)絡(luò)被劃分成3個不同的層,每一層節(jié)點的值相等.通過B-核分解算法確定網(wǎng)絡(luò)中的核心節(jié)點,即值最大的節(jié)點是最具有影響力的節(jié)點.在此實例中,網(wǎng)絡(luò)中的核心節(jié)點分別是特征詞節(jié)點A、B、D和觀點詞節(jié)點H、I、J.這六個節(jié)點是該網(wǎng)絡(luò)中的中心節(jié)點,同時也最有可能是我們要找的特征觀點詞.如圖2所示,特征詞節(jié)點A和B分別與觀點詞節(jié)點H、I、J一同出現(xiàn)過,特征詞節(jié)點D分別與觀點詞節(jié)點H、I、L一同出現(xiàn)過.當(dāng)某個候選觀點詞同時跟幾個候選特征詞共同出現(xiàn)時,說明候選觀點詞H、I、J有可能是真正的觀點詞.同理,當(dāng)某個候選特征詞同時跟幾個候選觀點詞同時出現(xiàn)時,候選特征詞A、B、D也可能是真正的特征詞.例如,節(jié)點A為候選特征詞“質(zhì)量”,那么節(jié)點H、I、J就有可能是候選觀點詞“好”、“不錯”、“差”.通過人工分析我們知道“質(zhì)量”、“好”、“不錯”、“差”都是真正的特征觀點詞.同理得出特征詞節(jié)點B、D和觀點詞節(jié)點H、I、J也有可能是真正的特征詞和觀點詞.

      圖3 節(jié)點重要性排序圖

      3.2 BW-核分解算法

      首先計算網(wǎng)絡(luò)中每個節(jié)點的權(quán)值,確定網(wǎng)絡(luò)中最小的權(quán)值bwmin.通過遞歸地去除網(wǎng)絡(luò)中所有權(quán)值小于或等于bwmin的節(jié)點,從而將網(wǎng)絡(luò)分成若干層.被刪除的節(jié)點集合稱為Bw-shell(Bw-殼),簡稱Bws.Bw-shell同時作為節(jié)點重要性排序指標(biāo),Bws值越大,節(jié)點的重要性也就越大.剩余的節(jié)點集合稱為BW-核.

      在本文的加權(quán)網(wǎng)絡(luò)中,我們將權(quán)值的大小設(shè)置為整數(shù),即bwmin的起始值為整數(shù)1.然而在實際生活中,權(quán)值的大小并不全是整數(shù),更多的是隨機數(shù).即一個加權(quán)網(wǎng)絡(luò)中權(quán)值有可能是整數(shù),也有可能是小數(shù).所以在本文算法中,我們將參數(shù)值設(shè)為a≥bwmin.即當(dāng)參數(shù)值a大于或等于網(wǎng)絡(luò)中最小權(quán)值時,BW-核算法才會以權(quán)值為整數(shù)進(jìn)行分解.以下是BW-核算法.

      算法2.BW-核算法CFO: 候選特征觀點詞集.B: 加權(quán)特征-觀點對二分網(wǎng)絡(luò).表示網(wǎng)絡(luò)中的節(jié)點.Ranking set: 新特征觀點詞排序集.i Step 1: Input: CFO Step 2: 構(gòu)建網(wǎng)絡(luò)B Step 3: Fori inB:E is empty set bwmin=min_weight(B)a≥bwmin If is feature:i.weight≤bwmin i If :i If is opinion:i.weight≤bwmin is inserted intoE i is inserted intoE E is inserted into Ranking set E is deleted UpdateB Every node weights are recalculated Step 4: Output: Ranking set If :i

      通過BW-核分解算法能夠確定所有節(jié)點在網(wǎng)絡(luò)中所處的層級,并給出節(jié)點的重要性排序,識別出此網(wǎng)絡(luò)的中心節(jié)點.下面我們同樣用實例來闡述BW-核分解算法.首先構(gòu)建一個加權(quán)特征-觀點對二分網(wǎng)絡(luò),如圖4所示.在該網(wǎng)絡(luò)中,節(jié)點的權(quán)值是指與該節(jié)點相連邊的權(quán)重之和.其中邊的權(quán)重定義為特征-觀點對在數(shù)據(jù)集中出現(xiàn)的次數(shù),簡稱邊權(quán).例如節(jié)點A的權(quán)值等于A-I和A-J的邊權(quán)之和.假設(shè)A-I的邊權(quán)A-J的邊權(quán)那么節(jié)點A的權(quán)值

      圖4 加權(quán)特征-觀點對二分網(wǎng)絡(luò)圖

      再根據(jù)BW-核算法對加權(quán)特征-觀點對二分網(wǎng)絡(luò)中的節(jié)點進(jìn)行重要性排序,排序結(jié)果如圖5所示.該網(wǎng)絡(luò)被分成6層,其中處于第6層的節(jié)點屬于該網(wǎng)絡(luò)的核心節(jié)點,也就是影響力最大的節(jié)點.通過該分解圖我們還可以發(fā)現(xiàn)權(quán)值大的節(jié)點,并不一定就越接近核心層.例如特征詞節(jié)點G,它的權(quán)值bw=4,但卻和bw=2的特征詞節(jié)點C和H在同一層級.這是由于該候選特征詞很可能是大多數(shù)用戶在評論時的習(xí)慣用語,雖然出現(xiàn)的次數(shù)較多,但并不是真正的特征詞.例如“方面”這個詞語,大多數(shù)用戶在評價某產(chǎn)品的特征詞時會習(xí)慣地帶上“方面”.比如當(dāng)某個用戶想表達(dá)“質(zhì)量不錯”這個特征觀點時,往往在評論時會寫成“質(zhì)量方面不錯”.這時,利用SBV關(guān)系不僅能識別出“質(zhì)量-不錯”這一對正確的特征觀點詞,也會識別出“方面-不錯”這一對錯誤的特征觀點詞.所以利用BW-核算法可以將此類節(jié)點排在影響力較小的外層.

      圖5 節(jié)點重要性排序圖

      4 實驗

      本文根據(jù)二分網(wǎng)絡(luò)中節(jié)點重要性排序算法即B-核跟BW-核分解算法,對候選特征觀點詞進(jìn)行排序.為了驗證此算法在識別特征詞和觀點詞方面的有效性,本文將來自京東商城的四種商品的評論文

      本作為實驗數(shù)據(jù)集進(jìn)行對比分析.分別是樂視手機、洗面奶、華為手機、羽毛球拍.

      4.1 實驗數(shù)據(jù)集

      本文首先對評價文本進(jìn)行依存句法分析.基于產(chǎn)品評論特征詞,利用依存關(guān)系提取出與產(chǎn)品特征相關(guān)的觀點詞,構(gòu)成候選特征觀點詞對集.圖6是以樂視手機舉例說明,利用哈爾濱工業(yè)大學(xué)語言云的句法解析結(jié)果.圖中n代表名詞,a代表形容詞,d代表副詞.利用 SBV 關(guān)系識別出[屏幕-不錯]、[質(zhì)量-好]、[內(nèi)存-大]這三組候選特征觀點詞對.

      根據(jù)基于SBV關(guān)系識別出的候選特征觀點詞對構(gòu)建二分網(wǎng)絡(luò),特征-觀點對二分網(wǎng)絡(luò)數(shù)據(jù)集如表 1所示.表 1中給出了網(wǎng)絡(luò)的一些詳細(xì)的統(tǒng)計性質(zhì).I–/I+分別表示為無權(quán)無向網(wǎng)絡(luò)跟加權(quán)無向網(wǎng)絡(luò),中表示特征節(jié)點總數(shù),表示觀點詞節(jié)點總數(shù),表示邊數(shù).

      圖6 句法分析結(jié)果

      表1 特征-觀點對二分網(wǎng)絡(luò)數(shù)據(jù)集

      在特征-觀點對二分網(wǎng)絡(luò)中,在確定了網(wǎng)絡(luò)中各個節(jié)點的度值之后,我們可以把網(wǎng)絡(luò)中節(jié)點的度數(shù)按照從小到大排序,從而得到滿足度為的節(jié)點總數(shù).我們將這種排序方法稱為節(jié)點的度分布.特征詞的度分布即與每個特征詞相連接的觀點詞數(shù)量的分布,結(jié)果如圖7所示; 觀點詞的度分布即與每個觀點詞相連接的特征詞數(shù)量的分布,結(jié)果如圖8所示.從圖中我們可以看出在特征-觀點對二分網(wǎng)絡(luò)中,隨著度數(shù)的增大,兩類節(jié)點數(shù)均不斷減小,這類具有較高的度值且數(shù)量不多的節(jié)點就是我們要找的高頻特征觀點詞.比如特征詞中的“外觀”“質(zhì)量”“價格”等,他們都是具有高連接的節(jié)點,即具有較高的度值.比如觀點詞中的“好”、“不錯”、“可以”等也都是具有高連接的節(jié)點.這些具有高度值的節(jié)點大多都是高頻特征觀點詞,能準(zhǔn)確地代表消費者對產(chǎn)品的關(guān)注焦點.

      4.3 實驗結(jié)果

      本文采用目前科學(xué)研究中廣泛使用的準(zhǔn)確率P、召回率R以及F值來衡量算法的性能,各指標(biāo)越高,說明算法的性能越好.它們的計算公式如下所示:

      其中,x、y、z的含義分別為識別出的真正高頻特征觀點詞數(shù)、識別出的非真正高頻特征觀點詞數(shù)以及未識別出的真正高頻觀點詞數(shù).x+z在本文中表示人工手動標(biāo)記的數(shù)據(jù).

      圖7 特征節(jié)點度分布

      圖8 觀點詞節(jié)點度分布

      首先根據(jù)B-核分解算法對無權(quán)特征-觀點對二分網(wǎng)絡(luò)中的節(jié)點進(jìn)行排序,即對特征詞和觀點詞進(jìn)行排序,識別出高頻特征觀點詞.同樣,在加權(quán)網(wǎng)絡(luò)中,根據(jù)BW-核分解算法對加權(quán)網(wǎng)絡(luò)中的節(jié)點進(jìn)行排序,識別出高頻特征觀點詞.通過對四類產(chǎn)品的數(shù)據(jù)集處理之后我們發(fā)現(xiàn),無論是在無權(quán)網(wǎng)絡(luò)還是加權(quán)網(wǎng)絡(luò)中.隨著層級的增大,特征詞觀點詞的P值是呈上升的趨勢,而R值呈下降趨勢.接下來我們將以樂視手機評論的特征詞為例,分析出現(xiàn)這種結(jié)果的原因.在無權(quán)網(wǎng)絡(luò)中的P、R、F值與值的關(guān)系如圖9所示.在加權(quán)網(wǎng)絡(luò)中的P、R、F值與Bws值的關(guān)系圖10所示.

      圖9 無權(quán)二分網(wǎng)絡(luò)P、R、F值分布

      圖10 加權(quán)二分網(wǎng)絡(luò)P、R、F值分布

      表2 洗面奶數(shù)據(jù)分析結(jié)果

      表3 羽毛球拍數(shù)據(jù)分析結(jié)果

      通過對上述實驗結(jié)果進(jìn)行對比分析我們發(fā)現(xiàn)在這四組數(shù)據(jù)中,利用B-核算法提取特征詞的準(zhǔn)確率普遍高于BW-核算法.這是由于在候選特征集中,錯誤的特征詞出現(xiàn)的頻率也很高,所以就導(dǎo)致利用加權(quán)網(wǎng)絡(luò)提取特征詞的準(zhǔn)確率比無權(quán)網(wǎng)絡(luò)低.

      表4 樂視手機數(shù)據(jù)分析結(jié)果

      表5 華為手機數(shù)據(jù)分析結(jié)果

      從表2至表5中我們還可以看出利用無權(quán)網(wǎng)絡(luò)提取特征詞的召回率普遍較低.這是因為當(dāng)一個特征詞被多個觀點詞修飾時,這個特征詞是真正特征詞的概率很高,但這并不代表真正的特征詞都會有多個觀點詞修飾.例如在華為手機評論文本中,真正的特征詞“屏幕”可以被真正的觀點詞“大”、“好”以及“清晰”修飾,但真正的特征詞如“像素”卻只能用觀點詞“高”或“低”修飾.因為加權(quán)網(wǎng)絡(luò)考慮了頻次,出現(xiàn)次數(shù)越多是真正的特征詞的概率越大.所以在加權(quán)網(wǎng)絡(luò)中提取特征詞的召回率高于無權(quán)網(wǎng)絡(luò).但通過F值的比較我們發(fā)現(xiàn),無論是哪一類產(chǎn)品評論文本的分析結(jié)果,加權(quán)網(wǎng)絡(luò)的F值均高于無權(quán)的網(wǎng)絡(luò).所以實驗結(jié)果表明,BW-核算法的性能要優(yōu)于B-核算法,即在加權(quán)特征-觀點對二分網(wǎng)絡(luò)中更有利于高頻特征觀點詞的提取.

      5 結(jié)論

      本文針對一個具體的網(wǎng)絡(luò),即對特征-觀點對二分網(wǎng)絡(luò)做了詳細(xì)分析.將二分網(wǎng)絡(luò)節(jié)點重要性排序研究引入進(jìn)高頻特征觀點詞提取研究當(dāng)中.首先提出了B-核算法,即將節(jié)點的度值作為節(jié)點重要性排序的度量值.后針對無權(quán)網(wǎng)絡(luò)中算法的缺陷改進(jìn)了算法,提出了BW-核算法,該算法是將節(jié)點的權(quán)值作為節(jié)點重要性排序的度量值.通過實驗發(fā)現(xiàn),兩種算法在實際操作中都取得了很好效果.

      將復(fù)雜網(wǎng)絡(luò)中節(jié)點重要性排序引入特征觀點詞挖掘研究當(dāng)中,不僅是意見挖掘領(lǐng)域的一大創(chuàng)新,更是擴大了復(fù)雜網(wǎng)絡(luò)在實際中的應(yīng)用.二分網(wǎng)絡(luò)是復(fù)雜網(wǎng)絡(luò)中一種特殊的網(wǎng)絡(luò)模式,二分網(wǎng)絡(luò)中兩類節(jié)點的連邊與單頂點網(wǎng)絡(luò)中節(jié)點的連邊相比,有更多的意義.所以接下來我們將對兩類節(jié)點之間的連接邊做進(jìn)一步研究,將復(fù)雜網(wǎng)絡(luò)更好地應(yīng)用于提取特征詞和觀點詞的研究當(dāng)中.

      猜你喜歡
      無權(quán)特征詞權(quán)值
      一種融合時間權(quán)值和用戶行為序列的電影推薦模型
      CONTENTS
      有戶口但無承包地 無權(quán)參與收益分配
      Reading the Four Books with Aristotle: A Hermeneutical Approach to the Translation of the Confucian Classics by Fran?ois No?l SJ (1651—1729)*
      法律監(jiān)督無權(quán)實體處分的思辨——檢察權(quán)在刑事審前程序的限制與作為
      法大研究生(2018年2期)2018-09-23 02:20:30
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
      面向文本分類的特征詞選取方法研究與改進(jìn)
      關(guān)于“方言特征詞”理論的回顧及思考
      宝应县| 竹溪县| 天水市| 平安县| 合肥市| 璧山县| 玉门市| 蒲城县| 盘山县| 龙井市| 杭锦后旗| 电白县| 洛川县| 如东县| 武穴市| 额敏县| 胶州市| 乡宁县| 林周县| 宝兴县| 阳山县| 大化| 普宁市| 宁化县| 南宁市| 临桂县| 双桥区| 峨山| 鞍山市| 搜索| 古田县| 曲靖市| 中西区| 孝义市| 玛沁县| 镇远县| 金阳县| 邯郸市| 东城区| 玛曲县| 耒阳市|