• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于事件描述的社交事件參與度預(yù)測

      2020-12-02 06:27:48孫鶴立孫玉柱張曉云
      計算機應(yīng)用 2020年11期
      關(guān)鍵詞:信息

      孫鶴立,孫玉柱,2*,張曉云

      (1.西安交通大學(xué)計算機科學(xué)與技術(shù)學(xué)院,西安 710049;2.西安交通大學(xué)外國語學(xué)院,西安 710049)

      (?通信作者電子郵箱sunyuzhu12@xjtu.edu.cn)

      0 引言

      2014 年,Liu 等[1]提出了EBSNs 的概念,即基于事件的社會網(wǎng)絡(luò)(Event Based Social Networks,EBSNs)。EBSNs 不僅包含深度的線上交互(Online Interactions),還包含范圍廣泛的線下交互(Offline Interactions)。EBSNs 典型的網(wǎng)絡(luò)平臺代表有:Meetup、Google+Events、Groupon 和豆瓣等。依托這些平臺,用戶可以發(fā)布、參與社交事件,比如各種聚會、籌集資金、分發(fā)物品等[2]。近年來,越來越多的學(xué)者開始關(guān)注該領(lǐng)域,并開展了關(guān)于事件推薦[3-5]、事件安排[5-7]、行為分析[8-9]、參與預(yù)測[10-12]等方面的研究。

      本文重點關(guān)注社交事件參與預(yù)測,文獻[10]預(yù)測了興趣組的未來存在可能,由于一個興趣小組的三月存活率不到30%,因此作者通過研究組的創(chuàng)辦者,組成員數(shù)量的增長速度以及其他因素,來預(yù)測最終該組是否能夠存活。文獻[11]預(yù)測了事件的參與人員組成,由于人們在選擇事件時通?;谀撤N模式,因此通過學(xué)習(xí)歷史數(shù)據(jù)可以預(yù)測出哪些人可能對該事件感興趣。文獻[12]提出了基于多特征的模型用于預(yù)測活躍組員和非活躍組員的參與度。

      在EBSNs體系中,事件是運轉(zhuǎn)樞紐,而事件描述是事件的重要屬性,對于組織者和參與者均有重要的作用。事件描述可綜合包含多種信息,如事件意義、安排、預(yù)期等,可輔助用戶決策是否參加。同時,事件描述給了組織者最大的自由度來使事件更有吸引力,尤其在其他因素被限制的情況下(時間、地點等)。在當(dāng)前的研究中,事件描述通常只被用來衡量事件間的相似度,以及事件與用戶興趣的契合度。比如在文獻[11]中,事件描述被用來計算事件間的相似度,根據(jù)用戶參與事件的歷史數(shù)據(jù),為用戶推薦相似事件。文獻[13]使用TF-IDF(Term Frequency-Inverse Document Frequency)算法來處理事件描述,并用其計算事件間的相似度。文獻[14]提出用Vader對事件描述進行情感分析,并使用Jaccard 相似度來衡量事件的新奇性。目前,基于事件描述開展的工作還非常有限。

      盡管事件描述包含了事件的重要信息,但由于評價事件描述效果的主觀性、算法限制等原因,直接度量事件描述仍較為困難,同時如何充分利用事件描述中的信息,如語義分析、預(yù)測、預(yù)警也是當(dāng)前的難點問題。針對以上問題,本文開展了如下工作:

      1)提出了成功事件、相同事件、相似事件、事件相似度的概念,并針對事件進行分類度量。

      2)基于所提出概念,分別設(shè)計了基于拉索(Lasso)回歸、卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)神經(jīng)網(wǎng)絡(luò)的事件描述分析方法。

      3)設(shè)計了針對每種模型的訓(xùn)練方案,并用其他數(shù)據(jù)結(jié)合分類算法預(yù)測事件人數(shù),且分析了三種模型的預(yù)測結(jié)果,定量地研究了事件描述對預(yù)測事件參與度的影響,證明了事件描述對于增加事件吸引力的積極作用。

      1 問題概述

      在EBSNs 中,一個對組織者非常重要的問題是如何使自己的活動更受歡迎,進而吸引更多的參加者。同時,事件的屬性多種多樣,包括主題、舉辦時間、地點、所在組、事件描述等。作為自由度最大的屬性之一,問題描述在提高事件吸引力方面影響顯著,以下面兩段描述為例:

      1)Let’s get ready to get in our bikinis and board shorts(speedos for the europeans)and enjoy the la summer heat on the beach! this year the event is on saturday,august 10th,starting at 1pm.We will have muchies,drinks and games.For those that are into volleyball,let’s repeat what we did last year.I saw a lot of losers,I mean winners.lol.Let’s enjoy a few good volleyball games.

      2)Open to the public for a group class package and individual classes.

      從自然語言理解角度,第一段描述顯然比第二段更有吸引力,而事實也是如此,第一個事件的參與人數(shù)(超過97%的同類事件)遠(yuǎn)高于后者(超過5%的同類事件)。因此,如何定義事件描述,對事件舉辦者至關(guān)重要。

      同時,定量研究事件描述對事件參與度的影響也是一個難點問題。一方面由于事件描述是自然語言,難以建模。雖然近年出現(xiàn)了一些文本建模方法,如基于循環(huán)神經(jīng)網(wǎng)絡(luò)的語言模型(Recurrent Neural Network Language Modeling,RNNLM),較好地克服了傳統(tǒng)自然語言處理中的一些問題(例如反義詞),并在機器翻譯、文本生成等領(lǐng)域取得了不錯的效果,但它并不能很好地解決語義一致性的問題。例如在文本空間中,this flower smells pretty 和this flower smells pretty bad會比較接近,但它們的含義卻截然不同。另一方面,文本建模方法的本質(zhì)是擬合文本序列的概率分布,以最大化某個目標(biāo)函數(shù)的期望或概率,而不能真正理解語義,導(dǎo)致信息損失或失真,這兩方面導(dǎo)致定量研究事件描述的作用變得格外困難。

      為解決以上問題,本文采用逆向思路,首先并從事件結(jié)果出發(fā),提出事件相似度定義,從而判定事件的成功性并標(biāo)注,進而讓三種預(yù)測模型學(xué)習(xí)標(biāo)注結(jié)果,并進行預(yù)測,最后根據(jù)預(yù)測結(jié)果分析事件描述對參與度的影響。此思路可有效規(guī)避直接分析語句帶來的算法偏差,如語義一致性、信息損失問題。

      1.1 問題定義

      本文的數(shù)據(jù)來源為Meetup 平臺,Meetup 平臺中存在3 個基本對象:用戶、小組、事件。具有相同興趣的用戶形成小組,組織者可以在小組中發(fā)布事件,用戶可選擇是否參與該事件。事件連接了用戶和小組,是體系運轉(zhuǎn)的樞紐,本文提取事件的相關(guān)要素進行分析。

      為了方便描述,本文使用一個七元組來表示事件eid(id,t,d,h,a,l,c)。其中:id是事件的唯一標(biāo)識,t是事件舉辦時間,d 是事件描述,h 是事件所在組,a 是事件參與人,l 是事件所在地點,c 是事件主題。用四元組來表示組gid(id,e,m,c)。其中:id 是事件的唯一標(biāo)識,e 是事件,m 是組內(nèi)成員,c 是該組的主題。

      接下來給出事件的相關(guān)定義。

      成功事件 給定一個事件eid和與其相似的事件集合E=若eid的參與人數(shù)超過了70%的相似事件的參與人數(shù),則eid為成功事件。

      衡量事件舉辦結(jié)果的指標(biāo)較多,如參與人數(shù)、小組參與比例、經(jīng)費規(guī)模等,相對于其他指標(biāo),參與人數(shù)是事件參與度最為直觀的指標(biāo)。對于舉辦者來說,如果所舉辦事件的參與人數(shù)超過了70%的同類事件,那么該事件可以看作是成功事件。

      相似事件 給定事件eid1和eid2,若sim(eid1,eid2)>γ,則eid1和eid2互為相似事件,其中sim 表示相似矩陣,γ 為閾值。相似矩陣建立將在1.2 節(jié)中介紹,閾值γ 的選擇將在第3.1.2 節(jié)中介紹。相同事件 指對于事件eid1和事件指事件eid1的事件描述。

      Meetup 平臺中約30%的事件屬于相同事件,它們對于推薦算法意義重大,但在計算事件描述對事件參與度的影響時,則會起到相反的作用:一方面由于在衡量事件描述產(chǎn)生的影響時,該類事件會增加其事件描述的影響比重,進而導(dǎo)致結(jié)果偏向于重復(fù)出現(xiàn)的事件描述;另一方面由于參與這類事件的人重疊度高,它們是基于經(jīng)歷而不是基于事件描述來選擇該事件的,故對事件描述不敏感,因此剔除該類事件是有必要的。對于相同事件,本文只保留其平均值。

      1.2 事件相似度

      由于不同種類事件之間的參與人數(shù)差別較大,如演唱會可能會有數(shù)萬人參加,而讀書會的參與人數(shù)可能只有幾人,如果采用統(tǒng)一的標(biāo)準(zhǔn),某些種類的事件成功率將會大大超過其他事件,這不是本文期望的,所以定義相似度以區(qū)分不同類別的事件。兩個事件,如果所在組相似、主題相似、距離相近、時間相近,那么它們很有可能是相似的。接下來,本文將分別定義組相似度、主題相似度、時間相似度和地點相似度,從而定義事件相似度。

      1)組相似度。兩個組的相似度可以從兩個方面度量:一是組的主題相似度,二是組的成員相似度:

      a)主題相似度group_cat_sim:

      b)成員相似度group_mem_sim:

      2)事件主題相似度和組主題相似度類似,定義如下:

      3)時間相似度。通常事件舉辦時間越接近,時間相似度越大,為了計算需要,時間相似度的值域?。?,1],此處使用負(fù)指數(shù)函數(shù)定義時間相似度。

      4)地點相似度。同樣的,距離越近的事件地點相似度越高。這里使用haversine公式計算兩點之間的距離:

      5)事件相似度?;谝陨瞎?,定義事件相似度如下:給定事件i和事件j,它們之間的相似度可定義為組相似度、主題相似度、時間相似度、地點相似度的線性組合,可用式(6)表示:

      另外,1.1 節(jié)中事件相似度函數(shù)sim(eid1,eid2)>γ 中閾值γ的取值應(yīng)該考慮event_sim函數(shù)的取值范圍。

      2 預(yù)測模型

      本文分別設(shè)計了基于拉索回歸、卷積神經(jīng)網(wǎng)絡(luò)和門控循環(huán)神經(jīng)網(wǎng)絡(luò)的預(yù)測模型。

      2.1 基于拉索回歸的預(yù)測模型

      雖然事件描述和事件參與結(jié)果之間不是線性關(guān)系,但如果不考慮文本的序列性,僅將文本看作詞的集合,那么事件描述和事件參與度之間可近似看作線性關(guān)系。本文未采用傳統(tǒng)的線性回歸,而使用拉索回歸,因為拉索回歸可以有效地處理線性數(shù)據(jù),反映出事件描述中的單詞對于不同事件的重要性。由于同一類事件的發(fā)布者傾向?qū)κ录龀鱿嗨频拿枋?,因此拉索回歸模型可以捕捉事件描述中的關(guān)鍵詞信息,從而對參與結(jié)果進行判斷。拉索回歸的預(yù)測模型如下:

      式(7)中:yi為第i 個事件參與人數(shù),xij為中第j 個單詞。式(8)為損失函數(shù),MSE(Mean Squared Error)為均方誤差。

      在實現(xiàn)中,為了與后面兩個預(yù)測模型統(tǒng)一,本文使用了輸出維數(shù)為1 的單層線性神經(jīng)網(wǎng)絡(luò),并采用了L1 正則,以突出某些詞的作用。預(yù)測模型的輸入是序列化后的文本,輸出為參與人數(shù)。

      2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測模型

      拉索回歸模型雖然可以捕獲在同一類事件描述中影響較大的詞語,但是對于詞語的組合方式并不敏感,而在現(xiàn)實世界中,詞語的不同組合方式可能表達(dá)完全相反的含義。因此本文利用卷積神經(jīng)網(wǎng)絡(luò)對于詞語的組合特征進行分析,通過不同長度的卷積核捕捉不同長度的詞語組合的信息,從而提高判斷的準(zhǔn)確性。卷積操作首先對文本信息中不同長度的詞語組合進行采樣,然后以詞語組合為特征分析其對于事件參與結(jié)果的影響程度,相較于拉索回歸模型以單詞為單位的方式,可以捕捉到更高層次的特征,從而達(dá)到更好的效果。

      為了將文本的序列信息納入考量范圍,本文參考了seqGan[15]中判別器的結(jié)構(gòu),設(shè)計了卷積神經(jīng)網(wǎng)絡(luò),將卷積核的寬度設(shè)置成詞向量的維度,將卷積核的高度設(shè)置為25。判別器的具體處理過程如下。

      首先將輸入文本ω0,ω1,…,ωt表示成如下形式:

      其中:xi為ωi對應(yīng)的k維詞向量是拼接符號是一個t×k的矩陣。

      ?為元素積(element-wise product)之和,b 為偏移量,ρ 為非線性函數(shù)。在實現(xiàn)中本文使用多個相同尺寸的核進行卷積,然后取Ci中的最大值。例如圖1 中第一個卷積核的l 為3,使用了4 個不同的卷積核,即對于相同的窗口一次輸出四個結(jié)果,然后取其中的最大值,即窗口大小為l 所對應(yīng)的卷積結(jié)果。為了得到不同窗口尺寸下的上下文關(guān)系,本文使用不同尺寸的核,最后將結(jié)果拼接起來,得到處理后的特征向量,送入下一個環(huán)節(jié)。下一個環(huán)節(jié)為帶隱含層的線性網(wǎng)絡(luò),假設(shè)得到最終的特征向量為(圖中對應(yīng)的k為9),那么接下來本文對?進行如下操作。

      其中:ω0,ω1分別對應(yīng)第一和第二個淺色方塊,σ為非線性函數(shù),·為矩陣乘法運算,b0、b1為偏移量。

      本文使用了均方誤差(MSE)損失函數(shù),并對最后兩個線性神經(jīng)網(wǎng)絡(luò)采用了L2正則(式(14))。這里采用L2正則的原因是希望最后的線性神經(jīng)網(wǎng)絡(luò)能盡可能考慮前面卷積神經(jīng)網(wǎng)絡(luò)輸出的所有維度,而不是過度地依賴某些維度來做出判斷。

      在計算過程中,輸入文本序列,首先經(jīng)過詞向量層轉(zhuǎn)換成詞向量,然后進行卷積和池化,將結(jié)果拼接起來,再使用雙曲正切(tanh)歸一化,最后經(jīng)過一個帶隱含層的線性前饋神經(jīng)網(wǎng)絡(luò)輸出最終結(jié)果。

      圖1 基于卷積層的神經(jīng)網(wǎng)絡(luò)模型Fig.1 Convolution layer based neural network model

      2.3 基于GRNN的預(yù)測模型

      在上一小節(jié),本文使用卷積層對原始輸入文本轉(zhuǎn)換成的詞向量進行處理,得到了一個新的特征向量。這個過程也可看成是定義了一個函數(shù)f :Rm×k→Rn,將原本在Rm×k空間中的樣本編碼到了Rn中。這樣做的目的是方便后續(xù)處理,即把一條文本轉(zhuǎn)換成一個向量,接下來的工作將基于該向量展開。但如何定義函數(shù)f,是此方法成敗的關(guān)鍵。f 需具有如下特點:1)能處理序列信息;2)能在轉(zhuǎn)換過程中盡量保留原始信息;3)易于實現(xiàn)。而之前的卷積層神經(jīng)網(wǎng)絡(luò)并不完全滿足這三個條件。首先,它能處理序列信息,但它處理序列信息的能力來源于窗口大小的設(shè)置,因此,合理地設(shè)置窗口大小非常重要。而在文本處理中,如何設(shè)置窗口大小是件困難的事情。其次,因為池化層的存在,它在轉(zhuǎn)換過程中能保留多少原始信息是存疑的。

      循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)可以很好地滿足上面三個條件,因此近年來在自然語言處理領(lǐng)域得到了廣泛的應(yīng)用。RNN 能很好地克服卷積層的缺陷。RNN的感受野是整個句子,同時對文本從左到右(或雙向閱讀)的處理方式也與人的閱讀習(xí)慣相似,克服了卷積層中卷積核感受野的限制,能夠更好地收集原始文本中的信息。

      門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)是長短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)的變體。LSTM 解決了RNN 在處理遠(yuǎn)距離依賴時的梯度消失或梯度爆炸問題,可以很好地保持時序數(shù)據(jù)中長短距離的依賴關(guān)系。GRU 在保持了LSTM 優(yōu)勢的同時網(wǎng)絡(luò)結(jié)構(gòu)也更簡單,相較于LSTM 輸入門、輸出門、遺忘門的三門結(jié)構(gòu),GRU只有更新門和重置門[16]。

      門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)在處理序列文本的同時,更好地保留了事件描述中原始文本信息,尤其是長文本中的信息,相對于卷積神經(jīng)網(wǎng)絡(luò),能夠捕捉更多文本信息,從而提高判斷的準(zhǔn)確率。本文使用文獻[17]中的GRU結(jié)構(gòu),如圖2所示。

      圖2 GRU的結(jié)構(gòu)Fig.2 Structure of GRU

      圖中:z[t]為更新門,r[t]為重置門,h[t]為當(dāng)前t時刻的隱含狀態(tài),橢圓中為算符,方框表示非線性函數(shù)。

      GRU的前向傳播函數(shù)如下:

      其中:W、U、b 為參數(shù);xt為輸入向量,ht為輸出向量;zt、rt為更新門和重置門向量。同樣的,根據(jù)鏈?zhǔn)椒▌t,可以得到其反向傳播公式。

      將之前的神經(jīng)網(wǎng)絡(luò)的卷積層替換為GRU,便得到了另一個新的預(yù)測模型(如圖3)。

      圖3 基于GRU的神經(jīng)網(wǎng)絡(luò)模型Fig.3 GRU based neural network model

      在計算過程中,輸入文本序列,首先經(jīng)過詞向量層轉(zhuǎn)換成詞向量,然后進行GRU 編碼,將結(jié)果拼接起來,再使用雙曲正切(tanh)歸一化,最后經(jīng)過一個帶隱含層的線性前饋神經(jīng)網(wǎng)絡(luò)輸出最終結(jié)果。

      在以上幾個模型中,本文使用文獻[18]中word2vec 算法來計算詞向量,以避免獨熱編碼維度高、稀疏、詞之間相關(guān)性差的缺點。

      3 實驗設(shè)計與結(jié)果

      3.1 數(shù)據(jù)獲取與處理

      實驗使用的數(shù)據(jù)集為Meetup 平臺上美國洛杉磯2018 至2019年的部分活躍組別和其成員及事件,詳細(xì)信息如表1所示。

      表1 洛杉磯Meetup平臺數(shù)據(jù)集Tab.1 Dataset of Meetup platform in Los Angeles

      3.1.1 數(shù)據(jù)預(yù)處理

      由于爬取的數(shù)據(jù)描述為HTML 格式,同時包含很多非英語詞,例如表情、HTML 控制標(biāo)簽,因此,在正式在預(yù)處理之前,本文對文本進行如下處理:1)去除所有非英文詞和HTML標(biāo)簽;2)去除停止詞;3)將數(shù)字替換為“#”,將出現(xiàn)次數(shù)少于5次的詞替換為“<ukn>”;4)去除事件中無意義的屬性,例如圖片鏈接,最終選擇了如下屬性:時間、地點、事件描述、事件種類,部分?jǐn)?shù)據(jù)如表2所示。

      表2 部分處理后數(shù)據(jù)Tab.2 Part processed data

      3.1.2 計算事件相似度與成功性標(biāo)注

      根據(jù)事件相似度的定義event_sim 函數(shù)計算所有事件的相似度,經(jīng)計算,得到的event_sim 函數(shù)相似矩陣值的分布如圖4所示,可以看出,相似矩陣值在0.5附近有較大的差異,并且分布比例恰好在8∶2 左右,因此把1.1 節(jié)中事件相似度sim函數(shù)的閾值γ 取為0.5。然后利用事件成功的定義對所有事件的成功性進行判斷并標(biāo)注。

      圖4 相似矩陣值分布Fig.4 Distribution of similar matrix values

      3.2 實驗設(shè)計

      本文設(shè)計了兩組實驗來比較不同文本處理方式的效果:第一組實驗對比了不同的預(yù)測器在預(yù)測參與人數(shù)上的差異;第二組實驗中,本文將比較不同的文本處理方式對預(yù)測事件結(jié)果準(zhǔn)確率的提升。

      在參數(shù)設(shè)置方面,本文使用了網(wǎng)格搜索和四折交叉驗證的方式,確定了最佳參數(shù),如表3 所示。針對第一個實驗,本文使用了均方誤差(MSE)來衡量預(yù)測值和參與人數(shù)的距離,具體如下:

      其中:yi為真實參與人數(shù),為預(yù)測參與人數(shù)。

      表3 相關(guān)參數(shù)設(shè)置Tab.3 Settings of relative parameters

      在第二個實驗中,本文使用準(zhǔn)確率作為評價指標(biāo),準(zhǔn)確率為成功事件與所有事件的比值,如式(19)所示:

      其中:R為準(zhǔn)確率,為Ms成功事件數(shù)量,Ma為所有事件數(shù)量。

      3.3 實驗結(jié)果與分析

      3.3.1 不同預(yù)測器預(yù)測參與人數(shù)差異實驗

      首先使用80%的事件訓(xùn)練三種預(yù)測模型,并使用剩下的數(shù)據(jù)對預(yù)測模型進行評估。訓(xùn)練及測試過程的損失函數(shù)變化如圖5和圖6所示。

      從圖中可以看出,使用GRU 作為編碼器的神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最好,其次是線性預(yù)測模型(Lass),使用卷積層的神經(jīng)網(wǎng)絡(luò)(conv)表現(xiàn)最不理想。卷積層神經(jīng)網(wǎng)絡(luò)效果較差的原因可能是卷積層在自然語言處理中比較適合短文本分類,即能區(qū)分文法上有明顯區(qū)別的句子,但由于其感受野的限制,不適合用來區(qū)分整個文本的語義區(qū)別。而另一點值得注意的是,盡管GRU 在此次實驗中的表現(xiàn)最好,但是其結(jié)果仍然不是十分理想(從測試環(huán)節(jié)損失函數(shù)的曲線的抖動也可以看出這一點),這是因為在預(yù)測過程中本文僅使用了事件描述這一屬性,而沒有參考其他屬性,例如事件種類、所在組別、舉辦時間、舉辦地點、舉辦者等,屬性的缺失限制了這些預(yù)測模型的上限。如果在預(yù)測時加上這些屬性,可以預(yù)見準(zhǔn)確度會有所提升。

      圖5 訓(xùn)練過程中的損失函數(shù)變化Fig.5 Loss function change during training process

      圖6 測試過程中的損失函數(shù)變化Fig.6 Loss function change during testing process

      3.3.2 不同文本處理方式預(yù)測事件結(jié)果準(zhǔn)確率實驗

      此實驗中,為了衡量事件描述對事件參與人數(shù)的影響,本文將事件描述作為一個可選的屬性,使用隨機森林、Adaboost等分類器對事件成功性進行預(yù)測。如果加入的屬性提高了預(yù)測結(jié)果的準(zhǔn)確率,那么便可推測,該屬性會對事件結(jié)果產(chǎn)生正向影響。由于在第一個實驗中卷積神經(jīng)網(wǎng)絡(luò)的效果并不理想,所以第二個實驗中將其舍棄,僅用拉索回歸和GRU 來處理事件描述。

      在訓(xùn)練回歸模型時,本文從去重的原始數(shù)據(jù)中抽取50%的事件,將其移出數(shù)據(jù)庫,以免對接下來的實驗結(jié)果造成干擾。在訓(xùn)練分類器時,本文從數(shù)據(jù)庫中抽取10 000條數(shù)據(jù),并采用重復(fù)采樣的方式使正負(fù)數(shù)據(jù)比例達(dá)到1∶1,以避免不平衡數(shù)據(jù)集對實驗結(jié)果帶來的影響。最終本文使用Adaboost、決策樹、K 最近鄰(K-Nearest Neighbor,KNN)和隨機森林作為分類器,采用四折交叉驗證,并使用網(wǎng)格搜索來確定最佳參數(shù)。

      使用GRU 作為編碼器的神經(jīng)網(wǎng)絡(luò)處理事件描述時,采用70%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩余的30%用來評估分類結(jié)果,仍然使用交叉驗證和網(wǎng)格搜索的方式來確定最佳參數(shù)。最終實驗結(jié)果如表4所示。

      表4 不同文本處理方法和分類器對預(yù)測事件結(jié)果的影響Tab.4 Effect of different text processing methods and different classifiers on event prediction results

      對比使用拉索回歸處理和不包含事件描述的預(yù)測結(jié)果,可以發(fā)現(xiàn),分類精度提高2.35%(KNN 分類器)~3.8%(Adaboost分類器)。對比使用GRU神經(jīng)網(wǎng)絡(luò)處理和不包含事件描述的預(yù)測結(jié)果,分類精度提高4.5%(KNN 分類器)~8.9%(隨機森林分類器),這證明事件描述能夠影響事件結(jié)果。對比GRU 神經(jīng)網(wǎng)絡(luò)和拉索回歸兩種處理方式,無論基于哪種分類器,GRU 神經(jīng)網(wǎng)絡(luò)處理方式的分類精度均更高。由于拉索回歸將文本序列視作詞的集合,丟失了序列信息,而序列信息對于文本處理非常重要,基于GRU 的神經(jīng)網(wǎng)絡(luò)不但保留了序列信息,而且在轉(zhuǎn)換過程中盡量保留原始信息,更忠于原始文本,所以取得了更好的效果。同時可以看出,無論基于何種分類器,添加事件描述后分類精度都有了提高,這證明事件描述在提高事件參與度方面的重要作用。

      4 結(jié)語

      本文主要應(yīng)用拉索回歸、卷積層的神經(jīng)網(wǎng)絡(luò)、門控循環(huán)神經(jīng)網(wǎng)絡(luò)三種方式研究了事件描述對事件參與度的影響。實驗證明,增加事件描述能夠提高事件參與度,且使用GRU 的神經(jīng)網(wǎng)絡(luò)在預(yù)測事件參與人數(shù)的精度上都要高于其他兩個預(yù)測模型,顯示了循環(huán)神經(jīng)網(wǎng)絡(luò)在處理時序信息上的能力。與此同時,可以看到,只憑事件描述預(yù)測事件參與人數(shù)準(zhǔn)確率提升有限。未來工作中,將進一步結(jié)合其他因素,如時間、地點、組織者、事件類型等進行綜合預(yù)測,以提高預(yù)測的準(zhǔn)確度。

      猜你喜歡
      信息
      訂閱信息
      中華手工(2017年2期)2017-06-06 23:00:31
      展會信息
      中外會展(2014年4期)2014-11-27 07:46:46
      信息超市
      展會信息
      展會信息
      展會信息
      展會信息
      展會信息
      信息
      健康信息
      祝您健康(1987年3期)1987-12-30 09:52:32
      资阳市| 镇沅| 辽宁省| 右玉县| 隆昌县| 绍兴市| 仁化县| 合肥市| 禹州市| 岳池县| 桂东县| 合水县| 江山市| 日土县| 青阳县| 日喀则市| 五大连池市| 朝阳市| 固阳县| 壤塘县| 桐柏县| 宁都县| 沂源县| 浙江省| 德保县| 神木县| 固原市| 富宁县| 苗栗县| 苏尼特左旗| 新兴县| 阿坝县| 绵竹市| 大化| 沾益县| 咸丰县| 梁平县| 宁远县| 福清市| 凤冈县| 宁武县|