• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      短句語義向量計(jì)算方法

      2016-10-14 11:34:47陳福林闖薛超徐月梅孟坤倪藝函
      通信學(xué)報(bào) 2016年2期

      陳福,林闖,薛超,徐月梅,孟坤,倪藝函

      ?

      短句語義向量計(jì)算方法

      陳福1,林闖2,薛超2,徐月梅1,孟坤2,倪藝函1

      (1. 北京外國語大學(xué)計(jì)算機(jī)系,北京 100089;2. 清華大學(xué)計(jì)算機(jī)系,北京 100084)

      提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的短文語義向量放縮算法,結(jié)合社交節(jié)點(diǎn)自身信息和短文語義,給出社交網(wǎng)絡(luò)短文語義計(jì)算方法和突發(fā)話題發(fā)現(xiàn)算法。通過文本數(shù)值化實(shí)現(xiàn)語義距離的計(jì)算、比較、節(jié)點(diǎn)的分類及社區(qū)發(fā)現(xiàn)等。通過自行開發(fā)的微博采集工具Argus采集的大量新浪微博內(nèi)容對(duì)所提模型和算法進(jìn)行了驗(yàn)證,最后對(duì)未來工作進(jìn)行了展望。

      在線社會(huì)網(wǎng)絡(luò);主題語義計(jì)算;人工神經(jīng)網(wǎng)絡(luò);突發(fā)話題發(fā)現(xiàn)

      1 引言

      移動(dòng)智能終端的廣泛使用和無處不在的網(wǎng)絡(luò)接入能力,使微博、微信等信息傳播形式爆發(fā)出巨大的社會(huì)影響力,對(duì)社會(huì)網(wǎng)絡(luò)用語的語義分析具有重要的意義。社交網(wǎng)絡(luò)的影響力分析很早就得到了世界一流研究機(jī)構(gòu)的關(guān)注[1]。Facebook、LinkedIn及新浪微博等移動(dòng)在線網(wǎng)絡(luò)與傳統(tǒng)的社交網(wǎng)絡(luò)的行為特征、傳播手段和影響能力均有巨大不同。最明顯的外在特征是具有明顯瞬態(tài)時(shí)間特征的巨量短文本流,如微博的140個(gè)漢字。因此,加強(qiáng)對(duì)這種短文本信息的處理具有重要意義。短文本的語義計(jì)算對(duì)在線社交網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)、網(wǎng)絡(luò)結(jié)構(gòu)拓?fù)浞治?、?jié)點(diǎn)推薦、廣告精準(zhǔn)投放、組織結(jié)構(gòu)管理、恐怖組織識(shí)別等均具有重要意義。傳統(tǒng)的在線社區(qū)發(fā)現(xiàn)常通過節(jié)點(diǎn)之間的關(guān)注進(jìn)行社區(qū)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的識(shí)別,而不是通過語義距離的計(jì)算[2]。因此,如何采用向量表示在線短文本的信息成為一個(gè)重要問題。

      本文針對(duì)移動(dòng)網(wǎng)絡(luò)用語的短小但語義豐富、實(shí)時(shí)性高的特點(diǎn),結(jié)合微博節(jié)點(diǎn)本身的語義,提出了用于描述微博內(nèi)容的語義度量向量模型?;谠撃P涂梢赃M(jìn)行突發(fā)話題發(fā)現(xiàn)、意見領(lǐng)袖識(shí)別、謠言分析和確認(rèn)及微博內(nèi)容和節(jié)點(diǎn)的推薦。

      2 相關(guān)工作

      2.1 話題語義建模方法

      話題語義建模是獲取微博語義內(nèi)容的基礎(chǔ)。文獻(xiàn)[3]采用聯(lián)合概率生成模型進(jìn)行了社交網(wǎng)絡(luò)語言上下文感知和話題建模。LDA(latent dirichlet allocation)是一種重要的話題語義建模方法[4~6]。如TwitterRank[7]采用LDA模型從tweets中提取潛藏的主題信息,然后根據(jù)特定的主題排序[8]。LDA是一種非監(jiān)督學(xué)習(xí)的文檔主題生成模型,是一個(gè)3層貝葉斯概率模型。LDA采用了詞袋(bag of words)模型,但是詞袋方法沒有考慮詞與詞之間的順序。

      LDA基本上是以文檔集合作為研究對(duì)象的潛在語義分析。對(duì)新浪微博這樣的短文本的在線社會(huì)網(wǎng)絡(luò),直接應(yīng)用LDA進(jìn)行語義獲取具有一定的局限性。文獻(xiàn)[9]通過對(duì)文檔聚類并結(jié)合tweets特征和粒度進(jìn)行主題發(fā)現(xiàn),主要思想是如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF(term frequency)高,在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語對(duì)語義具有較大的識(shí)別意義,也就是詞在篇章中的重要性與其在文件中出現(xiàn)的頻數(shù)成正比,與其在語料庫中出現(xiàn)的頻率成反比。

      2.2 突發(fā)話題發(fā)現(xiàn)

      在線社會(huì)網(wǎng)絡(luò)的突發(fā)話題的識(shí)別和發(fā)現(xiàn)在過去幾年得到了廣泛的關(guān)注[10,11]。話題檢測(cè)和跟蹤(TDT, topic detection and tracking)是突發(fā)話題識(shí)別、趨勢(shì)預(yù)測(cè)的基礎(chǔ)。使用狀態(tài)變遷理論,用帶有權(quán)重的自動(dòng)狀態(tài)機(jī)理論進(jìn)行突發(fā)話題識(shí)別在早期得到充分的重視[12]。傳統(tǒng)上的突發(fā)話題均以詞頻為主,但社會(huì)網(wǎng)絡(luò)除了文本外還包括聲音、圖片和超鏈接等。如何在社會(huì)網(wǎng)絡(luò)中特別是針對(duì)類似于新浪微博這樣的短文本進(jìn)行突發(fā)話題發(fā)現(xiàn)是一個(gè)熱點(diǎn)問題,也得到了很多研究人員的高度關(guān)注。對(duì)于在線社會(huì)網(wǎng)絡(luò)突發(fā)話題的發(fā)現(xiàn),從鏈路流量特征異常檢測(cè)的角度進(jìn)行識(shí)別得到了高度關(guān)注[13],-grams模型[14]、兩階段消息分類[15]均得到了嘗試。對(duì)這種短文本的預(yù)測(cè)問題,國內(nèi)外很多研究人員均采用了用戶為圖的頂點(diǎn)、傳輸路徑為邊,分析信息的傳播和轉(zhuǎn)發(fā)概率的形式進(jìn)行一定程度預(yù)測(cè)[16]。這種以分析鏈接及轉(zhuǎn)發(fā)路徑的形式進(jìn)行的分析缺乏對(duì)文本本身語義的考慮,因而具有一定的片面性。結(jié)合語義和鏈接分析的工作因而逐步得到重視[17]。新浪微博主要內(nèi)容是中文,而中文話題檢測(cè)與跟蹤的實(shí)現(xiàn)與評(píng)測(cè)得到了國內(nèi)相關(guān)學(xué)者的廣泛關(guān)注[18]。其他的研究包括相鄰時(shí)段間情感分布語言模型間差異分析微博熱點(diǎn)事件發(fā)現(xiàn)[19]、微博網(wǎng)絡(luò)熱點(diǎn)相似度和測(cè)度、傳播路徑和用戶行為的中心化等網(wǎng)絡(luò)熱點(diǎn)發(fā)現(xiàn)、隱含語義分析兩階段聚類話題發(fā)現(xiàn)方法的聚類分析[20,21]、迭代式的語義分析和話題熱度預(yù)測(cè)模型。文獻(xiàn)[22]采用向量空間模型來表示報(bào)道和話題等。

      2.3 話題相似度計(jì)算

      文獻(xiàn)[3]給出了在線社交網(wǎng)絡(luò)的測(cè)量方法比較全面的綜述。文獻(xiàn)[23]根據(jù)事件的內(nèi)容相似度、事件和話題的相似度、事件的時(shí)間相似度提出了一種計(jì)算方法。突發(fā)話題確定后,開始計(jì)算話題相似性,并不是所有微博用戶都會(huì)對(duì)同一個(gè)突發(fā)的話題感興趣。因此,需要計(jì)算突發(fā)話題與微博興趣的距離。同時(shí),通過準(zhǔn)確度量話題相似性也可以進(jìn)一步確認(rèn)話題的突發(fā)性。如果2個(gè)節(jié)點(diǎn)的微博語義距離很大,則一般不會(huì)被推薦成為相互關(guān)聯(lián)的朋友。對(duì)用戶而言,及時(shí)得到最感興趣的信息才是最重要的。從語義上對(duì)在線短文本信息進(jìn)行測(cè)量,基于語義的信息分類與排序?qū)?jié)點(diǎn)用戶而言更有意義。因此度量節(jié)點(diǎn)之間的相似性,度量微博內(nèi)容之間的相似性,度量微博與節(jié)點(diǎn)興趣之間的相似性,是非常核心和重要的研究?jī)?nèi)容。

      很多人從節(jié)點(diǎn)和鏈接的拓?fù)浣Y(jié)構(gòu)角度做測(cè)量,或者從好友數(shù)、發(fā)文數(shù)、跟帖數(shù)等度量節(jié)點(diǎn)影響力大小[24]。相應(yīng)的概念包括緊密中心度、介數(shù)中心度等度量當(dāng)前節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的影響力或節(jié)點(diǎn)的社會(huì)關(guān)系強(qiáng)度[25,26]。從拓?fù)浣Y(jié)構(gòu)、用戶行為和網(wǎng)絡(luò)演化等方面對(duì)常見的測(cè)量方法和典型的網(wǎng)絡(luò)拓?fù)湓谖墨I(xiàn)[27]中進(jìn)行了系統(tǒng)的闡述。

      從在線網(wǎng)絡(luò)結(jié)構(gòu)本身的角度進(jìn)行社團(tuán)發(fā)現(xiàn)、度量節(jié)點(diǎn)之間的緊湊程度,由于缺乏語義信息而具有一定的局限性。這種度量方法可以從一定角度上反映節(jié)點(diǎn)之間的已經(jīng)具有的關(guān)聯(lián)或影響關(guān)系,但對(duì)正在形成或具有潛在影響力的推薦方面沒有實(shí)質(zhì)意義。轉(zhuǎn)發(fā)關(guān)系、回復(fù)關(guān)系、復(fù)制關(guān)系、閱讀關(guān)系及相應(yīng)關(guān)系的隨機(jī)游走模型下的話題影響力計(jì)算可以從一定程度上描述話題直接的關(guān)系,但這些關(guān)系不能一般性地度量2個(gè)話題的距離。

      2.4 存在問題

      從上述內(nèi)容可以看出,像微博這樣的在線短文本的建模、測(cè)量和分析得到了高度重視,但仍然存在以下問題。

      1) 微博文本簡(jiǎn)略口語化?;旧?,微博這樣的在線社交平臺(tái)都限制了發(fā)文的字?jǐn)?shù),不可能像博客一樣可以發(fā)表長(zhǎng)篇的論述,采用的語言也多是簡(jiǎn)略甚至口語化的。傳統(tǒng)的通過文檔集合得到文檔、通過文檔得到關(guān)鍵詞集合的方法,是基于主題單一的篇章結(jié)構(gòu),而不是口語化的簡(jiǎn)短的信息描述。使用傳統(tǒng)的篇章主題建模方法對(duì)微博這樣的短句文本進(jìn)行建模具有語義斷層。因此,如何對(duì)短文本微博內(nèi)容進(jìn)行建模是一個(gè)挑戰(zhàn)性問題。

      2) 語義內(nèi)容多元離散。一個(gè)關(guān)注了很多其他節(jié)點(diǎn)的節(jié)點(diǎn),他所看到的多條微博內(nèi)容必然是相互離散的,即使同一個(gè)節(jié)點(diǎn)在一個(gè)時(shí)間段所發(fā)的微博,其語義必然也是多樣的。也就是說,一個(gè)節(jié)點(diǎn)所收到的信息不能形成一個(gè)文檔。由于這個(gè)原因,采用LDA的主題模型從原理上存在矛盾。因?yàn)長(zhǎng)DA要求文檔—主題,主題—詞語具有內(nèi)在的關(guān)聯(lián)性。這種關(guān)聯(lián)性在微博這樣的以句子為單位的情形下直接使用LDA存在一定的不合理性,而且LDA在面對(duì)大量數(shù)據(jù)集時(shí)需要的計(jì)算量過大。

      3) 微博數(shù)量巨大。上述的瞬態(tài)性、簡(jiǎn)略性和內(nèi)容離散是針對(duì)某一個(gè)節(jié)點(diǎn)的微博空間而言的。對(duì)某一個(gè)在線社會(huì)網(wǎng)絡(luò)而言,例如新浪微博,單位時(shí)間內(nèi)涌現(xiàn)的微博數(shù)量是驚人的。只有Twitter或新浪微博平臺(tái)本身可以快速、即時(shí)得到這些實(shí)時(shí)發(fā)出的微博,其他任何組織或個(gè)人無論采用平臺(tái)提供的API還是通過網(wǎng)絡(luò)爬取均無法全部獲取。因此,希望通過微博空間得到即時(shí)輿情計(jì)算或挖掘都存在很大的偏差。一般而言,針對(duì)微博平臺(tái)整個(gè)空間的測(cè)量、采集、分析及輿情計(jì)算均存在不同程度的時(shí)延或偏差。

      4) 影響力和內(nèi)容含量巨大。較短的文本、瞬間即逝的在線社交網(wǎng)絡(luò)的信息含量大、傳播速度快,因而常常具有驚人的影響力。也正是這種驚人的影響力,主流的電視媒體、企業(yè)單位、國家部門、名人及普通民眾均對(duì)微博這樣的社交網(wǎng)絡(luò)表現(xiàn)出了極大的熱情。

      對(duì)在線社會(huì)網(wǎng)絡(luò)的短文信息而言,其內(nèi)容往往具有瞬時(shí)性。例如,通過微博知道了某個(gè)事件或某一鏈接然后通過其他途徑進(jìn)一步深入了解。因此對(duì)微博本身的組織、查找和理解與傳統(tǒng)對(duì)博客、新聞網(wǎng)頁等長(zhǎng)文本相比,重要性降低。也就是對(duì)類似微博這樣的在線短文本,基于內(nèi)容的比較和關(guān)鍵詞語義的識(shí)別更重要。而且由于短文本的字和詞語的數(shù)目明顯少于長(zhǎng)文檔,因此對(duì)這樣的短文進(jìn)行語義識(shí)別,采用傳統(tǒng)的如LDA這樣的方法必然存在局限性。而且針對(duì)微博這樣的短文本具有諸如口語化這樣的特征,需要完善傳統(tǒng)的語料庫使之具有識(shí)別能力。對(duì)海量、短文本、多主題、大噪聲構(gòu)成的文本集合進(jìn)行建模與傳統(tǒng)的長(zhǎng)文本、主題單一明確、噪聲較少的傳統(tǒng)媒體明顯不同。

      微博短文本理解、內(nèi)容挖掘、用戶社區(qū)挖掘、意見領(lǐng)袖識(shí)別和信息傳播模式等研究的最根本的工作是短句、主題多變語境的文本理解及量化問題,這也是本文研究的重點(diǎn)。

      結(jié)合上述特征和目前工作,本文的貢獻(xiàn)如下。

      1) 本文通過大量微博短文本建立微博語料庫,同時(shí)結(jié)合一般新聞?wù)Z料庫進(jìn)行文本數(shù)值化、向量化訓(xùn)練。

      2) 結(jié)合文本短小的特點(diǎn),對(duì)短文的關(guān)鍵詞進(jìn)行語義的“放大”,對(duì)非關(guān)鍵詞進(jìn)行語義“縮小”,從而建立短文本語義的更加清晰的輪廓。

      3) 為了利用數(shù)字向量化的結(jié)果進(jìn)行微博短文本的分類、組織,除了對(duì)語義進(jìn)行放縮處理外,本文建立短文本等價(jià)類模型,通過語義閉包擴(kuò)展,增強(qiáng)分類能力。

      3 話題語義的線性放大

      3.1 語義線性放縮

      對(duì)微博等短文本內(nèi)容計(jì)算的最大困難是文本短小、關(guān)鍵字?jǐn)?shù)目少、文本口語化、網(wǎng)絡(luò)流行性新詞多等問題。與此同時(shí),微博內(nèi)容量大、噪聲繁雜,提取隱含的、有價(jià)值的信息更為復(fù)雜。通過語義放縮的目的是更有利于分類、比較和查找。例如微博這樣的離散短文本,就可以通過放大語義信息從而得到相關(guān)微博之間的交集而歸于同類。反之,如果不進(jìn)行語義的放大則對(duì)部分含義接近而用詞差異較大的句子進(jìn)行語義歸類時(shí)候存在較大困難。因此,確保原始語義不變的情況下對(duì)語義內(nèi)容、關(guān)鍵詞數(shù)量進(jìn)行一定的放縮是非常必要的。在微博情境下,建立線性變換空間。確保變換滿足可加性和齊次性

      其中,、表示語義單位向量,表示某種語義變換,表示向量倍數(shù)。式(1)的(+)表示對(duì)2個(gè)語義向量單元的加和后的變化,()表示對(duì)語義向量放大倍后的變換。而式(1)表示的是線性變換的數(shù)學(xué)條件,本文的工作之一就是得到微博文本關(guān)鍵字的向量表示,并在此基礎(chǔ)進(jìn)行變換,具體的變換方法后面會(huì)詳細(xì)闡述。

      3.2 語義向量定義

      對(duì)微博短文關(guān)鍵詞詞語,用向量表示是進(jìn)行語義計(jì)算的前提和基礎(chǔ),即微博文本詞向量表示問題。One-hot表示方法因?yàn)閿?shù)據(jù)稀疏問題、不能描述詞語之間的相似性等而一般不被采用[28]。使用人工神經(jīng)網(wǎng)絡(luò)將詞表征為實(shí)值向量得到了廣泛關(guān)注[29],從而實(shí)現(xiàn)對(duì)文本內(nèi)容的處理轉(zhuǎn)化為向量空間中的向量運(yùn)算。如向量空間上的相似度可以表示文本語義上的相似度, 即用向量?jī)?nèi)積空間的夾角余弦值度量語義相似性。通過-gram引入情境影響,使句法和語義相近的詞具有近似的詞向量。Skip-gram和CBOX模型是2種使用簡(jiǎn)單的人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲得詞向量表示的模型。Skip-gram用于預(yù)測(cè)或估計(jì)相關(guān)聯(lián)詞,而CBOX則是在給定若干詞前提下預(yù)測(cè)下一詞匯[30]。本文首先給出關(guān)鍵詞和句子的語義向量定義。為后面行文方便,先給出用到的一些定義。

      定義1={1…x}:關(guān)鍵字的向量表示,其中,x是實(shí)數(shù)表示的向量的某一維。

      定義2={1…k}:某一短句經(jīng)過分詞抽取到的有意義的關(guān)鍵字集合,其中,k表示某一關(guān)鍵字,關(guān)鍵字的個(gè)數(shù)是由句子的構(gòu)成決定的,句子較長(zhǎng)則關(guān)鍵字個(gè)數(shù)就可能較多。

      定義3={1…y}:表示某一短句的向量表示,其中,y是實(shí)數(shù),表示句子向量的某一維。

      總之,在小學(xué)階段的語文教學(xué)中,小組合作這一模式是非常常見的,將具有著非常重大的價(jià)值、效用。在此模式下,不僅有助于學(xué)生合作意識(shí)、集體精神的增強(qiáng),對(duì)其有效學(xué)習(xí)的實(shí)現(xiàn),也有著非常大的效用。但是,在實(shí)際應(yīng)用時(shí),教師也應(yīng)有意識(shí)地減少盲目性,結(jié)合具體的教學(xué)需求、學(xué)生學(xué)情加以應(yīng)用,實(shí)現(xiàn)合理運(yùn)用,為教學(xué)活動(dòng)的有序展開保駕護(hù)航。

      定義4 徑向放縮向量:表示沿向量各個(gè)方向放縮的比例。

      ={1,…,k,…,k} (3)

      3.3 徑向語義向量放縮矩陣

      使用向量空間的線性投影進(jìn)行語義放縮。首先建立核心集語義模型,然后放縮矩陣實(shí)現(xiàn)向量空間映射,并借此找到近鄰詞。通過上述定義,句子已經(jīng)表示成了向量,語義的放縮問題就轉(zhuǎn)化為了向量放縮問題。因?yàn)橄蛄康木S數(shù)是可以根據(jù)計(jì)算資源確定的固定值,這里假定為。

      設(shè)變換前語義向量為,變換后語義向量為,則=X,其中,為階矩陣。

      比較簡(jiǎn)單的放大語義本質(zhì)上是使向量沿著各個(gè)方向的拉伸,其矩陣為

      (5)

      其中,k>0,k?1,?1>k當(dāng)k為常數(shù)時(shí)表示沿各個(gè)方向等長(zhǎng)放大倍。具體放大的倍數(shù)根據(jù)實(shí)際效果和需要而定,這種語義放大的邏輯含義是語義和邏輯結(jié)構(gòu)的線性放大。矩陣的對(duì)角線形成了徑向放縮向量,根據(jù)放縮規(guī)模進(jìn)行設(shè)置。

      k值表示放縮量的大小,該值的大小是根據(jù)時(shí)間效果和應(yīng)用對(duì)分類的精度要求所決定的,該值越大分類的精度越低,因此該值的確定需要根據(jù)實(shí)際需求和分類效果確定。

      3.4 語義向量球體放大

      上述徑向擴(kuò)展是沿著各維方向的拉伸,并沒有法向的擴(kuò)展。法向擴(kuò)展可以通過旋轉(zhuǎn)或擴(kuò)展轄域?qū)崿F(xiàn)。但由于高維空間的旋轉(zhuǎn)變換較為復(fù)雜,本文采用-范數(shù)表示到向量間距離的概念。

      所有到語義向量的-范數(shù)小于的向量構(gòu)成的空間,在邏輯上等同于沿向量的各個(gè)切面法向量的拉伸。其定義如下。

      設(shè)變換前語義向量為,變換后語義向量為。則與語義向量距離為的語義擴(kuò)展向量是一個(gè)集合,設(shè)該集合為。

      (7)

      所有滿足上述條件的向量構(gòu)成的集合,形成了一個(gè)類似于球體的高維封閉曲面,為計(jì)算簡(jiǎn)便,后文的實(shí)驗(yàn)采用2-范數(shù)。

      對(duì)上文提及的詞向量表示的實(shí)現(xiàn),本文采用人工神經(jīng)網(wǎng)絡(luò)語言模型,通過無監(jiān)督學(xué)習(xí)和領(lǐng)域文本語料庫獲取相應(yīng)文本關(guān)鍵字的詞向量表示,后文的實(shí)驗(yàn)環(huán)境會(huì)詳細(xì)介紹。

      3.5 語義放縮SEZOM算法

      根據(jù)上文所述的2種對(duì)語義向量的放縮方法,本文提出了短句的語義向量變換算法。

      算法1 短句向量化及其放縮算法

      輸入:在線文本語料;

      在線短句;

      放縮距離;

      放縮向量;

      輸出:短句向量表示;

      放縮后向量;

      ;

      步驟:

      1)將語料切分成關(guān)鍵字集合;

      2)使用關(guān)鍵字集合訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,得到語言向量集合;

      3)從短句中得到該句子關(guān)鍵字集合;

      4) Forin{

      5) IF (∈)

      6) 取得的詞向量表示加入到;

      7) }

      //計(jì)算句子向量

      8) Forin

      9) while(++ < 詞向量維數(shù))

      10).x=.x+.x;

      11)=||||; //句子關(guān)鍵字個(gè)數(shù)

      12) while(++ < 詞向量維數(shù))

      13).x=;

      /* 用對(duì)向量徑向放大,得到放大后向量.*/

      //語義向量球體放大

      15) do{

      18)=+;

      20) }while(<)

      通過算法1實(shí)現(xiàn)了關(guān)鍵詞的向量化,并將句子向量表示沿著各維的徑向做了擴(kuò)展及沿著各維的法向作了擴(kuò)展。經(jīng)過算法1的處理使短句的語義向量表示具有一定的外延。

      4 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

      4.1 實(shí)驗(yàn)背景分析

      本節(jié)采用新浪微博數(shù)據(jù)進(jìn)行相關(guān)算法的測(cè)試與實(shí)驗(yàn)。新浪微博具有廣泛的影響力,基于博文內(nèi)容對(duì)微博節(jié)點(diǎn)進(jìn)行分類可以為用戶準(zhǔn)確推薦感興趣的微博節(jié)點(diǎn)。在基于興趣的廣告推送,基于內(nèi)容的輿情分析等情境,均需要對(duì)博文內(nèi)容本身和微博之間進(jìn)行比較和歸類。新浪微博屬于典型的短句,因此本文采用新浪微博數(shù)據(jù)進(jìn)行驗(yàn)證和測(cè)試。

      4.2 實(shí)驗(yàn)數(shù)據(jù)集

      獲取新浪微博相關(guān)內(nèi)容的方法主要包括新浪微博API和其他第三方爬取工具,由于諸多原因新浪API不能滿足一般科研實(shí)際需求,而使用其他新浪微博獲取工具所得到的數(shù)據(jù)從內(nèi)容和格式都太過固定,不能實(shí)現(xiàn)定制。因此,本文開發(fā)了能夠獲取多元新浪微博信息的工具Argus。通過Argus實(shí)現(xiàn)了廣度優(yōu)先遞歸抓取某一節(jié)點(diǎn)粉絲ID及相關(guān)微博內(nèi)容。Argus可以抓取用戶的所有微博內(nèi)容,包括用戶的原創(chuàng)微博、轉(zhuǎn)發(fā)微博、原微博發(fā)起人、轉(zhuǎn)發(fā)評(píng)論、轉(zhuǎn)發(fā)關(guān)系等。其體系結(jié)構(gòu)如圖1所示。

      本文關(guān)注的是短文分類問題,因此按條目所列的新浪微博內(nèi)容是本文所需數(shù)據(jù)。根據(jù)吳軍等給出的結(jié)論,機(jī)器學(xué)習(xí)的數(shù)據(jù)與問題域?qū)嶋H場(chǎng)景越接近,實(shí)驗(yàn)所取得的效果越好。因此本文主要以新浪微博所涉及的詞匯為主進(jìn)行模型訓(xùn)練。由于word2vec訓(xùn)練需要以空格進(jìn)行分詞,因此本文對(duì)所有微博內(nèi)容進(jìn)行了分詞處理。在突發(fā)話題發(fā)現(xiàn)時(shí),由于微博的內(nèi)容主要與本條微博的關(guān)鍵詞相關(guān),因此在突發(fā)話題發(fā)現(xiàn)算法過程中,本文對(duì)對(duì)微博內(nèi)容進(jìn)行了關(guān)鍵詞提取,本文采用jieba分詞進(jìn)行了關(guān)鍵詞提取[31]。

      4.3 話題語義線性實(shí)驗(yàn)

      4.3.1 實(shí)驗(yàn)設(shè)置

      通過使用Argus采集大量數(shù)據(jù), 經(jīng)過抽取得到每個(gè)節(jié)點(diǎn)的標(biāo)簽數(shù)據(jù)和微博內(nèi)容,然后進(jìn)行分詞和關(guān)鍵字提取。從微博用戶解析得到的標(biāo)簽數(shù)據(jù)和微博內(nèi)容分詞后的語料合并作為訓(xùn)練語料,即算法1中的。然后使用訓(xùn)練word2vec得到語言向量集合。下面將使用進(jìn)行句子向量的計(jì)算等。

      4.3.2 微博內(nèi)容分詞和關(guān)鍵字抽取

      本節(jié)隨機(jī)抽取6條微博短句,分別記為T1~T6。為使算法具有一般性,本文抽取各個(gè)短句的關(guān)鍵詞如表1所示。

      表1 新浪微博及其關(guān)鍵字

      為簡(jiǎn)單起見,僅取10個(gè)關(guān)鍵字,根據(jù)算法1中的步驟1)~步驟13)、步驟8)~步驟14)和步驟15)~步驟20)分別計(jì)算各個(gè)短句的向量值,得到T1~T6向量表示短句及其放大表示。為了直觀展示向量放大的效果和實(shí)際的意義,分別計(jì)算了T1~T6向量與某一個(gè)微博節(jié)點(diǎn)的各個(gè)標(biāo)簽的語義距離。本文以某新浪微博節(jié)點(diǎn)為例,其標(biāo)簽為:下一代、動(dòng)力學(xué)、服務(wù)平臺(tái)、管理、互聯(lián)網(wǎng)、計(jì)算、網(wǎng)絡(luò)服務(wù)、微博。

      分別使用徑向放縮向量和球體放縮放量對(duì)微博向量T1~T6進(jìn)行了放大處理,然后分別計(jì)算T1~T6與上述8個(gè)標(biāo)簽的語義距離。為了從整體上觀察這種放大效果,把T1和T6這2個(gè)微博向量的變化情況通過與8個(gè)標(biāo)簽的語義距離表現(xiàn)出來,其中圖2表示微博T1按不同球體放大倍數(shù)放大后的向量與8個(gè)標(biāo)簽的語義距離變化情況,圖3表示T6按徑向的放大后的向量與標(biāo)簽的語義距離變化情況,可以看出語義距離在一定的幅度內(nèi)變化,從圖2和圖3只能看出語義距離的變化,但看不出對(duì)徑向放大和球體放大效果的區(qū)別。

      4.3.3 語義向量放大及分析

      為了進(jìn)一步觀察徑向放大和球體放大效果的區(qū)別,將T1~T6分別使用徑向和球體的放大向量放大4個(gè)不同倍數(shù),然后再分別求與8個(gè)標(biāo)簽的語義距離,觀察兩者的改變情況。例如將向量T1~T6徑向放大1~1.5倍、1.5~2倍、2~2.5倍和2.5~3倍,將向量T1~T6按球體放大向量放大為1~1.5倍、1~2倍、1~2.5倍和1~3倍等。這樣每個(gè)微博T得到了7個(gè)不同的放大向量,本文隨機(jī)取樣了T1~T6共6條微博,放大后的向量為42個(gè)向量。然后分別計(jì)算42個(gè)向量與8個(gè)標(biāo)簽的語義距離。

      圖4展示了微博T5與各個(gè)標(biāo)簽在語義放大不同倍數(shù)后的變化情況,可以看出語義向量放大后與各個(gè)標(biāo)簽的語義距離變小,但與某些標(biāo)簽的語義距離變化幅度很小。如T5與標(biāo)簽6基本沒有改變。實(shí)驗(yàn)中也觀察了其他微博的變化情況,發(fā)現(xiàn)語義距離變小,但變化的幅度不大。

      語義距離越小,語義差異越大。將微博語義放大后與各個(gè)標(biāo)簽的語義距離變小容易理解,這是因?yàn)閷⑽⒉┱Z義向量放大后,必然偏離原來的語義位置,從而使該語義變量在原來的基礎(chǔ)上偏離。因?yàn)閺较蚍糯笫窃诨颈3终Z義向量分量的基礎(chǔ)上的調(diào)節(jié),而不是整個(gè)徑向的改變。

      圖3 T6徑向放大與標(biāo)簽語義距離變化

      圖5~圖7分別給出了微博T5、微博T1和微博T3的語義向量球體放大后,與各個(gè)標(biāo)簽語義距離的變化情況。從圖5和圖6可以看出經(jīng)過放大后語義向量變化幅度與前面的徑向相比明顯增加。這是因?yàn)檎Z義向量的變化范圍是沿著各個(gè)分量的整體放大,如圖7所示的1~1.5和1~3倍放大,而不是沿著各維徑向的擴(kuò)展放大。

      本文考察了T1~T6的不同球體放大倍數(shù)的向量,與各個(gè)標(biāo)簽的語義距離變化情況。大多數(shù)的語義距離值均縮小,其與對(duì)應(yīng)的徑向發(fā)大倍數(shù)相比,變化幅度均比較明顯,如圖5和圖6所示。但有部分語義距離經(jīng)過放大后語義距離變大,如圖7所示。圖7表示微博T3在不同的放大倍數(shù)下,與8個(gè)標(biāo)簽的6個(gè)語義距離值變大。因?yàn)樵撝翟酱?,表示語義越接近。

      綜上,可以得出如下結(jié)論。

      1) 根據(jù)算法1對(duì)短句的向量表示進(jìn)行各維放大,可以使語義距離發(fā)生近域變化,大多數(shù)會(huì)使放大后的向量表示與其本身的含義越來越遠(yuǎn)。

      2) 球體放大效果略比徑向放大變化明顯,但均變化有劇烈改變,否則失去通過放大或縮小尋找等價(jià)類的意義。

      3) 無論是徑向放大還是球體放大,本質(zhì)是在原來的語義范圍內(nèi)形成了一個(gè)近鄰域。

      5 結(jié)束語

      在線社會(huì)網(wǎng)絡(luò)中的信息采集、處理、分析是社會(huì)網(wǎng)絡(luò)研究領(lǐng)域的一個(gè)重要方面,語義分析、比較和數(shù)量化測(cè)量對(duì)輿情監(jiān)控、廣告推送、信息個(gè)性化定制等均具有重要意義。本文基于人工神經(jīng)網(wǎng)絡(luò)提出短文語義向量放縮算法、綜合社交節(jié)點(diǎn)自身信息和發(fā)文語義給出社交網(wǎng)絡(luò)短文語義計(jì)算算法和突發(fā)話題發(fā)現(xiàn)算法。通過定義節(jié)點(diǎn)微信息語義向量、語義外延閉包擴(kuò)展建立短句等價(jià)關(guān)系,進(jìn)而實(shí)現(xiàn)突發(fā)話題的發(fā)現(xiàn)。

      本文提出的算法也可計(jì)算微博內(nèi)容與節(jié)點(diǎn)的相關(guān)度,進(jìn)而形成與該節(jié)點(diǎn)語義距離遠(yuǎn)近的相關(guān)度排序列表,限于篇幅這一部分內(nèi)容沒有展開。因?yàn)榻徟c標(biāo)簽語義距離不同,應(yīng)該加入權(quán)重系數(shù)進(jìn)行計(jì)算。本文后續(xù)工作還包括詞向量的數(shù)值化方法相關(guān)的詞向量的語義分類,訓(xùn)練模型的數(shù)據(jù)排序方法,訓(xùn)練數(shù)據(jù)的本身分類等問題。這些問題的解決對(duì)自然語言的理解、跨語言翻譯,文本語義理解和分析均有重要意義。

      [1] WASSERMAN S, FAUST K. Social network analysis: methods and applications[M]. Cambridge, U K: Cambridge University Press, 1994.

      [2] CHEN K H, HAN P P, WU J. User clustering based social network recommendation[J]. Chinese Journal of Computers, 2013, 36(2): 349-359.

      [3] 徐嬴, 劉屹, 陰紅志, 等. 查詢性能預(yù)測(cè)方法的性能評(píng)測(cè)研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2013,(S1):70-79.XU Y, LIU Y, YIN H Z, et al. An empirical study of the performance evaluation of query performance predictors[J]. Journal of Computer Research and Development, 2013,(S1):70-79.

      [4] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

      [5] STEYVERS M, GRIFFITHS T. Latent semantic analysis: a road to meaning[M]. Laurence Erlbaum, 2007.

      [6] MILSTEIN S, CHOWDHURY A, HOCHMUTH G, et al. Twitter and the micro-messaging revolution: communication, connections, and immediacy-140 characters at a time[R]. O’Reilly Report, 2008.

      [7] WENG J S, LIM E P, JIANG J, HE Q. Twitterrank: finding topic-sensitive influential twitterers[C]//The Third ACM International Conference on Web Search and Data Mining. c2010: 261-270.

      [8] WENG J S, LIM E P, JIANG J, et al. Finding topic-sensitive influential twitterers[C]//The Third ACM International Conference on Web Search and Data mining. New York, USA, c2010:261-270.

      [9] 李勁, 張華, 吳浩雄, 等. 基于特定領(lǐng)域的中文微博熱點(diǎn)話題挖掘系統(tǒng)BTopicMiner[J].計(jì)算機(jī)應(yīng)用, 2012, 32(8):2346-2349.

      LI J, ZHANG H, WU H X, et al. BTopicminer: domain-specific topic mining system for Chinese microblog[J]. Journal of Computer Applications, 2012, 32(8):2346-2349.

      [10] LAVRENKO V, ALLAN J, DEGUZMAN E, et al. Relevance models for topic detection and tracking[C]//The Human Language Technology Conference. San Diego, USA, c2002: 104-110.

      [11] 陳友,程學(xué)旗, 楊森. 面向網(wǎng)絡(luò)論壇的突發(fā)話題發(fā)現(xiàn)[J]. 中文信息學(xué)報(bào), 2010,24(3):29-36. CHEN Y, CHENG X Q, YANG S. Outburst topic setection for Web forums[J]. Journal of Chinese Information Processing, 2010,24(3): 29-36.

      [12] JON M. Kleinberg: bursty and hierarchical structure in streams[J]. Data Mining and Knowledge Discovery, 2003, 7(4):373-397.

      [13] TOSHIMITSU T, RYOTA T, KENJI Y. Discovering emerging topics in social streams via link-anomaly detection[J]. IEEE Trans Knowl. Data Eng, 2014, 26(1): 120-130.

      [14] CARLOS J. MARTíN D, AYSE G. Real-time topic detection with bursty N-grams[C]//SNOW-DC@WWW 2014. c2014: 9-16.

      [15] GEORGIOS P, SYMEON P, YIANNIS K. Two-level message clustering for topic detection in Twitter[C]//SNOW-DC@WWW 2014. c2014:49-56.

      [16] ZHAO J J, WU W L, et al. A short-term prediction model of topic popularity on microblogs[C]//The COCOON 2013. c2013:759-769.

      [17] DUAN Y, JIANG L, et al.An empirical study on learning to rank of tweets[C]//The 23rd International Conference on Computational Linguistics. Beijing, China, c2010:295-303.

      [18] HONG Y, ZHANG Y, LIU T, et al. Topic detection and tracking review[J]. Journal of Chinese Information Processing, 2007,21(6):71-87.

      [19] YANG L, LIN Y, LIN H. Micro-blog hot events detection based on emotion distribution[J]. Journal of Chinese Information Processing, 2012, 26(1):84-83.

      [20] ZHANG J. Research on the model and platform of hotspot detection based on micro-blog[D]. Wuhan: Huazhong University of Science & Technology, 2010.

      [21] YANG G C. Research of hot topic discovery strategy on micro logging platforms[D]. Hangzhou: Zhejiang University, 2011.

      [22] SUN J M, TANG J. A survey of models and algorithms for social influence analysis[M]//Social Network Data Analytics, 2011:177-204.

      [23] 徐建民, 張猛, 吳樹芳. 基于話題的事件相似度計(jì)算[J].計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(4):1193-1197. XU J M, ZHANG M, WU S F. Event similarity calculation based on topic[J]. Computer Engineering and Design, 2014, 35(4):1193-1197.

      [24] RUMI G, KRISTINA L. Predicting influential users in online social network[C]//The Fourth Social Network Analysis. c2010.

      [25] SABIDUSSI G. The centrality index of a graph[J]. Psychometrika, 1966, 31(4):581-603.

      [26] NEWMAN M E. A measure of betweenness centrality based on random walks[J]. Social Networks, 2005, 27(1): 39-54.

      [27] DING Z Y, ZHOU B, JIA Y, et al. Topical influence analysis based on the multi-relational network in microblogs[J]. Journal of Computer Research and Development,2013,50(10):2155-2175.

      [28] JOSEPH P, TURIAN L R, et al. Word representations: a simple and general method for semi-supervised learning[C]//ACL.c2010:384-394.

      [29] YOSHUA B, REJEAN D, PASCAL V, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research (JMLR), 2003, 3:1137-1155.

      [30] MIKOLOV T, LE Q V, SUTSKEVER I. Distributed representations of sentences and documents[C]//ICML. c2014: 1188-1196.

      [31] Available online[EB/OL]. https://github.com/fxsjy/jieba.

      [32] 徐恪,張賽,陳昊, 等. 在線社會(huì)網(wǎng)絡(luò)的測(cè)量與分析[J]. 計(jì)算機(jī)學(xué)報(bào), 2014,37(1):165-188.

      XU K, ZHANG S, CHEN H, et al.Measurement and analysis of online social networks[J]. Chinese Journal of Computers, 2014,37(1): 165-188.

      Vector semantic computing method study for short sentence

      CHEN Fu1, LIN Chuang2, XUE Chao2, XU Yue-mei1, MENG Kun2, NI Yi-han1

      (1. Computer Department, Beijing Foreign Studies University, Beijing 100089, China; 2. Computer Department, Tsinghua University, Beijing 100084, China)

      A vector semantic computing method study for short sentence based on artificial neural network was proposed. And a semantic computational algorithm for social network texts as well as a discovery algorithm for emergencies was provided with reference to the information provided by the social nodes itself and the semantic of the text. Through the numerization of text, the calculation and comparison of semantic distance, the classification of nodes and the discovery of community can be realized. Then, huge quantities of Sina Weibo contents are collected to verify the model and algorithm put forward. In the end, outlooks for future jobs are provided.

      online social networks, theme semantic computing, artificial neural nets, burst topics discovering

      TP393

      A

      10.11959/j.issn.1000-436x.2016018

      2015-05-13;

      2015-09-30

      國家自然科學(xué)基金資助項(xiàng)目(No.61170209, No. 61173008, No. 61502038, No.61370132);教育部新世紀(jì)優(yōu)秀人才支持計(jì)劃基金資助項(xiàng)目(No.NCET-13-0676);2011重點(diǎn)課題基金資助項(xiàng)目(No.BFSU2011-ZS04)

      The National Natural Science Foundation of China(No.61170209,No. 61173008,No. 61502038, No.61370132), The Ministry of Education Program of New Century Excellent Talents(No.NCET-13-0676), 2011 Key Project (No.BFSU2011-ZS04)

      陳福(1973-),男,遼寧朝陽人,北京外國語大學(xué)副教授,主要研究方向?yàn)橄乱淮ヂ?lián)網(wǎng)及其管理、跨語言網(wǎng)絡(luò)空間信息采集與分析、進(jìn)程代數(shù)。

      林闖(1948-),男,遼寧沈陽人,清華大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)網(wǎng)絡(luò)、系統(tǒng)性能評(píng)價(jià)、安全分析和隨機(jī)Petri網(wǎng)。

      薛超(1988-),男,陜西渭南人,清華大學(xué)博士生,主要研究方向?yàn)榫W(wǎng)絡(luò)體系結(jié)構(gòu)的性能評(píng)價(jià)與優(yōu)化、云計(jì)算虛擬資源調(diào)度等。

      徐月梅(1985-),女,廣西梧州人,博士,北京外國語大學(xué)講師,主要研究方向?yàn)閿?shù)據(jù)中心網(wǎng)等。

      孟坤(1980-),男,河南洛陽人,清華大學(xué)助理研究員,主要研究方向?yàn)樾阅茉u(píng)價(jià)和隨機(jī)模型。

      倪藝函(1994-),女,江蘇連云港人,北京外國語大學(xué)博士生,主要研究方向?yàn)檫M(jìn)程代數(shù)。

      建宁县| 石渠县| 曲沃县| 鹤壁市| 六安市| 清新县| 溧阳市| 铜梁县| 千阳县| 麦盖提县| 尉氏县| 本溪| 新竹县| 鄂温| 贵南县| 东辽县| 田林县| 顺平县| 武义县| 浑源县| 建阳市| 依兰县| 深泽县| 鸡泽县| 鹤岗市| 邯郸市| 元朗区| 敦煌市| 大邑县| 嵊州市| 叶城县| 井研县| 瑞昌市| 贺兰县| 南乐县| 中牟县| 庆元县| 剑河县| 曲沃县| 义乌市| 茌平县|