• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進(jìn)位置成詞概率的微博新詞發(fā)現(xiàn)算法

      2019-03-14 12:42鄒志文朱紅澤李玲張大秀
      電腦知識(shí)與技術(shù) 2019年1期

      鄒志文 朱紅澤 李玲 張大秀

      摘要:針對(duì)傳統(tǒng)的新詞的提取方法無(wú)法有效地提取組合詞(常用詞和常用詞組合)的問(wèn)題,該文提出基于改進(jìn)位置成詞概率和N元遞增算法的微博新詞的提取。算法的核心任務(wù)是通過(guò)改進(jìn)位置成詞概率和鄰接對(duì)結(jié)合來(lái)有效地提取由幾個(gè)毫無(wú)相關(guān)的常用詞拼接而成的新詞,即組合詞,從而提高算法的準(zhǔn)確率和召回率。首先,對(duì)由幾個(gè)微博話題下的一段時(shí)間內(nèi)評(píng)論所聚合成的微博長(zhǎng)文本進(jìn)行預(yù)處理;然后,在N元遞增算法查詢的過(guò)程中,通過(guò)改進(jìn)位置成詞概率判斷頻繁字串的擴(kuò)展方向;最后,通過(guò)對(duì)頻繁字串剪枝來(lái)減少冗余字串。實(shí)驗(yàn)結(jié)果證明本文所提出的算法能夠有效地提取微博新詞中的組合詞。

      關(guān)鍵詞:微博新詞;位置成詞概率;N元遞增算法;組合詞;

      中圖分類號(hào):TP3? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2019)01-0001-02

      1 引言

      在微博平臺(tái)上,不同文化的碰撞導(dǎo)致了新詞的產(chǎn)生。這些新詞借助微博平臺(tái)快速的傳播,被人們迅速熟知并加以應(yīng)用,也會(huì)因此引發(fā)熱議。在微博平臺(tái)上,新詞大部分是通過(guò)拼接幾個(gè)毫無(wú)相關(guān)的常用詞,以用來(lái)表達(dá)新的含義。

      因此如何快速地提取組合詞是微博新詞的提取的一個(gè)研究熱點(diǎn)。然而,由于微博文本與傳統(tǒng)的文本有著很多不同,比如其具有文本短小、信息片段化、語(yǔ)言隨意性等方面,所以傳統(tǒng)的新詞的提取方法可移植性差以及缺乏對(duì)組合詞(常用詞和常用詞組合) 識(shí)別。

      針對(duì)上述問(wèn)題,本文提出基于改進(jìn)位置成詞概率和N元遞增算法的微博新詞的提取。首先,對(duì)微博文本進(jìn)行預(yù)處理,去除和本文研究無(wú)關(guān)的內(nèi)容,如停用詞、鏈接、表情等。然后,在N元遞增算法查詢的過(guò)程中,通過(guò)對(duì)已找到的頻繁N字串右鄰接集合中的元素通過(guò)改進(jìn)位置成詞概率判斷擴(kuò)展方向。若大于預(yù)設(shè)的閾值,將其元素和頻繁[N]字串組合成頻繁[N+1]字串。最后,對(duì)頻繁字串集進(jìn)行剪枝。若集合中的元素的子集也存在于集合中,在集合中刪除其元素的子集。

      本文的組織如下:第2節(jié)介紹基于改進(jìn)位置成詞概率的微博新詞發(fā)現(xiàn)算法的相關(guān)工作;第3節(jié)提出基于改進(jìn)位置成詞概率的微博新詞發(fā)現(xiàn)算法;第4節(jié)對(duì)本文算法進(jìn)行實(shí)驗(yàn);第5節(jié)對(duì)本文進(jìn)行總結(jié)。

      2 相關(guān)工作

      對(duì)于本文的微博新詞的提取工作,國(guó)內(nèi)外已有多數(shù)學(xué)者在此方面有過(guò)深入研究。梅莉莉[1]基于統(tǒng)計(jì)語(yǔ)言知識(shí)(包括詞頻、內(nèi)部結(jié)合緊密性)對(duì)新詞進(jìn)行抽取。雷一鳴等[2]提出一種基于詞語(yǔ)互信息模型和外部統(tǒng)計(jì)量的新詞發(fā)現(xiàn)方法。夭榮朋等[3]提出了基于改進(jìn)互信息(MI) 和鄰接熵(BE) 的微博新詞發(fā)現(xiàn)算法(MBN-Gram),解決了目前微博新詞發(fā)現(xiàn)算法中缺乏對(duì)多字詞(大于三字) 識(shí)別的問(wèn)題。Shuai Zhang等人[4]提出了一種基于語(yǔ)法規(guī)則和統(tǒng)計(jì)信息新的詞提取方法。為解決經(jīng)典的統(tǒng)計(jì)量無(wú)法有效地區(qū)分新詞與非新詞的問(wèn)題,SuQilong等[5]提出基于鄰接熵改進(jìn)的一種新統(tǒng)計(jì)量-加權(quán)鄰接熵。

      3 本文算法

      3.1 微博文本預(yù)處理

      由于單個(gè)微博文本短小、信息碎片化,所以各個(gè)詞語(yǔ)統(tǒng)計(jì)量相近,從而無(wú)法有效地提取新詞。為了避免這一問(wèn)題,本文將單個(gè)主題下的一段時(shí)間內(nèi)的微博文本拼接成微博長(zhǎng)文本。然后刪除微博長(zhǎng)文本中與本文研究沒(méi)有實(shí)質(zhì)性影響的內(nèi)容:1)刪除微博長(zhǎng)文本中含有“@用戶名”字段。2)刪除符號(hào)“#主題#”。該符號(hào)中的字段是用戶的話題討論點(diǎn)。3)對(duì)微博文本中的繁體字轉(zhuǎn)換為簡(jiǎn)體字。4)停用詞無(wú)法成為新詞,故刪除即可。

      3.2 N元遞增算法

      N元遞增算的基本算法思路:首先對(duì)文本進(jìn)行掃描,統(tǒng)計(jì)單字字頻。若大于閾值,將其字存放到頻繁單字集。然后根據(jù)每個(gè)頻繁單字的地址信息掃描語(yǔ)料并統(tǒng)計(jì)字頻,若大于閾值,將其字存放到頻繁二字集。最后,新產(chǎn)生的頻繁字串寫(xiě)入文件后繼續(xù)擴(kuò)展,反復(fù)迭代,直到出現(xiàn)間隔符號(hào)或長(zhǎng)度達(dá)到閾值。

      由于N元遞增算法僅僅通過(guò)字頻獲取頻繁字串,所以需要對(duì)頻繁字串進(jìn)行統(tǒng)計(jì)量分析,以達(dá)到去除垃圾串(沒(méi)用完整意義的字串)的目的。然而由N元遞增算法所發(fā)現(xiàn)的頻繁字串中垃圾串占絕大部分,這造成了搜索時(shí)間的極大浪費(fèi)。為了解決這一問(wèn)題,在N元遞增算法擴(kuò)展時(shí)通過(guò)統(tǒng)計(jì)量判斷并對(duì)擴(kuò)展集進(jìn)行過(guò)濾。在搜索過(guò)程中刪除垃圾串使得下一輪搜索規(guī)模變小,從而減少搜索時(shí)間。

      3.3 改進(jìn)位置成詞概率

      然而傳統(tǒng)的統(tǒng)計(jì)量如“鄰接熵”“雙字耦合度”“位置成詞概率”等無(wú)法很好地過(guò)濾垃圾串。若單憑借位置成詞概率擴(kuò)展字串并且過(guò)濾垃圾串,新詞中組合詞會(huì)被劃分成兩個(gè)常用詞。為了解決上述問(wèn)題,對(duì)位置成詞概率和鄰接熵進(jìn)行改進(jìn)。

      定義1:鄰接字概率

      記頻繁字串的右鄰接集合[wordright=r1,r2,…rrightm]的統(tǒng)計(jì)字頻為[fi,i=1,2,3…m],因此鄰接字概率公式為:

      [Pi=fifw]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)

      式(1)中的[fw]是頻繁字串的字頻。當(dāng)右鄰接集合中某個(gè)元素占有很大比例時(shí),即鄰接字概率很大,這表明此元素極有可能和頻繁N字串組合成為頻繁[N+1]字串。

      定義2:字?jǐn)U展概率

      為了上文提到的問(wèn)題發(fā)生,對(duì)其劃分根據(jù)增加依據(jù)鄰接字概率,因此字?jǐn)U展概率的公式為:

      [Pcmcn=α×Pn+(1-α)Pwordcn,1] ? ? ? (2)

      公式(2)[ Pcmcn]是頻繁字串[cm]擴(kuò)展到頻繁字串[cmcn]的概率,[cn]是頻繁字串[cm]的右鄰接集合的元素。[0≤α≤1]為偏好參數(shù),用來(lái)調(diào)節(jié)字?jǐn)U展概率中字?jǐn)U展概率和單字位置成詞概率的權(quán)重。

      3.4 擴(kuò)展集剪枝

      對(duì)新詞“微信小程序”而言,“微信小程”“小程序”等均為垃圾串。在N元遞增算法過(guò)程中,每次擴(kuò)展詞都放在擴(kuò)展集,所以這類冗余字串在擴(kuò)展集中很常見(jiàn)。針對(duì)這類垃圾串,文本通過(guò)刪除子集對(duì)擴(kuò)展集進(jìn)行剪枝。如“abc”是新詞,則“ab”“bc”是冗余字串,即新詞“abc”的子集。具體擴(kuò)展集剪枝的過(guò)程如下:

      在第一次擴(kuò)展后,擴(kuò)展集為[a b c ab bc],對(duì)擴(kuò)展集進(jìn)行子集剪枝,擴(kuò)展集為[ab bc]。同理,在第二次擴(kuò)展后,擴(kuò)展集為[ab bc abc],對(duì)擴(kuò)展集進(jìn)行子集剪枝,擴(kuò)展集為[abc]。

      3.5 算法流程

      首先對(duì)單個(gè)話題下微博文本整合成微博長(zhǎng)文本,對(duì)微博長(zhǎng)文本預(yù)處理,去除停用詞等。然后對(duì)微博文本掃描并統(tǒng)計(jì)其字頻,查詢出頻繁字串,根據(jù)字?jǐn)U展概率判斷出頻繁字串?dāng)U展方向。最后在每次擴(kuò)展之后對(duì)擴(kuò)展集剪枝,以達(dá)到刪除冗余字串的目的。如此反復(fù)擴(kuò)展迭代,直到無(wú)法繼續(xù)擴(kuò)展或長(zhǎng)度達(dá)到閾值。所以基于改進(jìn)位置成詞概率的微博新詞發(fā)現(xiàn)算法如下:

      在上述算法中主要判斷微博新詞候選集中的頻繁字串的擴(kuò)展方向和進(jìn)行子集剪枝。具體說(shuō)明如下:

      1) 步驟2到步驟4:判斷單字是否是頻繁模式,即判斷單字字頻是否大于預(yù)設(shè)的閾值,如果是,就將頻繁單字存取下來(lái)。

      2) 步驟6到步驟12:判斷頻繁字串的擴(kuò)展方向,即右鄰接集合中每個(gè)元素的字?jǐn)U展概率是否大于預(yù)設(shè)的閾值。若是,頻繁字串構(gòu)和其元素成新的頻繁字串;反之,將該元素從右鄰接集合刪除。

      3) 步驟14到步驟16:對(duì)微博新詞候選集進(jìn)行子集剪枝。當(dāng)候選集的每個(gè)詞的字?jǐn)?shù)大于5或者每個(gè)詞的右鄰接集合為空時(shí),即每個(gè)詞無(wú)法擴(kuò)展,則停止擴(kuò)展迭代。

      算法的時(shí)間復(fù)雜度分析:

      首先對(duì)微博長(zhǎng)文本進(jìn)行掃描,判斷每個(gè)單字字頻,此時(shí)時(shí)間復(fù)雜度為[On]。對(duì)每個(gè)字串分析每個(gè)右鄰接集合中的每個(gè)元素,所以該算法的時(shí)間復(fù)雜度為[On2]。

      4 實(shí)驗(yàn)分析

      為了驗(yàn)證文本的提取微博新詞的效果,本文從新浪微博上獲取了關(guān)于某兩個(gè)話題相關(guān)聯(lián)的所有微博,將所有的微博文本拼接成長(zhǎng)文本。應(yīng)用本文算法對(duì)微博文本進(jìn)行新詞提取。實(shí)驗(yàn)結(jié)果如下表所示:

      對(duì)于每個(gè)主題而言,提取的新詞更多的是組合詞,如“洪荒之力”“葛優(yōu)躺”等。

      5 總結(jié)

      實(shí)驗(yàn)結(jié)果表明,基于改進(jìn)位置成詞概率的微博新詞發(fā)現(xiàn)算法能夠快速、準(zhǔn)確地提取微博新詞中的組合詞,從而彌補(bǔ)傳統(tǒng)的新詞發(fā)現(xiàn)算法缺乏對(duì)組合詞識(shí)別的空缺。

      參考文獻(xiàn):

      [1] 梅莉莉.基于領(lǐng)域特殊性和統(tǒng)計(jì)語(yǔ)言知識(shí)的新詞抽取方法[D]. 北京理工大學(xué),2006, 1.

      [2] 雷一鳴, 劉勇,霍華. 面向網(wǎng)絡(luò)語(yǔ)言基于微博語(yǔ)料的新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2017(03):789-794.

      [3] 夭榮朋,許國(guó)艷,宋健. 基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)應(yīng)用,2016,36(10):2772-2776.

      [4] Shuai Zhang, Qianren Liu, Lei Wang. A Weibo-Oriented Method for Unknown Word Extraction[C]. 2012 Eighth International Conference on Semantics, Knowledge and Grids, 2012:209-212.

      [5] Qilong Su, Bingquan Liu. Chinese new word extraction from MicroBlog data[C]. Machine Learning and Cybernetics (ICMLC), 2013 International Conference on,2013(04):1874-1879.

      [6] Shunxiang Zhang, Yin Wang, Shiyao Zhang, and Guangli Zhu. Building Associated Semantic Representation Model for the Ultra-short Microblog Text Jumping in Big Data. Cluster Computing-The Journal of Networks Software Tools And Applications,2016,19(3):1399-1410.

      清原| 徐汇区| 斗六市| 建昌县| 库尔勒市| 广饶县| 新乡市| 渝中区| 崇明县| 黑山县| 涿鹿县| 安宁市| 色达县| 沾益县| 永川市| 金坛市| 思南县| 西和县| 五原县| 醴陵市| 西华县| 莱阳市| 西丰县| 尼勒克县| 安乡县| 丽江市| 化州市| 中超| 循化| 赞皇县| 黔西县| 阿城市| 浠水县| 河北省| 中西区| 乐业县| 海安县| 曲松县| 博乐市| 河东区| 遵义市|