• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于分詞的關(guān)聯(lián)規(guī)則預(yù)測系統(tǒng)研究

      2018-12-13 09:17:12王志超孫建斌秦瑞麗
      計算機應(yīng)用與軟件 2018年12期
      關(guān)鍵詞:項集新聞標(biāo)題分詞

      王志超 孫建斌 秦瑞麗

      (航天長征化學(xué)工程股份有限公司 北京 101111)

      0 引 言

      由于媒體的豐富和網(wǎng)絡(luò)的快速傳播,新聞已經(jīng)成為大數(shù)據(jù)的一個重要組成部分。新聞包括傳統(tǒng)報刊雜志新聞,如《人民日報》《化工報》等;也包括各門戶網(wǎng)站和新聞網(wǎng)站的實時新聞,如新浪、百度等。在我國,最重要的新聞報道往往聚焦于政府政策動向的跟蹤和及時傳播,時效性影響重大。然而,重大政策的形成往往有一個過程,包括初期的調(diào)研論證、理論研究、政策試探、輿論反應(yīng)、試點安排、政策修訂、正式頒布實施等階段,每一個階段都有大量新聞的跟蹤和報道。對該類新聞進(jìn)行深度挖掘和學(xué)習(xí),利用關(guān)聯(lián)規(guī)則研究其頻繁項集,可以根據(jù)產(chǎn)生的頻繁項集得到一段時間內(nèi)關(guān)注任務(wù)的關(guān)聯(lián)因子的變化,由此可以提前預(yù)測相關(guān)政策和動向的變化。

      利用新聞進(jìn)行預(yù)測,是國內(nèi)外學(xué)者對輿情監(jiān)控的研究熱點之一。唐曉波等[1]提出在互聯(lián)網(wǎng)新聞文本信息挖掘中,融合新聞熱度和讀者態(tài)度建立高頻情感詞典,在新聞文本預(yù)測分析中對預(yù)測結(jié)果利用情感頻度加權(quán)排序,可以獲取更好的準(zhǔn)確性。然而該方法在新聞推薦等領(lǐng)域可用,在缺乏“情感頻度”或不宜收集“情感頻度”方面效果不明顯。龐有明等[2]在研究信用債估值時引入新聞輿情語料,并重點關(guān)注輿情的情緒變化,然而該方法對于實際的應(yīng)用效果不太明顯。Patel等[3]在股票市場走向預(yù)測分析中,引入新聞輿情監(jiān)控,并利用分類、還原和統(tǒng)計技術(shù)進(jìn)行研究,用于指導(dǎo)投資。Xu等[4]利用極端機器學(xué)習(xí)和灰度Verhulst模型理論在熱點新聞點擊率預(yù)測上應(yīng)用有一定效果。然而,對于新聞的理解,分詞技術(shù)的應(yīng)用是基礎(chǔ)。張洪剛等[5]在分詞方法中利用雙向長短時記憶模型,但該方法較為復(fù)雜。李雪蓮等[6]提出基于門循環(huán)單元神經(jīng)網(wǎng)絡(luò)的中文分詞法,試圖解決長短時記憶模型的復(fù)雜性。

      本文提出利用基于隱層馬爾可夫模型的中文分詞方法[7,9]并以報紙及刊物新聞作為數(shù)據(jù)源,通過對新聞數(shù)據(jù)預(yù)處理及關(guān)聯(lián)規(guī)則挖掘[10-11],進(jìn)行行業(yè)政策和發(fā)展方向預(yù)測研究,并以“煤化工”行業(yè)為例。首先,選取新聞標(biāo)題作為本文預(yù)測任務(wù)的原始數(shù)據(jù)集,對新聞標(biāo)題進(jìn)行分詞;其次,將分詞所得的每組新聞標(biāo)題詞集進(jìn)行語義統(tǒng)一,作為關(guān)聯(lián)規(guī)則研究的項集;最后,利用Apriori算法對事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到以“煤化工”等為關(guān)鍵字滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則,并以此作為煤化工政策和發(fā)展方向的預(yù)測依據(jù)。實驗證明,基于新聞分詞的關(guān)聯(lián)規(guī)則挖掘?qū)φ吆头较蝾A(yù)測具有很好的作用。

      1 新聞標(biāo)題分詞技術(shù)研究

      分詞是指將完整的一句話根據(jù)其語義分剪成一個詞語項集,該詞語項集作為參與關(guān)聯(lián)規(guī)則挖掘的基本單元[5-6]。語義分詞分兩步:

      (1) 基本分詞 對新聞標(biāo)題做初始分詞,如2014年8月22日《中國化工報》行業(yè)時評刊文標(biāo)題《傳統(tǒng)煤化工要有“世界級”理想》,進(jìn)行初步分詞后其結(jié)果為:

      “傳統(tǒng) /j 煤化工 /n 要 /v 有 /v “ /w 世界級 /b ” /w 理想 /n”。

      其中,各詞后面所標(biāo)注“/”為詞性,根據(jù)英文文法詞性標(biāo)注。

      (2) 詞語修剪及語義統(tǒng)一 將基本分詞所得詞集中無實意的虛詞及一字動詞等剪掉,只保留部分實詞,包括動詞、名詞、量詞、代詞等,無意義詞通過詞性標(biāo)注即可識別,如標(biāo)注為“/w”即為標(biāo)點符號,而一字動詞則通過詞性和詞長識別。詞語實化即對初始分詞集合進(jìn)行語義統(tǒng)一,如代詞(詞性為“/p”)變?yōu)閷嵲~、比喻中的喻意詞(詞性為“/m”)變?yōu)楸疽庠~等,該例中詞語修剪后的詞集不存在代詞等,所以保留修剪后詞集結(jié)果不變。該步結(jié)果為:

      “傳統(tǒng) /j 煤化工 /n 世界級 /b 理想 /n”。

      語義統(tǒng)一是將代詞實化、喻詞本意化,同時也是建立關(guān)聯(lián)規(guī)則類的一個關(guān)鍵步驟。

      1.1 基于ICTCLS的基本分詞

      ICTCLS是中科院計算所研發(fā)的漢語分詞系統(tǒng),采用了層疊隱馬爾可夫模型以完整統(tǒng)一理論框架進(jìn)行分詞。本文以此為基礎(chǔ)做新聞標(biāo)題的初始分詞。

      定義1(分詞句集) 設(shè)S={s1,s2,…,si,…,sn},其中,si為第i個原始句串,1

      對分詞句集S中第k個原始句串sk進(jìn)行基于層疊隱馬爾可夫模型的ICTCLS分詞,sk∈S。首先對sk進(jìn)行原子切分,即將原始句串標(biāo)記開始結(jié)束,并將各字單獨為詞;其次對原子切分序列進(jìn)行N-最短路徑粗切分,找到相鄰單字組詞后序列聯(lián)合概率最優(yōu)N結(jié)果;對最優(yōu)N結(jié)果進(jìn)行人名地名識別;最后對識別后的N結(jié)果優(yōu)化并標(biāo)注類及詞性,輸入分詞結(jié)果,表示為Mk,Mk={mk1,mk2,…,mkj},其中mkh(h=1,2,…,j)為原始句串sk分詞結(jié)果集中的第h個詞語。Mk作為中間項集進(jìn)行分詞修剪及實化,而分詞句集產(chǎn)生的每一個Mk組成了預(yù)事務(wù)集。

      定義2(預(yù)事務(wù)集) 設(shè)M={M1,M2,…,Mn},其中Mk(k=1,2,…,n)為分詞句集第k個句子的分詞結(jié)果集,Mk={mk1,mk2,…,mkj},其中mkh(h=1,2,…,j)為分詞結(jié)果集中的第h個詞語。M作為ICTCLS分詞結(jié)果的預(yù)事務(wù)集,進(jìn)行下一步的詞語修剪及語義統(tǒng)一。

      1.2 分詞修剪及語義統(tǒng)一

      ICTCLS算法分詞后,得到預(yù)事務(wù)集M作為本節(jié)進(jìn)行分詞修剪和語義統(tǒng)一的對象。由于原始新聞標(biāo)題分詞后存在無實意詞,如虛詞“的、地”,單字動詞“有、做”等。分詞修剪及語義統(tǒng)一的目的即為生成適宜關(guān)聯(lián)規(guī)則算法處理的數(shù)據(jù)集,將無實意詞去掉后的數(shù)據(jù)集大小少于處理前,使得算法處理的干擾減小且計算速度更快,而語義統(tǒng)一即是將預(yù)事務(wù)集標(biāo)準(zhǔn)化,得到更為準(zhǔn)確的事務(wù)集,也使得關(guān)聯(lián)規(guī)則計算更加精確。

      定義3(項集) 定義2所得Mk經(jīng)分詞修剪和語義統(tǒng)一后的詞語集合即為項集,用Ik表示。Ik={ik1,ik2,…,ikj},其中ikh(h=1,2,…,j)為二步分詞所得詞語,是參與關(guān)聯(lián)規(guī)則的元數(shù)據(jù)。

      定義4(事務(wù)集) 設(shè)D={I1,I2,…,In},其中Ik(k=1,2,…,n)為項集,則D為參與關(guān)聯(lián)規(guī)則挖掘的事務(wù)集。

      具有修剪及語義統(tǒng)一分詞算法ICTCLS_TRIM算法描述如下:

      BEGIN

      INPUTS

      //S為分詞句集

      FORk=1 ton

      Mk=ICTCLS(Sk)

      //對每一項句集應(yīng)用ICTCLS做初始分詞

      Ik=Reduce&Unify(Mk)

      //對預(yù)處理項集進(jìn)行分詞修剪及語義統(tǒng)一

      ENDFOR

      Split(D, Array(Keywords))

      //關(guān)鍵字修剪,將非目標(biāo)項集過濾掉

      OUTPUTD

      //D為任務(wù)相關(guān)事務(wù)集

      END

      由于本文針對特定行業(yè)特定方向的新聞分詞關(guān)聯(lián)規(guī)則挖掘,所以在上述算法中,利用Split(D, Array(Keywords))將非含關(guān)鍵字和關(guān)鍵義的項集修剪掉,使得關(guān)聯(lián)規(guī)則挖掘數(shù)據(jù)集更加精確,事務(wù)集D作為關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)錄入。

      2 分詞關(guān)聯(lián)規(guī)則Apriori_關(guān)聯(lián)規(guī)則算法

      本文采用改進(jìn)的Apriori算法對形成的事務(wù)集進(jìn)行關(guān)聯(lián)規(guī)則分析,Apriori算法是由Rakesh Agrawal和Ramakrishnan Srikant兩位博士在1994年提出的關(guān)聯(lián)規(guī)則挖掘算法[12]。該算法主要用于對頻繁項集的遞歸挖掘,在所有滿足最小支持度的頻集中,發(fā)現(xiàn)滿足最小可信度的強關(guān)聯(lián)規(guī)則。

      定義5(支持度) 即某項集X在事務(wù)集D中出現(xiàn)的概率,用Supp(X)表示,如下所示:

      Supp(X)=Occor(X)/Count(D)

      最小支持度即為滿足最小Supp(X)的項集,當(dāng)給定最小支持度Supp(CONST)時,如果存在Supp(X) >Supp(CONST),則稱X為頻繁項集。

      定義6(置信度) 即在頻繁項集X出現(xiàn)的條件下,頻繁項集Y也出現(xiàn)的條件概率,表示為Conf(X→Y)=Supp(X∪Y)/Supp(X)。

      新聞分詞關(guān)聯(lián)規(guī)則算法,基于分詞的關(guān)聯(lián)規(guī)則算法Apriori_Split描述如下:

      BEGIN

      INPUTS

      //S為原始新聞標(biāo)題

      D=ICTCLS_TRIM(S)

      //通過具有語義修剪的ICTCLS進(jìn)行分詞

      L1=Large_Supp(D,Supp_THRESHOLD)

      //選取滿足最小支持度的1_項集

      FORk=2 ton

      Ck=apriori-gen(Lk-1)

      FORdi∈Ddo

      Ci=subset(Ck,di);

      //事務(wù)di中包含的候選集

      forCi∈Ctdo

      Ci.count++

      ENDFOR

      Lk={Ci∈Ck|Ci.count3minsup}

      ENDFOR

      算法Apriori_Split中,首先利用具有語義修剪的新聞分詞算法ICTCLS_TRIM將原始新聞集變成適于關(guān)聯(lián)規(guī)則的事務(wù)集。通過計算支持度和置信度產(chǎn)生頻繁1-項集L1,對各1-項集進(jìn)行關(guān)聯(lián)規(guī)則的計算。在第k次循環(huán)中,過程先產(chǎn)生候選k-項集的集合Ck,Ck中的每一個項集是對兩個只有一個項不同的屬于Lk-1的頻集做一個(k-2)-連接來產(chǎn)生的。Ck中的項集是用來產(chǎn)生頻集的候選集,最后得到頻集Lk,而Lk也必然存在Lk∈Ck。算法經(jīng)過兩次循環(huán),其算法復(fù)雜度為O(n2)。

      3 實 驗

      本文基于新聞分詞的關(guān)聯(lián)規(guī)則,實驗數(shù)據(jù)集選取2014年7月31日至2014年9月3日期間,包括《中國化工報》、《山西日報》、《中國煤炭報》、《山西經(jīng)濟日報》、《昌吉日報》、《中國國土資源報》等在內(nèi)的眾多報刊中標(biāo)題、摘要、正文中存在“煤化工”關(guān)鍵字的前100項新聞標(biāo)題為本次實驗數(shù)據(jù)集。

      本實驗中,為提高計算速度,為多關(guān)鍵字進(jìn)行編號并處理,如本文實驗數(shù)據(jù)集:

      {煤,煤化工,煤科,煤層氣,粉煤,…},即編號為{1,2,3,4,…},則試驗中ID為1的關(guān)鍵詞即為“煤”,而如果某一新聞分詞組中出現(xiàn)“煤”的次數(shù)為2則數(shù)據(jù)標(biāo)記即為{1 2},該表示方式{IDTimes},ID為數(shù)據(jù)集編號,Times即為出現(xiàn)次數(shù),如此將實驗數(shù)據(jù)集進(jìn)行處理。

      發(fā)展方向類={甲醇,煤制氣,煤氣化,煤油氣,熱變換,煤電,聚丙烯,…}

      關(guān)聯(lián)規(guī)則的類的設(shè)定屬于半監(jiān)督,該處基于專家知識形成,即分類越科學(xué),規(guī)則生成越準(zhǔn)確。由此,根據(jù)本文所定規(guī)則及數(shù)據(jù)集進(jìn)行試驗,前五個規(guī)則結(jié)果如表1所示。

      表1 預(yù)測實驗結(jié)果表前五項結(jié)果

      結(jié)果分析:本文試驗中以置信率大于0.5進(jìn)行結(jié)果的篩選,并展示了前五項試驗結(jié)果。其中置信率最高的為(煤,清潔高效),這也反映了當(dāng)前環(huán)保的趨勢,(煤化工,煤氣化、煤制油)反映了煤化工產(chǎn)業(yè)的工藝方向,而(媒,烯烴)則反映的是當(dāng)前中國煤化工的產(chǎn)品結(jié)果,(粉煤,航天爐)則是粉煤應(yīng)用較多的技術(shù)標(biāo)準(zhǔn)。實驗表明,本文方法給出的預(yù)測方向同當(dāng)前的方向是匹配的,極大地提高了預(yù)測的準(zhǔn)確性。

      4 結(jié) 語

      本文提出基于分詞的關(guān)聯(lián)規(guī)則預(yù)測方法,首先對待預(yù)測方向近期新聞標(biāo)題進(jìn)行層疊隱馬爾可夫模型的初步分詞,對得到的詞集進(jìn)行虛詞修剪及喻詞實化等語義統(tǒng)一,該步驟得到的事務(wù)集通過分詞修剪和語義實化后更加精確,降低了無義詞的干擾。最后通過本文提出的基于分詞的關(guān)聯(lián)規(guī)則算法Apriori_Split對事務(wù)集進(jìn)行計算,得到預(yù)測方向的規(guī)則,并以此為依據(jù)形成對未來發(fā)展的預(yù)測。該方法由于對參與關(guān)聯(lián)規(guī)則的事務(wù)集的精確處理,有效提升了關(guān)聯(lián)規(guī)則預(yù)測的準(zhǔn)確性。

      猜你喜歡
      項集新聞標(biāo)題分詞
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      談新聞標(biāo)題的現(xiàn)實性
      活力(2019年22期)2019-03-16 12:49:06
      網(wǎng)絡(luò)新聞標(biāo)題與報紙新聞標(biāo)題的對比
      活力(2019年22期)2019-03-16 12:48:00
      值得重視的分詞的特殊用法
      無意間擊中幽默的新聞標(biāo)題
      喜劇世界(2016年9期)2016-08-24 06:17:26
      淺談新聞標(biāo)題的裝扮技巧
      新聞傳播(2015年22期)2015-07-18 11:04:06
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項集的快速挖掘算法
      計算機工程(2014年6期)2014-02-28 01:26:12
      高考分詞作狀語考點歸納與疑難解析
      論英語不定式和-ing分詞的語義傳承
      如东县| 肇东市| 鄂伦春自治旗| 苏尼特右旗| 贵德县| 土默特左旗| 开阳县| 崇文区| 洛浦县| 和田市| 绥德县| 临猗县| 双鸭山市| 麟游县| 信阳市| 安图县| 海口市| 麦盖提县| 泗阳县| 竹北市| 台湾省| 尼玛县| 泉州市| 衡东县| 淮北市| 长子县| 靖远县| 宜城市| 襄樊市| 旺苍县| 大荔县| 泰和县| 云霄县| 武安市| 科尔| 南昌县| 陇川县| 遵义市| 潞西市| 修文县| 焉耆|