• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設計*

      2017-07-31 19:22:46安見才讓拉毛措孫琦龍
      微處理機 2017年2期
      關鍵詞:藏文網(wǎng)頁輿情

      安見才讓,拉毛措,孫琦龍

      (1.青海民族大學計算機學院,西寧810007;2.西藏大學藏文信息技術研究中心,拉薩850000)

      互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設計*

      安見才讓1,拉毛措2,孫琦龍1

      (1.青海民族大學計算機學院,西寧810007;2.西藏大學藏文信息技術研究中心,拉薩850000)

      信息傳播技術的快速發(fā)展推動了藏文信息的迅速傳播,輿情分析越來越受到人們的關注。介紹了研究互聯(lián)網(wǎng)藏文信息輿情分析的必要性、重點及難點,詳細介紹了藏文輿情分析的關鍵技術,最后,說明了藏文輿情分析系統(tǒng)的設計和實現(xiàn)框架。

      藏文信息;輿情分析;文本分類;藏文情感傾向性;數(shù)據(jù)挖掘;主題識別

      1 引言

      隨著互聯(lián)網(wǎng)的迅速發(fā)展和普及,互聯(lián)網(wǎng)為依托的藏文信息也已深入人們的日常生活?;ヂ?lián)網(wǎng)上言論自由達到新高度,互聯(lián)網(wǎng)輿情通過微博、博客、新聞跟貼、轉貼、QQ、微信等形式對現(xiàn)實生活中某些熱點、焦點問題等進行反應,不論是對國家政策、國內(nèi)或國際重大事件,還是對企業(yè)產(chǎn)品或某些個人都能馬上形成網(wǎng)上輿論。這種用互聯(lián)網(wǎng)來表達觀點、傳播思想產(chǎn)生輿論壓力,達到任何部門、機構都無法忽視的地步。在大數(shù)據(jù)環(huán)境背景下,互聯(lián)網(wǎng)輿情信息的挖掘較以往的其他媒體更加困難,且更加難以規(guī)范。如何識別民眾所關注的熱點話題并有效地分類,如何判斷民眾對社會事件的態(tài)度是正向還是反向,如何分析和把握社會熱點事件的波動性等,是網(wǎng)絡輿情研究中亟待解決的重點問題[1],對認識和引導網(wǎng)絡輿情具有重要的科學意義。

      2 系統(tǒng)關鍵技術研究

      2.1 互聯(lián)網(wǎng)輿情藏文信息采集

      采集網(wǎng)絡輿情藏文信息的方法是通過各種不同功能的采集器,即網(wǎng)絡爬蟲(Crawler)自動在互聯(lián)網(wǎng)上爬取網(wǎng)頁。根據(jù)信息采集器的采集方式,可以把采集器分為兩種類型:增量式數(shù)據(jù)采集和基于主題的網(wǎng)絡數(shù)據(jù)采集[2]?;谥黝}的Web信息采集方式則根據(jù)用戶首先定制的某類主題內(nèi)容,有選擇地爬取,自動識別并將與主題相關的有藏文信息的鏈接放入待爬取的URL隊列,過濾與主題無關的鏈接。基于主題的Web藏文信息采集由聚焦爬蟲實現(xiàn),需要完成以下任務:識別藏文web網(wǎng)頁;定義主題;決定待爬行的URL次序;判斷頁面與主題相關度;提高爬蟲的覆蓋。

      主題識別判斷模塊的作用是對所下載的網(wǎng)頁首先進行頁面解析,然后進行主題相關性判斷,包括當前網(wǎng)頁及其鏈接網(wǎng)頁的主題相關性。主題相關性的判別一般有兩種方式,一種是根據(jù)與主題相關的關鍵詞來判別,另一種是先標注相關領域的訓練文本,然后通過文本分類的方法判斷頁面的主題是否和事先標注的文本類別一致,完成網(wǎng)頁主題相關性判斷。如果判斷結果是屬于此次輿情挖掘的有效頁面,則下載這些網(wǎng)頁并進行網(wǎng)頁去重、提取URL和URL去重等操作,最后以文本形式保存至輿情數(shù)據(jù)庫[3]。

      2.2 基于Fi sher判別的特征提取方法

      將Fisher判別準則應用到藏文文本分類中,用于分類特征的選擇。所選擇的特征t應使得它同時在不同類別中的差別盡可能大。而在相同類別中的頻率差別盡可能小。于是定義

      為特征t的關于類別ci和cj的Fisher準則,其中E(t|ci)、E(t|cj)、D(t|ci)、D(t|cj)分別表示特征t對類別ci、cj的條件均值和條件方差[4]。

      (E t|c ?E t|c )是特征t在兩類文本中平均出現(xiàn)的強度之差,它反映了t出現(xiàn)的類間差,稱為t的類間離散度。類間離散度越大說明t的分類能力越強。?D ? t |ci??D(t|cj)表示了特征t對ci和cj總類內(nèi)離散度。類內(nèi)離散度越小意味著特征t的文本表達能力越強??捎妙l數(shù)來近似(1)中的均值和方差,求出每個特征t對不同類別的Fisher準則。

      2.3 主題識別的算法

      樸素貝葉斯分類方法(NB)是一種簡單又非常有效的文本分類方法[5],應用十分普遍,經(jīng)常作為分類評判的基準。NB方法遵循貝葉斯假設:文檔的特征之間是相互獨立的。這個假設一方面使得NB計算簡單,但另一方面忽略了特征之間的上下文聯(lián)系。

      設d為一任意文檔,它屬于文檔類C={c1,c2,…,ck)中的某一類ci,分類器的參數(shù)由先驗類概率值p(ci)和基于類特征的條件概率p(tk│ci)組成,由已標注的訓練集文檔計算研究。每個類ci的先驗類概率值p(ci)的計算公式:

      其中,|C|是類別數(shù),|D|為訓練集中的文檔數(shù)。p(tk|ci)由式(3)估計

      上式中,N tk,d ?表示在文檔d中特征項出現(xiàn)的次數(shù);|V|代表文檔集合中全部不同的特征項數(shù)目。若文檔 d屬于類別 ci時,p ( c |d) 1,否則,p ( c |d) ?0。

      利用已經(jīng)訓練好的分類器,對測試集中的文檔進行分類。用 ?td,k表示文本d中的第k個特征項,則我們可以求出文本d屬于類別ci的后驗概率。

      按照公式(4)計算所有文檔類在給定文檔d下的概率,概率值最大的類就為d所在的類,即貝葉斯分類法則為:

      2.4 基于最大熵分類器的藏文文本情感傾向性分類方法

      最大熵方法(Maximum Entropy)是一種有監(jiān)督的學習算法[6],它的基本思想是在只獲得關于未知分布的部分知識時,應該選取符合這些知識且熵最大的概率分布模型。因為符合已知知識的概率分布可能不止一個,而熵是表示隨機變量不確定性的信息量,計算使熵最大化的概率分布就是對滿足已知條件的最不確定的推斷。和貝葉斯分類器不同的是,最大熵方法并不假設特征詞之間相互無關。利用最大熵分類器,將客觀性文本和主觀性文本分開,它把訓練集中與分類有關的數(shù)據(jù)表達為一系列的特征,這些特征一般情況下是二值函數(shù)。對于情感分類問題,以“特征詞一類別”模式作為一個特征。

      通常,最大熵分類器利用最大熵模型將文檔d的類別指定為c,以使得(6)最大:

      Fi,c(d,c)為二值函數(shù),用輸出0或1值來表示樣本是否包含某個特征,?i,c為特征函數(shù)的權值,?i,c越大則該特征對于類別c的重要度越高。通過在訓練集上的機器學習,使用IIS(Improved Irerative Scaling)算法得到? ?i,c的值,從而找到與樣本數(shù)據(jù)分布最接近的概率模型:最大熵模型的構造。在獨立假設條件不滿足的情況下,最大熵比樸素貝葉斯的分類效果好。

      對特定的語氣詞,用最大熵模型可識別出其情感對象。具體算法:①求每個候選情感對象與意見表達之間的語義路徑;②選出全部可能的候選情感對象集{h1,h2…,hn};③通過求條件概率P(hI{h1,h2…,hn})來選出可能性最大的候選情感對象,P(hI{{h1,h2…,hn}通過K個特征函數(shù)(8)計算得到:

      3 系統(tǒng)設計與實現(xiàn)

      在系統(tǒng)設計與開發(fā)過程中,需建立若干知識庫,并要使用垂直搜索、知識發(fā)現(xiàn)、藏文網(wǎng)頁識別、主題網(wǎng)頁識別、自動分詞、特征提取、藏文情感網(wǎng)頁自動分類等技術,實現(xiàn)對海量互聯(lián)網(wǎng)藏文信息進行監(jiān)測、互聯(lián)網(wǎng)輿情的自動分析和發(fā)現(xiàn)。該系統(tǒng)實現(xiàn)的首要任務是要采集圍繞主題的海量數(shù)據(jù),并經(jīng)過處理形成規(guī)范性的藏文數(shù)據(jù)再進行挖掘,輸出有用的決策信息,系統(tǒng)結構圖如圖1所示。

      圖1 互聯(lián)網(wǎng)藏文信息的輿情分析系統(tǒng)框架圖

      3.1 互聯(lián)網(wǎng)藏文數(shù)據(jù)采集模塊

      進行互聯(lián)網(wǎng)輿情分析的前提是獲取基于設定的主題、數(shù)量足夠多的、完整的互聯(lián)網(wǎng)[7]藏文數(shù)據(jù)。為解決這個問題,系統(tǒng)建設時考慮通過建立數(shù)據(jù)采集規(guī)則來達到此目的。在數(shù)據(jù)采集規(guī)則中主要考慮要采集的主題、要搜索的范圍、采集要到達的數(shù)據(jù)量等。在規(guī)則制定后,信息采集模塊利用“基于主題的互聯(lián)網(wǎng)爬蟲”技術,按照已經(jīng)設置的采集規(guī)則,到互聯(lián)網(wǎng)上進行數(shù)據(jù)采集。該模塊有三個子模塊:頁面采集模塊、頁面相關度評價模塊和URLs評價排序模塊。數(shù)據(jù)采集后按照主題歸于相應的數(shù)據(jù)庫中,以便下一步的數(shù)據(jù)處理。

      3.2 藏文數(shù)據(jù)處理模塊

      需要把采集數(shù)據(jù)轉為有用的信息,在采集到相關數(shù)據(jù)后,先期對已經(jīng)采集完成的數(shù)據(jù)進行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術對數(shù)據(jù)進行挖掘,形成相應的統(tǒng)計信息,便于查詢輸出。

      3.3 原始數(shù)據(jù)預處理

      在數(shù)據(jù)挖掘分析前對數(shù)據(jù)進行預處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)格式化數(shù)據(jù),利用數(shù)據(jù)格式化實現(xiàn)對各種網(wǎng)頁格式的數(shù)據(jù)進行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進行數(shù)據(jù)清洗,把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進行清洗,去除無效、重復的數(shù)據(jù),形成數(shù)量足夠、時間段連續(xù)、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準備。

      經(jīng)過預處理的數(shù)據(jù)還只是數(shù)據(jù),并沒有形成與主題相關的有用信息,所以系統(tǒng)內(nèi)置了多種數(shù)據(jù)挖掘技術。針對藏文信息的分析與處理,系統(tǒng)中的藏文自動分詞和詞性標注子模塊以詞典、規(guī)則和統(tǒng)計為基礎,對采集的藏文數(shù)據(jù)進分詞和詞性標注,在此基礎上獲取詞頻、詞性、位置信息等關鍵信息[8]。

      3.4 藏文數(shù)據(jù)存儲模塊

      考察目前已經(jīng)成熟的數(shù)據(jù)庫管理系統(tǒng),發(fā)現(xiàn)Sql server 2016是最合適的。所以本系統(tǒng)就采用Sql server 2016作為數(shù)據(jù)存儲的數(shù)據(jù)庫系統(tǒng)。互聯(lián)網(wǎng)輿情藏文數(shù)據(jù)量不是太多,但為了提高查詢速度和將來的系統(tǒng)擴展,系統(tǒng)通過Sql server 2016全文索引技術和多維查詢技術,對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢和輸出速度及準確性得到提高,特別是對重要特征字進行檢索時能提高查詢速度。

      3.5 藏文數(shù)據(jù)的情感傾向性分析處理模塊

      為解決藏文文本情感傾向性自動分類的難題,系統(tǒng)內(nèi)置自動分類組件,采用基于Fisher判別的特征提取方法對訓練庫進行學習,獲取每個分類的特征,然后采用基于最大熵分類器方法,對未知分類情況的數(shù)據(jù)進行情感性傾向性分類。系統(tǒng)通過關聯(lián)分析、趨勢分析,從藏文數(shù)據(jù)中抽取關聯(lián)規(guī)則。同時,利用趨勢分析技術,分析互聯(lián)網(wǎng)輿論等隨時間的發(fā)展趨勢情況,以便實現(xiàn)對輿論環(huán)境的監(jiān)測和不良傾向的預警。

      3.5 友好的數(shù)據(jù)顯示界面

      對于輸出的技術要求, 在數(shù)據(jù)輸出時系統(tǒng)利用Sql Server2016的Olap技術結合系統(tǒng)提供的查詢頁面框架,可以實現(xiàn)用戶從多個角度對各類數(shù)據(jù)的查詢。針對輸出內(nèi)容,系統(tǒng)內(nèi)置了生成部分圖文并茂的統(tǒng)計報表組件。

      4 結束語

      介紹了研究互聯(lián)網(wǎng)藏文信息輿情分析的必要性、重點及難點,詳細介紹了藏文輿情分析的關鍵技術,最后說明了藏文輿情分析系統(tǒng)的設計框架。

      [1]王蘭成.網(wǎng)絡輿情分析技術[M].北京:國防工業(yè)出版社,2014. Wang Lancheng.Analysis Techniques on Internet Public Opinion[M].Beijing:National Defense IndustryPress,2014.

      [2]萬源.基于語義統(tǒng)計分析的網(wǎng)絡輿情挖掘技術研究[D].武漢:武漢理工大學,2012. Wan yuan.Research on Mining of Internet Public Opinion Based on Semantic and Statistic Analysis[D].Wuhan:Wuhan UniversityofTechnology,2012.

      [3]黃微,張耀之,李瑞.網(wǎng)絡輿情信息語義識別關鍵技術分析[J].圖書情報工作,2015,59(21):33-36. Huang Wei,Zhang Yaozhi,Li Rui.Analysis on Key Technologies of Semantic Recognition of Network Public Opinion

      [5]何柳,陳勇,吳斌,等.PCI/PCI-E高速實時DMA傳輸驅動設計[J].電子技術應用,2012,38(11):143-145. He Liu,Chen Yong,Wu Bin,et al.Design a high speed and real time PCI/PCI-E DMA transmission driver[J].Application ofElectronic Technique,2012,38(11):143-145.

      [6]鄒晨.FPGA設計中跨時鐘域信號同步方法[J].航空計算技術,2014,44(4):131-134. Zou Chen.Method of signal synchronization of cross-clock domain in design ofFPGA[J].Aeronautical ComputingTechnique,2014,44(4):131-134.

      [7]PLX Technology,Inc.PLX SDK User Manual(Version 7.20) [EB/OL].(2015-01-09)[2016-01-18]http://www.avagotech.com/products/pcie-switches-bridges/software-dev-kit

      [8]Zhyang.PCI DTK V2.0 User Manual[EB/OL].(2011-08-26)[2016-01-18]http://wenku.baidu.com/view/8533ca 8283 d049649b66582c.html

      [9]Mark S.Qt高級編程[M].吳迪,戚彬,高波,等譯.北京:電子工業(yè)出版社,2011. Mark S.Advanced Qt Programming[M].Translated by Wu Di,Qi Bin,GaoBo,et al.Beijing:Publishing House ofElectronics Industry,2011. [J].Libraryand Information Service,2015,59(21):33-36.

      [4]周志華.機器學習[M].北京:清華大學出版社,2014. Zhou Zhihua.MACHINE LEARNING[M].Beijing:Tsinghua UniversityPress,2014.

      [5]李巖.基于深度學習的短文本分析與計算方法研究[D].北京:北京科技大學,2016. Li Yan.Research on Analysis and Computation Methods for Short Text with Deep Learning[D].Beijing:UniversityofScience and TechnologyBeijing,2016.

      [6]黃仁,張衛(wèi).基于word2vec的互聯(lián)網(wǎng)商品評論情感傾向研究[J].計算機科學:2016,43(6A):387-389. Huang Ren,Zhang Wei.Study on Sentiment Nalyzing of Internet Commodities ReviewBased on Word2vec[J].Computer Science:2016,43(6A):387-389.

      [7][美]丹尼爾·里夫,[美]斯蒂文·賴斯,[美]弗雷德里克·G.菲克著,嵇美云,譯.內(nèi)容分析法:媒介信息量化研究技巧[M].北京:清華大學出版,2010:78-98. Riffe D,Lacy S,Fico F G.Analyzing Media Messages Using Quantitative Content Analysis in Reearch[M].Beijing: Tsinghua UniversityPress,2010:78-98.

      [8]安見才讓.藏文搜索引擎系統(tǒng)中網(wǎng)頁自動摘要的研究[J].微處理機,2010(5):77-80. An Jiancairang.Research on Automatic Abstract of Web Document Summarization of Tibetan Search Engine[J]. MICROPROCESSORS,2010(5):77-80.

      Design of Internet Public opinion Analysis System of Tibetan Information

      An Jiancairang1,La Maocuo2,Sun Qilong1

      (1.Computer Department,Qinghai University for Nationalities,xining 810007,China;(2.Research Center of Tibet Information Technology of University of Tibet,Lhasa 850000,China)

      The rapid development of information technology promotes the rapid dissemination of Tibetan information and people pay more and more attention on public opinion.This paper introduces the necessity,the importance and the difficulties of researching internet public opinion analysis of Tibetan information,as well as the key technologies and the design framework.

      Tibetan information;Public opinion analysis;Text classification;Tibetan text sentiment;Data mining;Topic recognition

      10.3969/j.issn.1002-2279.2017.02.013

      TP391

      A

      1002-2279-(2017)02-0056-03

      國家民委(14QHZ003)和青海省科技廳(2016-ZJ-Y04)項目資助

      安見才讓(1969-),男(藏族),青海省西寧市人,教授,碩士研究生,主研方向:自然語言信息處理。

      2016-12-01

      猜你喜歡
      藏文網(wǎng)頁輿情
      西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
      布達拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟納出土藏文文獻簡介
      西夏學(2019年1期)2019-02-10 06:22:34
      基于CSS的網(wǎng)頁導航欄的設計
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      藏文音節(jié)字的頻次統(tǒng)計
      輿情
      中國民政(2016年16期)2016-09-19 02:16:48
      現(xiàn)代語境下的藏文報刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      輿情
      中國民政(2016年10期)2016-06-05 09:04:16
      輿情
      中國民政(2016年24期)2016-02-11 03:34:38
      網(wǎng)頁制作在英語教學中的應用
      電子測試(2015年18期)2016-01-14 01:22:58
      崇礼县| 徐州市| 嘉善县| 上高县| 弋阳县| 太湖县| 台东县| 西林县| 青岛市| 灵璧县| 大兴区| 水富县| 兖州市| 内丘县| 澄迈县| 大连市| 凤冈县| 海宁市| 大足县| 泰来县| 罗田县| 黑山县| 邓州市| 南华县| 连山| 泊头市| 沂南县| 房产| 珲春市| 邹平县| 孟村| 西青区| 抚宁县| 吕梁市| 永丰县| 郯城县| 平凉市| 张家川| 武乡县| 达拉特旗| 南汇区|