• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的信息整合方案

      2020-11-02 07:14余棟柱
      經(jīng)營(yíng)者 2020年19期
      關(guān)鍵詞:煙草行業(yè)高質(zhì)量發(fā)展

      余棟柱

      摘要 國(guó)家高質(zhì)量發(fā)展戰(zhàn)略方案有序推進(jìn),隨著煙草行業(yè)監(jiān)管要求不斷升級(jí),出臺(tái)的規(guī)章制度與方針政策也在不斷豐富與細(xì)化。內(nèi)部專(zhuān)賣(mài)監(jiān)督管理隊(duì)伍的員工在煙草行業(yè)網(wǎng)查找自己需要的信息資料,難度也在不斷加大。本文提出以垂直搜索引擎框架構(gòu)為基礎(chǔ),構(gòu)建基于煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理需求的信息整合方案,旨在為煙草員工提供準(zhǔn)確的搜索結(jié)果,實(shí)現(xiàn)更加有效的科學(xué)監(jiān)管。

      關(guān)鍵詞 煙草行業(yè);高質(zhì)量發(fā)展;垂直搜索引擎;信息整合;科學(xué)監(jiān)管

      隨著煙草行業(yè)內(nèi)部網(wǎng)絡(luò)信息量的不斷增長(zhǎng)以及行業(yè)監(jiān)管要求的升級(jí),員工在工作中獲取自己所需信息的難度也在不斷加大。行業(yè)內(nèi)部網(wǎng)普通的搜索查詢(xún)結(jié)果難以滿(mǎn)足員工特定的搜索要求,并且上下級(jí)行業(yè)網(wǎng)的信息有不同程度的重復(fù)。這一現(xiàn)狀對(duì)于煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理工作的開(kāi)展,進(jìn)行全過(guò)程閉環(huán)監(jiān)督,構(gòu)建監(jiān)管長(zhǎng)效機(jī)制,帶來(lái)了一定的困難。

      基于煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的現(xiàn)實(shí)需求,為員工提供準(zhǔn)確的搜索結(jié)果,實(shí)現(xiàn)有效的科學(xué)監(jiān)管,需要構(gòu)建一個(gè)信息整合方案,對(duì)各級(jí)煙草行業(yè)內(nèi)部網(wǎng)進(jìn)行頁(yè)面凈化、信息抽取、頁(yè)面分類(lèi)、數(shù)據(jù)挖掘等深度加工,以獲取具有較高準(zhǔn)確率、覆蓋率的搜索結(jié)果。經(jīng)過(guò)對(duì)比,垂直搜索引擎是符合需求的一種技術(shù)方案。

      一、垂直搜索引擎的相關(guān)技術(shù)

      垂直搜索引擎,是對(duì)專(zhuān)業(yè)特定的領(lǐng)域或行業(yè)的內(nèi)容進(jìn)行專(zhuān)業(yè)和深入的分析挖掘、過(guò)濾篩選,使信息定位更精準(zhǔn)的專(zhuān)業(yè)搜索引擎。它是搜索引擎的細(xì)分和延伸,能針對(duì)性地為某一特定領(lǐng)域、某一特定人群或某一特定需求提供專(zhuān)門(mén)的信息檢索服務(wù),以滿(mǎn)足用戶(hù)個(gè)性化的信息需求。

      二、Nutch框架的簡(jiǎn)介

      作為一個(gè)基于Java 實(shí)現(xiàn)的開(kāi)源搜索引擎,Nutch提供了構(gòu)建垂直搜索引擎所需的全部工具,包括網(wǎng)頁(yè)爬蟲(chóng)、網(wǎng)頁(yè)解析器、索引器以及檢索器。

      總體上,它可以分為爬網(wǎng)程序以及搜索程序兩個(gè)部分。第一是爬網(wǎng)程序,它使用自帶的Crawl命令,負(fù)責(zé)搜集頁(yè)面,并把爬取回來(lái)的網(wǎng)頁(yè)數(shù)據(jù),解析做成反向索引;第二是搜索程序,網(wǎng)絡(luò)爬蟲(chóng)的解析器將自動(dòng)分析頁(yè)面,搜索第一步的反向索引,響應(yīng)用戶(hù)的請(qǐng)求。

      三、需要解決的行業(yè)需求問(wèn)題

      開(kāi)源框架Nutch構(gòu)造出性能良好的垂直搜索引擎后,依然需要解決一些特定的問(wèn)題,才可滿(mǎn)足煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的信息整合需求,主要包括:

      針對(duì)上面這些問(wèn)題,再結(jié)合煙草內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的具體需求,還需要在以Nutch為基礎(chǔ)的框架,增加頁(yè)面解析(parser)、頁(yè)面分類(lèi)(classifier)、中文分詞(analyzer)、檢索排序(sorter)這四個(gè)關(guān)鍵的功能模塊,用來(lái)完成頁(yè)面解析分類(lèi)、中文分詞以及檢索結(jié)果排序等功能。

      四、構(gòu)建垂直搜索引擎的方案

      (一)網(wǎng)頁(yè)分類(lèi)的設(shè)計(jì)

      本方案的一個(gè)核心功能是讓網(wǎng)頁(yè)根據(jù)我們需要的內(nèi)容自動(dòng)分類(lèi)。classifier模塊將抓取下來(lái)的網(wǎng)頁(yè)進(jìn)行個(gè)性化分類(lèi)。Contents模塊把煙草行業(yè)內(nèi)部網(wǎng)頁(yè)的元素?cái)?shù)據(jù)meta data和文本內(nèi)容儲(chǔ)存起來(lái)。在Classifier模塊中,維持了采用XML的配置文件進(jìn)行定義分類(lèi)的規(guī)則。在方案中,利用分詞器Analyzer,對(duì)每個(gè)行業(yè)內(nèi)部網(wǎng)頁(yè)的內(nèi)容進(jìn)行分詞,再將分詞后的內(nèi)容和classifier模塊中的分類(lèi)規(guī)則進(jìn)行匹配檢驗(yàn),用分類(lèi)便簽信息貼給網(wǎng)頁(yè),這樣一來(lái),索引器就能實(shí)現(xiàn)網(wǎng)頁(yè)分類(lèi)的功能。

      (二)網(wǎng)頁(yè)信息抽取的設(shè)計(jì)

      框架的網(wǎng)頁(yè)解釋和網(wǎng)頁(yè)檢索是兩個(gè)相互獨(dú)立處理的過(guò)程,筆者把煙草行業(yè)內(nèi)部網(wǎng)頁(yè)的信息抽取處理過(guò)程,劃分為兩部分,即抽取原始頁(yè)面的結(jié)構(gòu)化信息與存儲(chǔ)抽取的結(jié)構(gòu)化信息。

      筆者提出的方案,把煙草內(nèi)部網(wǎng)頁(yè)的處理分成四個(gè)步驟,分別是規(guī)范化網(wǎng)頁(yè)、凈化網(wǎng)頁(yè)、抽取結(jié)構(gòu)化信息、存儲(chǔ)信息。前三個(gè)是抽取信息的過(guò)程,最后一個(gè)是存儲(chǔ)信息的過(guò)程。

      1.網(wǎng)頁(yè)內(nèi)容的凈化。普通網(wǎng)頁(yè)包括正文內(nèi)容和其他內(nèi)容。正文內(nèi)容是主題信息內(nèi)容,其他內(nèi)容是和主題信息內(nèi)容關(guān)聯(lián)不大的導(dǎo)航條、宣傳信息等內(nèi)容,也叫“網(wǎng)頁(yè)噪音”。網(wǎng)頁(yè)凈化模塊,就是為了盡量剔除“網(wǎng)頁(yè)噪音”,讓后面步驟里的信息抽取有更高的效率和準(zhǔn)確率。

      了解對(duì)比國(guó)內(nèi)中文網(wǎng)頁(yè)凈化算法后,再結(jié)合煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的現(xiàn)實(shí)情況,筆者提出一種特有的網(wǎng)頁(yè)凈化算法。將HTML頁(yè)面構(gòu)建成一顆標(biāo)簽樹(shù),再利用網(wǎng)頁(yè)的標(biāo)簽(主要是TABLE標(biāo)簽)進(jìn)行分塊,并對(duì)其添加語(yǔ)義屬性。它是剪枝凈化的依據(jù),凈化后的標(biāo)簽樹(shù)再還原成“去噪后”的HTML。分塊之間也有父子層次關(guān)系,這樣的標(biāo)簽樹(shù)稱(chēng)為擴(kuò)展語(yǔ)義的DOM樹(shù)。

      2.信息抽取。通過(guò)上面網(wǎng)頁(yè)凈化步驟的處理后的網(wǎng)頁(yè)結(jié)構(gòu)相對(duì)簡(jiǎn)單,建議采用基于模版信息抽取的方式進(jìn)行結(jié)構(gòu)化信息抽取。制定不同的正則表達(dá)式和使用XPath技術(shù)完成信息抽取的任務(wù)。

      用XPath處理結(jié)點(diǎn)的優(yōu)勢(shì)是處理字段結(jié)點(diǎn)全部?jī)?nèi)容為結(jié)構(gòu)化數(shù)據(jù)字段值的情況;正則表達(dá)式的優(yōu)勢(shì)是處理文本相關(guān)方面。算法中都用它們提取結(jié)構(gòu)數(shù)據(jù)的字段值。

      (三)中文分析器的設(shè)計(jì)

      煙草行業(yè)內(nèi)部網(wǎng)頁(yè)大多是中文字符,所以需要用Chinese Analyzer對(duì)網(wǎng)頁(yè)做索引,進(jìn)一步對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行分析處理。同時(shí),還要對(duì)員工用戶(hù)輸入的中文詞語(yǔ)進(jìn)行自動(dòng)分詞,讓系統(tǒng)識(shí)別出最接近語(yǔ)義組合的結(jié)果;然后在系統(tǒng)查詢(xún)數(shù)據(jù)庫(kù)數(shù)據(jù)的時(shí)候,對(duì)輸入的查詢(xún)?cè)~語(yǔ)分詞后,得到相關(guān)的詞語(yǔ)。

      首字Hash+折半查找高,第一層Hash是根據(jù)詞匯的長(zhǎng)度來(lái)計(jì)算的,第二層Hash是首字Hash,最后得到詞匯子表進(jìn)行折半查找。第一次對(duì)第0個(gè)字進(jìn)行Hash,所有首字相同的詞語(yǔ)是一個(gè)子集合。這個(gè)子集合相對(duì)整個(gè)詞典稱(chēng)為子詞典。循環(huán)每個(gè)子詞典。

      如果這個(gè)子詞典的詞語(yǔ)數(shù)小于某個(gè)常數(shù)C(暫使用C=16),那這個(gè)子詞典使用二分查找;否則繼續(xù)對(duì)這個(gè)子詞典做與第一次一樣的Hash,分解出再下一級(jí)的子詞典。

      (四)檢索結(jié)果的排序和分頁(yè)

      1.結(jié)果數(shù)據(jù)的排序?;诳蚣軆?nèi)部的Score和DocID的相關(guān)度,是本設(shè)計(jì)方案展示搜索結(jié)果的默認(rèn)方式。Score是一種底層boost,它根據(jù)關(guān)鍵詞內(nèi)部評(píng)分和做索引的需要而建立。優(yōu)先排序Score高的條目,再根據(jù)索引先后順序排序,如果Score一樣,先索引的排前面。

      可以根據(jù)需要,在每次執(zhí)行查找操作的時(shí)候,人為干預(yù)提升某個(gè)文檔的相關(guān)度,只要修改boost里面的Score數(shù)值,就可以讓它的搜索結(jié)果排在靠前的位置。也可以使用系統(tǒng)自帶的Sort類(lèi)對(duì)檢索結(jié)果進(jìn)行排序。

      2.分頁(yè)的解決。當(dāng)查詢(xún)結(jié)果數(shù)據(jù)量大,一個(gè)版面(或者web版面)無(wú)法完全顯示的時(shí)候,目前通常的解決方案有如下四種。第一種是利用session的暫存數(shù)據(jù)二次獲取;第二種是對(duì)數(shù)據(jù)庫(kù)進(jìn)行多次查詢(xún)獲得查詢(xún)目標(biāo)數(shù)據(jù);第三種,結(jié)合上面的第一種緩存和第二種的多次查詢(xún);第四種,則是前面一二結(jié)合緩存和多次查詢(xún)后,再把數(shù)據(jù)緩存到數(shù)據(jù)庫(kù)級(jí)別當(dāng)中。對(duì)于煙草行業(yè)整合數(shù)據(jù)的查詢(xún),如果對(duì)定位的要求不高,第三種方式即可,當(dāng)查詢(xún)用戶(hù)比較多的時(shí)候,推薦采用第四種方式。

      這樣的好處是每個(gè)檢索結(jié)果在session緩存中的數(shù)據(jù)量可以進(jìn)一步減少,這樣就可以用它緩存更多的檢索結(jié)果,能大大提升檢索速度。

      五、結(jié)語(yǔ)

      本文基于煙草行業(yè)內(nèi)部專(zhuān)賣(mài)監(jiān)督管理的信息整合需求,為了信息查詢(xún)操作更加方便,為了結(jié)果更符合行業(yè)部門(mén)人員的需求,提出了信息整合的方案,并對(duì)方案的設(shè)計(jì)方法作了闡述。在解決行業(yè)特定的問(wèn)題的過(guò)程中,對(duì)網(wǎng)頁(yè)內(nèi)容自動(dòng)分類(lèi)、解析頁(yè)面內(nèi)容并提取、中文的分詞、檢索結(jié)果排序和分頁(yè)提出了設(shè)計(jì)解決方案,最終滿(mǎn)足行業(yè)自定義的信息整合需求。

      (作者單位為廣州市煙草專(zhuān)賣(mài)局)

      參考文獻(xiàn)

      [1] 卷煙經(jīng)營(yíng)內(nèi)部專(zhuān)賣(mài)管理監(jiān)督工作指引(試行)[Z].國(guó)家煙草專(zhuān)賣(mài)局,2019.

      [2] 陳昌平,張捷,胡州明,等.垂直搜索引擎在企業(yè)內(nèi)部的應(yīng)用探索[J].信息與電腦,2018(20):51-53.

      [3] 趙雙雙,林紅,李仁旺.基于Lucene的煙草個(gè)性化搜索引擎的研究與實(shí)現(xiàn)[J].工業(yè)控制計(jì)算機(jī),2015,28(1):114-116.

      猜你喜歡
      煙草行業(yè)高質(zhì)量發(fā)展
      企業(yè)消防安全管理現(xiàn)狀與管理模式優(yōu)化研究
      2018:中國(guó)會(huì)展業(yè)“高質(zhì)量發(fā)展”之年
      高質(zhì)量發(fā)展背景下遼寧省綠色增長(zhǎng)水平提升路徑及對(duì)策分析
      中國(guó)經(jīng)濟(jì)改革“高質(zhì)量發(fā)展”是關(guān)鍵詞
      開(kāi)啟新時(shí)代民航強(qiáng)國(guó)建設(shè)新征程
      我國(guó)經(jīng)濟(jì)怎樣實(shí)現(xiàn)“高質(zhì)量發(fā)展”
      煙草行業(yè)降本增效的途徑探索
      煙草行業(yè)中精益專(zhuān)賣(mài)的探索與應(yīng)用
      論以科技創(chuàng)新體系建設(shè)推動(dòng)煙草行業(yè)可持續(xù)發(fā)展
      如何提高煙草行業(yè)財(cái)務(wù)精益管理,降本增效
      柘荣县| 曲周县| 黔江区| 高要市| 石河子市| 华亭县| 磴口县| 常州市| 于都县| 桃园市| 张掖市| 巩义市| 桂平市| 乐都县| 南充市| 郸城县| 宝鸡市| 平罗县| 和林格尔县| 甘谷县| 宁远县| 枞阳县| 兰西县| 高雄市| 平陆县| 西丰县| 鄂伦春自治旗| 福建省| 铁力市| 浪卡子县| 五指山市| 丹阳市| 农安县| 耿马| 八宿县| 西平县| 秦安县| 佳木斯市| 永德县| 上饶县| 阿坝|