• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于NLP的文本挖掘技術(shù)在提升電信客戶滿意度中的應(yīng)用

      2023-05-24 02:30:07關(guān)志廣程喬
      無線互聯(lián)科技 2023年5期
      關(guān)鍵詞:投訴文本挖掘自然語言處理

      關(guān)志廣 程喬

      摘要:為了充分挖掘非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的信息價(jià)值,文章介紹了基于自然語言處理的文本挖掘技術(shù),從原理到實(shí)踐進(jìn)行了探究。以電信運(yùn)營商移動網(wǎng)絡(luò)客戶的體驗(yàn)與口碑為導(dǎo)向,利用文本挖掘技術(shù)在互聯(lián)網(wǎng)輿情分析和客服部門投訴工單分析等方面進(jìn)行探索,給出了基于非結(jié)構(gòu)化文本數(shù)據(jù)的信息分類與呈現(xiàn)的方法,從而更好地聚焦客戶需求和網(wǎng)絡(luò)問題,支撐網(wǎng)絡(luò)維護(hù)與優(yōu)化工作,提升客戶滿意度。

      關(guān)鍵詞:文本挖掘;自然語言處理;結(jié)構(gòu)化數(shù)據(jù);輿情;投訴

      中圖分類號:TP391文獻(xiàn)標(biāo)志碼:A

      0 引言

      對電信企業(yè)而言,客戶網(wǎng)絡(luò)體驗(yàn)好壞是影響網(wǎng)絡(luò)口碑的重要因素,如何高效改善客戶網(wǎng)絡(luò)感知是當(dāng)前迫在眉睫的問題。在相關(guān)的工作經(jīng)歷中發(fā)現(xiàn),客戶通過客服系統(tǒng)反饋的投訴工單以及在社交媒體發(fā)表的言論是其反映網(wǎng)絡(luò)問題的主要渠道,較為真實(shí)、可靠地反映了客戶對網(wǎng)絡(luò)的真實(shí)體驗(yàn)。但其中更多的是以非結(jié)構(gòu)化數(shù)據(jù)的形式存在,難以有效地利用起來。此類數(shù)據(jù)日積月累,形成了一個潛在的體量龐大的信息資源。因此,深入探索文本挖掘技術(shù),在客服投訴工單與互聯(lián)網(wǎng)輿情等方面進(jìn)行輔助分析,將有助于發(fā)揮更多的數(shù)據(jù)價(jià)值,以指導(dǎo)客戶滿意度提升工作,維護(hù)企業(yè)良好的網(wǎng)絡(luò)口碑。

      1 文本挖掘技術(shù)

      文本挖掘技術(shù)包括了自然語言處理(Natural Language Processing,NLP)、信息抽取、數(shù)據(jù)挖掘等技術(shù)[1],可以對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,從中抽取潛在的、客戶感興趣的重要信息,是一個將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為構(gòu)化數(shù)據(jù)的過程。

      一般而言,要實(shí)現(xiàn)文本挖掘的分類應(yīng)用主要有以下幾個過程:首先,根據(jù)人工識別設(shè)定的標(biāo)簽體系對樣本進(jìn)行分類標(biāo)注,構(gòu)建模型訓(xùn)練集;其次,運(yùn)用文本分類工具進(jìn)行文本分詞及預(yù)處理,抽取文本特征,將文本數(shù)據(jù)轉(zhuǎn)化為能描述文本內(nèi)容的結(jié)構(gòu)化數(shù)據(jù);再次,基于樸素貝葉斯算法自動計(jì)算特征向量和分類貢獻(xiàn)度(TF-IDF值),輸出形成分類規(guī)則表構(gòu)建模型[2];最后,利用分類、聚類和關(guān)聯(lián)分析等數(shù)據(jù)挖掘技術(shù)根據(jù)該結(jié)構(gòu)發(fā)現(xiàn)新的概念,獲取相應(yīng)的關(guān)系。

      目前有多種開源文本分類工具,比如,TextGrocery,OpenNLP,Weka,GATE等。TextGrocery是一個基于Lib Linear和Jieba分詞的短文本分類工具,其特點(diǎn)是高效易用,同時支持中文和英文語料。本文在Python環(huán)境下使用TextGrocery對文本進(jìn)行模型訓(xùn)練,基于訓(xùn)練好且準(zhǔn)確性高的模型對工單的投訴內(nèi)容進(jìn)行智能分類。

      1.1 自然語言處理

      2 應(yīng)用案例

      2.1 客服投訴工單文本挖掘

      基于NLP的文本挖掘技術(shù)可以構(gòu)建非結(jié)構(gòu)化數(shù)據(jù)的文本分類模型,實(shí)現(xiàn)對海量的客戶投訴工單文本的自動分類,并將分類結(jié)果結(jié)合投訴位置信息形成對應(yīng)類型的客戶投訴位置地理化打點(diǎn)圖,方便網(wǎng)絡(luò)優(yōu)化工程師聚焦處理某類網(wǎng)絡(luò)問題所引起的大量客戶投訴。

      在訓(xùn)練文本分類模型之前,需要人工對典型性的歸屬于網(wǎng)絡(luò)側(cè)的投訴工單回復(fù)文本打上分類標(biāo)簽形成模型的訓(xùn)練集,其標(biāo)簽為弱覆蓋、干擾、故障告警、高負(fù)荷四大類。利用Grocery工具基于訓(xùn)練集進(jìn)行建模和訓(xùn)練,通過對數(shù)據(jù)集的處理和模型參數(shù)調(diào)優(yōu),使得輸出模型的準(zhǔn)確性在80%以上。使用訓(xùn)練好的模型對待分類的工單文本進(jìn)行分類分析,獲得了網(wǎng)絡(luò)問題分類結(jié)果,再通過地理化的問題打點(diǎn),很容易看到大量的客戶投訴實(shí)際只聚集在為數(shù)不多的區(qū)域——比如龍胤鳳凰城住宅小區(qū),這便是關(guān)注和處理的重點(diǎn)。對歸屬于網(wǎng)絡(luò)弱覆蓋問題且投訴量較多的龍胤鳳凰城住宅小區(qū)優(yōu)先開通新基站后,結(jié)合MR數(shù)據(jù)分析得知,相關(guān)區(qū)域的網(wǎng)絡(luò)弱覆蓋率得到改善,客戶網(wǎng)絡(luò)體驗(yàn)得到進(jìn)一步提升。實(shí)現(xiàn)文本分類應(yīng)用的Python核心代碼及模型輸出的網(wǎng)絡(luò)問題分類結(jié)果如圖1所示。

      2.2 互聯(lián)網(wǎng)輿情文本挖掘

      利用網(wǎng)絡(luò)爬蟲提取網(wǎng)絡(luò)媒體如論壇、貼吧、微博等互聯(lián)網(wǎng)上的輿情數(shù)據(jù),通過文本挖掘技術(shù)對輿情數(shù)據(jù)進(jìn)行智能分類與分析,得到與電信企業(yè)相關(guān)的輿情動態(tài)。將輿情分析的結(jié)果關(guān)聯(lián)網(wǎng)絡(luò)性能指標(biāo)與業(yè)務(wù)感知數(shù)據(jù),按優(yōu)先級、影響程度等指導(dǎo)移動網(wǎng)絡(luò)優(yōu)化工作。

      互聯(lián)網(wǎng)輿情數(shù)據(jù)采集主要通過部署爬蟲收集器獲得[3]。以“廣西大學(xué)吧”貼吧輿情數(shù)據(jù)爬取為例進(jìn)行說明:入口地址為http://tieba.baidu.com/f?kw=廣西大學(xué)&ie=utf-8&pn=0,該頁面包含發(fā)帖客戶ID、發(fā)帖時間、發(fā)帖內(nèi)容、回復(fù)人數(shù)等信息,分頁采用50個帖一頁的傳統(tǒng)分頁,具有典型性。HTML文檔屬于描述性結(jié)構(gòu),對爬取到的HTML文檔提取有效信息可以通過網(wǎng)頁源代碼標(biāo)簽解析來限定期望提取的內(nèi)容。

      筆者前期已經(jīng)從大量與網(wǎng)絡(luò)相關(guān)的歷史投訴信息中,分析整理網(wǎng)絡(luò)感知體驗(yàn)差的關(guān)鍵詞并構(gòu)建關(guān)鍵詞庫。部分負(fù)面輿情關(guān)鍵詞和語義分類如表1所示。

      基于定義構(gòu)建的輿情關(guān)鍵詞,使用文本挖掘技術(shù)建立分類應(yīng)用模型,對輿情數(shù)據(jù)進(jìn)行語義關(guān)鍵詞提取并依此歸類整理、可視化輸出,以進(jìn)一步篩選提煉與疑似網(wǎng)絡(luò)類輿情相關(guān)的內(nèi)容[4]。通過對集中度高、重要性高的網(wǎng)絡(luò)輿情內(nèi)容分析得知,廣西大學(xué)宿舍區(qū)域存在較多的與上網(wǎng)類相關(guān)的負(fù)面輿情信息,如表2所示。

      結(jié)合所涉及的電信運(yùn)營商移動網(wǎng)絡(luò)基站話統(tǒng)數(shù)據(jù)分析,核實(shí)了基站負(fù)荷過高導(dǎo)致的視頻卡頓率、游戲卡頓率惡化的情況,與輿情所反映的情況相符。對相關(guān)基站小區(qū)進(jìn)行設(shè)備擴(kuò)容以及多載波間負(fù)荷均衡優(yōu)化后,網(wǎng)絡(luò)負(fù)荷得到緩解,業(yè)務(wù)卡頓現(xiàn)象改善明顯。

      3 結(jié)語

      本文的研究表明,基于自然語言處理的文本挖掘技術(shù)可以充分挖掘出電信企業(yè)客服投訴工單,網(wǎng)絡(luò)輿情之中非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的信息,并且利用這些信息進(jìn)行分類探究,可以更好地了解客戶需求,指導(dǎo)相關(guān)網(wǎng)絡(luò)感知提升工作的開展,助力提升客戶滿意度。

      通過文中的應(yīng)用案例可以看到新技術(shù)帶來的優(yōu)勢,人工智能必然會滲透到各領(lǐng)域的實(shí)際生產(chǎn)中,帶來不可估量的價(jià)值。然而,在此種分類應(yīng)用的研究和使用中,我們也發(fā)現(xiàn)了一些問題和不足,例如,模型準(zhǔn)確率有待提高、功能相對單一等。后續(xù)可以在分類算法的優(yōu)化方面下功夫,引入聚類、情感識別等方面的改進(jìn),不斷提高數(shù)據(jù)向價(jià)值的轉(zhuǎn)換效率。

      參考文獻(xiàn)

      [1]張樂,唐亮.人工智能時代語言學(xué)家面臨的機(jī)遇和挑戰(zhàn)[J].電腦知識與技術(shù),2020(24):195-197.

      [2]劉懷亮,杜坤,秦春秀.基于知網(wǎng)語義相似度的中文文本分類研究[J].現(xiàn)代圖書情報(bào)技術(shù),2015(2):39-45.

      [3]肖良玉.爬蟲技術(shù)在互聯(lián)網(wǎng)領(lǐng)域的應(yīng)用[J].數(shù)碼世界,2017(12):548-549.

      [4]史瑞芳.網(wǎng)頁正文信息抽取新方法[J].通信世界,2015(19):210-211.

      (編輯 傅金睿)

      猜你喜歡
      投訴文本挖掘自然語言處理
      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
      基于組合分類算法的源代碼注釋質(zhì)量評估方法
      基于LDA模型的95598熱點(diǎn)業(yè)務(wù)工單挖掘分析
      從《遠(yuǎn)程教育》35年載文看遠(yuǎn)程教育研究趨勢
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      慧眼識璞玉,妙手煉渾金
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      超聲科患者投訴事件原因分析與預(yù)防處理措施
      肥乡县| 营山县| 华阴市| 峨山| 革吉县| 孝感市| 娄底市| 明星| 尉犁县| 兴海县| 泾川县| 凤台县| 海林市| 资源县| 乌鲁木齐市| 哈巴河县| 株洲市| 怀安县| 三穗县| 武强县| 龙里县| 吉安县| 亳州市| 青岛市| 抚州市| 阳春市| 尼玛县| 昆明市| 新龙县| 泸州市| 渝北区| 农安县| 清苑县| 凤冈县| 临潭县| 金平| 太保市| 五莲县| 黔西| 广平县| 乐昌市|