• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自然語言處理和機(jī)器學(xué)習(xí)的文本分類及其運(yùn)用

      2019-11-05 08:10:44韋靈倪志平
      科技視界 2019年27期
      關(guān)鍵詞:文本分類自然語言處理運(yùn)用方法

      韋靈 倪志平

      【摘 要】文本分類工作是計(jì)算機(jī)應(yīng)用過程當(dāng)中常見的一種工作形式,在日常工作過程中,如何對(duì)不同類別的文本進(jìn)行準(zhǔn)確高效的分類工作是相關(guān)工作人員目前正在研究的主要工作問題?;谛畔⒓夹g(shù)的發(fā)展進(jìn)步,新時(shí)期,自然語言處理技術(shù)及機(jī)器學(xué)習(xí)技術(shù)等人工智能領(lǐng)域范疇的技術(shù)操作方式都在文本分類工作當(dāng)中發(fā)揮了極為重要的作用,引起了人們的廣泛關(guān)注。但是,具體的操作過程對(duì)員工的工作能力要求比較高,而且相應(yīng)的影響因素也比較多?;诖?,為了保證文本分類工作的有序開展,本文主要對(duì)這兩項(xiàng)技術(shù)操作方法的具體運(yùn)用方法及相關(guān)注意事項(xiàng)進(jìn)行詳細(xì)的討論和研究。

      【關(guān)鍵詞】自然語言處理;機(jī)器學(xué)習(xí);文本分類;運(yùn)用方法

      中圖分類號(hào): TP391.1文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)27-0088-002

      DOI:10.19694/j.cnki.issn2095-2457.2019.27.037

      自然語言處理與機(jī)器學(xué)習(xí)都是計(jì)算機(jī)技術(shù)發(fā)展背景下誕生的一種技術(shù)操作方法,是人工智能技術(shù)種類中的一種形式。其核心是通過編程設(shè)計(jì)讓系統(tǒng)模仿人的智能去自動(dòng)處理各項(xiàng)工作,這是使得新時(shí)期的文本分類工作開始朝著自動(dòng)化、智能化方向穩(wěn)步發(fā)展的關(guān)鍵所在,需要相關(guān)工作人員引起重視并積極研究有效的技術(shù)運(yùn)用方法。

      1 文本分類的基本工作內(nèi)容

      要想在文本分類工作當(dāng)中應(yīng)用自然語言處理和機(jī)器學(xué)習(xí)這兩項(xiàng)智能技術(shù),達(dá)到提高工作效率的目的。首先就需要保證工作人員能夠明確意識(shí)到文本分類工作的重要性,明確分類工作的目標(biāo)、常見的文本類型及具體的分類方法。

      1.1 工作的目標(biāo)

      文本分類是一個(gè)復(fù)雜的集合,因?yàn)樵谶@里可以包括對(duì)多個(gè)相關(guān)領(lǐng)域的研究工作。不同的工作領(lǐng)域在進(jìn)行文本分類工作時(shí)的目標(biāo)不同,相應(yīng)的分類方法就有一定的差異。而從各個(gè)行業(yè)領(lǐng)域的工作共性特點(diǎn)來看,文本分類的目的就是為了能夠存儲(chǔ)相應(yīng)的文本信息,保證數(shù)據(jù)信息的安全性。并在實(shí)際需要使用的時(shí)候能夠保證工作人員可以便捷的查找到相關(guān)數(shù)據(jù)信息,通過使用這些數(shù)據(jù)信息來完成具體的工作內(nèi)容,有效提高工作效率,促進(jìn)各個(gè)企業(yè)的發(fā)展進(jìn)步。從數(shù)學(xué)的角度來看,文本分類工作其實(shí)只不過是一個(gè)映射的過程??梢砸粚?duì)一的映射,把一些被表明類別的文本信息映射到現(xiàn)有的種類當(dāng)中,完成分類工作。也可以一對(duì)多的映射,比如,有些文本當(dāng)中既有這種類別的特征,也含有其他類別的分類特征,因此需要將同一個(gè)文本分別存放在不同的類別中。所以在文本分類中,可以看作是一個(gè)集合的值映射到一個(gè)矩陣上。將相同類別的文本劃入同一個(gè)矩陣當(dāng)中,就完成了基礎(chǔ)的文本分類工作。

      1.2 常見的文本類型

      目前,文本分類工作的基本類型主要有以下幾種:第一種是類標(biāo)記文本,有單標(biāo)記和多標(biāo)記的區(qū)分。例如,常見的一對(duì)一的文本就是單標(biāo)記文本,一對(duì)多的文本就是多標(biāo)記文本。第二種就是根據(jù)文件的存儲(chǔ)格式進(jìn)行分類,比如,把文件后綴為TXT格式的分為一類,把后綴為DOC格式的分為一類。第三種就是將文件按照內(nèi)容種類的不同進(jìn)行分類,這種方法相對(duì)比較細(xì)致,通常適用于企業(yè)管理或者圖書館書籍整理分類的工作。

      1.3 傳統(tǒng)文本分類方法

      傳統(tǒng)的文本分類方式大多都是由人工操作計(jì)算機(jī)設(shè)備來進(jìn)行的,相應(yīng)的工作任務(wù)量巨大,而且容易由于人為操作馬虎的情況導(dǎo)致分類工作出現(xiàn)失誤,這將會(huì)給后續(xù)的資源使用操作帶來安全隱患。基于此,相關(guān)工作人員正在積極研究應(yīng)用人工智能技術(shù)優(yōu)化文本分類工作內(nèi)容及形式的可行方法,以此來推動(dòng)文本分類工作的有序運(yùn)行。

      2 自然語言處理的文本分類工作流程

      工作人員在使用自然語言處理工作進(jìn)行文本分類時(shí),應(yīng)當(dāng)明確該項(xiàng)技術(shù)的基本操作原理,明確技術(shù)的優(yōu)化方向,并建立相應(yīng)的系統(tǒng)結(jié)構(gòu)體系。

      2.1 基本操作原理

      自然語言就是人們?nèi)粘O嗷贤ǖ恼Z言,如漢語、日語、英語等等,它們就是人們學(xué)習(xí)和溝通的工具。而自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。利用自然語言進(jìn)行文本分類,是將文本的內(nèi)容和文本的存儲(chǔ)方式都以人們所熟悉的語言習(xí)慣進(jìn)行處理,而不需要人們?nèi)ダ斫庥?jì)算機(jī)編程所使用的語言方程等等,這就使得各個(gè)工作崗位都可以操作計(jì)算機(jī)設(shè)備完成文本的存儲(chǔ)和查詢的工作。在具體的操作過程中,還涉及到對(duì)數(shù)據(jù)信息的文字轉(zhuǎn)化技術(shù),通過這種方式可以為人們?nèi)蘸笫褂梦谋拘畔⑻峁┍憷?/p>

      2.2 語音系統(tǒng)的設(shè)置

      自然語言處理在文本分類工作當(dāng)中可以設(shè)置語音接收和識(shí)別的系統(tǒng),在新時(shí)期的信息技術(shù)發(fā)展背景下,工作人員不僅可以手動(dòng)保存文本,還可以通過與計(jì)算機(jī)系統(tǒng)對(duì)話的方式完成存儲(chǔ)和分類工作。這在自然語言的理解過程中,實(shí)質(zhì)上就是一種映射,一種語言的表達(dá)方式轉(zhuǎn)換成為另一種語言的表達(dá)方式。目前,許多智能家居都安裝了這項(xiàng)語音系統(tǒng)功能,應(yīng)用效果良好。在這個(gè)環(huán)節(jié)當(dāng)中需要關(guān)注的主要問題就是計(jì)算機(jī)是否能夠理解人們輸入的指令,并進(jìn)行正確的操作。同時(shí),現(xiàn)階段,工作人員也在使用這種語音系統(tǒng)進(jìn)行文字的輸入,用來制作文本的內(nèi)容,這是自然語言處理的關(guān)鍵技術(shù)手段,有效提高了各行各業(yè)文本分類工作的效率和質(zhì)量。

      2.3 結(jié)構(gòu)體系的建立

      在實(shí)際應(yīng)用自然語言處理文本分類工作時(shí),工作人員還需要建立健全的結(jié)構(gòu)體系,將文本內(nèi)容存儲(chǔ)在相應(yīng)的系統(tǒng)結(jié)構(gòu)當(dāng)中,方便進(jìn)行集中管理。由于我國已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,相應(yīng)的文本數(shù)據(jù)信息十分龐大。在具體進(jìn)行自然語言處理工作時(shí),可以建立樹形結(jié)構(gòu)圖,明確分布出文本信息的衍生資源,分清各類資源之間的關(guān)系。而具體的樹形結(jié)構(gòu)還需要依靠于自然語言處理技術(shù)完成自動(dòng)分類和整理,工作人員可以設(shè)置相應(yīng)的計(jì)算機(jī)運(yùn)行程序。通過運(yùn)用一系列的查詢問答來進(jìn)行判斷及分類的工作,前一問題的回答直接關(guān)系到后續(xù)問題的提法。采用這種方法直到所有文本資源全部分類完成,這種基于人工智能技術(shù)下的自然語言處理工作,雖然能夠有效降低員工的工作壓力,但是在實(shí)際操作過程中卻容易由于計(jì)算機(jī)識(shí)別能力方面的問題而影響工作的效率。這就表示相應(yīng)的計(jì)算機(jī)技術(shù)還有待進(jìn)一步優(yōu)化研究,而現(xiàn)階段的優(yōu)化重點(diǎn)就在于計(jì)算機(jī)設(shè)備對(duì)人類智能的學(xué)習(xí)方面。

      3 機(jī)器學(xué)習(xí)的文本分類工作流程

      機(jī)器學(xué)習(xí)已經(jīng)成為了文本分類工作智能化的重要技術(shù)手段之一,相關(guān)研究工作的重點(diǎn)主要是對(duì)計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能等方面的研究工作。在這個(gè)問題上,如何幫助計(jì)算機(jī)熟悉人們的語言及操作習(xí)慣是這項(xiàng)技術(shù)的關(guān)鍵點(diǎn)。

      3.1 明確機(jī)器需要具備的功能種類

      在世界范圍內(nèi),我國的計(jì)算機(jī)智能化研究工作相對(duì)起步比較晚,相應(yīng)的技術(shù)操作能力還在進(jìn)一步的優(yōu)化研究工作當(dāng)中。從文本分類的角度來看,相關(guān)工作人員在研究機(jī)器學(xué)習(xí)的人工智能技術(shù)時(shí),應(yīng)當(dāng)明確機(jī)器自身需要具備的基礎(chǔ)功能有哪些。這就涉及到了圖靈測試的研究工作,這項(xiàng)實(shí)驗(yàn)研究是最早的機(jī)器學(xué)習(xí)人類語言習(xí)慣及操作習(xí)慣的測試。具體的測試內(nèi)容為:如果計(jì)算機(jī)能夠回答出人類提出的測試問題,并且,不論答對(duì)與否都無法讓人分辨出該答案是人類給出的還是計(jì)算機(jī)給出的,這樣就算完成了機(jī)器學(xué)習(xí)。從這個(gè)測試方面工作人員可以看出,機(jī)器學(xué)習(xí)主要學(xué)習(xí)的是如何模擬人的智能去回答問題。這就需要其具備對(duì)問題的識(shí)別功能,包括對(duì)實(shí)際物體的掃描功能以及語音系統(tǒng)的設(shè)置問題等等。通過這種方式讓機(jī)器有“眼睛”、“耳朵”和“嘴巴”,從而讓機(jī)器可以與工作人員進(jìn)行智能對(duì)話。

      3.2 數(shù)據(jù)的收集和分析

      機(jī)器學(xué)習(xí)技術(shù)最先需要研究的就是人的思維習(xí)慣,而這就涉及到對(duì)數(shù)據(jù)的分析工作。工作人員可以設(shè)置一些調(diào)查問卷,比如,心理測試。然后應(yīng)用信息技術(shù)統(tǒng)計(jì)相應(yīng)的結(jié)果,通過人工智能技術(shù)來分析人們的共性思維和個(gè)性思維模式。并建立數(shù)據(jù)庫將這些數(shù)據(jù)收集起來,這么做的目的是由于計(jì)算機(jī)需要不斷在數(shù)據(jù)收集過程中學(xué)習(xí),在這個(gè)過程中不斷模擬人類的思維模式,真正達(dá)到智能處理文本分類工作的目的。此外,數(shù)據(jù)收集工作還需要篩選出一些無用的數(shù)據(jù)信息,保證數(shù)據(jù)的真實(shí)性,這是機(jī)器學(xué)習(xí)技術(shù)優(yōu)化研究工作的重點(diǎn)內(nèi)容。

      3.3 結(jié)合具體工作內(nèi)容來設(shè)置

      工作人員要想將機(jī)器學(xué)習(xí)應(yīng)用于文本分類工作當(dāng)中,就需要結(jié)合文本分類的具體工作內(nèi)容進(jìn)行靈活的設(shè)置。比如,從文本的內(nèi)容來看,涉及到對(duì)標(biāo)點(diǎn)符號(hào)、表情符號(hào)的使用情況。當(dāng)工作人員在進(jìn)行語音輸入時(shí),機(jī)器應(yīng)當(dāng)具備自動(dòng)輸出正確標(biāo)點(diǎn)的能力。同時(shí),文本分類工作需要統(tǒng)計(jì)相同類型的文本,并區(qū)分不同類型的文本。機(jī)器學(xué)習(xí)的運(yùn)用過程中,其需要具備智能化、自動(dòng)化分辨文本格式及內(nèi)容的能力。針對(duì)這個(gè)問題,必須考慮學(xué)習(xí)算法泛化能力,保證測試數(shù)據(jù)集的錯(cuò)誤率要足夠低。泛化能力的研究主要有:以樣本個(gè)數(shù)趨近無窮大來描述模型的泛化能力;從“有限樣本”建立模型,以估計(jì)其對(duì)世界為真的程度的能力。

      3.4 相關(guān)注意事項(xiàng)

      自然語言處理與機(jī)器學(xué)習(xí)有很多共通的地方,因此工作人員在進(jìn)行人工智能的研究工作時(shí),通常都會(huì)將這兩項(xiàng)技術(shù)問題融合起來。由于這兩項(xiàng)技術(shù)的優(yōu)化流程都相對(duì)較為復(fù)雜,必須要保證工作人員具備專業(yè)的的計(jì)算機(jī)操作知識(shí),能夠了解人工智能的含義及新時(shí)期信息技術(shù)的發(fā)展方向。這就需要對(duì)工作人員進(jìn)行專業(yè)知識(shí)技能的培訓(xùn)工作,并應(yīng)當(dāng)結(jié)合文本分類工作的基本要求規(guī)范員工的工作行為。這里還涉及到對(duì)文本數(shù)據(jù)信息安全性的監(jiān)管工作,這是保障文本分類工作穩(wěn)步運(yùn)行的基礎(chǔ)。

      4 結(jié)論

      在文本分類工作當(dāng)中,基于傳統(tǒng)分類方法較為費(fèi)時(shí)費(fèi)力,而且容易出現(xiàn)操作錯(cuò)誤而給后續(xù)人們使用文本開展各項(xiàng)工作帶來不良影響?;诖?,人工智能技術(shù)的應(yīng)用優(yōu)勢逐漸受到工作人員的重視。本文當(dāng)中主要介紹的是人工智能技術(shù)中的自然語言處理和機(jī)器學(xué)習(xí),工作人員需要明確這兩項(xiàng)技術(shù)的基本操作原理,結(jié)合工作的流程制定科學(xué)合理的工作方案,建立相應(yīng)的系統(tǒng)結(jié)構(gòu)體系。不斷研究有效優(yōu)化技術(shù)操作方法的可行措施,推動(dòng)文本智能分類工作的可持續(xù)發(fā)展進(jìn)步,顯著提高工作效率和質(zhì)量。

      【參考文獻(xiàn)】

      [1]韋文娟,韓家新,夏海洋.基于Python自然語言處理的文本分類研究[J].福建電腦,2016,32(7):4-5.

      [2]關(guān)白,才讓叁智,才華.自然語言處理在信息檢索中的應(yīng)用研究[J].信息與電腦(理論版),2017(11):35-37.

      [3]李承晉,高沖,周文杰.共詞分析識(shí)別研究熱點(diǎn)的內(nèi)容效度研究:基于自然語言處理[J].圖書與情報(bào),2018(1):8-14.

      [4]黃勇,羅文輝,張瑞舒.改進(jìn)樸素貝葉斯算法在文本分類中的應(yīng)用[J].科技創(chuàng)新與應(yīng)用,2019,261(05):30-33.

      猜你喜歡
      文本分類自然語言處理運(yùn)用方法
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于貝葉斯分類器的中文文本分類
      小圖標(biāo),大用途
      考試周刊(2016年95期)2016-12-21 14:16:04
      廣播電視新聞策劃的創(chuàng)新思維探析
      初中化學(xué)教學(xué)中微課的運(yùn)用研究
      考試周刊(2016年86期)2016-11-11 09:18:01
      基于蟻群智能算法的研究文本分類
      發(fā)聲練習(xí)在小學(xué)音樂課堂中的有效運(yùn)用
      考試周刊(2016年79期)2016-10-13 23:38:05
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      榆林市| 奈曼旗| 萨迦县| 阿城市| 贵溪市| 泸西县| 安阳市| 武宁县| 荥阳市| 辰溪县| 柳州市| 姚安县| 容城县| 井研县| 卫辉市| 泽州县| 科尔| 当阳市| 周口市| 嘉定区| 辉南县| 徐汇区| 丁青县| 宣恩县| 平阳县| 耿马| 梓潼县| 临海市| 辛集市| 日土县| 武宣县| 闻喜县| 通江县| 桃江县| 文化| 志丹县| 湖口县| 嘉禾县| 基隆市| 岱山县| 漠河县|