大數(shù)據(jù)背景下文本語料預處理技術項目探析

2021-09-22 01:45:04許越黃思緣吳佳怡顧秦王絡

科海故事博覽·上旬刊 2021年6期

許越黃思緣吳佳怡顧秦王絡

摘要隨著計算機智能化技術發(fā)展的提升，越來越多的人有條件利用智能設備進行網(wǎng)上娛樂活動。但隨著用戶數(shù)量的增加，評論區(qū)會出現(xiàn)一些不文明、不理智的發(fā)言。本項目將通過對于不文明用語的及時識別和屏蔽，降低用戶在網(wǎng)絡上與其他用戶起沖突的可能性，也在一定程度上減輕了網(wǎng)絡不文明現(xiàn)象可能給被攻擊用戶造成的負面心理影響。

關鍵詞文明網(wǎng)絡交流環(huán)境文本分析技術人工智能

中圖分類號：H0;TP311 文獻標識碼：A 文章編號：1007-0745（2021）06-0015-03

1 項目價值和意義

隨著人們生活水平的不斷提高，智能設備已經(jīng)逐漸成為了人們生活中的必需品，越來越多的人使用智能設備在網(wǎng)絡上通過各種軟件進行線上社交活動，而在這個過程中，不可避免地會產(chǎn)生網(wǎng)絡不文明用語現(xiàn)象。軟件上的發(fā)布動態(tài)、評論、轉發(fā)、聊天等功能給人們提供了一個更方便地進行思想交流的平臺。但與此同時，網(wǎng)絡的匿名性也導致了各類網(wǎng)絡不文明現(xiàn)象的頻發(fā)。言語上口無遮攔的攻擊謾罵對網(wǎng)絡環(huán)境和被攻擊者的心理都造成了極其惡劣的影響，對于攻擊者本人正確的思想道德培養(yǎng)也有一定的阻礙。[1]

如今，國內(nèi)人工+機器的不文明用語審核方式雖已在一定程度上提升了識別效率，但仍無法趕上用戶創(chuàng)造網(wǎng)絡用語的速度，識別的準確度難以得到提升。且目前的機器識別方式仍較死板，只能通過簡單的文本比對機械地識別出某個字或某個詞，不能聯(lián)系前后文本完整地識別出語句的準確含義，因此有時會導致原本不存在不文明用語的文本被錯誤地識別、屏蔽，給用戶的線上交流帶來一定困擾，也降低了用戶的軟件使用體驗。而真正使用了不文明語言的文本也可能因為使用了替代詞而沒有被及時識別屏蔽，破壞了良好的網(wǎng)絡語言環(huán)境。本項目將通過文本預處理、建立語料庫、不文明用語庫等方式，使用相似性比較，聚類分析等文本挖掘技術，實現(xiàn)對不文明用語更高速、更準確的識別處理。

本項目的意義可以體現(xiàn)在用戶、網(wǎng)絡平臺、社會及人工智能發(fā)展四個方面：首先，對用戶而言，本項目將通過對于不文明用語的及時識別和屏蔽，降低用戶在網(wǎng)絡上與其他用戶起沖突的可能性，也在一定程度上減輕了網(wǎng)絡不文明現(xiàn)象可能給被攻擊用戶造成的負面心理影響，同時能有效避免為防止踩中屏蔽詞只能使用替代詞進行交流的情況，增強用戶的溝通效率，提升用戶的軟件使用體驗，為交流雙方提供一個更加健康的網(wǎng)絡環(huán)境;其次，對有用戶留言、評論、轉發(fā)等各類功能的網(wǎng)絡平臺而言，本項目能為其提供更高效的用戶留言管理方法和策略，創(chuàng)建良好的網(wǎng)絡語言環(huán)境，減少人工審核不文明用語的成本。同時也能為用戶創(chuàng)造一個更優(yōu)秀、更文明的線上交流平臺，提升用戶的使用體驗，使得用戶愿意更頻繁地使用該平臺進行線上交流，為平臺增加收益。本項目也能幫助平臺通過某一詞匯的提及度了解用戶對于某一話題的關注度，為網(wǎng)絡平臺業(yè)務開展和話題建設打下良好的基礎。增強平臺對網(wǎng)絡話題趨勢的掌握度，更清晰地了解用戶喜好，為軟件的功能提升提供方向，吸引更多用戶，最終達成良性循環(huán);再次，對社會而言，網(wǎng)絡肩負著引導輿論、成風化人的職責，使用文明規(guī)范的語言文字是傳承文明、傳播文化的基本要求。本項目能夠減少網(wǎng)絡上不文明用語的出現(xiàn)頻率，從而減少不文明用語對社會風氣產(chǎn)生的不良影響。同時，對于網(wǎng)絡上數(shù)量龐大的未成年用戶而言，一個文明和諧的網(wǎng)絡語言環(huán)境會對他們的身心健康發(fā)展起到良性引導的作用。也在一定程度上降低了線上的語言暴力給用戶的身心所帶來的危害;最后，對人工智能的發(fā)展而言，人工智能本就是在不斷學習中成長，通過對互聯(lián)網(wǎng)上大量的語言識別樣本進行學習意味著能夠使人工智能更精確地識別出當前文本的真實語義，甚至識別出帶有更強烈的情感色彩的調(diào)侃、諷刺等語氣的文本含義，避免錯誤的識別屏蔽，達到優(yōu)化用戶體驗的目的。提升人工智能在語言識別方面的成長進度，為未來人工智能的發(fā)展打下基礎。

2 項目設計

2.1 研究對象與研究方法

項目靈感來源于大一上學期我們在思想政治課上研究的課題——上海市大學生對于網(wǎng)絡道德的認識。該研究通過向大學生發(fā)放紙質(zhì)問卷和電子問卷的方式進行調(diào)查，采取簡單隨機抽樣的方式發(fā)放問卷。研究目的在于從整體上探究大學生對于網(wǎng)絡道德的認知程度，從人們對于網(wǎng)絡持有的意識態(tài)度、網(wǎng)上行為規(guī)范、評價選擇等方面設計問卷。同時，結合了校內(nèi)校外隨機采訪輔助前期調(diào)研，側重對訪問者在網(wǎng)上沖浪時對于不文明或具有煽動性的言論的真實感受。同時請大學生對于制止網(wǎng)絡暴力給予適當?shù)慕ㄗh。希望通過豐富的問卷內(nèi)容體現(xiàn)出大學生真實的心理狀態(tài)，從而進一步探究解決網(wǎng)絡暴力以及網(wǎng)絡不文明現(xiàn)象的有效手段。

2.2 樣本的概況及分布

本次研究在上海立信會計金融學院等學校共發(fā)放150份紙質(zhì)調(diào)查問卷，有效問卷112份。在性別比例上，參與調(diào)查的男生占20%，女生占80%。其中大一學生為本次研究著重調(diào)查的對象，占據(jù)80%。另外還有14.67%的大二學生，2.67%的大三學生和1.33%的大四學生參與了調(diào)查。

2.3 理論綜述

當下，大學生是使用網(wǎng)絡最頻繁、耗時最多的社會群體之一。根據(jù)數(shù)據(jù)統(tǒng)計，62.67%的大學生平均每天會花費4個小時以上的時間在網(wǎng)絡上，而在其中，有68%的大學生會把大部分時間花在社交媒體上，可見網(wǎng)上交流是大部分大學生必不可少的社交手段，如今常用的社交媒體包括在全國甚至全球關于娛樂休閑生活信息分享交流的平臺。通過數(shù)據(jù)顯示，82.67%和80%的大學生把微信和QQ作為常用的社交軟件。此外，還有44%、10.67%和5.33%的大學生分別把微博、貼吧和直播網(wǎng)站這樣具有互動性、透明性、公開性的網(wǎng)上交流平臺作為常用的社交軟件。其中的互動性就體現(xiàn)在媒體會為那些看到信息的人提供自由評論的區(qū)域，讓他們發(fā)表看法，這樣的設計讓互不相識的人通過網(wǎng)絡建立起了聯(lián)系，為網(wǎng)上沖浪增添了許多樂趣。

但是人們對待同一事物的看法不可能完全相同，有時候針對某個觀點難免會起紛爭。通過問卷調(diào)查的數(shù)據(jù)，41.34%的大學生無法做到在閱讀完信息后理性地判斷內(nèi)容的真實性再轉發(fā)評論，從而導致某些不慎或者過激的言論成為擾亂網(wǎng)絡秩序的源頭，網(wǎng)絡暴力也由此而生。

據(jù)調(diào)查，超過四分之一的大學生遭受過網(wǎng)絡暴力，其中有17.33%的大學生以個人行為代替報警或舉報維權進行回擊，而9.33%的大學生只選擇默默忍受或不予理睬?？梢妼τ诰W(wǎng)絡暴力的迫害，不是所有的大學生都能采用正確的渠道合理地進行解決。有專家指出，網(wǎng)絡暴力會帶來道德綁架、輿論嘲諷、虛假信息和侵犯隱私四種危害。如果沒有有效的手段來治理網(wǎng)絡暴力，勢必會對大學生乃至所有網(wǎng)民產(chǎn)生嚴重的影響。

為了營造和諧的網(wǎng)上交流環(huán)境，相關的平臺為用戶設置了舉報系統(tǒng)。當讀者瀏覽到垃圾營銷、涉黃信息、人身攻擊、有害信息以及違法信息時，可以按類型向平臺進行投訴，平臺的工作人員也會馬上進行反饋。

針對這一點，我們小組設計了相關問題來調(diào)查大學生是否能有效利用此類舉報系統(tǒng)。

經(jīng)數(shù)據(jù)統(tǒng)計，面對不良信息只有45.33%的大學生能夠理性地舉報所有他們認為的不良信息，多數(shù)大學生只是看心情舉報，少數(shù)則是不予理睬或是湊個熱鬧，這表明只有一半不到的大學生能有效利用平臺設置的舉報系統(tǒng)。大部分的大學生理應具備識別網(wǎng)絡暴力的能力，但為什么這類系統(tǒng)不能被大學生完全利用到位？提出疑問后，我們緊接著就大學生面對網(wǎng)絡暴力所持有的態(tài)度展開調(diào)查。

根據(jù)數(shù)據(jù)顯示，超過四分之一的大學生面對網(wǎng)絡暴力表示無所謂、看熱鬧或是低估了網(wǎng)絡暴力帶來的傷害。由此可見，從用戶角度來說，平臺設置的舉報系統(tǒng)一定程度上可以懲治發(fā)表不良言論的人，但還有一大批未能被舉報的用戶成為漏網(wǎng)之魚，同時，仍有一部分人因為對待網(wǎng)絡暴力的態(tài)度不同而未能及時制止使得事態(tài)惡化;從平臺自身來說，舉報系統(tǒng)的不完善同樣會讓部分用戶利用平臺的漏洞，不斷散播不良信息，這兩點讓網(wǎng)絡暴力的問題無法得到有效的根治。

所以，為了打造更加文明的網(wǎng)絡環(huán)境，我們小組決定從用戶發(fā)布信息的源頭探究在信息發(fā)布欄里加入文本分析的技術，通過文本預處理、建立語料庫、不文明用語庫等方式，使用相似性比較、聚類分析等文本挖掘技術，對評論者發(fā)表的留言、評論進行識別，提取文本特征，計算其與不文明用語語料的相似性。從而能夠相對快速、準確地對用戶留言進行及時的處理，識別其中的不文明用語并通過限制發(fā)文、信用打分等方式對留言者進行標識和評價，從而起到一定的警告作用。

3 項目方案

3.1 項目的主要問題

3.1.1評論數(shù)據(jù)的收集以及數(shù)據(jù)的處理

我們需要大量的數(shù)據(jù)建立屏蔽詞的語料庫與是否屏蔽的數(shù)據(jù)庫，首先要解決的是如何獲取大量真實可靠的清潔數(shù)據(jù)，而數(shù)據(jù)的處理方式需要運用大量實踐去建立初步模型決定采用的預處理方式，是本次項目的重難點，需要我們運用數(shù)據(jù)科學知識找到最有效的途徑。

3.1.2建立文明用語的語料庫

為了實現(xiàn)屏蔽機制，我們需要將網(wǎng)絡上的各種語言分類為文明用語、不文明用語和侮辱性用語。因為數(shù)據(jù)較為龐大且存在大量的俚語、隱晦語、網(wǎng)絡用語、符號等，如果要全面準確地識別隱藏其中的不文明用語，需要合適的文本分析挖掘方法。

3.1.3網(wǎng)絡環(huán)境維護方案優(yōu)化策略

在識別了是否需要屏蔽數(shù)據(jù)之后，我們需要采取一種相對合適的方式來優(yōu)化，例如直接屏蔽、將屏蔽部分的不文明用語替換成文明用語，并對用戶進行警告，設置一定限度的禁言措施。但過度的警告措施會引起用戶反感，所以需要大量數(shù)據(jù)來確定措施的力度對用戶的影響，在維護網(wǎng)絡環(huán)境的同時最大程度地保證用戶對平臺的駐留。

3.2 擬解決途徑

3.2.1數(shù)據(jù)的采集

我們準備選取當下在大學生中較熱門的網(wǎng)站，比如微博、易班，在這些以評論作為主要交流方式的平臺上可以更簡單地獲取信息，且網(wǎng)站中較大的流量可以獲得更龐大的數(shù)據(jù)，為之后建立數(shù)據(jù)庫和處理數(shù)據(jù)打下基礎。運用爬蟲作為搜集數(shù)據(jù)的工具可以快速準確地搜集到大量數(shù)據(jù)，減少人工搜集的難度。

3.2.2數(shù)據(jù)預處理

首先對于被爬取的數(shù)據(jù)需要過濾污染數(shù)據(jù)，去除重復數(shù)據(jù)，并去除無關消息，得到較為干凈的數(shù)據(jù)。中文語料數(shù)據(jù)大多為短文本或長文本。通過jieba和HanLP等較為簡單的中文分詞器與詞性注解的方式將較為長的文本分為我們需要的詞，運用去停止詞、特征提取、tf-idf權值計算等方式，將文本留言轉化成數(shù)據(jù)向量，使用文本相似性計算，logistic

（下轉第27頁）

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

大數(shù)據(jù)背景下文本語料預處理技術項目探析