摘要:在信息技術(shù)不斷創(chuàng)新的今天,互聯(lián)網(wǎng)已成為人們?nèi)粘I钆c工作生產(chǎn)的必備要素,尤其是在社交網(wǎng)絡(luò)快速發(fā)展的背景下,社交網(wǎng)絡(luò)越來越廣,為人們言語交流提供了良好的網(wǎng)絡(luò)平臺,為言語交際提供了更多的便利。就社交網(wǎng)絡(luò)分析來看,為準確提取社交網(wǎng)絡(luò)中的語言,解決中文字詞不準確及數(shù)據(jù)非結(jié)構(gòu)化等問題,本文研究以人工智能技術(shù)應用為背景,分析自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的應用,為社交網(wǎng)絡(luò)中字詞校對、語法查錯、語義校對及文本校對提供依據(jù),以此來豐富有關(guān)社交網(wǎng)絡(luò)語言處理的研究理論。
關(guān)鍵詞:人工智能;自動語言處理系統(tǒng);社交網(wǎng)絡(luò)分析
引言
社交網(wǎng)絡(luò)中匯聚了各種各樣的語言信息,代表了不同人群的思想觀點,這些語言具備一定的傳播性與影響性,尤其是不利社會和諧發(fā)展的負面語言,或有傷害性的網(wǎng)絡(luò)暴力語言,會對網(wǎng)絡(luò)輿論環(huán)境造成影響。對此,為維護和諧、穩(wěn)定的網(wǎng)絡(luò)環(huán)境,構(gòu)建健康的社交網(wǎng)絡(luò)語言秩序,為社交網(wǎng)絡(luò)健康發(fā)展提供保障,在社交網(wǎng)絡(luò)語言處理中,提倡運用人工智能的自動語言處理系統(tǒng),依靠科學技術(shù)處理的方式來對不符合社交網(wǎng)絡(luò)發(fā)展的負面語言進行校對。本研究結(jié)合國內(nèi)外文獻資料,基于前人提出的研究成果,借鑒過往研究提出的思路來分析自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的應用,探究自動語言處理系統(tǒng)應用的價值與意義,從而為社交網(wǎng)絡(luò)長效發(fā)展提供依據(jù)。
1. 自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的字詞校對
1.1 構(gòu)建語料庫
為實現(xiàn)對社交網(wǎng)絡(luò)語言字詞的準確校對,自動語言處理系統(tǒng)可通過對社交網(wǎng)絡(luò)中已發(fā)布的文章、文案等進行字詞核查,對相鄰字、相鄰詞及字詞進行校對,自動檢測當中錯誤的字詞。研究以微博平臺2022年某營銷號發(fā)布的文章為例,字數(shù)共有326萬字,運用自動語言處理系統(tǒng)構(gòu)建容量為20.5MB的語料庫。依托人工智能、大數(shù)據(jù)、云計算等先進技術(shù)分類整合相關(guān)數(shù)據(jù),利用人工智能的特性,根據(jù)人們文章寫作的用詞習慣對語料庫內(nèi)容進行更新,為社交網(wǎng)絡(luò)中字詞校對提供保障。
1.2 查錯接續(xù)關(guān)系
在語言處理中,字詞存在二元接續(xù)關(guān)系,要想有效過濾社交網(wǎng)絡(luò)中不合規(guī)的語言,在字詞校對上還需結(jié)合字詞間的接續(xù)關(guān)系進行查錯處理,重點對字串相鄰的字詞關(guān)系進行校對。比如字串為S1S2…Si-1SiSi+1…Sn,自動語言處理系統(tǒng)在判斷S和鄰近字詞關(guān)系時,可結(jié)合語言學二元模型理論,對Si-1與Si的關(guān)系、Si和Si+1的關(guān)系進行查錯處理?;谇拔臉?gòu)建的語料庫,提出Si-1至Si轉(zhuǎn)移率為P(Si/Si-1)的假設(shè),若P達到一定閾值,可確定Si與Si-1為二元接續(xù)關(guān)系。自動語言處理系統(tǒng)的應用可準確認定Si是否出錯,首先要確定Si-1和Si的接續(xù)關(guān)系,若為接續(xù),則確定Si無錯誤,查錯結(jié)果符合相關(guān)標準;若為不接續(xù),就要還確定Si和Si+1的接續(xù)關(guān)系,若結(jié)果仍為不接續(xù),就可確定為Si錯誤。
2. 自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的查錯算法
基于社交網(wǎng)絡(luò)語言快速傳播的特點,媒體營銷號在微博平臺上發(fā)表的文章會快速發(fā)酵,且傳播范圍極廣,若存在語法錯誤,就會產(chǎn)生負面輿論,從而影響營銷號的運營。對此,應用自動語言處理系統(tǒng)的查錯算法能夠?qū)ι缃痪W(wǎng)絡(luò)中的語言語法進行分析與處理。以社交網(wǎng)絡(luò)語言的規(guī)則庫為基準,對語言的結(jié)構(gòu)進行識別,明確劃分語言的主謂賓結(jié)構(gòu),并以由下到上的處理方式來分別對語句結(jié)構(gòu)進行校對,檢測是否存在語法錯誤的問題[1]。從自動語言處理系統(tǒng)語法查錯的過程來看,要先對句子進行預處理,使短句串聯(lián)與捆綁,為語句的精準處理提供依據(jù),確保查錯算法在識別語法錯誤問題上,結(jié)果更加準確。比如對謂語語法的校對,查錯算法的運用如下:
input語句:P=Q1…Qi…Qn
For i=1 to n do
if(詞Qi不在語片中)
{結(jié)合規(guī)則庫確定Qi能否充當謂語;}
if(Qi可充當謂語)
{添加謂語鏈Prdelink;
for (w=Predlink->firstword to Predlink->lasword)
if(Predlink->num=1)代表P謂語成分正確;
if(Predlink->num=0)代表P謂語缺失;}
3. 自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的語義校對
3.1 構(gòu)建依存關(guān)系
在社交網(wǎng)絡(luò)分析中的語義校對中,自動語言處理系統(tǒng)的應用能夠以實例語義查錯為基礎(chǔ),研判語句語義是否正確,分析語句結(jié)構(gòu),并通過采集網(wǎng)絡(luò)系統(tǒng)中相關(guān)語句案例,通過建立集合n,對集合n中所有的語句實例和未校對語句相似度進行計算,從中選取相似度較高的實例i。比較i和未校對的語句,從中獲取語義校對的查錯結(jié)果。從校對操作來看,自動語言處理系統(tǒng)整個運作的過程雖簡便,但考慮到集合n中存有較多實例,在計算語義相似度方面,需要處理的語句較多,會使工作量增加,延長了語義相似度計算的時間。對此,為充分發(fā)揮自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)語義校對中準確判斷的效能,通過構(gòu)建依存關(guān)系,能夠以語義依存語法的形式來對字詞句進行準確判斷,依托字詞句之間良好的依存關(guān)系來確定語句的語義特征,為語句相似度計算的準確性提供保障[2]。
3.2 語句相似度計算
為實現(xiàn)精準高效的語義查錯,自動語言處理系統(tǒng)在語義校對中,要通過對語句相似度的計算來確保語義準確無誤[3]。在語句相似度的計算中,要從字詞句有效搭配相似度的角度進行考慮,須抓住每一個語句的核心詞和語句中依存的有效字詞。從語句結(jié)構(gòu)來看,有效詞可看作形容詞、名詞及動詞等類型,此類詞組能夠準確表達出一段語句的語義,對這些詞組的相似度進行計算是社交網(wǎng)絡(luò)語言中語義查誤的重點[4]。例句:事發(fā)后,傷員被及時送往就近醫(yī)院救治。這句話中的關(guān)鍵詞為“送往”,其搭配的字詞可表現(xiàn)為送往-傷員、送往-醫(yī)院及送往-救治等,通過對關(guān)鍵詞和有效詞相似程度的計算,不僅簡化了傳統(tǒng)語句相似度計算繁雜的工作量,在省略多個計算過程后,還能保障語句相似度計算結(jié)果的準確性,這便是語義校對中應用自動語言處理系統(tǒng)的價值與意義。文中公式(1)為語句相似度計算公式:
(1)
基于上述式子來看,SIM(Sen1, Sen2)是語句相似度,代表了語句字詞有效搭配對匹配的總權(quán)重,PairCount1與PairCount2則為語句有效搭配數(shù),不同情況下的權(quán)重設(shè)計見表1。
Word1為語句1,Word1為語句1的相似語句;Word2為語句2,Word2為語句2的相似語句。在多種例句相似度計算情況下,對比未校對語句和相似度最高語句,由此來對語句語義正誤進行判斷,完成語義校對。
4. 自動語言處理系統(tǒng)在社交網(wǎng)絡(luò)分析中的文本校對
4.1 構(gòu)建易混淆詞典
文本的校對和字詞、語法、語義的校對有較大差異。應用自動語言處理系統(tǒng)對社交網(wǎng)絡(luò)文本校對,分別有糾錯與查錯兩種校對方式,前者是通過檢測出文本的錯誤,根據(jù)錯誤的內(nèi)容提出對應措施進行糾正,基于中文文本的常見錯誤,自動提取錯誤特征,收集相關(guān)詞典內(nèi)容,從而為系統(tǒng)自動識別錯誤用詞提供參考;后者則為文本錯誤內(nèi)容的提取,通過指明文本的錯誤點和特征,以供文本錯誤內(nèi)容的修改進行參考[5]。易混淆詞典的構(gòu)建要依托糾錯的校對方式,混淆詞典的內(nèi)容包含了文本錯誤字詞與糾錯建議,圖1為混淆詞典作業(yè)原理。
4.2 糾錯算法編程
為凸顯自動語言處理系統(tǒng)智能化、自動化高效運作與處理的效能,在校對社交網(wǎng)絡(luò)語言文本上,一般都以糾錯的校對方式為主[6]。通過對文本字詞錯誤的判斷,能夠根據(jù)不同的錯誤特征提出針對性糾錯建議,但針對文本校對中,未發(fā)現(xiàn)文本錯誤的情況,就無法給出客觀合理的糾錯建議。所以,在自動語言處理系統(tǒng)的應用中,還需進行糾錯算法編程處理,比如力矩我們認為可以延長時間[7]。將“可疑延長”作為系統(tǒng)文本校對中判斷出的字詞錯誤,設(shè)計糾錯算法的編程如下:
string[ ]zc correct;//定義數(shù)組用作糾錯建議緩沖區(qū)
inti=0;//糾錯計數(shù)器為0
//x系統(tǒng)檢測的錯誤字串
//易混淆詞典中提出糾錯建議
for(intm=0;m<=errmatchco rrect.leng th;m++)
//易混淆詞典中未找到糾錯建議
if(i==0){
for(m=0;m<=zctx.length;m++)
if(e.gerErrword()==zctxcorrect[m].getErrword())
//字詞同現(xiàn)概率表
Zccorrect[i]=zctxcorrect[m].getCorrect();}
5. 自動語言處理系統(tǒng)的搭建與實驗
5.1 文本自動校對的流程
為實現(xiàn)對社交網(wǎng)絡(luò)語言文本的準確校對,選用的自動語言處理系統(tǒng),要具備查錯、預處理及校對糾錯等模塊功能,系統(tǒng)功能實現(xiàn)流程如下:(1)輸入與打開文本,以正向的順序讀入單句,預處理文本結(jié)構(gòu)和內(nèi)容,并通過雙向模式匹配處理,根據(jù)事先構(gòu)建的詞庫,對文本結(jié)構(gòu)進行識別,明確字詞句的詞性;(2)構(gòu)造字頻向量與二元詞性同現(xiàn)頻率表,創(chuàng)建完善的文本查錯知識庫?;谙到y(tǒng)查錯、糾錯的模塊,對文本字詞進行識別與查誤,判斷文本字詞是否存在連接方式與連接順序的錯誤,并判斷語句結(jié)構(gòu)是否完整,語法和語義的表達是否正確;(3)利用易混淆詞典,準確定位自動語言處理系統(tǒng)查詢中得出的錯誤內(nèi)容,提出相應的糾錯建議,進行糾錯處理;(4)在完成糾錯處理后,要執(zhí)行判斷程序文本處理是否結(jié)束。當完成處理后,則流程解鎖;若未完成處理,系統(tǒng)將自動跳轉(zhuǎn)至步驟(1),反復處理指導文本處理無誤,完成整個文本自動校對的程序。
5.2 實驗內(nèi)容
選取微博平臺某營銷號發(fā)布的136篇文章進行實驗分析,從中挑選出230個正確句子與200個錯誤句子,其中60個有字詞級錯誤,100個有語法級錯誤,40個有語義級錯誤。病句舉例如下:
(1)他是本地一家知名企業(yè)的總載。(“載”應為“裁”,屬于字詞級錯誤);(2)本縣蘋果的品種非常多,這里無法一一例舉。(“例舉”應為“列舉”,屬于語義級錯誤);(3)巴西總理授予法院獲得簽發(fā)“禁止未成年人進入酒吧證”的權(quán)力。(應刪除“獲得”,屬于語法級錯誤)。
實驗引入以下參數(shù):(1)召回率=正確發(fā)現(xiàn)句子數(shù)/實際錯誤句子數(shù)×100%;(2)誤報率=(發(fā)現(xiàn)錯誤句子數(shù)-正確發(fā)現(xiàn)句子數(shù))/發(fā)現(xiàn)錯誤句子數(shù)×100%;(3)準確率=1-誤報率。
實驗結(jié)果見表2。
利用自動語言處理系統(tǒng)校對社交網(wǎng)絡(luò)語言的文本,發(fā)現(xiàn)召回率與準確率較高,基本在60%以上,在語法錯誤句子的判斷中,召回率與準確率較理想,分別為81%和84.4%。
結(jié)語
基于上述研究分析可以看出,社交網(wǎng)絡(luò)在蓬勃發(fā)展的背景下,網(wǎng)絡(luò)體系中傳播的語音信息還需從語言結(jié)構(gòu)、字詞準確性、語法正誤、語義正誤及文本正誤等方面進行充分考慮。為利用社交網(wǎng)絡(luò)來傳播符合社會主義核心價值觀的語言信息,應用人工智能的自動語言處理系統(tǒng),能夠以科學化處理的方式準確判斷社交網(wǎng)絡(luò)中各類賬戶在文章發(fā)表中語言的準確性,有效過濾一些不符合社交網(wǎng)絡(luò)語言規(guī)則庫的違規(guī)語言,及時糾正在字詞、語法、語義等方面的錯誤,以完善的語料庫來優(yōu)化語言規(guī)律,為語言自動處理系統(tǒng)在社交網(wǎng)絡(luò)中的應用與推廣提供依據(jù)。同時,社交網(wǎng)絡(luò)還能依托自動語言處理系統(tǒng),減少網(wǎng)絡(luò)暴力語言的產(chǎn)生,維護和諧、穩(wěn)定的網(wǎng)絡(luò)語言秩序,構(gòu)建良好的網(wǎng)絡(luò)語言環(huán)境,從而為社交網(wǎng)絡(luò)的健康發(fā)展提供保障。
參考文獻:
[1]張洪忠,王競一.社交機器人參與社交網(wǎng)絡(luò)輿論建構(gòu)的策略分析——基于機器行為學的研究視角[J].新聞與寫作,2023, (2):35-42.
[2]薛飛.人工智能在計算機網(wǎng)絡(luò)技術(shù)中的應用研究[J].現(xiàn)代雷達,2022,44 (12):125-127.
[3]古天龍,郝峰銳,李龍,等.社交網(wǎng)絡(luò)中負責隱私協(xié)商的智能體行為追責[J].軟件學報,2022,33(9):3453-3469.
[4]李小偉,舒輝,光焱,等.自然語言處理在簡歷分析中的應用研究綜述[J].計算機科學,2022,49(S1):66-73.
[5]Girish K,Pushpavathi M,Abraham A,et al.Automatic speech processing softwareNew sensitive tool for the assessment of nasality:A preliminary study[J].Journal of Cleft Lip Palate and Craniofacial Anomalies,2022,9(1):62-88.
[6]郭九霞.基于自然語言處理的空管系統(tǒng)危險源文本分類方法研究[J].安全與環(huán)境學報,2022,22(2):819-825.
[7]張志勇,荊軍昌,李斐,等.人工智能視角下的在線社交網(wǎng)絡(luò)虛假信息檢測、傳播與控制研究綜述[J].計算機學報,2021,44(11):2261-2282.
作者簡介:陸苗,博士研究生,講師,研究方向:人工智能。