摘? 要:移動(dòng)互聯(lián)時(shí)代資訊泛濫,導(dǎo)致違規(guī)采編發(fā)布互聯(lián)網(wǎng)新聞信息、散播虛假信息等“標(biāo)題黨”網(wǎng)絡(luò)傳播亂象,識(shí)別“標(biāo)題黨”已成為當(dāng)前互聯(lián)網(wǎng)整治的重要任務(wù)。文章分析了當(dāng)前互聯(lián)網(wǎng)“標(biāo)題黨”的核心特征。對(duì)其中5類(lèi)“標(biāo)題黨”進(jìn)行詳細(xì)分析。對(duì)比了當(dāng)前流行的多種識(shí)別算法的表現(xiàn),給出了對(duì)應(yīng)的查全率和查準(zhǔn)率。提出一種基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法,在綜合類(lèi)型“標(biāo)題黨”語(yǔ)料集中表現(xiàn)較好,彌補(bǔ)當(dāng)前“標(biāo)題黨”識(shí)別算法的局限性。
關(guān)鍵詞:規(guī)則匹配;自動(dòng)化;“標(biāo)題黨”識(shí)別;自然語(yǔ)言處理
中圖分類(lèi)號(hào):TP391.1? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)20-0124-04
Research on the Recognition Method of“sensational headline writer”
Based on NLP Technology
YANG Xiaofeng
(Zhongyuan Converging Media Technology Research Center,Zhengzhou? 450007,China)
Abstract:In the era of mobile internet,information is overload,leading to illegal editing and publishing of internet news information,dissemination of false information and other “sensational headline writer” network dissemination chaos,identification of “sensational headline writer” has become an important task of the current internet rectification. This paper analyzes the core characteristics of the current internet “sensational headline writer”. Five categories of “sensational headline writer” are analyzed in detail. Compared with the performance of many popular recognition algorithms,the corresponding recall rate and precision rate are given. This paper proposes a “sensational headline writer” recognition algorithm based on rule matching,which performs well in the comprehensive type of “sensational headline writer” corpus,and makes up for the limitations of the current “sensational headline writer” recognition algorithm.
Keywords:rule matching;automation;“sensational headline writer” recognition;natural language processing
0? 引? 言
隨著互聯(lián)網(wǎng)的發(fā)展,終端設(shè)備資源的不斷完善,人們對(duì)新聞的關(guān)注度、和需求也不斷地提高,而網(wǎng)絡(luò)新聞則成為現(xiàn)階段互聯(lián)網(wǎng)應(yīng)用的新寵。在互聯(lián)網(wǎng)據(jù)CNNIC中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的第44次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2019年6月,我國(guó)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)6.86億,較2018年底增長(zhǎng)1 114萬(wàn),占網(wǎng)民整體的80.3%,手機(jī)網(wǎng)絡(luò)新聞?dòng)脩粢?guī)模達(dá)6.60億,較2018年底增長(zhǎng)734萬(wàn),占手機(jī)網(wǎng)民78.0%。2019年上半年,手機(jī)網(wǎng)民各類(lèi)APP應(yīng)用使用時(shí)長(zhǎng)占比調(diào)查結(jié)果中,網(wǎng)絡(luò)新聞的使用時(shí)長(zhǎng)占比4.1%。
在我國(guó)網(wǎng)絡(luò)媒體快速發(fā)展的時(shí)代背景下,網(wǎng)絡(luò)媒體已迎來(lái)平臺(tái)、技術(shù)、內(nèi)容、資本和人才競(jìng)相迸發(fā)的新高峰,但依然面臨著內(nèi)容真實(shí)性不足、可信度與嚴(yán)肅性缺失等新的矛盾。2020年國(guó)家網(wǎng)信辦召開(kāi)專(zhuān)項(xiàng)部署會(huì)議,決定自7月24日起,針對(duì)社會(huì)反映強(qiáng)烈的商業(yè)網(wǎng)站平臺(tái)和“自媒體”擾亂網(wǎng)絡(luò)傳播秩序突出問(wèn)題,在全國(guó)范圍內(nèi)開(kāi)展集中整治。
2018年中原工學(xué)院中原融媒體技術(shù)研究中心與河南廣播電視臺(tái)進(jìn)行科研合作,主要針對(duì)新聞內(nèi)容質(zhì)量與新聞傳播路徑進(jìn)行跟蹤分析,本課題為該研究方向的子課題。本課題目標(biāo)為解決“自媒體”片面追逐商業(yè)利益,為吸引“眼球”炒作熱點(diǎn)話題、違規(guī)采編發(fā)布互聯(lián)網(wǎng)新聞信息、散播虛假信息、搞“標(biāo)題黨”等網(wǎng)絡(luò)傳播亂象,提高廣播電視臺(tái)自媒體頻道新聞質(zhì)量。
1? “標(biāo)題黨”特征分析
互聯(lián)網(wǎng)內(nèi)容傳播不單純以“新聞”平臺(tái)為媒介,還包括各類(lèi)博客、公眾號(hào)等平臺(tái)發(fā)布的“技術(shù)類(lèi)”文章、“科普類(lèi)”文章、“教育類(lèi)”文章等,本文“標(biāo)題黨”研究對(duì)象包括“新聞”在內(nèi)的所有“超媒體”。將通過(guò)發(fā)布不實(shí)標(biāo)題,吸引網(wǎng)友點(diǎn)擊查看的行為的“超媒體”統(tǒng)稱(chēng)為“標(biāo)題黨”。在當(dāng)前互聯(lián)網(wǎng)中“標(biāo)題黨”文章以不同的文案形態(tài),不同的目標(biāo)而存在,例如,吸引點(diǎn)擊量,軟文廣告等。本文對(duì)當(dāng)下互聯(lián)網(wǎng)文章進(jìn)行歸納整理,將文章根據(jù)不同的展現(xiàn)形態(tài)分為以下類(lèi)別:
(1)圖片類(lèi)文章:文章內(nèi)容由新聞標(biāo)題、圖片構(gòu)成。
(2)視頻類(lèi)文章:文章內(nèi)容由新聞標(biāo)題、正文文本、視頻資源、音頻資源構(gòu)成。
(3)文字類(lèi)文章:文章內(nèi)容由新聞標(biāo)題、正文文本構(gòu)成。
(4)圖文類(lèi)文章:文章內(nèi)容由新聞標(biāo)題、正文文本、圖片構(gòu)成。
不同的用戶在對(duì)文章表現(xiàn)出關(guān)注的第一印象都是來(lái)自文章標(biāo)題,本文通過(guò)對(duì)文章內(nèi)容是否符合用戶期待為分析目標(biāo),確認(rèn)文章是否屬于“標(biāo)題黨”內(nèi)容。因此本文將“標(biāo)題黨”文章歸納為以下類(lèi)別:
(1)營(yíng)銷(xiāo)類(lèi)“標(biāo)題黨”:該類(lèi)文章的特點(diǎn)是標(biāo)題內(nèi)容豐富吸引人,并且與文章內(nèi)容符合度較高。但文章最后以廣告、營(yíng)銷(xiāo)為目標(biāo),降低內(nèi)容的可信度,降低用戶期待。該類(lèi)“標(biāo)題黨”文章主要集中于技術(shù)類(lèi)文章中,以圖片類(lèi)、圖文類(lèi)文章為主要表現(xiàn)形態(tài)。
(2)熱點(diǎn)新聞“標(biāo)題黨”:該類(lèi)文章的特點(diǎn)是將文章標(biāo)題設(shè)定為當(dāng)下最火最熱的標(biāo)題內(nèi)容,或作為熱點(diǎn)標(biāo)題后續(xù),吸引用戶。而文章內(nèi)容多以已發(fā)布內(nèi)容掐頭去尾的形式展現(xiàn),用戶期待落差較大。該類(lèi)“標(biāo)題黨”可能出現(xiàn)上述4種表現(xiàn)形態(tài)。
(3)誘導(dǎo)類(lèi)描述“標(biāo)題黨”:該類(lèi)文章的特點(diǎn)是多以情欲類(lèi)、違背價(jià)值觀類(lèi)、極致類(lèi)內(nèi)容作為標(biāo)題,文章內(nèi)容為廣告、小說(shuō),該類(lèi)“標(biāo)題黨”以圖片類(lèi)、圖文類(lèi)文章為主要表現(xiàn)形態(tài)。例如,在某些娛樂(lè)類(lèi)消息中,對(duì)明星進(jìn)行贊美類(lèi)的文字,卻多數(shù)以負(fù)面消息標(biāo)題展示進(jìn)行吸睛,一些小說(shuō)文字,會(huì)被冠以夸張修飾的辭藻,如標(biāo)題為“聰慧兒童嚴(yán)守家門(mén),兇殘犯人偽裝其母聲欲進(jìn)屋慘被識(shí)破”的文章,實(shí)際是經(jīng)典童話故事《小紅帽》。
(4)多媒體歧義“標(biāo)題黨”:該類(lèi)文章的特點(diǎn)是文章內(nèi)容以純圖片或視頻為主,幾乎不含有任何相關(guān)文字介紹,被標(biāo)以歧義標(biāo)題吸睛,給用戶帶來(lái)誤導(dǎo)。
(5)時(shí)間、地點(diǎn)誤導(dǎo)式“標(biāo)題黨”:該類(lèi)文章的特點(diǎn)是介紹的新聞、事件,對(duì)于時(shí)間、地點(diǎn)故意不進(jìn)行說(shuō)明,將其他國(guó)家發(fā)生的事件,或者發(fā)生在很早之前的事情換一中描述標(biāo)題,誤導(dǎo)用戶是最近在國(guó)內(nèi)發(fā)生的事件。該類(lèi)“標(biāo)題黨”多表現(xiàn)為純多媒體形態(tài),如圖1所示,媒資為“視頻”,被冠以“女子確診感染新冠,被丈夫狠心推下五樓!”的標(biāo)題吸睛,不表明消息來(lái)源地,從而誤導(dǎo)用戶。
在移動(dòng)互聯(lián)時(shí)代資訊泛濫的背景下,無(wú)論是自媒體,還是專(zhuān)業(yè)媒體人都會(huì)廣泛使用“標(biāo)題黨”方法吸引眼球,從而增加流量與點(diǎn)擊量。然而,媒體制作的標(biāo)題只要不違反法律與職業(yè)道德,當(dāng)然可以依靠提升標(biāo)題的“吸引力”的方式來(lái)吸引廣大讀者,這無(wú)可厚非。但是,違背公序良俗,或者文題不符、刻意“嘩眾取寵”似的“標(biāo)題黨”行為是不可取的。
2? “標(biāo)題黨”識(shí)別算法
2.1? 相關(guān)識(shí)別算法分析
近年來(lái)在“標(biāo)題黨”新聞識(shí)別相關(guān)研究中,以羅佳[1]的《基于潛在語(yǔ)義分析的標(biāo)題黨新聞識(shí)別技術(shù)研究》,梅鐘宵[2]的《基于文本挖掘的新聞標(biāo)題與內(nèi)容契合度評(píng)價(jià)研究》為代表的一類(lèi)識(shí)別算法,是以研究文章標(biāo)題與文章內(nèi)容的契合度為切入點(diǎn),通過(guò)提取文章的主題詞為核心,進(jìn)行“標(biāo)題黨”文章的評(píng)判。以王志超等[3]的《基于主題句相似度的標(biāo)題黨新聞鑒別技術(shù)研究》,趙帥[4]的《基于改進(jìn)型VSM-HowNet融合相似度算法在“標(biāo)題黨”新聞識(shí)別中的研究》為代表的另一類(lèi)識(shí)別算法,以研究文本語(yǔ)義相似度為切入點(diǎn),通過(guò)主題句提取算法,對(duì)標(biāo)題和主題句的相似度進(jìn)行分析,從而來(lái)判別“標(biāo)題黨”文章。
無(wú)論是基于主題詞分布的“標(biāo)題黨”判別方法,還是基于主題句相似度的“標(biāo)題黨”識(shí)別方法,兩者都僅僅在“純文本”類(lèi)型的“標(biāo)題黨”文章識(shí)別中具有一定的表現(xiàn)效果。但是,對(duì)于以圖片、視頻為主的“標(biāo)題黨”識(shí)別表現(xiàn)較差。
2.2? 基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法
“標(biāo)題黨”識(shí)別算法的核心,是分析標(biāo)題與文章內(nèi)容之間的匹配程度。通過(guò)第1節(jié)的分析可知,文章內(nèi)容的表現(xiàn)形態(tài)有多種,本文通過(guò)研究目前已發(fā)表的多種“標(biāo)題黨”識(shí)別算法的表現(xiàn)發(fā)現(xiàn),不同的算法,在不同類(lèi)型的“標(biāo)題黨”類(lèi)型文章中的表現(xiàn)不同。因此,對(duì)“標(biāo)題黨”的識(shí)別,首先需要采集全面的“標(biāo)題黨”類(lèi)型,在識(shí)別過(guò)程中,應(yīng)根據(jù)“標(biāo)題黨”類(lèi)別匹配不同的識(shí)別算法。
本文提出一種基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法,通過(guò)提取“標(biāo)題黨”新聞的語(yǔ)法結(jié)構(gòu)特征,構(gòu)建“標(biāo)題黨”新聞結(jié)構(gòu)模板規(guī)則庫(kù),結(jié)合主題詞分布和主題句相似度計(jì)算方法,提高“標(biāo)題黨”識(shí)別準(zhǔn)確率。
如圖2所示,首先對(duì)訓(xùn)練語(yǔ)料庫(kù)中的新聞數(shù)據(jù)進(jìn)行基本特征提取,完成以新聞稿件為單位的文檔分詞、詞性標(biāo)注以及句法分析。然后抽取文檔對(duì)應(yīng)的主題句,在基于主題詞分布和主題句相似度匹配之前,先通過(guò)規(guī)則庫(kù)進(jìn)行“標(biāo)題黨”過(guò)濾識(shí)別,將具有明顯“標(biāo)題黨”特征的文章直接篩選出來(lái)。最后,通過(guò)主題詞相似度計(jì)算模型進(jìn)行標(biāo)題黨識(shí)別評(píng)分,通過(guò)評(píng)分結(jié)果識(shí)別規(guī)則庫(kù)外的“標(biāo)題黨”新聞。
其中,根據(jù)“標(biāo)題黨”常見(jiàn)標(biāo)題結(jié)構(gòu),本文構(gòu)建規(guī)則庫(kù)內(nèi)容為:
(1)標(biāo)題長(zhǎng)度限制,標(biāo)題內(nèi)含有字符長(zhǎng)度短,標(biāo)題沒(méi)有具體含義,無(wú)法讓用戶辨識(shí)出新聞內(nèi)容的概要,此類(lèi)新聞具有明顯的“標(biāo)題黨”嫌疑,在新聞中應(yīng)處于較為劣質(zhì)的文章。
(2)標(biāo)題中使用“極致”修辭手法的,例如:類(lèi)似于“史上最……”“最強(qiáng)……”“超越想象的……”的虛假宣傳類(lèi)的劣質(zhì)文章。
(3)標(biāo)題中含有誘導(dǎo)類(lèi)信息,例如:“某貧困女博士面試名企,竟被要求量三圍”“某外國(guó)美女不要求中國(guó)男方有房有車(chē),但竟然提出這個(gè)要求”“美少婦買(mǎi)彩票中頭彩,竟是因?yàn)椤钡取?/p>
(4)內(nèi)容為“眾所周知”的“標(biāo)題黨”,例如《小紅帽》等經(jīng)典故事作為文章內(nèi)容,標(biāo)題與原著不匹配的劣質(zhì)文章。
(5)標(biāo)題中含有違背價(jià)值體系的標(biāo)題,這類(lèi)“標(biāo)題黨”容易煽動(dòng)人內(nèi)心的負(fù)面情緒,比如:“某名牌大學(xué)生勤工儉學(xué),卻檢查得了某癌癥,人生最后時(shí)刻說(shuō)出一句話震驚世人”。
(6)標(biāo)題中內(nèi)含有敏感詞類(lèi)的標(biāo)題,例如含有色情類(lèi)敏感詞。
(7)標(biāo)題屬于專(zhuān)業(yè)類(lèi)領(lǐng)域,例如物理、數(shù)學(xué)、天文等學(xué)科,內(nèi)容包含已知知識(shí)內(nèi)容,例如“你知道宇宙有多大嗎”“宇宙的邊緣竟然在這里”“最接近神的科學(xué)家”“人類(lèi)竟然起源于這里”等,實(shí)際內(nèi)容為隨意拼接的劣質(zhì)文章。
3? “標(biāo)題黨”識(shí)別算法對(duì)比實(shí)驗(yàn)
3.1? 語(yǔ)料集構(gòu)建
本文構(gòu)建“標(biāo)題黨”語(yǔ)料庫(kù)共包含1 156篇文章,其中被標(biāo)注為“標(biāo)題黨”的文章共371篇?!胺菢?biāo)題黨”文章來(lái)自河南廣播電視臺(tái)2019年1月至2020年6月發(fā)布至其內(nèi)容管理平臺(tái)下的通過(guò)審核的文章,“標(biāo)題黨”文章來(lái)自網(wǎng)絡(luò)資源及自創(chuàng)。具體數(shù)據(jù)分布如表1所示。
3.2? 實(shí)驗(yàn)結(jié)果
本文將被正確識(shí)別為“標(biāo)題黨”的數(shù)量記錄為“TP”,被正確識(shí)別為“非標(biāo)題黨”的數(shù)量記錄為“TN”,被錯(cuò)誤識(shí)別為“標(biāo)題黨”的數(shù)量記錄為“FP”,被錯(cuò)誤識(shí)別為“非標(biāo)題黨”的記錄為“FN”。并通過(guò)查全率和查準(zhǔn)率兩個(gè)度量值來(lái)比較三種“標(biāo)題黨”識(shí)別算法的優(yōu)劣。
其中,查全率(Recall)是指從數(shù)據(jù)庫(kù)內(nèi)檢出的相關(guān)信息量與總量的比率。查準(zhǔn)率(Precision)是檢出的相關(guān)文章與檢出的全部文章的比率。查全率與查準(zhǔn)率計(jì)算公式如下。
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
在3.1節(jié)描述的語(yǔ)料庫(kù)下,基于主題詞分布的“標(biāo)題黨”識(shí)別算法、基于主題句相似度的“標(biāo)題黨”識(shí)別算法以及基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法在不同類(lèi)別語(yǔ)料集中具體表現(xiàn)如表2、表3、表4所示。
通過(guò)對(duì)3.2小節(jié)的算法的實(shí)驗(yàn)結(jié)果可以看出,基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法在整體語(yǔ)料庫(kù)上表現(xiàn)較好,因熱點(diǎn)新聞“標(biāo)題黨”主要以歷史新聞“掐頭去尾”展現(xiàn),無(wú)法建立規(guī)則庫(kù),算法表現(xiàn)較差。而基于主題詞分布和基于主題句相似度的“標(biāo)題黨”識(shí)別算法在圖片、視頻類(lèi)文章上表現(xiàn)最差,無(wú)法識(shí)別,因?yàn)榇祟?lèi)文章不含有任何文字類(lèi)描述,對(duì)于主題內(nèi)容抽取帶來(lái)了較大的影響。
4? 結(jié)? 論
“標(biāo)題黨”識(shí)別過(guò)程中,應(yīng)根據(jù)“標(biāo)題黨”類(lèi)別匹配不同的識(shí)別算法進(jìn)行識(shí)別,才能讓算法更準(zhǔn)確,建立完善的“標(biāo)題黨”類(lèi)別庫(kù)和“標(biāo)題黨”規(guī)則庫(kù)將有效提高“標(biāo)題黨”識(shí)別準(zhǔn)確率。
雖然本文論述的基于規(guī)則匹配的“標(biāo)題黨”識(shí)別算法在實(shí)驗(yàn)語(yǔ)料中表現(xiàn)良好,但是因?yàn)橐?guī)則庫(kù)有限,依然存在一定的識(shí)別局限性,需要構(gòu)建靈活、動(dòng)態(tài)、完善的規(guī)則庫(kù),才能讓算法在實(shí)際應(yīng)用中具有更好的表現(xiàn)。
參考文獻(xiàn):
[1] 羅佳.基于潛在語(yǔ)義分析的標(biāo)題黨新聞識(shí)別技術(shù)研究 [D].湖北:湖北工業(yè)大學(xué),2015.
[2] 梅鐘霄.基于文本挖掘的新聞標(biāo)題與內(nèi)容契合度評(píng)價(jià)研究 [D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2018.
[3] 王志超,翁楠,王宇.基于主題句相似度的標(biāo)題黨新聞鑒別技術(shù)研究 [J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(11):48-53.
[4] 趙帥.基于改進(jìn)型VSM-HowNet融合相似度算法在“標(biāo)題黨”新聞識(shí)別中的研究 [D].吉林:吉林大學(xué),2018.
作者簡(jiǎn)介:楊小峰(1987—),男,漢族,江西吉安人,助教,碩士,研究方向:軟件工程。