余一驕
(華中師范大學(xué)語言學(xué)系,湖北武漢,430079)
微信是當(dāng)前國內(nèi)最具影響力的移動網(wǎng)絡(luò)社交平臺,每天都有數(shù)以億計的中國人在微信中聊天、互動。微信中產(chǎn)生了大量的漢語會話文本,這些文本既不屬于正式的書面語,又不同于傳統(tǒng)的漢語口語。微信好友大多是生活中的熟人或朋友,因此微信言語交際模式與網(wǎng)絡(luò)論壇、博客、微博的言語交際模式存在顯著差異。微信語言具有哪些特征,將會對漢語未來的使用習(xí)慣產(chǎn)生何種影響,越來越受到學(xué)術(shù)界的關(guān)注。最近五年已有多篇論文討論過微信語言的風(fēng)格,已有的研究具有以下特點:第一,對微信新聞標(biāo)題的語言特色研究較多,但對會話文本的研究較少[1]。第二,關(guān)注如何提高微信文本的受追捧程度,或如何縮小微信謠言的傳播范圍,而對語言風(fēng)格的研究較少[2]。第三,對少量微信文本進(jìn)行主觀考察的居多,卻對大樣本語料進(jìn)行定量統(tǒng)計的極少。我們僅查閱到一篇論文使用了LIWC(Linguistic Inquiry and Word Count)軟件對7116篇新聞文本進(jìn)行了詞頻統(tǒng)計,但該文未對統(tǒng)計指標(biāo)和過程作詳細(xì)說明[3]。
關(guān)于微信語言的研究,有必要在以下兩個方面進(jìn)行改進(jìn):第一,要加強(qiáng)對微信文本會話的語言風(fēng)格考察。如今主要的研究對象是微信新聞,但微信新聞大多是由專業(yè)寫手撰寫,從作者向讀者單向傳播。微信新聞的語言風(fēng)格只能反映新聞寫作者的語言風(fēng)格,難以代表數(shù)億微信用戶的漢語使用風(fēng)格。第二,利用專門的計算機(jī)軟件對大規(guī)模的微信語料進(jìn)行統(tǒng)計,根據(jù)定量的統(tǒng)計結(jié)果來分析其語言風(fēng)格。語料少雖有利于語言研究者對其進(jìn)行深度分析,但不利于全面、客觀地描述微信語言的特點。
本文致力于建立大規(guī)模微信文本會話語料庫,利用中文文本語言風(fēng)格分析軟件來統(tǒng)計語料,最終實現(xiàn)定量地描述微信會話的語言特征。本文結(jié)構(gòu)安排如下:第二部分介紹語料采集與統(tǒng)計方法;第三部分分析會話方式、會話長度的統(tǒng)計結(jié)果;第四部分研究該語料庫的高頻字及其覆蓋率;第五部分對高頻詞統(tǒng)計結(jié)果進(jìn)行分析;第六部分總結(jié)全文。
微信會話主要分為微信群和微信好友兩種類型。微信群支持多人共享會話,微信好友則是一對一會話,私密性強(qiáng)。有些微信群中的成員具有真實的社交聯(lián)系,例如親友群、同事群、同學(xué)群、班級家長群等;有些群則是因關(guān)注某個特定的話題而建立的,例如追日劇群、出國英語考試群等,該類群成員之間的社交聯(lián)系不如前者緊密。微信群中的發(fā)言者需要為自己的不當(dāng)言論承擔(dān)后果,通常多數(shù)微信群會話者發(fā)言前要考慮自己的表述是否恰當(dāng)。不同微信好友的會話風(fēng)格與會話者之間的關(guān)系、個人的語言習(xí)慣緊密相關(guān)。例如情侶之間的會話未必以文本方式為主,而是有較多的語音、視頻會話??紤]到兩類會話都很普遍,我們既采集微信群會話文本,也采集微信好友會話文本。
在2015年11月~2016年5月之間,兩位微信文本會話采集者先后加入了42個微信群。這42個微信群包括同學(xué)群、親友群、同事群、日劇群、出國英語考試群等。微信群中的成員所處地理位置分布較廣,但以原籍湖北、河南、湖南等省的人為主。群成員受教育水平差異較大,但受過高等教育的人比例最高。由于微信好友會話的私密性太強(qiáng),本文研究中僅采集到來自23對微信好友的會話語料。微信好友中的會話者都受過高等教育,年齡主要分布在20~30歲之間。
我們采用同步助手軟件,把智能手機(jī)中的原始微信聊天記錄導(dǎo)入到計算機(jī)中,并將其轉(zhuǎn)換為TXT格式的文本文件。同步助手軟件轉(zhuǎn)換的聊天記錄包括會話時間、發(fā)言者、會話方式、狀態(tài)(接受/發(fā)送)、會話內(nèi)容等多項信息。由于本文的研究重點是會話方式與會話內(nèi)容,因此我們開發(fā)了專門的Java程序,對微信會話記錄進(jìn)行預(yù)處理。預(yù)處理包括以下三方面:第一,刪除非文本方式的會話記錄,例如圖像方式會話、視頻方式會話、語音方式會話等;第二,刪除發(fā)言時間、發(fā)言者、狀態(tài)等不必要的信息;第三,刪除不做處理的英文字母串或阿拉伯?dāng)?shù)字串,如手機(jī)號碼、郵箱地址等。
本文研究中所采集的原始微信會話語料超過57.6M個字節(jié),因數(shù)據(jù)量大,難以用因特網(wǎng)上免費提供的字、詞統(tǒng)計軟件進(jìn)行統(tǒng)計。我們曾在中文文本統(tǒng)計方面具有較長的研究經(jīng)歷和技術(shù)積累,獨立開發(fā)了中文文本統(tǒng)計與檢索軟件[4],因此本文研究中的微信語料字統(tǒng)計、分詞、詞統(tǒng)計、互信息計算等均使用該軟件來完成。
中國、日本、韓國的網(wǎng)絡(luò)語言“顏文字”雖然均起源于英語中的表情符(emoticon)表達(dá)方式,但很快就有了顯著區(qū)別,其原因是三國的民眾都將英語表情符的表達(dá)方式和本國的文字進(jìn)行了靈活的組合[5]。隨著網(wǎng)絡(luò)通信帶寬的增加,網(wǎng)絡(luò)終端設(shè)備的計算和存儲能力增強(qiáng),網(wǎng)絡(luò)會話方式變得愈加豐富。近二十年來,中國網(wǎng)民在網(wǎng)絡(luò)會話過程中,從只能輸入純粹的中英文字符,過渡到可輸入豐富的“火星文”、圖像、動畫等多種類型的信息。微信更是提供了文本、圖像、動畫表情、視頻、網(wǎng)頁鏈接等十多種網(wǎng)絡(luò)會話模式。
表1 各種會話方式所占會話次數(shù)的比例
本文研究的微信語料共包括475262次不同方式的會話,表1列出了十二種會話方式所占會話次數(shù)比例(本文所有的比例數(shù)據(jù),都對小數(shù)點后第三位數(shù)據(jù)做了四舍五入處理)。文本會話一共是394261次,占總次數(shù)的82.96%,是最主要的會話方式。值得指出的是:微信軟件把純粹由微信所提供的表情符組成的會話歸為文本方式的會話。動畫表情、圖片分別是第二、第三高頻使用的會話方式。使用動畫表情方式,大多是為了夸張、頑皮或戲謔地表達(dá)自己喜歡或厭惡、支持或反對的態(tài)度。選擇圖片方式進(jìn)行會話的原因則較為復(fù)雜,例如有些圖片能傳達(dá)文本不能表達(dá)或難以表達(dá)的信息,有些圖片能起到驚悚或吸引其他人注意力的效果。是否選擇語音方式進(jìn)行會話,既與會話人之間的親密程度相關(guān),也與發(fā)言者是否便于輸入文字相關(guān)。通常關(guān)系越親密的人,使用語音方式的概率越高;所處環(huán)境不便于打字或手寫輸入,則使用語音方式的概率較高。總之,微信強(qiáng)大的信息輸入功能,使得文本會話不再是唯一選擇,可以預(yù)見未來文本會話所占比例會進(jìn)一步降低。
394261次微信文本發(fā)言共使用了2525301個漢字,因此,平均每次文本發(fā)言僅包含6.4個漢字。若是用一次發(fā)言所包含的漢字?jǐn)?shù)量來簡單地度量文本會話的長度,可知微信會話大多是很簡短的。表2列出了在39.4萬余次的文本會話中,不同長度發(fā)言的次數(shù)、比例分布情況。根據(jù)表2左半部分所列數(shù)據(jù)可知,70.83%的發(fā)言所包括的漢字?jǐn)?shù)不超過7個。微信會話如此簡短,存在主客觀兩個方面的原因。首先,網(wǎng)絡(luò)實時交流的環(huán)境決定了發(fā)言者必須高頻使用一些簡短的句子,例如會話剛開始時,用“你好”或者“大家好”來打招呼;確認(rèn)信息時,用“好的”或“行”來表明態(tài)度;用“再見”、“拜拜”來終止會話。其次,微信用戶似乎不大樂意寫長句子,而是用多個短句來描述一件事情或某種觀點。微信會話中,大家更趨向于以較快的速度發(fā)出一條訊息,以減少對方的等待時間。所以,一旦有個相對獨立的句子,用戶就會立即發(fā)送出去。出于這種心態(tài),本來可以用一個較長的句子來完整表達(dá)的會話,最終被分解成了多條簡短的訊息。
表2 不同長度的文本會話次數(shù)與比例分布
語料中全體會話者的母語都是漢語,表2卻顯示有21715次文本會話(占文本會話次數(shù)的5.51%)沒有使用漢字。細(xì)致考察這21715次會話,發(fā)現(xiàn)這些非漢語表達(dá)的會話主要分為四種類型:第一,有8347次會話是純粹利用微信表情符來進(jìn)行會話;第二,用英文單詞、英語句子打招呼或表示肯定或否定,例如OK、Bye、hi、baby、perfect、I love you等;第三,使用英語網(wǎng)絡(luò)詞,如“THX”(表示thanks),或中國人創(chuàng)造的網(wǎng)絡(luò)語言字母詞、數(shù)字詞等,例如2B、6666666等;第四,對其它人所提問題的有效回答,例如阿拉伯?dāng)?shù)字形式的手機(jī)號碼、QQ號碼,英文字母和數(shù)字混合的郵箱地址、網(wǎng)頁地址等。第四類會話與用戶的語言使用習(xí)慣無關(guān)。從積極的角度來看,如今受過高等教育的年輕人對語言使用的態(tài)度越來越開放和包容,能做到漢語、外語、表情符融合使用。但另一方面,中外文、表情符混雜使用,且缺乏明確的語法規(guī)則,這對漢語的純潔性具有負(fù)面影響。
北京大學(xué)開發(fā)的CCL中文語料庫是有重大影響的書面語語料庫。它的語料規(guī)模大(現(xiàn)代漢語語料庫近5.1億個漢字)、來源廣泛、代表性強(qiáng),且公布了該語料庫的漢字頻次數(shù)據(jù)[6]。CCL語料庫能比較全面、定量地反映現(xiàn)代漢語書面語的漢字頻次使用特征。以下通過與北京大學(xué)CCL語料庫的漢字頻次統(tǒng)計結(jié)果做對比,來分析微信會話中的漢字頻次特征。
微信文本會話語料庫共包括2525301個漢字,4957種不同的漢字。CCL語料庫中共出現(xiàn)了10645種不同的漢字。表3列出了微信會話語料庫與CCL語料庫的高頻字集對比結(jié)果?!暗摹薄ⅰ耙弧?、“是”、“了”、“不”、“有”等6種漢字是微信語料庫和CCL語料庫共同的最高頻的10種字,因此兩個語料庫最高頻10種漢字集的重合率為6/10=60%。從表3中的重合率數(shù)據(jù)可知,兩個語料庫的最高頻漢字集有較大區(qū)別。對比兩組覆蓋率數(shù)據(jù)可知,微信語料庫最高頻的10種、20種、50種、100種、200種漢字的覆蓋率都顯著高于CCL語料庫。在微信語料中,有581種漢字(占字種數(shù)的11.72%)僅出現(xiàn)了1次,388種漢字(占字種數(shù)的7.83%)僅出現(xiàn)2次,有1857種漢字(占字種數(shù)的37.46%)的使用頻次低于10次。因此,微信中的漢字使用更集中。
表3 微信語料庫與CCL語料庫的高頻字對比
由表3所列的微信語料高頻獨有字,可知微信會話用字具有以下三個特點。
第一,部分口語交際常用字頻次極高。表3顯示“我”、“你”、“好”、“哈”等字的頻次位于前10名?!肮弊衷谖⑿耪Z料中頻次排序第4,而在CCL中排名第698,二者相差694位?!肮弊衷谖⑿艜捳Z言中的使用既高頻又不符合常規(guī)。在CCL語料庫中,檢索到“哈”字連續(xù)使用的最長串是8個“哈”字連用(僅4條語料)。CCL中比例最高的是“哈哈”或“哈”。在被統(tǒng)計的微信文本會話語料庫中,十個或十個以上的“哈”字連用的現(xiàn)象出現(xiàn)了數(shù)百次,最長的竟然達(dá)到了89個“哈”字連用。數(shù)十個“哈”字連用的例子,在傳統(tǒng)的語料庫系統(tǒng)中極為罕見。
第二,涉及日常生活的漢字頻次高,涉及國家、社會、經(jīng)濟(jì)、政治等領(lǐng)域的漢字頻次低?!八?、“愛”、“吃”、“群”、“紅”、“包”屬于微信中最高頻的100種漢字。“工”、“國”、“政”、“民”屬于CCL語料庫中最高頻的100種漢字,而在微信中卻排在第268名之后,“政”字更是位于第1605名。有研究者認(rèn)為中國政府執(zhí)行的網(wǎng)絡(luò)信息過濾政策,對網(wǎng)絡(luò)用戶的語言產(chǎn)生了極大影響[7]。在39.4萬余次的文本會話中,很少涉及國內(nèi)外政治、經(jīng)濟(jì)問題的討論,眾多的討論主題持續(xù)集中在娛樂、美食、購物、學(xué)習(xí)、考試等方面。年輕人更關(guān)注個人生活,可能才是導(dǎo)致“工”、“國”、“政”、“民”等字低頻出現(xiàn)的主要原因。
第三,有些代表性的網(wǎng)絡(luò)用語高頻字,在微信語料庫中的頻次并不高。例如,“囧”字是具有代表性的網(wǎng)絡(luò)用語高頻字,但在微信會話語料中,它僅出現(xiàn)22次,字頻排序為第2603位。我們用多種品牌的智能手機(jī)做過測試,無論是手寫收入,還是拼音輸入,都能快速輸入“囧”字。因此,輸入法不是導(dǎo)致“囧”字使用較少的主要原因。微信軟件提供了表示尷尬、困窘、汗顏的表情符,該類表情符被高頻使用。隨著表情符和表情包的流行,微信用戶逐漸用更生動、形象的表情符和表情包取代了曾經(jīng)的“顏文字”——“囧”。
由于CCL沒有公布詞頻統(tǒng)計結(jié)果,故無法將微信文本會話語料的詞頻統(tǒng)計結(jié)果與之對比。但在2011年至2013年期間,我們曾開發(fā)了一個約4.86億字規(guī)模,包括現(xiàn)當(dāng)代文學(xué)、新聞報道、政府公文、網(wǎng)絡(luò)小說、法律法規(guī)的現(xiàn)代漢語語料庫CICI。我們使用同一個軟件對微信語料和CICI語料進(jìn)行了分詞處理和詞頻統(tǒng)計。
表4列出了微信語料庫和CICI語料庫的高頻詞對比情況。由表4第二列所示的一組重合率數(shù)據(jù)可知,兩個語料庫最高頻詞的重合率約為60%,因此二者的高頻詞集合差異明顯。在兩個語料庫的最高頻300種詞中,“的”、“了”等單音節(jié)詞重合較多,雙音節(jié)詞重合數(shù)量較少,沒有重合的三音節(jié)詞?!盀槭裁础痹谖⑿耪Z料中的詞頻排序是第130名,在CICI語料中的排序是第367名,僅有“為什么”這一個三音節(jié)詞的詞頻排序同時位于兩個語料庫的前1000名?!盀槭裁础?、“差不多”、“一會兒”、“怎么樣”、“沒什么”、“干什么”6種三音節(jié)詞的詞頻排名都在兩個語料庫的前2000名之內(nèi)。
表4 微信語料庫與CICI語料庫的高頻詞對比
新詞新語是網(wǎng)絡(luò)語言研究的核心問題。本文既關(guān)心微信會話中高頻使用的網(wǎng)絡(luò)新詞新語,也關(guān)心微信語料中產(chǎn)生了哪些新詞新語。詞頻統(tǒng)計結(jié)果顯示:部分網(wǎng)絡(luò)詞語在微信中頻繁出現(xiàn),例如“寶寶”、“臥槽”、“約炮”、“尼瑪”、“我擦”等?!皩殞殹钡念l次為2884;“臥槽”出現(xiàn)853次;“約炮”出現(xiàn)257次;“尼瑪”出現(xiàn)253次;“我擦”出現(xiàn)154次?!皩殞殹痹臼菍π『旱膼鄯Q。而近年來網(wǎng)絡(luò)用戶不分男女老少,喜歡自稱“寶寶”或互稱“寶寶”。“寶寶”的頻次在微信語料中排名第100,“本寶寶”、“群主寶寶”、“嚇?biāo)缹殞殹钡仁褂妙l繁,而作為本義使用的較少。由此可知,微信會話中賣萌化的語言風(fēng)格十分強(qiáng)烈。但值得注意的是:微信語言和微博語言的高頻網(wǎng)絡(luò)熱詞不太一致。例如,“歐巴”、“歐巴?!?、“蘿莉”、“草泥馬”等典型的微博熱詞在微信會話語料庫中的頻次卻并不高?!皻W巴”出現(xiàn)22次;“草泥馬”出現(xiàn)18次;“蘿莉”出現(xiàn)15次;“歐巴?!背霈F(xiàn)1次。由此可知,把微博語言和微信語言籠統(tǒng)地歸為微語言進(jìn)行研究,不利于描述二者的細(xì)微區(qū)別。
計算二字串或三字串的互信息大小,是自動發(fā)現(xiàn)漢語新詞的有效辦法。本文研究過程中,根據(jù)N-gram串統(tǒng)計結(jié)果,計算了微信語料庫中全體2字串、3字串的互信息值。結(jié)果顯示:互信息高的新詞大多為人名、地名(例如街道名)、影視劇名、商品名等專屬名詞,基本上沒有發(fā)現(xiàn)頻次、互信息均很高的非專屬名詞。由此可知,微信用戶樂意在會話中使用已經(jīng)流行的網(wǎng)絡(luò)詞語,而不是在微信中自造新詞新語。微信會話的傳播范圍極為有限。用戶在微信會話中自造的新詞新語,既存在被對方誤解的風(fēng)險,又因讀者太少,難以在網(wǎng)絡(luò)上大范圍傳播。自造新詞對凸顯發(fā)言者的個性沒有顯著效果,使用流行的網(wǎng)絡(luò)新詞新語不失為彰顯個性的可行途徑??傊哳l地使用已有網(wǎng)絡(luò)新詞新語,而不是自創(chuàng)網(wǎng)絡(luò)新詞新語,是微信會話小范圍傳播語言與微博、博客等大范圍傳播語言的一個重要差異。所以研究微信語言時,更應(yīng)該關(guān)注微信會話中的高頻網(wǎng)絡(luò)詞語的種類、特點及其成因,而不是微信會話過程中創(chuàng)造出的新詞新語。
盡管微信會話大多是熟人之間的交談,但詞頻統(tǒng)計結(jié)果卻表明微信會話仍存在用語過于粗俗的現(xiàn)象。以包含了“逼”、“屌”等字的詞語的頻次數(shù)據(jù)來深入分析該現(xiàn)象?!芭1啤背霈F(xiàn)240次;“傻逼”出現(xiàn)205次;“裝逼”出現(xiàn)130次;“撕逼”出現(xiàn)58次;“懵逼”出現(xiàn)50次;“苦逼”出現(xiàn)33次;“逼格”出現(xiàn)27次;“逗逼”出現(xiàn)19次;“丑逼”出現(xiàn)13次;“蒙逼”出現(xiàn)9次;“媽逼”出現(xiàn)8次;“二逼”、“窮逼”各出現(xiàn)7次;“逼樣”出現(xiàn)6次;“帥逼”、“狗逼”各出現(xiàn)5次;“摳逼”出現(xiàn)4次;“慫逼”出現(xiàn)3次。在微信語料中,“屌絲”出現(xiàn)了83次,“很屌”、“不屌×”等格式比較常見?!皩拧弊值挠梅ū容^復(fù)雜,可以用作形容詞、名詞、動詞。與比較熟悉的人用文字進(jìn)行交流都如此不文雅,未來有必要引導(dǎo)民眾在微信中文明、規(guī)范地使用漢語[8]。2017年1月我們對部分女大學(xué)生和女研究生展開調(diào)查,想了解她們?yōu)楹问褂冒氨啤薄ⅰ皩拧钡茸值脑~語。不少被調(diào)查者反映:她們看到“逼”、“屌”等字時,只將其作為中性字,通常不會聯(lián)想到這涉嫌罵人或用語粗俗。由此可見,這些過去被認(rèn)為粗俗的字詞,如今在微信會話中呈現(xiàn)出了去污名化的新趨勢。
本文采用統(tǒng)計大規(guī)模真實文本會話語料的方法來研究微信語言的風(fēng)格。本文的研究具有以下兩個特色:第一,對39.4萬余次文本會話、252萬余字的真實微信文本會話語料進(jìn)行了定量統(tǒng)計。過去關(guān)于微信語言風(fēng)格研究的部分結(jié)論在大樣本統(tǒng)計分析中是不成立的,例如微信創(chuàng)造了大量的網(wǎng)絡(luò)新詞新語。第二,更關(guān)注普通民眾的微信文本會話的語言風(fēng)格,認(rèn)為文本會話語言風(fēng)格更深刻地反映當(dāng)前漢語的使用狀況。未來應(yīng)擴(kuò)大語料來源,對活躍的微信群進(jìn)行長時間的觀察,更細(xì)致地考察微信會話風(fēng)格變化的歷時規(guī)律。另外,對表情符、表情包的使用模式也要做更深入的研究。
*本文系教育部人文社會科學(xué)研究項目“基于大規(guī)模微信文本語料庫的漢語會話分析”【16YJA740047】的階段性成果。
注釋:
[1]李少丹:《微信文本標(biāo)題修辭特征與修辭過度顯現(xiàn)探析》,《福建師范大學(xué)學(xué)報》(哲學(xué)社會科學(xué)版)2015年第3期,第70-75頁;趙文雯:《新聞標(biāo)題語言的特點及規(guī)范化探究》,《新聞世界》,2016年第6期,第40~44頁。
[2]劉銳:《微信謠言元文本的召喚結(jié)構(gòu)、受眾期待視野與辟謠策略》,《情報雜志》2016年第12期,第34~41頁。
[3]何凌南、胡靈舒、李威、張志安:《“標(biāo)題黨”與“負(fù)能量”——媒體類微信公眾號的語言風(fēng)格分析》,《新聞戰(zhàn)線》2016年第13期,第42~47頁。
[4]余一驕、劉芹:《面向超大規(guī)模的中文文本N-gram串統(tǒng)計》,《計算機(jī)科學(xué)》2014年第4期,第263~268頁。
[5]Xiangxi Liu,TheLinguisticAnalysisofChineseEmoticon,University of Massachusetts at Amherst,2015.
[6]CCL:《現(xiàn)代漢語語料》。[2003年] http://ccl.pku.edu.cn:8080/ccl_corpus/xiandai_char_info.pdf.
[7]Audrey M. Wozniak,Reiver-Crabbed Shitizens,Missing Knives,“A Sociolinguistic Analysis of Trends in Chinese Language Use Online as a Result of Censorship”,AppliedPsychologyReview,1,2015,pp.97-120.
[8]呂超男:《論微信語言文字應(yīng)用的規(guī)范化問題》,《北華大學(xué)學(xué)報》(社會科學(xué)版)2016年第4期,第15~19頁。