王宇波+李向農
關鍵詞: 性別語言;話題;語料庫;文本分類;優(yōu)先序列
摘要: 兩性話題選擇的優(yōu)先序列具有變異性,但相關研究往往關注日常言談語境,沒有針對網絡虛擬語境下話題優(yōu)先序列變化的研究。通過對國家語言資源監(jiān)測中心網絡媒體監(jiān)測語料庫中兩性各約50萬篇博客進行文本分類處理。在大規(guī)模統計數據的基礎上考察了兩性話題選擇的優(yōu)先序列及其組間差異。新媒體語境和日常言談語境中的兩性話題選擇優(yōu)先序列有明顯區(qū)別。新媒體中的兩性高頻話題具有聚類相似性,但是話題組間序差明顯,話題量的組間差異也存在顯著性。女性在不同語境下均以“關系式”談話為主,話題的優(yōu)先序列穩(wěn)定性較強。男性的話語方式由日常言談的“報告式”向新媒體語境下的“關系式”轉變,話題的優(yōu)先序列波動幅度較大。
中圖分類號: G206.2
文獻標志碼: A
文章編號: 10012435(2017)02022306
Key words: Gender Language;topic;corpus;text classification;priority sequence
Abstract:
The priority sequence of topic selection between genders is variable.The previous researches mainly focus on the change of priority sequence in the daily conversation context,instead of the network virtual context.The thesis classifies 500,000 pieces of Chinese blog texts written by two genders respectively,which are gathered from the corpus of Network Media Language Branch in National Language Resources Monitoring Research Center(CNLR).Based on this largescale data,it investigates the priority sequence of topics and the intergroup differences between genders.It finds out that the priority sequences of topic selection between genders in new media context and daily conversation context are distinctively different.Also,highfrequency topics between genders in the new media context have similarities,while significant differences of the sequences,as well as topic amount exist between groups.“Rapporttalk” always dominates females both in daily chats and new media contexts,consequently the priority sequence is relatively stable.However,the mode of discourse by men is transforming from “Reporttalk” to “Rapporttalk” in the new media context,thus the priority sequence is less stable.
性別語言研究是社會語言學的研究熱點,同時也是心理學、社會學、人類學等多個學科領域共同關注的課題。近年來,性別語言研究的重點逐漸轉向交際中的話語模式。話語模式的性別差異主要表現在話題選擇、話語量、話輪控制和交際策略方面(Wardhaugh 2010)[1]。其中,話題選擇的性別差異一直受到國內外學者的重視。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[17]等考察了工人階級、中產階級等不同社會階層,以及美國猶太社區(qū)等不同社會族群的日常言談話題,發(fā)現男性之間的話題焦點圍繞政治、經濟、體育、商業(yè)等,通常不涉及個人情感;女性之間的話題焦點傾向于感情、家庭、孩子、夫妻關系等。許力生(1997)、李經緯(1998)、趙蓉暉(2003)、崔艷英(2012)[811]等國內學者也對此進行過探討,但以介紹和綜述國外研究為主,缺少以漢語為語料的實證研究。
話題選擇優(yōu)先序列會因語境、地域、種族、文化等差異而產生變化,以往針對家庭和公共社交場合的調查研究,說話人在話題選擇時容易受到交際對象、交際目的、交際場景等諸多因素的影響,雖然結論真實,但并不具有普遍性。而網絡虛擬語境下,交際場合由現實的語言生活轉變?yōu)樘摂M的網絡空間,交際對象由特定受話人轉變?yōu)榫W絡中的預設受話人,外界環(huán)境因素對作者話題選擇的影響降低。尤其是新媒體中的博客,因其具有個性化、開放性、交互性、共享性等特征,文章更接近于單向獨白式語體,不同于以往研究的雙向會話式語體。文章更能體現的博主對話題喜好,能更真實地反映兩性的話題選擇傾向。同時,相比以往針對日常言談語境的小樣本調查,基于新媒體語料的大規(guī)模統計分析在數據處理上占有獨特的優(yōu)勢,避免了因小樣本和個案研究帶來的偏差。再者,由于中外語言文化的差異,國外的研究結論并不一定符合漢語的性別語言特征,而且重視漢語語料、加強本土化研究符合當代語言性別差異研究的多元化、動態(tài)化、微觀化和本土化的發(fā)展趨勢。因此,本文基于大規(guī)模新媒體博客語料庫,在文本分類處理的基礎上對漢語博客中兩性話題選擇的優(yōu)先序列所進行的實證研究和探索,可以開拓漢語性別研究的新前景,拓展新媒體下語言研究的新視野,展現性別語言差異在時代變動中的新發(fā)展,對于新媒體語言研究和監(jiān)測具有理論和實踐上的啟示作用。
一、兩性話題的文本分類過程
(一)實驗文本的甄別與篩選
國家語言資源監(jiān)測與研究中心的網絡媒體監(jiān)測分中心從2005年開始對網絡新聞、網絡論壇、網絡文學,以及博客、微博、微信等新媒體進行動態(tài)監(jiān)測,并建有網絡媒體監(jiān)測語料庫。其中,博客語料來源于新浪博客(blogsinacomcn)、搜狐博客(blogsohucom)、中國博客(wwwblogcncom)、博客網(bokeecom)、和訊博客(bloghexuncom)、博客大巴(wwwblogbuscom)等境內著名博客網站。本文選取其中的博客語料,主要基于兩個方面的因素:首先,文章作者元信息的提取原因。博客、微博、論壇的作者在社交平臺上注冊時會提供包括性別在內的作者身份信息,因此可以在語料爬取過程中對作者身份信息進行元數據標注,進而便于提取出有性別信息的作者。其次,文本分類的技術原因。微博和微信都比較短小,計算機對其進行文本自動分類處理時效度不高,難度較大。而博客文本相對較長,分類效果較好。因此,博客文本比微博、微信等其他新媒體語料更能有效地進行話題分類研究。
兩性博客語料的篩選步驟如下:第一步,甄別身份信息真實的作者,以篩選出有效的兩性博客文本。博客文本在抓取的過程中對作者身份等元數據信息進行了采集和標注,根據元數據信息篩選出標注了性別的作者及其博文。由于少數作者雖然在博客平臺登記了性別等身份信息,但信息并不一定真實,如果這些不確定的文本被用于統計分析,將會影響統計結果的可靠性與可信度,因此必須抽取作者身份相對真實的博文用于統計分析。為篩選身份可信度高的文本,本文依據博客作者的“博客等級”和“博客積分”高低、“博客訪問量”和“博客關注量”大小,以及是否為“加V博客認證”等標準進行甄別,篩選出博客等級和積分較高,訪問量和關注量較大,同時為加V認證的作者。這類作者的博客活躍度較高,作者身份信息較為真實可信。第二步,將篩選出的作者所有博客建立語料庫,編寫小型程序隨機抽取了博客文本共計1 008 755篇,其中男性500 889篇,女性507 866篇為了有效的進行文本分類,本文在隨機抽取博客文本時,剔除了文本詞匯量小于100詞的文本。〖ZW)〗。第三步,將篩選出來的語料建設成兩性博客語料庫,用于下一步的文本分類處理。
(二)文本分類步驟與統計結果
本文針對博客文本所特有的話題類別,進行了計算機文本分類處理,具體步驟如下:第一步,對所有博客文本進行繁簡轉化,剔除表情符號、圖片等非文字符號;第二步,采用中科院自動化所的自動分詞工具對文本進行自動分詞和詞性標注;第三步,用正則表達式和停用詞表過濾已分好詞的博客;第四步,參考新浪博客、中國博客網(博尚網)、網易博客、趙蓉暉(2003)[10]的主題類別,同時在文本抽樣的基礎上,確定了博客文本分類的27個話題類別。第五步,從語料庫中人工篩選出用于機器學習的訓練語料和測試語料。在這一過程中,人工篩選和機器學習兩個方法交替進行,最后一共收集了26個話題(不包括雜談)的文本訓練語料各約500篇,測試語料各約500篇,將52組話題的約26 000篇文本用于機器學習,統計得到26個話題類別的詞頻表;第六步,對26個話題的詞頻表進行組間差異比較,篩選出各話題的高頻獨用詞,以及詞頻、頻序組間差異較大的詞。由于這類詞與話題內容關系較為密切,因此利用專家的領域知識,通過人工干預加強這類詞匯的權重;第七步,按照樸素貝葉斯算法判斷每篇博客的后驗概率,取后驗概率最大的類別作為分類結果。第八步,檢驗文本識別的效度,并調整識別方法,優(yōu)化統計結果。表1為文本分類后各話題的文本數量及其差值。
二、兩性話題選擇的優(yōu)先序列
兩性話題選擇的優(yōu)先序列是建立在文本分類和數據統計基礎上的定量分析,是指將不同的話題類別按照其使用頻率的高低進行分級或有序的排位,并對形成的優(yōu)先序列做出合理的解釋說明。下面將分別考察兩性話題選擇的優(yōu)先序列,并剖析兩性高序位話題的特征及其形成原因。
(一)男性話題的優(yōu)先序列
在博客本文分類時,某些博客文本由于主題不明確而無法根據其后驗效率將其有效歸類,這些無法有效歸類的文本,本文統一將其另列為“雜談類”。“雜談類”文章的平均文本長度最短,僅為561個字符,但其文本數量最大,約占男性文本總量的3025%,其位序居27類話題之首。其次是“家庭生活”話題,它是計算機自動識別所得到的文本數量最多的話題,約占男性博客文本總量的2528%,平均文本長度為793個字符,話語量高于“雜談類”。位序居前列的“雜談、家庭生活、感情婚姻、電子數碼,體育運動,電視電影”等6類話題占據總文本數的8615%,而其他21類話題的文本量僅占文本總量的1385%,位序最低的“兩性生理”的文本僅占文本總數的0025%。
各話題文本量的分布特征與Zipf定律中的詞匯分布特征相似,呈現出典型的冪律分布特征,即只有少數的話題被經常使用,而大多數話題很少被使用。將各話題按照文本數量大小排列,得到男性博客話題的優(yōu)先序列,見圖1。
將男性博客話題的優(yōu)先序列與日常言談時的話題選擇傾向比較后發(fā)現,兩者的高位序話題存在較大差異。趙蓉暉(2003)[10]曾用雙向橫坐標描繪了兩性的話題選擇傾向,男性話題的優(yōu)先序列依次是“政治、軍事、性、金錢、體育、科技、自然”,本文與之對應的話題分別為“政治體制、軍事戰(zhàn)爭、兩性生理、經濟金融、體育運動、科學技術”。從文本量上看,這6類話題所占比例非常小,僅占全部話題總量的745%,除“體育運動”比例達到573%以外,其他話題均未達到百分之一;從話題的位序上看,除“體育運動”的位序相對靠前以外,其他話題位序都較為靠后,其中政治體制第23位、軍事戰(zhàn)爭第21位、兩性生理第27位、經濟金融第14位、科學技術第19位??梢?,男性博客語境下的話題優(yōu)先序列明顯異于日常言談時的話題傾向,日常言談時的高頻話題在網絡博客虛擬環(huán)境下并非為優(yōu)先話題。
(二)女性話題的優(yōu)先序列
女性博客話題中,文本量最多的是“家庭生活”,占女性文本總數的4114%,然后依次為“雜談、感情婚姻、娛樂追星”,所占比例分別為2283%、156%、355%,這四類位序居前的話題占女性文本總數的8312%,其他23個話題所占比例僅為1688%,位序最后的話題和男性相同,均為“兩性生理”。從女性各類話題的文本量分布情況看,女性話題的文本量分布也呈冪律分布特征,但高頻話題比男性更集中。將各話題按照文本數量大小排列,得到女性博客話題的優(yōu)先序列,見圖2。
女性博客話題優(yōu)先序列中的高序話題與其日常言談時的話題選擇傾向比較相似。趙蓉暉(2003)[10]認為女性最感興趣的話題依次為“時尚、感情、家務、家庭、兒童”等,本文與之對應的話題依次為“時尚消費、娛樂追星、情感婚姻、家庭生活”,這些話題位序都較為靠前,分別為第16、第4、第3、第1位??梢?,日常言談時的高頻話題在網絡博客虛擬環(huán)境同樣是優(yōu)先話題,主要圍繞家庭生活與感情婚姻展開。
(三)高位序話題的穩(wěn)定與變化
通過以上考察發(fā)現,雖然學界一致認為現實語言生活中的兩性高頻話題存在明顯差異,“家庭、感情、婚姻、時尚”等為典型的女性話題,“政治、體育、經濟、軍事”等則為典型的男性話題,但是這一規(guī)律并不適用于虛擬網絡環(huán)境下的新媒體語言生活。網絡博客中的兩性高頻話題已經變得趨同,兩性話題優(yōu)先序列中的高位序話題都是“家庭生活”和“感情婚姻”。
通過比較現實語言生活的兩性高頻話題和網絡新媒體語言生活的高位序話題后發(fā)現,女性的話題選擇傾向具有穩(wěn)定性,高位序話題沒有明顯變化,最熱衷的話題始終以家庭婚姻與情感生活展開;男性的話題選擇傾向具有較大變動性,男性在日常言談語境下“政治”“經濟”等高頻話題成為博客文本中的低位序話題,這兩類話題總數僅占男性博客文本總數的097%,而“家庭”“情感”等話題卻成為高位序話題,這兩類話題總數占男性博客文本總數的39%。男性的高位序話題會因語境的改變而產生變化。
(四)穩(wěn)定的機制及變化的動因
Tannen(1991)[7]將談話分為關系式談話(rapporttalk)和報告式談話(reporttalk)兩大類。前者以感情交流為主,其目的是通過交談建立關系、維系感情;后者則是以信息交流為主,其目的是交流對事物的看法和意見,提出某一問題的解決辦法等。在日常言談中,女性談話以關系式為主,傾向于通過談論涉及個人生活的內容,以交流情感的方式來建立社交關系;男性通常以報告式為主,信息交流量較大、目標明確、針對性強;在日常言談和網絡博客中,女性的話語方式始終以“關系式談話”為主,因此高頻話題比較穩(wěn)定;男性在網絡虛擬環(huán)境下“報告式”動力相對減弱,“關系式”動力增強,話語方式的轉變導致高頻話題產生變化。
在公共社交場合,由于男性比女性更注重掌控話語權,以說教、演講等報告式的話語姿態(tài)展現自身能力,通過較為正式的話語風貌獲得社會認同和大眾賞識,這種動力驅使男性在言談時會優(yōu)先選擇擅長的優(yōu)勢領域,如政治、軍事、經濟、體育等。但是在非正式場合,尤其是在網絡社交媒體平臺中,兩性的話語交際目的都是以建立和維系社交關系為主,通過博客、微博、微信等自媒體平臺抒發(fā)情感、記錄生活。因此,博客中的兩性話語方式都以“關系式”為主。在網絡虛擬語境下,由于作者身份信息相對隱匿,話語身份構建和凸顯的動力減弱,因而男性傾向于選擇輕松的生活話題。
男性“報告式”動力減弱是多種動因共同作用的結果。首先,交際場合由公共社交場合轉變?yōu)樽悦襟w環(huán)境下的非正式場合;其次,交際場景由現實語言生活轉變?yōu)樘摂M網絡語言生活;第三,交際媒介變?yōu)榫W絡自媒體平臺;第四,交際“對象”由現實語言生活的特定受話人轉變?yōu)榫W絡語境中的預設受話人,雖然博客文本的受眾具有不確定性,但是作者在撰寫博文時會帶著認知關聯假設發(fā)布信息,以吸引讀者、構建虛擬關系為目的。Yus(2011)[12]也認為作者對文章的受眾和交際對象存在一種預設或假定。第五,交際目的由自我展示型向社交關系型轉變;第六,交際身份由公共突顯型向虛擬隱匿型轉變,男性在正式和非正式場合下對性別話語身份凸顯程度的改變對話題選擇產生影響。以上因素促使社交媒體的話語方式以關系式為主,因此,女性的高位序話題保持不變,男性則發(fā)生改變。“家庭生活”“感情婚姻”等男性日常聊天較少談及的話題,成為男性博客文本中的高位序話題。
三、兩性話題選擇的組間差異
雖然兩性的高位序話題相似,但是話題優(yōu)先序列的組間差異仍然存在,主要表現在話題位序的組間序差和話題量分布的組間差異兩個方面。
(一)話題序差比較
由于同一話題在男性話題中的位序與其在女性話題中的位序存在一定差距,其組間序差反映了該話題在兩性話題序列中的地位差別,計算其組間序差可以用于比較兩性對該話題的偏好程度。序差越大,偏好差距越大,反之則小。例如“家庭生活”在男性話題序列中的位序為2,在女性話題序列中的位序為1,其組間序差為1,說明女性比男性更傾向于優(yōu)先選擇“家庭生活”,但差距較小;“游戲網游”在男性話題序列中位序為8,在女性話題序列中的位序為19,其組間序差為11,說明男性比女性更傾向于優(yōu)先選擇“游戲網游”,且差距較大。將全部話題的組間序差有序排列,構成話題“序差序列”?!靶虿钚蛄小蹦軐⒃掝}的“地位差別”集中并有序地表現出來。為較為直觀反映兩性對不同話題的選擇偏好,將升序排列的序差序列繪制散點圖,得到序差分布圖,見圖3。
從分布圖可以看出,除了“情感婚姻”“兩性生理”為零以外,其他話題均存在組間序差。男性比女性更優(yōu)先選擇的話題依次為:游戲網游、法律法規(guī)、體育運動、歷史文化、經濟金融、宗教信仰、軍事國防、科學技術等;女性較男性更優(yōu)選選擇的話題依次為:美容護膚、時尚消費、星座占卜、美食佳肴、醫(yī)療衛(wèi)生、教育培訓、汽車房產、工作求職、娛樂明星等。
(二)話題量的組間差異顯著性檢驗
為了進一步考察兩性話題傾向的組間差異,下面以話題文本量為依據進行差異顯著性檢驗。由于27個話題分類為非定距數據,因此采用非參數檢驗。非參數檢驗是不依賴總體分布的統計分析方法,指在總體不服從正態(tài)分布且分布情況不明時,用來檢驗數據資料是否來自同一個總體假設的一類檢驗方法。本文采用卡方驗證中的獨立性驗證,借助統計軟件SPSS(220)得到卡方驗證的結果,見表2。
通過表2中“Pearson ChiSquare”一欄對應的Value值和AsympSig值可以查到,x2值為86702647,P值為0000。當P值小于005,說明兩者之間存在顯著性差異。假若P值大于005,說明兩者之間沒有顯著性差異。由于獨立性驗證中的自由度df=(r1)*(K1),即行的數目減1乘以列的數目減1,df=(271)*(31)=52。查卡方分布表,對應的自由度df=52,a=005的x2的臨界值為6750,檢驗統計值x2為86702647,遠遠大于臨界值,同時P值為0000,小于005。因此通過檢驗統計值X2和P值的所在范圍可以判定:在博客文本中,兩性話題量的組間差異存在顯著性,具有統計學意義。
四、結語
通過以上研究發(fā)現,兩性在言語交際中的話題優(yōu)先序列組間差異客觀存在,不同語境下的兩性話題差異不盡相同。日常言談等現實語言生活中的兩性高位序話題完全不同,男性話題以政治、軍事、體育、經濟等男性擅長的優(yōu)勢領域為主,女性話題則以情感、家庭、婚姻、生活等方面為主。但是在博客等虛擬網絡空間中,兩性的高位序話題變得趨同,話題優(yōu)先序列中的前三位話題都是家庭生活、感情婚姻、雜談。雖然高位序話題相同,但是優(yōu)先序列中話題的組間序差明顯,且話題量的差異具有顯著性。
造成兩性話題差異的原因有很多,諸如兩性固有的生理和心理基礎、受教育程度、身份角色以及社會交往方式等,但根本原因源于傳統社會文化下逐漸形成的性別文化、性別心理和性別角色的差異。男性由于更多地參與社會經濟活動,表現在話題上更多地涉及政治、經濟等方面內容,而負責執(zhí)掌家庭內務的女性們則更多地關注家庭生活等方面的話題,話題差異是兩性社會分工不同的必然結果。但是兩性的話題優(yōu)先序列不是絕對的,往往會因場合、交際對象、個人文化程度、年齡等因素而變化,并隨著社會、環(huán)境、文化的發(fā)展而相應發(fā)展。
參考文獻:
[1]Wardhaugh,Ronald An introduction to sociolinguistics[M] 6th Edition Blackwell Publishing 2010
[2]Klein,J The family in “traditional” workingclass England[C] In M Anderson(ed) Sociology of the Family,Baltimore,Penguin 1971
[3]Kramer,CWishywashy mommy talk [J] Psychology Today,1974(8): 8285
[4]Aries,E 1976 Interaction patterns and themes of male,female,and mixed groups[J]Small Group Behaviour 7(1):718
[5]Aries,E 1982 Verbal and nonverbal behavior in singlesex and mixsex groups[J] Psychological Reports 51,12734
[6]Tannen,D You just don't understand:Women and men in conversations[M] New York: William Morrow 1991
[7]Meyerhoff,Miriam Introducing Sociolinguistics[M] New York,NY: Routledge,2006
[8]許力生話語風格上的性別差異研究[J]外國語,1997(1):4348
[9]李經偉語言性別差異及其原因解釋[J]山東外語教學,1998(3):1216
[10]趙蓉暉語言與性別——口語的社會語言學研究[M]上海:上海外語教育出版社,2003
[11]崔艷英影視劇本中恭維語話題的性別差異——以美國劇本《陰差陽錯》為例[J] 中北大學學報:社會科學版,2012(6):4548
[12]Yus,F 2011 Cyberpragmatics : Internetmediated Communication in Context[M]Amsterdam & Philadelphia : John Benjamins Publishing Company.
責任編輯:鳳文學