王 鵬 閆 蕓 王 榮 屠怡潼 馬潔欣 田 梅
( 1) 山東師范大學(xué)心理學(xué)院,250358,濟南; 2) 山東師范大學(xué)圖書館,250014,濟南 )
2008年9月,《Nature》出版專刊《Big Data: Science in the Petabyte Era》,大數(shù)據(jù)研究與應(yīng)用迅速成為人們關(guān)注的熱點[1].大數(shù)據(jù)研究呈現(xiàn)出爆發(fā)式增長的趨勢,并在許多領(lǐng)域取得了長足的進展[2].大數(shù)據(jù),又稱海量數(shù)據(jù),是指所涉及的數(shù)據(jù)規(guī)模龐大到無法通過人為采集的方式在合理時間內(nèi)達到截取、管理、處理并整理成人類所能解讀的信息,其數(shù)據(jù)類型有著豐富性與關(guān)聯(lián)性的特點,并能夠克服傳統(tǒng)研究樣本容量小、測量有時差等問題,同時還有著較高的的匿名性與真實性,保證了研究開展的生態(tài)效度.心理學(xué)研究也從大數(shù)據(jù)挖掘中獲益,大數(shù)據(jù)時代的心理學(xué)這一新興研究領(lǐng)域便誕生了[3,4].
大數(shù)據(jù)時代背景下的心理學(xué),即在網(wǎng)絡(luò)背景下,以大數(shù)據(jù)為基礎(chǔ)進行分析處理、計算建模、構(gòu)建知識體系以及開展應(yīng)用創(chuàng)新的心理學(xué)研究.這一概念最早可以追溯到1994年,由國外學(xué)者提出的“社會計算”這一概念,它被用于代指“由計算機技術(shù)支持、又服務(wù)于社會”的軟件.但隨著科技的發(fā)展,時代的變遷,“社會計算”的內(nèi)涵變得更加豐富——不僅限于讓計算機科學(xué)服務(wù)于社會,還包括將信息科學(xué)技術(shù)應(yīng)用于社會科學(xué)研究.開始是由計算機建模代替真實被試,對人的心理特征與行為進行仿真模擬,而后大數(shù)據(jù)分析技術(shù)的開發(fā)更是為心理學(xué)提供了文本挖掘與自然語言處理等全方位的技術(shù)支持[5].大數(shù)據(jù)技術(shù)肇始于七十多年前,有學(xué)者提出了有關(guān)建立多媒體數(shù)字圖書館以連結(jié)集體知識的設(shè)想.自上世紀六十年代起,有相當數(shù)量的研究就在信息檢索領(lǐng)域取得了成就.上世紀八十年代后期,自由文本檢索被大量文本存儲系統(tǒng)所采納.上世紀九十年代,搜索引擎成為定位網(wǎng)絡(luò)資源的常見方式,此時網(wǎng)絡(luò)數(shù)據(jù)發(fā)掘成為了新的研究熱點[6].要應(yīng)用大數(shù)據(jù)首先就需要數(shù)據(jù)分析技術(shù).
大數(shù)據(jù)分析技術(shù),尤其是基于機器學(xué)習(xí)的大數(shù)據(jù)分析技術(shù),在某種程度上與科學(xué)研究的假設(shè)驅(qū)動、假設(shè)預(yù)注冊方法背道而馳.假設(shè)驅(qū)動的研究是一種自上而下的結(jié)構(gòu)辦法,它從一個旨在做出決定性的假設(shè)開始.大數(shù)據(jù)分析通常涉及探索性分析,采用自下而上的投機方法假設(shè).在大數(shù)據(jù)與心理學(xué)融合之初,研究者大多采用“先提出心理特征與網(wǎng)絡(luò)行為的相關(guān)關(guān)系,再通過處理分析網(wǎng)絡(luò)用戶的行為數(shù)據(jù),對假設(shè)進行驗證”這一研究模式.而大數(shù)據(jù)分析技術(shù)的開發(fā)則引導(dǎo)研究者找到了“直接分析網(wǎng)絡(luò)行為,進而識別心理特征”這一新方向,為心理學(xué)研究提供了數(shù)據(jù)驅(qū)動這一新思路[7],這一新研究模式是心理學(xué)研究方法上的又一次歷史性變革.新的研究模式也催生了具體研究,朱廷劭等人總結(jié)了利用大數(shù)據(jù)進行人格預(yù)測的基本研究思路,即分析大數(shù)據(jù)得到的用戶網(wǎng)絡(luò)行為數(shù)據(jù),通過機器學(xué)習(xí)分析技術(shù),建立基于網(wǎng)絡(luò)使用行為的人格特征預(yù)測模型[3].
目前大數(shù)據(jù)時代下的心理學(xué)應(yīng)用已經(jīng)在情緒、人格、健康心理學(xué)等方面廣泛應(yīng)用,并取得了顯著進展.例如,在健康心理學(xué)領(lǐng)域,Merchant等人[8]利用開放詞匯分析技術(shù)對語言和人格進行了研究,實現(xiàn)了對網(wǎng)絡(luò)用戶精神健康狀況的精準預(yù)測;在人格心理學(xué)領(lǐng)域,Schwartz等人[9]用類似方法,實現(xiàn)了對網(wǎng)絡(luò)用戶人格特征等信息的精準預(yù)測,Kosinski等人[10]利用將數(shù)字行為記錄降維再進行線性回歸的方法預(yù)測了用戶的性取向、人格特質(zhì)、政治傾向、智力等個體心理特質(zhì),Chittaranjan等人[11]從智能手機中自動提取的行為特征與自我報告的“大五”人格特征(外向、愉快、認真、情感穩(wěn)定性和開放性)之間的關(guān)系等;在情緒心理學(xué)領(lǐng)域,Kramer等人[12]通過對Facebook用戶動態(tài)信息的分析證實了網(wǎng)絡(luò)環(huán)境下的情緒傳染現(xiàn)象.
采用文獻計量學(xué)的方法,借助CitespaceⅤ對Web of ScienceTM的核心數(shù)據(jù)庫收錄的大數(shù)據(jù)背景下的327篇心理學(xué)相關(guān)文獻進行可視化圖譜分析,揭示了以大數(shù)據(jù)時代下的心理學(xué)為研究主題的國家、學(xué)科分布情況,以及被引期刊、作者的分布情況,并進一步展示了該領(lǐng)域的發(fā)展現(xiàn)狀、趨勢和研究熱點,可為國內(nèi)相關(guān)研究的進行提供重要借鑒.
2.1數(shù)據(jù)來源所用數(shù)據(jù)來源于Web of ScienceTM核心合集數(shù)據(jù)庫[13].在基本檢索中,以“big data, psychology”為主題詞,將時間限定為2000-2019進行檢索,共得到327條有效檢索記錄.將檢索結(jié)果按Citespace Ⅴ要求的“全記錄與引用的參考文獻”格式,下載并保存為純文本.數(shù)據(jù)下載日期為2019年10月21日.
2.2研究工具信息可視化軟件Citespace Ⅴ是在科學(xué)計量學(xué)、數(shù)據(jù)可視化背景下逐漸發(fā)展起來的一款引文可視化分析軟件.利用文獻網(wǎng)絡(luò)變化可視化技術(shù),將科學(xué)文獻表示為三維景圖,用戶通過控制時間能夠看到科學(xué)研究隨時間的發(fā)展趨勢.
2.3分析方法用共被引文章聚類形成科學(xué)引文網(wǎng)絡(luò)中的學(xué)科(領(lǐng)域)點,用點的中心性(Centrality)圖論概念量化點(聚類)在共被引網(wǎng)絡(luò)中的地位重要性,用突變檢測算法(Turst Detection Algorithm)辨認新興學(xué)科研究前沿專業(yè)術(shù)語,用中介中心性(Betweenness Centrality)突顯潛在范式變化的關(guān)鍵點,用自動文本概要和自然語言處理算法將研究集中在為數(shù)不多的連接點上,用最小生成樹(Minimal Spanning Trees)和關(guān)鍵路徑網(wǎng)絡(luò)(Pathfinder Network Scaling)兩種方法選擇和控制學(xué)科點間鏈接.[14]
中介中心性是測度節(jié)點在網(wǎng)絡(luò)中重要性的一個指標,(此外還有度中心性、接近中心性等),在Citespace中用紫色圈對該類文獻(或作者、期刊以及機構(gòu)等)進行重點標注,出現(xiàn)紫圈的節(jié)點的中介中心性 ≥ 0.1.
引文年環(huán)代表著某篇文章的引文歷史,引文年輪的顏色代表相應(yīng)的引文時間,一個年輪厚度和與相應(yīng)時間分區(qū)內(nèi)引文數(shù)量成正比.
3.1大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的文獻發(fā)表情況圖1為對Web of ScienceTM收錄的2000-2019年內(nèi)大數(shù)據(jù)時代下的心理學(xué)研究文獻發(fā)表量的統(tǒng)計.可以看出,大數(shù)據(jù)時代下的心理學(xué)發(fā)文獻表量呈整體上升趨勢,2016-2018年一直保持著高文獻發(fā)表量,截至2019年10月,檢錄到的文獻量已達41篇.
3.2大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的國家圖譜分析節(jié)點類型(Node Types)選擇國家(Country),算法選擇Minmum Spanning Tree,Top N=10,其他設(shè)置為默認,形成可視化圖譜.圖2為大數(shù)據(jù)時代下的心理學(xué)研究的國家分布情況,從輸出結(jié)果來看,網(wǎng)絡(luò)節(jié)點數(shù)量(Nodes)總共有22個,連線數(shù)量(Links)43條,網(wǎng)絡(luò)密度(Density)為0.1861.節(jié)點越大表示出現(xiàn)的頻數(shù)越多,連線愈多、越粗表示彼此之間的合作越密切可以得出,大數(shù)據(jù)時代下的心理學(xué)共享研究合作總體比較集中,很多都是重合的點,形成了一個良好的合作系統(tǒng).
從導(dǎo)出數(shù)據(jù)可以明顯地看出,美國發(fā)文151篇,占總量的38.8%,遙遙領(lǐng)先其他國家,與荷蘭和比利時的合作比較密切,并且荷蘭與比利時的合作更加密切.發(fā)文量排名靠前的國家還有德國(45篇),英國(41篇)和中國(30篇),中國與新加坡、英國的合作更為密切.
圖1 2000-2019年大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的文獻發(fā)表量統(tǒng)計
圖2 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的國家分布圖譜
3.3大數(shù)據(jù)時代下心理學(xué)研究領(lǐng)域的學(xué)科圖譜分析節(jié)點類型(Node Types)選擇Category,Top N=10,其他設(shè)置為默認,運行數(shù)據(jù)得到大數(shù)據(jù)時代下心理學(xué)研究領(lǐng)域的學(xué)科分布情況的可視化圖譜,如圖3.
從結(jié)果來看,發(fā)表文獻最多的領(lǐng)域為心理學(xué)(Psychology)達199篇,占總量的34.2%,處于核心位置.突現(xiàn)值(Brust)為3.28,說明該變量在短期內(nèi)有很大變化;其他依次為Psychology, Social(61篇),Psychology,Multidisciplinary(56篇),Business and Economics(40篇)等40個不同領(lǐng)域,說明大數(shù)據(jù)時代下心理學(xué)的應(yīng)用前景比較廣泛,與各學(xué)科之間的交叉性比較強.
圖3 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域?qū)W分布圖譜
3.4大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的被引作者圖譜分析節(jié)點類型(Node types)選擇作者(Cited Author),算法選擇Minmum Spanning Tree,Top N=10,其他設(shè)置為默認,形成可視化圖譜.Line shape選擇spline,得到圖4.其中節(jié)點最大,即引用頻次最高的作者為Mccrae R R,自2000年起被引用頻次為90次.其他被引頻次較高的作者依次為John O P(60次),Goldberg L R(52次),Costa P T(49次)等.從節(jié)點來看,同一顏色的年輪厚度都在增加,說明文章的被引頻次也在逐年上升,對該領(lǐng)域的影響力逐漸增加.其中Goldberg L R的突現(xiàn)值(Burst)為6.71,說明其被引頻次在短期劇增.
圖4 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域被引作者分布圖譜
3.5大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域的被引期刊圖譜分析節(jié)點類型選擇Cited Journal,算法選擇Minimum Spanning Tree,Top N=10,其他選項保持默認狀態(tài).運行Citespace Ⅴ,得到大數(shù)據(jù)時代下心理學(xué)的被引期刊分布圖譜,如圖5所示.從圖5中可以看出,最大的節(jié)點,即被引用頻次最高的是Journal of Personality and Social Psychology,是美國心理學(xué)界的核心期刊,影響因子為5.919(2018年),自2000年起被大數(shù)據(jù)時代下的心理學(xué)研究文獻引用189次.該期刊收錄的研究主要涉及社會環(huán)境中個人行為的資源,包括群體過程、人際過程、跨文化關(guān)系等.另一個較大的節(jié)點是Psychological Bulletin,影響因子為16.405(2018年),自2000年起被大數(shù)據(jù)時代下的心理學(xué)研究文獻引用了143次,該期刊主要收錄了心理的發(fā)展與變化,感知、思維和行為的生物學(xué)和神經(jīng)學(xué)基礎(chǔ)等.圖5中各節(jié)點的年輪環(huán)厚度逐年增加,即其被引次數(shù)一直呈上升趨勢,上述情況也表明,大數(shù)據(jù)時代下的心理學(xué)研究正成為一個熱點.
圖5 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域被引期刊分布圖譜
3.6大數(shù)據(jù)時代下心理學(xué)的研究熱點及前沿分析
3.6.1 研究熱點分析 關(guān)鍵詞中心度反映了其在整個關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)中的重要性,代表了一定時期內(nèi)核心的研究主題.節(jié)點類型選擇Keywords,算法選擇Minemum Spanning Tree,繪制圖譜,該圖代表著自2000年起大數(shù)據(jù)時代下心理學(xué)的研究熱點,排名前十的關(guān)鍵詞及出現(xiàn)頻次和中心度信息見表1.從表1中可以看出,與大數(shù)據(jù)結(jié)合的心理學(xué)研究多集中在對人格特質(zhì)的分析,這是因為互聯(lián)網(wǎng)以及網(wǎng)絡(luò)通訊工具的發(fā)展,大量社交媒體用戶在網(wǎng)上對自己的日常生活行為記錄進行發(fā)布,這些記錄可以充分反映出用戶的心理特征和心理狀態(tài).通過對用戶的瀏覽痕跡以及發(fā)表內(nèi)容相關(guān)的數(shù)據(jù)整理,可以在不浪費大量人力物力的基礎(chǔ)上對用戶的心理特征和主觀感受進行實時地評價.
圖6 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域關(guān)鍵詞圖譜分析
圖6中連線縱橫交錯,說明關(guān)鍵詞之間聯(lián)系非常緊密,其中節(jié)點最大的是psychology,即該關(guān)鍵詞引用頻率最高.此外,研究還涉及人格模型的相關(guān)研究.從中心度來看,各節(jié)點的數(shù)值>0.1,即中心度都較高,為關(guān)鍵節(jié)點.
表1 大數(shù)據(jù)時代下的心理學(xué)研究的關(guān)鍵詞頻、詞頻排名和中心度
3.6.2 前沿分析 研究前沿被定義為一組突現(xiàn)的動態(tài)改變和潛在的研究問題[13],通過探測某一段時間內(nèi)某一關(guān)鍵詞的突現(xiàn),可以了解該時間段內(nèi)研究的最新前沿.圖7為通過Citespace Ⅴ探測的2000-2019年內(nèi)突現(xiàn)的前5位關(guān)鍵詞及其影響力的大小,按出現(xiàn)時間排序.紅色標記的長度代表關(guān)鍵詞突現(xiàn)時間的長短,標記越長,突現(xiàn)時間越長;按突現(xiàn)的時間點排序后,我們可以看到突現(xiàn)詞在不同時間段的走向,并將其稱之為“腳印”.從上圖中可以看出,5 factor model的持續(xù)突現(xiàn)時間長達十二年之久,說明在這段時間對人格五因素的研究較為廣泛.
圖7 2000-2019年突現(xiàn)詞出現(xiàn)情況統(tǒng)計
3.7大數(shù)據(jù)時代下的心理學(xué)的共被引網(wǎng)絡(luò)分析節(jié)點類型選擇Cited Reference,算法選擇Minimum Spanning Tree,其他選項保持默認狀態(tài).表2中呈現(xiàn)了文獻被引用頻次與中心度信息.
表2 引用中心度排名前五的文獻信息
中介中心性較高的文獻在大數(shù)據(jù)時代下的心理學(xué)處于奠基性地位,對于整個研究方向的轉(zhuǎn)移有很大影響,對于其他節(jié)點信息傳播的控制能力較高.中介中心性最高的是Schwartz于2013年發(fā)表在PLOSONE上的一篇文章,題目為“Personality, gender,and age in the language of social media: The open-vocabulary approach”[9],該文對語言和人格進行了研究,利用開放詞匯分析技術(shù)(Open-vocabulary Technique),即數(shù)據(jù)本身推動對語言的全面探索.使用LIWC分析作為基線,主要采用了DLA的方法進行語言特征的提取、相關(guān)分析、和可視化分析.
語言特征提取研究了兩種類型,即單詞和短語、主題,其中在提取短語時,作者主要根據(jù)點態(tài)交互信息,即聯(lián)合概率與觀察短語的獨立概率之比,只保留信息價值較高的單詞序列.研究主題由潛在狄利克雷分配(LDA)創(chuàng)建的詞簇組成,LDA生成模型假設(shè)文檔(即Facebook消息)包含主題的組合,并且主題是單詞的分布.由于文檔中的單詞是已知的,所以可以通過它來估計主題的潛在變量.相關(guān)分析的方法使用普通最小二乘回歸可以識別開放詞匯表中的單詞、短語和主題,將目標解釋變量的系數(shù)作為其相關(guān)強度,并將其他變量(如年齡、性別)作為協(xié)變量.另一種方法則使用詞云來直觀總結(jié)研究結(jié)果,該文根據(jù)詞與人口統(tǒng)計學(xué)或心理學(xué)測量興趣的相關(guān)性來衡量詞的大小,而不是依據(jù)詞的頻率來進行衡量.研究結(jié)果顯示:開放性詞匯比通過在預(yù)測模型中使用的先驗詞匯能提供更多信息.
中介中心性最高的文獻為Kosinski等人[10]發(fā)表的名為“Private traits and attributes are predictable from digital records of human behavior”的文章,該文用數(shù)字記錄自動準確地預(yù)測一系列高度敏感的個人屬性.
該研究結(jié)果主要介紹四個方面:1)以感知操作特性曲線(AUC)下的面積表示二分類變量的預(yù)測精度,即從每個類別中隨機選擇兩個用戶對其進行正確分類的概率(如男性、女性);2)用實際值與預(yù)測值之間的皮爾遜積差相關(guān)系數(shù)表示數(shù)值變量預(yù)測的準確性;3)獲得的數(shù)據(jù)量及預(yù)測精度;4)Likes的預(yù)測能力.這篇文章也為后續(xù)深入的研究提供了可能的方向.截至2013年,Schwartz等人[9]的文章是最大的利用大數(shù)據(jù)對語言和人格進行的綜合性研究.
3.8大數(shù)據(jù)時代下的心理學(xué)研究文獻共引網(wǎng)絡(luò)的聚類分析在得到的文獻共引網(wǎng)絡(luò)的基礎(chǔ)上對其聚類以得到大數(shù)據(jù)時代下的心理學(xué)的研究熱點與發(fā)展方向,聚類采用LLR算法進行命名.即用一個核心詞匯對不同分類的引用文獻進行概括,以得到更清晰的結(jié)果.運行結(jié)束后,共得到13個類別,見表3.Cluster ID為聚類號,Size為該聚類包含的文獻數(shù)量,Silhouette代表聚類內(nèi)部的相似程度,該指標為0到1之間的小數(shù),數(shù)值越大,相似度越高[16]、本次運行所得結(jié)果中54%的Silhouette大于0.9,即聚類效果很好,Label為通過LLR算法得到的聚類標簽.
表3 文獻共引網(wǎng)絡(luò)中的重要聚類
3.8.1 大數(shù)據(jù)時代下的心理學(xué)研究領(lǐng)域中與人格相關(guān)的重要聚類 ID為1的聚類規(guī)模最大,包含20篇文獻,聚類名稱為situation experience(情境體驗),其中Chittaranjan于2013年發(fā)表的名為“Mining large-scale smartphone data for personality studies”[16]的文章.該文用從智能手機中自動提取的行為特征與自我報告的“五大”人格特征(外向、愉快、認真、情感穩(wěn)定性和開放性)之間的關(guān)系.ID為2,specht于2012年發(fā)表的“Stability and change of personality across the life course: The impact of age and major life events on mean-level and rank-order stability of the big five”[17],介紹了五種人格特征的平均水平和等級順序的變化.
3.8.2 大數(shù)據(jù)時代下的心理學(xué)研究中與其他學(xué)科相關(guān)的重要聚類 ID為3,Buhrmester等人[18]于2011年發(fā)表的“Amazon′s mechanical turk: A new source of inexpensive, yet high-quality, data?”描述并評估了MTurk對心理學(xué)和其他社會科學(xué)的潛在貢獻.ID為4,Cobb-clark等人[19]于2012年發(fā)表的“The stability of big-five personality traits”評估了人格在經(jīng)濟行為中的作用,并表明非認知技能更被普遍地視為許多經(jīng)濟決策的穩(wěn)定預(yù)測變量.
4.1大數(shù)據(jù)時代下心理學(xué)研究領(lǐng)域的知識基礎(chǔ)Persson[20]指出知識基礎(chǔ)是一個有利于進一步明晰研究前沿本質(zhì)的概念.也就是說,研究前沿是一個研究領(lǐng)域的研究方向,那么相應(yīng)的知識基礎(chǔ)就是引用研究前沿術(shù)語的科學(xué)文獻所形成的演化網(wǎng)絡(luò)的引文和共引軌跡.
利用Citespace獲取檔案學(xué)研究的共引文獻時間序列圖譜,可以得出大數(shù)據(jù)時代下心理學(xué)研究的奠基性節(jié)點.奠基性節(jié)點分別為Kosinski等人[10]于2013年發(fā)表的文獻以及Schwartz等人[9]于2013年發(fā)表的文獻,主要討論了如何進行對非結(jié)構(gòu)化數(shù)據(jù)進行分析.
大數(shù)據(jù)時代下心理學(xué)研究領(lǐng)域中所采用的數(shù)據(jù)處理和數(shù)據(jù)分析方法,推動了整個領(lǐng)域的發(fā)展,對后來的研究有著較強的參考價值.其中數(shù)據(jù)分析技術(shù)分為文本分析、多媒體分析、監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),后兩種方法又構(gòu)成了兩種主要類型的數(shù)據(jù)挖掘和機器學(xué)習(xí)分析技術(shù).比如,文本分析涉及用戶定義的詞典、特征提取和單詞共現(xiàn).這類文章為如何分析來自社交網(wǎng)站的各類數(shù)據(jù)和構(gòu)建原始的非結(jié)構(gòu)化數(shù)據(jù)奠定了基礎(chǔ)[21].
4.2大數(shù)據(jù)時代下心理學(xué)的研究熱點和前沿前人對大數(shù)據(jù)時代下的心理學(xué)研究的若干問題進行了探討,分析并提出大數(shù)據(jù)時代下心理學(xué)研究的主要的四大議題:一般性個體情緒變化規(guī)律、特大事件社會情緒化、個性品格、幸福感[2].本研究通過對大數(shù)據(jù)時代下的心理學(xué)的關(guān)鍵詞進行提煉,得出頻次排名較高的關(guān)鍵詞:心理學(xué)、個性、大數(shù)據(jù)、大五人格、模型、行為、五因素模型、元分析、特質(zhì)、人格特質(zhì)以及社交媒體.正是因為互聯(lián)網(wǎng)上存在著大量的用戶日常行為記錄,社交媒體平臺成為了心理學(xué)理想的數(shù)據(jù)庫.為了有效地對這些非結(jié)構(gòu)數(shù)據(jù)進行提取,大量研究將機器學(xué)習(xí)方法與心理學(xué)相結(jié)合,構(gòu)建了大量可以對個體進行心理特征評估的模型.這也正是個性、大五人格和模型等關(guān)鍵詞頻次較高的原因.此外,從這些頻次較高的關(guān)鍵詞中可以看出,大數(shù)據(jù)時代下的心理學(xué)的主要研究確實是基于上述四大議題.
雖然突顯詞(被引用最多的關(guān)鍵詞)近十年中出現(xiàn)頻率較高,但是在近三年中,大數(shù)據(jù)時代下心理學(xué)的研究并沒有涉及過多的關(guān)于相關(guān)突顯詞的研究,甚至近幾年關(guān)于這些突顯詞的研究問題出現(xiàn)了空白期.但是這并不代表著大數(shù)據(jù)時代下的心理學(xué)研究熱度的下降,相反,大數(shù)據(jù)時代下的心理學(xué)正與時俱進.研究發(fā)現(xiàn),近四年來大數(shù)據(jù)時代下心理學(xué)研究領(lǐng)域有了多樣化的研究方向,出現(xiàn)了幾個新興的關(guān)鍵詞,比如策略性行為、測量、精神病學(xué)、統(tǒng)計學(xué)習(xí)理論、神經(jīng)過敏癥、復(fù)現(xiàn)性、公司規(guī)模、數(shù)據(jù)資料等.這些詞雖然出現(xiàn)的頻次不是很高,但是代表了大數(shù)據(jù)時代下心理學(xué)中逐漸興起的一些新研究方向,也說明了大數(shù)據(jù)時代下心理學(xué)不斷發(fā)展、延伸,與其他研究方向,甚至是與其他研究領(lǐng)域進行了碰撞和交融.也就是說,近四年來,大數(shù)據(jù)時代下的心理學(xué)在廣度上有了一定的拓展.
研究發(fā)現(xiàn),態(tài)度、神經(jīng)質(zhì)、自我、情感、生活滿意度、感知、自尊、責(zé)任心、決策力、社會心理學(xué)、自我控制、自我同情、道德和自我效能等重要關(guān)鍵詞,說明大數(shù)據(jù)時代下的心理學(xué)研究具有一定的社會心理學(xué)研究趨向,主要體現(xiàn)了個體或某些群體的社會心理現(xiàn)象的表現(xiàn).在前人研究中也發(fā)現(xiàn),社會心理學(xué)在大數(shù)據(jù)中是一個較受關(guān)注的研究熱點[22].不僅如此,大數(shù)據(jù)已被成功應(yīng)用于探索情緒心理學(xué)、人格心理學(xué)等諸多心理學(xué)研究議題[23].并且,將大數(shù)據(jù)分析作為傳統(tǒng)方法范式和技術(shù)操作的有益補充加以借鑒、應(yīng)用,使得社會心理研究在內(nèi)容、方法、數(shù)據(jù)品質(zhì)、效度以及現(xiàn)實有效性等方面有所推進與突破[24].
另外,研究還發(fā)現(xiàn)了健康、乳腺癌等醫(yī)療健康行業(yè)的關(guān)鍵詞,說明大數(shù)據(jù)不僅在心理學(xué)領(lǐng)域具有比較大的推進作用,也為心理健康與醫(yī)療健康行業(yè)作出了巨大的貢獻.近年來,基于大數(shù)據(jù)的歷史醫(yī)療檔案檢索系統(tǒng)也逐漸發(fā)展起來,可實現(xiàn)海量歷史醫(yī)療檔案的信息化管理,這是國家醫(yī)療行業(yè)的一大進步[25].大數(shù)據(jù)時代下心理學(xué)的研究可以幫助醫(yī)護人員更加清晰地認識到病人的心理需要,運用大數(shù)據(jù)時代下的心理學(xué)方法研究最有效的心理治療與護理方式,最大化消除病人消極心態(tài),滿足其多種心理需要.
4.3大數(shù)據(jù)時代下心理學(xué)研究的局限與展望首先,由于大數(shù)據(jù)具有體量龐大的特征,樣本量過大可能會導(dǎo)致在統(tǒng)計學(xué)上變得顯著.雖然大數(shù)據(jù)克服了小樣本不具代表性的問題,但是同時高維數(shù)據(jù)也可能會導(dǎo)致虛假相關(guān)、超擬合、控制假陽性、虛假群集的問題[2].不僅如此,數(shù)據(jù)的挖掘和獲取過程中可能會造成對人隱私的侵害.
基于大數(shù)據(jù)的心理學(xué)研究,基本上都來自臉書、微博、推特等的第三方數(shù)據(jù).第三方數(shù)據(jù)有很多不足之處,首先是可能會有字數(shù)方面的限制,用戶不能將內(nèi)心中想要表達的想法全部表達出來,會缺失很多有研究價值的信息.其次,社會意識偏差也會造成研究結(jié)果的偏差.比如一個內(nèi)向的人,可能在網(wǎng)絡(luò)上表現(xiàn)得比較活躍,甚至是把自己偽裝成與生活中不一樣的人,此時網(wǎng)絡(luò)上獲取的數(shù)據(jù)可能就存在一定的虛偽性,不能真正說明現(xiàn)實中個體的真實特征.并且對于較年長的人來說,可能并不經(jīng)常使用網(wǎng)絡(luò)社交媒體,對于大數(shù)據(jù)的分析無法代表全體[2].微博、微信、QQ等都具有地域性,一個地區(qū)流行,另一個地區(qū)可能并不流行,采集到的數(shù)據(jù)信息可能大部分來自于城市或是郊區(qū).因此,在進行大數(shù)據(jù)時代下心理學(xué)的分析時,需要進行人口特征的統(tǒng)計.
在研究方法上,以往有關(guān)大數(shù)據(jù)時代下心理學(xué)的研究主要是以數(shù)據(jù)分析為主.近年來,數(shù)據(jù)分析中的文本分析發(fā)展迅速,對于心理學(xué)的相關(guān)研究也有比較好的推動.但是很少有研究工作利用多媒體大數(shù)據(jù)分析調(diào)查.雖然多媒體分析還存在種種問題沒有解決[26],如兩大挑戰(zhàn)“存得下”、“找得快”[27].多媒體大數(shù)據(jù)分析使得生態(tài)效度更高,大數(shù)據(jù)時代下的心理學(xué)可以探索運用多媒體分析方法研究相關(guān)議題.大數(shù)據(jù)分析技術(shù)除了主要的文本分析和多媒體分析等技術(shù)以外,還包括語音分析與視頻分析.相較于心理學(xué)領(lǐng)域目前更多使用的文本數(shù)據(jù),音頻與視頻數(shù)據(jù)更具復(fù)雜性.所以,除了將語音、視頻轉(zhuǎn)化為文本進行分析外,靜音檢測、語音情感識別等內(nèi)容本身也有著研究價值[28].比如,語音情感識別可以識別情緒,可以應(yīng)用于情緒心理學(xué)等領(lǐng)域;視頻分析則可以預(yù)測行為或異常事件,甚至基于面部和姿勢數(shù)據(jù)“猜測”用戶意圖[29],可以應(yīng)用于工業(yè)心理學(xué),也可以應(yīng)用于管理心理學(xué),在選拔人才時起到重要作用.除了為心理健康與醫(yī)療健康作出貢獻,大數(shù)據(jù)還與經(jīng)濟學(xué)、圖書管理學(xué)等學(xué)科有所交互.比如,在經(jīng)濟學(xué)領(lǐng)域,大數(shù)據(jù)背景下云會計的使用將企業(yè)財務(wù)信息經(jīng)濟化、透明化、便捷化[30],而機器學(xué)習(xí)則被應(yīng)用于宏觀經(jīng)濟預(yù)測與因果推斷[31].在圖書管理學(xué)方面,大數(shù)據(jù)能為圖書館未來發(fā)展和服務(wù)體系提升作出趨勢分析,也在客戶關(guān)系中通過數(shù)據(jù)挖掘發(fā)現(xiàn)營銷模式[32].可以預(yù)期,在不遠的未來,大數(shù)據(jù)將成為心理學(xué)深入開展多學(xué)科領(lǐng)域合作的橋梁.
通過繪制被引作者、期刊、對被引文獻的分析的可視化圖譜直觀反映出年輪環(huán)的厚度逐年增加的趨向,說明近年來大數(shù)據(jù)時代下的心理學(xué)逐漸成為被學(xué)者關(guān)注的研究熱點,大數(shù)據(jù)時代下的心理學(xué)研究的相關(guān)理論和應(yīng)用對于現(xiàn)實生活中眾多問題解決具有重大意義.但即使如此,我國對大數(shù)據(jù)時代下的心理學(xué)缺少相關(guān)的本土化研究,這一短板亟待改善.同時,目前的研究更多是將數(shù)據(jù)分析作為一種不同于實驗方法的工具,但隨著科技的發(fā)展,大數(shù)據(jù)分析技術(shù)不斷更新?lián)Q代,能夠進行的心理學(xué)研究也愈發(fā)多樣化.雖然目前并未存在“大數(shù)據(jù)心理學(xué)”這一具體的研究學(xué)科,將來隨著實證和理論研究不斷豐富,“大數(shù)據(jù)心理學(xué)”成為一門心理學(xué)的子學(xué)科未來可期.