• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Voyant:分析文本中的“大數(shù)據(jù)”

      2018-11-16 12:25陳銘徐麗芳
      出版參考 2018年10期
      關(guān)鍵詞:數(shù)字人文文本分析大數(shù)據(jù)

      陳銘 徐麗芳

      摘 要:隨著信息技術(shù)的發(fā)展和數(shù)字人文浪潮的來襲,常用于社會科學(xué)與自然科學(xué)的定量研究方法被帶到人文學(xué)科研究中,使數(shù)據(jù)統(tǒng)計和分析成為文本研究中被普遍接受的必備手段。作為網(wǎng)絡(luò)文本閱讀和分析平臺,Voyant旨在將基于大數(shù)據(jù)的“大分析”與傳統(tǒng)細(xì)讀文本的“小閱讀”相結(jié)合,實(shí)現(xiàn)數(shù)字人文知識的生產(chǎn)、傳播和教學(xué)功能。同時,隨著學(xué)界對“遠(yuǎn)閱讀”合理性和可行性的探討,Voyant也面臨著這種閱讀方式帶來的難題。

      關(guān)鍵詞:Voyant 文本分析 遠(yuǎn)閱讀 大數(shù)據(jù) 數(shù)字人文

      試想一下,如果手頭上有字符數(shù)超過4000萬的文獻(xiàn)資料,我們能用什么辦法最快了解全部文獻(xiàn)并進(jìn)行有序整理?傳統(tǒng)的文本研究方法需要大量人員開展合作閱讀(Collaborative Reading),對這些文獻(xiàn)進(jìn)行閱讀理解并整合。這是一種直接的“近閱讀”(Close Reading),但是它能夠處理的文本量非常有限,而且整合得出的內(nèi)容缺乏客觀性。2000年,針對傳統(tǒng)文本閱讀方式的不足,意大利學(xué)者弗蘭克·莫萊蒂(Franco Moretti)首次提出了“遠(yuǎn)閱讀”(Distant Reading)理論。因?yàn)橐揽咳肆χ荒荛喿x現(xiàn)存文本中極其微小的一部分,因而遠(yuǎn)遠(yuǎn)不能揭示人文學(xué)科的全貌。以維多利亞時代的小說研究為例,只憑學(xué)者人工閱讀是無法全面了解當(dāng)時小說這一文學(xué)體裁的全部相關(guān)狀況,因?yàn)閮H僅19世紀(jì)的英格蘭就出版了多達(dá)6萬本小說。

      這一理念在十年后發(fā)展為使用機(jī)器處理大量文本,進(jìn)行計算、聚類和分析,多個研究中心和學(xué)術(shù)機(jī)構(gòu)著手建立文本分析平臺和門戶網(wǎng)站。Voyant就是一個基于網(wǎng)絡(luò)的文本閱讀和分析平臺,旨在幫助數(shù)字人文學(xué)科的學(xué)者、學(xué)生以及普通大眾閱讀和整理文本。它是由麥吉爾大學(xué)的數(shù)字人文學(xué)者斯凡特·辛克萊爾(Stéfan Sinclair)和阿爾伯特大學(xué)的人文計算學(xué)學(xué)者杰弗里·羅克韋爾(Geoffrey Rockwell)開發(fā)而成,于2003年初發(fā)行,并于2016年4月發(fā)布Voyant 2.0版本,適用于英語、阿拉伯語、法語和意大利語等10種語言。Voyant平臺提供的Voyant Tools前身是早期的文本分析軟件HyperPo、Taporware和TACT,支持用戶上傳和使用多種工具分析海量文本。目前,Voyant擁有龐大的國際用戶群,僅在2016年10月其主服務(wù)器的頁面瀏覽量就已高達(dá)81686次,主服務(wù)器的工具被調(diào)用1173252次。毫無疑問,在信息體量不斷增長的數(shù)字時代,Voyant提供了更有效的文本篩選和分析方式,幫助用戶處理體量龐大的語料庫。

      一、產(chǎn)品形態(tài):多功能文本分析環(huán)境

      計算機(jī)技術(shù)在科學(xué)領(lǐng)域的廣泛應(yīng)用創(chuàng)新了現(xiàn)代科學(xué)研究方式,將常用于社會科學(xué)與自然科學(xué)的定量研究方法帶到原先以定性研究為主的人文學(xué)科中,使數(shù)據(jù)統(tǒng)計成為文本研究中被普遍接受的必備手段。Voyant允許用戶從各種格式的數(shù)字化文本中提取定量數(shù)據(jù),包括純文本、HTML和XML等格式,并通過輕量級文本分析(Lightweight Text Analytics)來增強(qiáng)用戶的閱讀能力。所謂輕量級,指的是用一些相對簡單的形式表示文本分析的結(jié)果,讓用戶能通過自身視覺感知的并行化處理能力輕松地獲取信息。Voyant采用基于詞頻統(tǒng)計的程序?qū)ξ谋具M(jìn)行自動聚類,歸納出人工難以總結(jié)出的模式特征,并用詞頻表、詞頻分布圖和上下文關(guān)鍵詞索引(Key Word In Context,KWIC)等方式顯示分析結(jié)果。以莎士比亞37部劇集為例,該語料庫中共有895737個單詞,包括實(shí)詞和虛詞。實(shí)詞能單獨(dú)充當(dāng)句子成分,傳達(dá)文本的重要內(nèi)容特征,一般包括名詞和動詞等。Voyant將實(shí)詞和虛詞進(jìn)行區(qū)分,根據(jù)實(shí)詞使用情況進(jìn)行單詞類型劃分。以圖2中的《愛的徒勞》(love's labor's lost)為例,它包含2萬多個單詞,其中3767種實(shí)詞共占比16%。在用戶需要獲得具有實(shí)質(zhì)內(nèi)容的關(guān)鍵詞時,提供“過濾器”選項(xiàng)篩掉虛詞,即to、that、this這一類本質(zhì)上的語法輔助詞匯。通過測量不同文本的“語言指紋”信息,幫助用戶識別不同作品之間的語言差異和風(fēng)格特征。

      除了基于文本內(nèi)容統(tǒng)計和抽取詞語,Voyant還擅長借助視覺符號形式來表達(dá)文本中復(fù)雜的或難以通過文字和表格傳達(dá)的規(guī)律,為用戶提供與視覺信息快速交互的功能。在莎士比亞37部劇集語料庫中,Voyant按照詞頻統(tǒng)計算法生成相關(guān)詞云圖(見圖2)。King(國王)、Lord(上帝)、Love(愛)等關(guān)鍵詞在詞云中被突出顯示,大略反映了莎士比亞創(chuàng)作時期的某種時代風(fēng)貌,即當(dāng)時仍深受王室和宗教的影響。除了詞云功能,Voyant還有“Micosearch”和“TextualArc”等功能幫助用戶將復(fù)雜的文本數(shù)據(jù)轉(zhuǎn)化為可用且可辨別的圖形。Micosearch通過熱點(diǎn)分布的條狀圖形表示整個語料庫中某個單詞的頻率和重復(fù)情況,以及在文本的特定章節(jié)該單詞被使用的頻率。此外,受到交互設(shè)計師W.布拉德福·佩利(W. Bradford Paley)開發(fā)的TextArc文本可視化分析軟件的啟發(fā),Voyant增加了TextualArc功能選項(xiàng),可針對單一文本進(jìn)行交互式可視化分析,將信息以文本原始的線性順序呈現(xiàn)。簡言之,Voyant這一多功能分析平臺讓用戶更好地探索復(fù)雜的詞匯語義關(guān)系網(wǎng)絡(luò),幫助用戶快速獲取文本大數(shù)據(jù)中所蘊(yùn)含的關(guān)鍵信息。

      二、技術(shù)優(yōu)勢:“大分析”與“小閱讀”交融

      量化文本和基于詞頻的統(tǒng)計不是文本研究的全部內(nèi)容,Voyant也不是為了給用戶提供自動聚類的速食信息而存在。它旨在介入深度學(xué)術(shù)分析環(huán)節(jié),而不是機(jī)械地切割文本。傳統(tǒng)研究模式下的閱讀一般是線性的、帶有研究目的,研究者充分尊重文本順序和邏輯,關(guān)注單一文本中所包含的信息,可這樣的閱讀方式覆蓋的文本量相對于文獻(xiàn)整體而言極其有限。而基于計算機(jī)技術(shù)的文本分析方式可以對海量文本進(jìn)行挖掘,如當(dāng)前極具代表性的Google Ngram大規(guī)模圖書詞頻統(tǒng)計工具。它“閱讀”海量書籍并生成一個易于使用的、低門檻的智能語料庫,用戶可以在上面查到某個單詞在19世紀(jì)以來800多萬冊書中出現(xiàn)的頻率(見圖4)。但是和統(tǒng)計自身固定圖書語料庫詞頻的Ngram不同,Voyant可以靈活接受用戶提供的語料庫并加以統(tǒng)計。此外,為了更加貼近信息時代的用戶需求,Voyant一直在擴(kuò)充語料庫計算能力。相較于之前只能處理幾兆(MB)字節(jié)的HyperPo和Taporware,現(xiàn)在的Voyant可以處理幾十兆甚至更大的語料庫并進(jìn)行微觀分析。

      正如學(xué)者金雯和李繩在《“大數(shù)據(jù)”分析與文學(xué)研究》一文中所表明的觀點(diǎn),人腦和電腦在解釋文本時可以互補(bǔ)短長,互為體用。Voyant的海量文本分析功能和用戶個人的“小閱讀”存在許多可以調(diào)和與合作的空間。例如,文學(xué)研究者在解釋文學(xué)形式的變化時,很難僅憑有限的閱讀量證明自己的觀點(diǎn);但是,其可以通過Voyant獲得有力的數(shù)據(jù)支持。換言之,用戶通過“小閱讀”得到的思維結(jié)果為Voyant對文本的大數(shù)據(jù)分析提供重要導(dǎo)向,或者直接得到后者的數(shù)據(jù)。此外,Voyant可以追蹤一些人腦難以注意的封閉詞類和標(biāo)點(diǎn)符號,幫助用戶對文體和不同文本之間的相似度進(jìn)行判斷。斯坦福研究者發(fā)現(xiàn),美國小說中“the”的出現(xiàn)頻率比在英國小說中大約低一個百分點(diǎn),這或可成為小說文本國別區(qū)分的判斷依據(jù)之一。學(xué)者肯頓·蘭布西(Kenton Rambsy)利用Voyant對佐拉·尼爾·赫斯頓(Zora Neale Hurston)和理查德·賴特(Richard Wright)創(chuàng)作的10篇短篇小說進(jìn)行文本分析,通過測量語言密度探究非裔美國作者短篇小說的文體特征,發(fā)現(xiàn)赫斯頓相較于賴特在創(chuàng)作中更傾向通過描述特定對象和細(xì)節(jié)特征來塑造人物。Voyant將計算機(jī)和人腦在不同層面上觸摸到的關(guān)于文本的“事實(shí)”相結(jié)合,以實(shí)現(xiàn)“大分析”和“小閱讀”的交融。如今,越來越多的人文學(xué)者樂于使用Voyant之類的電腦算法工具為傳統(tǒng)的人文研究方法提供必要的補(bǔ)充。

      三、發(fā)展方向:研究基礎(chǔ)設(shè)施和專業(yè)教育工具

      作為一個文本分析平臺,Voyant一直專注于在人文科學(xué)領(lǐng)域推廣數(shù)據(jù)思維、數(shù)據(jù)技術(shù)和數(shù)據(jù)方法。隨著紙質(zhì)資料的數(shù)字化和數(shù)字原生型人文數(shù)據(jù)的增加,現(xiàn)代人文科學(xué)正朝著可計算的方向發(fā)展。盧森堡大學(xué)的馬克斯·肯曼(Max Kemman)在完成“電子郵件共和國”(A Republic of Emails)項(xiàng)目時,通過維基解密(Wikileaks)獲取了30000封希拉里的電子郵件,并借助Voyant在“遠(yuǎn)閱讀”和“近閱讀”之間來回切換,發(fā)掘出一些有價值的研究路徑。例如通過“CC”(Carbon Copy,抄送)鏈接圖可以發(fā)現(xiàn)杰克·沙利文(Jacob Sullivan)和徹列爾·米爾斯(Cheryll Milss)這兩位希拉里集團(tuán)中的核心顧問經(jīng)常出現(xiàn)在其電子郵件的抄送名單中(見圖5)。除了學(xué)者個人的小型研究,Voyant還被多個國際數(shù)字人文項(xiàng)目視為文本處理基礎(chǔ)設(shè)施的一部分。Huma-Num是法國一個關(guān)于數(shù)字人文研究的大型研究基礎(chǔ)設(shè)施項(xiàng)目(Très Grande Infrastructure de Recherche,T.G.I.R),為人文和社會科學(xué)研究中數(shù)字?jǐn)?shù)據(jù)的長期存儲、處理、顯示、傳播和保存提供一整套服務(wù)。Voyant是Huma-Num項(xiàng)目主要的文本處理工具,為用戶提供閱讀和分析數(shù)字文本的在線環(huán)境。此外,Voyant還為德國數(shù)字人文項(xiàng)目DARIAH-DE和加拿大寫作研究合作實(shí)驗(yàn)室(Canadian Writing Research Collaboratory,CWRC)開展學(xué)術(shù)研究提供基礎(chǔ)設(shè)施服務(wù)。

      在數(shù)字人文研究中應(yīng)用新型工具和網(wǎng)絡(luò)平臺不僅是為了提供專業(yè)技術(shù)解決方案,也有助于推動文本分析技術(shù)在與人文學(xué)科教育中創(chuàng)新型路徑的探索。Voyant現(xiàn)已在數(shù)字人文教育中占據(jù)一席之地,在多家高校圖書館網(wǎng)頁上被列為教學(xué)資源,其中包括賓夕法尼亞大學(xué)、杜克大學(xué)和加利福尼亞大學(xué)洛杉磯分校。在美國埃默里大學(xué)的本科生課堂上,學(xué)生被要求學(xué)習(xí)如何借助Voyant平臺開展原創(chuàng)性數(shù)字人文研究,以及“遠(yuǎn)閱讀”大量文學(xué)資料。除此之外,Voyant還出現(xiàn)在許多高校課程的教學(xué)大綱中。圣母大學(xué)的計算機(jī)文學(xué)史課程指導(dǎo)研究生使用Voyant平臺學(xué)習(xí)人文領(lǐng)域的量化工作,喬治梅森大學(xué)在數(shù)字人文理論與實(shí)踐課堂上借助Voyant幫助學(xué)生理解數(shù)字媒體和技術(shù)對歷史理論研究的影響。利用文本分析技術(shù)和方法改進(jìn)數(shù)字人文學(xué)科的教育已經(jīng)成為Voyant的一項(xiàng)重要功能。同時,這些教育活動也在幫助Voyant理解和界定數(shù)字人文學(xué)科。

      四、結(jié)語

      如今,雖然已經(jīng)有許多人文學(xué)者采納數(shù)據(jù)統(tǒng)計作為文本研究的必要手段,但“遠(yuǎn)閱讀”仍是一個備受爭議的理論。一方面,遠(yuǎn)距離閱讀在發(fā)現(xiàn)問題的同時并不能給出合理解釋。例如,Voyant匯總和分析海量文本時多是在探索文本之間的相關(guān)性,忽視了傳統(tǒng)文本研究一直重視的因果性分析;將科學(xué)研究范式套用到文本研究后得出的研究成果缺乏可靠的理論支撐。另一方面,對于許多讀者和文學(xué)學(xué)者而言,“遠(yuǎn)閱讀”將人文世界變成了沒有“美感”的科學(xué)領(lǐng)域:人文領(lǐng)域本身的魅力被有用的數(shù)據(jù)和信息取代,讀者對文本信息進(jìn)行深度理解的意愿被分散和降低。

      過分“展示”數(shù)據(jù)和“聚合”事實(shí)并不能讓人文學(xué)科取得實(shí)質(zhì)性進(jìn)展,因此學(xué)者須進(jìn)一步探討遠(yuǎn)距離閱讀的合理性和可行性。同時,文本分析技術(shù)和工具也面臨著“遠(yuǎn)閱讀”帶來的難題:在技術(shù)實(shí)現(xiàn)方面,如何做到把文本數(shù)據(jù)分析和學(xué)者的文學(xué)闡釋結(jié)合起來,介入到更深層次的學(xué)術(shù)分析環(huán)節(jié),讓數(shù)據(jù)分析服務(wù)于研究理念。毫無疑問,文本分析技術(shù)是要創(chuàng)新傳統(tǒng)人文研究方法,而非取而代之。未來在運(yùn)用“遠(yuǎn)閱讀”相關(guān)的文本分析技術(shù)和工具時,究竟要調(diào)試到怎樣一個“距離”(distance)來配合文本研究才算恰到好處?這是每個像Voyant這樣的平臺都要思考的問題。

      參考文獻(xiàn):

      1.王濤.18世紀(jì)德語歷史文獻(xiàn)的數(shù)據(jù)挖掘——以主題模型為例[J].學(xué)海,2017(1):206-216.

      2.Lauren F.Klein. Exploratory Thematic Analysis for Digitized Archival Collections[J].Art & Humanities,2015(30):130-141.

      3.胡悅?cè)?,?數(shù)字人文背景下“遠(yuǎn)距離可視化閱讀”探析[J].圖書館論壇,2017(2):1-9.

      4.金雯,李繩.“大數(shù)據(jù)”分析與文學(xué)研究[J].中國圖書評論,2014(4):69-75.

      5.Kathryn Schulz. What is Distant Reading[EB/OL].[2018-05-22]. https://www.nytimes.com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading.html.

      6.王曉光.“數(shù)字人文”的產(chǎn)生、發(fā)展與前沿.方法創(chuàng)新與哲學(xué)社會科學(xué)發(fā)展[M].武漢:武漢大學(xué)出版社,2010:11.

      7.S.J.Nicke, G.Franzini.On Close and Distant Reading in Digital Humanities: A Survey and Future Challenges[C].The Eurographics Association 2015.

      8.Rachel Serlen.The Distant Future? Reading Franco Moretti[EB/OL].[2018-05-21].https://onlinelibrary.wiley.com/doi/full/10.1111/j.1741-4113.2009.00669.x.

      (作者單位系武漢大學(xué)信息管理學(xué)院、武漢大學(xué)數(shù)字出版研究所)

      猜你喜歡
      數(shù)字人文文本分析大數(shù)據(jù)
      投資者情緒短期對股票市場的影響研究
      初中英語聽說課教學(xué)實(shí)踐探索
      安溪县| 呈贡县| 师宗县| 盐亭县| 灌南县| 怀柔区| 腾冲县| 大悟县| 呼玛县| 尉犁县| 舒兰市| 大埔县| 徐水县| 武穴市| 莲花县| 伊宁县| 汉中市| 静安区| 高平市| 博罗县| 大石桥市| 桃江县| 景宁| 台南市| 武义县| 阳山县| 大荔县| 六安市| 陕西省| 彰化市| 黑山县| 黄石市| 土默特左旗| 香格里拉县| 石林| 江永县| 微博| 鄯善县| 张家川| 姜堰市| 泰州市|