• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      計(jì)算機(jī)民俗學(xué)研究:百年學(xué)術(shù)論文主題地圖繪制

      2016-10-28 06:57:27約翰洛頓喬納森古德溫著喬英斐揚(yáng)譯
      文化遺產(chǎn) 2016年5期
      關(guān)鍵詞:民俗學(xué)語(yǔ)料庫(kù)民俗

      [美]約翰·洛頓 喬納森·古德溫著  喬英斐 李 揚(yáng)譯

      ?

      計(jì)算機(jī)民俗學(xué)研究:百年學(xué)術(shù)論文主題地圖繪制

      [美]約翰·洛頓喬納森·古德溫著喬英斐李揚(yáng)譯

      像大部分學(xué)者一樣,民俗學(xué)者通過(guò)兩方面的結(jié)合來(lái)了解自己的學(xué)科歷史,一方面是自身的閱讀,另一方面是源自研究型訓(xùn)練和專業(yè)互動(dòng)的共識(shí)。民俗學(xué)科歷史被快捷梳理,高度偶然隨機(jī)的過(guò)程逐漸被普遍認(rèn)可為歷史的必然性。本文是一個(gè)檢驗(yàn)計(jì)算機(jī)方法在思想史研究中應(yīng)用大型項(xiàng)目的初步報(bào)告,我們對(duì)運(yùn)用主題建模方式去理解某一領(lǐng)域中的主題及范式的興衰進(jìn)行了探究。我們使用期刊數(shù)據(jù)庫(kù)的研究數(shù)據(jù)應(yīng)用程序接口訪問(wèn)了源自三份民俗研究期刊(美國(guó)民俗學(xué)刊,西部民俗,民俗研究)的6778篇文章的內(nèi)容,運(yùn)用“潛在狄利克雷分布”(Latent Dirichlet Allocation)主題建模形式,描述了125年間的學(xué)術(shù)作品的50種不同主題。其中最有趣的就是在我們學(xué)科中著名的“轉(zhuǎn)向表演研究”現(xiàn)象。

      AFS民族志詞典:思想史計(jì)算機(jī)分析民俗與民眾生活期刊雜志

      期刊百年索引在1988年年底發(fā)表時(shí),確實(shí)是一部鴻篇巨制。它共有500頁(yè),據(jù)編輯統(tǒng)計(jì),是由一個(gè)接近20人的團(tuán)隊(duì)進(jìn)行了大量的工作才完成的。這份期刊及其所在的大學(xué)為其提供了資助,另外,學(xué)會(huì)又為其印刷提供了資金,在這些資助支持下,這部索引得以圓滿完成。但最重要的是,當(dāng)時(shí)的期刊編輯在前言中強(qiáng)調(diào),這部索引是民俗學(xué)家和計(jì)算機(jī)程序員共同合作的產(chǎn)物,它建成了一個(gè)穩(wěn)健的數(shù)據(jù)庫(kù)基礎(chǔ)系統(tǒng)。*編輯布魯斯·杰克遜(Bruce Jackson)指出,為該索引提供資金支持的有L.J.和瑪麗·C·斯卡格斯(Mary C. Skaggs)基金,約翰·W.(John W.)和克拉拉·C·希金斯(Clara C. Higgins)基金,以及紐約州立大學(xué)水牛城分校藝術(shù)與人文學(xué)院。另外,美國(guó)民俗學(xué)會(huì)執(zhí)行委員會(huì)也為該索引出版過(guò)程中的印刷和郵寄費(fèi)用提供了支持(杰克遜 1988:1)。

      這部索引最終文件的大小高達(dá)50M,這在當(dāng)時(shí)是非常驚人的數(shù)據(jù),布魯斯·杰克遜承認(rèn),這個(gè)項(xiàng)目“甚至動(dòng)用了IBM 3081大型機(jī)”(1988:1)。譯碼的數(shù)據(jù)輸入和校對(duì)工作由不同的索引編撰者完成,最終這部索引辭典開(kāi)頭以“該期刊第一個(gè)百年中所發(fā)表的9655篇論文、評(píng)論、筆記、訃告及公告”(杰克遜、塔夫脫,1988:5)開(kāi)始;最后以三份目錄結(jié)束,依次是作者目錄、主題目錄、標(biāo)題目錄。當(dāng)一個(gè)民俗學(xué)家將這部索引拿到手上時(shí),他不僅拿到了打開(kāi)這個(gè)知識(shí)領(lǐng)域大門(mén)的鑰匙,同時(shí)僅僅通過(guò)瀏覽他就能真正地感受到這一領(lǐng)域已發(fā)展到哪里以及如何發(fā)展到此的。所以,這部索引既是一部歷史,也是一幅地圖。

      在一段時(shí)間內(nèi),這部索引成為查找期刊中各類民俗學(xué)學(xué)術(shù)研究成果的便捷參考工具和方法。但是,索引的最后幾頁(yè)預(yù)示了其即將到來(lái)的消亡:此期刊的最后一期第101期,不僅包含索引,還有整卷內(nèi)容的目錄。目錄第一頁(yè)的底部是一份以“《美國(guó)民俗學(xué)刊》(JAF)開(kāi)通網(wǎng)絡(luò)版”為標(biāo)題的公告。這個(gè)簡(jiǎn)單的公告成為出版業(yè)轉(zhuǎn)變的開(kāi)始,軟硬件開(kāi)發(fā)者與使用者之間的動(dòng)態(tài)關(guān)系帶來(lái)了計(jì)算機(jī)的發(fā)展,這就為出版業(yè)運(yùn)用各種信息技術(shù)進(jìn)行出版業(yè)務(wù)提供了可能性。二十五年以后,也就是我正在寫(xiě)作這篇文章的時(shí)候,我們大部分人都已經(jīng)熟悉了使用期刊數(shù)據(jù)庫(kù)查詢期刊的方式,并且有可能花費(fèi)更多的時(shí)間在這上面,而非“百年索引”的紙版工具書(shū)上。原本用于編寫(xiě)索引辭典的計(jì)算機(jī)技術(shù)已開(kāi)始用于開(kāi)發(fā)替代這部索引的搜索工具。同時(shí)我們也承認(rèn),盡管期刊數(shù)據(jù)庫(kù)界面具有無(wú)可比擬的流暢性,但或許正是因?yàn)榇硕沟盟荒芟袷褂盟饕o典那樣便捷地進(jìn)行內(nèi)容瀏覽。此外,索引的固定屬性決定了它的使用會(huì)受到出版時(shí)編輯所選術(shù)語(yǔ)的限制。這些術(shù)語(yǔ)以及索引本身,在某種程度上與收入索引的論文一樣是歷史的產(chǎn)物。

      讓我們暫時(shí)停留在索引辭典上,想象一下自己走進(jìn)了圖書(shū)館查閱特定的某一期期刊。這時(shí)我們的指尖便會(huì)從上到下滑過(guò)期刊的書(shū)脊一一查找,直到我們找到想要的那一本,然后從書(shū)架上拿下來(lái),快速翻到要查閱的那一頁(yè)。我們承認(rèn),這樣的想象或許是有些過(guò)時(shí)了。大部分人都已太過(guò)習(xí)慣于縮小本領(lǐng)域甚至是任何領(lǐng)域的視野,僅僅通過(guò)在電腦屏幕上的搜索框里輸入幾個(gè)單詞、術(shù)語(yǔ)或名稱進(jìn)行查找,所以我們很少為過(guò)去120年間所積累下來(lái)的浩繁卷帙所累。然而,當(dāng)我們已經(jīng)習(xí)慣于使用精確度從本學(xué)科的歷史記錄中查找材料時(shí),我們就趨向于不再?gòu)恼w上觀照材料。因此,當(dāng)我們站在圖書(shū)館里時(shí),我們會(huì)再一次感到震驚。

      當(dāng)我們要從書(shū)庫(kù)中查找一本期刊的時(shí)候,一定會(huì)去回顧更大整體中的許多期刊,這都是與我們當(dāng)前工作有關(guān)的。如果我們走近去細(xì)讀特定的文章,那么當(dāng)我們要退后一步的時(shí)候會(huì)怎樣?我們可以遠(yuǎn)觀么?在人文學(xué)科中,我們既要細(xì)讀也要遠(yuǎn)觀的觀點(diǎn)日益強(qiáng)化。文學(xué)家佛朗哥·莫雷蒂(Franco Moretti)指出:“遠(yuǎn)觀是獲取知識(shí)的一個(gè)條件,它使得你能夠注意到比文章本身更大或更小的部分,如方法、主題、修辭,抑或是體裁、系統(tǒng)”(莫雷蒂,2000:57)。這種思考方法當(dāng)然是民俗學(xué)家非常熟悉的。在20世紀(jì),他們?cè)谒饕幾ぷ髦兴冻龅呐?,?chuàng)制了有關(guān)故事類型和主題索引方面的精密類型系統(tǒng)。

      在某種程度上,類型學(xué)知識(shí)創(chuàng)造了前一個(gè)時(shí)代極為重要的索引,我們建議將其推向另一個(gè)重要時(shí)期,嘗試?yán)盟幾陀^的本學(xué)科思想史。我們建議民俗學(xué)家像其他領(lǐng)域的學(xué)者一樣通過(guò)兩方面的結(jié)合來(lái)了解自己的學(xué)科歷史,一方面是自身的閱讀,另一方面是源自研究型訓(xùn)練和專業(yè)互動(dòng)的共識(shí)。作為一種有效的口頭交流形式,民俗學(xué)科歷史被快捷梳理,高度偶然隨機(jī)的過(guò)程逐漸被普遍認(rèn)可為歷史的必然性。

      我們搜遍125年間的民俗學(xué)學(xué)術(shù)研究成果的目的,只是為了繪制出其主題的歷史轉(zhuǎn)換地圖。我們只選用了論文作為研究對(duì)象,并深信其最適合呈現(xiàn)我們所認(rèn)為的將在這項(xiàng)工作中呈現(xiàn)出來(lái)的觀念圖形(ideational topography)。為了充分利用各種計(jì)算機(jī)方法,我們選用了三份期刊用于研究,如下:《美國(guó)民俗學(xué)刊》(JAF)、《民俗研究》(JFR)(包括其前身《民俗研究所期刊》)、《西部民俗》(WF,包括《加利福尼亞民俗季刊》)。

      雖然我們會(huì)在本文的下一部分進(jìn)行詳細(xì)討論,但我們?nèi)栽敢忸A(yù)先指出被檢測(cè)文章的總數(shù)。占大多數(shù)的人文學(xué)科論文共有6778篇,這些論文的總字?jǐn)?shù)維持在用于計(jì)算機(jī)科學(xué)主題建模分析的各種語(yǔ)料庫(kù)的大小范圍之內(nèi)。這個(gè)數(shù)據(jù)能夠保證你找到方法去獲取一種模型,用于預(yù)見(jiàn)不能立刻識(shí)別的趨勢(shì)。你僅僅翻開(kāi)一份期刊的第一期第一頁(yè),就會(huì)產(chǎn)生某種曲解,隨著閱讀更多其他的期刊,辨識(shí)其趨勢(shì)就成為可能,甚至?xí)霈F(xiàn)令人滿意的結(jié)果。

      我們承認(rèn)首先通過(guò)統(tǒng)計(jì)計(jì)算的方式,用扎實(shí)的學(xué)科史來(lái)造福于民俗學(xué)研究的并非我們。吉爾·特里·魯?shù)?Jill Terry Rudy)和西蒙·布朗納(Simon Bronner)都在使得我們正在從事的探索工作成為可能上發(fā)揮了重要作用。有趣的是,在我們看來(lái),他們最近的研究都表現(xiàn)出對(duì)“轉(zhuǎn)向表演”的興趣。盡管他們現(xiàn)在思考的原因和方式已經(jīng)發(fā)生了轉(zhuǎn)變,但是他們都利用了計(jì)算機(jī)分析本身總結(jié)出來(lái)的方式,其數(shù)據(jù)則取自更大的數(shù)據(jù)庫(kù):魯?shù)蠌纳鐣?huì)學(xué)引文索引和人文學(xué)科引文索引中引用信息;而布朗納則從期刊數(shù)據(jù)庫(kù)中引用信息。魯?shù)鲜昵霸诖似诳l(fā)表過(guò)的研究成果就源自于她對(duì)《作為表演的口頭藝術(shù)》的興趣,她論述了“在成果和接受兩方面,這篇文章如何既符合又偏離了民俗學(xué)研究的歷史軌道”(魯?shù)希?002:6)。同我們一樣,她的研究興趣在于個(gè)人的和觀念的關(guān)系網(wǎng)相互交叉、相互塑造的方式。*的確,大量的研究都在通過(guò)使用“范圍(domain)、個(gè)人(individual)、領(lǐng)域(field)”的DIFI體系來(lái)建立創(chuàng)新文化計(jì)算模型,民俗研究緊隨其步伐,長(zhǎng)期以來(lái)民俗學(xué)家一直都聚焦于亨利·格拉斯(Henry Glassie)所說(shuō)的“由人的社會(huì)、思想所構(gòu)成的文化”。本領(lǐng)域早期的研究概況,參見(jiàn)契克森特米哈依(Csikszentmihalyi)、費(fèi)爾德曼(Feldman)、加德納(Gardner)合作的文章(1994)。布朗納的研究力圖證明,民俗學(xué)轉(zhuǎn)向表演的過(guò)程中伴隨著后結(jié)構(gòu)主義用“詮釋”(interpretation)取代早期強(qiáng)調(diào)的“解釋”(explanation)的轉(zhuǎn)變,這兩個(gè)詞差別很大。為了證實(shí)他的研究,除了進(jìn)行細(xì)讀以外,他還強(qiáng)調(diào)了這些文章僅僅是民俗學(xué)研究文集更大趨向的指針而已。他在期刊數(shù)據(jù)庫(kù)中檢索了這兩個(gè)詞的使用,指出:

      后結(jié)構(gòu)主義的轉(zhuǎn)變與用“詮釋”取代早期的“解釋”相互聯(lián)系,而且用數(shù)據(jù)來(lái)證實(shí)這種觀點(diǎn)是可行的。通過(guò)檢索期刊數(shù)據(jù)庫(kù),我發(fā)現(xiàn),在1888年至1946年期間,民俗學(xué)期刊中對(duì)“詮釋”的使用次數(shù)只有284次;而在時(shí)間段1947年至2005年期間,其使用次數(shù)則為1094次,近乎原來(lái)的四倍之多。實(shí)際上,早期“解釋”一詞的使用次數(shù)為388次,占據(jù)了主要地位;但是后期“詮釋”的使用次數(shù)增加,比“解釋”多出321次。(布朗納,2006:415)

      魯?shù)虾筒祭始{均要求其讀者,至少能將民俗學(xué)研究史料的一部分,看作是有其自身模式和關(guān)系的、可資驗(yàn)證作的實(shí)體(包括一個(gè)網(wǎng)絡(luò)、一部文集等),它們并不受限于傳統(tǒng)的文本與其作者及歷史的聯(lián)系。

      借助魯?shù)虾筒祭始{的啟發(fā),我們癡迷于將美國(guó)民俗學(xué)研究論文作為研究客體本身。我們想知道,再加上一個(gè)二十五年和兩份期刊,這部百年索引會(huì)變成什么樣?我們將如何去理解它的擴(kuò)展形式?我們以索引作品中可能被翻閱次數(shù)最多的主題索引作為起點(diǎn)。畢竟,它既是我們大部分人的研究起點(diǎn),也是我們真正需要推進(jìn)的部分。我們意識(shí)到,雖然我們都樂(lè)于看到自己的名字出現(xiàn)在出版物中,但是真正驅(qū)動(dòng)我們并使我們完成研究的途徑,是吸引其他學(xué)者參與到就特定主題進(jìn)行的討論。

      因此,我們決定聚焦于主題,不過(guò)以下將要描述的特定主題是許多人所不熟悉的。我們所要探究的主題不是由學(xué)科專家決定的,而是從文本中抽取出來(lái)的,也就是說(shuō)文本中的文字決定和影響著主題。我們運(yùn)用了名為“潛在狄利克雷分布”的分析模型對(duì)主題進(jìn)行分析。我們認(rèn)為它非常適用于表演研究體系內(nèi)的民俗學(xué)研究,其實(shí)質(zhì)是通過(guò)語(yǔ)言進(jìn)行的社會(huì)建構(gòu)。心理學(xué)家托馬斯·蘭道爾(Thomas Landauer)將其描述為一種非常近似的語(yǔ)言學(xué)方法——潛在語(yǔ)義分析(LSA),具體如下:

      其前提很簡(jiǎn)單。大量(并非全部)話語(yǔ)的含義取決于構(gòu)成它的詞匯的含義,大量(并非全部)詞匯的含義又取決于其存在的語(yǔ)境。“潛在語(yǔ)義分析”(LSA)提供了兩種模型:一種是大量(并非全部)相對(duì)穩(wěn)定、共享、主要的詞匯含義是如何從語(yǔ)境中衍生出來(lái)的,另一種是大量(并非全部)話語(yǔ)含義是如何由其構(gòu)成詞匯確定的。

      主題建模使“以貫穿文章始終的主題為依據(jù)的文獻(xiàn)探究”成為可能(布萊,2012:77)。我們的興趣在于探索民俗學(xué)研究的主題是如何在我們能夠搜集到的特定文本中體現(xiàn)的(以可行的形式——稍后詳述)。如果我們僅以文本本身為起點(diǎn),用一系列用于描述詞匯與文本關(guān)系的計(jì)算機(jī)算法來(lái)讀取文本或者有人更愿意將文本輸入這些算法,那么我們會(huì)發(fā)現(xiàn)并命名什么樣的常見(jiàn)模型?同樣,這種探究活動(dòng)能挖掘出尚未發(fā)現(xiàn)的——甚至隱含的——值得深入思考的動(dòng)態(tài)或趨勢(shì)嗎?

      本文筆者,一位是民俗學(xué)家,一位是文學(xué)學(xué)者,我們的合作就是在強(qiáng)調(diào)這個(gè)項(xiàng)目的探索性。我們都寄希望于計(jì)算機(jī)方法(或定量法)。此項(xiàng)合作源自于我們共同的興趣,即對(duì)信息與工具如何相互作用的探索。我們相信主題建模為我們提供了一種去理解學(xué)科話語(yǔ)屬性的方法。但這不是唯一的方法,我們將在下文詳述其他我們感興趣的方法。很顯然,學(xué)術(shù)論文也不是學(xué)科話語(yǔ)的唯一形式,但我們認(rèn)為,在初次探索中,更應(yīng)使用現(xiàn)成的學(xué)術(shù)論文以及順手的、最具保障的工具。

      這里要提前強(qiáng)調(diào)一下,我們認(rèn)為用于學(xué)科歷史研究的定量法,例如此法形成的概述,為學(xué)者們提供了理解和質(zhì)疑標(biāo)準(zhǔn)學(xué)科敘述的新方法。至于民俗學(xué)研究,主題建模揭示出了其穩(wěn)固的模型,即在20世紀(jì)90年代與表演相關(guān)的名詞越來(lái)越重要,這與一般學(xué)科歷史是一致的。這種一致性標(biāo)志著此法能夠揭示不為人知的學(xué)科變化或尚未確認(rèn)的學(xué)科轉(zhuǎn)變的可能性。雖然這些方法依賴于復(fù)雜的數(shù)據(jù),但是其常具暗示性的結(jié)果卻與定性評(píng)估、理論背景進(jìn)行了極好的對(duì)接。

      學(xué)者常常質(zhì)疑關(guān)于學(xué)科變化的傳統(tǒng)理解——與復(fù)雜的原始文獻(xiàn)相比較,學(xué)科史的結(jié)論未免失之于簡(jiǎn)單。如果這種介入的力度足夠大,其本身就會(huì)導(dǎo)致新的學(xué)科轉(zhuǎn)向。我們認(rèn)為民俗學(xué)中的表演研究轉(zhuǎn)向適合作為檢驗(yàn)的對(duì)象。我們擬來(lái)對(duì)學(xué)科轉(zhuǎn)向進(jìn)行重新評(píng)估認(rèn)定——使用計(jì)算機(jī)來(lái)進(jìn)行。

      主題建模

      我們當(dāng)前項(xiàng)目的作用可以用遠(yuǎn)觀來(lái)比喻,類似的文庫(kù)盡可能地采用了所有有關(guān)期刊,但它正面臨著一個(gè)確定的難題,即地圖范圍關(guān)系。格雷戈里·貝特森(Gregory Bateson)指出,問(wèn)題不在于地圖描述的精確性,而在于其結(jié)構(gòu)與我們目標(biāo)的可比性。最好的例子是倫敦地鐵交通圖,這份地圖犧牲了地理的精確性以便標(biāo)識(shí)沿線站點(diǎn),即哪個(gè)站點(diǎn)和哪條路線相連,哪個(gè)站點(diǎn)設(shè)在哪個(gè)收費(fèi)區(qū)內(nèi),總之盡可能使之容易理解。換句話說(shuō),它更加強(qiáng)調(diào)拓?fù)潢P(guān)系而非精確的地理位置。在倫敦乘坐過(guò)地鐵的人都知道,有時(shí)候地圖上站點(diǎn)之間的距離比實(shí)際距離遠(yuǎn)很多,因此去地下乘坐地鐵會(huì)比在地面上步行花費(fèi)更多時(shí)間。反之亦然,線路上站點(diǎn)之間整齊的間距,導(dǎo)致不了解情況的使用者認(rèn)為地面上的距離會(huì)比看起來(lái)更短。凸面后視鏡也是同樣的道理,壓縮就意味著某種程度的變形:目標(biāo)必須是一種壓縮,在應(yīng)用情境中,使用者不難理解其變形。

      這對(duì)我們來(lái)說(shuō)非常重要,為了達(dá)到我們追求的壓縮目標(biāo),并用一種可應(yīng)用于所有被研究文本的方式來(lái)實(shí)現(xiàn)目標(biāo),我們找到了一種實(shí)現(xiàn)方法,這種方法聚焦于實(shí)際運(yùn)用的語(yǔ)言,從具體開(kāi)始,然后逐步趨向抽象觀念。畢竟,我們的目標(biāo)是判斷已確定的抽象觀念,如“轉(zhuǎn)向表演”,在其本身的數(shù)據(jù)中是否為可辨識(shí)的。機(jī)器學(xué)習(xí)研究者及其它計(jì)算機(jī)科學(xué)研究者已研發(fā)出一種可從大量文本中推斷語(yǔ)義的技術(shù)。各種各樣的隱含語(yǔ)義分析方式,以那些著名的方法為例,它們?cè)谟酶髯缘姆绞教幚砦谋緯r(shí)同有三個(gè)基本假設(shè):文本具有潛在語(yǔ)義結(jié)構(gòu)(簡(jiǎn)稱為“主題”);可以通過(guò)關(guān)注各種文本中同時(shí)出現(xiàn)的詞匯來(lái)推斷出其主題;詞匯與主題相關(guān),主題與文本相關(guān)。這些方法各自不同的數(shù)學(xué)體系使得它們得以相互區(qū)分。

      為使方法背景的介紹盡可能簡(jiǎn)潔,我們將盡快轉(zhuǎn)向我們選擇的主題建模方法,這種方法已被證實(shí)在人文學(xué)科中的使用相當(dāng)普遍,且因此而獲得了令人矚目的聲望——所以出于求知的驅(qū)動(dòng),我們會(huì)將其試用于本領(lǐng)域一個(gè)常見(jiàn)語(yǔ)料庫(kù)的分析,由此可以探究這一方法在其他研究領(lǐng)域的潛在效用。我們將通過(guò)對(duì)過(guò)去120年間發(fā)表在三份期刊上的近7000篇文章進(jìn)行分析來(lái)探究民俗學(xué)思想史,用于這一探究活動(dòng)的技術(shù)即著名的“潛在狄利克雷分布”(LDA)?!皾撛凇比缟衔乃允侵冈撍惴ǖ暮Y選過(guò)程?!暗依死住?Dirichlet)是一位德國(guó)數(shù)學(xué)家的名字(來(lái)自于比利時(shí)家庭)。*布萊(Blei)指出,該算法的早期版本有一個(gè)比較乏味的名稱“模型三”。大衛(wèi)·布萊(David Blei)、安德魯·Y· Ng(Andrew Y. Ng)及邁克爾·I·喬丹(Michael I. Jordan)在2002年首先介紹了這種算法。他們的論文《潛在狄利克雷分布》于次年發(fā)表(布萊、恩格、喬丹,2003)。“潛在狄利克雷分布”有關(guān)算法因而成為眾多研究的主題。布萊寫(xiě)了一篇關(guān)于此算法的使用說(shuō)明,他以一種非專業(yè)的方式解釋了這種基本統(tǒng)計(jì)方法。在這篇文章里,布萊將“潛在狄利克雷分布”定義為“試圖獲取直觀知識(shí)的統(tǒng)計(jì)模型,這種模型極易通過(guò)其生成過(guò)程加以描述,它通過(guò)虛構(gòu)的隨機(jī)過(guò)程假定了文檔的呈現(xiàn)”(布萊,2011:2-3)。這一模型中的主體是通過(guò)分析整個(gè)文檔集中的詞匯分布而得出的。最初,它是根據(jù)狄利克雷分布的預(yù)先假設(shè)隨機(jī)進(jìn)行的。然后,隨著文檔的增多,算法也逐步改善主題分布情況。

      要注意,“潛在狄利克雷分布”與上下文無(wú)關(guān)。它使用的是著名的“詞包”法。也就是每一篇文檔中的詞匯出現(xiàn)頻率會(huì)被測(cè)量。常見(jiàn)的詞及與即將進(jìn)行的研究語(yǔ)義關(guān)系不明確的詞都會(huì)在使用算法之前被過(guò)濾掉。這個(gè)過(guò)程常常需要重復(fù)多次,以確定由光學(xué)字符識(shí)別錯(cuò)誤生成的詞及原來(lái)未被過(guò)濾掉的無(wú)用詞匯。期刊數(shù)據(jù)庫(kù)的研究數(shù)據(jù)列出了每個(gè)數(shù)據(jù)庫(kù)的“詞-詞頻”列表?!皾撛诘依死追植肌钡乃惴〞?huì)在加工之前將文檔轉(zhuǎn)化成“詞-詞頻”矩陣。因?yàn)槲覀冞M(jìn)行主題建模的工具——“馬利特”(MALLET)需要自己將文檔轉(zhuǎn)化為矩陣,所以必須將“詞-詞頻”表轉(zhuǎn)化成一篇無(wú)序文檔。但是這個(gè)過(guò)程并不會(huì)影響模型的運(yùn)轉(zhuǎn)。

      比起這種算法能否模擬人類的概括能力,更重要的問(wèn)題是,通過(guò)這種統(tǒng)計(jì)方法所概括出的主題是否能與讀者通過(guò)閱讀概括出的主題近似。例如,普通版本的“潛在狄利克雷分布”不會(huì)關(guān)注構(gòu)成主題的名詞隨時(shí)間發(fā)生的變化。布萊和J.D.拉弗蒂(J. D. Lafferty)開(kāi)發(fā)的名為“動(dòng)態(tài)主題建?!钡男滤惴▌t力圖描述主題隨著時(shí)間的推移產(chǎn)生的變化(布萊、拉弗蒂,2006)。但是普通“潛在狄利克雷分布”算法也可以追蹤時(shí)序型語(yǔ)料庫(kù)中主題分布的變化。從維基百科到《紐約時(shí)報(bào)》,這些語(yǔ)料庫(kù)都已成功地運(yùn)用“潛在狄利克雷分布”主題建模進(jìn)行了分析。布萊的團(tuán)隊(duì)已使用期刊數(shù)據(jù)庫(kù)中的期刊《科學(xué)》的數(shù)字化語(yǔ)料庫(kù)進(jìn)行了全面的實(shí)驗(yàn),他們用動(dòng)態(tài)主題建模的方法顯示了主題隨時(shí)間產(chǎn)生的變化,以及《美國(guó)政治學(xué)評(píng)論》網(wǎng)絡(luò)瀏覽主題的變化。*《科學(xué)》瀏覽地址:http://topics.cs.princeton.edu/science/;《美國(guó)政治學(xué)評(píng)論》瀏覽地址:http://topics.cs.princeton.edu/pilisci-riview/。

      如上所述,期刊數(shù)據(jù)庫(kù)研究數(shù)據(jù)界面顯然不會(huì)返回完整的論文文本,每個(gè)文本都會(huì)以一系列的雙入口形式返回,包括文本使用的每一個(gè)詞及其使用頻次。由于“馬利特”需要接收完整的文本而非“詞-詞頻”(例如:the-345)列表,所以我們要設(shè)法使文本脫離兩欄數(shù)據(jù)的形式。*“潛在狄利克雷分布”使用最廣泛的工具就是馬利特(MALLET)( http://mallet.cs.umass.edu/ ),其他工具也是可行的。我們會(huì)用一些簡(jiǎn)單的編碼來(lái)表示第二欄中的詞頻數(shù)據(jù),將原來(lái)的“詞-詞頻”列表轉(zhuǎn)化成符合馬利特方法需要的新文檔。下一步就是利用“馬利特”將數(shù)據(jù)模型化。這個(gè)軟件允許使用者指定某些可變因素,例如將要生成的主題數(shù)量。這個(gè)參數(shù)對(duì)于我們達(dá)成目標(biāo)非常重要,因?yàn)椤皾撛诘依死追植肌辈荒軈f(xié)助選擇要適當(dāng)?shù)闹黝}范圍。太少了,不同主題會(huì)融合在一起;太多了,相關(guān)主題就過(guò)于分散,所以選擇合理的數(shù)量是一個(gè)探索過(guò)程。最終,我們將50作為能夠有效闡明語(yǔ)料庫(kù)話語(yǔ)范圍的數(shù)量。

      為了證明我們的假設(shè),即“潛在狄利克雷分布”可以揭示民俗學(xué)轉(zhuǎn)向表演的隱含話語(yǔ)結(jié)構(gòu),我們從期刊數(shù)據(jù)庫(kù)的研究數(shù)據(jù)中下載了一個(gè)語(yǔ)料庫(kù),其中包含發(fā)表于《美國(guó)民俗學(xué)刊》、《西部民俗》及其前身《加利福尼亞民俗季刊》、《民俗研究》(加上其續(xù)刊《民俗研究所期刊》)的所有文章。早期關(guān)于英國(guó)期刊《民俗學(xué)》的實(shí)驗(yàn)結(jié)果顯示,英國(guó)民俗學(xué)研究指向?qū)W科實(shí)踐,并未像美國(guó)那樣強(qiáng)烈地受到轉(zhuǎn)向表演研究的影響。另外需要注意,還有許多其他重要的民俗學(xué)期刊目前沒(méi)有電子版,所以我們的分析結(jié)果自然會(huì)因受限于目前所擁有的資料而存在偏差。但是我們相信,目前我們所擁有的語(yǔ)料庫(kù)足夠大,對(duì)于學(xué)科轉(zhuǎn)變的建模工作來(lái)說(shuō)是具有代表性的。

      “馬利特”生成了一個(gè)列表,包含作為主題的名詞及這些名詞在整個(gè)語(yǔ)料庫(kù)中所占的相對(duì)比例。其中的主題大多與我們所感興趣的表演直接相關(guān),如下:

      表演 社會(huì)的 口頭的 敘述 文本 觀眾 語(yǔ)境 語(yǔ)言 講演 結(jié)構(gòu) 話語(yǔ)儀式 表演(復(fù)數(shù)) 分析 風(fēng)格 事件 戲劇 意義 事件

      由以上內(nèi)容可見(jiàn)“表演”(performance)和“表演”的復(fù)數(shù)(performances)作為各自獨(dú)立的詞同時(shí)出現(xiàn)了。語(yǔ)料庫(kù)可以借助現(xiàn)有的軟件工具按屈折變化形式歸類或精簡(jiǎn)為詞根形式,*我們使用皮東(Python)自然語(yǔ)言工具包(NLTK)的世界網(wǎng)界面對(duì)語(yǔ)料庫(kù)進(jìn)行了分類。NLTK是皮東(Python)庫(kù)中的一個(gè)強(qiáng)大的工具包,可以對(duì)文本和語(yǔ)料庫(kù)進(jìn)行基本和高級(jí)語(yǔ)言計(jì)算。但將此模型用于按屈折變化形式歸類的語(yǔ)料庫(kù)中仍然會(huì)生成類似的主題:

      文化的 表演 話語(yǔ) 實(shí)踐 文本 研究 模式 社會(huì)的 作品 語(yǔ)境 文化 風(fēng)格 權(quán)力 認(rèn)同視角 身體 發(fā)布 經(jīng)驗(yàn) 空間

      重要的是“表演”(performance)也在其他主題中出現(xiàn)。例如,它赫然出現(xiàn)在節(jié)日主題中:

      舞蹈 節(jié)日 馬迪格拉嘉年華 舞者 節(jié)日 戲劇 日 跳舞 慶祝 服裝 年 狂歡節(jié) 群體表演 習(xí)俗 隊(duì)伍 事件 圣誕節(jié) 地方的

      一個(gè)主題如此緊密關(guān)聯(lián),以至于我們懷疑,構(gòu)成主題的參數(shù)未來(lái)的調(diào)整可能無(wú)法將這些主題歸為一類:

      社會(huì)的 集體 社區(qū) 表演 成員 事件 個(gè)人 儀式 行為 人們 角色 環(huán)境 關(guān)系 社會(huì) 傳統(tǒng)的 結(jié)構(gòu) 功能 觀眾 時(shí)代

      那么我們就會(huì)將這些主題作為更大主題集合的一部分去談?wù)撍鼈兿嗷ラg的關(guān)系,更大的主題集合將在本文的下一部分被稱為“表演”集群。

      我們正在探索以主題建模為工具繪制一個(gè)領(lǐng)域的思想史地圖,以上給出的詞匯直接取自于“馬利特”軟件的輸出內(nèi)容,它是按順序列出詞匯的:靠左邊的詞匯與整個(gè)詞群所反映的主題聯(lián)系更密切?!皾撛诘依死追植肌笔怯靡匝a(bǔ)充文檔檢索技術(shù)的。如果太過(guò)依賴于使解釋符合給定主題的詞目,那我們發(fā)現(xiàn)的模型中就可能存在隨機(jī)的松散的聯(lián)系以致以偏概全。*本·施密特(Ben Schmidt)證明將此用于捕鯨航行的數(shù)據(jù)也非常有趣,他指出“潛在狄利克雷分布”不是一個(gè)僅限于文本的模型。(施密特 2012)

      認(rèn)識(shí)到“潛在狄利克雷分布”的局限使我們能夠利用它去探究民俗學(xué)學(xué)科語(yǔ)料庫(kù),而不會(huì)將其模型作為預(yù)測(cè)該學(xué)科發(fā)展趨勢(shì)的獨(dú)立證據(jù)。除了關(guān)于分類變量如何被大量描述的基本觀念外,此模型沒(méi)有任何民俗或語(yǔ)言知識(shí),但其生成的主題和文檔集群使我們得以檢驗(yàn)我們關(guān)于本學(xué)科如何隨時(shí)間產(chǎn)生變化的觀點(diǎn)。民俗學(xué)表述行為的變化只是人文學(xué)科更大變化的一部分,人文學(xué)科正由分類和描述轉(zhuǎn)向日益復(fù)雜的解釋。我們運(yùn)用機(jī)器學(xué)習(xí)分類工具來(lái)檢驗(yàn)民俗學(xué)理解自身表述轉(zhuǎn)變的方式。主題建模遠(yuǎn)非客觀陳述,但其結(jié)果不存在自反性退化,自反性退化常用來(lái)描述學(xué)科歷史的解釋性說(shuō)明出現(xiàn)疑點(diǎn)的情況。

      換句話說(shuō),我們是在以主題建模的方式對(duì)不完全但是具有代表性的民俗學(xué)研究作品進(jìn)行生成性研究。傳統(tǒng)研究可以揭示出關(guān)鍵詞的相對(duì)頻次,這種生成性研究則可繪制出將關(guān)鍵詞聯(lián)系在一起的話語(yǔ)結(jié)構(gòu)。將此結(jié)構(gòu)地圖與現(xiàn)有的學(xué)科知識(shí)相結(jié)合使我們能夠?qū)ΜF(xiàn)有的關(guān)于學(xué)科變化的假設(shè)進(jìn)行檢驗(yàn)。

      民俗學(xué)研究中計(jì)算機(jī)方法的應(yīng)用

      圖1:所有主題,1888-2012

      總覽基于超過(guò)一百年的民俗研究繪制的50幅歷史圖表,我們想要從其中獲得什么呢?我們期待能夠得到幾個(gè)通用模型:受關(guān)注度下降的主題模型,受關(guān)注度上升的主題模型,及一些不變因素的模型。我們也非常期待能夠發(fā)現(xiàn)任何特別的上升、下降或其他形式的歷史動(dòng)態(tài),這同樣不會(huì)令我們失望。這里最容易看到的是,50個(gè)主題的五年均值返回了一些有意思的結(jié)果。圖1為分類語(yǔ)料庫(kù)中50個(gè)主題的五年均值。當(dāng)我們預(yù)計(jì)主題建模將揭示出當(dāng)時(shí)符合民俗學(xué)表述行為轉(zhuǎn)變的上升趨勢(shì)時(shí),圖2中“文化的 表演 話語(yǔ)”主題從1888-2012年的五年均值顯示其在20世紀(jì)70年代出現(xiàn)了明顯的上升趨勢(shì)。

      圖2:“文化的 表演 話語(yǔ)”主題,時(shí)間約為1888-2012

      如果我們轉(zhuǎn)向有關(guān)的真實(shí)文本,列出“馬利特”軟件已排好序的占本主題最大比例的20篇文章,我們就會(huì)看到表1的結(jié)果。從某種程度上說(shuō),在我們探究工作的這一點(diǎn)上,我們至少已經(jīng)確認(rèn)主題模型與學(xué)科本身的主題中心意義是一致的。另外,此表還顯示出元批評(píng)研究在所有名詞中得到了最高關(guān)注,從學(xué)者對(duì)表演理論及其在特定場(chǎng)合的實(shí)際應(yīng)用的深入研究即可見(jiàn)。實(shí)際上,其中四篇文章都來(lái)自于同一份期刊《西部民俗》。*值得注意的是,本文前面引用的吉爾·特里·魯?shù)系难芯恐辉谠撝黝}前列文檔中下降了四位,證實(shí)了元話語(yǔ)研究包含更高的主題關(guān)鍵詞密度。

      表1:“文化的 表演 話語(yǔ)”主題的前二十篇論文,按主題在論文中的顯著程度排序

      這種民俗學(xué)的量化研究,使我們有可能探究與轉(zhuǎn)向表演類似的主題趨向。為了簡(jiǎn)潔和使我們的觀察盡量客觀,我們篩選出了8個(gè)主題,它們均在“最后四分之一時(shí)期較活躍”(其他趨勢(shì)將在下文中加以探討)。表2完整地列出了這8個(gè)主題,并且按照反映每個(gè)主題的文檔的數(shù)量進(jìn)行了排序。

      表2:以下八個(gè)主題呈現(xiàn)出與主題“文化的 表演 話語(yǔ)”相同的動(dòng)態(tài)趨勢(shì)

      我們標(biāo)注為“表演”的主題在表中位列第三。位于它之上的是主題4(作品 研究 民俗),在這個(gè)主題中,學(xué)科工作者“民俗學(xué)家”和學(xué)科話語(yǔ)進(jìn)行的手段,例如出版和項(xiàng)目,同等重要。位于列表頂端的主題21(做 制作 世界)使我們產(chǎn)生了一時(shí)的困惑,但之后我們遠(yuǎn)觀了研究的起點(diǎn),然后再拉近距去理解現(xiàn)象的本質(zhì),我們查看了與該主題有關(guān)的文本,發(fā)現(xiàn)讀者在這里更加熟悉的概念是“民俗心理學(xué)方法”。一部分作者在此表中規(guī)律性出現(xiàn)的現(xiàn)象可作為我們這一結(jié)論的例證:大衛(wèi)·赫弗德(David Hufford),阿蘭·鄧迪斯(Alan Dundes),艾利奧特·奧里恩(Elliott Oring),布魯斯·杰克遜,羅杰·亞伯拉罕斯(Roger Abrahams),羅伯特·喬治斯(Robert Georges)以及 沃爾夫?qū)っ椎?Wolfgang Mieder)。

      面對(duì)這樣的圖表,我們認(rèn)為必須對(duì)關(guān)注心理學(xué)方法的高峰和下降進(jìn)行探索,結(jié)果發(fā)現(xiàn)我們最初關(guān)注的主題“表演”顯示出一個(gè)相似的,即使不是下降,也至少是平穩(wěn)的趨勢(shì)??傆[我們定義為“最后四分之一時(shí)期較活躍”的8個(gè)主題,我們幾乎都看到了相似的下降和平穩(wěn)趨勢(shì),除了主題9(文化的 政治的 民族的)。但另一方面,此趨勢(shì)表明心理學(xué)和表演可能或者是發(fā)現(xiàn)了某些政治決議,或者僅僅是取代之前的關(guān)注轉(zhuǎn)而關(guān)注政治。這里,安德魯·戈德斯通(Andrew Goldstone)和泰德·安德伍德(Ted Underwood)描述了某些解釋的危險(xiǎn)因素及其機(jī)會(huì)因素:

      隨著主題數(shù)量(及其他參數(shù))的變化,模型會(huì)呈現(xiàn)出同一個(gè)基礎(chǔ)集合的不同情況。但這并不意味著主題建模是一種含混不定的方法或不可靠的證據(jù)。所有的情況都是有根據(jù)的??梢赃@么說(shuō),這些不同的情況是從不同距離觀察的結(jié)果,有著不同的粒度水平;但他們是同一證據(jù)的所有情況,并且是明顯相容的。不同模型為不同的證據(jù)詮釋提供支撐,但這些詮釋并非是絕對(duì)沖突的。

      其他主題集中在五大趨勢(shì)上,我們將根據(jù)簡(jiǎn)單客觀的圖表將這五大趨勢(shì)描述為:前半期活躍、早期高峰、中期高峰、恒定、動(dòng)態(tài)。構(gòu)成每種趨勢(shì)的主題列表及每種主題所涉及到的文本數(shù)量都在表3中。

      表3

      2568食物藥物病人恒定2462笑話幽默性的恒定0557諺語(yǔ)德國(guó)人諺語(yǔ)的恒定0151婦女兒童女性的恒定4049人們非洲人夏威夷人恒定4849華人日本人韓國(guó)人恒定1246猶太族的猶太人土耳其的恒定1446教堂宗教的上帝恒定3642黑色非洲人黑人區(qū)的白人恒定0739xcxb印度恒定1726愛(ài)爾蘭人吉普賽人匈牙利人恒定3923意大利人瑞典人挪威人恒定0617國(guó)王kiii恒定

      表3顯示有7種主題在前半期異?;钴S。因?yàn)樵谶@段時(shí)間《西部民俗》和《民俗研究》均未出版,所以這一時(shí)段及下一時(shí)段的趨勢(shì)都是《美國(guó)民俗學(xué)刊》自身歷史的產(chǎn)物。即使僅對(duì)這些主題內(nèi)容進(jìn)行簡(jiǎn)單的瀏覽也能看出,正如威廉·威爾斯·紐厄爾(William Wells Newell)曾在他的開(kāi)篇中概括的,它們反映著《美國(guó)民俗學(xué)刊》的諸多項(xiàng)目,這些項(xiàng)目后來(lái)被不同的學(xué)會(huì)成員發(fā)展起來(lái)。在以上按順序排列的表格中有來(lái)自世界各地的民間傳說(shuō)(44),美洲土著的故事和儀式、(34、20、22、37、29),美國(guó)民歌(02)及美國(guó)黑人傳說(shuō)(22)。

      接下來(lái)的四個(gè)趨勢(shì)是由更少的主題代表的。我們將這種早期得到較高關(guān)注但又迅速下滑的趨勢(shì)稱為“早期高峰”,這些主題是探討拉丁美洲民間傳說(shuō)的,包括新墨西哥州傳說(shuō)(47、13);操法語(yǔ)者的傳說(shuō),大多數(shù)是關(guān)于在路易斯安那州從事深夜工作的加拿大人的;以及非常有趣的跨越新舊世界的混合傳說(shuō)集及其研究。有趣的是,這幾個(gè)高峰都在同一時(shí)期,它們的出現(xiàn)和下滑都是在20世紀(jì)兩次世界大戰(zhàn)的間期,大約是1917年到1942年。

      在這些主題之后,高峰出現(xiàn)在中期的有兩種主題“年度 西部 政府”(00)和“加利福尼亞 地方 山脈”(30),產(chǎn)生這種情況的部分原因是本領(lǐng)域的一份重要期刊《西部民俗》的出現(xiàn)。

      最后,在研究的時(shí)期內(nèi)表現(xiàn)為顯著的動(dòng)態(tài)趨勢(shì)的有三種主題,它們的表現(xiàn)難以簡(jiǎn)單概括。這三種主題分別為:“好的 人們 制作”,表現(xiàn)為這一主題的文章數(shù)量高達(dá)425篇,在整個(gè)語(yǔ)料庫(kù)中居首;“時(shí)代 講述 故事”,表現(xiàn)為這一主題的文章有317篇;“形式 數(shù)量 部分”,表現(xiàn)為這一主題的文章有299篇。與該主題有關(guān)的詞匯集群的完整列表(表4)也未能揭示出其本質(zhì)。相反,這些主題與我們的觀點(diǎn)驚人的相似。只要看一下與每個(gè)主題相關(guān)的文本就會(huì)發(fā)現(xiàn),“好的 人們 制作”主題表述了民間信仰;“時(shí)代 講述 故事”是笑話、傳說(shuō)、口傳故事以及來(lái)自同一歷史背景的行業(yè)傳說(shuō)的混合體;“形式 數(shù)量 部分”則包含了地方傳說(shuō)集,其中包括地名、傳播研究、物質(zhì)文化形式的調(diào)查及對(duì)神話的論述。

      表4:離群主題(Outlier Topics)的歷史趨勢(shì),1888-2012

      然而,問(wèn)題仍然存在,是否有對(duì)這種動(dòng)態(tài)趨勢(shì)的特殊本質(zhì)進(jìn)行解釋的方法。拿民間信仰來(lái)說(shuō),它在社團(tuán)歷史的早期似乎就已經(jīng)達(dá)到了頂峰,接著在一戰(zhàn)期間急轉(zhuǎn)直下。在20世紀(jì)20年代,民間信仰的受關(guān)注度一直較低,30年代有所上升,在二戰(zhàn)早期再次下降。50、60年代再次急劇上升,伴隨著民間信仰廣受關(guān)注,在轉(zhuǎn)向表演方面的趨勢(shì)似乎并不顯著。

      包含了“地方傳說(shuō)”之義的主題各項(xiàng)之間的聯(lián)系與上文所述的“民間信仰”模式有些類似。對(duì)這一主題的關(guān)注度也是在社團(tuán)歷史的早期達(dá)到頂峰,在20年代呈下降趨勢(shì),在30年代保持較低水平,直到二戰(zhàn)以后才得到了顯著重視。這種趨勢(shì)需要進(jìn)一步的探究,我們注意到對(duì)地方傳說(shuō)的關(guān)注度一直保持在較高水平上,在表演研究出現(xiàn)的期間,它也并不像其他主題那樣出現(xiàn)下降。反而在比例上一直是緩慢上升的,在接近90年代的時(shí)候達(dá)到頂峰。上文已經(jīng)提到過(guò),在這一期間,表演研究已經(jīng)越發(fā)趨向自反性。

      在此示意圖的其他部分中,我們會(huì)發(fā)現(xiàn)“舞蹈 節(jié)日”主題的下降并不是那么急劇,出現(xiàn)相對(duì)晚一點(diǎn)。因?yàn)樗c表演論述的聯(lián)系并不是那么緊密,所以這個(gè)結(jié)果正是我們所期待的。以“文化 表演”為主題的代表性文章包括《融合與市場(chǎng):民俗學(xué)新型范例》和《誰(shuí)的尸體?尸體傳說(shuō)簡(jiǎn)介》(卡普昌,1993;揚(yáng),1994)。明顯以“社會(huì)的 集體 團(tuán)體”為主題的文章包括《巴馬那民間戲的時(shí)代意識(shí)與成長(zhǎng)》和《布朗的招待酒吧:作為藝術(shù)表演的職業(yè)角色》(布林克,1982;貝爾,1976)。

      在該圖中我們也注意到有兩種主題是西班牙語(yǔ)的產(chǎn)物,它們?cè)谶@些年的出版物中異常突出。但我們沒(méi)有足夠多相關(guān)的外語(yǔ)出版材料來(lái)顯示這種在內(nèi)在于英語(yǔ)語(yǔ)料庫(kù)的外語(yǔ)名詞集群的獨(dú)立性。

      重要的是我們也要注意到對(duì)語(yǔ)料庫(kù)進(jìn)行歸類產(chǎn)生的有趣差異為我們的深入研究提供了保證。例如,未按屈折變化形式歸類和按屈折變化形式歸類語(yǔ)料庫(kù)的兩個(gè)最具代表性的主題分別是“重大的 男人(復(fù)數(shù)形式) 制作(過(guò)去式) 時(shí)代 長(zhǎng)的 白天 小的 結(jié)束 離開(kāi) 大的 年輕的 好的 頭 順序 場(chǎng)所 舉行 背景 手 制作”和“形式 數(shù)目 部分 建立 時(shí)代 普通的 實(shí)例 制作(過(guò)去式) 現(xiàn)在 事實(shí) 相似的 類型 一般的 群體 材料 區(qū)域 觀點(diǎn) 建立 研究。此處按屈折變化形式分類的語(yǔ)料庫(kù)更加具體明確,其中含有更多能夠顯示民俗研究進(jìn)程的單詞。像“制作(過(guò)去式)”和“結(jié)束”這樣的單詞應(yīng)該包含在阻止詞表中。這種單詞的出現(xiàn)是人文學(xué)科逐步細(xì)化導(dǎo)致的。另一個(gè)能夠顯著影響結(jié)果的因素是,一個(gè)單詞在進(jìn)入主題模型的概率矩陣之前出現(xiàn)在語(yǔ)料庫(kù)中的頻次。

      不嚴(yán)格的非按屈折變化形式分類的模型的一個(gè)有趣細(xì)節(jié)是這個(gè)主題:“民俗 研究 民俗學(xué)家 材料 學(xué)者 材料 搜集 文學(xué) 道森(dorson)”。這樣一個(gè)和民俗實(shí)踐緊密聯(lián)系的主題包含最杰出的民俗學(xué)者之一并不奇怪。但通常即使是討論最多的學(xué)者名字也很少出現(xiàn)在期刊文章的主題中,只有一個(gè)作為民俗學(xué)者的作者姓氏出現(xiàn)在這些主題中,毋庸置疑就是鄧迪斯。*“麥克弗森(Macpherson)”和 “葉芝(Yeats)”因?qū)P爾特民俗研究所做出的貢獻(xiàn)出現(xiàn)在了一個(gè)主題中:“愛(ài)爾蘭人、愛(ài)爾蘭、蓋爾人、凱爾特人、麥克弗森、奧西恩、蘇格蘭人、圖特(tut) 、約翰、肖恩、芬蘭、巴(ba) 、威爾士人、 ii、芒(mun) 、葉芝、蘇格蘭等”,但是我們認(rèn)為這些在多數(shù)情況下是屬于研究主題而非學(xué)者 。名字分散出現(xiàn)在主題中,但是“理查德(Rechard)”這個(gè)名字就很難判斷是否是指一個(gè)特定的學(xué)者,因?yàn)樾帐显谝弥谐霈F(xiàn)的頻率太低,所以難以確定名字所指的學(xué)者。按屈折變化形式分類的語(yǔ)料庫(kù)則不包含任何學(xué)者名字。

      另一個(gè)對(duì)讀者來(lái)說(shuō)比較有趣的此期刊的主題建模過(guò)程產(chǎn)物是,出版地與和與新聞報(bào)道及其他資源相關(guān)的項(xiàng)目聚集在一起:“年、西部的、州、新聞、約克郡、天使城、圣、加利福尼亞、項(xiàng)目、報(bào)紙、四月、報(bào)道、三月、日?qǐng)?bào)、通訊、七月、戰(zhàn)爭(zhēng)”。期刊《西部民俗》的名字出現(xiàn)在這個(gè)主題中;我們已將“美國(guó)的”和“民俗”從語(yǔ)料庫(kù)中移除了,以避免此類主題比例失衡。但是“西部的”這個(gè)單詞在其他語(yǔ)境中的潛在意義足以保證將其納入其中。

      一篇文章和一個(gè)能夠代表學(xué)科轉(zhuǎn)變的主題的相關(guān)程度,并不能表明該文章的重要性和影響力。實(shí)際上那些預(yù)示著方法論轉(zhuǎn)變的文章反而有可能包含著“更少”的后來(lái)與之相關(guān)的關(guān)鍵詞集群。找出這種轉(zhuǎn)變的來(lái)源并不是本文的目標(biāo),因?yàn)楝F(xiàn)存的學(xué)術(shù)研究在這方面已經(jīng)做得很好,并且將會(huì)不斷地對(duì)此重估以確定民俗學(xué)是否遵循了其他學(xué)科的發(fā)展模式。*例如,芭芭拉·科什巴萊特-吉布列特(Barbara Kirshenblatt-Gimblett)的《民俗危機(jī)》(1998)。而我們關(guān)注的是發(fā)現(xiàn)即將發(fā)生的轉(zhuǎn)變的跡象,以及計(jì)算機(jī)方法是否能夠像學(xué)科敘述那樣為這些片斷的轉(zhuǎn)變歸納出同樣的年表。

      繪制更好的民俗研究地圖

      豪爾赫·路易斯·博爾赫斯曾描述過(guò)一個(gè)聲名狼藉的帝國(guó)如此追求描事?tīng)钗锏耐昝溃骸爸茍D師工會(huì)打造出一幅與該帝國(guó)疆域面積同等大小的地圖,而且是極其精確的相一致”。在博爾赫斯的敘述中,這個(gè)帝國(guó)的百姓最終丟棄了這幅地圖,那些剩余的碎片成為了動(dòng)物和乞丐的遮蔽物。如格雷戈里·貝特森所解釋,博爾赫斯的虛構(gòu)世界的諷刺意味是“領(lǐng)土乃自在之物,人不能用它做任何事”(1972:454)。地圖即我們所構(gòu)想和具體化的更大的實(shí)體的代表和壓縮,我們希望利用它來(lái)互動(dòng)和導(dǎo)航。地圖要求我們置身于想象之中,投身于這種實(shí)體替代物中并相信那些道路會(huì)引導(dǎo)我們到達(dá)我們想去的地方。

      這個(gè)地圖的比喻非常有用,是因?yàn)樵谶@個(gè)例子中制圖所用的數(shù)學(xué)計(jì)算相當(dāng)復(fù)雜。這里的地圖就是一個(gè)主題模型,其背后的地圖制作就對(duì)通過(guò)“馬利特”發(fā)現(xiàn)的潛在狄利克雷分布的執(zhí)行。這項(xiàng)特別技術(shù)的執(zhí)行是一個(gè)概率過(guò)程,最終導(dǎo)致了連貫的詞匯集群規(guī)律性地相伴出現(xiàn),這些集群即我們所說(shuō)的主題。因?yàn)檫@個(gè)有目的的過(guò)程一開(kāi)始在某種程度上是隨機(jī)的,隨著這種算法不斷重復(fù)作用于這些文本,這個(gè)過(guò)程才漸入佳境。盡管使用的是相同的材料,這個(gè)過(guò)程仍會(huì)自然產(chǎn)生互有微小差異的主題。在調(diào)查研究的后期,我們可能能夠非常順利地瀏覽不同時(shí)代的幾十個(gè)甚至是幾百個(gè)集合,希望在主題的穩(wěn)定構(gòu)成成分上獲得統(tǒng)計(jì)回歸。

      根據(jù)前一部分所描述的結(jié)果,我們有理由相信我們已經(jīng)能夠得出民俗研究在第一個(gè)百年中的草圖——這個(gè)草圖具有發(fā)展成為更穩(wěn)健的地圖的巨大潛力。未來(lái)的探索者可能會(huì)引領(lǐng)我們修改主題數(shù)量,以嘗試確定是否存在一個(gè)針對(duì)這種特別語(yǔ)料庫(kù)的理想數(shù)量,但是面對(duì)不斷擴(kuò)大和變化的大量作品,任何這樣的理想都只是暫時(shí)的。我們相信重要的是現(xiàn)在的模型能通過(guò)收集一些特別的文本,發(fā)現(xiàn)學(xué)科在一般意義上的發(fā)展和分布特征。另一個(gè)模型可能會(huì)很好地從一個(gè)主題向另一個(gè)主題轉(zhuǎn)換一兩個(gè)詞匯,但要考慮到,在我們的心中,地圖是否呈現(xiàn)了特定的地貌特征,如丘陵或者山地。貝特森說(shuō):“每一個(gè)有效差異都在指示一個(gè)、一列以及所有類別的等級(jí)劃分。換句話說(shuō),這些差異為其自身的分類提供了依據(jù)。”(貝特森 1972:457)從旅行者的觀點(diǎn)來(lái)看,重要的是風(fēng)景的變化。分明的界線是政治的產(chǎn)物,而不是事實(shí)本身。我們相信民俗學(xué)者及所有學(xué)科的學(xué)者都能夠接受這種特別的方法論所帶來(lái)的少許潛在變化。

      最初的工作限制在歷史趨勢(shì)的研究上,實(shí)際有更多的工作要做。八個(gè)各自獨(dú)立的潛在主題在轉(zhuǎn)向表演的過(guò)程中相互纏繞在一起,這種情況給我們提出的挑戰(zhàn)是嘗試去理解這些思想是如何相互聯(lián)系的。有了這些主題,我們也可以生成可能出現(xiàn)在這些文本中的引文的網(wǎng)絡(luò)圖表。這個(gè)方法能讓讀者不僅看到思想觀念、意識(shí)形態(tài)或民俗研究意識(shí)形態(tài)的網(wǎng)絡(luò)圖,也能看到作者網(wǎng)絡(luò)圖。作為一個(gè)整體,隱藏在學(xué)科和領(lǐng)域背后的文化和社會(huì)為我們提供了一個(gè)良好的機(jī)會(huì)去系統(tǒng)地理解我們自身及我們的工作。作為一個(gè)小型社會(huì),我們的社會(huì)只是眾多社會(huì)中的一個(gè)系統(tǒng),然而這種限制同樣為我們提供了機(jī)會(huì)。

      在要做的工作中,我們僅是剛剛開(kāi)始分類,據(jù)戈德斯通和安德伍德的觀察,這些主題中的一部分更像學(xué)科分類,一部分則僅僅是與特定的理論方法相聯(lián)系的詞匯集群。我們?cè)诿袼籽芯克枷胧返奶骄可戏磸?fù)運(yùn)用“集群”,以此來(lái)思考我們力圖探究的地圖類別以及任何可能已經(jīng)出現(xiàn)但尚不清晰的潛在分類方法。主題本身就是共同出現(xiàn)在文本中的詞匯集群。這些主題以歷史圖表或是網(wǎng)絡(luò)可視化的形式繪制出來(lái),構(gòu)成了集群(此術(shù)語(yǔ)在網(wǎng)絡(luò)研究中稱為“成分”)的一部分,集群可以幫助我們理解較大領(lǐng)域中的分支領(lǐng)域。我們堅(jiān)信,這種方法不僅能夠?yàn)槲覀兲峁┟袼籽芯恐械碾[含觀點(diǎn),還能幫助我們理解相近領(lǐng)域中的分支領(lǐng)域如何相互聯(lián)系和相互交叉的,甚至可能幫助我們溝通其他相關(guān)觀念。*也有一些工作現(xiàn)在還難以實(shí)現(xiàn),因?yàn)橛写罅康娜祟悓W(xué)期刊被防火墻攔截了,無(wú)法用我們的建模方法所要求的方式訪問(wèn)。可以肯定的是,隨著越來(lái)越多的有關(guān)期刊可以通過(guò)像期刊數(shù)據(jù)庫(kù)的研究項(xiàng)目數(shù)據(jù)這樣的界面訪問(wèn),我們將能夠進(jìn)一步理解民俗研究。

      在擴(kuò)展工作中,我們期望能發(fā)現(xiàn)更多的有關(guān)該歷史趨勢(shì)的細(xì)節(jié),并且能夠更好地評(píng)價(jià)作者、觀念、文本、和調(diào)查領(lǐng)域之間相互交叉和互動(dòng)的方式。探究文本之間的關(guān)系,特別是在那些合著現(xiàn)象很常見(jiàn)的領(lǐng)域內(nèi),一種常見(jiàn)的方法既是繪制包含作者和文本的雙體系圖表(bimodal graph,見(jiàn)圖3)。以這樣的圖表作為起點(diǎn),可設(shè)計(jì)兩種網(wǎng)絡(luò)圖:合著文章的作者的網(wǎng)絡(luò)圖和有相同作者的文本的網(wǎng)絡(luò)圖。同類的雙體系網(wǎng)絡(luò)圖也適用于引文,類似的項(xiàng)目很常見(jiàn)。*這個(gè)項(xiàng)目早期的工作集中在生成引文網(wǎng)絡(luò)上,利用當(dāng)時(shí)短期內(nèi)通過(guò)期刊數(shù)據(jù)庫(kù)(JSTOR)可接觸到的引文數(shù)據(jù)。在初步的評(píng)估工作中,數(shù)據(jù)極為復(fù)雜,并要求進(jìn)行大量有效的結(jié)構(gòu)化處理。戈德斯通和安德伍德在其他領(lǐng)域中嘗試了這種圖表,他們利用《美國(guó)現(xiàn)代語(yǔ)言學(xué)協(xié)會(huì)會(huì)刊》(PMLA)創(chuàng)建了一個(gè)雙體系圖表,該圖表內(nèi)容為“趨向于出現(xiàn)在同類文章中的主題是相互聯(lián)系的”(戈德斯通和安德伍德 2012)

      圖3:包括作者、文本的雙體系例圖,以合作者的數(shù)量作為權(quán)重劃分作者和文本的網(wǎng)絡(luò)投射圖。

      圖4:作者,文本,主題。

      即使僅從這幾個(gè)不多的例子來(lái)看,也很容易發(fā)現(xiàn)從一個(gè)雙體系圖表跨越到另一個(gè)具有多種可能性,例如我們可利用雙體系圖表探究作者和特定主題之間的關(guān)系(見(jiàn)圖4)。不難想象,可以將這種圖表應(yīng)用于不同的相關(guān)期刊或者反復(fù)地比較引文網(wǎng)絡(luò)和主題網(wǎng)絡(luò)等研究中。

      所有這些關(guān)系及其網(wǎng)絡(luò)圖表使得探究各組關(guān)系之間可能存在的共同點(diǎn)、不同點(diǎn)及變化成為可能。我們相信這些共同點(diǎn)可能能夠證實(shí)都我們對(duì)民俗研究這個(gè)領(lǐng)域的一般理解,而這些變化則可能提出一些有趣的問(wèn)題,這些問(wèn)題將需要我們對(duì)該學(xué)科共同體和思想史進(jìn)一步細(xì)究。例如,這些變化僅僅會(huì)揭露隱含的學(xué)科關(guān)注焦點(diǎn)嗎?它們會(huì)引起學(xué)科邊緣向?qū)W科中心轉(zhuǎn)化的革新嗎?這種學(xué)科中心和學(xué)科邊緣的互換多久以后會(huì)發(fā)生?

      很明顯,這種新的繪制思想地圖和學(xué)科歷史的方法為構(gòu)成成分間的相互關(guān)聯(lián)提供了很大的可能性。這些關(guān)系為理解個(gè)人或集體所做的但尚未顯露出來(lái)的工作提供了新的理解方法。如上所述,根據(jù)戈德斯通和安德伍德的觀點(diǎn),主題建模在揭示如何寫(xiě)作上與揭示寫(xiě)作內(nèi)容上同樣好用,這可能為那些想通過(guò)文體來(lái)探究學(xué)術(shù)話語(yǔ)模式的人提供了一條途徑。當(dāng)像主題建模這種方法開(kāi)始得到大規(guī)模應(yīng)用時(shí),它就為我們提供了近距離審視事物的新方法。主題建模并非抹殺學(xué)術(shù)個(gè)性,它作為一種遠(yuǎn)觀也使得細(xì)讀成為可能,細(xì)讀使我們更能夠從個(gè)人角度審視文章及其作者。傳統(tǒng)中的個(gè)人角色對(duì)民俗研究來(lái)說(shuō)一直都是關(guān)注重點(diǎn)。最后,思想史編纂的方法很多,它使我們能夠從鏡子中反觀自己,就像我們通過(guò)實(shí)踐的窗口去觀察世界一樣。

      1.格雷戈里·貝特森.1972.意志生態(tài)學(xué)入門(mén).紐約:百齡壇圖書(shū)。

      2.邁克爾·J·貝爾.1976. 布朗的招待酒吧:作為藝術(shù)表演的職業(yè)角色.西部民俗35(2):93-107。

      3.大衛(wèi)·M·布萊.2011.概率主題模型導(dǎo)論.美國(guó)計(jì)算機(jī)協(xié)會(huì)通訊:1-16.

      http://www.cs.princeton.edu/~blei/papers/Blei2011.pdf.

      ——.2012.可能性主題建模. ACM 通訊55(4):77-84。

      4.大衛(wèi)·M·布萊,約翰·D·拉弗蒂.2006.動(dòng)態(tài)主題模型.第23屆機(jī)器學(xué)習(xí)國(guó)際研討會(huì)會(huì)議記錄138:113-20.賓夕法尼亞州匹茲堡市,7月25至29日。

      5.大衛(wèi)·M·布萊,安德魯·Y·Ng,邁克爾·I·喬丹.2003.潛在狄利克雷分布.機(jī)器學(xué)習(xí)研究期刊3:993-1022。

      6.豪爾赫·路易斯·博爾赫斯,1972. 丑惡世界史.諾曼·托馬斯·德·喬瓦尼譯.紐約:企鵝圖書(shū)有限公司。

      7.詹姆斯·T·布林克.1982. 巴馬那民間戲的時(shí)代意識(shí)與成長(zhǎng).美國(guó)民俗期刊95(378):415-34。

      8.西蒙·J.布朗納.2006.民間邏輯:民俗學(xué)解讀.西部民俗65(4):401-34。

      9.米哈伊·契克森特米哈依,大衛(wèi)·亨利·費(fèi)爾德曼,霍華德·加德納.1994.改變世界:創(chuàng)意研究體系. 康涅狄格州威斯伍德市:普雷格出版社。

      10.戈德斯通,安德魯,泰德·安德伍德.2012.美國(guó)現(xiàn)代語(yǔ)言學(xué)協(xié)會(huì)會(huì)刊(PMLA)提出的主題模型為文學(xué)研究提供了何種借鑒?12月14日http://tedunderwood.com/2012/12/14/what-can-topic-models-of-pala-teach-us-about-the-history-of-literary-scholarship/

      11.布魯斯·杰克遜.1988.序言.美國(guó)民俗學(xué)刊101(402):1-3。

      12.布魯斯·杰克遜,邁克爾·塔夫脫.1998.百年民俗學(xué).美國(guó)民俗學(xué)刊101(402):5-19。

      13.黛博拉·A·卡普蘭.1993.融合與市場(chǎng):民俗學(xué)新興范例.西部民俗52(2-4):303-26。

      14.芭芭拉·科什巴萊特-吉布列特.1998.民俗危機(jī).美國(guó)民俗學(xué)刊111(441):281-327。

      15.托馬斯·蘭道爾.1999.潛在語(yǔ)義分析.話語(yǔ)過(guò)程27(3):303-10。

      16.約翰·朗頓,凱爾·費(fèi)爾克.2011.從學(xué)科引文網(wǎng)絡(luò)看范式轉(zhuǎn)換.美國(guó)民俗協(xié)會(huì)年會(huì)報(bào)告論文,印第安納州布盧明頓市,10月12日至15日。

      17.佛朗哥·莫雷蒂.2000.世界文學(xué)猜想.新左派評(píng)論1:54-68。

      18.吉爾·特里·魯?shù)?2002.評(píng)《作為表演的口頭藝術(shù)》:通過(guò)修辭分析進(jìn)行的跨學(xué)科引文研究.美國(guó)民俗學(xué)刊115(455):5-27。

      19.本·施密特.2012.有了“馬利特”,每個(gè)問(wèn)題都仿佛是一枚釘子,11月2日http://sappingattention.blogspot,come/2012/11/when-you-have-mallet-everything-looks.html

      20.凱瑟琳·揚(yáng).1994.誰(shuí)的尸體?尸體傳說(shuō)簡(jiǎn)介.美國(guó)民俗學(xué)刊107(423):3-8。

      [責(zé)任編輯]王霄冰

      約翰·洛頓(John Laudun),路易斯安納大學(xué)英語(yǔ)系副教授;喬納森·古德溫(Jonathan Goodwin),路易斯安納大學(xué)拉斐特分校英語(yǔ)系助理教授。此譯文的翻譯和發(fā)表得到作者授權(quán),特此致謝。

      [譯者簡(jiǎn)介]喬英斐(1987-),女,山東萊陽(yáng)人,中山大學(xué)中國(guó)語(yǔ)言文學(xué)系博士研究生;李揚(yáng)(1962-),男,四川自貢人,中國(guó)海洋大學(xué)文學(xué)與新聞傳播學(xué)院教授。(廣東 廣州,510275)

      K890

      A

      1674-0890(2016)05-069-14

      猜你喜歡
      民俗學(xué)語(yǔ)料庫(kù)民俗
      冬季民俗節(jié)
      民俗中的“?!?/a>
      金橋(2021年2期)2021-03-19 08:34:08
      《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
      民俗節(jié)
      大眾文藝(2019年13期)2019-07-24 08:30:18
      總括*
      《六十種曲》中元宵習(xí)俗的民俗學(xué)、戲曲學(xué)意義
      戲曲研究(2017年3期)2018-01-23 02:51:21
      把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
      慶六一 同成長(zhǎng)民俗歡樂(lè)行
      試論中國(guó)現(xiàn)當(dāng)代文學(xué)的民俗學(xué)意識(shí)
      基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
      格尔木市| 白玉县| 南投市| 海丰县| 大石桥市| 黔西| 齐齐哈尔市| 乐东| 涟水县| 华宁县| 灵寿县| 玉环县| 海南省| 昂仁县| 沙田区| 昔阳县| 德兴市| 万宁市| 蒙城县| 增城市| 高台县| 凤城市| 黎城县| 成安县| 长治市| 麦盖提县| 大埔区| 云林县| 德钦县| 灌阳县| 苍山县| 晋中市| 彭州市| 巩义市| 莱芜市| 乌兰县| 紫金县| 沙湾县| 水城县| 明光市| 南木林县|