人工智能時代的“新子學”試探

2019-06-25 08:29金把路

名作欣賞·學術版 2019年5期

金把路

摘要：本文以數(shù)字人文的觀點為基礎，提出了在人工智能時代的新子學發(fā)展方向，探討了新子學所提倡的自由性、開放性、多樣性、平等性、包容性在數(shù)字世界的實現(xiàn)方法。筆者把數(shù)字人文研究領域分為設計、建造、分析、解釋、視覺化，而試論了各領域應用對新子學的研究。設計與建造領域提出了“數(shù)字《子藏》”“數(shù)字新子學”“新子學人工智能倫理模型”的概念。分析與解釋領域介紹了文本挖掘、社會網(wǎng)絡分析、空間分析的常用數(shù)字分析方法以及其方法在新子學上的應用。本文最后簡單提到新子學在視覺化領域的幾種應用。

關鍵詞：“新子學” 數(shù)字人文人工智能

一、前言

自谷歌（Google）的阿爾法圍棋（AlphaGo）擊敗人類職業(yè)圍棋選手以后，人工智能迅速地進入大眾視野。有人期待人工智能與人類合作的烏托邦（Utopia），有人擔心人工智能統(tǒng)治人類的反烏托邦（Dystopia），但不管如何，人類從來不會放棄手里的武器。我們無法阻擋人工智能技術的發(fā)展，我們只能領導人工智能技術的發(fā)展軌跡。哲學界已經(jīng)針對人工智能進行了許多研究，其代表有約翰·羅杰斯·希爾勒的“中文房間”（Chinese room），但是哲學界針對人工智能的探索大部分留在哲學思辨領域。哲學家是以局外人的立場，觀察、探索、預測人工智能與人工智能所帶來的未來。雖然哲學的局外省察也格外重要，但是人工智能能否應用于哲學領域呢？

西方人文學界已經(jīng)開始提倡數(shù)字與人文學融合的數(shù)字人文（Digital Humanities）。數(shù)字人文是對數(shù)字技術與人文學之間的交叉領域進行研究、教育以及創(chuàng)新的一門學科，它不僅力求傳統(tǒng)文本的數(shù)字化，還考慮到文本挖掘（Text Mining）、社會網(wǎng)絡分析（Social Network Analysis）、空間分析（Spatial Analysis）等數(shù)字分析方法與多媒體、虛擬現(xiàn)實（Virtual Reality，VR）、增強現(xiàn)實（Augmented Reality，AR）等數(shù)字視覺化，在歷史、哲學、文學等人文學研究領域的應用。簡單地說，數(shù)字人文是在傳統(tǒng)人文學研究的基礎上導人數(shù)字的研究方法。數(shù)字人文的本質還是對人類的探究，只是傳統(tǒng)人文學以紙張為基礎，而數(shù)字人文以數(shù)字為基礎。數(shù)字人文借用計算機的能力，可實現(xiàn)人類無法或者難以實現(xiàn)的情報搜集、分析與共享，還可以實現(xiàn)紙張無法提供的多媒體視覺化。

論者把數(shù)字人文研究領域分為設計、建造、分析、解釋、視覺化。設計是為了人文學情報數(shù)字化，研究人文學各個研究對象的結構與內容;建造是按照設計結果，新造、再編、運營人文數(shù)據(jù)庫;分析是以人文數(shù)據(jù)為基礎，以傳統(tǒng)人文學研究方法結合文本挖掘、社會網(wǎng)絡分析、空間分析等的數(shù)字分析方法導出分析結果數(shù)據(jù)的領域;解釋是通過人文學的觀點與思維，在分析結果數(shù)據(jù)上賦予意義的領域;視覺化是設計結果、人文數(shù)據(jù)、分析結果數(shù)據(jù)、解釋結果變?yōu)檫m用于人類可讀的領域。本文以數(shù)字人文的觀點為基礎，探討在人工智能時代實現(xiàn)“新子學”研究的自由性、開放性、多樣性、平等性、包容性的現(xiàn)實方法。

二、設計與建造

（一）人文數(shù)據(jù)概述

設計與建造都是數(shù)據(jù)的領域。人文學領域已經(jīng)有豐富的紙張情報，所以人文學領域比較關心數(shù)字化（digitalization）。但是很多人文學領域的人士忽略數(shù)據(jù)的質量。根據(jù)鍵連公開數(shù)據(jù)（Linked Open Data，LOD），數(shù)據(jù)可分為五個等級。

第五等級的條件是制作權公開（Open Licence），我們一般接觸的PDF文件屬于這一類。數(shù)字網(wǎng)絡的最大特點在情報的共享，如果某一個情報無法共享等于沒有數(shù)據(jù)。第四等級的條件是制作權公開與可再用（Reusable），我們一般接觸的Excel文件屬于這一類。為了借用計算機的力量，必須建造機器可讀數(shù)據(jù)（machine readable data），雖然最近PDF文件通過光學字符識別（Optical Character Recognition，OCR）可以變成文本（TEXT），但是其導出的文本還是有限的。機器有限地讀出其內容意味著人工智能只能有限地處理其內容。第三等級的條件是制作權公開、可再用的、自由文件格式（Open format），其代表文件形式為csv格式。雖然我們常用Excel，但是Excel文件只能在微軟的Office上才能運行，所以我們?yōu)榱吮Ｕ献杂尚?，得采用自由文件格式。第二等級的條件是制作權公開、可再用的、自由文件格式、統(tǒng)一資源標志符（Uniform Resource Identifier，URI）。URI是為了同時保障多樣性、平等性而產(chǎn)生的一種出處表明手段。如果方勇所想的“新子學”與金白鉉所想的“新子學”是不同的，那么數(shù)字上分別表達為“方勇：新子學”“金白鉉：新子學”，實際上是利用網(wǎng)絡上常用的統(tǒng)一資源定位符（Uniform Resource Locator，URL）來表達。如果方勇的網(wǎng)站是“http：//fangyong.com”，方勇的“新子學”可表達為“http：//fangyong.com/新子學”。第一等級的條件是制作權公開、可再用的、自由文件格式、統(tǒng)一資源標志符、鍵連數(shù)據(jù)（Linked data）。人人皆有自己的想法，我們在第二等級的數(shù)據(jù)條件下，已經(jīng)可建立各自的人文數(shù)據(jù)庫。第一等級是各自的人文數(shù)據(jù)庫互相連接的，比如中國“新子學”數(shù)據(jù)庫與韓國“新子學”數(shù)據(jù)庫之鍵連、“新子學”數(shù)據(jù)庫與“新儒學”數(shù)據(jù)庫之鍵連、“新子學”數(shù)據(jù)庫與康德數(shù)據(jù)庫之鍵連，但是現(xiàn)在大部分的人文數(shù)據(jù)連第五等級都達不到，重點在于機器可讀性數(shù)據(jù)與數(shù)據(jù)共享。

如今，最高級的機器可讀性數(shù)據(jù)是語義網(wǎng)（Semantic Web）。語義網(wǎng)是由萬維網(wǎng)聯(lián)盟的蒂姆·伯納斯-李（Tim Bemers-Lee）在1998年提出的一個概念，它的核心是：通過給萬維網(wǎng)上的文檔（如HTML）添加能夠被計算機所理解的語義（Meta data），從而使整個互聯(lián)網(wǎng)成為一個通用的信息交換介質。語義萬維網(wǎng)通過使用標準、置標語言和相關的處理工具來擴展萬維網(wǎng)的能力。不過語意網(wǎng)概念實際上是基于很多已有技術的，也依賴于后來和text-and-markup與知識表現(xiàn)的綜合。為了實現(xiàn)語義網(wǎng)需要設計數(shù)字本體（digital ontology）。數(shù)字本體的基本要素為類（Class）、屬性（Property）、個體（instance），基本形式為論域（domain）——關系（ relation）——定義域（range）。

“老子”“《道德經(jīng)》”“道可道，非常道”是個體，“老子”“王弼”“明太祖”屬于“人物”類，“創(chuàng)作”“圖像”“注解”是屬性?！叭宋铩鳖惖摹袄献印眰€體——“創(chuàng)作”——“文獻”類的“《道德經(jīng)》”個體，我們可將其抽象化為“人物”類——“創(chuàng)作”——“文獻”類（參考本文第一頁“新子學”語義網(wǎng)概念圖）。雖然數(shù)字本體的結構是比較簡單的，但是語義網(wǎng)（Semantic Web）已經(jīng)成功實現(xiàn)了各種人文數(shù)據(jù)庫，如歐洲數(shù)位圖書館（Europeana）統(tǒng)合了歐洲各個圖書館、美術館、博物館的文化遺產(chǎn)情報。

需要注意的是，人文情報的結構與語義網(wǎng)的結構比較相似。從前人文情報的數(shù)字化依靠可擴展標記語言（Extensible Markup Language，XML）與關系數(shù)據(jù)庫（Relational database.RDB）。雖然可擴展標記語言與關系數(shù)據(jù)庫是商業(yè)上得到地位的方法，但還是無法完全包含數(shù)位情報的全部內容。相反，語義網(wǎng)以數(shù)字本體為基礎可輸入、運營、輸出多層次的人文情報，還可以按照以往的人文數(shù)據(jù)進行倫理推論而找到新的情報。大膽地說，我們通過語義網(wǎng)，把人的思維移植到數(shù)字上了。

（二）設計與建造之應用

1.數(shù)字《子藏》

“新子學工作包括三個部分：文獻、學術史、思想創(chuàng)造。這是逐步深入的研究步驟，也是并進的三個方面?！狈接滤f的文獻就是人工智能時代的數(shù)據(jù)?！蹲硬亍匪鸭耸澜绺鞯氐闹T子百家文獻而精選了其中的最好版本，體現(xiàn)了“全”與“精”，但是現(xiàn)在《子藏》出版于紙張。數(shù)字人文的立場也贊同搜集盡可能多的版本，但是數(shù)字人文無法贊同“選”版本而出版于紙張的行為，因為其行為本質上限制開放性、多樣性。現(xiàn)在學者們難以接觸《子藏》全集，只能看到選取的精本，在《子藏》上尋找所需的內容也十分艱難。因此筆者建議建設數(shù)字《子藏》，這是參考了CBETA漢文大藏經(jīng)與CTEXT（中國哲學書電子化計劃），建造全世界的相關學者們容易接近、查看、互動的數(shù)字《子藏》平臺，數(shù)字《子藏》不僅推薦《子藏》項目所選的最好版本，同時還提供與其他版本之比較，這才是“全”與“精”的。

2.數(shù)字“新子學”

方勇曾說：“以往的研究大多以各子或者各家為對象，像一般的哲學史或者諸子學論著中，都以儒家、墨家、道家、法家等為章節(jié)，逐一加以論說，或僅論說諸子個人，如‘先秦七子一類。當代諸子學研究已經(jīng)有了諸多積累，各種學派研究、重要子家的研究，成果都非常豐碩，即使諸如《鶚冠子》《文子》《鬻子》等典籍也都有可觀的研究成果，這是綜合性研究的基礎。諸子學研究需要會通諸子學各家各派，回環(huán)往復地閱讀研究，以通盤的視野看待諸子思想，這樣才可能做到真正的綜合”。但是在紙張上綜合以往的成果是個難題，而且即使綜合了成果可能也難以找到研究者個人所需要的。在將“新子學”的研究成果編纂為機器可讀性數(shù)據(jù)的前提下，人工智能可以實現(xiàn)研究者的需求，甚至幫助研究者找到個人難以找到的情報。因此我們不僅應針對《子藏》進行數(shù)字化，還需要針對“新子學”研究與教育環(huán)境進行數(shù)字化。

3.“新子學”人工智能倫理模型

為了防止人工智能造成惡性未來，我們需要人工智能倫理模型。世界各國正在力求建立各種各樣的人工智能倫理模型，但其倫理模型是以功利主義與康德主義為基礎的。人工智能完全依靠倫理模型來判斷，在現(xiàn)在的趨勢下，就變成西方哲學的代行者。換個思路，我們能否建立老子人工智能倫理模型呢？西方倫理學有個著名的思想實驗——有軌電車難題（Trolley Problem）：“假設你看到一輛剎車壞了的有軌電車，即將撞上前方軌道上的五個人，而旁邊的備用軌道上只有一個人，如果你什么都不做，五個人會被撞死。你手邊有一個按鈕，按下按鈕，車會駛入備用軌道，只撞死一個人。你是否應該犧牲這一個人的生命而拯救另外五個人？”簡單地說，以功利主義為基礎的人工智能倫理模型一般會選擇撞死一個人，但是以老子為基礎的人工智能倫理模型可能與功利主義人工智能不同，也許會為了體現(xiàn)“無為”不按鈕，也許會為了體現(xiàn)“自然”隨機（random）按下按鈕。

三、分析與解釋

（一）數(shù)字分析與人文解釋

以往的人文學研究用不著分開分析與解釋，但是在計算機明明超越人類的計算能力的現(xiàn)實下，人文學也需要探索與計算機的合作之路。人工智能在條件限定的情況下，遠遠超過人類的認知與計算能力。如現(xiàn)在根本不會有人從北京走路到首爾，學術也沒有理由回避借用計算機的能力。但人工智能無法限定條件，人類才能限定條件。更重要的是，到現(xiàn)在為止，人工智能無法判斷其意義，無法賦予其意義，解釋領域還在人類的手里。只是解釋計算機分析結果的前提是針對計算機分析方法的理解。遺憾的是，人工智能的核心技術是深度學習（deep learning），而深度學習需要大數(shù)據(jù)（Big Data）。到目前為止，幾乎沒有大量的人文數(shù)據(jù)，所以現(xiàn)在難以直接利用深度學習進行人文學研究，只能依靠小數(shù)據(jù)（Small Data）的數(shù)字分析方法?，F(xiàn)在比較成熟的數(shù)字分析方法為文本挖掘、社會網(wǎng)絡分析、空間分析。

（二）文本挖掘

文本挖掘是用計算機進行語言文字分析的。語言分析方法眾多，有自然語言處理（Natural Language Processing，NLP）、語料庫語言學（corpus linguistics）、文本分類、文本聚類、共字分析（co-word analysis）、感情分析等。傳統(tǒng)人文學研究經(jīng)常進行版本比較研究，但是其研究一般是以少數(shù)文章之間的比較為主。因為個人難以進行異本之間的全文比較研究，所以只能依靠幾十年積累的經(jīng)驗為基礎的直觀研究。文本挖掘如何應用在人文學研究上？可以參考“類書對應查詢系統(tǒng)”所提供的《藝文類聚》與《太平御覽》之間共引內容的比較功能。

《太平御覽》的道部總共25條，其條內容在《藝文類聚》中涉及11部、總共29條。由其分析可知，唐代的居處部、靈異部、木部、山部、樂部、水部、寶玉部、果部、人部、禮部、藥香草部到宋代都歸為道部。更具體一點，《藝文類聚》靈異部的被榮都屬于仙道，但在《太平御覽》其條分為天仙、里所、服餌、地仙，而《太平御覽》中地仙的內容來源不僅有《藝文類聚》的靈異部，還有木部、樂部、寶玉部、果部。從中我們可以理解唐代與宋代“仙”的概念之異同。以上情況，如果是個人進行研究，將會難以完成任務，或者只能選擇幾個案例，但是利用計算機，就很容易可以實現(xiàn)，并可以將剩下的時間投入在解釋層面。我建議同一個方法應用在“新子學”文獻之間的變遷研究上。

（三）社會網(wǎng)絡分析

社會網(wǎng)絡分析是通過網(wǎng)絡中關系的分析研究網(wǎng)絡的結構與屬性特征的方法。屬性特征是度中心性（Degree Centrality）、接近中心性（Closeness Centrality）、中介中心性（Between Centrality）等。社會網(wǎng)絡分析的基本數(shù)據(jù)要素是來源（ Source）與目標（Target）。例如，王弼注釋了《老子》的“王弼（來源）——《老子》（目標）”。社會網(wǎng)絡分析如何應用在人文學研究上？中國歷代人物傳記數(shù)據(jù)庫（China Biographical Database Project，CBDB）提供了中國歷史人物之間的社會網(wǎng)絡分析之數(shù)據(jù)。

上圖是1050至1100年間取得進士學位者之間的社會網(wǎng)絡。網(wǎng)絡中的關系一般為血緣關系：F是父親，F(xiàn)F是祖父等。我們可以看出當時少數(shù)家族獨占進士學位。與文本挖掘一樣，個人基本上無法進行類似的研究，只能利用計算機觀察到比較客觀的整體狀況。筆者建議同一個方法應用在歷代“新子學”學者之間的分析上。

（四）空間分析

空間分析是對于地理空間現(xiàn)象的定量研究，以空間數(shù)據(jù)為基礎，提取空間數(shù)據(jù)與其相關數(shù)據(jù)里潛在的信息。其主要研究為空間位置、空間分布、空間形態(tài)、空間距離、空間關系。歷史地理學領域已有歷史地理信息系統(tǒng)（Historical Geographic Information System，GIS）?？臻g分析如何應用在人文學研究上？WorldMap提供了開放的地理信息系統(tǒng)。

上圖是WorldMap上的宋代與明代科舉考試合格者的出生地比較，出身數(shù)量利用氣泡圖（bubble chart）來視覺化了。我們可以看出宋、明科舉合格者出生地的相異。其分析是中國歷代人物傳記數(shù)據(jù)庫的科舉數(shù)據(jù)與中國歷史地理信息系統(tǒng)（China Historical Geographic Information System，CHGIS）的地名數(shù)據(jù)結合而成的。筆者建議同一個方法應用在“新子學”思想的傳播分析上。

四、視覺化

紙張印刷基本上依靠單色的文字與圖畫，雖然已有彩色印刷技術，但是成本還是比較高。相反地，數(shù)字技術不僅提供彩色的文字、圖片、照片，還提供紙張無法呈現(xiàn)的聲音、動畫和影片，以及程序所提供的互動功能。近年來甚至出現(xiàn)虛擬現(xiàn)實（vntual reality，VR）與增強現(xiàn)實（Augmented Reality，AR）以及兩者合成的混合現(xiàn)實（Mixed Reality，MR），慢慢地走向瓦解虛擬與現(xiàn)實的邊界的方向。但是數(shù)字上的視覺化領域的基礎是數(shù)據(jù)，問題是現(xiàn)在“新子學”的數(shù)據(jù)不足以深入研究視覺化，只能一邊建造數(shù)據(jù)一邊視覺化。不過“新子學”通過數(shù)字人文的方法進行設計、建造、分析、解釋，可以實現(xiàn)如下視覺化：“新子學”文獻的視覺化、“新子學”文獻結構的視覺化、“新子學”文化遺產(chǎn)的視覺化、“新子學”思想與文化遺產(chǎn)的互聯(lián)視覺化。

五、結論

雖然在人工智能時代，“新子學”可以展開研究人工智能所帶來的問題，這也是“新子學”應當擔任的責任，但是對其批評首先需要對其深刻理解，而且人工智能可以幫助傳統(tǒng)“新子學”的研究，并且可以開拓新的“新子學”研究，我們又何必留在限制自由性、開放性、多樣性、平等性、包容性的紙張上呢？

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

人工智能時代的“新子學”試探