王曉笛 李廣建
摘 要:科學交流研究,是情報學長期關注的研究主題,其中非正式科學交流尤其是線下的交流活動作為一種重要的信息交流方式,但長期以來由于受到數(shù)據(jù)的限制一直不能進行大規(guī)模的研究。文章通過探索學術新聞中對于非正式科學交流活動的記錄,將活動拆解為參與者、時間、地點、事件類型、報告題目、觀點等元素,并對這些元素在新聞中的文本特征做了分析。研究證明利用信息新聞抽取,可以實現(xiàn)對非正式科學交流事件的了解,并可以以此為基礎研究線下非正式科學交流的某些特征和規(guī)律。
關鍵詞:非正式科學交流;信息抽??;人文社科
中圖分類號:G250.2 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2018024
Research on the Informal Scientific Communication of the Humanities and Social Sciences Based on the Extraction of News Information
Abstract Scientific communication is a hot research topic in information science. Informal communication, especially those happened in real life is an important type of communication. However, there is no large scale study on this topic due to a lack of data. In this study we explore how these activities has been described in academic news and split a piece of news into participants, time, place, event, report title and opinion. We studied the patterns of how these elements are phrased. Based on these knowledge we use a program to implement a process which enables us to extract 160,312 communication activities from news crawled using Bing API and an expert list. Then we carried out a general analysis and a case study.
Key words informal scientific communication; information extraction; humanities and social sciences
1 引言
科學自誕生以來就伴隨著科學知識的傳播,從古希臘時期的口口相傳,到近代以牛頓等科學家為代表的歐洲科學研究開始出現(xiàn)了相對正式的文字科學交流。進入20世紀后,隨著《科學革命的結構》《無形學院——知識在科學共同體的擴散》等專著的出版,科學共同體的互動以及知識的交流作為一種特殊的交流形式開始得到研究者的關注,該研究在情報學領域被稱為科學交流研究,是情報學長期關注的研究主題。前蘇聯(lián)著名情報學家米哈依諾夫將科學信息交流分為“正式交流過程”和“非正式交流過程”。正式交流過程指發(fā)生在科學信息生產(chǎn)者和科學信息消費者借助于科技文獻進行科學信息交流的過程;非正式交流過程指的是信息生產(chǎn)者與利用者之間直接進行交流的過程,這種交流通常是口頭進行的,一般的交流場景包括面對面交談、電話會議、邀請或訪問型現(xiàn)場講座等。來自拉夫堡大學的Brittain[1]對非正式科學交流的比例做了研究,估計在整個研究和學術環(huán)境中,非正式科學交流所占比重在50%到80%之間,而在社會科學的實際應用、管理以及教學領域,非正式交流的比重甚至更高;Kraut等[2]的研究指出,非正式交流在組織交流形式中占有支配性地位。然而,從總體上看,當前對于非正式交流的研究依然較少,且數(shù)據(jù)規(guī)模都較小[3]。一個重要原因是難以獲得相關數(shù)據(jù),因此無法開展大規(guī)模研究[3]。Brittain[1]的研究表明,較小的研究規(guī)模對于從整體上理解非正式科學交流活動能起到的作用很小。
近年來,大數(shù)據(jù)、多源數(shù)據(jù)融合以及人工智能等技術經(jīng)歷了快速發(fā)展,研究者提出了學術大數(shù)據(jù)的概念[4],這為情報學研究者利用學術大數(shù)據(jù)對非正式科學交流進行研究提供了數(shù)據(jù)基礎和技術條件。當前已有學者開始探索利用各種互聯(lián)網(wǎng)數(shù)據(jù)進行非正式科學交流的研究。如張立偉等[5]利用科學網(wǎng)中的博客數(shù)據(jù)對網(wǎng)絡空間中科學家的非正式科學交流研究,識別了交流的主要推動力、交流的時間特征和主要內(nèi)容等;鄒儒楠和于建榮[6]利用小木蟲論壇數(shù)據(jù),從社會網(wǎng)絡分析的角度研究了非正式科學交流中知識轉移的問題;劉乙蓉[7]使用微博數(shù)據(jù),對圖書情報領域相關專家的交流網(wǎng)絡以及交流內(nèi)容做了研究。此外,還有研究者[8]利用諸如Github等平臺的數(shù)據(jù)對虛擬社區(qū)創(chuàng)新知識傳播進行研究。然而,從科學交流所發(fā)生的空間來看,上述研究均關注的是網(wǎng)絡空間中的科學交流,正如方卿[9]所指出的,網(wǎng)絡中的科學交流定位于“點對點”的個人交流。然而,在非網(wǎng)絡環(huán)境下,即線下非正式科學交流依然存在,典型的活動包括邀請訪問、學術會議、專家報告等。盡管并非所有的科學交流活動都留有記錄,然而,依然有部分非正式科學交流以文字等形式被記錄下來。這其中,各種與學術相關的機構的網(wǎng)站作為機構的宣傳組織以新聞的形式就記錄了大量的科學交流信息。本文旨在通過探索這些與科學交流相關的新聞(以下稱為學術新聞),并以人文社科類學術新聞為主要對象,抽取其中的非正式科學交流相關信息并做分析。
2 新聞中的非正式科學交流信息
本文關注的新聞是學術新聞,具體指的是新聞中包含有科學交流活動的新聞。這些新聞通常存在于帶有學術背景的機構網(wǎng)站,如中國社會科學網(wǎng),或者存在于與學術專家相關聯(lián)的機構網(wǎng)站,如北京大學官網(wǎng)。大量的記錄科學交流相關信息的新聞被發(fā)表在專家所在的機構以及專家學術交流實際發(fā)生的機構。專家所在的機構通常是高等院?;蜓芯克瑢W術交流實際發(fā)生的機構指的是專家訪問、交流、報告、授課的機構,如高等院校、研究所以及各級政府和企事業(yè)單位等。
2.1 學術新聞的基本要素
新聞指的是對于有記錄價值的事件的記載。根據(jù)著名的新聞寫作“5W+1H”模式,一般可以將新聞所記錄的信息分解為事件(What)、事件的參與者或關聯(lián)者(Who)、事件的相關時間(When)、事件的相關地點(Where)、事件的起因(Why)以及事件的經(jīng)過(How)。從新聞的寫作風格上看,可以將新聞分為概括新聞和敘述新聞[10]。概括新聞追求簡潔的寫作風格,力求交代清楚時間、地點、人物、事件,與之相比,敘述新聞對事件的起因、經(jīng)過和發(fā)展記錄更為詳細。
學術新聞作為新聞的一種,同樣具備新聞的上述元素。通過對各機構所刊載的學術新聞進行調(diào)研,本文認為學術新聞屬于概括新聞。學術新聞通常以極為簡潔的風格記錄與學術相關的學者(Who)、時間(When)、地點(Where)等信息,如某專家(Who)在某年某月(When)來到某機構(Where)做了報告(What)。除此以外,許多新聞中會簡要的記錄事件發(fā)生的經(jīng)過(How),如專家在講座這個事件中會先辨析概念,然后分析現(xiàn)狀,最后給出自己的判斷等。此外,部分新聞也會交代發(fā)生的原因(Why),如某專家是受某機構邀請才安排了某次講座。
2.2 科學交流新聞中的非正式科學交流活動
為了從學術新聞中進行信息抽取,本文首先對非正式科學交流加以界定。根據(jù)米哈伊洛夫對于正式交流過程和非正式交流過程的區(qū)分,本文所指的非正式交流是由有學科或學術背景的信息生產(chǎn)者或消費者參與的,除正式出版物交流以外的所有科學交流。而根據(jù)交流是否依賴互聯(lián)網(wǎng)可以將非正式交流進一步分為線上的非正式交流和線下的非正式交流。這里主要關注線下非正式交流。從交流的形式上看,線下非正式科學交流既包括知識型交流和非知識型交流。知識型交流包括講座、授課、研討、答辯等學術知識交流形式,也包括致辭、致謝等非學術型知識交流形式。非知識型交流則包括了接待、頒獎、授牌、主持等由學者參與的與科學研究相關的其他活動。
在非正式科學交流的研究中,學者會關注非正式科學交流是以什么形式進行的[1-2,11,15],交流的主要內(nèi)容是什么[6-7],交流是在什么地點和環(huán)境下進行的[2,12-13],交流的頻率如何以及持續(xù)的時間[2-3],還有非正式交流的參與者有哪些特征以及參與者之間的關系等[2,14,16]。由此可以發(fā)現(xiàn),非正式科學交流研究所關注的信息涵蓋了非正式科學交流活動的各個方面,而科學新聞中記載了大量關于非正式科學交流活動的信息。具體地說,從學術新聞元素的角度看,時間元素可以用來研究科學交流的頻率等,地點元素可以用來研究科學交流是在什么樣的地點進行以及這些交流各自有什么特點,人物元素則可以用來研究科學交流的參與者,包括參與者的機構、稱謂等特征,事件元素作為一個整體性描述可以用來研究科學交流的形式,而具體的原因和經(jīng)過則可以用來研究科學交流的內(nèi)容和其他細節(jié)。
本文以一則中國社會科學院學部委員長黃長著教授在上海大學圖情檔系作學術報告的新聞[17]為例(見圖1)。該新聞記載的是2015年10月發(fā)生在上海大學的學術報告形式的一次非正式科學交流活動,該活動的參與者(Who)主要包括黃長著、金波等。新聞不但記錄了報告的題目和交流的具體內(nèi)容。同時也記錄了整個交流活動中每個人物的具體參與情況,如黃長著是受邀的報告者,而金波是活動主持人,此外還有其他未具名的參與者包括圖情檔系老師、全體研究生等。
通過對大量學術新聞進行分析,結合現(xiàn)有非正式科學交流的研究關注點,本文對學術新聞中的與非正式科學交流相關的基本元素進行了界定(見圖 2)?!笆录?,即具體的交流活動,由于學術新聞通常都是圍繞一次事件展開的,因此本文假設一篇新聞只記錄一次非正式科學交流事件。交流活動中的其他所有元素都是對事件的描述,是構成事件的一部分?!皡⑴c者”指的是參與非正式交流事件的所有人物,參與者除了“姓名”以外,也包括人物的“機構”和“稱謂”等修飾元素?!皶r間”和“地點”具體指新聞中或元數(shù)據(jù)中記錄的事件發(fā)生或記錄的時間和地點?!敖?jīng)過”元素是活動的具體體現(xiàn),具體包括每個“參與者”所具體參與的“事件類型”以及每個參與者的“交流內(nèi)容”,而“交流內(nèi)容”在具體表現(xiàn)形式上包括報告或講座的“報告題目”和交流的主要“觀點”。
3 非正式科學交流信息抽取規(guī)則
為了對學術新聞中的非正式科學交流元素信息進行抽取,本文根據(jù)對新聞數(shù)據(jù)的研究和分析,制定了相應的抽取規(guī)則。
3.1 參與者:姓名、機構、稱謂
在學術新聞中,從參與者是否以姓名的形式出現(xiàn)可以將其中的人分為主要參與者和其他參與者,主要參與者包括非正式科學交流的學者、官員等,而其他參與者包括院系的教學人員、學生以及各種群體。
本文關注主要參與者,即以姓名的形式出現(xiàn)在新聞中的人。通過分析常見的新聞,可以發(fā)現(xiàn)絕大多數(shù)的參與者在新聞文本中遵循幾種常見模式(見表 1)。本文設計如下抽取規(guī)則對參與者進行識別和抽取,該規(guī)則的主要功能是識別參與者的姓名、稱謂和機構。
規(guī)則1: 姓名的出現(xiàn)代表一個參與者,姓名代表參與者的文本范圍。
規(guī)則2: 當姓名的后一個詞或前一個詞為稱謂,稱謂是姓名所代表參與者的修飾語,將稱謂加入?yún)⑴c者的文本范圍。
規(guī)則3: 當參與者的文本范圍前一個詞為機構或稱謂時,將稱謂或機構加入到參與者的文本范圍,重復該規(guī)則,直到不再出現(xiàn)機構或稱謂。
在上述規(guī)則的實現(xiàn)上,姓名和機構使用命名實體識別的方法進行識別,稱謂的識別需要借助人工構建的稱謂表。
3.2 時間
時間一般出現(xiàn)在兩個位置,分別是新聞的正文以及新聞網(wǎng)頁的元數(shù)據(jù)。在時間的表示上,少部分新聞正文中會使用XXXX年XX月XX日這樣非常明確的表示方法。但絕大多數(shù)新聞則使用XX月XX日這種無法確定明確年份的表示方法。此外,大多數(shù)新聞也會使用近日、近期、本月、上月等與新聞發(fā)表時間與上下文信息極為相關的表示方法。對于絕大多數(shù)新聞網(wǎng)頁,一般都包含新聞的發(fā)布日期,這個發(fā)布日期通常會滯后于科學交流活動實際發(fā)生的日期,鑒于正文中日期的缺失現(xiàn)象,因此本文使用新聞的發(fā)布日期作為實際科學交流日期的一種替代。時間的抽取規(guī)則如下:
規(guī)則1: 年份的識別。當出現(xiàn)2或4個數(shù)字型字符,且數(shù)字范圍在00-99或1900-2099之間,且隨后出現(xiàn)破折號“-”、斜杠“/”、“年”字時,繼續(xù)規(guī)則2。
規(guī)則2: 月份的識別。當出現(xiàn)1或2個數(shù)字型字符,且數(shù)字分為在1-9之間或1-12之間,且隨后出現(xiàn)破折號“-”、斜杠“/”、“月”字時,繼續(xù)規(guī)則3。
規(guī)則3: 日的識別。當出現(xiàn)1或2個數(shù)字型字符,且數(shù)字分為在1-9之間或1-12之間,且隨后可能出現(xiàn)“日”時,判定為時間。
3.3 地點
只有少數(shù)新聞會明確提到實際發(fā)生的地點,絕大多數(shù)新聞正文對于發(fā)生地點的描述非常模糊。而對于地點,由于高校和政府媒體的特殊性,一般可以通過網(wǎng)頁的標題、版權信息和網(wǎng)址等元數(shù)據(jù)進行確定。本研究中具體的地點主要包括高等院校和政府機構,兩種機構類型需要使用不同的規(guī)則進行抽取。
高等院校由于受到教育部的統(tǒng)一管理,因此可以通過教育部網(wǎng)站獲取幾乎全部的高等院校名單,基于該名單可以直接對網(wǎng)頁的標題、版權信息等位置進行匹配,從而識別高等院校名稱。
政府機構采用層級管理,目前沒有公開渠道可以獲取全國所有的政府機構名單。通過分析中央和各級政府的機構編制網(wǎng),本文制定如下政府機構抽取規(guī)則:
規(guī)則1: 前綴為以中華人民共和國、國家(國家級機構、部委)和地區(qū)名(地方政府機關)。
規(guī)則2: 中間關鍵詞為相應的管理范圍或職能范圍關鍵詞,例如司法、公安、民政、文化等。
規(guī)則3: 以部、廳、局、所、處、人民政府、委員會、辦公室作為后綴。
3.4 事件類型
事件是一個相對復雜的元素,如果需要對事件做完整的描述,那么通常需要使用復雜的句子甚至是段落。根據(jù)金宏奎[18]對國內(nèi)某高校門戶網(wǎng)站一年內(nèi)刊發(fā)的校內(nèi)自采新聞的研究,新聞中包括的活動類型主要是出訪來訪、會議、慶典儀式、榮譽通報、演出比賽、講座以及其他類型。參考該研究的觀點,本研究使用事件類型來表示事件。
事件指的是發(fā)生的具體事情,從新聞文本的角度看,其中最重要的文本元素是動詞,本文采集大量的新聞文本進行統(tǒng)計分析,通過將所有參與者姓名以及緊隨姓名后的動詞進行統(tǒng)計分析,每個動詞抽取10個例句,然后進行人工判別。通過研究采樣的數(shù)據(jù),參考金宏奎的研究結果,本文將事件類型做進一步細分,列出全部事件類型和所有對應動詞,并得到3大類11個小類(見表 2)。在所列出的11個小類中,絕大多數(shù)可以通過動詞判斷其含義,本文僅就內(nèi)容交流相關大類下的發(fā)言、交流、報告做簡要說明?!皟?nèi)容交流”大類指的是發(fā)生了實質(zhì)的信息交流。其中“報告”指的是學術型講座和報告,即新聞中明確提到有題目的講座報告,如“專家做了題為X的報告”;“發(fā)言”指的是除報告以外的顯式的信息交流,如“專家在會上致辭,歡迎大家的到來”;“交流”主要指的新聞中的私下交流,即由提及但是沒有進一步記錄的交流,如“專家們在會后做了交流”。事件類型的識別相對簡單,只需要進行動詞的匹配即可。
3.5 觀點
在不同的科學交流中,專家往往會表達觀點和意見,而新聞通常會有選擇性的報道那些相對重要的觀點和意見,這些信息可能出現(xiàn)在不同的科學交流事件類型中。如當專家在“報告”這種事件類型中,可能會提出針對某學術問題的觀點或看法;專家在致辭或致謝這種發(fā)言式的事件類型中,可能提出針對某一群體或事件的期望;此外,專家在主持會議的時候,可能對主講專家進行接收或者對講座進行點評,本研究將上述類型的信息統(tǒng)稱為觀點。通過對新聞文本進行分析,本研究認為,在新聞文本中,絕大多數(shù)觀點都伴隨著一個與觀點相關的動詞,這些動詞是可以通過統(tǒng)計分析窮舉的,且都遵循兩種模式(見表 3)。
根據(jù)交流內(nèi)容的文本模式,本文制定如下規(guī)則對觀點進行抽取:
規(guī)則1: 當出現(xiàn)參與者且后跟觀點對應的動詞關鍵詞時,則該動詞其后的全部內(nèi)容為該參與者的觀點。
規(guī)則2: 當出現(xiàn)參與者且后跟觀點對應的動詞關鍵詞和句號時,則該句的前一句為該參與者的觀點。
3.6 報告題目
報告題目一般帶有明確的學術主題相關的信息,因此本文將其獨立出來形成單獨的元素。通過分析例句,本研究總結出報告題目的句子具有一些典型的特征(見表 4)。
從交流題目的文本模式可以看出,報告題目通常與固定的動詞進行搭配且以固定模式的名詞結尾,通過窮舉所有的動詞和名詞結尾,本研究制定如下規(guī)則對題目的抽?。?/p>
規(guī)則1: 當出現(xiàn)參與者且后跟報告題目對應的動詞關鍵詞時,則句子的剩余部分為報告題目。
規(guī)則2: 當句子的結尾出現(xiàn)報告題目所對應的名詞時,需要過濾這些名詞。
4 實驗和結果分析
基于以上研究,本文對人文社科領域相關專家的新聞進行非正式科學交流活動信息抽取實驗并對結果進行分析。
4.1 流程和工具
為了實現(xiàn)非正式科學交流信息抽取,本研究設計了信息獲取和抽取流程,包括獲取新聞網(wǎng)頁、抽取網(wǎng)頁正文和元數(shù)據(jù)、進行自然語言處理、實現(xiàn)基于規(guī)則的信息抽取(見圖 3)。本研究使用Python 3.6作為信息抽取的主語言。其中正文抽取部分采用Christian Kohlschütter等[19]提出的基于淺層本文特征的自動抽取算法。自然語言處理的相關技術采用pyltp 1.9.1,其后臺實現(xiàn)版本為LTP 3.3.1。
4.2 數(shù)據(jù)獲取
實驗所使用的數(shù)據(jù)分為專家列表和新聞數(shù)據(jù)。本文從國家社科基金項目數(shù)據(jù)庫中選擇立項時間自2008-2017十年間承擔過重大項目的1537位項目負責人作為專家。根據(jù)專家名單,采用必應自定義搜索(Bing Custom Search)API進行新聞獲取。在獲取時,將搜索限定在edu.cn和gov.cn域名下。然后為每個專家構建一個“姓名 所屬機構”檢索式。對符合條件的網(wǎng)頁進行抓取,并得出專家的人均網(wǎng)頁數(shù)量(見表 5)。
4.3 總體分析
通過正文抽取,得到574,040條正文信息。利用本文所提出的方法對全部新聞進行信息抽取,共計得到與專家相關的160,312條非正式科學交流活動事件。
4.3.1 事件類型
統(tǒng)計各種類型非正式科學交流事件的所占比例(見圖 4)可以發(fā)現(xiàn),會議是主要的交流事件,緊隨其后的是報告以及訪問。接待、榮譽等事件類型較少,這從整體上說明,絕大多數(shù)科學交流事件帶有顯著的信息交流,而對于工作、接待、榮譽類等更偏重形式的交流相對數(shù)量較少。這也反映了學術交流的客觀情況。
4.3.2 人均活動情況
本研究根據(jù)專家所屬的學科,對每個學科做了人均非正式科學交流事件的統(tǒng)計,并按照人均事件數(shù)量進行排序(見圖 5)發(fā)現(xiàn),從非正式科學交流的人均次數(shù)上看,總體上各學科的科學交流數(shù)量基本相似,其中法學、圖書情報檔案、教育學等學科的交流明顯多于其他學科。從中也可以看出,與實踐結合較為緊密的且偏向社科類的學科,其交流更加頻繁。
4.3.3 跨校交流
根據(jù)科學交流活動實際發(fā)生的地點以及科學交流專家所屬機構,利用有向網(wǎng)絡對交流最頻繁的100所高校進行跨高校交流分析(見圖 6)可以看出,無論是交流活動的頻繁程度還是從與之交流的高校數(shù)量上看,985類高校在交流中占據(jù)了絕對優(yōu)勢。其中,人文社科相對較強的北京大學、人民大學、武漢大學、北京師范大學等在科學交流中占據(jù)主要地位,清華大學、復旦大學、浙江大學、南京大學等綜合型名校也占據(jù)了交流的主要位置,而蘭州大學、西安交通大學、廈門大學、北京理工大學等在985高校中相對交流較弱。此外,交流呈現(xiàn)出明顯的地域傾向和學科背景傾向。從地域上看,河南大學和鄭州大學、西藏大學和西藏民族大學、廣西師范大學和廣西民族大學、西南大學和西南交通大學等高校盡管與其他高校的交流較少,但是彼此之間有著緊密的交流關系。從學科背景上看,位于網(wǎng)絡上方的師范類院校、網(wǎng)絡中部的政法類院校以及位于網(wǎng)絡下方的財經(jīng)類院校在各自的交流圈內(nèi)交流也相對頻繁。
4.3.4 跨地區(qū)交流
通過科學交流事件實際發(fā)生的機構可以判斷交流活動所在省份,利用有向網(wǎng)絡對跨省級行政單位交流進行分析(見圖 7)可以發(fā)現(xiàn),首先,從交流數(shù)量上看,北京作為全國的教育中心在整個交流中居于最重要位置,廣東、上海、江蘇、浙江、山東等省份盡管交流活動的相對數(shù)量也較多,但遠不如北京,總體來看,從中國東部到西部,交流的頻繁程度逐漸減弱;其次,從交流的輸入和輸出上看,北京學者前往其他省份交流遠多于其他省份學者來北京交流,這說明北京本地不但能夠吸引大量的非正式科學交流,同時由于聚集了大量有影響力的學者,北京在非正式科學交流中具有強大的輸出能力。具有類似特點的還包括上海、江蘇、浙江等省份。上述結論也反映了我國教育發(fā)展相對不均的現(xiàn)狀。
4.3.5 跨機構類型交流
對各學科領域的非正式科學交流活動網(wǎng)頁機構根據(jù)類型分布(見圖 8)分析可以看出,考古學、體育科學、宗教學、法學等更偏向社會科學的學科與政府機關的交流更加頻繁,相反的,文學、歷史、哲學等偏人文科學的學科絕大多數(shù)交流都發(fā)生在高等院校。如與考古學、體育科學、法學和宗教學交流最多的政府機關中,有大量的政府機關帶有相關學科的背景,如考古學與文物局、旅游局等的交流、體育科學與體育局的交流、法學與司法相關部門的交流,以及宗教學與統(tǒng)一戰(zhàn)線、民宗委等相關機構的交流。這說明這些學科專家的觀點可以從一定程度上影響和指導政府機關職能部門的管理和政策制定等。
4.4 個例分析
為了展示信息的抽取效果,本研究以河南大學文學院王立群教授為例做案例分析。王立群教授曾做客央視《百家講壇》欄目講解史記,此外還承擔一些社科重大項目,從多樣性的角度來說有一定代表性。由于數(shù)據(jù)量較大,本研究僅提取王立群教授的報告活動進行展示(見表6)。從抽取的題目信息中可以看出,在稱謂上,王立群教授在不同的活動中被稱為教授、主講人、著名學者、導師等,而在交流的機構上,主要包括河南大學、中央電視臺等,其交流的機構中有6個高等院校,剩余22個全部為政府機構。由此可以,王立群教授的影響力較為廣泛,其研究不但受到高等院校的關注,同時還受到各級政府的歡迎。
再進一步對王立群教授非正式科學交流的具體內(nèi)容進行分析。分析的信息來源包括王立群教授的報告題目和觀點。為了能夠清晰地展示王立群教授的交流內(nèi)容,本研究首先利用社科領域的關鍵詞詞表對上述內(nèi)容進行抽取,然后基于關鍵詞的語義特征構建向量,再基于特征向量利用余弦相似度方法計算關鍵詞的相似度,最后利用關鍵詞的相似度構建關鍵詞相似網(wǎng)絡用于內(nèi)容分析(見圖 9)。從相似網(wǎng)絡圖可以看出,王立群教授的交流內(nèi)容以人文歷史為主,具體包括宋史(宋太祖、宋太宗)、秦漢史(漢武帝、秦始皇)、中華詩詞(詩人創(chuàng)作、中國詩詞)、歷史文化(中原文化、中國歷史、中華文明)等。此外,圖中較大的節(jié)點包括百家講壇、漢武帝、司馬遷等,這說明王立群教授作為一個公眾人物被大家所熟知的重要原因是其作為百家講壇的主講人講解史記、宋史等內(nèi)容。
最后,本研究對王立群教授的交流區(qū)域進行分析(見圖10)可以發(fā)現(xiàn),王立群教授的絕大多數(shù)報告在河南,而其交流較多的省份包括陜西、四川、浙江等,這些省份距離河南相對較近,這從側面印證了地理位置對于非正式科學交流的重要性;其次,北京作為全國的文化教育中心,是王立群教授除本省之外交流最頻繁的地區(qū);最后,除了西藏、黑龍江等少數(shù)幾個省級行政區(qū),王立群教授的交流活動遍布全國各地,這與王立群教授同時作為重大項目首席專家和百家講壇知名主講人的身份是匹配的,充分印證了王立群教授在各界的影響力。
5 結論
在科學交流的研究中,非正式科學交流受到數(shù)據(jù)收集的限制一直無法開展大規(guī)模的研究。為
了解決非正式科學交流數(shù)據(jù)獲取的問題,本研究在非正式科學交流的信息抽取方面做了探索,基于網(wǎng)絡上異質(zhì)化的新聞數(shù)據(jù),對于學術新聞中的非正式科學交流活動做了分析,對參與者、時間、地點、事件類型、報告題目、觀點等元素在新聞中的模式做了分析。由此可以看出,利用信息新聞抽取,可以實現(xiàn)對非正式科學交流事件的了解,并可以此為基礎研究線下非正式科學交流的某些特征和規(guī)律,這將為我們探索非正式科學交流提供新的思路和途徑。
參考文獻:
[1] Brittain J M.Pitfalls of user research,and some neglected areas[J].Social science information studies,1982,2(3):139-148.
[2] Kraut R E,F(xiàn)ish R S,Root R W,et al.Informal communication in organizations:Form,function,and technology[C].Human reactions to technology:Claremont symposium on applied social psychology,1990:145-199.
[3] Lacy W B,Busch L.Informal scientific communication in the agricultural sciences[J].Information processing & management,1983,19(4):193-202.
[4] Giles C L.Scholarly big data:information extraction and data mining[C].Proceedings of the 22nd ACM international conference on Information & Knowledge Management.ACM,2013:1-2.
[5] 張立偉,陳悅,王智琦,等.互聯(lián)網(wǎng)平臺下科學家非正式學術交流的探究——基于科學網(wǎng)博文數(shù)據(jù)的計量分析[J].情報學報,2015,34(7):754-764.
[6] 鄒儒楠,于建榮.數(shù)字時代非正式學術交流特點的社會網(wǎng)絡分析——以小木蟲生命科學論壇為例[J].情報科學,2015,33(7):81-86.
[7] 劉乙蓉.圖情領域學者的社會網(wǎng)絡關系與學術關注點[D].武漢:武漢大學,2017.
[8] 葉騰,韓麗川,邢春曉,等.基于復雜網(wǎng)絡的虛擬社區(qū)創(chuàng)新知識傳播機制研究[J].現(xiàn)代圖書情報技術,2016(Z1):70-77.[9] 方卿.論網(wǎng)絡環(huán)境下非正式交流的復興[J].情報理論與實踐,2002(4):258-261.
[10] 沈廣彩.新聞寫作“5W+1H”模式意義的生成與再造——從概括新聞到敘述新聞[J].科技信息,2010(22):759-760.
[11] Mahmood I,Hartley R,Rowley J.Scientific communication in Libya in the digital age[J].Journal of Information Science,2011,37(4):379-390.
[12] 夏能能.Web2.0環(huán)境下圖書情報學領域的非正式交流——基于博客好友鏈接的實證研究[J].情報雜志,2011,30(12):32-35.
[13] Hinds P,Kiesler S.What Do We Know about Proximity and Distance in Work Groups?A Legacy of Research[C].MIT Press,2002:57-81.
[14] 顧立平,張曉林.創(chuàng)建與使用型人——對非正式信息交流行為的實證研究與服務建議[J].中國圖書館學報,2010,36(2):31-37.
[15] 葉鳳云,孫建軍,汪傳雷.網(wǎng)絡學術信息行為理論框架構建與行為過程分析[J].圖書情報知識,2011(5):82-88.
[16] 李貴成.基于Web2.0的非正式信息交流行為研究[J].情報探索,2014(6):28-31.
[17] 中國社會科學院學部委員黃長著教授蒞臨圖情檔系作學術報告——上海大學 [EB/OL].[2018-02-06].http://www.shu.edu.cn/info/1056/4923.htm.
[18] 金宏奎,莊嚴.高校門戶網(wǎng)站新聞對外發(fā)布狀況研究——基于實證的視角[J].當代教育理論與實踐,2014,6(5):52-54.
[19] Kohlschütter C,F(xiàn)ankhauser P,Nejdl W.Boilerplate detection using shallow text features[C].Proceedings of the third ACM international conference on Web search and data mining.ACM,2010:441-450.
作者簡介:王曉笛,男,北京大學信息管理系情報學在讀博士生;李廣建,男,北京大學信息管理系教授,博士生導師。