• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      網(wǎng)絡(luò)信息學(xué)及其知識發(fā)現(xiàn)前沿與前瞻

      2023-06-18 19:44:48武瑞敏張志強(qiáng)
      圖書與情報(bào) 2023年1期
      關(guān)鍵詞:大數(shù)據(jù)

      武瑞敏 張志強(qiáng)

      摘? ?要:大數(shù)據(jù)時代,新興前沿技術(shù)的迅猛發(fā)展對網(wǎng)絡(luò)計(jì)量學(xué)提出了新的發(fā)展要求,文章在學(xué)科信息學(xué)的學(xué)科體系框架下提出了一個全新的概念——“網(wǎng)絡(luò)信息學(xué)”。從網(wǎng)絡(luò)信息學(xué)興起的背景出發(fā),概述了從網(wǎng)絡(luò)計(jì)量學(xué)到網(wǎng)絡(luò)信息學(xué)的發(fā)展過程;明確了網(wǎng)絡(luò)信息學(xué)的概念內(nèi)涵、數(shù)據(jù)基礎(chǔ)以及關(guān)鍵理論方法技術(shù);重點(diǎn)剖析了在網(wǎng)絡(luò)信息學(xué)框架下,重要跨學(xué)科領(lǐng)域的知識發(fā)現(xiàn)、學(xué)術(shù)影響力與競爭力評價(jià)等四個方面的知識發(fā)現(xiàn)前沿與進(jìn)展。并由此提出,網(wǎng)絡(luò)信息學(xué)利用新興前沿信息技術(shù)挖掘網(wǎng)絡(luò)大數(shù)據(jù)以揭示有價(jià)值的知識,是網(wǎng)絡(luò)大數(shù)據(jù)時代的網(wǎng)絡(luò)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)學(xué)科,也是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科,但其發(fā)展也存在諸如網(wǎng)絡(luò)大數(shù)據(jù)質(zhì)量的控制、專門技術(shù)工具的發(fā)展等方面的關(guān)鍵問題。隨著網(wǎng)絡(luò)信息學(xué)的深入發(fā)展,未來網(wǎng)絡(luò)大數(shù)據(jù)知識庫、網(wǎng)絡(luò)信息學(xué)專門技術(shù)工具及其應(yīng)用領(lǐng)域都將得到蓬勃發(fā)展,網(wǎng)絡(luò)信息學(xué)也或?qū)⒊蔀閷W(xué)科信息學(xué)的領(lǐng)頭學(xué)科。

      關(guān)鍵詞:網(wǎng)絡(luò)信息學(xué);學(xué)科信息學(xué);網(wǎng)絡(luò)計(jì)量學(xué);大數(shù)據(jù);數(shù)據(jù)挖掘與知識發(fā)現(xiàn)

      中圖分類號:G201? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023009

      Abstract In the big data era, the rapid development of new frontier technologies has put forward new requirements for the development of webometrics. So,we put forward a new concept here under the framework of the"subject-informatics",which is"cyber-informatics". Starting from the background of the rise of cyber-informatics, this paper introduces the development process from webometrics to cyber-informatics. Secondly, the definition, data basis and key theories and methods of cyber-informatics are clarified. Finally, the research advances of knowledge discovery in interdisciplinary field, academic influence and competitiveness evaluation of cyber-informatics is analyzed.Cyber-informatics is a subject of network data mining and knowledge discovery in the era of network big data, and a supporting subject of the new paradigm of network information research. However, there are still some key problems, such as the quality control of big data and the development of specialized technical tools. With the further development of cyber-informatics, the knowledge base of network big data, the specialized technical tools of cyber-informatics and its application fields will be vigorously developed in the future.In addition cyber-informatics may become the leading subject of subject-informatics.

      Key words? cyber-informatics; subject-informatics; webometrics; big data; data mining and knowledge discovery

      在大數(shù)據(jù)時代,大數(shù)據(jù)的“5V”特征[1]加劇了網(wǎng)絡(luò)信息的復(fù)雜性、集合性和交叉性,同時,互聯(lián)網(wǎng)+、新興前沿計(jì)算機(jī)、大數(shù)據(jù)等技術(shù)的迅猛發(fā)展,突破了人腦的計(jì)算速度與耐力限制,可以彌合大量可用知識與人的能力有限之間的差距。以網(wǎng)絡(luò)信息為研究對象的網(wǎng)絡(luò)計(jì)量學(xué)深受沖擊與影響[2],傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)利用文獻(xiàn)計(jì)量學(xué)的理論方法對小數(shù)據(jù)的定量描述與統(tǒng)計(jì)分析已經(jīng)不足以支撐網(wǎng)絡(luò)大數(shù)據(jù)之間復(fù)雜關(guān)聯(lián)關(guān)系、模式結(jié)構(gòu)以及重要隱性知識的揭示。因此,網(wǎng)絡(luò)計(jì)量學(xué)必須向前發(fā)展,以適應(yīng)在大數(shù)據(jù)與人工智能等前沿技術(shù)融合的復(fù)雜信息環(huán)境中開展網(wǎng)絡(luò)數(shù)據(jù)信息分析與重要知識發(fā)現(xiàn)的研究任務(wù)。

      此外,在科學(xué)研究進(jìn)入數(shù)據(jù)密集型研究的第四范式的大背景下,張志強(qiáng)和范少萍提出了一個統(tǒng)一的學(xué)科概念——“學(xué)科信息學(xué)”(Subject informatics),認(rèn)為其是應(yīng)用信息科學(xué)與計(jì)算科學(xué)的技術(shù)、手段與方法,進(jìn)行科學(xué)數(shù)據(jù)收集、存儲、處理、再分析、可視化和知識發(fā)現(xiàn),從而創(chuàng)造新知識、發(fā)現(xiàn)新方法、提供學(xué)科戰(zhàn)略決策咨詢的交叉性學(xué)科,重點(diǎn)突出了對學(xué)科信息、數(shù)據(jù)的計(jì)量分析與挖掘分析[3]。

      在上述雙重背景下,基于網(wǎng)絡(luò)計(jì)量學(xué)與網(wǎng)絡(luò)大數(shù)據(jù)分析的專門學(xué)科信息學(xué)——“網(wǎng)絡(luò)信息學(xué)”(cyber-informatics)應(yīng)運(yùn)而生。一方面,網(wǎng)絡(luò)信息學(xué)是網(wǎng)絡(luò)計(jì)量學(xué)的新發(fā)展,是網(wǎng)絡(luò)大數(shù)據(jù)時代的新型網(wǎng)絡(luò)計(jì)量學(xué),是網(wǎng)絡(luò)計(jì)量學(xué)在大數(shù)據(jù)和前沿技術(shù)浪潮的沖擊下煥發(fā)出的新的生命力;另一方面,網(wǎng)絡(luò)信息學(xué)是網(wǎng)絡(luò)大數(shù)據(jù)分析與知識發(fā)現(xiàn)的專門學(xué)科信息學(xué),是學(xué)科信息學(xué)在網(wǎng)絡(luò)信息計(jì)量分析、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的具體化表現(xiàn),是大數(shù)據(jù)時代基于網(wǎng)絡(luò)大數(shù)據(jù)開展知識發(fā)現(xiàn)的新型數(shù)據(jù)分析型學(xué)科。文章旨在分析研究網(wǎng)絡(luò)信息學(xué)的興起、內(nèi)涵、研究內(nèi)容、應(yīng)用實(shí)踐及其未來發(fā)展。首先在概述網(wǎng)絡(luò)信息學(xué)興起背景的基礎(chǔ)上,介紹網(wǎng)絡(luò)信息學(xué)的內(nèi)涵及其理論方法技術(shù);其次,從重要跨學(xué)科領(lǐng)域知識發(fā)現(xiàn)、學(xué)術(shù)影響力與競爭力評價(jià)、重要信息的檢測與識別和面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測分析等四個方面闡述了網(wǎng)絡(luò)信息學(xué)知識發(fā)現(xiàn)的研究進(jìn)展;最后,對網(wǎng)絡(luò)信息學(xué)的發(fā)展進(jìn)行了總結(jié)與展望。隨著數(shù)據(jù)分析與信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)信息學(xué)將成為探索網(wǎng)絡(luò)虛擬世界未知的有力工具。

      1? ?網(wǎng)絡(luò)信息學(xué)發(fā)展概述

      1.1? ? 從網(wǎng)絡(luò)計(jì)量學(xué)到網(wǎng)絡(luò)信息學(xué)

      一般認(rèn)為,網(wǎng)絡(luò)計(jì)量學(xué)(webometrics)由阿曼德(Almind)和英格維森(Ingwersen)于1997年提出,即將文獻(xiàn)計(jì)量方法用于“萬維網(wǎng)”上信息的計(jì)量研究[4]。1998年,英格維森提出了利用網(wǎng)頁的影響因子對一段時間內(nèi)網(wǎng)頁瀏覽關(guān)注情況進(jìn)行分析,這對網(wǎng)絡(luò)計(jì)量學(xué)的發(fā)展起到了十分重要的作用[5-6],網(wǎng)絡(luò)計(jì)量學(xué)也逐漸從傳統(tǒng)的信息計(jì)量學(xué)脫離出來成為一門獨(dú)立的新興學(xué)科。

      國內(nèi)網(wǎng)絡(luò)計(jì)量學(xué)的研究以1999年徐久齡等的研究[7]為開端(網(wǎng)絡(luò)計(jì)量學(xué)在我國的發(fā)展歷程見圖1)。2000年,“webometrics”首次被譯為“網(wǎng)絡(luò)信息計(jì)量學(xué)[8],并被定義為“采用數(shù)學(xué)、統(tǒng)計(jì)學(xué)等各種定量研究方法,對網(wǎng)上信息的組織、存儲、分布、傳遞、相互引證和開發(fā)利用等進(jìn)行定量描述和統(tǒng)計(jì)分析,以便揭示其數(shù)量特征和內(nèi)在規(guī)律的一門新興分支學(xué)科”[9]。隨著理論和實(shí)踐的發(fā)展,2010年,網(wǎng)絡(luò)計(jì)量學(xué)理論、方法和應(yīng)用被系統(tǒng)研究,也統(tǒng)一了將“網(wǎng)絡(luò)計(jì)量學(xué)”這一更廣泛的概念作為學(xué)科命名[10],名稱的統(tǒng)一,標(biāo)志著我國網(wǎng)絡(luò)計(jì)量學(xué)的研究趨于成熟。經(jīng)過20余年的發(fā)展,網(wǎng)絡(luò)計(jì)量學(xué)研究隊(duì)伍不斷壯大,成果不斷豐碩,豐富了我國網(wǎng)絡(luò)計(jì)量學(xué)的理論、方法以及應(yīng)用,形成了一套完整的理論體系。

      網(wǎng)絡(luò)計(jì)量學(xué)的發(fā)展與網(wǎng)絡(luò)環(huán)境的變遷和網(wǎng)絡(luò)結(jié)構(gòu)的演化息息相關(guān),隨著云計(jì)算、互聯(lián)網(wǎng)+、大數(shù)據(jù)技術(shù)的興起,網(wǎng)絡(luò)計(jì)量學(xué)面臨許多新的挑戰(zhàn)[11]。過去,網(wǎng)絡(luò)計(jì)量學(xué)的研究普遍是通過網(wǎng)絡(luò)小數(shù)據(jù)以既定的方法和分析模式實(shí)現(xiàn)的,小數(shù)據(jù)的特征是為回答特定問題而量身定制的抽樣數(shù)據(jù)[12]。大數(shù)據(jù)時代,網(wǎng)絡(luò)計(jì)量學(xué)面對的已不僅僅是單方面的數(shù)據(jù),還有海量、無序、多樣、異構(gòu)的網(wǎng)絡(luò)大數(shù)據(jù)集合單元,傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)研究方法面對網(wǎng)絡(luò)大數(shù)據(jù)顯得力不從心。與此同時,人工智能等前沿技術(shù)在大數(shù)據(jù)挖掘與知識發(fā)現(xiàn)中的應(yīng)用越來越深入,通過復(fù)雜計(jì)算能夠發(fā)現(xiàn)無法通過有限檢索策略與傳統(tǒng)分析方法發(fā)現(xiàn)的隱藏在大數(shù)據(jù)中的各種潛在相關(guān)模式。

      網(wǎng)絡(luò)信息學(xué)便在大數(shù)據(jù)和前沿技術(shù)浪潮中應(yīng)運(yùn)而生。如果說,網(wǎng)絡(luò)計(jì)量學(xué)試圖利用小數(shù)據(jù)從狹窄的縫隙中開采“黃金”,那么網(wǎng)絡(luò)信息學(xué)便是試圖利用大數(shù)據(jù)通過最先進(jìn)的機(jī)器通過露天開采、挖掘和篩選大片土地來開采“黃金”。

      1.2? ? 網(wǎng)絡(luò)信息學(xué)的內(nèi)涵

      1.2.1? ?網(wǎng)絡(luò)信息學(xué)內(nèi)涵界定

      科學(xué)史告訴我們,任何科學(xué)的產(chǎn)生和發(fā)展都是由一定的科學(xué)背景和特定條件所決定的[13]。結(jié)合網(wǎng)絡(luò)信息學(xué)興起的時代與技術(shù)背景,網(wǎng)絡(luò)信息學(xué)的內(nèi)涵可以概述為:(1)研究對象為網(wǎng)絡(luò)大數(shù)據(jù),具體有網(wǎng)絡(luò)公共知識庫、以網(wǎng)絡(luò)資源為基礎(chǔ)的新一代知識庫、搜索引擎、社交媒體以及網(wǎng)絡(luò)上存在的其它有價(jià)值的數(shù)據(jù)與行為印跡的數(shù)據(jù)集等;(2)核心是挖掘并研究網(wǎng)絡(luò)大數(shù)據(jù)中潛藏的有價(jià)值的信息與知識;(3)技術(shù)方法支撐是深度學(xué)習(xí)等新興計(jì)算機(jī)技術(shù)、通信技術(shù)、數(shù)學(xué)理論與方法等,涉及數(shù)據(jù)的挖掘、加工、分析等全過程;(4)學(xué)科基礎(chǔ)為網(wǎng)絡(luò)計(jì)量學(xué)、學(xué)科信息學(xué)、信息科學(xué)、知識發(fā)現(xiàn)、計(jì)算機(jī)科學(xué)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)、復(fù)雜性科學(xué)等;(5)研究目的主要是:揭示網(wǎng)絡(luò)大數(shù)據(jù)間蘊(yùn)含的重要的隱性知識、識別科學(xué)研究中的重要趨勢與機(jī)制、重要信息的監(jiān)測與識別、面向決策服務(wù)的網(wǎng)絡(luò)大數(shù)據(jù)的預(yù)測分析等。

      基于此,網(wǎng)絡(luò)信息學(xué)可以定義為:是利用數(shù)學(xué)理論與方法、計(jì)量學(xué)方法和計(jì)算機(jī)科學(xué)(深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò))等多學(xué)科的技術(shù)方法,對海量網(wǎng)絡(luò)信息進(jìn)行知識挖掘和知識發(fā)現(xiàn)研究,揭示網(wǎng)絡(luò)大數(shù)據(jù)中潛藏的有價(jià)值的信息與知識的一門新型數(shù)據(jù)分析學(xué)科。

      此外,網(wǎng)絡(luò)信息學(xué)是一個新概念,目前還沒有英文譯名,由于網(wǎng)絡(luò)計(jì)量學(xué)的英名稱為“webometrics”[4]或“cybermetrics”(1997年由西班牙科學(xué)信息與文獻(xiàn)中心創(chuàng)辦的期刊得名),而學(xué)科信息學(xué)的英文名稱為“subject informatics”[3]。因此,基于“X-informatics”學(xué)科群的理論,此處將“cyber-informatics”作為網(wǎng)絡(luò)信息學(xué)的英文表達(dá)(“webo”是一個沒有單獨(dú)的含義詞根,為了保持學(xué)科群格式的一致,此處不考慮“weboinformatics”)。

      1.2.2? ?網(wǎng)絡(luò)信息學(xué)相關(guān)概念辨析

      為了厘清網(wǎng)絡(luò)信息學(xué)相關(guān)概念的繼承關(guān)系以及辨析各個概念之間的界限,此處使用維恩圖(Venn diagram)來直觀展示(見圖2)。

      首先,網(wǎng)絡(luò)信息學(xué)根植于網(wǎng)絡(luò)計(jì)量學(xué),屬于網(wǎng)絡(luò)計(jì)量學(xué)內(nèi)容體系的一部分,是網(wǎng)絡(luò)大數(shù)據(jù)時代的新型網(wǎng)絡(luò)計(jì)量學(xué);其次,學(xué)科信息學(xué)學(xué)科群分為專門領(lǐng)域?qū)W科信息學(xué)(醫(yī)學(xué)信息學(xué)、生物信息學(xué)等)和工具型學(xué)科信息學(xué)(政策信息學(xué)、專利信息學(xué)等)兩大類別,網(wǎng)絡(luò)信息學(xué)作為學(xué)科信息學(xué)在網(wǎng)絡(luò)信息計(jì)量分析、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的具體化表現(xiàn),是工具型學(xué)科信息學(xué)體系中的重要一支。

      1.3? ? 網(wǎng)絡(luò)信息學(xué)的數(shù)據(jù)源及方法工具

      1.3.1? ?數(shù)據(jù)來源

      網(wǎng)絡(luò)信息學(xué)的研究基礎(chǔ)是各類網(wǎng)絡(luò)大數(shù)據(jù)集合單元,如網(wǎng)絡(luò)公共知識數(shù)據(jù)庫、以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識庫、行業(yè)/領(lǐng)域垂直知識庫、個人自建知識庫、搜索引擎、社交媒體以及網(wǎng)絡(luò)上存在的其它有價(jià)值的數(shù)據(jù)與行為印跡的數(shù)據(jù)集等。由于搜索引擎和社交媒體是傳統(tǒng)的網(wǎng)絡(luò)計(jì)量學(xué)以及補(bǔ)充計(jì)量學(xué)(altmetrics)的研究數(shù)據(jù)源,在此不做詳細(xì)介紹。

      (1)網(wǎng)絡(luò)公共知識數(shù)據(jù)庫。數(shù)量龐大的可用知識使得人類無法閱讀甚至訪問全部知識,適當(dāng)?shù)赝诰蚬仓R數(shù)據(jù)庫(如維基百科Wikipedia)可以使我們超越這種限制,揭示遙遠(yuǎn)的學(xué)科內(nèi)容元素之間驚人的關(guān)系[14]。這類公共知識庫是由人工或?qū)<覙?gòu)建的知識庫,如維基百科(Wikipedia)、百度百科、概念網(wǎng)(ConceptNet)、詞匯網(wǎng)絡(luò)(Wordnet)等。

      (2)以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識庫(知識圖譜)。從蒂姆·伯納斯·李1998年提出語義網(wǎng)至今[15],涌現(xiàn)出大量以互聯(lián)網(wǎng)資源為基礎(chǔ)的新一代知識庫,這些知識庫以“主語、謂語、賓語”三元組的形式表示并儲存了海量對象的結(jié)構(gòu)化信息[16](見表1)。

      (3)領(lǐng)域垂直知識庫。垂直領(lǐng)域知識庫是針對某個學(xué)科領(lǐng)域、某個行業(yè)或者是某種媒體類型而構(gòu)建的,根據(jù)某個學(xué)科領(lǐng)域/行業(yè)/媒體類型的數(shù)據(jù)來構(gòu)建的知識庫,相比于通用知識庫,更強(qiáng)調(diào)知識的深度,其數(shù)據(jù)來源相對較窄(國內(nèi)外代表性的領(lǐng)域垂直知識庫見表2)。

      除了上述數(shù)據(jù)源外,網(wǎng)絡(luò)上還存在大量的個人自建的知識庫(如利用Trilium建立個人維基、Baumard等建立的古代文學(xué)小說數(shù)據(jù)庫[18]等),這類知識庫數(shù)據(jù)量大、覆蓋面廣且往往是利用網(wǎng)絡(luò)爬蟲等技術(shù)來獲取數(shù)據(jù),因此也可作為網(wǎng)絡(luò)信息學(xué)數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的數(shù)據(jù)源。

      1.3.2? ?網(wǎng)絡(luò)信息學(xué)理論方法技術(shù)

      網(wǎng)絡(luò)信息學(xué)的研究,需要采用恰當(dāng)?shù)睦碚撝闻c方法技術(shù),除了網(wǎng)絡(luò)計(jì)量學(xué)的基本理論以及所常用的連接分析法、統(tǒng)計(jì)分析法以及圖論分析法等以外,根據(jù)當(dāng)前國內(nèi)外研究發(fā)展來看,方法技術(shù)主要有復(fù)雜網(wǎng)絡(luò)、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)、深度機(jī)器學(xué)習(xí)以及常用的網(wǎng)絡(luò)大數(shù)據(jù)挖掘與分析工具等。

      網(wǎng)絡(luò)信息學(xué)框架下網(wǎng)絡(luò)大數(shù)據(jù)分析的理論方法技術(shù)框架,主要分為四大類(見圖3):一是信息科學(xué)(計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、信息學(xué)、信息論等),是網(wǎng)絡(luò)信息學(xué)開展研究的理論基礎(chǔ)與保障;二是網(wǎng)絡(luò)科學(xué)(復(fù)雜網(wǎng)絡(luò)),自21世紀(jì)以來,隨著可計(jì)算設(shè)備和互聯(lián)網(wǎng)的飛速發(fā)展,人們開始收集和處理大規(guī)模的實(shí)際網(wǎng)絡(luò)數(shù)據(jù),涌現(xiàn)出許多基于復(fù)雜網(wǎng)絡(luò)理論的應(yīng)用研究[19-20],復(fù)雜網(wǎng)絡(luò)為洞見網(wǎng)絡(luò)大數(shù)據(jù)之間的復(fù)雜關(guān)系提供了一種系統(tǒng)的、整體的視野;三是數(shù)據(jù)挖掘[21]與知識發(fā)現(xiàn)[22],基于算法的知識發(fā)現(xiàn)技術(shù)(在人工智能、信息檢索、數(shù)據(jù)庫、統(tǒng)計(jì)學(xué)、模糊集和粗糙集理論基礎(chǔ)上發(fā)展起來的)和基于可視化的知識發(fā)現(xiàn)技術(shù)(在圖形學(xué)、科學(xué)可視化、和信息可視化的理論基礎(chǔ)上發(fā)展起來的)實(shí)現(xiàn)了對海量網(wǎng)絡(luò)信息的挖掘與信息間的聯(lián)系的發(fā)現(xiàn)。其中,人工智能的核心技術(shù)是深度機(jī)器學(xué)習(xí)[23-24],該技術(shù)應(yīng)用于數(shù)據(jù)挖掘與知識發(fā)現(xiàn),能夠很好地解釋隱藏在數(shù)據(jù)中極為錯綜復(fù)雜的結(jié)構(gòu)或模式,并找出表示數(shù)據(jù)的最佳方式[23];四是網(wǎng)絡(luò)大數(shù)據(jù)挖掘與分析工具,在網(wǎng)絡(luò)信息學(xué)框架下,對于從事數(shù)據(jù)挖掘與分析的人員來說,除了掌握理論方法,還需要學(xué)習(xí)和了解各種類型的數(shù)據(jù)分析與挖掘工具,隨著技術(shù)的愈發(fā)成熟、軟件的迭代,當(dāng)前可以選用帶有不同算法的工具來進(jìn)行數(shù)據(jù)分析與挖掘(常用的數(shù)據(jù)挖掘與分析工具以及機(jī)器學(xué)習(xí)工具見表3)。需要注意的是,大多數(shù)數(shù)據(jù)挖掘和分析工具或方案以及機(jī)器學(xué)習(xí)工具,都用到了R和Python兩種主要編程語言。

      2? ?網(wǎng)絡(luò)信息學(xué)學(xué)科框架下的知識發(fā)現(xiàn)前沿與進(jìn)展

      當(dāng)前,已經(jīng)有很多研究人員基于網(wǎng)絡(luò)大數(shù)據(jù)的挖掘分析來進(jìn)行知識發(fā)現(xiàn)研究,網(wǎng)絡(luò)信息學(xué)的提出則為這些實(shí)踐提供了學(xué)科理論基礎(chǔ),并為這些研究找到了學(xué)科歸屬。在網(wǎng)絡(luò)信息學(xué)框架下,這些研究涉及了知識發(fā)現(xiàn)、識別、評價(jià)、預(yù)測等各個方面,本節(jié)主要介紹網(wǎng)絡(luò)信息學(xué)學(xué)科框架下,重要跨學(xué)科領(lǐng)域知識發(fā)現(xiàn)、學(xué)術(shù)影響力與競爭力評價(jià)、重要信息(網(wǎng)絡(luò)輿情、虛假信息、國家安全情報(bào)等)的監(jiān)測與識別以及面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測分析等方面的知識發(fā)現(xiàn)研究進(jìn)展。

      2.1? ? 重要跨學(xué)科領(lǐng)域知識發(fā)現(xiàn)

      近幾十年來,人們提出了不同的方法來探究不同學(xué)科領(lǐng)域的知識聯(lián)系[25-29],但跨學(xué)科研究仍然缺乏在不同學(xué)科之間建立定量聯(lián)系的有效工具。在網(wǎng)絡(luò)信息學(xué)的框架下,適當(dāng)技術(shù)工具地應(yīng)用可能導(dǎo)致隱藏在大數(shù)據(jù)網(wǎng)絡(luò)中的知識自現(xiàn),不僅可以顯示學(xué)科間的知識流動,還可以量化連接不同知識領(lǐng)域的元素的個體和集體行為。

      Schwartz利用維基百科中的數(shù)據(jù)對愛因斯坦(Einstein)和畢加索(Picasso)在20世紀(jì)初的作品之間的關(guān)系,回答了畢加索幾乎在愛因斯坦發(fā)表相對論的同時發(fā)展了立體主義是否是巧合、是否回答了同樣的問題、是否受到相同人物/作品的的影響的問題[14]。類似的,Baumard等建立了一個覆蓋3800年、77個歷史時期以及19個地理區(qū)域的古代文學(xué)小說數(shù)據(jù)庫來研究了愛情在文化史中的演變,揭示了經(jīng)濟(jì)發(fā)展水平越高,敘事小說中的愛情元素出現(xiàn)頻率就越高的現(xiàn)象[18]。Lai等使用中國銀聯(lián)支付網(wǎng)絡(luò)的高頻精細(xì)數(shù)據(jù)研究了溫度沖擊對消費(fèi)的影響,表明溫度與消費(fèi)之間呈倒U型關(guān)系[30]。Yin等使用Overton數(shù)據(jù)集揭示了應(yīng)對新冠疫情相關(guān)的政策文件占比能反映出病例數(shù)量的變化,提供了科學(xué)研究為政策提供信息的科學(xué)證據(jù)[31]。此外,清華大學(xué)電子系數(shù)據(jù)科學(xué)與智能實(shí)驗(yàn)室聯(lián)合斯坦福大學(xué)、哈佛商學(xué)院等研究機(jī)構(gòu)基于國內(nèi)社交電商之一的貝店網(wǎng)站(https://beidian.com/)的千萬用戶的購買數(shù)據(jù)的系列研究,系統(tǒng)揭示了以社交電商為代表的社會關(guān)系與經(jīng)濟(jì)行為耦合新范式[32-38]。

      2.2? ? 學(xué)術(shù)影響力與競爭力評價(jià)

      學(xué)術(shù)影響力與競爭力體現(xiàn)了科研人員在所屬科研領(lǐng)域中的學(xué)術(shù)地位及其研究成果所具有的科研學(xué)術(shù)價(jià)值,也體現(xiàn)了在被學(xué)術(shù)同行、專家群體外的社會大眾所認(rèn)知和了解的程度[11]。長久以來,學(xué)術(shù)界對于論文質(zhì)量的評價(jià),往往基于引文提出各類指標(biāo),如引用頻次、h指數(shù)(h-index)和期刊影響因子(journal impact factor,JIF)等,這類指標(biāo)只能提供不完善、不一致且容易操縱的研究質(zhì)量度量,并不能代表論文的質(zhì)量或潛力。當(dāng)前科研成果發(fā)表數(shù)量的激增,使得科研人員需要花費(fèi)大量的時間尋找有價(jià)值的研究方向,去進(jìn)行更有突破性的研究。

      在網(wǎng)絡(luò)信息學(xué)框架下,可以借助機(jī)器學(xué)習(xí)利用多源異構(gòu)更大體量的數(shù)據(jù)去評價(jià)科研成果的價(jià)值。經(jīng)由機(jī)器學(xué)習(xí),可以綜合利用多個網(wǎng)絡(luò)的指標(biāo),為研究者指出最新研究中有潛力的那部分,以輔助科技管理決策,從而提升科研決策的效率。Weis和Jacobson利用千萬級別的科技文獻(xiàn)數(shù)據(jù),基于復(fù)雜網(wǎng)絡(luò)模型構(gòu)建了一種機(jī)器學(xué)習(xí)框架——DELPHI模型,可以通過分析從科技文獻(xiàn)中計(jì)算得到的一系列特征之間的高維關(guān)系來預(yù)測未來可能的“高影響力”研究[39]。Wang等借助科研資助數(shù)據(jù)構(gòu)建了評估科學(xué)影響力的模型GImpact來評估科學(xué)影響力[40]。Wen和Deng基于網(wǎng)絡(luò)大數(shù)據(jù),提出了一種通過局部信息維度識別復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)影響力的新方法,實(shí)驗(yàn)結(jié)果表明了該方法的優(yōu)越性,該研究為高效識別復(fù)雜科研網(wǎng)絡(luò)中有影響力的節(jié)點(diǎn)提供了新的思路[41]。Li等基于Microsoft academic graph中的數(shù)據(jù)構(gòu)建科研合作網(wǎng)絡(luò),研究了科研合作網(wǎng)絡(luò)中個體研究人員生產(chǎn)力和影響力的網(wǎng)絡(luò)效應(yīng)[42]。

      2.3? ? 重要信息的監(jiān)測與識別

      2.3.1? ?基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情的檢測與分析

      互聯(lián)網(wǎng)已經(jīng)成為人們?nèi)粘I钪蝎@取信息的重要方式,截至2021年12月,我國網(wǎng)民規(guī)模為10.32億,人均每周上網(wǎng)時長為28.5個小時[43]。作為一個開放的平臺,互聯(lián)網(wǎng)也為公眾提供了一個多元開放的輿論環(huán)境,促進(jìn)了公眾輿情觀點(diǎn)表達(dá)以及傳播,積累了海量復(fù)雜的網(wǎng)絡(luò)輿情數(shù)據(jù)。這類數(shù)據(jù)中匯聚了眾多對社會發(fā)展有益的觀點(diǎn),也存在著對社會穩(wěn)定具有潛在威脅的信息,因此有必要對網(wǎng)絡(luò)輿情大數(shù)據(jù)進(jìn)行有效檢測與分析。

      越來越多的證據(jù)表明,人類情感也會在網(wǎng)絡(luò)社交媒體中傳播,然而這種情緒傳染的潛在機(jī)制在過去由于很少被研究。隨著社交媒體用戶群體不斷擴(kuò)大,其累計(jì)的數(shù)據(jù)也越來越龐雜,加之人工智能等技術(shù)的愈發(fā)成熟,對網(wǎng)絡(luò)用戶情緒的分析引起了研究人員的關(guān)注。許峰和張柳均嘗試設(shè)計(jì)并構(gòu)建情感識別模型以用于實(shí)際的網(wǎng)絡(luò)大數(shù)據(jù)輿情檢測與分析[44-45]。Fan等、Hossny等基于社交媒體(微博、推特等)的百萬推文研究社交媒體中的弱關(guān)系加劇了憤怒情感的蔓延[46-47]。Xie等建模分析了由1億用戶形成的網(wǎng)絡(luò)結(jié)構(gòu)以及18萬多的用戶的傳播行為數(shù)據(jù)并輔以大量推特(Twitter)數(shù)據(jù)。研究發(fā)現(xiàn),社交媒體聲音集中程度和正反饋效應(yīng)都被以往輿情檢測大大低估,龐大的社交網(wǎng)絡(luò)將進(jìn)一步加劇人們通過社交媒體表達(dá)觀點(diǎn)的失衡[48]。

      新冠肺炎疫情對人們生活生產(chǎn)的方方面面產(chǎn)生了重要影響,并引發(fā)世界輿論的廣泛關(guān)注,研究網(wǎng)絡(luò)用戶對于新冠肺炎疫情的態(tài)度及其隨著時間的變化,有助于政府及時掌握真實(shí)社會輿論情況,科學(xué)高效地做好疫情防控宣傳和輿情引導(dǎo)工作,對此研究人員進(jìn)行了大量的相關(guān)研究。Kruspe等和chandra等均嘗試?yán)米匀徽Z言處理(NLP)和深度學(xué)習(xí)技術(shù),檢測和分析了新冠大流行期間推特億萬的推文所表現(xiàn)出來的情緒[49-50]。Wang等基于100多個國家的6.54億條帶有地理標(biāo)簽的社交媒體帖子開發(fā)了一個表達(dá)情感指數(shù)的全球數(shù)據(jù)集,以跟蹤國家和國家以下級別的日常情感狀態(tài),研究表明社交媒體數(shù)據(jù)與機(jī)器學(xué)習(xí)技術(shù)相結(jié)合時,可以提供對人們情感狀態(tài)的實(shí)時測量[51]。

      2.3.2? ?網(wǎng)絡(luò)虛假信息甄別與分析

      虛假信息是指向目標(biāo)個人、群體或國家傳遞、提供或確認(rèn)的虛假、不完整或誤導(dǎo)信息(RAND,2021)[52],社交媒體和互聯(lián)網(wǎng)的普及以及人工智能、社交機(jī)器人的興起,使得虛假信息能夠以前所未有的速度傳遞給目標(biāo)受眾。2016年美國大選中,特朗普利用新型社交媒體開展競選活動并獲得勝利使世界開始意識到網(wǎng)絡(luò)虛假信息的嚴(yán)重欺騙性。

      在網(wǎng)絡(luò)信息學(xué)的框架下,基于網(wǎng)絡(luò)大數(shù)據(jù)利用人工智能新技術(shù)建立自動檢測框架以快速檢測和識別虛假信息、抵制“信息操縱”、防止虛假信息收割民智已經(jīng)引起相關(guān)研究人員高度關(guān)注。Cao等提出了一種基于圖的方法Sybil Rank以識別社交機(jī)器人進(jìn)而檢測社交網(wǎng)絡(luò)海量信息中的虛假信息[53]。Wang等、Sharma等都積極探索開發(fā)基于深度神經(jīng)網(wǎng)絡(luò)的模型來從海量網(wǎng)絡(luò)新聞中識別網(wǎng)絡(luò)虛假信息[54-55]。此外,Shu等利用Buzzfeed和Pllotifact兩個新聞網(wǎng)站的數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)新聞源以及新聞作者可以成為網(wǎng)絡(luò)新聞可信度監(jiān)測的一個有力指標(biāo),該方法可以改進(jìn)傳統(tǒng)以內(nèi)容特征進(jìn)行虛假新聞檢測的方法[56]。

      2017年,一位名叫“Deepfakes”的用戶在美國Reddit網(wǎng)站上分享了篡改人臉的色情視頻,將深度偽造技術(shù)帶到了大眾面前并引起了研究深度偽造技術(shù)的熱潮,但是深度偽造技術(shù)在帶來新奇的同時也帶來了非常大的隱患,通過制造虛假視頻、虛假音頻進(jìn)行誣陷、誹謗、詐騙、勒索等違法行為和事例已屢見不鮮[57]。為此,越來越多的研究者開展了深度偽造的音頻、視頻識別展開深入研究,基于 CelebA、FaceForensics、UADFV、WildDeepfake等深度偽造數(shù)據(jù)[58-61],提出識別檢測深度偽造信息的方法,如Mo等、Li等、Nguyen等均基于以上數(shù)據(jù)集嘗試通過深度神經(jīng)網(wǎng)絡(luò)來檢測識別別偽造圖像和視頻[62-64]。

      2020年初,世界衛(wèi)生組織(WHO)宣布全球正在陷入信息流行?。↖nfodemic[65])。虛假信息的傳播已對公共衛(wèi)生和新冠肺炎疫情的成功管控構(gòu)成很大的威脅[66],現(xiàn)在比以往任何時候都更需要找到方法來揭穿、糾正以及分析網(wǎng)上的虛假信息。Wang等[54]設(shè)計(jì)并收集了一個帶不同的注釋的新型冠狀病毒肺炎推特?cái)?shù)據(jù)集,其中包含了可用于檢測和分析虛假信息的檢測模型。Gallotti等、Johnson等和張帥等收集了新冠肺炎疫情流行期間社交媒體上的與新冠肺炎疫情有關(guān)的信息,發(fā)現(xiàn)社交網(wǎng)絡(luò)中關(guān)于疫情的信息大多是未經(jīng)驗(yàn)證的、錯誤的,且虛假信息的傳播更為分散[67-69]。這些發(fā)現(xiàn)既為有關(guān)部門治理疫情相關(guān)網(wǎng)絡(luò)虛假信息提供了有益參考,也為相關(guān)平臺遏制網(wǎng)絡(luò)虛假信息的傳播提供了有效途徑。

      2.3.3? ?基于網(wǎng)絡(luò)開源信息的國家安全情報(bào)監(jiān)測與分析

      開源情報(bào)(OSINT)是利用對公開數(shù)據(jù)和信息的搜集、處理、分析而成的情報(bào)[70]。開源情報(bào)近年來獲得了相當(dāng)顯著的地位[71-73],其對一個國家的戰(zhàn)略決策、軍事領(lǐng)域、科研活動、社會經(jīng)濟(jì)等都有強(qiáng)大的支持價(jià)值。

      基于開源的網(wǎng)絡(luò)大數(shù)據(jù),利用人工智能等先進(jìn)的技術(shù)手段監(jiān)測與分析威脅國家和社會安全的情報(bào)也成為了網(wǎng)絡(luò)信息學(xué)研究的一個熱點(diǎn)。Lindley通過類比凝膠來描述人類社交網(wǎng)絡(luò)群體建立了網(wǎng)絡(luò)群體模型以識別極端恐怖組織,這一研究為檢測與識別網(wǎng)絡(luò)信息中存在的威脅國家、社會穩(wěn)定與安全的情報(bào)提供了一個很好的機(jī)制[74]。Dionísio等提出了使用深度神經(jīng)網(wǎng)絡(luò)對推特(Twitter)進(jìn)行開源威脅情報(bào)監(jiān)測[75]。崔琳等深入分析了威脅情報(bào)挖掘的一百多篇相關(guān)文獻(xiàn),提出了一個基于網(wǎng)絡(luò)海量信息,挖掘網(wǎng)絡(luò)開源威脅情報(bào)的分析框架,集成了多種計(jì)算機(jī)技術(shù)對多源的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘與分析,已有絕大部分開源威脅情報(bào)挖掘的研究工作都可以納入到該框架中[76]。

      2.4? ? 面向決策咨詢的網(wǎng)絡(luò)大數(shù)據(jù)預(yù)測分析

      預(yù)測是決策的基礎(chǔ),是進(jìn)行科學(xué)決策的前提條件,預(yù)測為決策服務(wù)。數(shù)據(jù)的核心是“預(yù)測”,即基于海量數(shù)據(jù)的數(shù)學(xué)運(yùn)算來“預(yù)測事物發(fā)生的可能性,從而成為新發(fā)現(xiàn)、新發(fā)明和新服務(wù)可能的源泉[3]。網(wǎng)絡(luò)信息學(xué)框架下,科研人員基于海量的各行業(yè)數(shù)據(jù)(如城市時空流量數(shù)據(jù)、環(huán)境數(shù)據(jù)、氣候數(shù)據(jù)、移動數(shù)據(jù)、科研數(shù)據(jù)、經(jīng)濟(jì)數(shù)據(jù)等),利用深度學(xué)習(xí)等技術(shù)方法,提出了大量的預(yù)測模型以期為決策提供參考。

      隨著城市化進(jìn)程的發(fā)展,基于預(yù)測的城市規(guī)劃成為城市科學(xué)一個新型研究熱點(diǎn),Gong等和京東智能城市時空AI團(tuán)隊(duì)均基于真實(shí)的城市交通流量數(shù)據(jù)構(gòu)建了能夠動態(tài)預(yù)測城市交通流量、區(qū)域客流量的深度神經(jīng)網(wǎng)絡(luò)框架,為城市交通規(guī)劃(如地鐵修建)以及智能城市化應(yīng)用建設(shè)提供了一定的決策參考和前期支撐[77-79]。Verbavatz和Barthelemy基于真實(shí)城市人口數(shù)據(jù),構(gòu)建了一個能夠精準(zhǔn)預(yù)測城市人口數(shù)量變化并解釋城市人口分布狀況的數(shù)學(xué)模型,該模型能夠動態(tài)地預(yù)測,在一個較長的時間尺度內(nèi),哪些城市可能會衰敗,又有哪些城市的人口會增長,對城市規(guī)劃與城市基礎(chǔ)建設(shè)具有重要的參考意義[80]。

      隨著計(jì)算科學(xué)、網(wǎng)絡(luò)科學(xué)和統(tǒng)計(jì)學(xué)在氣候建模和預(yù)測方面的作用變得越來越重要,應(yīng)用機(jī)器學(xué)習(xí)研究預(yù)測氣候問題,幫助解決氣候危機(jī)的相關(guān)性已經(jīng)引起科研人員的注意。Amato等基于空間不規(guī)則分布的時間序列數(shù)據(jù)提出了一種基于深度學(xué)習(xí)的氣候和環(huán)境數(shù)據(jù)時空預(yù)測框架[81]。Ludescher等利用歷史上觀察到的火災(zāi)相關(guān)時空變量提出了一個機(jī)器學(xué)習(xí)模型來約束預(yù)測并揭示森林火災(zāi)增加帶來的全球社會經(jīng)濟(jì)風(fēng)險(xiǎn)[82]。Xu等挖掘了近年來出現(xiàn)的大量人口、土地利用和氣候信息數(shù)據(jù),搜集了過去幾千年人類生活的氣候條件資料,對人類氣候宜居帶進(jìn)行了分析和預(yù)測,研究結(jié)果預(yù)言了如果按照當(dāng)今的碳排放軌跡,未來50年間,會有35億人的生存由于全球變暖而受到嚴(yán)重威脅[83]。

      此外,基于網(wǎng)絡(luò)大數(shù)據(jù)的預(yù)測也體現(xiàn)在科研合作、科研機(jī)構(gòu)影響力預(yù)測、商業(yè)分析等方面。Bai等利用Microsoft Academic Graph的數(shù)據(jù),并基于XGBoost模型構(gòu)建了一個綜合考慮多種因素的新的預(yù)測模型來預(yù)測科研機(jī)構(gòu)的影響力[84]。Filletti和Grech通過挖掘真實(shí)的財(cái)務(wù)數(shù)據(jù)以及行業(yè)新聞文章報(bào)道提出了一個用于預(yù)測公司破產(chǎn)的框架[85]。Bonaventura等通過由crunchbase提供的1990-2015年期間全世界的創(chuàng)業(yè)公司數(shù)據(jù),構(gòu)建了全球初創(chuàng)企業(yè)之間的關(guān)系網(wǎng)絡(luò)——WWS網(wǎng)絡(luò)。該網(wǎng)絡(luò)對公司的長期潛力進(jìn)行無風(fēng)險(xiǎn)的的評估,借此模型投資人和政策制定者能夠?qū)?chuàng)業(yè)公司的長期潛力進(jìn)行更客觀地評估并進(jìn)行相應(yīng)的干預(yù)措施[86]。

      3? ?結(jié)語與展望

      3.1? ? 網(wǎng)絡(luò)信息學(xué)發(fā)展總結(jié)

      當(dāng)前,大數(shù)據(jù)與計(jì)算機(jī)技術(shù)的融合在情報(bào)學(xué)的應(yīng)用已經(jīng)成為了當(dāng)前情報(bào)學(xué)實(shí)踐發(fā)展方向與發(fā)展趨勢。網(wǎng)絡(luò)信息學(xué)提出了利用前沿計(jì)算技術(shù)挖掘網(wǎng)絡(luò)大數(shù)據(jù)的方法來揭示有價(jià)值的知識,為人們從海量網(wǎng)絡(luò)信息中挖掘隱含的知識提供堅(jiān)實(shí)的理論方法支撐,是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科,支撐科研人員發(fā)現(xiàn)重要跨學(xué)科知識、檢測識別重要信息和模式、識別學(xué)科領(lǐng)域研究新興前沿以及創(chuàng)新科研評價(jià)方式等。

      同時,網(wǎng)絡(luò)信息學(xué)借助海量的網(wǎng)絡(luò)信息資源和前沿計(jì)算技術(shù),能夠比較準(zhǔn)確地揭示出客觀事物運(yùn)行中的本質(zhì)聯(lián)系,勾畫出未來事物發(fā)展的基本輪廓,使研究者具有戰(zhàn)略眼光,提出各種可以互相替代的發(fā)展方案,使決策有了充分的科學(xué)依據(jù)。

      3.2? ? 網(wǎng)絡(luò)信息學(xué)發(fā)展展望

      3.2.1? ?網(wǎng)絡(luò)信息學(xué)發(fā)展的關(guān)鍵問題

      網(wǎng)絡(luò)信息學(xué)的概念才剛提出,正處于學(xué)科發(fā)展的起步階段,在其發(fā)展過程中必然會產(chǎn)生諸多難以預(yù)料的問題。

      首先,保障和控制網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量對于網(wǎng)絡(luò)信息學(xué)發(fā)展是關(guān)鍵基礎(chǔ),也是迫切需要有效解決的關(guān)鍵問題,盡管已有各種研究提出各種模型來[87-90]來嘗試控制數(shù)據(jù)質(zhì)量,但是,大數(shù)據(jù)的“5V”特征以及數(shù)據(jù)模式高度復(fù)雜化,導(dǎo)致保證數(shù)據(jù)質(zhì)量暫時還沒有非常行之有效的措施;其次,探索開發(fā)面向非程序員的技術(shù)門檻低、通用的、開源的大數(shù)據(jù)分析工具,也是網(wǎng)絡(luò)信息學(xué)發(fā)展面臨的關(guān)鍵問題。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能技術(shù)的應(yīng)用需要一定的計(jì)算機(jī)學(xué)科專業(yè)背景知識,這使得多數(shù)不具備相關(guān)技能的相關(guān)領(lǐng)域的研究人員受困于技術(shù)門檻,不利于推動網(wǎng)絡(luò)信息學(xué)的向前發(fā)展;再次,專業(yè)人才的培養(yǎng)是學(xué)科發(fā)展的關(guān)鍵要素,隨著網(wǎng)絡(luò)大數(shù)據(jù)類型愈加多樣化和立體化、結(jié)構(gòu)和模式愈加復(fù)雜化,對于網(wǎng)絡(luò)數(shù)據(jù)的挖掘分析會越來越依賴于大數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)等人工智能技術(shù),這對網(wǎng)絡(luò)信息學(xué)研究人員的能力提出了更高的要求;最后,與專業(yè)領(lǐng)域知識相融合的網(wǎng)絡(luò)大數(shù)據(jù)的分析才是知識發(fā)現(xiàn)的前提,網(wǎng)絡(luò)信息學(xué)作為一種方法和工具性學(xué)科,其必須應(yīng)用到有關(guān)的專門專業(yè)領(lǐng)域中的數(shù)據(jù)分析與知識發(fā)現(xiàn)。因此,從學(xué)科和領(lǐng)域等專業(yè)角度出發(fā),合理且最大化地利用專業(yè)知識解釋大數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,是網(wǎng)絡(luò)大數(shù)據(jù)充分發(fā)揮價(jià)值的前提,也是網(wǎng)絡(luò)信息學(xué)發(fā)展應(yīng)用的關(guān)鍵環(huán)節(jié)。

      3.2.2? ?網(wǎng)絡(luò)信息學(xué)發(fā)展前瞻

      網(wǎng)絡(luò)信息學(xué)以網(wǎng)絡(luò)大數(shù)據(jù)為數(shù)據(jù)基礎(chǔ),是網(wǎng)絡(luò)信息研究新范式的支撐學(xué)科。隨著實(shí)踐的不斷深入,未來,網(wǎng)絡(luò)信息學(xué)的理論框架、方法工具、應(yīng)用領(lǐng)域、人才隊(duì)伍都將快速且持續(xù)的發(fā)展完善。

      一是網(wǎng)絡(luò)信息學(xué)或成為信息學(xué)的領(lǐng)頭學(xué)科。網(wǎng)絡(luò)信息學(xué)學(xué)科作為一門工具型學(xué)科,網(wǎng)絡(luò)信息理論方法與技術(shù)工具可以移植到其它的專門領(lǐng)域?qū)W科信息學(xué)中為其所用,助力其發(fā)展;二是網(wǎng)絡(luò)大數(shù)據(jù)知識庫將蓬勃發(fā)展,大數(shù)據(jù)的“5V”特征使得有必要對網(wǎng)絡(luò)信息和知識進(jìn)行實(shí)時動態(tài)的大規(guī)模的收集和整理,將某類網(wǎng)絡(luò)大數(shù)據(jù)通過組織使之成為不斷動態(tài)更新的網(wǎng)絡(luò)大數(shù)據(jù)知識庫;三是網(wǎng)絡(luò)大數(shù)據(jù)挖掘的相應(yīng)技術(shù)與工具不斷開發(fā),未來,在網(wǎng)絡(luò)大數(shù)據(jù)分析的強(qiáng)勁需求驅(qū)動下,需要開發(fā)專門的、技術(shù)門檻低的網(wǎng)絡(luò)信息學(xué)專門技術(shù)工具以支撐網(wǎng)絡(luò)信息學(xué)的研究人員更好地開展研究;四是網(wǎng)絡(luò)信息學(xué)研究應(yīng)用領(lǐng)域?qū)⒖焖贁U(kuò)展,海量的網(wǎng)絡(luò)數(shù)據(jù)迅速引起了各個領(lǐng)域科學(xué)研究的重視,幾乎各個領(lǐng)域行業(yè)都需要更寬廣的視野和長久的策略以全面應(yīng)對網(wǎng)絡(luò)大數(shù)據(jù)時代研究的挑戰(zhàn),即挖掘、計(jì)算、分析各領(lǐng)域的海量的網(wǎng)絡(luò)數(shù)據(jù),以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的新的模式,而這些均屬于網(wǎng)絡(luò)信息學(xué)的學(xué)科范疇;五是網(wǎng)絡(luò)信息學(xué)“高、精、?!比瞬抨?duì)伍的培養(yǎng),要促進(jìn)網(wǎng)絡(luò)信息學(xué)的發(fā)展和應(yīng)用,未來需要建設(shè)一個全面、多維、兼顧理論與技術(shù)的網(wǎng)絡(luò)信息學(xué)教育體系,培養(yǎng)既掌握扎實(shí)的相關(guān)多學(xué)科的理論知識,又精通大數(shù)據(jù)挖掘技術(shù)、人工智能技術(shù)的網(wǎng)絡(luò)信息學(xué)專業(yè)分析人才。

      參考文獻(xiàn):

      [1]? Bechini A,Marcelloni F,Segatori A.A MapReduce solution for associative classification of big data[J].Information Sciences,2016,332:33-55.

      [2]? 邱均平,鄺玉林.人工智能對“五計(jì)學(xué)”的影響研究——以網(wǎng)絡(luò)計(jì)量學(xué)為例[J].圖書館理論與實(shí)踐,2020(6):17-22.

      [3]? 張志強(qiáng),范少萍.論學(xué)科信息學(xué)的興起與發(fā)展[J].情報(bào)學(xué)報(bào),2015,34(10):1011-1023.

      [4]? Almind V C,Ingwersen V P.Informetric analyses on the world wide web:methodological approaches to‘webometrics[J].Journal of Documentation,1997,53(4):404-426.

      [5]? 夏旭.高屋建瓴 臻于至善——《網(wǎng)絡(luò)計(jì)量學(xué)》評介[J].圖書情報(bào)知識,2012(3):125-129.

      [6]? 趙蓉英,張心源,張揚(yáng),等.我國“五計(jì)學(xué)”演化過程及其進(jìn)展研究[J].圖書情報(bào)工作,2018,62(13):127-138.

      [7]? 徐久齡,劉春茂,劉亞軒.網(wǎng)絡(luò)計(jì)量學(xué)的研究[J].情報(bào)學(xué)進(jìn)展,1998.

      [8]? 邱均平,陳敬全.網(wǎng)絡(luò)信息計(jì)量學(xué)及其應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2001(3):161-163.

      [9]? 邱均平.網(wǎng)絡(luò)計(jì)量學(xué)[M].北京:科學(xué)出版社,2010.

      [10]? 趙蓉英,郭鳳嬌,譚潔.基于Altmetrics的學(xué)術(shù)論文影響力評價(jià)研究——以漢語言文學(xué)學(xué)科為例[J].中國圖書館學(xué)報(bào),2016,42(1):96-108.

      [11]? 蘇令銀.大數(shù)據(jù)時代的小數(shù)據(jù)會消亡嗎[J].探索與爭鳴,2019(7):74-84,158.

      [12]? 邱均平.“文獻(xiàn)計(jì)量學(xué)”定義的發(fā)展[J].情報(bào)雜志,1988(4):45-47,31.

      [13]? Schwartz G A.Complex networks reveal emergent interdisciplinary knowledge in Wikipedia[J].Humanities and Social Sciences Communications,2021,8(1):1-6.

      [14]? Anastasia Analyti,Nicolas Spyratos,Panos Constantopoulos.On the Semantics of a Semantic Network[J].Fundamenta Informaticae,1998,36(2-3):109-144.

      [15]? Saxena A,Tripathi A,Talukdar P.Improving Multi-hop Question Answering over Knowledge Graphs using Knowledge Base Embeddings[A].Proceedings of the 58th annual meeting of the association for computational linguistics[C].2020:4498-4507.

      [16]? 王志春,李邦祺,李凱曼,等.全球通信光纜知識圖譜構(gòu)建及應(yīng)用[J].北京師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,57(6):883-887.

      [17]? Baumard N,Huillery E,Hyafil A,et al.The cultural evolution of love in literary history[J].Nature Human Behaviour,2022,6(4):506-522.

      [18]? Watts D J,Strogatz S H.Collective dynamics of 'small-world' networks[J].Nature,1998,393(6684):440-442.

      [19]? Barabási A L,Albert R,Jeong H.Mean-field theory for scale-free random networks[J].Physica A,1999,272(1):173-187.

      [20]? Frawley W J,Piatetsky-Shapiro G.Knowledge Discovery in Databases: An Overview.Cambridge[M].MIT Press,1991.

      [21]? Usama M.Fayyad,Gregory Piatetsky-Shapiro,Padhraic Smyth.From Data Mining to Knowledge Discovery in Databases[J].AI Magazine,1996,17(3):37

      [22]? 王大順,(匈牙利)艾伯特-拉斯洛·巴拉巴西.賈韜,汪小帆,譯.給科學(xué)家的科學(xué)思維[M].天津:天津科學(xué)技術(shù)出版社,2021.

      [23]? Arel I,Rose D,C Karnowski,et al.Deep Machine Learning-A New Frontier in Artificial Intelligence Research[J].IEEE computational intelligence magazine,2010,5(4):13-18.

      [24]? 劉清堂,吳林靜,黃煥.網(wǎng)絡(luò)資源聚合研究綜述[J].情報(bào)科學(xué),2015,33(10):154-161.

      [25]? 韓金廷.基于社會網(wǎng)絡(luò)分析的科研合著研究[D].長沙:國防科學(xué)技術(shù)大學(xué),2016.

      [26]? 沈思,李成名,吳鵬.基于時態(tài)語義的Web信息檢索實(shí)踐進(jìn)展與研究綜述[J].中國圖書館學(xué)報(bào),2018,44(4):109-129.

      [27]? Xujian Zhao,Peiquan Jin,Lihua Yue.Discovering topic time from web news[J].Information Processing and Management,2015(6):869-890.

      [28]? Mostafa Keikha,F(xiàn)abio Crestani.Linguistic aggregation methods in blog retrieval[J].Information Processing and Management,2012,48(3):467-475.

      [29]? Lai W,Li S,Liu Y,et al.Adaptation mitigates the negative effect of temperature shocks on household consumption[J].Nature Human Behaviour,2022(6):837-846.

      [30]? Yin Y,Gao J,Jones B F,et al.Coevolution of policy and science during the pandemic[J].Science,2021,371:6525(128-130).

      [31]? Cao H,Chen Z,Cheng M,et al.You Recommend,I Buy:How and Why People Engage in Instant Messaging Based Social Commerce[C].In Proceedings of the ACM on Human-Computer Interaction 5.CSCW1,2021:1-25.

      [32]? Cao H,Chen Z,Xu F,et al.When Your Friends Become Sellers:An Empirical Study of Social Commerce Site Beidian[C].In Proceedings of the International AAAI Conference on Web and Social Media,2020(14):83-94.

      [33]? Cao Q,Sirivianos M,Yang X,et al. Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation(NSDI'12),2012:15.

      [34]? Xu F,Han Z,Piao J,et al.“I Think Youll Like It”Modelling the Online Purchase Behavior in Social E-Commerce[C].Proceedings of the ACM on Human-Computer Interaction 3.CSCW,2019:1-23.

      [35]? Xu F,Lian J,Han Z,et al.Relation-Aware Graph Convo-lutional Networks for Agent-Initiated Social E-Commerce Recommendation[C].Proceedings of the 28th ACM International Conference on Information and Knowledge Management,2019:529-538.

      [36]? Xu F,Zhang G,Yuan Y,et al. Understanding the Invitation Acceptance in Agent-Initiated Social E-Commerce[C].Proceedings of the International AAAI Conference on Web and Social Media,2021(5):820-829.

      [37]? Chen Z,Cao H,Lan X,et al.Beyond Virtual Bazaar:How Social Commerce Promotes Inclusivity for the Traditionally Underserved Community in Chinese Developing Regions[C].Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems,2022:1-15.

      [38]? Weis J W,Jacobson Joseph M.Learning on knowledge graph dynamics provides an early warning of impactful research[J].Nature biotechnology,2021,39(10):1300-1307.

      [39]? Wang Y,Long Y,Tu L,et al.Delivering Scientific Influence Analysis as a Service on Research Grants Repository[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.08715.pdf.

      [40]? Wen T,Deng Y. Identification of influencers in complex networks by local information dimension[J/OL].[2022-06-19].https://arxiv.org/pdf/1908.11298.pdf.

      [41]? Li W,Zhang S,Zheng Z,et al.Untangling the network effects of productivity and prominence among scientists[J].Nat Commun ,2022(13):4907.

      [42]? 中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC).第49次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL].[2022-06-20].https://www.cauc.edu.cn/jsjxy/upfiles/202203/20220318171634656.

      [43]? 許峰.基于深度學(xué)習(xí)的網(wǎng)絡(luò)輿情識別研究[D].北京:北京郵電大學(xué),2019.

      [44]? 張柳.社交網(wǎng)絡(luò)輿情用戶主題圖譜構(gòu)建及輿情引導(dǎo)策略研究[D].長春:吉林大學(xué),2021.

      [45]? Fan R,Xu K,Zhao J.Weak ties strengthen anger contagion in social media[J].arxiv preprint arxiv:2005.01924,2020.

      [46]? Hossny,Ahmad Hany,Lewis Mitchell.Event Detection in Twitter:A Keyword Volume Approach[A].2018 IEEE International Conference on Data Mining Workshops(ICDMW)[C].2018:1200-1208.

      [47]? Xie J,Meng F,Sun J,et al.Detecting and modelling real percolation and phase transitions of information on social media[J].Nature Human Behaviour,2021,5(9):1161-1168.

      [48]? Kruspe A,Hberle M,Zhu X.Cross-language sentim-ent analysis of European Twitter messages during the COVID-19 pandemic[EB/OL].[2022-06-17].https://aclanthology.org/2020.nl pcovid19-acl.14.pdf.

      [49]? Sukhwal P C,Kankanhalli A.Determining containment policy impacts on public sentiment during the pandemic using social media data[J].Proceedings of the National Academy of Sciences of the United States of America,2022,119(19):e211

      7292119.

      [50]? Wang J H,F(xiàn)an Y C,Palacios Juan,et al.Global evidence of expressed sentiment alterations during the COVID-19 pandemic[J].Nature human behaviour,2022,6(3):349-358.

      [51]? RAND Corporation.Combating Foreign Disinformation on Social Media[EB/OL].[2022-06-23].https://www.rand.org/paf/projects/combating-foreign-disinformation.html.

      [52]? Cao Q,Sirivianos M,Yang X,et al.Aiding the Detection of Fake Accounts in Large Scale Social Online Services[C].Proceedings of the 9th USENIX conference on Networked Systems Design and Implementation (NSDI'12),2012:197-210.

      [53]? Wang Y,Ma F,Jin Z,et al.EANN:Event Adversarial Neural Networks for Multi-Modal Fake News Detection[C].KDD18:Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining,2018:849-857.

      [54]? Sharma K,F(xiàn)errara E,Liu Y.Identifying Coordinated Accounts in Disinformation Campaigns[J].2020.

      [55]? Shu,K,Wang S,Lee D,et al.Mining Disinformation and Fake News:Concepts,Methods,and Recent Advancements[J].Disinformation,misinformation,and fake news in social media:Emerging research challenges and opportunities,2020:1-19.

      [56]? 清華大學(xué)人工智能研究院,北京瑞萊智慧科技有限公司,清華大學(xué)智媒研究中心.深度合成十大趨勢報(bào)告[EB/OL].[2022-06-17].http://www.chuangze.cn/third_down.asp?Txtid=4762.

      [57]? Liu Z W,Luo P,Wang X G,et al.Deep Learning Face Attributes in the Wild[C].Praeedings of the IEEE intermational conference on computer vision,2015:3730-3738.

      [58]? Rssler A,Cozzolino D,Verdoliva L,et al. FaceForensics:a large -scale video dataset for forgery detection in human faces[J].arxiv preprint arxiv:1803.09179,2018.

      [59]? Yang X,Li Y,Lyu S.Exposing Deep Fakes Using Inconsistent Head Poses[C].ICASSP 2019-2019 IEEE International Conference on Acoustics,Speech and Signal Processing,2019:8261-8265.

      [60]? Zi B,Chang M,Chen J.WildDeepfake:A Challenging Real-World Dataset for Deepfake Detection[C].Proceedings of the 28th ACM international conference on multimedia,2020:2382-2390.

      [61]? Mo H X,Chen B L,Luo W Q.Fake Faces Identification via Convolutional Neural Network[P].Information Hiding and Multimedia Security,2018.

      [62]? Li L,Bao J,Zhang T,et al.Face X-ray for more general face forgery detection[C].Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2020:5001-5010.

      [63]? Nguyen H H,Tieu N D T,Nguyen-Son H Q,et al.Modular Convolutional Neural Network for Discriminating between Computer-Gener ated Images and Photographic Images[C].Proceedings of the 13th International Conference on Availability,Reliability and Security,2018:1-10.

      [64]? Chiolero Arnaud.How infodemic intoxicates public health surveillance:from a big to a slow data culture[J].Journal of epidemiology and community health,2022,76(6):623-625.

      [65]? van der Linden Sander.Misinformation:susceptibility,spread,and interventions to immunize the public[J].Nature medicine,2022,28(3):460-467.

      [66]? Gallotti Riccardo,Valle Francesco,Castaldo Nicola,et al.Assessing the risks of‘infodemicsin response to COVID-19 epidemics[J].Nature human behaviour,2020,4(12):1285-1293.

      [67]? Johnson N F,Velásquez N,Restrepo N J,et al.The online competition between pro-and anti-vaccination views[J].Nature,2020(582):230-233.

      [68]? 張帥,劉運(yùn)梅,司湘云.信息疫情下網(wǎng)絡(luò)虛假信息的傳播特征及演化規(guī)律[J].情報(bào)理論與實(shí)踐,2021,44(8):112-118.

      [69]? 劉昊,張志強(qiáng),武瑞敏.建設(shè)適應(yīng)科技競爭與國家安全的科技情報(bào)發(fā)展體系[J].圖書與情報(bào),2022(1):39-48.

      [70]? 馬海群.專題導(dǎo)語:開源情報(bào)的高價(jià)值——聚沙成塔、匯流成海[J].現(xiàn)代情報(bào),2022,42(1):4.

      [71]? 白云,李白楊,王施運(yùn).面向新型跨境網(wǎng)絡(luò)有組織犯罪的開源情報(bào)獲取與利用方法[J].信息資源管理學(xué)報(bào),2022,12(2):65-75.

      [72]? Rai B K,Verma R,Tiwari S.Using Open Source Intelligence as a Tool for Reliable Web Searching[J].SN Computer Science,2021,2(5):402.

      [73]? Lindley D.Identifying early signs of online extremist groups[J].Physics,2018,11:76.

      [74]? Dionísio N,Alves F,F(xiàn)erreira P M,et al.Cyberthreat Detection from Twitter using Deep Neural Networks[C].2019 International Joint Conference on Neural Networks(IJCNN),2019:1-8.

      [75]? 崔琳,楊黎斌,何清林,等.基于開源信息平臺的威脅情報(bào)挖掘綜述[J].信息安全學(xué)報(bào),2022,7(1):1-26.

      [76]? Gong Y,Li Z,Zhang J,et al.Potential Passenger Flow Prediction:A Novel Study for Urban Transportation Development[C].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(4):4020-4027.

      [77]? Zhang X,Huang C,Xu Y,et al.Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network[C].Proceedings of the AAAI comference on artificial intelligence,2021,35(17):15008-15015.

      [78]? Qin H,Ke S,Yang X,et al.Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning[C].Proceedings of the AAAI comference on Artificial intelligence,2021,35(5):4312-4319.

      [79]? Verbavatz V,Barthelemy M.The growth equation of cities[J].Nature,2020,587(7834):397-401.

      [80]? Amato F,Guignard F,Robert S. A novel framework for spatio-temporal prediction of environmental data using deep learning[J].Scientific reports,2020,10(1):22243.

      [81]? Ludescher J,Martin M,Boers N,et al.Network-based forecasting of climate phenomena[J].Proceedings of the National Academy of Sciences,2021,118(47):e1922872118.

      [82]? Xu C,Kohler T A,Lenton T M,et al.Future of the human climate niche[J].Proceedings of the National Academy of Sciences of the United States of America,2020,117(21):1350-1355.

      [83]? Filletti M,Grech A.Using News Articles and Financial Data to predict the likelihood of bankruptcy[J].arxiv Preprint.arxiv:2003.13414.2020.

      [84]? Bonaventura M,Ciotti V,Panzarasa P.Predicting success in the worldwide start-up network[J].Scientific reports,2020,10(1):345.

      [85]? 汪應(yīng)洛,黃偉,朱志祥.大數(shù)據(jù)產(chǎn)業(yè)及管理問題的一些初步思考[J].科技促進(jìn)發(fā)展,2014(1):15-19.

      [86]? Taleb I,Serhani M A,Dssouli R.Big Data Quality:A Survey[C].2018 IEEE International Congress on Big Data(Big Data Congress),2018:166-173.

      [87]? 劉冰,龐琳.國內(nèi)外大數(shù)據(jù)質(zhì)量研究述評[J].情報(bào)學(xué)報(bào),2019,38(2):217-226.

      [88]? Merino J,Caballero I,Rivas B,et al.A data quality in use modelfor big data[J].Future Generation Computer Systems,2016(63):123-130.

      作者簡介:武瑞敏(1997-),女,中國科學(xué)院成都文獻(xiàn)情報(bào)中心博士研究生,研究方向:情報(bào)理論方法與應(yīng)用、學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn);張志強(qiáng)(1964-),男,中國科學(xué)院成都文獻(xiàn)情報(bào)中心研究員,博士生導(dǎo)師,研究方向:學(xué)科信息學(xué)與學(xué)科知識發(fā)現(xiàn)、科技政策與管理、科技戰(zhàn)略與規(guī)劃、情報(bào)理論方法與應(yīng)用、科學(xué)計(jì)量與科技評價(jià)。

      猜你喜歡
      大數(shù)據(jù)
      基于在線教育的大數(shù)據(jù)研究
      中國市場(2016年36期)2016-10-19 04:41:16
      “互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
      中國市場(2016年36期)2016-10-19 03:31:48
      基于大數(shù)據(jù)的小微電商授信評估研究
      中國市場(2016年35期)2016-10-19 01:30:59
      大數(shù)據(jù)時代新聞的新變化探究
      商(2016年27期)2016-10-17 06:26:00
      淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
      今傳媒(2016年9期)2016-10-15 23:35:12
      “互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
      今傳媒(2016年9期)2016-10-15 22:09:11
      大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
      新聞世界(2016年10期)2016-10-11 20:13:53
      基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
      科技視界(2016年20期)2016-09-29 10:53:22
      數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
      中國記者(2016年6期)2016-08-26 12:36:20
      桦甸市| 安泽县| 赤城县| 城步| 巢湖市| 星座| 堆龙德庆县| 英山县| 赤城县| 鸡西市| 神农架林区| 沈阳市| 汨罗市| 甘南县| 贵州省| 浠水县| 屯昌县| 三江| 柯坪县| 宁南县| 隆回县| 顺平县| 隆尧县| 盱眙县| 黄骅市| 砚山县| 北辰区| 葵青区| 沙河市| 兴宁市| 济宁市| 安龙县| 北票市| 靖边县| 镇巴县| 平湖市| 乌拉特后旗| 郧西县| 隆尧县| 沙雅县| 武邑县|