• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Python的國際學術(shù)會議數(shù)據(jù)分析研究

      2022-07-10 13:45:45呂霞蔡婷婷肖芳
      現(xiàn)代信息科技 2022年5期
      關(guān)鍵詞:數(shù)據(jù)分析

      呂霞 蔡婷婷 肖芳

      摘 ?要:Python在科學計算和數(shù)據(jù)可視化等領(lǐng)域的應用越來越廣泛。使用Python對國際會議平臺中教育系統(tǒng)國際會議數(shù)據(jù)進行清洗和處理,深入挖掘會議學科、地域等不同維度的相關(guān)信息,對申報會議的主題詞、雙一流高校月度會議量和雙一流高校地域分布進行可視化分析,深入挖掘各類學術(shù)會議信息的科學價值,助力國際學術(shù)會議平臺的管理和國家學科建設(shè)地區(qū)分配改進和優(yōu)化,推動我國教育系統(tǒng)科技信息交流平臺的建設(shè)和發(fā)展。

      關(guān)鍵詞:國際學術(shù)會議;會議平臺;Python;數(shù)據(jù)分析

      中圖分類號:TP391 ? ? ? 文獻標識碼:A文章編號:2096-4706(2022)05-0038-04

      Research on Data Analysis of International Academic Conferences Based on Python

      LYU Xia, CAI Tingting, XIAO Fang

      (Huazhong University of Science and Technology Library, Wuhan ?430074, China)

      Abstract: The application of Python is more and more extensive in the fields of scientific computing and data visualization. In this paper, it uses Python to clean and process the international conference data of the education system in the international conference platform, and digs deeply into the relevant information of different dimensions such as subject and geographical on the conference, and carries out visual analysis of the theme words of the application meeting, the monthly meeting volume of double first-class universities and the regional distribution of double first-class universities, and digs the scientific value of various academic conference information deeply. It helps the management of international academic conference platform, help to improve and optimize the management of international academic conference platform and regional distribution of national discipline construction, promotes the construction and development of science and technology information exchange platform in China’s education system.

      Keywords: international academic conference; conference platform; Python; data analysis

      0 ?引 ?言

      科學的決策離不開會議商討,前沿科學技術(shù)的研討也離不開會議交流。在當今這個信息交流的時代,會議已然成為教育系統(tǒng)各學科學術(shù)交流的主要方式。國際學術(shù)會議是國際科學研究和交流的重要支撐。

      每年,我國教育部直屬高校和科研院所都會舉辦大量的國際性學術(shù)會議,在促進國際交流的同時產(chǎn)生了龐大的會議數(shù)據(jù),形成了教育系統(tǒng)國際性學術(shù)會議的大數(shù)據(jù)。從國家層面上看,高水平的科學研究和交流需要建立在高端的信息交流平臺上。華中科技大學圖書館受教育部國際司委托,建設(shè)并運維中國教育系統(tǒng)國際學術(shù)會議云平臺[1],建立了一套完善的會議管理機制,管理和積累了我國教育系統(tǒng)國際性會議的大數(shù)據(jù),為進一步對會議數(shù)據(jù)進行挖掘和分析奠定了良好的數(shù)據(jù)基礎(chǔ)。

      1 ?研究現(xiàn)狀

      以“學術(shù)會議”或“會議平臺”為關(guān)鍵詞在CNKI中國資源總庫檢索篇名,除去國際學術(shù)會議廣告性質(zhì)文獻,得到55篇相關(guān)研究文獻,國內(nèi)對學術(shù)會議和會議平臺的討論主要及集中在如下幾個方面。

      1.1 ?學術(shù)會議的組織管理

      范敏敏等[2]探討了高校學術(shù)會議團隊的工作組織技巧,孟凡力[3]總結(jié)了高校大型學術(shù)會議的各種組織經(jīng)驗,呂鍵[4]從學院組織國際學術(shù)會議的實踐出發(fā),探索會議組織和管理的有效方式。這些研究都是從實際工作實踐出發(fā),探索學術(shù)會議更有效的組織技巧和管理模式。

      1.2 ?學術(shù)會議與學術(shù)出版

      學術(shù)會議和學術(shù)期刊都是學術(shù)交流有效的傳播方式,兩者的關(guān)系和發(fā)展模式也是學術(shù)討論的熱點。黃明睿[5]從學術(shù)會議與期刊的起源、組織和交流形式、內(nèi)容和功能上分析和探索兩者的相互關(guān)系;邵玉嫻等[6]從學術(shù)會議的特點、會前準備、會中宣傳和組稿以及會后整理和跟蹤等方面探討編輯如何借助學術(shù)會議提升科技期刊學術(shù)水平和影響力;初景利[7]認為應利用技術(shù)構(gòu)建開放的學術(shù)會議系統(tǒng),建設(shè)線上線下結(jié)合、傳統(tǒng)媒體與新媒體融合的學術(shù)傳播模式,探索與國家科技創(chuàng)新需求相一致的學術(shù)交流模式。

      1.3 ?學術(shù)會議與人才培養(yǎng)

      學術(shù)會議和學術(shù)會議平臺的學術(shù)交流聚集效應無疑為學術(shù)人才的發(fā)展提供了廣闊的平臺。馮全功等[8]探索高質(zhì)量主題學術(shù)會議作為學術(shù)交流手段凝聚學者共識,促進了學科建設(shè)和發(fā)展;高會軍等[9]從實踐工作出發(fā),認為國際學術(shù)會議為博士生高質(zhì)量培養(yǎng)搭建了國際化平臺;張?zhí)炀V等[10]認為學術(shù)會議是研究生高質(zhì)量培養(yǎng)的重要途徑。

      1.4 ?學術(shù)會議平臺的建設(shè)

      國內(nèi)學術(shù)會議平臺的建設(shè)實踐主要集中在技術(shù)對會議平臺建設(shè)的重要作用等研究方面。魏生輝等[11]針對傳統(tǒng)會議組織和管理方式在信息采集、流通、存儲和共享方面的不足,探索基于云服務的會議服務平臺的構(gòu)建;林曉靜等[12]探索互聯(lián)網(wǎng)+環(huán)境下傳統(tǒng)學術(shù)會議平臺功能和組織的升級與發(fā)展。

      從以上文獻調(diào)查可以看出,目前國內(nèi)針對國際會議平臺和學術(shù)會議的研究主要集中在相關(guān)功能構(gòu)建和組織管理等方面,對學術(shù)會議信息數(shù)據(jù)的挖掘研究乏善可陳。本文依托本校管理的中國教育系統(tǒng)國際學術(shù)會議云平臺,使用Python語言對平臺中教育系統(tǒng)國際會議信息數(shù)據(jù)進行統(tǒng)計分析,深入挖掘會議學科和地域信息,進一步助力我國教育系統(tǒng)未來的學科發(fā)展和國際會議平臺數(shù)據(jù)管理。

      2 ?Python 數(shù)據(jù)分析

      數(shù)據(jù)時代,越來越多的研究人員通過數(shù)據(jù)分析挖掘數(shù)據(jù)的價值。Python語言是一種具有解釋性、交互性和面向?qū)ο蟮挠嬎銠C編程語言。Python 簡潔明了、便于擴展,具有龐大的標準庫和第三方庫,且具有強大的數(shù)據(jù)分析功能,逐漸成為數(shù)據(jù)分析領(lǐng)域的首選工具[13]。

      在對數(shù)據(jù)進行價值挖掘的過程中,Python包含有Pandas、Numpy、Seaborn、Matplotlib等數(shù)據(jù)分析庫,輔以分詞包Jieba、Wordcloud等進行解釋和分析。在結(jié)構(gòu)化數(shù)據(jù)的處理中,Pandas 能夠提供大量函數(shù)和數(shù)據(jù)結(jié)構(gòu);Numpy提供的多維數(shù)據(jù)組對象,ndarray能夠直接進行數(shù)學和元素級別的運算;Seaborn和Matplotlib的功能主要體現(xiàn)在數(shù)據(jù)圖表的繪制方面。

      通過收集、整理和可視化,Python數(shù)據(jù)分析技術(shù)能夠?qū)H會議平臺產(chǎn)生的大量數(shù)據(jù)從不同維度進行分析,深入挖掘會議學科信息。國際會議信息挖掘的處理流程如圖1所示。

      圖1 ?國際會議信息挖掘的處理流程

      3 ?基于python的國際會議信息數(shù)據(jù)分析

      中國教育系統(tǒng)學術(shù)會議云平臺2018年5月上線以來,系統(tǒng)運行穩(wěn)定。2020年1月以后,因新冠疫情原因,國際學術(shù)會議無論是參與專家人數(shù)還是會議數(shù)量都受到巨大影響,因此此次研究統(tǒng)計截止時間為2019年12月31日。經(jīng)統(tǒng)計,自平臺上線到2019年12月31日,平臺注冊的高校和科研院所用戶4 000多人,在平臺上共申報國際會議4 028個,終審通過的國際會議有3 461個,產(chǎn)生了大量相關(guān)的國際學術(shù)會議數(shù)據(jù)。

      在我國,雙一流高校是我國高校的代表,本研究主要針對平臺中國家首批42所雙一流高校舉辦的會議數(shù)據(jù)進行統(tǒng)計分析。

      3.1 ?數(shù)據(jù)清理和關(guān)鍵詞抽取

      3.1.1 ?數(shù)據(jù)清理

      在數(shù)據(jù)分析時,原始數(shù)據(jù)中存在著大量不完整、不一致、有異常的數(shù)據(jù),嚴重影響到數(shù)據(jù)分析的結(jié)果。所以清洗數(shù)據(jù)的目的有兩個:(1)通過清洗使數(shù)據(jù)可用;(2)讓數(shù)據(jù)變得更適合后續(xù)的分析工作。數(shù)據(jù)清洗過程如圖2所示。

      圖2 ?數(shù)據(jù)清洗過程

      如圖2,數(shù)據(jù)清洗過程分為以下三個階段:

      (1)數(shù)據(jù)預處理。預處理階段主要是檢查數(shù)據(jù)的可用性。對國際會議數(shù)據(jù)預處理包含兩個部分:一是提取元數(shù)據(jù)信息,包括字段解釋、數(shù)據(jù)來源、代碼表等一切描述數(shù)據(jù)的信息;從數(shù)據(jù)庫中的各種數(shù)據(jù)表提取主要字段,主要數(shù)據(jù)表包含國際會議申報信息表、國際會議預報信息表、國際會議變更表、國際會議人員信息表、國際會議總結(jié)表等,提取的字段包括會議名稱、會議時間、會議地點、總?cè)藬?shù)、主辦單位、會議議題或主題、會議總結(jié)等。二是抽取部分數(shù)據(jù),通過Pandas庫查看數(shù)據(jù)概況,對數(shù)據(jù)本身有一個直觀的了解,并進行初步發(fā)現(xiàn)和總結(jié),為之后的數(shù)據(jù)處理做準備,部分操作參考下文代碼:

      import pandas as pd

      data = pd.read_csv(filename,encoding="gbk") ? ? ?#加載數(shù)據(jù)

      data.head(n=5)#查看數(shù)據(jù)前五行

      data.shape#查看數(shù)據(jù)維數(shù)

      data.info() ? ? ? ? #檢查缺失值情況

      data.describe() ? ? #查看統(tǒng)計值,包括平均數(shù),標準差,中位數(shù),最小值,最大值,25%分位數(shù),75%分位數(shù)

      (2)數(shù)據(jù)格式和內(nèi)容清洗。數(shù)據(jù)格式內(nèi)容清洗是為了規(guī)范數(shù)據(jù),以便于統(tǒng)一處理。由于國際會議數(shù)據(jù)是用戶在會議平臺中填寫而來,很大可能存在格式和內(nèi)容問題。常見問題有:日期、數(shù)值、全半角等存儲格式不一致;無效填報數(shù)據(jù),比如會議舉辦地點中出現(xiàn)多余的空格,或者出現(xiàn)中、英文描述導致數(shù)據(jù)不統(tǒng)一等。這些情況需要以半自動校驗、半人工方式來檢查并找出可能存在的問題,以去除不需要的字符。部分清洗方式可參考下文中的處理代碼:

      pd.read_csv(filename,encoding=“unicode_escape”) ? #在Python中,unicode是內(nèi)存編碼集,一般我們將數(shù)據(jù)存儲到文件時,需要將數(shù)據(jù)先編碼為其他編碼集,比如utf-8、gbk等。但是還有一種unicode-escape編碼集,他是將unicode內(nèi)存編碼值直接存儲:因此讀取數(shù)據(jù)的時候需要通過同樣的編碼集進行解碼,否則就會出現(xiàn)數(shù)據(jù)加載異常。

      data[‘HYZRS’].astype(‘int’) ? ?#更改數(shù)據(jù)格式(參會總?cè)藬?shù))

      data[‘city’].replace(‘shanghai’,‘上?!?/p>

      data[‘city’].replace(“ “,””) ? ?#去除全部空格

      (3)缺失數(shù)據(jù)處理。處理缺失數(shù)據(jù)是為了保證數(shù)據(jù)的完整性。缺失數(shù)據(jù)處理主要包括兩個部分:一是去除不需要的字段,包括審核、擴展字段等;二是補全缺失的內(nèi)容,比如會議總結(jié)、會議變更表中的主題、會議日期、地點等,可對數(shù)據(jù)表中的對應字段進行補充。

      3.1.2 ?關(guān)鍵詞抽取

      對會議平臺中提取的原始數(shù)據(jù)清洗完成之后,還需要對各數(shù)據(jù)表中的數(shù)據(jù)根據(jù)需要進行字段抽取和字段拆分,重新建立新的索引,為下一步的數(shù)據(jù)可視化分析打下基礎(chǔ)。

      (1)字段抽取和拆分。通過數(shù)據(jù)表關(guān)聯(lián)關(guān)系,提取會議名稱、舉辦城市、會議時間、參會人數(shù)、會議主題、學科、申報單位等字段重新組合數(shù)據(jù)表。

      (2)設(shè)置索引,依據(jù)統(tǒng)計分析需求對重新組合的數(shù)據(jù)表進行索引設(shè)置。例如,通過會議開始結(jié)束時間計算會議持續(xù)天數(shù),重新設(shè)置索引,數(shù)據(jù)默認的索引是從0開始的有序整數(shù)。如果想把某一列設(shè)置為新的索引,可以用.set_index()實現(xiàn),比如把申報單位這列設(shè)為新索引。部分處理方式可參考下文中的代碼。

      data.set_index(“申報單位”,inplace=True)

      data[‘HYKS’] = pd.to_datetime(data[‘HYKS’]) ?# 將文本格式轉(zhuǎn)換為日期格式

      data[‘HYJS’]= pd.to_datetime(data[‘HYJS’])

      data[‘TS’] = data[‘HYJS’] - data[‘HYKS’] + timedelta(days=1) #計算時間差

      data[‘TS’] = pd.to_timedelta(data[‘TS’]).dt.days ? ?#獲取會議持續(xù)天數(shù)

      3.2 ?國際會議信息可視化分析

      3.2.1 ?主題詞詞云圖

      對申報會議的主題詞進行分詞,統(tǒng)計分析得出會議主題詞詞云圖。如圖3所示,材料、人工智能、能源、生物等為高頻熱點主題詞,充分反映了在當前我國經(jīng)濟高速發(fā)展時期,國際學術(shù)會議主題緊扣國家重要發(fā)展方向。

      圖3 ?國際學術(shù)會議主題詞詞云圖

      3.2.2 ?雙一流高校月度會議量統(tǒng)計分析

      如圖4所示,按月對所有會議和雙一流高校辦會總量進行統(tǒng)計,提取雙一流高校每月辦會數(shù)量,計算出雙一流高校會議占總數(shù)的比例。從雙一流高校會議規(guī)模的統(tǒng)計柱狀圖可以看出,國際學術(shù)會議的召開具有很強的時間性,在上半學年和下半學年期間的辦會量明顯大于寒暑假期間。從雙一流高校舉辦會議數(shù)量月分布來看,雙一流高校會議數(shù)量占比在62.5%到88.57%之間,占據(jù)了全國高校會議數(shù)量的絕大多數(shù),展現(xiàn)了雙一流高校雄厚的學術(shù)和辦會實力,也體現(xiàn)了國家政策對雙一流高校學術(shù)交流和學科建設(shè)的大力支持。

      圖4 ?雙一流高校會議規(guī)模及其占比

      3.2.3 ?雙一流高校會議分布

      高校學術(shù)的建設(shè)和發(fā)展高度依賴國家和所處地域在經(jīng)濟等各方面的支持。如圖5所示,按高校名稱統(tǒng)計各校主辦會議數(shù)量(去除從未主辦會議的高校,取其中32所),展示了雙一流高校主辦會議的分布情況。從圖中可以看出,清華大學、浙江大學、復旦大學、北京大學和上海交通大學以絕對數(shù)量優(yōu)勢排名前列。這幾所高校常年盤踞各大高校綜合指數(shù)排名前列,也坐落于我國經(jīng)濟、政治和文化最發(fā)達的北京市和長三角地區(qū),從一定程度上反映了國家和地域的各項發(fā)展對學術(shù)建設(shè)的支持;同時也反映出,學術(shù)的發(fā)展對國家和地域的各項發(fā)展也發(fā)揮著重要的促進作用。

      圖5 ?42所雙一流高校會議分布

      4 ?結(jié) ?論

      國際會議平臺中龐大的會議數(shù)據(jù)不應該只作為一種“資產(chǎn)”沉睡在會議平臺數(shù)據(jù)庫中,而是應該借助各種像Python這樣的分析統(tǒng)計工具,將采集到的數(shù)據(jù)信息進行分析處理,助力國際學術(shù)會議平臺的管理和國家學科建設(shè)地區(qū)分配改進和優(yōu)化,為我國打造國家科技信息高端交流平臺,增強國家國際競爭力和科技可持續(xù)發(fā)展能力貢獻智慧力量。

      參考文獻:

      [1] 中國教育系統(tǒng)學術(shù)會議云平臺.國際會議平臺名 [EB/OL].[2021-12-01].http: //econf.hust.edu.cn/.

      [2] 范敏敏,唐艷,王迪,等.高校學術(shù)會議服務團隊工作技巧探討 [J].辦公室業(yè)務,2018(22):113-114.

      [3] 孟凡力.高校大型學術(shù)會議組織經(jīng)驗探討 [J].教育教學論壇,2016(34):202-203.

      [4] 呂鍵.國際學術(shù)會議的組織與管理經(jīng)驗探索——以麗水學院為例 [J].開封教育學院學報,2019,39(5):155-156.

      [5] 黃明睿.論學術(shù)會議與期刊的關(guān)系 [J].編輯學報,2016,28(1):18-20.

      [6] 邵玉嫻,王小玲,楊雪,等.借助學術(shù)會議提升科技期刊學術(shù)水平和影響力 [J].編輯學報,2019,31(S1):73-76.

      [7] 初景利.高端交流平臺建設(shè)需要創(chuàng)新學術(shù)交流模式 [J].智庫理論與實踐,2021,6(1):7-9.

      [8] 馮全功,棗彬吉.學術(shù)平臺、學者成長與學科建設(shè)——以浙江大學中華譯學館為例 [J].上海翻譯,2020(6):91-94.

      [9] 高會軍,邱劍彬.依托國際化平臺提升博士生培養(yǎng)質(zhì)量的探索與實踐 [J].繼續(xù)教育研究,2016(10):100-102.

      [10] 張?zhí)炀V,玄萍,鞏誠.學術(shù)會議對提高研究生培養(yǎng)質(zhì)量的作用 [J].教育教學論壇,2017(10):238-239.

      [11] 魏生輝,鄭依華,南凱.基于云服務的會議服務平臺研究與實現(xiàn) [J].計算機工程,2012,38(4):233-235+238.

      [12] 林曉靜,楊瑾.建設(shè)互聯(lián)網(wǎng)+學術(shù)會議平臺 引領(lǐng)學會創(chuàng)新發(fā)展 [J].學會,2018(12):45-47.

      [13] 張若愚.Python 科學計算:第2版 [M].北京:清華大學出版社,2016.

      作者簡介:呂霞(1982—),女,漢族,湖北鄂州人,碩士,華中科技大學圖書館館員,主要研究方向:圖書館服務平臺建設(shè)和管理、智慧圖書館;蔡婷婷(1989—),女,漢族,湖北隨州人,碩士,華中科技大學圖書館助理館員,主要研究方向:智慧圖書館,信息組織;肖芳(1982—),男,漢族,湖南漣源人,碩士,華中科技大學圖書館副研究館員,主要研究方向:智慧圖書館,信息化建設(shè)。

      猜你喜歡
      數(shù)據(jù)分析
      我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
      體育時空(2016年8期)2016-10-25 18:02:39
      Excel電子表格在財務日常工作中的應用
      淺析大數(shù)據(jù)時代背景下的市場營銷策略
      新常態(tài)下集團公司內(nèi)部審計工作研究
      中國市場(2016年36期)2016-10-19 04:31:23
      淺析大數(shù)據(jù)時代對企業(yè)營銷模式的影響
      基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務優(yōu)化建議
      科技視界(2016年22期)2016-10-18 14:37:36
      崇义县| 格尔木市| 天全县| 洪雅县| 错那县| 石柱| 宁津县| 临夏市| 汉中市| 荔浦县| 贡觉县| 武清区| 白玉县| 饶阳县| 淮北市| 都匀市| 长阳| 常州市| 禄丰县| 扶风县| 岳普湖县| 正镶白旗| 二连浩特市| 亳州市| 饶平县| 库伦旗| 耿马| 邵阳县| 博白县| 镇雄县| 汝城县| 武宣县| 信宜市| 马龙县| 蓬溪县| 沂南县| 定陶县| 石台县| 甘孜县| 宝应县| 榆树市|