蔣旭東,楊莉,舒啟江,劉紅杏,張美娜,趙林波
(云南中醫(yī)藥大學(xué)信息學(xué)院,昆明云南 650500)
隨著大數(shù)據(jù)和人工智能時代的到來[1],“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)的浪潮已經(jīng)勢不可擋,全面深化高等醫(yī)學(xué)院校創(chuàng)新創(chuàng)業(yè)教育改革勢在必行[2]。教育部等多個部門聯(lián)合舉辦的“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽能夠為高校創(chuàng)新創(chuàng)業(yè)教育改革提供新的載體[3]。大賽作品涉及各個行業(yè)、各個領(lǐng)域,國家對中醫(yī)藥信息化極其重視,中醫(yī)藥院校便是中醫(yī)藥信息化改革的重要陣地,各高校需要總結(jié)大賽經(jīng)驗,有針對性地培養(yǎng)中醫(yī)藥院校學(xué)生的“雙創(chuàng)”能力,不斷明確高校大學(xué)生創(chuàng)新創(chuàng)業(yè)的發(fā)展方向,促使中醫(yī)藥創(chuàng)新創(chuàng)業(yè)得以改革和發(fā)展。
“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽自創(chuàng)辦以來,全國高校、事業(yè)單位、個人都積極報名參加,每年都有越來越多的團(tuán)隊參加比賽,同時針對比賽的相關(guān)研究也日益增加,關(guān)注度也日益提高。 目前關(guān)于國內(nèi)“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽的相關(guān)研究報告越來越多,研究的問題主要集中在以下幾個方面: 一是集中在“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽的人才培養(yǎng)、教育模式和思路的研究,通過對創(chuàng)新創(chuàng)業(yè)大賽的分析總結(jié),對高等醫(yī)學(xué)院校大學(xué)生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)進(jìn)行探究[4];針對四屆“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽參與情況的分析,提出構(gòu)建高職院?!耙再惔俳?、以賽促學(xué)”創(chuàng)新創(chuàng)業(yè)教學(xué)模式的建議[5]。 二是集中在比賽團(tuán)隊建設(shè)方面的研究。 針對大賽中存在的問題,探討大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽項目的團(tuán)隊建設(shè)[6];從互聯(lián)網(wǎng)背景、大學(xué)生創(chuàng)新創(chuàng)業(yè)的優(yōu)勢和存在的問題等方面,對大學(xué)生創(chuàng)業(yè)團(tuán)隊建設(shè)進(jìn)行簡要的分析,為大學(xué)生團(tuán)隊創(chuàng)業(yè)建設(shè)提供思路[7]。 三是集中在比賽的意義和作用的研究,通過對四屆創(chuàng)新創(chuàng)業(yè)大賽及國內(nèi)外創(chuàng)新創(chuàng)業(yè)教育狀況的分析,歸納“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽在創(chuàng)業(yè)實踐及創(chuàng)新創(chuàng)業(yè)教育實踐中的作用,提出“教學(xué)—科研—競賽—創(chuàng)新—就業(yè)”的良性循環(huán)模式[8]。
在全國大力發(fā)展中醫(yī)藥信息化的背景下,針對“互聯(lián)網(wǎng)+” 創(chuàng)新創(chuàng)業(yè)大賽的探討和研究越來越受到重視,國內(nèi)外通過針對創(chuàng)新創(chuàng)業(yè)大賽的分析來對高等中醫(yī)藥院校的人才培養(yǎng)路徑和創(chuàng)新創(chuàng)業(yè)教育的研究越來越多,但是這些研究都只是通過研究創(chuàng)新創(chuàng)業(yè)大賽的特點和問題,探討大學(xué)生的創(chuàng)新創(chuàng)業(yè)教育體系和團(tuán)隊建設(shè)存在的不足,并提出相應(yīng)的解決措施等。幾乎還沒有人對創(chuàng)新創(chuàng)業(yè)大賽作品進(jìn)行研究而總結(jié)其發(fā)展方向,中醫(yī)藥方面的更是沒有。 本文主要通過對創(chuàng)新創(chuàng)業(yè)大賽中中醫(yī)相關(guān)獲獎作品進(jìn)行分析,探討中醫(yī)藥創(chuàng)新創(chuàng)業(yè)大賽的發(fā)展方向以及項目團(tuán)隊人數(shù)的合理性,并為高等中醫(yī)藥院校大學(xué)生“雙創(chuàng)”能力的培養(yǎng)提供策略。
中文分詞,一種把文本信息進(jìn)行切分的基礎(chǔ)環(huán)節(jié),在文本挖掘中應(yīng)用非常多,最常用的基于規(guī)則分詞的方法是最大正向匹配算法,該方法用于詞庫建立。本文將歷屆獲獎“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目題目作為文本,進(jìn)行分詞,并建立中醫(yī)項目分詞庫。
文本挖掘(Text Mining)是抽取有效、新穎、有用、可理解的、散布在大規(guī)模文本庫中的有價值知識,進(jìn)而利用這些知識更好地整合信息的過程,往往處理一些非結(jié)構(gòu)化的文本數(shù)據(jù),其研究逐步形成數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計三大領(lǐng)域,應(yīng)用非常廣泛。本文應(yīng)用文本挖掘技術(shù)來分析歷屆獲獎“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目題目的醫(yī)學(xué)、中醫(yī)項目信息。
Jieba 分詞庫技術(shù),該庫是支持Python 語言的第三方庫,支持三種分詞模式:精確模式、全模式和搜索引擎模式。
TF-IDF 模型是一個統(tǒng)計方法,用來評估一個詞語對一個文件集或一個語料庫中的一份文件的重要程度。 TF 指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),IDF 的主要思想是: 如果包含詞條h 的文檔越少,也就是文檔數(shù)p 越小,IDF 越大,則說明詞條h 具有很好的類別區(qū)分能力。 本文利用該模型進(jìn)行詞語分類和統(tǒng)計。
根據(jù)文本挖掘等相關(guān)理論,要完成中醫(yī)藥院校在校大學(xué)生“雙創(chuàng)”項目培養(yǎng)策略的分析,必須對大量已收集整理完畢的“雙創(chuàng)”項目進(jìn)行中文分詞、詞頻統(tǒng)計、可視化分析,基本實現(xiàn)框架如圖1所示:
圖1 文本挖掘框架
文本分詞主要包括原始數(shù)據(jù)格式轉(zhuǎn)換、分類、篩選所需內(nèi)容等活動,利用Jieba 第三方中文分詞庫及隱馬爾科夫鏈模型[14](HMM)進(jìn)行中文分詞。 核心算法思想描述如下:
BEGIN:
①令j=0,當(dāng)前指針pi 指向輸入字串的初始位置;
②計算當(dāng)前指針pi 到字串末端的字?jǐn)?shù)(即未被切分字串的長度)n,如果n=1,轉(zhuǎn)④步,結(jié)束算法,否則,令m=w(詞典中最長單詞的字?jǐn)?shù)),如果n ③從當(dāng)前pi 起取m 個漢字作為詞qi,判斷: a.如果qi 確實是詞典中的詞,則在qi 后添加一個切分標(biāo)志,轉(zhuǎn)c 步; b.如果qi 不是詞典中的詞且qi 的長度大于1,將qi從右端去掉一個字,轉(zhuǎn)a 步;否則(qi 的長度等于1),在qi 后添加一個切分標(biāo)志(單字),執(zhí)行c 步; c.根據(jù)qi 的長度修改指針pi 的位置,如果pi 指向字串末端,轉(zhuǎn)④,否則j=j+1,返回②; ④輸出切分結(jié)果。 END 通過TF-IDF 算法進(jìn)行詞頻統(tǒng)計,實現(xiàn)對文本數(shù)據(jù)自動化處理[15],主要用到Python 的庫,如表1所示。 表1 主要庫表 本文主要利用Python 中的數(shù)據(jù)分析核心庫pandas 來進(jìn)行統(tǒng)計分析,且采用基于WordCloud 庫的詞云圖顯示文本熱詞。 本文所選取的數(shù)據(jù)是國家級、省級、校級第四屆“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽獲獎名單,國家級獲獎項目包括國際賽道、“紅旅賽道”和主賽道,項目字段有參賽項目名稱、所屬省/市、學(xué)校、項目負(fù)責(zé)人、參賽人員、指導(dǎo)教師及分類,爬取到的數(shù)據(jù)部分展示如表2所示。 表2 中國“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽部分獲獎名單 3.2.1 數(shù)據(jù)預(yù)處理步驟 本文的原始數(shù)據(jù)通過以下幾個步驟進(jìn)行處理,以滿足實驗所需的數(shù)據(jù)要求: (1) 部分原始數(shù)據(jù)是圖片格式的,通過手動方式進(jìn)行數(shù)據(jù)的錄入,將圖片類型的數(shù)據(jù)選取實驗所需的具體字段,手動輸入到Excel 表格中,輸入完成后進(jìn)行比對,確保實驗數(shù)據(jù)的誤差降低到最小且不影響數(shù)據(jù)分析的效果。 (2) 按分析需求維度整理數(shù)據(jù),以便使用。 (3) 統(tǒng)一原始數(shù)據(jù)中的數(shù)據(jù)格式,如比賽項目中名字存在英文、繁體、縮寫等情況,會影響分詞效果,分類有誤差,所以必須進(jìn)行相應(yīng)處理。將帶英文的數(shù)據(jù)和帶繁體字的數(shù)據(jù),轉(zhuǎn)換為對應(yīng)的簡體中文,使其原有意思在最大程度上保持原有的真實性,不能轉(zhuǎn)換的數(shù)據(jù)進(jìn)行剔除或直接重新分為一類,確保不改變數(shù)據(jù)本身。 3.2.2 國家、省、校獲獎分析 通過對原始數(shù)據(jù)預(yù)處理后的統(tǒng)計分析,形成國家級比賽中各省市獲獎分布、 省級比賽中云南省各高校獲獎分布、 國家級比賽中云南省各高校獲獎分布以及校級比賽中各學(xué)院獲獎分布情況。 圖2 國家級比賽中各省市獲獎分布 圖3 省級比賽中云南省各高校獲獎分布 圖4 國家級比賽中云南省各高校獲獎分布 圖5 校級比賽中各學(xué)院獲獎分布 從分析結(jié)果可以看出:在國家級比賽中,獲獎較多的地區(qū)分別為河南省、陜西省、江西省等省份,而云南省的參賽項目獲獎相對較少;在云南省舉辦的大賽中,昆明理工大學(xué)、云南師范大學(xué)獲獎項目的數(shù)量最多,云南中醫(yī)藥大學(xué)的獲獎項目處于平均水平; 在國家級比賽中,昆明理工大學(xué)是獲獎項目最多的; 在校級大賽中,中藥學(xué)院獲獎項目最多,針灸推拿康復(fù)學(xué)院其次,其他專業(yè)的都較少。云南中醫(yī)藥大學(xué)在國家級、省級比賽中獲獎數(shù)目都不多,還需進(jìn)一步加強(qiáng)對學(xué)生“雙創(chuàng)”能力、“雙創(chuàng)”項目的培育。 分詞的準(zhǔn)確性依靠的是分詞所需要的詞庫,本文實驗利用Python 第三方庫Jieba 進(jìn)行中文分詞。 3.3.1 詞庫建立 為篩選出與醫(yī)學(xué)相關(guān)的獲獎項目,建立表3所示詞庫。 表3 詞庫表 3.3.2 各級比賽中與醫(yī)學(xué)、中醫(yī)相關(guān)項目分析 各級比賽總項目數(shù)量以及篩選出的醫(yī)學(xué)相關(guān)、中醫(yī)相關(guān)項目數(shù)量統(tǒng)計如表4所示。 表4 各級總項目以及醫(yī)學(xué)相關(guān)、中醫(yī)相關(guān)項目數(shù)量統(tǒng)計表 從表4分析結(jié)果可以明顯看出: 國家級和省級的獲獎項目中醫(yī)學(xué)相關(guān)項目較少,中醫(yī)相關(guān)項目占比更小。而校級項目中醫(yī)學(xué)相關(guān)項目都是中醫(yī)相關(guān)的,占比也少。依據(jù)詞庫分詞大致篩選出醫(yī)學(xué)相關(guān)的項目,部分項目如表5所示。 表5 醫(yī)學(xué)相關(guān)部分項目 醫(yī)學(xué)中,西醫(yī)和中醫(yī)部分內(nèi)容相互涵蓋,自動分類界限較模糊,且篩選出來的中醫(yī)相關(guān)項目占比不大,因此采用人工手動分類出醫(yī)學(xué)項目中中醫(yī)相關(guān)項目的數(shù)量,結(jié)果如表6所示。 表6 中醫(yī)相關(guān)部分項目 3.3.3 詞頻分析 對篩選出來的中醫(yī)相關(guān)項目通過Jieba 分詞,并進(jìn)行詞頻統(tǒng)計,各級詞頻分析如表7所示。 表7 各級比賽獲獎項目中醫(yī)相關(guān)詞頻分析表 3.3.4 中醫(yī)相關(guān)項目關(guān)注點通過詞云方式可視化 利用詞云,將分析得到的中醫(yī)相關(guān)項目關(guān)注點可視化如圖6所示。 圖6 國家級-省級-校級中醫(yī)相關(guān)項目關(guān)注點詞云圖 3.3.5 獲獎項目團(tuán)隊構(gòu)成分析 通過分析國家級、省級和校級比賽中獲獎團(tuán)隊構(gòu)成,為創(chuàng)新創(chuàng)業(yè)項目人員組成提供參考,分析結(jié)果如表8所示。 表8 各級比賽獲獎項目成員構(gòu)成分析表 本文通過對國家級、省級、校級歷年來“互聯(lián)網(wǎng)+”大學(xué)生創(chuàng)新創(chuàng)業(yè)大賽獲獎作品進(jìn)行統(tǒng)計、分析和挖掘,可以看出:目前,“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)大賽中,醫(yī)藥相關(guān)項目主要關(guān)注點是中醫(yī)藥、養(yǎng)生、康復(fù)、智能、移動等主題。 國家級更多是中藥與互聯(lián)網(wǎng)技術(shù)、智能化的融合;而云南省級的關(guān)注點主要是中醫(yī)藥,特別是中醫(yī)養(yǎng)生和康復(fù)治療;中醫(yī)藥院校級的項目都是和中醫(yī)相關(guān),關(guān)注點是中醫(yī)藥學(xué),側(cè)重培養(yǎng)優(yōu)秀的醫(yī)學(xué)人才。 基于本文的統(tǒng)計、分析和挖掘結(jié)果,為中醫(yī)藥院校培育“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目提供以下幾點參考: (1) 培養(yǎng)中醫(yī)藥院校學(xué)生運用互聯(lián)網(wǎng)技術(shù)、智能技術(shù)在中醫(yī)藥領(lǐng)域融合創(chuàng)新的思維、方法和技術(shù)。 (2) 優(yōu)化項目團(tuán)隊配置。 團(tuán)隊成員專業(yè)配比要合理,相互彌補(bǔ)知識的短板;團(tuán)隊成員數(shù)要合適,根據(jù)本文的研究,團(tuán)隊成員數(shù)為5 到9 個最為合適。 (3) 跨領(lǐng)域、跨專業(yè)、跨學(xué)校聯(lián)合培育項目。 不同領(lǐng)域、專業(yè)和學(xué)校,更容易結(jié)合中醫(yī)藥領(lǐng)域需求尋求到好的解決方案。2.2 詞頻統(tǒng)計
2.3 可視化分析
3 實證研究
3.1 數(shù)據(jù)采集
3.2 數(shù)據(jù)預(yù)處理
3.3 分詞分析
4 結(jié)論與總結(jié)
創(chuàng)新創(chuàng)業(yè)理論研究與實踐2022年5期