曾莉,蔡毓霞,張建桃,韋婷婷
(華南農(nóng)業(yè)大學(xué)數(shù)學(xué)與信息學(xué)院,廣州510642)
在當(dāng)今大數(shù)據(jù)時(shí)代,任何一家用人單位都離不開信息技術(shù)和專業(yè)化管理,用人單位對既懂計(jì)算機(jī)技術(shù)又兼具經(jīng)濟(jì)管理知識的復(fù)合型人才需求越來越強(qiáng)烈。因此,信息管理與信息系統(tǒng)(以下簡稱信管)這一多學(xué)科交叉融合的專業(yè)也應(yīng)運(yùn)而生。盡管信管有著多學(xué)科交叉融合的專業(yè)特色,社會對于這樣復(fù)合型人才的需求也很強(qiáng)烈,但信管畢業(yè)生的就業(yè)情況卻不容樂觀:信管本科畢業(yè)生的就業(yè)能力已經(jīng)難以滿足當(dāng)前企業(yè)的用人需求,就業(yè)現(xiàn)狀不理想[1]。
在歐美,諸多大學(xué)以iSchool(Information Schools movement)運(yùn)動為契機(jī)進(jìn)行與信息管理與信息系統(tǒng)專業(yè)相關(guān)的學(xué)科整合和創(chuàng)建,并在此基礎(chǔ)上對信管專業(yè)的課程體系進(jìn)行改革和建設(shè),實(shí)現(xiàn)面向?qū)嶋H職位職責(zé)與技能的培養(yǎng),提高學(xué)生學(xué)習(xí)的自主性,以此適應(yīng)信息社會的要求。司莉等人[2]在以美國、英國、加拿大權(quán)威網(wǎng)站上的招聘信息為研究對象的網(wǎng)絡(luò)調(diào)研中,發(fā)現(xiàn)招聘者對于基本職業(yè)素養(yǎng)的要求最重視的是溝通能力,其次是團(tuán)隊(duì)協(xié)作能力;對于專業(yè)技能的要求主要是信息技術(shù)、信息組織與利用和信息管理/系統(tǒng)三大類的要求。李玲等人[3]對信息管理與信息系統(tǒng)專業(yè)的招聘要求信息進(jìn)行研究,發(fā)現(xiàn)招聘要求中對于數(shù)據(jù)庫運(yùn)用、編程語言、溝通技能和工作經(jīng)驗(yàn)都有普遍的要求。因此,高校應(yīng)該優(yōu)化學(xué)科體系、加強(qiáng)實(shí)踐教學(xué)環(huán)節(jié)建設(shè)和完善就業(yè)指導(dǎo)體系,為人才培養(yǎng)提供決策支持[4]。
本文結(jié)合網(wǎng)絡(luò)招聘數(shù)據(jù),通過采用當(dāng)下比較先進(jìn)的研究方法——文本挖掘[5],對信管專業(yè)的招聘信息進(jìn)行研究分析,為信管專業(yè)的人才培養(yǎng)提出有針對性的建議。本文的研究思路如圖1 所示,總體上對信管專業(yè)人才培養(yǎng)模式研究的流程可以概括為以下三個(gè)階段:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理以及數(shù)據(jù)分析與可視化。
文本挖掘是從非結(jié)構(gòu)化文本數(shù)據(jù)中提取有意義信息的算法[6]。基本過程是將文本文檔中包含的關(guān)鍵字(或術(shù)語)轉(zhuǎn)換為document-keyword 矩陣,這個(gè)特別的關(guān)鍵字結(jié)構(gòu)稱為關(guān)鍵字向量?;谖臋n關(guān)鍵字矩陣,應(yīng)用了聚類、潛在語義分析、情感分析等多種數(shù)據(jù)挖掘領(lǐng)域[7-8]。在近幾年,文本挖掘被普遍應(yīng)用于數(shù)據(jù)分析領(lǐng)域,文本挖掘的好處在于能夠獲得文本中潛在的大量由于各種原因而無法在經(jīng)典結(jié)構(gòu)化數(shù)據(jù)格式中獲得的有價(jià)值信息[9]。
圖1 技術(shù)路線圖
本文首先以“信息管理與信息系統(tǒng)”為關(guān)鍵詞,利用八爪魚爬蟲軟件制定一定的爬取規(guī)則,在前程無憂招聘網(wǎng)站上爬取相關(guān)招聘數(shù)據(jù)共574 條,觀察崗位類型及特征,結(jié)合信管專業(yè)的培養(yǎng)目標(biāo),在前程無憂上繼續(xù)爬取相關(guān)數(shù)據(jù)共計(jì)52055 條,其中爬取的字段包括:崗位要求、工作地點(diǎn)、經(jīng)驗(yàn)要求以及用人單位所屬行業(yè)等,經(jīng)數(shù)據(jù)清洗后剩余32443 條有效數(shù)據(jù)。
(1)構(gòu)建自定義詞典:在進(jìn)行中文分詞的過程中,由于某一個(gè)詞具備的情感或語義在不同的語言情境下表達(dá)出的含義不一定相同,可能會有歧義,通過構(gòu)建自定義詞典可以較有效地解決這個(gè)問題,將一些不應(yīng)該被分開的字詞組成一個(gè)完整的詞匯表(即自定義詞典),根據(jù)不同的設(shè)計(jì)目的,不斷完善自定義詞典,此時(shí)就會呈現(xiàn)出較理想的分詞效果,從而提高后續(xù)文本分析結(jié)果的質(zhì)量。
(2)構(gòu)建停用詞表:文本中包含大量無實(shí)際意義的詞語,如語氣詞、助詞、介詞、量詞和標(biāo)點(diǎn)符號等,這些詞語對于文本分析來說無實(shí)際意義但又會加大分析難度,損耗分析資源,因此需將文本中無實(shí)際意義的高頻詞予以過濾。
(3)中文文本分詞:中文文本是由連續(xù)的字符串組成文本中的語句信息,為了提取其中隱含的信息和特征項(xiàng),需要把語句按照一定的規(guī)則劃分成一個(gè)一個(gè)的獨(dú)立詞語。此處理過程是建立在構(gòu)建自定義詞典和過濾停用詞的基礎(chǔ)上來完成,為了達(dá)到最準(zhǔn)確的分詞效果,可通過觀察分詞結(jié)果不斷完善自定義詞典和停用詞表。
Word2Vec 模型是一種簡單化的神經(jīng)網(wǎng)絡(luò),是由Google 在2013 年提出的一種將詞語表示成數(shù)值向量的工具[10-11]。Word2Vec 工具將文本中的每一個(gè)詞以向量的形式表示出來,詞向量即詞的模型,是文本的基本結(jié)構(gòu),其憑借良好的性能受到自然語言處理研究者們的青睞。將詞向量嵌入一個(gè)多維空間,通過訓(xùn)練這些以詞向量形式為表現(xiàn)形式的文本,來計(jì)算并獲得文本中詞語間的相似度,對提取關(guān)鍵能力詞匯有重要作用。Word2Vec 包括兩個(gè)模型:CBOW 模型和Skipgram 模型。這兩個(gè)模型的不同之處在于:CBOW 模型是通過輸入某個(gè)詞語的上下文,來預(yù)測出這個(gè)特定詞語;而Skip-gram 模型是通過輸入一個(gè)特定詞來預(yù)測其上下文,由于Skip-gram 模型訓(xùn)練準(zhǔn)確度相比CBOW模型更高,因此,本文使用Skip-gram 模型進(jìn)行研究。
基于分詞結(jié)果,如何提取出文本的特征并做特定的分析是文本挖掘的關(guān)鍵。Word2Vec 模型可以被用來計(jì)算語義相似度,尋找相似詞。在引用Word2Vec 模型時(shí),有兩個(gè)關(guān)鍵的參數(shù),即size 和window,其中size是詞向量的維度,默認(rèn)值為100,參數(shù)范圍一般在50-300 之間,而window 即詞向量上下文的最大距離,在上文中標(biāo)記為c,參數(shù)范圍一般在5-20 之間。本研究通過對此模型進(jìn)行調(diào)參的過程以及對該參數(shù)下詞聚類結(jié)果的觀察來確定該參數(shù)的最優(yōu)值,最終確定參數(shù)最優(yōu)值為size=50,window=5,模型訓(xùn)練效果較好,詞語最大相似度均達(dá)到0.9 以上。
運(yùn)用Word2Vec 模型提取文本特征后,尋找特定能力詞匯的相似詞,并使用NLTK(Natural Language Toolkit)算法統(tǒng)計(jì)這些詞語的詞頻,利用Python 中封裝的wordcloud 工具包進(jìn)行可視化詞云展現(xiàn)[12]如圖3 所示。
圖3 編程能力需求詞云圖
由圖3 可以看出,目前用人單位對信管專業(yè)人才在技術(shù)方面的要求主要集中在數(shù)據(jù)庫以及Java、前端開發(fā)等;根據(jù)詞頻統(tǒng)計(jì)結(jié)果,其中與數(shù)據(jù)庫語言相關(guān)的詞匯占比31.48%,后臺開發(fā)編程語言中Java 占比多達(dá)37.63%,前端開發(fā)中涉及到多種框架的運(yùn)用,由表1 可以看出,對信管專業(yè)學(xué)生除了專業(yè)知識上的要求,還在溝通能力、工作經(jīng)驗(yàn)、團(tuán)隊(duì)合作能力、責(zé)任感、學(xué)習(xí)能力、邏輯思維能力、表達(dá)能力、抗壓能力等進(jìn)行多方位考察[13]。
表1 綜合能力相關(guān)詞語的詞頻統(tǒng)計(jì)
圖4 其他能力需求詞云圖
(1)對用人單位性質(zhì)、規(guī)模、行業(yè)的統(tǒng)計(jì)分析
由圖5 可知,對信管專業(yè)人才的招聘主要集中在民營單位(占70.36%),其次是外資企業(yè)(占9.32%)、上市公司(6.01%)、合資企業(yè)(5.90%)、國企(5.70%),其余性質(zhì)的用人單位占比都不到3%。由此可見,相比之下,民營單位對信管專業(yè)人才的需求更大。
圖5 用人單位性質(zhì)分析
從用人單位所屬行業(yè)來看,由圖6 可知,在劃分的13 個(gè)所屬行業(yè)中,占據(jù)大多數(shù)的為IT/互聯(lián)網(wǎng)行業(yè)(占43.50%),其次是通信/電子行業(yè)(占14.40%),貿(mào)易/批發(fā)/零售/快消行業(yè)(占6.83%),房地產(chǎn)/建筑行業(yè)(占5.72%),制造行業(yè)(占5.62%),其余8 個(gè)行業(yè)占比不到24%,由此可見,信管專業(yè)人才可以憑借自己的學(xué)術(shù)知識和各項(xiàng)技能在IT/互聯(lián)網(wǎng)和通信/電子行業(yè)中尋找更多就業(yè)機(jī)會。
圖6 用人單位所屬行業(yè)分析
從圖7 用人單位規(guī)模分析的結(jié)果來看,50-150 人規(guī)模的用人單位占了32.91%,其次是150-500 人規(guī)模用人單位(占24.13%)和少于50 人規(guī)模的用人單位(占19.73%),500-1000 人規(guī)模用人單位(占10.46%),1000-5000 人規(guī)模用人單位(占9.03%),其余大規(guī)模用人單位占比不到4%,由此可知,在國家對創(chuàng)業(yè)和各種小型企業(yè)的發(fā)展的鼓勵(lì)和支持下,小規(guī)模的用人單位對人才的需求較大,可以為信管專業(yè)人才提供更多的就業(yè)機(jī)會。
圖7 用人單位規(guī)模分析
(2)工作地點(diǎn)統(tǒng)計(jì)結(jié)果分析
在工作地點(diǎn)上,由于所采集的數(shù)據(jù)中包含了各個(gè)地區(qū)的招聘信息,此處取排名前十的工作地點(diǎn)做具體分析。由圖8 可見,工作地點(diǎn)排名前十的分別是:上海、深圳、廣州、北京、杭州、武漢、成都、南京、蘇州以及長沙。信管專業(yè)人才的招聘工作地點(diǎn)更加集中在北上廣深,符合一線城市招聘需求量更大的特點(diǎn)[3]。
圖8 工作地點(diǎn)分析
(3)經(jīng)驗(yàn)要求統(tǒng)計(jì)結(jié)果分析
由圖9 可見,在工作經(jīng)驗(yàn)要求上,占比最大的是無工作經(jīng)驗(yàn)要求(占29.95%),其次是要求有3 年的工作經(jīng)驗(yàn)(占23.16%)、2 年的工作經(jīng)驗(yàn)(占17.32%),要求有1 年工作經(jīng)驗(yàn)的和5 年工作經(jīng)驗(yàn)的相差不大(分別是13.20%和13.12%),要求有8 年和10 年工作經(jīng)驗(yàn)的占比不到3.26%。由此可見,用人單位對信管專業(yè)人才在工作經(jīng)驗(yàn)要求上還是比較嚴(yán)格的,信管專業(yè)的學(xué)生需不斷實(shí)踐與充實(shí)自身的工作經(jīng)歷,在實(shí)踐中提升自己的能力,積累經(jīng)驗(yàn)。
圖9 經(jīng)驗(yàn)要求分析
Word2Vec 模型分析可知,大多數(shù)崗位對信管專業(yè)學(xué)生有編程能力上的要求,如Java、Python、C 語言、PHP、數(shù)據(jù)庫等,由此可知,提升信管專業(yè)人才的編程能力有利于提高自身就業(yè)競爭力以促進(jìn)就業(yè)。應(yīng)注重學(xué)生編程能力的培養(yǎng),由于信息管理與信息系統(tǒng)專業(yè)多學(xué)科交叉融合的特點(diǎn),若要涵蓋各個(gè)所有學(xué)科的內(nèi)容,則在有限時(shí)間內(nèi)很難保證學(xué)生的深入學(xué)習(xí),因此,可以設(shè)置學(xué)習(xí)深度為遞進(jìn)的編程選修專業(yè)課,讓學(xué)生能夠根據(jù)自己興趣和就業(yè)的方向選擇相應(yīng)的課程去提高編程能力,掌握硬技能。
在詞頻統(tǒng)計(jì)結(jié)果中發(fā)現(xiàn),用人單位不單需要信管專業(yè)學(xué)生有專業(yè)上的“硬技能”,同時(shí)也對溝通能力、執(zhí)行力、抗壓能力、學(xué)習(xí)能力、思考能力、邏輯思維能力等素質(zhì)能力有一定的要求。因此,學(xué)校應(yīng)重視課程設(shè)置中對學(xué)生素質(zhì)能力的培養(yǎng)和提高,通過改變教學(xué)方式,如采用案例模擬、辯論會、小組展示以及學(xué)科競賽等啟發(fā)式授課方法,激發(fā)學(xué)生學(xué)習(xí)興趣的同時(shí)也培養(yǎng)了學(xué)生的綜合素質(zhì)能力。
從經(jīng)驗(yàn)要求統(tǒng)計(jì)結(jié)果可知,70%的用人單位對工作經(jīng)驗(yàn)有一定的要求,說明企業(yè)還是比較在意求職者的實(shí)踐經(jīng)驗(yàn)。因此可以在增加實(shí)踐課程的同時(shí)積極探究校企合作的方式,為學(xué)生爭取更多的企業(yè)實(shí)踐機(jī)會,重點(diǎn)定位在北上廣深等一線城市的IT/互聯(lián)網(wǎng)和通信/電子行業(yè),為學(xué)生提供從實(shí)踐中提升各項(xiàng)能力的機(jī)會,讓學(xué)生可以擁有更多的機(jī)會進(jìn)入企業(yè)鍛煉,將課堂上的理論知識應(yīng)用到實(shí)踐中。