練佳熠
摘要:隨著科技的發(fā)展,許多技術應運而生,對人們的生活和工作產(chǎn)生了巨大影響。目前,隨著高校對于社會需要的重視,越來越多的高校開始關注學校的就業(yè)政策,并且積極運用數(shù)據(jù)倉庫技術。在高效的就業(yè)決策中,因為數(shù)據(jù)倉庫技術的運用,高校的就業(yè)變得更加高效。因此,該文就數(shù)據(jù)倉庫技術在高校中的應用情況進行研究,并提出一些想法。
關鍵詞:數(shù)據(jù)倉庫技術?高等院校?就業(yè)決策?應用研究
中圖分類號:??TP311.1???文獻標識碼:A???文章編號:1672-3791(2022)07(b)-0000-00
隨著社會的進步發(fā)展,高校的就業(yè)也成為各大學生重要關注的話題。為了促進高校學生就業(yè),了解學生就業(yè)的想法,對于工作的選擇因素等,高校漸漸采用了數(shù)據(jù)倉庫技術,以便促進高校就業(yè)的有效性。通過建立以就業(yè)為主題的多維數(shù)據(jù)庫,許多高校漸漸分析出學生就業(yè)的一些情況,為學校的就業(yè)宣傳,專業(yè)設置等提供數(shù)據(jù)支持。
1?數(shù)據(jù)倉庫簡介
20世紀80年代,科學家第一次提出數(shù)據(jù)倉庫的概念,認為數(shù)據(jù)倉庫是“面向主題的,繼承的數(shù)據(jù)集合”。數(shù)據(jù)倉庫還具有隨時變化的特點,可以用于存儲大量的歷史數(shù)據(jù)[1]。對于決策人員來說,數(shù)據(jù)倉庫雖然看起來沒有意義,但其實在具體的實際運用中,卻能夠?qū)崿F(xiàn)用戶快捷迅速地查找和分析。相比SQL技術,倉庫數(shù)據(jù)可以提供有效的數(shù)據(jù),并且將其展示在決策人員面前。這將很大程度上促進數(shù)據(jù)的有效性和實用性,為決策人員的決策有著積極的影響作用。一般而言,數(shù)據(jù)倉庫數(shù)據(jù)具有以下特點。
首先,數(shù)據(jù)倉庫直接面向主題。基于對數(shù)據(jù)分析的驅(qū)動,與傳統(tǒng)的數(shù)據(jù)驅(qū)動不同,數(shù)據(jù)倉庫可以以優(yōu)化事務的方式來構(gòu)造數(shù)據(jù)。這對于某個處于不同事物數(shù)據(jù)庫的主題數(shù)據(jù)而言,是非常不利于決策者進行決策的。但這也并不意味著數(shù)據(jù)處理需要基于某個主題的數(shù)據(jù)去訪問許多不同數(shù)據(jù)庫中的數(shù)據(jù)集合,而是數(shù)據(jù)倉庫會直接將這些數(shù)據(jù)集中在一個地方,使決策者可以直接合理地檢索到數(shù)據(jù)倉庫中某一主題的所有數(shù)據(jù)。這不僅有利于數(shù)據(jù)的分析,同時也能為決策者節(jié)省大量的時間,實現(xiàn)數(shù)據(jù)的高效處理。
其次,數(shù)據(jù)倉庫具有數(shù)據(jù)的集成性,可以有效而全面地分析數(shù)據(jù)。一般而言,相關數(shù)據(jù)收集得越完整,決策處理出的結(jié)果就更加具有可靠性。然而,在許多企業(yè)等內(nèi)的業(yè)務數(shù)據(jù)庫中,許多數(shù)據(jù)處理都是分散型而非集成的。這使得數(shù)據(jù)處理更加繁瑣,不利于數(shù)據(jù)處理的高效性[2]。這許多都是因為數(shù)據(jù)不一致,或者有非結(jié)構(gòu)化數(shù)據(jù)等原因所導致的。要實現(xiàn)集成,就必須要對數(shù)據(jù)進行準確到位的清洗,甚至去轉(zhuǎn)化一些數(shù)據(jù)。這并不是說靜態(tài)的集成,而是一個動態(tài)的集成過程。雖然靜態(tài)的集成數(shù)據(jù)也可以集成,但是一旦數(shù)據(jù)發(fā)生了變化,原先的集成就失去了意義,因此,必須是基于動態(tài)的集成去處理數(shù)據(jù)。而數(shù)據(jù)倉庫就是實現(xiàn)了動態(tài)的集成,通過將一定周期的數(shù)據(jù)進行刷新,從而為決策者更新最新的數(shù)據(jù),使決策者做出準確及時的決策。
除此之外,倉庫數(shù)據(jù)的數(shù)據(jù)還具有穩(wěn)定性,并且也能隨著時間的變化而變化。在數(shù)據(jù)倉庫中,許多數(shù)據(jù)一旦被寫入了便沒有辦法再進行改變,這非常不利于決策者的決策調(diào)整。所以,可以將數(shù)據(jù)倉庫看作一個虛擬的只能讀取的系統(tǒng),且數(shù)據(jù)倉庫的數(shù)據(jù)存儲也是以分批的形式進行。這使得數(shù)據(jù)倉庫可以定期提取并且增加數(shù)據(jù)的記錄。只是一旦有數(shù)據(jù)進入,其痕跡就不能被刪除,也就是數(shù)據(jù)會一直存在。所有的用戶都只能以讀的形式去訪問整個數(shù)據(jù)倉庫,而不需要在開發(fā)讀寫上耗費精力[3]。同時,因為數(shù)據(jù)只能增加也無法刪除,這使得數(shù)據(jù)擁有了時間維度。其實,數(shù)據(jù)倉庫就是基于記錄系統(tǒng)去進行聯(lián)結(jié),將記錄系統(tǒng)中各個的瞬態(tài)聯(lián)結(jié)成動畫,使其能夠展現(xiàn)出系統(tǒng)的整個運動過程。
2?總體架構(gòu)設計
一般而言,倉庫數(shù)據(jù)的系統(tǒng)總體構(gòu)架主要為源系統(tǒng)和數(shù)據(jù)集等。在高校就業(yè)中使用數(shù)據(jù)倉庫,就是將就業(yè)系統(tǒng)的數(shù)據(jù)經(jīng)過清洗,轉(zhuǎn)換的過程,然后加入到數(shù)據(jù)倉庫中。經(jīng)過數(shù)據(jù)倉庫的數(shù)據(jù)再經(jīng)由前端數(shù)據(jù)進行瀏覽和分析,并最終形成用戶對數(shù)據(jù)的分析處理[4]。這樣可以讓用戶很快地了解數(shù)據(jù),并且基于數(shù)據(jù)進行決策,從而提升決策的質(zhì)量和效率。一般而言,數(shù)據(jù)倉庫的系統(tǒng)主要包括4個層次的結(jié)構(gòu)。
2.1數(shù)據(jù)源
這是整個數(shù)據(jù)倉庫系統(tǒng)的基礎,可以為整個系統(tǒng)提供數(shù)據(jù)。無論是企業(yè)內(nèi)部還是外部系統(tǒng)的數(shù)據(jù),都可以在數(shù)據(jù)源中進行存放。
2.2數(shù)據(jù)的存儲和管理
數(shù)據(jù)存放和管理可以保證數(shù)據(jù)的穩(wěn)定性,為數(shù)據(jù)處理提供多時間維度的數(shù)據(jù)。一般而言,數(shù)據(jù)倉庫的數(shù)據(jù)組織管理和傳統(tǒng)的數(shù)據(jù)庫非常不同。這也決定了數(shù)據(jù)倉庫的核心是基于外部數(shù)據(jù)的形式去決定的。通過外部數(shù)據(jù)形式的情況,去合理搭建產(chǎn)品和技術去構(gòu)建數(shù)據(jù)倉庫的核心,這不僅需要對于數(shù)據(jù)倉庫的了解分析,同時也能實現(xiàn)對于數(shù)據(jù)的合理清洗,集成等。尤其是可以按照主題進行組織,為數(shù)據(jù)倉庫的數(shù)據(jù)范圍提供合理的組織形式,這非常有利于企業(yè)對于數(shù)據(jù)的管理。
2.3?OLAP服務器
通過有效集成需要分析的數(shù)據(jù),OLAP數(shù)據(jù)可以組織出多維模型,以實現(xiàn)數(shù)據(jù)倉庫的多角度多層次分析。同時,還可以基于分析去合理判斷數(shù)據(jù)的趨勢,以便決策者做出決策。一般而言,數(shù)據(jù)趨勢的實現(xiàn),可以具體分為3種情況。其中,ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)都存儲在數(shù)據(jù)源ROBMS里面,而MOLAP則在多維數(shù)據(jù)庫里存放,HOLAP的基本數(shù)據(jù)放進ROBMS里面,而聚合數(shù)據(jù)則放于多維數(shù)據(jù)庫。
2.4?前端工具
前端工具主要在各種報表工具,數(shù)據(jù)挖掘工具等里面。其中,數(shù)據(jù)分析工具主要與OLAP相聯(lián)系,而數(shù)據(jù)挖掘工具等主要和數(shù)據(jù)倉庫相聯(lián)系。
3?面向就業(yè)主題的數(shù)據(jù)倉庫
高效的就業(yè)分析主要以學生的成績等,實習情況等來進行分析,從而預測出高校畢業(yè)生的就業(yè)情況?;跀?shù)據(jù)倉庫分析處理出的數(shù)據(jù),學??梢圆扇∫幌盗写胧﹣泶龠M學校高效的就業(yè),比如調(diào)整招生計劃、合理調(diào)整畢業(yè)分配、關于高校就業(yè)的宣傳等。
3.1就業(yè)主題的數(shù)據(jù)倉庫模型設計
數(shù)據(jù)倉庫的模型分為星架型和雪花型架構(gòu)。星架構(gòu)有事實表和維度表兩部分,它是一種用來表示關系的數(shù)據(jù)庫架構(gòu)。通過事實表和維度表,可以很好地表示一對多的關系。而雪花架構(gòu)是一種表示關系的數(shù)據(jù)架構(gòu),也有事實表和維度表兩部分。通過事實表和維度表,可以很好地構(gòu)成數(shù)據(jù)倉庫模型的基本設計,實現(xiàn)用戶對于數(shù)據(jù)的模型構(gòu)建。兩者模型的不同點在于,雪花模式可以實現(xiàn)數(shù)據(jù)更好地規(guī)范化,能夠減少數(shù)據(jù)的冗雜,為數(shù)據(jù)倉庫節(jié)省空間。然而,這也可能導致雪花結(jié)構(gòu)瀏覽性能的降低,無法像星架型結(jié)構(gòu)的數(shù)據(jù)一樣為決策者提供大量的數(shù)據(jù)支持。而高校就業(yè)的數(shù)據(jù)量龐大,不僅需要數(shù)據(jù)倉庫去分析處理相關數(shù)據(jù),同時也需要實現(xiàn)對于數(shù)據(jù)的瀏覽功能。而星形模式的數(shù)據(jù)倉庫就可以彌補雪花模式瀏覽性能不足的缺陷,為更多的數(shù)據(jù)瀏覽提供穩(wěn)定且快速的數(shù)據(jù)支持[5]。因此,在高校就業(yè)的數(shù)據(jù)倉庫設計中,應該采用星形模式的數(shù)據(jù)倉庫,這樣才能有利于對于龐大數(shù)據(jù)的瀏覽。
3.2確定事實表
許多高校都具有許多事實數(shù)據(jù),根據(jù)維表的特點和分析的就業(yè)決策主題,高校就業(yè)數(shù)據(jù)倉庫的事實維表可以設置為15個維表,主要包括畢業(yè)年份、院系、計算機水平、性別、班級、地區(qū)、學位、學歷、實踐能力、專業(yè)、單位性質(zhì)等方面。其中,不同的維表代表學生不同的情況,而對于一些學校的具體特殊情況,學校也可以具體去調(diào)整自己的事實表維度,以便對該校學生就業(yè)情況的特殊原因以及情況分析。
3.3高校就業(yè)數(shù)據(jù)倉庫的ETL創(chuàng)建
KTL即是高校對數(shù)據(jù)的抽取、清洗和轉(zhuǎn)化、裝載。通過將數(shù)據(jù)抽取出來,數(shù)據(jù)倉庫可以排除掉一些數(shù)據(jù)的缺陷,并且去進行數(shù)據(jù)的轉(zhuǎn)換或者匯總,經(jīng)過清洗數(shù)據(jù)源中的數(shù)據(jù),可以按照之前預定好的數(shù)據(jù)倉庫模型,將數(shù)據(jù)加載到數(shù)據(jù)倉庫中。雖然整個過程很復雜,但卻是數(shù)據(jù)倉庫的重要內(nèi)容。
目前,許多高校都使用數(shù)據(jù)倉庫,并運用到就業(yè)系統(tǒng)中處理與就業(yè)有關的一些數(shù)據(jù)[6]。通過將考生的標準化成績、平時的表現(xiàn)、就業(yè)情況、學歷代碼等錄入到系統(tǒng)中,數(shù)據(jù)倉庫可以很好地去分析數(shù)據(jù)的差異,比如:不同年度同一專業(yè)的就業(yè)情況變化等?;诟鞣N數(shù)據(jù)的差異,數(shù)據(jù)倉庫可以很好地標準化學生就業(yè)的情況。只要標準化了就業(yè)情況,高校就很容易實現(xiàn)用戶對于數(shù)據(jù)的分析需求,從而更快地分析出適合該校就業(yè)的各種情況。通過標準化分數(shù),高??梢院芎玫亟鉀Q因為各種差異等所導致的就業(yè)情況影響。這樣不僅有利于各個考生的成績能夠更好地進行比較,同時也有利于高校更加迅速分析出職業(yè)與該校的適合程度,從而實現(xiàn)高效就業(yè)。
在標準化就業(yè)情況之后,系統(tǒng)還會對就業(yè)數(shù)據(jù)進行其他細節(jié)的處理,以便數(shù)據(jù)倉庫更加清晰的認識數(shù)據(jù),并且采取合適的行動[6]。首先,系統(tǒng)可以將標準化的數(shù)據(jù)增加年度屬性。一般而言,就業(yè)報到系統(tǒng)中的數(shù)據(jù)都是當年的就業(yè)情況,并沒有自帶年份。這不利于數(shù)據(jù)倉庫去分析不同年度的就業(yè)情況差異,無法很好地實現(xiàn)對于就業(yè)的年份差異。因此,在系統(tǒng)中加入對于學生就業(yè)的年代,可以增加其他年代學生的就業(yè)情況,從而促進高校更精準清晰地認識到學生的就業(yè)情況。具體而言,就是利用MS?DTS工具,可以將不同年代學生的就業(yè)情況進行匯總,并且得到最終的匯總表,以便數(shù)據(jù)分析處理。其次,在處理數(shù)據(jù)時,系統(tǒng)還可以為考生的生源地、畢業(yè)類型、就業(yè)地、職業(yè)等方面進行詳細的描述,以便高校深刻認識到學生的情況。
而在獲得了許多數(shù)據(jù)后,因為數(shù)據(jù)太多,一些數(shù)據(jù)可能存在不必要或者冗雜多余的情況。這時,就可以利用系統(tǒng),去合理清洗掉各種不需要的數(shù)據(jù),以便滿足數(shù)據(jù)倉庫對于數(shù)據(jù)的需求。比如:在“理工”“普通理科”等不同類別中,數(shù)據(jù)倉庫可以統(tǒng)一為其提供數(shù)據(jù)清洗,以便有效數(shù)據(jù)加載到數(shù)據(jù)倉庫中。只有將有效的數(shù)據(jù)加載到數(shù)據(jù)倉庫里,才能真正實現(xiàn)對于數(shù)據(jù)利用的高效性,從而實現(xiàn)對于數(shù)據(jù)倉庫的真正作用[7]。
5?基于數(shù)據(jù)倉庫的分析
在對數(shù)據(jù)倉庫進行分析時,可以采取多種手段從多方面進行處理。大部分時候,決策者都是希望通過圖形化的形式去查看和分析數(shù)據(jù),在這種形式下,可以通過Python的Numpy、Pandas、Keras等分析庫先對數(shù)據(jù)倉庫中的數(shù)據(jù)進行分析,再使用Matplotlib、Bokeh、echarts等技術對分析結(jié)果進行可視化展示,以此實現(xiàn)花費少量的時間精力就能得到數(shù)據(jù)分析的結(jié)果[8]。除此之外,數(shù)據(jù)倉庫還可以提供多維度的數(shù)據(jù)集,讓用戶能夠通過快速的轉(zhuǎn)換數(shù)據(jù)的行列來實現(xiàn)對于數(shù)據(jù)源的分析,幫助決策者進行決策[9]。
具體而言,在對考生成績進行分析時,決策者可以基于分析情況去合理處理學校的就業(yè)工作。比如:基于某一地區(qū)就業(yè)總?cè)藬?shù)的情況,決策者可以去調(diào)整當?shù)氐膹V告宣傳、工作人員數(shù)量調(diào)配等。如果就業(yè)人數(shù)多,便可以多做宣傳,加大工作人員的數(shù)量。如果就業(yè)人數(shù)少,則可以總結(jié)其原因,來改變就業(yè)的策略,以便下一年更好地就業(yè)。對于學生而言,就業(yè)的情況和學校有著很大關聯(lián)性,學校宣傳更加到位,與學生就業(yè)安排的相關工作人員越多,學生便更容易就就業(yè),學校的就業(yè)情況就會更好。因此,學校必須嚴格去分析數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫合理做出決策調(diào)整,以便高校更好地就業(yè)。
而在分析學生實習情況時,決策者便可以基于學生的實習時間,地點等去分析出考生的實習情況,通過比較不同地區(qū)不同專業(yè)學生的實習情況,合理分析出考生的就業(yè)意愿。這對于高校的就業(yè)工作、專業(yè)設置、課堂安排等都有著重要的作用,可以很好地促進學校教學資源和就業(yè)資源的合理安排等。
6?結(jié)語
總而言之,高校的就業(yè)工作離不開數(shù)據(jù)倉庫技術。對于學校而言,基于數(shù)據(jù)合理分析學生的就業(yè)情況,可以高效地提升學校的就業(yè)工作效率,同時也為學校的就業(yè)工作提供數(shù)據(jù)指導。通過將數(shù)據(jù)進行處理,比如:把學生就業(yè)情況進行標準化,并且進行合理的數(shù)據(jù)清洗等,就可以實現(xiàn)有效的數(shù)據(jù)加載到數(shù)據(jù)倉庫。之后,數(shù)據(jù)倉庫可以很好地實現(xiàn)對于就業(yè)情況的分析。最后決策者便可以基于數(shù)據(jù)倉庫的圖形化界面和多維度分析表格,去合理做出與就業(yè)相關的決策。無論是對于學生的成績,實習情況,還是未就業(yè)情況等,只要利用數(shù)據(jù)倉庫,高校都可以很好地分析并處理相關的數(shù)據(jù),而學校也可以基于此去合理調(diào)整工作安排。這不僅有利于高校掌握該校就業(yè)的情況,同時也能實現(xiàn)自身專業(yè)設置,學校課程設置甚至來年招生情況的安排,從而促進高校更好地進行發(fā)展。
參考文獻
[1] 楊仁懷,郎川萍,張麗霞.數(shù)據(jù)倉庫技術在高校招生工作中的應用研究[J].現(xiàn)代計算機:專業(yè)版,2014(6):72-76.
[2] 曾萍,韋杰.數(shù)據(jù)倉庫技術在高校信息化建設中的應用研究[J].軟件,2014,35(5):108-110.
[3] 劉衛(wèi)星.數(shù)據(jù)倉庫技術在高校信息系統(tǒng)中的應用研究[J].電子技術與軟件工程,2014(18):209-210.
[4] 張申.?數(shù)據(jù)倉庫技術在高校招生就業(yè)決策中的應用研究[D].北京:北京工業(yè)大學,2019.
[5] 張維國.數(shù)據(jù)倉庫技術在高校教務系統(tǒng)中的應用[J].福建電腦,2019,35(9):33-38.
[6] 王吉.淺析數(shù)據(jù)庫技術在高校畢業(yè)生就業(yè)管理工作中的應用[J].數(shù)字技術與應用,2020,38(2):52,54.
[7] 曾遠柔.大數(shù)據(jù)技術在高校信息管理系統(tǒng)中的應用策略研究[J].數(shù)字通信世界,2020(3):177.
[8] 張軍,王芬芬.數(shù)據(jù)倉庫技術在高校數(shù)據(jù)統(tǒng)計與分析系統(tǒng)中的應用研究[J].智能計算機與應用,2019,9(3):122-125.
[9] 虞水,季興東.數(shù)據(jù)倉庫技術在醫(yī)院信息管理及決策中的應用研究[J].智慧健康,2019,5(36):18-19.