楊河清,陳天學
(首都經(jīng)濟貿(mào)易大學 勞動經(jīng)濟學院,北京 100072)
基于決策樹的勞動關系和諧度評判*
楊河清,陳天學
(首都經(jīng)濟貿(mào)易大學 勞動經(jīng)濟學院,北京 100072)
以勞資雙方簽訂集體合同的條件作為變量,通過Weka軟件進行決策樹分析,在勞動關系和諧度評判方法上,體現(xiàn)了勞動關系主體中勞資雙方的評判組合,這是雙方對勞動關系的心理契約的客觀反映,為判斷勞動關系和諧與否提供了一種科學的決策方法。
決策樹;勞動關系;和諧度
在已有的勞動關系和諧度的評判中,主要采用綜合灰色關聯(lián)度、構建指標體再進行實證分析、數(shù)理模型等方法,由于這些方法所采用的數(shù)據(jù)不包含勞資雙方對勞動關系的評價,所以這些方法能不能更客觀地反映勞動關系構成的主體——勞資雙方?特別是勞動者一方對勞動關系的和諧度的認知,這是值得探討的。
本文所討論的評判勞動關系和諧度 (只確認和諧與否,不設等級)的決策樹方法是建立在勞動者與雇傭者雙方各自判斷的基礎之上的,這個評判結(jié)果直接來源于勞動關系主體的自身感受。
這種評判方法的優(yōu)點在于可以針對不同的時間段,不同地區(qū),不同行業(yè)從業(yè)人員和雇用者雙方對勞動關系和諧性的認可作出快速判定。
決策樹 (decision tree)一般都是自上而下生成的。每個決策或事件 (即自然狀態(tài))都可能引出兩個或多個事件,導致不同的結(jié)果。
決策樹由決策結(jié)點、機會結(jié)點與結(jié)點間的分枝連線組成。決策樹是確定方案的一條簡捷的途徑。決策樹不僅可以幫助人們理解問題,還可以幫助人們解決問題。決策樹是一種通過圖示羅列解題的有關步驟以及各步驟發(fā)生的條件與結(jié)果的一種方法。近年來出現(xiàn)的許多專門軟件包可以用來建立和分析決策樹,這樣,利用這些專門軟件包,解決問題就變得更為簡便了。
表一的數(shù)據(jù)來自渥太華大學斯坦恩.馬特溫產(chǎn)業(yè)信息中心提供的勞動關系和諧度調(diào)查表,它概括了加拿大在 1987-1988年勞資協(xié)商得到的集體協(xié)議結(jié)果①Collective Bargaining Review,monthly publication,Labour Canada,Industrial Relations Information Service,Ottawa,Ontario,K1A 0J2,Canada,(819)997-3117,本數(shù)據(jù)集為加拿大當?shù)鼐用裨?987年到 1988年第一個季度的商業(yè)和服務業(yè)領域的全部集體勞動協(xié)議,涉及的員工類型包括中小學教師、護士、大學全體教職工、警察等,從業(yè)行業(yè)、雇用雙方種類等,達 500之多。這個數(shù)據(jù)集有 40個樣本作訓練集,還有 17個變量作測試集,這 57個集體協(xié)議數(shù)據(jù),就形成了本W(wǎng)eka研究的 57個案例 (instances)。在每個案例中,又有合同期、第一年工資增長等 17個屬性,其中一些未知或殘缺的值用問號來標記。
數(shù)據(jù)的準備工作:通過數(shù)據(jù)清理 (data cleaning)、數(shù)據(jù)變換 (data transfor mation)、數(shù)據(jù)歸約 (data reduction)后,類別分為:百分率、小時數(shù)、天數(shù)等數(shù)值型屬性, {無,高,低}、{無,全額,半額 }、 {有,無}、 {低,平均,高}、{無,半額,全額}、 {不和諧,和諧}等名詞性屬性。
表一 勞動關系和諧度調(diào)查表
設 S是訓練樣本的集合,其中每個樣本的類標號都是已知的,假設存在兩個類 P和 N,并且訓練集 S中包括 x個屬于類 P的記錄和 y個屬于類N的記錄。那么,用于確定記錄集 S中某個記錄屬于哪個類的所有信息量為:
假設使用變量D作為決策樹的根節(jié)點,把訓練集 S分為子類 {S1,S2,…,Sk},其中每個Si(i=1,2,…,k)中,包括 x1個屬于 P類的記錄和 y1個屬于類 N的記錄。那么,用于在所有的子類中分類的信息量為:Info(D,S)=
假設選擇變量D作為分類節(jié)點,那么它的信息增量值一定大于其他變量的信息增量值,變量D的信息增量為:Gain(D) =Info(S) -Info(A,S)。
由此可以給出信息增益函數(shù)的通用定義:
在本案例中,Info(S) =Info(37,20) =0.862“第一年工資”的所需的期望信息為 Info
=0.356,因此,“第一年工資”的信息增益為:
類似可得:Gain(合同期),Gain(住房補貼),Gain(養(yǎng)老金)等 16個字段的信息增益值。
由于“第一年工資”的信息增益值最大,因此,構造分類樹時,第一次分割選擇了第一年工資字段作為根結(jié)點分裂成兩個分支,然后把每個分支當作數(shù)據(jù)集 S,重復上述過程,進一步對每個分支進行分割,最終得決策樹如下:
圖一 勞動關系和諧度決策樹一
Weka存儲數(shù)據(jù)的格式是 ARFF(Attribute-Relation File Format)文件,這是一種 ASCII文本文件。表一中所示的二維表格轉(zhuǎn)換成 ARFF文件如下:
偽代碼:
@relation勞動關系和諧度調(diào)查表
@attribute合同期 numeric
@attribute第一年工資增長 numeric
@attribute第二年工資增長 numeric
@attribute第三年工資增長 numeric
@attribute住房補貼 {無,高,低}
@attribute每周工作時數(shù) numeric
@attribute養(yǎng)老金 {無,全額,半額}
@attribute加班費 numeric
@attribute晉升級差收入 numeric
@attribute培訓津貼 {有,無}
@attribute法定假日天數(shù) numeric
@attribute休假水平 {低,平均,高}
@attribute殘疾撫恤 {有,無}
@attribute牙療補助金 {無,半額,全額}@attribute喪亡撫恤金 {有,無}
@attribute保健 {無,半額,全額}
@attribute和諧與否 {不和諧,和諧}
@data
1,5,?,?,?,40,?,?,2,?,11,平均,?,?,yes,?,和諧
2,4.5,5.8,?,?,35,全 額 ,?,?,有 ,11,平均 ,?,全額 ,,全額 ,和諧
?,?,?,?,?,38,半額 ,?,5,?,11,高 ,有 ,半額 ,有 ,半額 ,和諧
3,3.7,4,5,低 ,?,?,?,?,有 ,?,?,?,?,有 ,?,和諧
3,4.5,4.5,5,?,40,?,?,?,?,12,平均 ,?,半額 ,有 ,半額 ,和諧
………………………………………………………………………
我們?yōu)榱说玫胶椭C與不和諧這兩種類型,對各屬性進行局部貪婪算法,出現(xiàn)了法定假期和每周工作時間兩個子節(jié)點,在子節(jié)點健康計劃出現(xiàn)有全額與沒有健康計劃都為不和諧的分類,從圖一中我們發(fā)現(xiàn),決策樹模型有 “過度擬合 (overfitted)”現(xiàn)象,特別是“全額”健康計劃反而成為不和諧因素。
定型數(shù)據(jù)中的細微差異過于敏感,冗余的工作時間和健康計劃造成的分叉較多,不利于分類器的模式識別,增加了分類器的結(jié)構復雜度以及分類的計算時間,將會降低和諧性識別的準確率,將會產(chǎn)生把其它與樣本數(shù)據(jù)稍有不同的案例,決策樹就會全都認為不屬于這個類別,于是不能進行正確分類。
圖一中的決策樹“過度擬合”現(xiàn)象的原因是由于我們使用 C4.5決策樹算法對勞動關系和諧度調(diào)查數(shù)據(jù)建立起分類模型,運用產(chǎn)生規(guī)則的時候采用了局部的貪婪方法,每次只選取一個屬性進行分析構造決策樹,所以它們在產(chǎn)生的分類規(guī)則時候就相當復雜,由于分類器過于復雜,則它可能會過于適應噪聲,從而導致過度擬合的問題。解決過度擬合的方法主要有兩種:提前停止樹的增長或者對已經(jīng)生成的樹按照一定的規(guī)則進行后剪枝。圖一中的決策樹降低了作為一個獨立的測試數(shù)據(jù)集時的性能,經(jīng)過 C4.5算法修剪后的決策樹如圖二:
圖二 勞動關系和諧度決策樹二
3.決策樹的測試及評估
由于本調(diào)查數(shù)據(jù)集既不是通過專家打分得到,也不是通過測量估算而來,因此適合于機器學習型軟件進行分析,特別適合于對二元選擇類型進行實驗設計。針對本數(shù)據(jù)集,利用不同的分析方法,從不同角度來進行研究的學者主要是英國學者伯格達羅 (Bergadano),馬特溫(Matwin),密切爾斯基 (Michalski),他們在格拉斯哥的歐洲工作會議上提出了概念定性研究,在北荷蘭 IS M IS’88會議上作了“基于學習法的擬合和結(jié)果不精確性分析”學術闡述。他們利用本案例采取機器學習法進行研究,在機器學習模擬上進行了探索性研究。魯?shù)?(Rudy Setiono)建立了前饋性神經(jīng)網(wǎng)絡進行了歸類研究,安德魯?shù)?Endre Boros)進行了 Logical回歸分析,奧亞(Oya Ekin)等建立的空間狀態(tài)模型也引用了此數(shù)據(jù)集。他們引用這個數(shù)據(jù)集,主要是為了說明計算方法和數(shù)學原理,但對勞動關系的內(nèi)容探討較少。
本案例運用 Weka軟件,采取 C4.5算法對57個案例進行決策樹分析,其中有 42個案例得到了正確的分類,準確率達到 73.6842%,評估是通過分層 10折交叉驗證得到的,在訓練集中有 14+28=42個協(xié)議合同被正確分類,在測試集中有 19+31=50個協(xié)議合同被正確分類,正確率達 87.7193%,混淆矩陣見表二:
表二 決策樹的混淆矩陣
因為 57個案例中的協(xié)議是由加拿大產(chǎn)業(yè)勞工談判代表最終認同結(jié)果,所涉及的各變量的具體數(shù)值,包括和諧與不和諧的各種變量,雖然每一個案例不能作為和諧不和諧的代表,但把整個數(shù)據(jù)集通過 C4.5的分類算法來計算信息熵 (information gain)后,就能歸納基本規(guī)律,找到?jīng)Q定因素,得出和諧與否的主要變量。使用信息增益進行屬性選擇,把具有高信息熵的變量作為節(jié)點,選擇具有最高信息增益的屬性作為給定集合就能形成決策樹。在訓練集中 28個案例在決策樹中屬于和諧變量,14個屬于不和諧變量,在分類正確率達 70%以上是可以被接受的。因此利用此決策樹來作為測量預處理協(xié)議和諧與否的模型具有可行性,本測試集中 31個和諧協(xié)議,19個不和諧協(xié)議被正確分類,實現(xiàn)了判定勞動關系協(xié)議和諧與否的正確分類。
協(xié)議是勞資雙方對勞動和諧與否的共同認可,協(xié)議的分類計算結(jié)果具有加拿大產(chǎn)業(yè)勞工談判代表意見的最高信息熵,因此決策樹是判定和諧勞動關系的重要工具之一,并能為決策者找到主要決定因素,在本例中,通過決策樹找出了在第一年工資增長大于 2.5%,且法定假期多于 10天為核心因素時能促成勞動關系和諧的邏輯結(jié)果。這樣,決策樹就直觀、清晰地表達了尋求決策方案的邏輯要求。
在判斷勞動關系和諧與否或選擇促進勞動關系和諧的方案時,可以利用圖二中勞動關系和諧度決策樹來進行決策,為了改善勞動關系,首先要保證第一年工資增長要高于 2.5%,否則勞動關系就不和諧,其次要保證多于 10天的法定假期,如果實在不能保證 10天的法定假期休息,那么就要保證第一年工資增長要高于 4%,這樣也能建立在勞資雙方共同滿意的勞動關系。
為了提取規(guī)則更淺顯明了,用簡明的偽代碼可寫作:
1.If第一年工資增長 >2.5%and法定假期>10 then勞動關系和諧
2.If法定假期 <10 and第一年工資增長 >4%then勞動關系和諧
利用決策樹的方法來解決勞動關系中的不和諧因素,可以獨立來考慮跨行業(yè)、跨地區(qū)、跨時期等因素的影響,在經(jīng)濟危機中,不同性質(zhì)的企業(yè),不同規(guī)模的公司,怎樣和職工一道克服困難?共度困難時期?與職工達成一條線,齊心合力險中取勝?這是作為決策者必須要考慮的課題。如果能借用決策樹這種數(shù)據(jù)挖掘的形式來研究勞動關系,就能在保持企業(yè)與職工心理契約曲線一致性的狀態(tài)下,幫助我們發(fā)現(xiàn)問題,解決問題,最終促進和諧勞動關系的發(fā)展。
[1]呂曉玲,謝幫昌 .數(shù)據(jù)挖掘方法與應用 [M].北京:中國人民大學出版社,2009.
[2]Ian H.W itten,Eibe Frank.數(shù)據(jù)挖掘?qū)嵱脵C器學習技術[M].北京:機械出版社,2006.
[3]Bergadano,F.,Matwin,S.,Michalski,R.,Zhang,J.,Measuring Quality of Concept Descriptions,Procs.of the 3rd European Working Sessions on Learning,Glasgow,October 1988.
[4]Rudy Setiono.Feedfor ward Neural Network Construction Using CrossValidation.Neural Computation,13.2001.
[5]Endre Boros and Peter Hammer and Toshihide Ibaraki and Alexander Kogan and EddyMayoraz and Ilya B.Muchnik.An Implementation ofLogicalAnalysis ofData.IEEE Trans.Knowl.Data Eng,12.2000.
[6]Oya Ekin and PeterL.Hammer and Alexander Kogan and Pawel W inter.Distance-Based Classification Methods.Report RUTCOR ffl Rutgers Center forOperations Research ffl RutgersUniversity.1996.
The Judges on the Harmony Degree of Labor Relations Based on Decision Tree
YANG Heqing,CHEN Tianxue
(Capital University of Econom ics and Business,Beijing,100026,China)
This article takes the conditions of reaching collective agreement between the laborers and the capital as the variables,using the decision tree analysis by the software ofWeka.This reflects a judge combination of both employers and employees,and this is an objective reflection of the psychological contract of both sides.This provides a scientific approach to decision making to judge har monious degree of labor relations.
decision tree;labor relations;harmony degree
F249.26
A
1673-2375(2010)01-0029-05
2009-11-20
楊河清 (1951—),男,北京人,中國人力資源開發(fā)研究會副會長、首都經(jīng)濟貿(mào)易大學勞動經(jīng)濟學院院長、教授、博士生導師;陳天學 (1971—),湖北荊門人,首都經(jīng)濟貿(mào)易大學勞動經(jīng)濟學院在讀博士生。
[責任編輯:寸 言]