• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于多選問題數(shù)據(jù)規(guī)約的特征集分析方法研究

      2018-02-03 11:10:54
      關(guān)鍵詞:規(guī)約降維選項(xiàng)

      [成都大學(xué) 成都 610106]

      引言

      多選問題又稱“多重響應(yīng)”,是調(diào)查分析中十分常見的數(shù)據(jù)形式,它被廣泛地應(yīng)用于各領(lǐng)域的調(diào)查問卷分析問題中。此類問題的實(shí)質(zhì)是反映研究對象各屬性的特征組合情況,而不能簡單地對各選項(xiàng)進(jìn)行獨(dú)立性分析。對多選問題的分析方法的研究具有重要的理論意義和現(xiàn)實(shí)意義。

      目前對于多選問題的研究不少。文獻(xiàn)[1]指出目前對多選問題數(shù)據(jù)資料的數(shù)據(jù)分析多限于頻數(shù)統(tǒng)計(jì)描述,簡單的統(tǒng)計(jì)描述顯然是不能夠挖掘出多選問題數(shù)據(jù)資料中的信息的。文獻(xiàn)[2]提出一系列多選問題分析方法,如回歸分析和方差分析等,但是在實(shí)際應(yīng)用中發(fā)現(xiàn)這兩種方法的分析效果并不是很好。文獻(xiàn)[3]提出了這兩種方法的缺陷:回歸分析要求變量的連續(xù)性,強(qiáng)行使用回歸分析法對多選問題進(jìn)行分析會使參數(shù)估計(jì)的有效性受到影響;方差分析要求觀察個體間相互獨(dú)立且方差相等,而在多選問題中數(shù)據(jù)之間并不獨(dú)立,從而導(dǎo)致統(tǒng)計(jì)檢驗(yàn)中犯第1類錯誤的概率增大。其次,通過對多選問題實(shí)際應(yīng)用情況調(diào)查發(fā)現(xiàn):國內(nèi)的幾家大型問卷調(diào)查網(wǎng)站,如問卷星、第一調(diào)查網(wǎng)、人人調(diào)查網(wǎng)等在對多選問題進(jìn)行統(tǒng)計(jì)處理時都是采用單項(xiàng)統(tǒng)計(jì)的方法。這種統(tǒng)計(jì)方法雖然簡單明了,但反映不了研究對象各相關(guān)屬性的特征組合情況。

      綜上所述,目前國內(nèi)對于多選問題的分析主要限于統(tǒng)計(jì)描述,對多選問題進(jìn)行深入分析的研究也只是對單個選項(xiàng)進(jìn)行獨(dú)立的單項(xiàng)分析,忽略了各選項(xiàng)之間的關(guān)聯(lián)信息。本文認(rèn)為多選問題類似于“購物籃”問題:受訪者選擇某個選項(xiàng)時就如同在超市購物一樣,選或不選、選一個或多個都存在著必然的聯(lián)系,在分析時對各選項(xiàng)之間的關(guān)聯(lián)信息的保留是很有必要的[4]。

      本文提出基于特征組合的多選問題分析方法。即每個選項(xiàng)代表多選問題的一個特征,多個特征組合構(gòu)成了一個多選問題。多選問題數(shù)據(jù)資料由特征組合的向量組成,由于特征組合集合維度過高容易出現(xiàn)“維度爆炸”問題。因此,提出了兩種規(guī)約(降維)方法,即避免了信息的損失,同時還能夠?qū)σ?guī)約結(jié)果做出合理的解讀?;谝?guī)約過后的特征組合分析方法不僅達(dá)到了對多選問題的分析目的,而且還考慮到了各選項(xiàng)之間的關(guān)聯(lián)信息。

      一、特征組合的規(guī)約方法

      在介紹規(guī)約(降維)方法前,需對多選項(xiàng)進(jìn)行組合和編碼(稱為選項(xiàng)特征組合),現(xiàn)對選項(xiàng)特征組合進(jìn)行定義如下:

      定義1假設(shè)某一多選問題A有n個選項(xiàng),若選則或者則稱多選問題A的選項(xiàng)特征組合為

      定義2假設(shè)某一多選問題A有m個對象Oi(i=1, 2, …m),Oi對多項(xiàng)選項(xiàng)的特征組合為Bi,則稱為多選問題A的選項(xiàng)特征組合集,簡稱為特征集。

      二、規(guī)約評價標(biāo)準(zhǔn)

      特征集規(guī)約(降維)的核心問題是特征評價標(biāo)準(zhǔn)[5]。對多選問題特征集的降維必須要達(dá)到兩方面的要求:一是要保證原有信息量有較少的損失;二是要能夠?qū)稻S過后的新維度給出合理的意義解讀。本文提出了同時兼顧這兩個因素的兩種特征組合降維方法有以下兩種:基于特征組合累計(jì)占比的降維方法和基于聚類算法的降維方法。

      三、規(guī)約方法

      (一)基于特征組合累計(jì)占比的規(guī)約方法

      一般地,對于多選問題其調(diào)查結(jié)果常常反映出受訪者對問題的選擇有很大的偏向性,即很大部分受訪者選擇了個別幾個選項(xiàng),其信息集中在幾種主要的特征組合上。這樣的調(diào)查資料可以利用基于特征組合累計(jì)占比的方式,對其進(jìn)行簡單合并達(dá)到降維的目的。

      方法1首先,以每種特征組合頻數(shù)大小來衡量其含有的信息量,做出所有特征組合的頻數(shù)累積表,選取累積頻率大于閾值K的排序前幾種特征組合,閾值K大小可根據(jù)數(shù)據(jù)背景意義和經(jīng)驗(yàn)規(guī)律決定(如80%等);其次,剩下的特征組合含有的信息量較少(累積頻率為1-K),而且其頻數(shù)太低不具有統(tǒng)計(jì)意義,但又具有必要的分析價值。采用歐式距離公式計(jì)算其與被選取的主要特征組合的距離,根據(jù)距離大小和特征組合的實(shí)際含義的進(jìn)行歸并,得到特征組合的降維結(jié)果[6]。

      例1利用文獻(xiàn)[7]中城市購房付款方式的調(diào)查數(shù)據(jù)對上述方法進(jìn)行分析,其設(shè)置的付款方式依次有:公積金貸款、按揭貸款、個人貸款、分期付款、一次付清5個屬性。

      由于由這5個屬性組成的特征組合的維度就可能有25種。維度太高就會使分析時的時間復(fù)雜度和空間復(fù)雜度變高,因此對原特征集降維很有必要。采用基于特征組合累計(jì)頻率占比的降維方法,首先做出其特征組合頻數(shù)累積表。如表1和圖1(橫坐標(biāo)數(shù)值分別表示表1的特征編碼,縱坐標(biāo)為累積頻率)所示。

      從表1和圖1可以看出,前8個特征組合的累積頻數(shù)就已經(jīng)達(dá)到了85.5%,而隨著特征組合的增加,累計(jì)頻數(shù)不再顯著提高。因此可以選取前8個特征維度作為保留特征集,采用歐式距離公式依次計(jì)算剩余的特征組合和前保留特征組合的距離,根據(jù)距離大小和特征組合的實(shí)際意義對剩余特征組合進(jìn)行歸并。

      表1 購房方式特征組合頻率累積表

      以第17個特征組合為例,對其進(jìn)行歸并,并解釋新特征的意義。依次計(jì)算第17個特征組合和前8個保留特征組合的距離得知,第17個特征組合和第6個特征組合(11001)距離最近,距離為。于是可以將第17個特征歸并到第6個特征中去形成新的特征維度,通過分析這個新的特征維度所包含的特征組合情況可以看出:新的特征維度代表了使用貸款方式一次性付清購房的這一類人群。且通過對剩余12個特征組合進(jìn)行歸并得知,其中最大的歸這也是K-mean聚類方法降維的好處。

      例2收集2013~2015年決策分析領(lǐng)域一些具有代表性的期刊和報告文獻(xiàn),設(shè)置了6種定量分析方法和9種數(shù)據(jù)展示技術(shù)。標(biāo)記出每篇文章所使用的定量的分析方法和數(shù)據(jù)展示技術(shù),最終標(biāo)記的有效文章共3880篇。每篇文章可以看作兩個多選問題,而6種定量分析方法和9種數(shù)據(jù)展示技術(shù)則是兩個多選問題的各自選項(xiàng)。以定量分析方法應(yīng)用情況的數(shù)據(jù)為例,首先篩選出使用了定量分析的2417篇文章,數(shù)據(jù)中設(shè)置的定量分析方法有6種,這樣數(shù)據(jù)維度可能達(dá)到26,于是采用基于聚類算法的方式進(jìn)行降維。初步分析樣本數(shù)據(jù)占比分析在每篇論文中的使用比例都比較高,因此可以將其視為共有信息,在進(jìn)行特征組合聚類時暫時將其剔除。于是選取5種較為典型的定量分析方法對其進(jìn)行特征組合降維。利用SPSS軟件,首先通過分層聚類確定聚類數(shù)目,然后再使用K-means算法對特征組合進(jìn)行聚類,最終聚類結(jié)果如表2所示。并聚類也不超過。因此,從此例中可以看出:基于特征組合累計(jì)占比的降維方法,既避免了信息的損失,同時還能對降維結(jié)果做出合理的解讀。

      圖1 購房方式特征組合累積頻率

      (二)基于聚類算法的規(guī)約方法

      對于問題選項(xiàng)設(shè)置較多,且受訪者在選擇上沒有太大的偏向性的情況。本文提出基于聚類算法的規(guī)約(降維)方法。“物以類聚,人以群分”,通過聚類方式使類間差異明顯,類內(nèi)具有較多的相似信息,這樣便有利于結(jié)果解讀和減少信息損失。

      方法2對于選項(xiàng)特征組合集數(shù)據(jù),選用基于分層聚類和K-means聚類兩種方法來完成[8]。首先,利用分層聚類得到聚類數(shù)目,再通過K-means聚類就可以得到效果理想的聚類結(jié)果,并且能夠?qū)γ糠N結(jié)果基于很好的解釋;其次,根據(jù)問題背景的分析的需要也可以直接選擇合適的K值進(jìn)行聚類,

      表2 分析方法聚類中心及其成員數(shù)目

      這樣數(shù)據(jù)從64維降到了3維。從聚類結(jié)果中可以大致看出新的特征維度代表的含義。第一類的特征組合主要代表使用了影響因素分析和其他建模分析一類的文獻(xiàn)。為了更好地對新的特征維度作出合理解釋并比較各維度之間的差異,可以對新的特征維度和原問題選項(xiàng)作交叉表分析。這時加入聚類時剔除的共有因子,作出6個分析特征與聚類結(jié)果的交叉表(如表3所示)。表3中篇數(shù)項(xiàng)代表原選項(xiàng)的選擇頻數(shù),聚類類別的統(tǒng)計(jì)量項(xiàng)代表聚類類別中選項(xiàng)的選擇占比,總計(jì)項(xiàng)代表選項(xiàng)的選擇占總體的百分比。從表3中可以看出:

      表3 定量分析方法與聚類結(jié)果交叉表

      第一類中比較分析、時序分析、預(yù)測分析的使用比例(50.7%)和其他建模分析使用比例(68.8%)均超過總體比例的0.66倍,兩者使用比例的提升度達(dá)到150%以上,因此可以將此類的特征組合解釋為因果型分析。

      第二類中時序分析使用比例(100%)和預(yù)測分析使用比例(17.6%)均超過總體比例2倍,兩者使用比例的提升度達(dá)到300%以上,因此將此類的特征組合解釋為預(yù)測型分析。

      第三類中只有占比分析(85.5%)和比較分析(62.2%)使用比例相對較高,其他分析方法的使用比例都相對較低,因此將此類的特征組合解釋為一般型分析。

      通過聚類算法將特征組合按照相似程度進(jìn)行分類,使各類中的特征組合擁有較多的共有信息,這樣能夠更好地給各類賦予其現(xiàn)實(shí)意義。同時類與類之間有明顯的信息差異,不同的聚類結(jié)果結(jié)合構(gòu)成多選問題的全部信息。這樣既避免了信息的損失,同時還能夠?qū)稻S結(jié)果給出很好的解讀。

      四、規(guī)約后的特征組合分析

      經(jīng)過特征組合規(guī)約(降維)后,數(shù)據(jù)已從復(fù)雜的高維空間降到低維空間。降維過后的特征組合數(shù)據(jù),既最大限度地保留了降維前的多選問題的信息,也考慮到了各選項(xiàng)之間的關(guān)聯(lián)信息。

      利用例2中降維過后的特征組合數(shù)據(jù),通過交叉表可以得到不同地域間使用定量分析方法的差異情況。首先按照傳統(tǒng)的方法分析,即用原來6個特征和地域因素進(jìn)行交叉表分析,結(jié)果如表4所示。

      表4 傳統(tǒng)定量方法的文獻(xiàn)篇數(shù)與地域交叉表分析

      從表4中可以看出:使用原始數(shù)據(jù)進(jìn)行交叉制表分析時,數(shù)據(jù)維度達(dá)到6維,過高過復(fù)雜的維度并不利于研究者描述分析;各行各列的百分比之和不等于100%,這不利于行列之間的相對比較;而且維度過高會導(dǎo)致維度之間的交互作用增加[9]。以上問題致使傳統(tǒng)的多選問題分析效果不理想。

      然而基于降維過后的特征組合分析方法可以有效地避免上述多選問題的分析缺陷。用上例中降維過后的3個特征維度和地域因素做交叉表分析。結(jié)果如表5、表6所示。從表5中可以看出卡方統(tǒng)計(jì)量對應(yīng)的概率P值接近于0,小于顯著性水平0.05,因此可以認(rèn)為不同地域間定量分析方法的應(yīng)用情況存在顯著性差異。

      表5 基于降維的分析方法篇數(shù)與地域特征組合交叉表

      表6 卡方檢驗(yàn)結(jié)果

      五、結(jié)束語

      在調(diào)查問卷分析等領(lǐng)域里,多選問題是經(jīng)常出現(xiàn)的形式之一?,F(xiàn)有的分析主要是針對多選項(xiàng)的各單選項(xiàng)進(jìn)行獨(dú)立的多項(xiàng)分析,忽略了各選項(xiàng)之間的關(guān)聯(lián)信息。本文提出了一種基于多選問題數(shù)據(jù)規(guī)約的特征集分析方法。通過累計(jì)比和聚類兩種數(shù)據(jù)規(guī)約(降維)方法,解決了特征組合的“維度爆炸”問題。本文提出的方法是有效的且具有實(shí)際應(yīng)用價值,對當(dāng)前對多選問題統(tǒng)計(jì)分析的提供了新的方法。進(jìn)一步的研究可以為設(shè)計(jì)多選問題的合理性和可信性等提供了技術(shù)支持。

      [1] 張文彤, 竺麗明, 鮑培芬, 等. 分類數(shù)據(jù)主成分分析法在多選題分析中的應(yīng)用[J]. 中國公共衛(wèi)生, 2004, 20(1): 124-125.

      [2] 史華俊. 市場調(diào)查中多項(xiàng)多選式題型的數(shù)據(jù)分析方法[J]. 浙江統(tǒng)計(jì), 2005(4): 47-49.

      [3] 王淑慧. 多響應(yīng)分類數(shù)據(jù)統(tǒng)計(jì)分析方法及其應(yīng)用[D].北京:北京工業(yè)大學(xué), 2012.

      [4] 李愛鳳. 于數(shù)據(jù)挖掘技術(shù)的購物籃模式研究[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2011, 28(12): 156-158.

      [5] 胡潔, 高維數(shù)據(jù)特征降維研究綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(9): 2601-2606.

      [6] 張煜東, 霍元鎧, 吳樂南, 等. 降維技術(shù)與方法綜述[J].四川兵工學(xué)報, 2010, 31(10): 1-7.

      [7] 薛薇. SPSS統(tǒng)計(jì)分析方法及應(yīng)用(第3版)[M]. 北京: 電子工業(yè)出版社, 2013, 90-91.

      [8] 周濤. 陸惠玲. 數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J]. 計(jì)算機(jī)工程與應(yīng)用, 2012, 48(12): 100-111.

      [9] 張朝雄, 多重應(yīng)答數(shù)據(jù)深度分析方法及其SPSS操作[J]. 市場研究, 2007(2): 33-37.

      [10] 許汝福, 張蔚, 尹全煥. 高維列聯(lián)表的交互作用[J].數(shù)理醫(yī)藥學(xué)雜志, 1996, 9(1): 62-64.

      [11] 伍藝, 劉后平. 農(nóng)民進(jìn)城意愿影響要素實(shí)證分析[J].浙江農(nóng)業(yè)學(xué)報, 2015, 27(7): 1266-1271.

      猜你喜歡
      規(guī)約降維選項(xiàng)
      混動成為降維打擊的實(shí)力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      電力系統(tǒng)通信規(guī)約庫抽象設(shè)計(jì)與實(shí)現(xiàn)
      一種在復(fù)雜環(huán)境中支持容錯的高性能規(guī)約框架
      一種改進(jìn)的LLL模糊度規(guī)約算法
      跟蹤導(dǎo)練(四)
      閱讀理解
      跟蹤導(dǎo)練(5)
      單項(xiàng)填空精選練習(xí)100道
      修辭的敞開與遮蔽*——對公共話語規(guī)約意義的批判性解讀
      威信县| 甘泉县| 哈巴河县| 刚察县| 寿光市| 古田县| 深水埗区| 遂川县| 瑞丽市| 赤城县| 格尔木市| 辉南县| 吉隆县| 福泉市| 康平县| 太仓市| 阳新县| 长宁区| 台湾省| 皋兰县| 塘沽区| 景宁| 互助| 宁波市| 峨边| 电白县| 府谷县| 阿尔山市| 遵义市| 嘉鱼县| 冕宁县| 柘荣县| 舟山市| 福鼎市| 龙游县| 平舆县| 贺州市| 宝兴县| 浑源县| 屯留县| 于都县|