陳星宇,周 展,黃俊文,陶 達
1) 深圳大學管理學院,廣東深圳 518060;2) 深圳大學人因工程研究所,廣東深圳 518060
【電子與信息科學 / Electronic and Information Science】
基于關(guān)鍵詞挖掘的客戶細分方法
陳星宇1,周 展1,黃俊文1,陶 達2
1) 深圳大學管理學院,廣東深圳 518060;2) 深圳大學人因工程研究所,廣東深圳 518060
提出一種基于關(guān)鍵詞的數(shù)據(jù)挖掘方法對客戶群進行細分,采用自然語義處理的方法從原始客戶信息文本中提取客戶特征關(guān)鍵詞.再通過人工標記一些與內(nèi)在特征維度相關(guān)的關(guān)鍵詞,基于這些關(guān)鍵詞找到特征客戶.最后以特征客戶作為訓(xùn)練集,獲得更多關(guān)于某個維度內(nèi)客戶特征的關(guān)鍵詞,再進行新一輪的客戶細分.經(jīng)此模式學習過程,得到基于內(nèi)在特征維度的客戶細分群體.通過與采用隨機選擇特征關(guān)鍵詞的基準化方法進行自動客戶細分結(jié)果對比,發(fā)現(xiàn)采用基于關(guān)鍵詞數(shù)據(jù)挖掘的自動客戶細分結(jié)果得到的準確度更高,結(jié)果更穩(wěn)健.
人工智能;自然語言處理;知識工程;客戶細分;關(guān)鍵詞挖掘;客戶特征;數(shù)據(jù)挖掘
對企業(yè)來說,單純地滿足客戶需求,強調(diào)為所有客戶提供同樣優(yōu)質(zhì)的服務(wù),可能使企業(yè)不能將有限的資源恰當?shù)剡\用到有價值的客戶身上,企業(yè)的努力很可能事倍功半.因此,企業(yè)需要區(qū)別對待客戶,客戶細分是客戶關(guān)系管理中基礎(chǔ)性的重要內(nèi)容[1].
客戶細分指根據(jù)行為和偏好等因素從群體中識別出特定客戶的建模方法.在概念上,客戶細分是將客戶分為有相似行為方式或需求的客戶子集的過程[2].不同于傳統(tǒng)的市場細分理論[3],客戶細分方法可管理大量的客戶特征屬性,并且基于特定數(shù)據(jù)維度進行細分.細分方法的選擇取決于研究的具體目標[4].
客戶細分方法通常包括以下步驟[5]:① 數(shù)據(jù)確定與收集;② 不同來源數(shù)據(jù)的整合及預(yù)處理;③ 開發(fā)細分的數(shù)據(jù)分析方法;④ 建立關(guān)于細分的相關(guān)業(yè)務(wù)部門(如市場營銷和客戶服務(wù))之間的有效溝通;⑤ 利用應(yīng)用程序處理數(shù)據(jù),并為程序提供的信息作出反饋等.
以往關(guān)于客戶細分技術(shù)可分為監(jiān)督和無監(jiān)督兩種.聚類分析法是常見的無監(jiān)督客戶細分技術(shù),它包括一組不同的技術(shù).給定一組選定的細分變量,利用這些技術(shù)將個體匯總成群體.每個群體中包含著最相似的個體,且這些個體與其他群體并無關(guān)聯(lián).基于客戶數(shù)據(jù)之間模糊距離的聚類客戶數(shù)據(jù)分析可得到比其他方法更有效的市場細分結(jié)果[6].另一種常見的無監(jiān)督方法是聯(lián)合分析[7],它通過評估擁有不同屬性層面的替代品的秩或者總價值進行整體信息判斷,并通過回歸、層次貝葉斯模型或線性規(guī)劃來估計單屬性值函數(shù)的離散水平來實現(xiàn)細分[8].此外,科霍南映射或者自組織映射也被廣泛用于降維和聚類,同時也用于多維數(shù)據(jù)的各種應(yīng)用[9].其他人工智能技術(shù),包括模擬退火算法[10]、神經(jīng)網(wǎng)絡(luò)[11]和遺傳算法[12]也被用到無監(jiān)督客戶細分方法中.相比無監(jiān)督聚類方法,監(jiān)督分類方法要求在進行分類前為每一類生成代表性的參數(shù),而無監(jiān)督方法會自動從數(shù)據(jù)集中識別集群.常見的監(jiān)督分類方法有線性判別分析(linear discriminant analysis, LDA)[13]、k鄰近法[14]和決策樹法[15]等.無監(jiān)督方法在進行數(shù)據(jù)分類時只有少量的先驗知識,或者在分類過程中需要避免主觀性時才非常實用[16].若監(jiān)督條件可被滿足,也就是說,導(dǎo)出分類規(guī)則所需要數(shù)據(jù)點的成員能夠闡明集群的一般結(jié)構(gòu),則監(jiān)督數(shù)據(jù)更加準確[17].
然而,上述監(jiān)督和無監(jiān)督客戶細分技術(shù)都不能很好的基于客戶內(nèi)在特征做細分.因為客戶的內(nèi)在特征通常是抽象模糊的,通過準確的詞語(特征)來描述客戶的內(nèi)在特征(如客戶的生活方式、價值觀和個性等)也非常困難.同時,網(wǎng)絡(luò)傳播語言的抽象性[18]也使這些數(shù)據(jù)更加難以處理.此外,基于這些抽象維度將客戶手動劃分為不同群體更是一項繁冗的工作.為此,本研究提出一種基于關(guān)鍵詞的數(shù)據(jù)挖掘方法,針對客戶的內(nèi)在特征對客戶進行細分,既避免了無監(jiān)督分類方法準確度欠佳的問題,又解決了監(jiān)督分類方法對數(shù)據(jù)要求較高的問題,且保證了低成本和高準確率.
本研究提出的模型包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、基于關(guān)鍵詞挖掘的客戶分類及方法評估4部分,如圖1.
圖1 基于關(guān)鍵詞的客戶細分框架Fig.1 Keyword-based customer segmentation framework
1.1 客戶數(shù)據(jù)收集
由于在線數(shù)據(jù)中包含了大量客戶信息,因此本研究選取亞馬遜購物網(wǎng)站(https://www.amazon.cn)用戶數(shù)據(jù)作為輸入.首先從此網(wǎng)站的注冊用戶中,選取在近3個月中進行過交易的1萬名中國用戶,再從這1萬個用戶中隨機篩選出600名用戶作為樣本用戶,最后從這600名用戶的個人資料里提取出自我描述部分的文本數(shù)據(jù),組成本研究的樣本數(shù)據(jù)集.對于這600個樣本數(shù)據(jù),取其中500名用戶的數(shù)據(jù),利用本研究提出的模型進行分類,其余100名用戶的數(shù)據(jù)則用作測試數(shù)據(jù).
1.2 數(shù)據(jù)預(yù)處理
預(yù)處理階段,本研究應(yīng)用自然語言處理將整個文本按照名詞、動詞和形容詞標簽分割成小的詞匯單位[19].例如,某客戶自我描述是:“我是一個家庭主婦.我的享受生活的方式是成為饑餓的浪漫讀者,所以我癡迷于亞馬遜網(wǎng)站.我非常享受安靜的時間,閱讀是我最喜歡的愛好之一.”通過基于自然語言處理的預(yù)處理分析,則變成了下面的語法單元:((主語(名詞性物主代詞“我”))(謂語(系動詞“是”))(賓語(定冠詞“一個”)(名詞“家庭主婦”))(主語(形容詞性物主代詞“我的”)(名詞“享受生活的方式”))(謂語(情態(tài)動詞“是”)(動詞“成為”))(狀語(形容詞“饑餓的”))(賓語(名詞“浪漫”)(名詞“讀者”))(狀語(連接詞“所以”)(主語(名詞性物主代詞“我”))(狀語(介詞短語“當然”))(謂語(動詞短語“癡迷于”))(賓語(名詞“亞馬遜網(wǎng)站”))(主語(名詞性物主代詞“我”))(狀語(副詞“非常”))(謂語(動詞“享受”))(狀語(形容詞“安靜的”))(賓語(名詞“時間”))(主語(動名詞“閱讀”))(謂語(系動詞“是”))(賓語(名詞性物主代詞“我”)(形容詞“最喜歡的”)(名詞“愛好”)(介詞短語“之一”))))僅帶有名詞、動詞和形容詞標簽的詞匯單元才被收集為關(guān)鍵詞.冠詞和描述性的形容詞,如“一個”、“許多”和“幾個”都被刪除.基于與特定領(lǐng)域相關(guān)的候選關(guān)鍵詞,從客戶數(shù)據(jù)中生成關(guān)鍵詞,如“家庭主婦”、“享受”、“饑餓的”、“浪漫”、“讀者”、“癡迷”、“亞馬遜”、“享受”、“安靜”、“時間”、“閱讀”、“最喜歡”和“愛好”等.
1.3 基于關(guān)鍵詞挖掘分類的4個步驟
1.3.1 關(guān)鍵詞定義
根據(jù)客戶樣本數(shù)據(jù)中生成的關(guān)鍵詞,基于客戶內(nèi)在特征的角度,從客戶的參與(使用頻率和使用時間等)、客戶的認知(職業(yè)和經(jīng)歷等)以及客戶的情感(熱愛和好奇等)3個方面將關(guān)于客戶內(nèi)在特征的關(guān)鍵詞分為3個維度.分別選取3位網(wǎng)站管理者(在亞馬遜中國區(qū)客戶經(jīng)理職位上有3年以上工作經(jīng)歷)、3位網(wǎng)站老用戶(在亞馬遜網(wǎng)站使用時間3年以上,同時使用亞馬遜頻率很高且經(jīng)常有反饋的用戶),以及3位數(shù)據(jù)挖掘?qū)<?在亞馬遜網(wǎng)站從事文本數(shù)據(jù)挖掘工作3年以上的工程師)作為領(lǐng)域?qū)<?,從上?個維度手動預(yù)定義相關(guān)關(guān)鍵詞,最后確定了如表1的40個預(yù)定義關(guān)鍵詞.
表1 每個客戶特征維度的特征關(guān)鍵詞
1.3.2 定義代表客戶
定義代表客戶為在客戶的自我描述數(shù)據(jù)中某一維度的關(guān)鍵詞詞頻大于1的客戶.通過此定義,500名客戶中有158人被選為代表客戶,這些代表客戶相當于自我描述中出現(xiàn)第1步中預(yù)定義的特征關(guān)鍵詞頻率較高的人.同時,發(fā)現(xiàn)在大多數(shù)的代表客戶中,出現(xiàn)關(guān)鍵詞的詞頻大于3,說明基于上述定義的識別代表客戶的標準,識別準確率較高.
1.3.3 標識代表客戶數(shù)據(jù)
找出代表客戶后,通過標識代表客戶數(shù)據(jù)中的預(yù)定義特征關(guān)鍵詞進行關(guān)鍵詞挖掘.具體操作為:
1) 在代表客戶數(shù)據(jù)中標識出相應(yīng)維度的預(yù)定義關(guān)鍵詞.首先,分別確定用于區(qū)分不同維度的相應(yīng)標識(本研究通過不同顏色來標識,紅色為維度1;藍色為維度2;黃色為維度3).然后,在代表客戶的自我描述數(shù)據(jù)中將相應(yīng)維度的預(yù)定義關(guān)鍵詞標識出來,作為下一步進行機器學習的范例.
3)在挖掘出的關(guān)鍵詞數(shù)據(jù)集中選擇出至少出現(xiàn)3次的關(guān)鍵詞.初步選出相應(yīng)維度的數(shù)據(jù)集后,在每個數(shù)據(jù)集中進行詞頻分析,剔除出現(xiàn)頻率少于3次的關(guān)鍵詞后,得到更精確的數(shù)據(jù)集.
此關(guān)鍵詞挖掘過程,既通過預(yù)定義關(guān)鍵詞保證了挖掘的準確性,又利用了機器學習的自動化過程實現(xiàn)快速高效地挖掘出大量關(guān)鍵詞.經(jīng)此過程,更多的關(guān)鍵詞被挖掘出來,如表2.
表2 每個維度中挖掘出的特征關(guān)鍵詞
1.3.4 運用特征關(guān)鍵詞進行客戶分類
基于近鄰法和客戶特征指數(shù)(客戶自我描述數(shù)據(jù)與3個維度的特征關(guān)鍵詞的匹配程度),利用第1步和第3步提取的關(guān)鍵詞,將500個客戶分為8類,分別歸類為不同創(chuàng)新程度的用戶,具體為:
1)自我描述與特征關(guān)鍵詞完全不匹配的客戶(有1類客戶,記為類型A),此類型為最不具創(chuàng)新特征的用戶.
2)自我描述只與一個維度的特征關(guān)鍵詞匹配的客戶(有3類客戶,記為類型B、C和D),其創(chuàng)新性較低.
3)自我描述與兩個維度的特征關(guān)鍵詞匹配的客戶(有3類客戶,記為類型E、F和G),屬于創(chuàng)新性較好的用戶.
4)自我描述與3個維度的特征關(guān)鍵詞均匹配的客戶(有1類客戶,記為類型H),則屬于創(chuàng)新用戶.
實際上,在此分類中可以將用戶的某一特點(如創(chuàng)新性)進行更精細的分類,而非簡單的是與否分類,從而使企業(yè)在客戶細分時可更靈活地根據(jù)需求來選取細分類別.同時,該方法應(yīng)用性強,只要確定細分依據(jù)(創(chuàng)新、活躍和忠誠等),并選取相應(yīng)的刻畫維度,即可按照上述過程進行細分.
1.4 方法評估
方法評估有2個步驟:
第1步:檢驗自動分類法準確度和特征關(guān)鍵詞數(shù)量的關(guān)系.提供一組預(yù)定義的關(guān)鍵詞.然后,根據(jù)這組關(guān)鍵詞,利用本研究提出的自動分類方法生成不同的客戶分類.用自動分類的客戶類別數(shù)量與相應(yīng)的手動分類的客戶類別數(shù)量的匹配百分比來表示自動分類方法的準確度,比較自動分類和按同一標準進行手動分類的結(jié)果.關(guān)鍵詞挖掘的過程旨在發(fā)現(xiàn)更多關(guān)鍵詞,而自動分類法是通過關(guān)鍵詞挖掘產(chǎn)生新一組關(guān)鍵詞.所以,可通過計算新一組關(guān)鍵詞進行自動分類的準確度,再次比較自動分類的結(jié)果與手動分類結(jié)果,此過程一直持續(xù)到準確度值不再變化為止.這樣就可以得到以自動分類方法的準確度為縱軸,相應(yīng)的特征關(guān)鍵詞數(shù)量為橫軸的關(guān)系曲線,由此確定自動分類法準確度和特征關(guān)鍵詞數(shù)量的關(guān)系.若兩者正相關(guān),說明所提方法有助于提高自動分類的準確度.
第2步:比較自動分類和基準化方法[21]分類的結(jié)果.在關(guān)鍵詞挖掘過程中,把使用自動分類方法進行客戶細分的結(jié)果與使用基準化方法進行客戶細分的結(jié)果進行比較.基準化方法并未在分類開始就手動定義關(guān)鍵詞,也無關(guān)鍵詞挖掘過程,它對特征關(guān)鍵詞的選擇是隨意的.通過比較在不同數(shù)量的關(guān)鍵詞的情況下兩種分類方法的準確度,驗證基于關(guān)鍵詞挖掘方法的自動分類的效率.
本研究通過對手動分類(測試組)和系統(tǒng)自動分類的結(jié)果進行對比來檢驗本研究中客戶細分方法的可行性.隨機選定500個用戶,通過系統(tǒng)自動進行細分,而另外隨機選定100個用戶,通過同樣的細分標準進行手動分類,結(jié)果見表3.其中,匹配用戶數(shù)為在500位用戶自動分成8類以后,每一類中的用戶與手動分類出來的對應(yīng)類別中的用戶相匹配的數(shù)目;準確率即為匹配用戶數(shù)與手動分類的用戶數(shù)的比值.
由表3可見,不同客戶群體的平均精度達77.0%,表明大部分采用特征關(guān)鍵詞自動分類算法具有較高準確率,且與先前的只將用戶分為普通用戶和領(lǐng)先用戶的領(lǐng)先用戶理論相比,該客戶細分模型分類結(jié)果精確.此外,分類準確率隨著特征關(guān)鍵詞數(shù)量增加而上升,這進一步驗證本研究提出的分類方法的可行性和穩(wěn)健性.這項試驗從40個已定義的關(guān)鍵詞(表1)開始,在通過機器學習挖掘關(guān)鍵詞的過程中,分別選定含有60、80、100和120個關(guān)鍵詞的4組關(guān)鍵詞,并用這5組關(guān)鍵詞為測試組的100個用戶做客戶分類.客戶分類結(jié)果與手動分類結(jié)果比較如圖2.
表3 自動分類中每種客戶類型的準確率
圖2 關(guān)鍵詞挖掘和隨機選擇之間的結(jié)果比較Fig.2 Comparison of results from keyword mining and random selection
圖2展示了分別采用機器學習的關(guān)鍵詞挖掘方法和采用隨機選擇特征關(guān)鍵詞的基準化方法進行自動客戶細分結(jié)果.其中,采用隨機選擇特征關(guān)鍵詞的基準化方法的客戶細分方法的準確率計算過程為:通過基準化方法隨機選取出與關(guān)鍵詞挖掘方法數(shù)量一樣的關(guān)鍵詞;再使用與同樣的步驟計算出基于不同數(shù)量關(guān)鍵詞的分類結(jié)果的準確率,并將這一準確率作成折線圖.
由圖2實線可見,隨著從代表性客戶中學習的特征關(guān)鍵詞數(shù)量增加,采用自動分類方法的準確度亦明顯增加,未采用機器學習挖掘時準確度僅39%,而采用機器學習挖掘關(guān)鍵詞后最終的準確度達77%.結(jié)果表明,采用機器學習的關(guān)鍵詞挖掘方法較采用隨機選擇特征關(guān)鍵詞的基準化方法進行客戶細分結(jié)果更準確.
實證研究還表明,該模型能夠識別更多的創(chuàng)新客戶.在之前的研究中,領(lǐng)先用戶是通過那些已經(jīng)從相關(guān)角度所定義好的領(lǐng)先用戶特征來確定的.而在研究中,在所列出的3個內(nèi)在特征中有任意兩個顯示是高水平的話就將被確定為創(chuàng)新用戶.在所選客戶樣品中所識別的創(chuàng)新客戶的25%,高于基于傳統(tǒng)的問卷調(diào)查的研究提供的數(shù)據(jù)[22].此外,基于關(guān)鍵詞挖掘的客戶細分方法因所有數(shù)據(jù)均采集自互聯(lián)網(wǎng),可以非常低的成本找到狂熱的創(chuàng)新者(或領(lǐng)先用戶、創(chuàng)新用戶).
需要指出的是,本研究方法對非創(chuàng)新客戶識別的準確度僅為54.5%.這是因為本研究僅關(guān)注創(chuàng)新用戶的識別,對創(chuàng)新用戶識別的總準確率達86.8%,基本滿足相關(guān)公司選取創(chuàng)新用戶的需求.因此,依然可認為該細分模型在客戶細分和創(chuàng)新用戶識別上是成功的.下一步,將針對非創(chuàng)新用戶識別作深入探索,以進一步提高分類方法的準確性.
本研究提出一種基于關(guān)鍵詞的數(shù)據(jù)挖掘方法對客戶進行細分,通過對比采用關(guān)鍵詞數(shù)據(jù)挖掘分類方法的結(jié)果與采用人工分類及標桿進行分類的結(jié)果,發(fā)現(xiàn)所提方法能夠更準確地細分基于不同內(nèi)在特征的客戶群體.研究可供企業(yè)單位通過分析網(wǎng)上客戶數(shù)據(jù),定位潛在客戶群體,制定相應(yīng)的市場與新產(chǎn)品開發(fā)策略.
/ References:
[1] 王扶東,馬玉芳.基于數(shù)據(jù)挖掘的客戶細分方法的研究[J].計算機工程與應(yīng)用,2011,47(4): 215-218. Wang Fudong, Ma Yufang. Research of method for customer segment based on data mining[J]. Computer Engineering and Application, 2011, 47(4): 215-218.(in Chinese)
[2] Foedermayr E K, Diamantopoulos A. Market segmentation in practice: review of empirical studies, methodological assessment, and agenda for future research[J]. Journal of Strategic Marketing, 2008, 16(3): 223-265.
[3] Saliba S J, Turner R E. Marketing management: analysis, planning, implementation and control[M]. 8th ed. Philip K, Ronald E T. Scarborough, Canadian: Prentice-Hall, 1995.
[4] Tsiptsis K, Chorianopoulos A. Data mining techniques in CRM: inside customer segmentation[M]. Hoboken, USA: John Wiley & Sons, 2011.
[5] Liang Daolei, Chen Haibo. An online mall CRM model based on data mining[C]// Quantitative Logic and Soft Computing. Hangzhou, China: Springer International Publishing, 2017, 510: 599-606.
[6] Chan K Y, Kwong C K, Hu B Q. Market segmentation and ideal point identification for new product design using fuzzy data compression and fuzzy clustering methods[J]. Applied Soft Computing, 2012, 12(4): 1371-1378.
[7] Green P E, Carroll J D, Goldberg S M. A general approach to product design optimization via conjoint analysis[J]. The Journal of Marketing, 1981, 45(3): 17-37.
[8] Butler J C, Dyer J S, Jia Jianmin, et al. Enabling e-transactions with multi-attribute preference models[J]. European Journal of Operational Research, 2008, 186(2): 748-765.
[9] Rojanavasu P, Dam H H, Abbass H A, et al. A self-organized, distributed, and adaptive rule-based induction system[J]. IEEE Transactions on Neural Networks, 2009, 20(3): 446-459.
[10] Brusco M J, Cradit J D, Stahl S. A simulated annealing heuristic for a bicriterion partitioning problem in market segmentation[J]. Journal of Marketing Research, 2002, 39(1): 99-109.
[11] Ayoubi M. Customer segmentation based on CLV model and neural network[J]. International Journal of Computer Science Issues, 2016, 13(2): 31.
[12] Liu H-H, Ong C-S. Variable selection in clustering for marketing segmentation using genetic algorithms[J]. Expert Systems with Applications: an international Journal, 2008, 34(1): 502-510.
[13] Lee E-K, Cook D, Klinke S, et al. Projection pursuit for exploratory supervised classification[J]. Journal of Computational and Graphical Statistics, 2012, 14(4): 831-846.
[14] Duda R O, Hart P E. Pattern classification and scene analysis[M]. New York, USA: Wiley, 1973.
[15] Swain P H, Hauska H. The decision tree classifier: design and potential[J]. IEEE Transactions on Geoscience Electronics, 1977, 15(3): 142-147.
[16] Zou K H, Warfield S K, Bharatha A, et al. Statistical validation of image segmentation quality based on a spatial overlap index 1[J]. Academic radiology, 2004, 11(2): 178-189.
[17] Budayan C, Dikmen I, Birgonul M T. Comparing the performance of traditional cluster analysis, self-organizing maps and fuzzy c-means method for strategic grouping[J]. Expert Systems with Applications, 2009, 36(9): 11772-11781.
[18] 袁 兵,黃 靜, 曾一帆.網(wǎng)絡(luò)評論語言的抽象性對消費者品牌態(tài)度與購買意愿的影響——一項基于語言類別模型 (LCM) 的實證研究[J].營銷科學學報,2013(3):17-30. Yuan Bing, Huang Jing, Zeng Yifan. The effect of language abstraction in online reviews on consumer’s brand attitude and buying intention: an empirical research based on the linguistic category model (LCM)[J]. Journal of Marketing Science, 2013, 9(3): 17-30.(in Chinese)
[19] 陳星宇,黃俊文,周 展,等. 基于本體論的大數(shù)據(jù)下用戶需求表征[J]. 深圳大學學報理工版,2017,34(2):173-180. Chen Xingyu, Huang Junwen, Zhou Zhan, et al. Ontology-based user requirements representation in the context of big data[J]. Journal of Shenzhen University Science and Engineering, 2017,34(2): 173-180.(in Chinese)
[20] 張 潤,王永濱.機器學習及其算法和發(fā)展研究[J].中國傳媒大學學報自然科學版,2016,23(2):10-18. Zhang Run, Wang Yongbin. Research on machine learning with algorithms and development[J]. Journal of Communication University of China Science and Technology, 2016, 23(2): 10-18.(in Chinese)
[21] Davies J, Sure Y, Grobelnik M, et al. Automated knowledge discovery in advanced knowledge management[J]. Journal of Knowledge Management, 2005, 9(5):132-149.
[22] Lüthje C. Characteristics of innovating users in a consumer goods field: an empirical study of sport-related product consumers[J]. Technovation, 2004, 24(9): 683-695.
【中文責編:英 子;英文責編:子 蘭】
2016-11-30;Accepted:2017-03-18
Lecturer Tao Da. E-mail: taoda@szu.edu.cn
A keyword-based mining method for customer segmentation
Chen Xingyu1, Zhou Zhan1, Huang Junwen1, and Tao Da2
1) College of Management, Shenzhen University, Shenzhen 518060, Guangdong Province, P.R.China2) Institute of Human Factors and Ergonomics, Shenzhen University, Shenzhen 518060, Guangdong Province, P.R.China
We propose a novel customer segmentation method using keyword-based data mining approach. First, keywords about customer characteristics from original customer information are extracted by natural semantic processing. Then, keywords related to intrinsic characteristics are tagged. Based on the keywords, customers with the specific characteristics are identified. Finally, we use the identified customers as the training samples to obtain more keywords about the customer characteristics, and conduct a new round of customer segmentation. After the learning process, customer segmentation groups based on intrinsic characteristics are obtained. Compared with the benchmarking method of random selection of feature keywords for customer segmentation, the feasibility and validity of the proposed method are verified by a case study where a high level of accuracy rate and robustness is observed in the customer segmentation results.
artificial intelligence; natural language processing; knowledge engineering; customer segmentation; keyword mining; customer characteristics; data mining
:Chen Xingyu, Zhou Zhan, Huang Junwen, et al. A keyword-based mining method for customer segmentation[J]. Journal of Shenzhen University Science and Engineering, 2017, 34(3): 300-305.(in Chinese)
國家自然科學基金資助項目(71502111)
陳星宇 (1983—),女,深圳大學講師、博士.研究方向:新產(chǎn)品體驗及客戶需求管理.E-mail:celine@szu.edu.cn
TP 311
A
10.3724/SP.J.1249.2017.03300
Foundation:National Natural Science Foundation of China (71502111)
引 文:陳星宇,周 展,黃俊文,等.基于關(guān)鍵詞挖掘的客戶細分方法[J]. 深圳大學學報理工版,2017,34(3):300-305.