(中遠(yuǎn)海運(yùn)集裝箱運(yùn)輸有限公司,上海 200080 )
當(dāng)今社會(huì),大數(shù)據(jù)分析已滲透到集裝箱運(yùn)輸業(yè)的各個(gè)方面。作為世界第三、中國(guó)第一的航運(yùn)企業(yè),透過(guò)客戶在我司留下的運(yùn)輸足跡,站在行業(yè)的高度,結(jié)合企業(yè)內(nèi)外部數(shù)據(jù),探究和發(fā)現(xiàn)數(shù)據(jù)背后的潛在規(guī)律和價(jià)值。
本文圍繞深入挖掘航運(yùn)數(shù)據(jù)背后的價(jià)值這一主題,選取我司在化工品和機(jī)電設(shè)備領(lǐng)域比較有代表性的兩家客戶(以下簡(jiǎn)稱客戶A和客戶B),應(yīng)用名詞解析和機(jī)器學(xué)習(xí)等技術(shù),分析其出運(yùn)貨物種類的特點(diǎn)及規(guī)律。筆者為本次數(shù)據(jù)分析制定了如下5個(gè)階段性目標(biāo),并分階段對(duì)其完成情況和意義進(jìn)行詳細(xì)闡述。①?gòu)目蛻鬉和客戶B著手,總結(jié)這兩家企業(yè)的關(guān)鍵出貨品類。②與這兩家公司外部公開的數(shù)據(jù)進(jìn)行匹配,觀察其在我司系統(tǒng)中申報(bào)的貨物品類和其公司主營(yíng)業(yè)務(wù)是否一致。③考察我司這些關(guān)鍵出貨品類的進(jìn)出口地點(diǎn)和量的變化趨勢(shì)。④將這種分析方法拓展到全公司,考察和這兩家公司運(yùn)輸相似貨物的客戶的貨流走向。⑤站在客戶的角度去思考,如何利用我司的資源和數(shù)據(jù)幫助客戶在其領(lǐng)域獲得成功。
從我司訂艙系統(tǒng)的源數(shù)中查找到這兩家客戶2015年7月至今的所有貨物數(shù)據(jù)。共計(jì)18 342條。結(jié)合這兩家公司及其子公司官網(wǎng)上的信息和我司系統(tǒng)中的SAP ID信息,梳理他們各自的主營(yíng)業(yè)務(wù)??蛻鬉的主營(yíng)商品種類主要涵蓋化工原料及其衍生產(chǎn)品,相對(duì)貨物品類較為集中;而客戶B則以機(jī)電設(shè)備、家用電器、電子電器、汽車配件為主。
首先對(duì)18 342條貨物數(shù)據(jù)的貨物描述進(jìn)行名詞拆解和分析,拆解到只留下最為關(guān)鍵最能描述貨物情況的名詞。然后對(duì)相同的名詞進(jìn)行分類匯總。
通過(guò)對(duì)貨物描述的名詞拆解和分析,得出以下結(jié)論。
1)HS CODE和OOCL_CMDTY_GRP都存在較高的缺失率,直接利用統(tǒng)計(jì)會(huì)丟失信息。
2)FULL_DESC不存在缺失,但數(shù)據(jù)質(zhì)量較難控制,從筆者通過(guò)自然語(yǔ)言文本分析手段拆出名詞來(lái)看,客戶A的品類集中度較高,主要集中在化學(xué)品和橡膠上,有利于后期關(guān)鍵詞提取,而客戶B的較分散,說(shuō)明客戶B的貨物關(guān)鍵詞提取難度更高。
3)HS CODE從統(tǒng)計(jì)結(jié)果看客戶B維護(hù)率較高,有助于后期輔助從FULL_DESC提取關(guān)鍵詞。
4)HS CODE和OOCL_CMDTY_GRP的缺失存在互補(bǔ)性,可以有助于后期輔助從FULL_DESC提取關(guān)鍵字。
通過(guò)這一階段的分析,確立了將客戶主營(yíng)業(yè)務(wù)和其貨物信息結(jié)合起來(lái)的方法,那就是用名詞拆解的手段來(lái)進(jìn)行同公司內(nèi)HS CODE交叉補(bǔ)全,利用HS CODE作為主鍵來(lái)區(qū)分不同的貨物種類。再用人工的方法和該公司的主營(yíng)業(yè)務(wù)匹配起來(lái)進(jìn)行貨物進(jìn)出口流向的分析和統(tǒng)計(jì)。
利用第二階段所建立的分析方法,筆者對(duì)18 342條貨物數(shù)據(jù)進(jìn)行了公司內(nèi)部的HS CODE交叉補(bǔ)全,并手工匹配了主營(yíng)業(yè)務(wù)。再結(jié)合我司系統(tǒng)中貨物的進(jìn)出口地完成了這兩家客戶的統(tǒng)計(jì)小結(jié),即完成了第三個(gè)階段性目標(biāo)。
1)拆出的名詞可能包含一些常用名詞,所以多于貨物信息分析需要結(jié)合多個(gè)關(guān)鍵字理解。
2)關(guān)鍵字存在單復(fù)數(shù)還未清洗,后續(xù)需要完善。
3)關(guān)鍵字是對(duì)這兩家企業(yè)的貨物信息拆解,未來(lái)要擴(kuò)展到其他公司,還需要?jiǎng)?chuàng)建同義詞表等。
4)關(guān)鍵字對(duì)于拼音暫時(shí)未做處理,后續(xù)有方法可以處理,但較為復(fù)雜。
1)主營(yíng)業(yè)務(wù)對(duì)應(yīng)全人工處理,存在誤差,特別是客戶A的化學(xué)品拆解難度較大,很多歸類人工識(shí)別較困難。
2)主營(yíng)業(yè)務(wù)對(duì)應(yīng)目前是借助關(guān)鍵字表完成,然后通過(guò)關(guān)鍵字表返回源數(shù)據(jù)。處理量少,但存在人工誤差。
把視角擴(kuò)大到全公司,站在全公司的角度上分析這兩家客戶的貨物流向和貨物信息在其同行業(yè)中有什么特點(diǎn)和優(yōu)劣勢(shì)。
在對(duì)這兩家客戶研究成果的基礎(chǔ)上,統(tǒng)計(jì)分析全公司的貨描情況。
1)提升貨物描述數(shù)據(jù)質(zhì)量,便于后續(xù)統(tǒng)計(jì)分析。
2)全公司貨物描述關(guān)鍵字提取,借助HS CODE建立分類體系。
3)全公司貨物描述中涉及這兩家客戶的主營(yíng)業(yè)務(wù)貨種的統(tǒng)計(jì)分析,例如,橡膠在我司每年的運(yùn)輸量、進(jìn)出口國(guó)家等。
4)與這兩家客戶主營(yíng)業(yè)務(wù)有交集的其他公司在我司的運(yùn)輸情況。
筆者首先需要對(duì)全公司近一年的所有貨物數(shù)據(jù)進(jìn)行名詞拆解分析和HS CODE交叉補(bǔ)全。由于數(shù)據(jù)量較為龐大,經(jīng)過(guò)測(cè)試后隨機(jī)森林這個(gè)模式準(zhǔn)確率最高,故采用此模型。
完成HS CODE補(bǔ)全的公司有6 862家,其中剔除HS CODE全部缺失的公司,還剩4 874家,其中2 513家公司完成了有效的HS CODE補(bǔ)全。原先該部分的數(shù)據(jù)缺失率為69%,補(bǔ)全后缺失率為23%,該部分的缺失率仍有降低的可能性。下面的統(tǒng)計(jì)分析部分是基于這一結(jié)果之上的簡(jiǎn)單分析。
基于客戶名稱的分析,我司從數(shù)據(jù)層面上暫時(shí)沒(méi)有完整的信息用來(lái)區(qū)分貨代和直客,故筆者想借助客戶公司名稱來(lái)初步統(tǒng)計(jì)分析??蛻艄具\(yùn)輸量和不同HS CODE數(shù)量之間的數(shù)值相關(guān)性不是很強(qiáng),只有0.262 5。未來(lái)如果筆者對(duì)客戶公司按照一定的規(guī)律進(jìn)行劃分,可以劃區(qū)塊進(jìn)一步分析兩者之間的相關(guān)性?;蛘咄ㄟ^(guò)不同區(qū)域數(shù)值的劃分、相關(guān)性來(lái)劃分客戶公司,能更好地對(duì)我司的客戶公司進(jìn)行分群。
對(duì)于拼箱貨的貨物描述分析,貨物描述種類多,但實(shí)際的箱量貢獻(xiàn)度不高。這一類公司以百貨、零售、物流公司居多。在分析這類客戶公司貨物信息的時(shí)候,他們的實(shí)際貢獻(xiàn)度和一個(gè)箱子少量貨描的客戶公司的權(quán)重需要區(qū)別對(duì)待。
通過(guò)上一階段對(duì)代碼的分析和優(yōu)化,筆者將該方法運(yùn)用于全公司的數(shù)據(jù)的HS CODE交叉補(bǔ)全。筆者已經(jīng)將大部分?jǐn)?shù)據(jù)的HS CODE字段進(jìn)行了補(bǔ)充,并加上了主營(yíng)業(yè)務(wù)字段。為了后續(xù)篩選分析方便,引入“企業(yè)之間相似性”這個(gè)概念。
對(duì)于企業(yè)之間的相似性度量,可以將“量”概念引入,也可以忽略“量”,對(duì)于“量”,可以有多種方式度量:數(shù)據(jù)的量,產(chǎn)生TEU的量,利潤(rùn)的量等。
在這里簡(jiǎn)單起見,忽略“量”,將所有原先“量”,有數(shù)據(jù)看成1,沒(méi)數(shù)據(jù)看成0。因此對(duì)于一個(gè)公司的相似性度量只要考察二者主營(yíng)業(yè)務(wù)的重疊數(shù)。例如客戶B有7種主營(yíng)業(yè)務(wù),但是目標(biāo)公司與其重合的主營(yíng)業(yè)務(wù)有3個(gè),因此二者之間的相似性可以用3/7來(lái)計(jì)算,同時(shí)也有很多種計(jì)算方式,主要取決于希望從什么角度去看,后續(xù)供同行探討。
受制于單機(jī)的性能問(wèn)題,筆者目前只完成了全公司70%貨物數(shù)據(jù)的HS CODE交叉補(bǔ)全。筆者還引入了“企業(yè)相似性”這一概念,從主營(yíng)業(yè)務(wù)來(lái)判斷兩家客戶的相似程度,之后也會(huì)考慮加入更多的度量方式,例如數(shù)據(jù)的量、產(chǎn)生TEU的量、利潤(rùn)的量等。
綜上所述,第一種是以貨物為基礎(chǔ)來(lái)考量,第二種是以公司為基礎(chǔ),筆者認(rèn)為可以將這兩種方法結(jié)合起來(lái)分析,看看怎樣最大化地給客戶帶去收益。