竇昀翬
上海華誼(集團(tuán))公司(上海 200025)
化工管理
探索數(shù)據(jù)挖掘技術(shù)在甲醇價格預(yù)測模型中因素分析的應(yīng)用
竇昀翬
上海華誼(集團(tuán))公司(上海200025)
介紹了數(shù)據(jù)挖掘技術(shù)的含義,以甲醇價格預(yù)測模型的建立為例,通過對已知因素的分析、計算和統(tǒng)計,確定了影響甲醇價格變化的因素及其影響值。運用數(shù)據(jù)挖掘技術(shù)客觀地顯現(xiàn)影響甲醇價格變化的真實因素,避免人為情緒波動對預(yù)測工作產(chǎn)生負(fù)作用。
數(shù)據(jù)挖掘價格預(yù)測因素分析
信息和數(shù)據(jù)的交互是信息時代的特征和產(chǎn)物,隨著電子商務(wù)的興起與發(fā)展,人們已經(jīng)認(rèn)識到信息和數(shù)據(jù)的重要性,它既是全程工作運轉(zhuǎn)的記錄累積,也是驅(qū)動商業(yè)行為的動力之源。正如阿里巴巴、京東等公司的掌門人所夸耀的,目前他們的交易平臺可以在用戶模糊輸入產(chǎn)品信息進(jìn)行產(chǎn)品搜索時,自動匹配出買家和賣家的精準(zhǔn)內(nèi)容,從而使用戶在數(shù)量龐大的產(chǎn)品中找到自己最想要的或相關(guān)度最高的產(chǎn)品。這種互聯(lián)網(wǎng)技術(shù)的應(yīng)用,正是基于數(shù)據(jù)挖掘(Data Mining)技術(shù)而實現(xiàn)的。
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的但又具有潛在有用信息和知識的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動輒以TB(太字節(jié),1 TB=1024 GB)計。從海量數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急,數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生并發(fā)展起來的數(shù)據(jù)處理技術(shù),是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Database)的關(guān)鍵步驟[1]。
數(shù)據(jù)挖掘功能一般可以分為兩類:預(yù)測和描述。描述性挖掘功能用來描述數(shù)據(jù)庫中數(shù)據(jù)的一般特性,而預(yù)測性挖掘功能是在現(xiàn)有數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中抽取知識的過程,鑒于數(shù)據(jù)本身的性質(zhì),那些符合推理和統(tǒng)計原理、信息論、遺傳算法和神經(jīng)網(wǎng)絡(luò)的知識被首先運用到知識發(fā)現(xiàn)的算法設(shè)計中。[2]
數(shù)據(jù)挖掘與傳統(tǒng)意義上的統(tǒng)計學(xué)不同。統(tǒng)計學(xué)推斷是由假設(shè)驅(qū)動的,即形成假設(shè)并在數(shù)據(jù)基礎(chǔ)上進(jìn)行驗證;數(shù)據(jù)挖掘是由數(shù)據(jù)驅(qū)動的,即自動地從數(shù)據(jù)中提取模式和假設(shè)。數(shù)據(jù)挖掘的目標(biāo)是提取可以容易轉(zhuǎn)換成邏輯規(guī)則或可視化表示的定性模型,與傳統(tǒng)的統(tǒng)計學(xué)相比,更加以人為本。
甲醇價格預(yù)測模型通過分析歷年數(shù)據(jù),借助統(tǒng)計學(xué)理論來推導(dǎo)甲醇價格后市變化的可能性。正確的模型可以降低主觀判斷中人為因素的影響,并適當(dāng)延長后市判斷的時間周期,相比于原來僅依據(jù)經(jīng)驗來進(jìn)行中長期預(yù)測的結(jié)果,具有可度量性。
建立甲醇價格預(yù)測模型,首先需要找到影響甲醇價格變化的因素。在現(xiàn)實工作中,影響甲醇價格的因素有很多,如上游的價格和供給、下游需求、進(jìn)出口情況、產(chǎn)量、區(qū)域內(nèi)的庫存能力、運輸條件、氣候、地理環(huán)境及不可預(yù)知的各類突發(fā)因素等,這些因素和甲醇價格之間有著必然關(guān)系或間接關(guān)系,可能隨時都會對甲醇價格的變化產(chǎn)生單獨作用力或合力。人們在事后回顧價格走勢時,通常容易指出影響甲醇價格的變化主要因素,但在分析影響因素、預(yù)測后市價格時,如果僅憑主觀判斷和經(jīng)驗判斷,會出現(xiàn)眾說紛紜、“百家爭鳴”的情況,特別是在行情膠著的情況下,更難以理清影響價格因素的關(guān)鍵和核心。
統(tǒng)計分析是應(yīng)用最早、也是目前最成熟和行之有效的一種數(shù)據(jù)挖掘方法,其關(guān)鍵是構(gòu)造合適的統(tǒng)計模型和數(shù)學(xué)模型來解釋被分析的數(shù)據(jù)。該方法要求使用者具有較豐富的相關(guān)領(lǐng)域知識。統(tǒng)計分析一般由兩個步驟構(gòu)成:首先,使用者從數(shù)據(jù)庫中選擇抽取適當(dāng)?shù)臄?shù)據(jù);其次,使用者執(zhí)行統(tǒng)計分析工具提供的可視化功能和分析功能來尋找數(shù)據(jù)間的關(guān)系,并構(gòu)造統(tǒng)計模型和數(shù)學(xué)模型來解釋數(shù)據(jù)。其中第二步是反復(fù)的和不斷求精的。
本課題搜集了2008年1月至2014年7月的甲醇月度價格,并采集了每月的主觀和經(jīng)驗因素,通過數(shù)據(jù)挖掘技術(shù),從定性和定量兩方面確定影響甲醇價格的因素指標(biāo)及影響比重。數(shù)據(jù)處理采用Eviews 6.0軟件。
從現(xiàn)實情況了解到,目前影響甲醇價格變化的因素可分為宏觀因素、主觀因素和突發(fā)因素等,其中紐約商品交易所輕質(zhì)低硫原油(WTI)期貨交易價格、工業(yè)品出廠價格指數(shù)(PPI)、制造業(yè)采購經(jīng)理人指數(shù)(PMI)為宏觀因素,中國及周邊地區(qū)港口的月度均價、華東地區(qū)主流煤炭交易價格、全國甲醇月度產(chǎn)量、華東地區(qū)甲醇價格等為主觀因素,局部戰(zhàn)爭、氣候、地質(zhì)及交通變化等為突發(fā)因素。
3.1數(shù)據(jù)的歸一化
為統(tǒng)一數(shù)據(jù)的量化,方便對數(shù)據(jù)進(jìn)行分析和計算,需要對已采集到的各類數(shù)據(jù)進(jìn)行歸一化處理。本課題采用通過計算變量的標(biāo)準(zhǔn)化得分來進(jìn)行數(shù)據(jù)的歸一化處理,轉(zhuǎn)換函數(shù)為:
其中x為原始樣本數(shù)據(jù),u為樣本數(shù)據(jù)的均值,σ為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。
3.2異常值的分析與處理
通過分析各個指標(biāo)的時間序列趨勢圖(見圖1),發(fā)現(xiàn)一些異常值,這些異常值大體可分為兩類:
(1)統(tǒng)計錯誤,如2012年12月的煤炭價格;
(2)受突發(fā)因素影響,如2008年12月由于金融危機導(dǎo)致的甲醇價格下降和2013年11月由于國外裝置故障導(dǎo)致的甲醇價格突然上漲。
圖1 甲醇價格影響因素趨勢圖
統(tǒng)計錯誤導(dǎo)致的異常值主要通過移動平均法來處理,而突發(fā)因素導(dǎo)致的異常值則不需要處理。
3.3甲醇價格與各影響因素之間的相關(guān)性分析
圖2為甲醇價格與各影響因素的趨勢圖,表1給出了甲醇價格(出罐價格)與各因素的相關(guān)系數(shù),由此可看出,甲醇價格與各影響因素具有一定的相關(guān)性,尤其與中國港口到岸價格、WTI價格、進(jìn)口價格、PPI的相關(guān)程度都很高(相關(guān)系數(shù)>0.5),這說明利用甲醇價格與影響因素之間的關(guān)系進(jìn)行預(yù)測是可行的。
左側(cè)線條自上而下依次為:中國港口價格、甲醇港口出罐價格、WTI價格、甲醇進(jìn)口月均價格、國內(nèi)煤炭月均價格、甲醇月進(jìn)口量、PPI、PMI、國內(nèi)甲醇產(chǎn)量
表1 甲醇出罐價與各因素的相關(guān)系數(shù)
3.4各影響因素之間的相關(guān)性分析
(1)各國港口到岸價之間的相關(guān)性
中國及周邊國家和地區(qū)主要港口甲醇交易月度價格趨勢見圖3,通過計算后得到的各因素相關(guān)系數(shù)值見表2。
虛線處從上至下依次標(biāo)識為:甲醇的中國港口價格、印度港口價格、中國臺灣省港口價格、日本港口價格、東北亞港口價格和韓國港口價格
表2 各國港口價格的相關(guān)系數(shù)
從圖3和表2可以看出各國港口甲醇到岸價格具有很強的相關(guān)性(相關(guān)系數(shù)都在0.95以上),而在進(jìn)行統(tǒng)計分析時不能同時考慮它們,只能選擇一個做代表,綜合考慮,認(rèn)為選擇中國港口價格更具有代表性和現(xiàn)實意義。
(2)各因素之間的相關(guān)性
各因素之間的相關(guān)性見表3,所有的國外港口價格已用中國港口價格代替,可以看出,某些影響甲醇價格的因素之間也存在較強的相關(guān)性,這種相關(guān)性會對統(tǒng)計分析結(jié)果產(chǎn)生影響,所以需要對這些因素進(jìn)行篩選,這將在以后的模式匹配工作中進(jìn)行。
表3 各影響因素之間的相關(guān)系數(shù)
4.1純統(tǒng)計學(xué)方法
逐步回歸法是多元回歸分析中克服變量相關(guān)性的常用方法。運用逐步回歸法得到的回歸結(jié)果如表4所示,擬合程度為96.5%。表4表明在考慮變量相關(guān)性的條件下,對甲醇價格有顯著影響的變量包括:中國港口價格、產(chǎn)量、WTI價格、煤炭價格、出口量和PPI。
4.2考慮變量的實現(xiàn)意義
根據(jù)業(yè)內(nèi)專業(yè)人士的經(jīng)驗建議,在現(xiàn)實情況中,“進(jìn)口量”對甲醇價格的影響遠(yuǎn)大于“出口量”,因此選擇“進(jìn)口量”作為影響因素。用“進(jìn)口量”替代“出口量”的回歸結(jié)果如表5所示,在回歸模型中,雖然“進(jìn)口量”對甲醇該變量不會影響其他變量的統(tǒng)計性質(zhì)。
表4 運用逐步回歸法的回歸結(jié)果
通過分析計算和數(shù)據(jù)挖掘技術(shù)的應(yīng)用,甲醇價格的影響因素最終確定為中國港口價格、產(chǎn)量、進(jìn)口量、原油價格、煤價和PPI。這些因素覆蓋了宏觀因素和微觀因素兩方面,而且因素影響值的大小也通過計算得以確定。
由于影響甲醇價格變化的因素存在復(fù)雜性,本研究也存在一定的局限性:第一,沒有考慮到突發(fā)性的影響因素,該類因素雖然可以采集,但因為具有臨時性和多變性,無法確立和計算;第二,由于數(shù)據(jù)采集的原因,所有影響因素的采集時間存在不同步,如原油價格是采集當(dāng)期之后一個月的期貨價,主要反映了人們對甲醇原料供給的信心影響指數(shù);第三,可能存在還未發(fā)現(xiàn)的影響因素,需要今后在工作中不斷發(fā)現(xiàn)積累和計算。
表5 “進(jìn)口量”替換“出口量”的回歸結(jié)果
[1]數(shù)據(jù)挖掘技術(shù)簡介[Z].[2004-01-29].http://www.yesky. com/430/1763930.shtml.
[2]陳疇鏞,陸錦洪.數(shù)據(jù)挖掘方法在供應(yīng)鏈產(chǎn)品價格預(yù)測中的應(yīng)用[J].杭州電子工業(yè)學(xué)院學(xué)報,2002,22(6):19-23.
Application of Data Mining Technology in Factors Analysis of Methanol Price Forecast Model
Dou Yunhui
The implication of data mining technology is introduced.Taking the methanol price model as an example, the known factors are analyzed,calculated and counted,and the factors affecting the methanol price and corresponding influence values are determined.Applying data mining technology can objectively reflect the real factors that affect methanol price and avoid effects of human emotions in forecasting work.
Data mining;Price forecasting;Factor analysis
TP 311.13
竇昀翬男1979年生本科工程師從事化工產(chǎn)品專業(yè)銷售管理工作
2015年7月