王都
【摘 要】隨著計(jì)算機(jī)和信息時(shí)代的到來(lái),數(shù)據(jù)的收集、存儲(chǔ)和訪問(wèn)量急劇增加,傳統(tǒng)的查詢(xún)技術(shù)不能解決目前面臨的信息爆炸問(wèn)題,數(shù)據(jù)挖掘正是在這樣的應(yīng)用需求下產(chǎn)生并迅速發(fā)展起來(lái)的一門(mén)技術(shù)。我國(guó)股票市場(chǎng)經(jīng)歷了近三十年發(fā)展,隨著股票市場(chǎng)和股市制度的逐步完善,越來(lái)越多的投資者參與到股票投資中來(lái)。將數(shù)據(jù)挖掘技術(shù)運(yùn)用到個(gè)股選擇中,可以有效地處理與證券投資決策相關(guān)的市場(chǎng)信息、經(jīng)濟(jì)信息、財(cái)務(wù)信息、以及其他各種相關(guān)信息,從海量的數(shù)據(jù)中,為投資者挖掘出有用的相關(guān)數(shù)據(jù)和相關(guān)規(guī)則,并將其與其他證券投資決策方法相結(jié)合,探索出適合海量數(shù)據(jù)條件下的投資決策。
【關(guān)鍵詞】數(shù)據(jù)挖掘;股票選擇;價(jià)值投資
一、背景及意義
隨著計(jì)算機(jī)和信息時(shí)代的到來(lái),人們收集、存儲(chǔ)和訪問(wèn)的數(shù)據(jù)急劇增加,對(duì)這些快速增長(zhǎng)的海量數(shù)據(jù)進(jìn)行分析和知識(shí)理解已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富,但信息貧乏”。數(shù)據(jù)庫(kù)規(guī)模日益擴(kuò)大,僅依靠數(shù)據(jù)庫(kù)管理系統(tǒng)的查詢(xún)檢索機(jī)制和統(tǒng)計(jì)分析方法,已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)的需要。而大量激增的數(shù)據(jù)中往往又隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫(kù)中提取出來(lái),就能為用戶創(chuàng)造很多潛在的利潤(rùn)。因此,對(duì)大量歷史數(shù)據(jù)進(jìn)行分析處理,挖掘出有用的知識(shí)就顯得非常迫切。
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢(xún)、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知,有效和可實(shí)用三個(gè)特征。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,即數(shù)據(jù)挖掘是要發(fā)現(xiàn)那些不能靠直覺(jué)發(fā)現(xiàn)的信息或知識(shí),甚至是違背直覺(jué)的信息或知識(shí),挖掘出的信息越是出乎意料,就可能越有價(jià)值。
數(shù)據(jù)挖掘,首先要確定挖掘的任務(wù)或目的是什么,如數(shù)據(jù)總結(jié)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則或序列模式發(fā)現(xiàn)等。確定了挖掘任務(wù)后,就要決定用什么樣的挖掘算法。選擇實(shí)現(xiàn)算法有兩個(gè)考慮因素:一是不同的數(shù)據(jù)有不同的特點(diǎn),因此需要用與之相關(guān)的算法來(lái)挖掘;二是用戶或?qū)嶋H運(yùn)行系統(tǒng)的要求。
數(shù)據(jù)挖掘發(fā)現(xiàn)出來(lái)的模式,經(jīng)過(guò)用戶或機(jī)器的評(píng)價(jià),可能存在冗余或無(wú)關(guān)的模式,這時(shí)需要將其剔除。另外,由于知識(shí)發(fā)現(xiàn)最終是面向人類(lèi)用戶的,因此可能要對(duì)發(fā)現(xiàn)的模式進(jìn)行可視化,或者把結(jié)果轉(zhuǎn)換為用戶易懂的另一種表示。
二、數(shù)據(jù)挖掘在股市選擇中的意義
從1990年上海證券交易所、深圳交易所成立,到《證券法》的實(shí)施,再到中小企業(yè)板塊、創(chuàng)業(yè)板推出,我國(guó)股票市場(chǎng)經(jīng)歷了近三十年發(fā)展,隨著股票市場(chǎng)和股市制度的逐步完善,越來(lái)越多的投資者參與到股票投資中來(lái)。人民收入水平不斷提升,閑置資金增多,開(kāi)始追求除銀行儲(chǔ)蓄之外更加多樣化的投資需求,投資意識(shí)和金融意識(shí)也日益增長(zhǎng),股票市場(chǎng)日益受投資者的關(guān)注。而由于股票市場(chǎng)風(fēng)險(xiǎn)髙、口檻高,對(duì)于普通投資者而言,尋找簡(jiǎn)單易行的投資方式極為重要。如何對(duì)眾多的股票投資者進(jìn)行投資指導(dǎo),同時(shí)又不因投資金額較小而導(dǎo)致成本過(guò)高,是很多學(xué)者和創(chuàng)業(yè)公司共同研究的問(wèn)題。
進(jìn)行投資分析,并得出有價(jià)值的股票選擇,需要對(duì)海量的信息和數(shù)據(jù)進(jìn)行分析。這些數(shù)據(jù)包括上市公司所處的行業(yè)數(shù)據(jù)、公司財(cái)務(wù)數(shù)據(jù)及非財(cái)務(wù)信息、中介機(jī)構(gòu)評(píng)價(jià)信息,外部研巧機(jī)構(gòu)分析等。專(zhuān)業(yè)的投資機(jī)構(gòu),如基金、保險(xiǎn)資管等機(jī)構(gòu)通過(guò)雇傭?qū)I(yè)人員進(jìn)行投資分析,目的是為了綜合多樣的信息和專(zhuān)業(yè)人士的專(zhuān)業(yè)判斷,以?xún)?yōu)化投資決策,而長(zhǎng)期以來(lái),廣大投資者采取基本分析和技術(shù)分析投資的方式,其時(shí)間精力和專(zhuān)業(yè)水平有限,難以找到海量數(shù)據(jù)背后隱藏的信息,因此無(wú)法把握具體的選股巧選時(shí)的標(biāo)準(zhǔn)。因此,將數(shù)據(jù)挖掘技術(shù)運(yùn)用到個(gè)股選擇中,可以有效地處理與證券投資決策相關(guān)的市場(chǎng)信息、經(jīng)濟(jì)信息、財(cái)務(wù)信息、以及其他各種相關(guān)信息,從海量的數(shù)據(jù)中,為投資者挖掘出有用的相關(guān)數(shù)據(jù)和相關(guān)規(guī)則,并將其與其他證券投資決策方法相結(jié)合,探索出適合海量數(shù)據(jù)條件下的投資決策。
三、數(shù)據(jù)挖掘在股市選擇中指標(biāo)的選取
本文選擇了反應(yīng)股票基本面的財(cái)務(wù)指標(biāo)、公司內(nèi)部狀況指標(biāo)、以及外部行業(yè)指標(biāo)作為模型輸入變量,選擇公司股價(jià)漲跌幅相對(duì)于滬深300漲跌幅的差額作為模型目標(biāo)變量。
(一)輸入變量
股票選擇有眾多策略,典型代表有價(jià)值投資與技術(shù)分析,其中股票價(jià)值投資由證券分析之父格雷厄姆提出,該理論通過(guò)衡量“內(nèi)在價(jià)值”與“安全邊際”,從眾多股票中尋找市場(chǎng)價(jià)值低于內(nèi)在價(jià)值的股票,尋找投資機(jī)會(huì)。本文采取價(jià)值投資的投資理念,價(jià)值投資需要考慮能全面反映公司基本面的指標(biāo)體系。該指標(biāo)體系需要將企業(yè)外部和內(nèi)部環(huán)境相結(jié)合,反應(yīng)影響股價(jià)的企業(yè)內(nèi)部和外部活動(dòng)。
(1)財(cái)務(wù)活動(dòng);財(cái)務(wù)指標(biāo)為主要表現(xiàn)形式,反應(yīng)企業(yè)的內(nèi)部因素。財(cái)務(wù)指標(biāo)是常規(guī)的反應(yīng)公司基本面的指標(biāo),應(yīng)用最為廣泛。在財(cái)務(wù)指標(biāo)中,財(cái)務(wù)比率的指標(biāo)非常多,我們將其分成盈利能為、償債能力、營(yíng)運(yùn)能力、成長(zhǎng)能力、每股指標(biāo)五個(gè)大類(lèi)。
(2)內(nèi)部環(huán)境:包括企業(yè)內(nèi)部控制有效性,員工結(jié)構(gòu),控制權(quán)集中程度等問(wèn)題,通過(guò)考察內(nèi)部環(huán)境說(shuō)明企業(yè)的內(nèi)部控制情況。本文選取了一些指標(biāo)作為公司內(nèi)部狀況的代表因素:市盈率、市銷(xiāo)率、市凈率、大股東持股比例、主營(yíng)業(yè)務(wù)收入占營(yíng)北收入的比例、貝塔值等。
(3)外部環(huán)境;公司所處行業(yè)的經(jīng)濟(jì)政策、法律制度、發(fā)展?fàn)顩r等,從宏觀角度考察企業(yè)經(jīng)營(yíng)所面對(duì)的外部環(huán)境狀況。除內(nèi)部因素外,股票投資價(jià)值受行業(yè)狀況的影響。行業(yè)發(fā)展通常經(jīng)歷四個(gè)階段,即初創(chuàng)期、成長(zhǎng)期、成熟期和衰退期,每個(gè)行業(yè)階段,行業(yè)內(nèi)公司經(jīng)營(yíng)、盈利狀況大不相同。當(dāng)行業(yè)處于快速成長(zhǎng)期時(shí),普遍業(yè)內(nèi)公司有較好的經(jīng)營(yíng)業(yè)績(jī),相反,行業(yè)處于衰退期時(shí),公司問(wèn)題逐步暴露,較差的公司退出行業(yè)舞臺(tái)。
(二)目標(biāo)變量
價(jià)值投資將價(jià)格相對(duì)于其內(nèi)在價(jià)值過(guò)低的股票作為投資對(duì)象,在股票價(jià)格低于其內(nèi)在價(jià)值時(shí)買(mǎi)入,反之賣(mài)出,以此獲得超過(guò)市場(chǎng)表現(xiàn)的超額收益。由此看出,超過(guò)市場(chǎng)的表現(xiàn)是投資是否具有成果的衡量標(biāo)準(zhǔn)。本文選擇公司股價(jià)漲跌幅相對(duì)于滬深300漲跌幅的差額作為模型目標(biāo)變量,對(duì)股價(jià)進(jìn)行了如下處理:
計(jì)算股價(jià)、指數(shù)漲跌幅。股價(jià)、指數(shù)的大小本身不具備可比性和參考意義,而投資收益率反應(yīng)投資者運(yùn)用資金的機(jī)會(huì)成本和收益,具備可比性和參考價(jià)值。
計(jì)算股價(jià)相對(duì)于指數(shù)漲跌幅的大小差額。股票投資收益的好壞的一個(gè)重要參考標(biāo)準(zhǔn)是指數(shù)的收益,指數(shù)反應(yīng)大盤(pán)的狀況,也反應(yīng)投資者的機(jī)會(huì)成本,因此對(duì)胸買(mǎi)股票的投資者而言,超過(guò)大盤(pán)表現(xiàn)的公司才有投資價(jià)值。
四、數(shù)據(jù)挖掘?qū)嵶C分析及結(jié)論
在實(shí)證分析中發(fā)現(xiàn),在各種上市公司財(cái)務(wù)指標(biāo)、公司內(nèi)部狀況指標(biāo)、外部行業(yè)指標(biāo)中,對(duì)股票的投資價(jià)值影響較大的有銷(xiāo)售凈利率、現(xiàn)金流量利息保障倍數(shù)、營(yíng)業(yè)總收入同比增長(zhǎng)率、利澗總額同比増長(zhǎng)率、關(guān)聯(lián)交易事項(xiàng)、貝塔值,這些指標(biāo)應(yīng)該是投資者判斷股票投資價(jià)值時(shí)應(yīng)該重點(diǎn)考慮的因素。
股票的漲跌受到眾多不確定因素的影響,且該因素及其具體的影響效果、影響程度難以衡量,股價(jià)往往難以把握。隨著計(jì)算機(jī)技術(shù)的發(fā)展,使得人類(lèi)行為的諸多數(shù)據(jù)得以沉淀,人們對(duì)數(shù)據(jù)的價(jià)值和作用越來(lái)越重視,數(shù)據(jù)挖掘技術(shù)在各行各業(yè)進(jìn)行了廣泛的運(yùn)用。從本文可以看出,在價(jià)值投資方面,數(shù)據(jù)挖掘技術(shù)有一定的作用,它可以應(yīng)用于投資領(lǐng)域,為股票投資決策做出貢獻(xiàn)。
【參考文獻(xiàn)】
[1].韓慧,毛峰,王文淵.數(shù)據(jù)挖掘中決策樹(shù)算法的最新進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究研究,2004,12:5-8.
[2].范明,孟小林等譯. 數(shù)據(jù)挖掘技術(shù)與概念[M].北京:機(jī)械工業(yè)出版社,2001.
[3].黃惠平,彭博.市場(chǎng)估值與價(jià)值投資策略——基于中國(guó)證券市場(chǎng)的經(jīng)驗(yàn)研究[J].會(huì)計(jì)研究,2010(10):40- 46.
[4].孫曉瑩,李曉靜.數(shù)據(jù)挖掘在股票價(jià)格組合預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)仿真,2012(7):375- 378.