甘文壇
(湖北工業(yè)大學(xué),湖北 武漢 430068)
?
基金信息采集系統(tǒng)的相關(guān)技術(shù)研究
甘文壇
(湖北工業(yè)大學(xué),湖北 武漢 430068)
隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展和改進(jìn),基金信息資源的增長(zhǎng)速度也不斷提高,搜索引擎能夠有效地解決用戶(hù)對(duì)大量信息快速搜索困難的問(wèn)題。但是這種方式無(wú)法為用戶(hù)提供具有全面性和針對(duì)性的基金信息。雖然目前網(wǎng)絡(luò)中存在許多金融信息網(wǎng)站,其中也包括了基金信息,但是它們都存在一定的不足,比如信息缺乏權(quán)威性、真實(shí)性。因此基金信息采集系統(tǒng)的設(shè)計(jì)應(yīng)用,能夠非常有效地滿(mǎn)足投資者對(duì)基金信息的需求。雖然目前已經(jīng)有許多成熟的基金信息采集系統(tǒng),但是由于這種系統(tǒng)屬于公司的商業(yè)機(jī)密范疇,其設(shè)計(jì)和開(kāi)發(fā)的關(guān)鍵技術(shù)無(wú)法公布,從而影響到基金采集系統(tǒng)的普及和發(fā)展。
基金信息;采集;技術(shù)研究
信息采集系統(tǒng)的主要作用是將所需網(wǎng)頁(yè)中的大量非結(jié)構(gòu)化數(shù)據(jù)提取出來(lái),并將其轉(zhuǎn)換到數(shù)據(jù)庫(kù)進(jìn)行保存。
信息采集系統(tǒng)最重要的功能就是能夠?qū)Υ罅烤W(wǎng)頁(yè)中的信息進(jìn)行采集,并且根據(jù)用戶(hù)需求,從中挑選出與之相符合的數(shù)據(jù)并將其轉(zhuǎn)換到數(shù)據(jù)庫(kù)進(jìn)行保存,與此同時(shí)此系統(tǒng)還能夠滿(mǎn)足用戶(hù)檢索的需求[1]。
目前采用最多的信息采集系統(tǒng)的運(yùn)作流程基本相同,具體步驟如下:(1)根據(jù)用戶(hù)需求確定采集目的;(2)根據(jù)采集目的對(duì)系統(tǒng)進(jìn)行設(shè)置,使之能夠根據(jù)用戶(hù)需求進(jìn)行數(shù)據(jù)采集;(3)在采集的過(guò)程中,對(duì)系統(tǒng)進(jìn)行控制,當(dāng)檢測(cè)到網(wǎng)頁(yè)內(nèi)容產(chǎn)生更新時(shí),系統(tǒng)的采集設(shè)置也要隨之更新;(4)在對(duì)采集完成后的數(shù)據(jù)進(jìn)行分析后,將數(shù)據(jù)轉(zhuǎn)換到能夠保存到數(shù)據(jù)庫(kù)中的格式;(5)將轉(zhuǎn)換后的數(shù)據(jù)發(fā)布到系統(tǒng)軟件上。
2.1 增量式web信息采集系統(tǒng)基本概念
增量采集系統(tǒng)面向的領(lǐng)域就是需要定期更新的網(wǎng)頁(yè)數(shù)據(jù)采集模式。這種采集方式的過(guò)程為:首先進(jìn)行正常的數(shù)據(jù)采集,而在接下來(lái)的采集過(guò)程中只去更新當(dāng)前網(wǎng)頁(yè)中產(chǎn)生變化的數(shù)據(jù)信息,以及新增的網(wǎng)頁(yè)信息,而對(duì)沒(méi)有發(fā)生數(shù)據(jù)信息變化的網(wǎng)頁(yè)則不進(jìn)行采集。增量的頻率也與網(wǎng)頁(yè)數(shù)據(jù)更新的頻率相關(guān)[2]。
這種增量Web信息采集系統(tǒng)的實(shí)現(xiàn)方式主要由以下幾種:(1)以網(wǎng)頁(yè)數(shù)據(jù)更新的頻率為標(biāo)準(zhǔn)設(shè)置采集頻率;(2)通過(guò)查看對(duì)應(yīng)網(wǎng)頁(yè)最后更新日期進(jìn)行數(shù)據(jù)更新;(3)以RSS協(xié)議為標(biāo)準(zhǔn)為用戶(hù)提供數(shù)據(jù)更新;(4)利用非線(xiàn)性方法改進(jìn)爬蟲(chóng)的數(shù)據(jù)更新效果。
2.2 增量式web信息采集系統(tǒng)運(yùn)作流程
增量式web信息采集系統(tǒng)主要包含四個(gè)功能模塊,分別為網(wǎng)頁(yè)頁(yè)面采集、頁(yè)面解析、URL去重以及數(shù)據(jù)更新檢測(cè)。
增量式web信息采集系統(tǒng)在運(yùn)作過(guò)程中,首先要將系統(tǒng)服務(wù)器中的網(wǎng)頁(yè)信息與互聯(lián)網(wǎng)中需要檢測(cè)的網(wǎng)頁(yè)信息進(jìn)行對(duì)比,當(dāng)檢測(cè)到網(wǎng)頁(yè)信息發(fā)生變化,或者在服務(wù)器中沒(méi)有相對(duì)應(yīng)的網(wǎng)頁(yè)時(shí),就對(duì)服務(wù)器中的信息進(jìn)行更新操作[3]。
目前比較知名的增量采集系統(tǒng)之一是Web Fountain Crawler,它的主要運(yùn)作步驟和原理如下:(1)首先根據(jù)所需收集信息的網(wǎng)頁(yè)更新頻率不同,將其進(jìn)行適當(dāng)分組;(2)將整個(gè)數(shù)據(jù)采集過(guò)程分割成多個(gè)階段,每個(gè)階段進(jìn)行任務(wù)分配,同時(shí)各個(gè)階段的任務(wù)不能相同。
另一種較為著名的增量采集系統(tǒng)是由智利大學(xué)的研究學(xué)者研究出來(lái)的,名為Univ.Chile Crawler[4],該系統(tǒng)的采集判斷依據(jù)是對(duì)應(yīng)網(wǎng)頁(yè)索引的時(shí)新性。在采集的過(guò)程中,該系統(tǒng)首先是對(duì)評(píng)估價(jià)值較高的網(wǎng)頁(yè)進(jìn)行數(shù)據(jù)采集,這種評(píng)估價(jià)值是通過(guò)對(duì)網(wǎng)頁(yè)多種因素綜合考察得到的結(jié)果,在對(duì)不同網(wǎng)頁(yè)的價(jià)值進(jìn)行排序后,分析該網(wǎng)頁(yè)是否需要進(jìn)行數(shù)據(jù)采集操作。
國(guó)內(nèi)開(kāi)發(fā)的天網(wǎng)增量搜集系統(tǒng)同樣具有較高的性能,該系統(tǒng)的主要作用是對(duì)國(guó)內(nèi)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行采集。這三種采集系統(tǒng)能夠在實(shí)際中進(jìn)行應(yīng)用,屬于大型的采集系統(tǒng)。
在對(duì)基金相關(guān)數(shù)據(jù)信息進(jìn)行采集之前,我們應(yīng)當(dāng)明確數(shù)據(jù)采集的主要來(lái)源網(wǎng)站,對(duì)網(wǎng)站信息進(jìn)行評(píng)估之后,我們發(fā)現(xiàn)專(zhuān)業(yè)權(quán)威的網(wǎng)站采集得到的結(jié)果更能夠提供準(zhǔn)確的基金信息,其中首要選擇的就是各大基金公司的官方網(wǎng)站。而互聯(lián)網(wǎng)上此類(lèi)網(wǎng)站種類(lèi)繁多,采用的信息發(fā)布方式也有所區(qū)別,在系統(tǒng)解析階段應(yīng)當(dāng)針對(duì)不同的基金網(wǎng)站指定對(duì)應(yīng)的解析方案。證監(jiān)會(huì)于2009年建立了對(duì)資金交易市場(chǎng)信息統(tǒng)一的標(biāo)準(zhǔn)化信息披露平臺(tái),此平臺(tái)將XBRL技術(shù)作為基礎(chǔ)支撐交媾,能夠?qū)?shù)據(jù)資源進(jìn)行交互,發(fā)布準(zhǔn)確可靠的市場(chǎng)信息,為證監(jiān)會(huì)管理資本市場(chǎng)提供輔助依據(jù),同時(shí)還為投資者提供了標(biāo)準(zhǔn)化信息查詢(xún)平臺(tái),便于投資者及時(shí)了解市場(chǎng)信息。在本系統(tǒng)中我們對(duì)此披露平臺(tái)中的信息進(jìn)行采集和解析,能夠得到標(biāo)準(zhǔn)化統(tǒng)一格式的基金信息,省去了對(duì)不同網(wǎng)站類(lèi)型和內(nèi)容的方案制定過(guò)程。
基金電子化信息披露平臺(tái)的建立對(duì)整個(gè)基金市場(chǎng)的監(jiān)管和維護(hù)舉足輕重的作用。主要變現(xiàn)為以下四個(gè)方面:首先此平臺(tái)系統(tǒng)內(nèi)能夠?yàn)楦鞔蠡鸸芾頇C(jī)構(gòu)提供統(tǒng)一的技術(shù)平臺(tái),有助于各大基金管理機(jī)構(gòu)根據(jù)平臺(tái)上的標(biāo)準(zhǔn)化信息提升自身信息質(zhì)量,提高公司的誠(chéng)信度,使得公司能夠從內(nèi)部進(jìn)行整頓;其次此平臺(tái)為投資者提供了標(biāo)準(zhǔn)化信息查詢(xún)平臺(tái),便于投資者及時(shí)了解市場(chǎng)信息;再次采用此種方式提供標(biāo)準(zhǔn)化的基金市場(chǎng)信息,有助于各大機(jī)構(gòu)提高對(duì)自身信息發(fā)布的科學(xué)性和標(biāo)準(zhǔn)性;最后此種披露系統(tǒng)能夠根據(jù)基金行業(yè)情況及時(shí)有效地發(fā)布信息,使得基金信息更加全面準(zhǔn)確。
[1] 李甫英.證券投資基金在我國(guó)發(fā)展的歷史和現(xiàn)狀[J].黨史文苑,2004年06期
[2] 王敬,馮新力.中國(guó)證券投資基金的需求細(xì)分與供給創(chuàng)新[J].財(cái)經(jīng)科學(xué),2004年06期
[3] 陸娜.我國(guó)證券投資基金業(yè)發(fā)展中的主要問(wèn)題及對(duì)策研究[碩士學(xué)位論文].西南財(cái)經(jīng)大學(xué),2009
[4] 京華時(shí)報(bào).證監(jiān)會(huì)發(fā)放首批第三方基金銷(xiāo)售牌照-基金銷(xiāo)售迎來(lái)新力量[EB/OL].http://epaper.jinghua.cn/html/2012-02/23/content_763785.htm
甘文壇(1985.10-),男,廣東韶關(guān)人,本科,助理工程,研究方向:計(jì)算機(jī)應(yīng)用。
TP3
A
1671-1602(2016)20-0008-01