曾有人將大數(shù)據(jù)比作信息富礦,通過有效的提取方式,相較傳統(tǒng)規(guī)模的數(shù)據(jù)研究,可能獲得新的寶藏。那么,當(dāng)這一技術(shù)進(jìn)入志愿填報(bào)分析領(lǐng)域,也能獲得有價(jià)值的新信息嗎?上海大學(xué)教授葉志明坦言,技術(shù)上是可行的,但今天大數(shù)據(jù)服務(wù)若真要進(jìn)入市場(chǎng), 成為考生們填報(bào)志愿的參考依據(jù),條件上仍有所欠缺。他認(rèn)為,每年填報(bào)志愿前,有關(guān)考試管理部門及各高校,都會(huì)提供相當(dāng)多的信息,其中涵蓋往年各專業(yè)的錄取分?jǐn)?shù)線、招錄計(jì)劃數(shù)等,在充分“吃”透招錄投檔政策后,運(yùn)用數(shù)據(jù)分析以及人工智能等方式,或許可以在知分情況下,得出學(xué)生被某高校、某專業(yè)錄取的概率。
“但要注意一點(diǎn),在新高考大背景下,過去多年數(shù)據(jù)基礎(chǔ)上的分析結(jié)果,是沒有參考價(jià)值的?!比~志明說。例如,去年上海高考才開始“文理不分科”,今年延續(xù)這一模式。換句話說,僅有一年的積累,對(duì)于以海量數(shù)據(jù)為基礎(chǔ)的大數(shù)據(jù)分析顯然不夠。即便可以作為參考,失誤率可能會(huì)非常高。何況,以往考試錄取也有“大年小年”之說,短期數(shù)據(jù)表達(dá)的趨勢(shì)難以給出準(zhǔn)確預(yù)測(cè)。大數(shù)據(jù)要真正對(duì)填報(bào)志愿起到指導(dǎo)作用,“起碼要積累三到五年以上”。
信息領(lǐng)域業(yè)內(nèi)人士指出,大數(shù)據(jù)可靠的前提在于數(shù)據(jù)的完整性和準(zhǔn)確性,即使解決了這一問題,以數(shù)據(jù)為磚,構(gòu)建準(zhǔn)確有效的數(shù)學(xué)模型并非易事。舉例說,若在一個(gè)小村莊,兩個(gè)人面貌相似,那么判斷其兩者具有血緣關(guān)系的準(zhǔn)確性較高。但若在幾千萬人口的大城市,做出這一判斷,可信度大大降低。在大數(shù)據(jù)分析中,由于信息海量且多元異構(gòu),影響結(jié)果的要素繁多,若不能精準(zhǔn)驗(yàn)證,往往會(huì)誤解兩個(gè)參數(shù)之間具有相關(guān)性,影響整個(gè)結(jié)論。又比如,大數(shù)據(jù)涉及幾萬個(gè)、幾百萬個(gè)乃至數(shù)百億個(gè)變量,這意味著如果每個(gè)變量都造成一點(diǎn)點(diǎn)誤差,最后的預(yù)測(cè)會(huì)是很多誤差的疊加。前者是“假相關(guān)”問題,后者是“誤差疊加”問題,兩者都是整個(gè)大數(shù)據(jù)研究學(xué)界面對(duì)的瓶頸,在高考填報(bào)志愿這個(gè)有“人心”變量參與的項(xiàng)目中,解決瓶頸問題或許要更長(zhǎng)時(shí)間。
“個(gè)體決定行為,群體決定結(jié)果。”從填報(bào)到錄取,高考招錄是牽一發(fā)而動(dòng)全身的事,各自花落誰家,是由所有考生的群體選擇確定的。(摘自《解放日?qǐng)?bào)》6.21)