吳鑫宇
(廣西工商職業(yè)技術(shù)學(xué)院,廣西 南寧 530008)
分級閱讀的理念由西方的學(xué)者提出,經(jīng)過不斷研究后,成為指導(dǎo)閱讀出版和閱讀教育的重要工具。受發(fā)育規(guī)律影響,在兒童成長的不同階段,兒童的認(rèn)知能力、語言水平與閱讀能力都不盡相同,其心理發(fā)育具有明顯的年齡特征,閱讀層次也存在明顯的差異性。一些醫(yī)學(xué)生不愿意成為兒科醫(yī)生,其原因很大一部分在于兒童無法準(zhǔn)確地表達(dá)自己的感受,無法直觀地解釋自己的想法,最終導(dǎo)致問診困難,難以對癥下藥。同理,在面對家長與館員的提問時,兒童也難以表達(dá)出某本書自己能不能看懂,是不是真的適合自己。館員也常常對此感到困惑,無法給出標(biāo)準(zhǔn)答案,因此在平時的工作中,館員大多是憑自己的經(jīng)驗(yàn)為兒童選擇閱讀的文本。如此行為不利于兒童的閱讀與成長,因此,進(jìn)行兒童分級閱讀的研究勢在必行。
目前,學(xué)界對大數(shù)據(jù)的研究已經(jīng)十分成熟,各行各業(yè)都開始應(yīng)用大數(shù)據(jù)技術(shù)為其服務(wù),然而大數(shù)據(jù)的定義卻一直沒有一個統(tǒng)一標(biāo)準(zhǔn)。大數(shù)據(jù)是一種數(shù)據(jù)量巨大,數(shù)據(jù)類別繁多,無法在短時間內(nèi)通過常規(guī)工具來捕捉、管理與處理的特殊的數(shù)據(jù)集,也是一種需要強(qiáng)洞察力、強(qiáng)決策力、高流程優(yōu)化能力的處理模式來處理的海量、高增長率與多樣化的新型信息資產(chǎn)[1]。大數(shù)據(jù)的特點(diǎn)主要是數(shù)據(jù)海量,數(shù)據(jù)類型繁多,處理速度快與價值密度低[2]。目前,大數(shù)據(jù)已經(jīng)廣泛應(yīng)用在各個領(lǐng)域各個學(xué)科,諸如因果發(fā)現(xiàn)等許多技術(shù)都需要大數(shù)據(jù)進(jìn)行支撐,因此,將大數(shù)據(jù)引入兒童分級研究相當(dāng)有必要。
近年來,因果發(fā)現(xiàn)算法在人工智能、機(jī)器學(xué)習(xí)等領(lǐng)域得到越來越多研究者的關(guān)注,并在神經(jīng)科學(xué)、經(jīng)濟(jì)學(xué)、基因組學(xué)等領(lǐng)域得到了廣泛的應(yīng)用[3]。其通過觀察一項(xiàng)事物,觀測其變量或是對其中某些變量進(jìn)行干預(yù),從而發(fā)現(xiàn)其中的因果關(guān)系,獲得結(jié)論。傳統(tǒng)的機(jī)器學(xué)習(xí)方法僅對已觀察到的數(shù)據(jù)進(jìn)行數(shù)據(jù)整理與因果推斷,僅僅找出了變量間的相互關(guān)系,得到的結(jié)果也只是已觀察過情況的總結(jié)。當(dāng)一個未觀察過的情況出現(xiàn)時,該方法便無法準(zhǔn)確得出結(jié)論。而因果發(fā)現(xiàn)技術(shù)則可以在已觀測數(shù)據(jù)與少量甚至未干預(yù)過的數(shù)據(jù)中發(fā)現(xiàn)其變量之間的因果關(guān)系,推測出未觀測過的情況,推斷出其結(jié)果變量的情況。這種學(xué)習(xí)方法有著很強(qiáng)的泛化能力,能夠游刃有余地應(yīng)對真實(shí)世界中各種復(fù)雜的場景,在各個學(xué)科中有廣泛的應(yīng)用前景。該技術(shù)在外國已經(jīng)有較為成熟的研究,但在國內(nèi)并未得到應(yīng)有的重視。
目前,因果發(fā)現(xiàn)技術(shù)已經(jīng)在生物信息學(xué)、神經(jīng)科學(xué)與遺傳學(xué)等領(lǐng)域得到廣泛應(yīng)用。例如,通過建立基因庫與病人的案例,研究人員可以通過因果發(fā)現(xiàn)來找到基因中存在某些突變的患者在服用蒽環(huán)類藥物時會導(dǎo)致蒽環(huán)類藥物心臟毒性[4]。還有研究者使用該技術(shù)通過觀測患者大腦區(qū)域間的變化來研究患者腦部疾病的影響與恢復(fù)情況的關(guān)系,通過觀察癌癥患者體內(nèi)的體細(xì)胞基因改變與差異表達(dá)來發(fā)現(xiàn)導(dǎo)致腫瘤產(chǎn)生的基因之間特定的因果關(guān)系[5]等。
“閱讀分級”指的是讀者可以根據(jù)自身的閱讀能力而選擇不同難度等級的讀物。閱讀分級在歐美國家被廣泛接受,成為一種行之有效的閱讀教學(xué)和閱讀出版的指導(dǎo)工具,并在中國香港、臺灣地區(qū)也得到普遍認(rèn)可。歐美分級閱讀已經(jīng)產(chǎn)生了一系列意義深遠(yuǎn)的閱讀分級標(biāo)準(zhǔn),如A—Z 分級法、Lexile 分級系統(tǒng)等[6]。分級閱讀作為課堂閱讀教學(xué)和課外閱讀延伸,對兒童閱讀起到極大推動作用。兒童處在生理與心理快速發(fā)育的重要階段,閱讀動機(jī)與閱讀性質(zhì)不盡相同,不同年齡、性別間知識結(jié)構(gòu)亦存在差別,甚至不同家庭和地區(qū)的兒童閱讀水平也有明顯差異[7]。因此,將分級閱讀引入兒童閱讀是非常有必要的。
目前,我國已經(jīng)對兒童的分級閱讀有了較為成熟的分類體系,根據(jù)兒童不同時期的心理特點(diǎn)設(shè)立了不同的推薦閱讀書目,其評價標(biāo)準(zhǔn)有身體與動作發(fā)展,認(rèn)知與智力發(fā)展,語言發(fā)展,情緒、人格與社會發(fā)展等。如接力出版社發(fā)布的《中國兒童分級閱讀參考書目》和《兒童心智發(fā)展與分級閱讀建議》將兒童分級閱讀年齡的分層主要為:0~4 歲,4~6 歲,7~8 歲,9~10 歲,11~12 歲[8]。0~4 歲的兒童注意力短暫,但可以認(rèn)知基本物體與概念,因此推薦閱讀《小酷和小瑪?shù)恼J(rèn)知繪本》《嬰兒游戲繪本》。其語言發(fā)展特征主要為喜歡運(yùn)用聲音玩游戲、開始學(xué)習(xí)基本的詞匯與語法,建立語言基礎(chǔ),因此推薦閱讀《噼里啪啦系列叢書》《我爸爸》等。可以看出,不同年齡的兒童閱讀能力是存在差異的,分級閱讀向兒童閱讀提供了循序漸進(jìn)的上升臺階,為家長與館員指導(dǎo)兒童閱讀提供了有效標(biāo)準(zhǔn)[9]。
大數(shù)據(jù)能對人類的科學(xué)研究范式產(chǎn)生翻天覆地的影響,圖書館并不缺乏大數(shù)據(jù),并且圖書館也應(yīng)重視大數(shù)據(jù)的收集工作,并為之所用[10]。數(shù)據(jù)的采集與整理是該模型的最初階段。數(shù)據(jù)采集指圖書館通過各種形式收集讀者的各種資料,作為大數(shù)據(jù)對后面的分析工作做前期鋪墊并經(jīng)過關(guān)聯(lián)和聚合后,采用統(tǒng)一的結(jié)構(gòu)來存儲此類數(shù)據(jù),采集渠道可以通過讀者讀書證、會員卡、讀者圖書館網(wǎng)站賬號信息、問卷調(diào)查等進(jìn)行收集,整理成各種所需數(shù)據(jù)錄入數(shù)據(jù)庫,以供進(jìn)一步數(shù)據(jù)分析。圖書館應(yīng)向讀者承諾所收集到的個人隱私完全保密,絕不對外公開。圖書館可根據(jù)算法分析所需的條件向讀者獲取各種必須分析的信息,包括讀者的姓名、年齡、借書記錄、愛好、性別、所處地區(qū)等。
讀者的姓名可以作為收集數(shù)據(jù)的小數(shù)據(jù)集頭標(biāo),起到區(qū)分不同數(shù)據(jù)的作用。讀者年齡是兒童分級閱讀的關(guān)鍵數(shù)據(jù),用以區(qū)分不同年齡段的讀者。借書記錄則是通過讀者的閱讀習(xí)慣與喜好,向讀者提供更加精準(zhǔn)的書籍推薦服務(wù)。
讀者的愛好、性別、所處地區(qū)則是圖書館用以更加精準(zhǔn)地進(jìn)行讀者畫像的方式。不同性別、不同地區(qū)的讀者其閱讀意愿是有所不同的[11]。由于地區(qū)之間存在經(jīng)濟(jì)、地理?xiàng)l件等差異,不同地區(qū)的人有可能會導(dǎo)致各個區(qū)域的分析產(chǎn)生差異化的結(jié)果[12]。例如我國東北、新疆、內(nèi)蒙古等地區(qū)的人大多直爽豪邁,受地區(qū)的社會背景影響,很有可能導(dǎo)致其喜歡閱讀的書籍有所不同,因此讀者所處的地區(qū)也可以作為分析的標(biāo)準(zhǔn)之一。
數(shù)據(jù)整理指的是圖書館對收集來的數(shù)據(jù)進(jìn)行匯總后清洗,將其中多余的假數(shù)據(jù)、空數(shù)據(jù)去除,并把有效數(shù)據(jù)篩選出來[13],保證數(shù)據(jù)的可靠性,之后進(jìn)行整理,按照事先所預(yù)設(shè)的標(biāo)準(zhǔn),將各項(xiàng)數(shù)據(jù),分別分成一個個節(jié)點(diǎn),并經(jīng)過關(guān)聯(lián)和聚合后采用統(tǒng)一的結(jié)構(gòu)來存儲此類數(shù)據(jù)。
在進(jìn)行圖書推薦時,館員常常與少兒的父母溝通,以了解少兒的偏向書籍與興趣愛好,以準(zhǔn)確快速地為他們查找與推薦相關(guān)方面的書籍,增強(qiáng)少兒快樂閱讀的體驗(yàn)[14]。但值得注意的是,由于兒童在書籍的選擇上缺乏主動性,兒童閱讀書籍的選擇一般都受到家長與館員嚴(yán)重的干擾。因此,在數(shù)據(jù)的收集階段,館員必須提醒前來圖書館借書的家長充分尊重兒童的閱讀意愿,必要時,館員可以通過引導(dǎo)式的提問向兒童讀者進(jìn)行詢問,推測出兒童最有可能想要閱讀的書籍,并進(jìn)行推薦。
數(shù)據(jù)分析是因果發(fā)現(xiàn)工作中最核心的部分,指的是挖掘數(shù)據(jù)之間隱藏的聯(lián)系。圖書館數(shù)據(jù)庫能夠采集到大量的信息,而這些信息是未經(jīng)加工過、雜亂無章的信息,因此便需要進(jìn)行數(shù)據(jù)分析。目的不同,數(shù)據(jù)分析使用的技術(shù)也會存在差別,目前數(shù)據(jù)分析常用的技術(shù)有云計(jì)算、傳感技術(shù)等。
1.已采集到數(shù)據(jù)的數(shù)據(jù)特點(diǎn)
(1)無向性:所獲取的數(shù)據(jù)形成的節(jié)點(diǎn)并無固定方向,其父屬性可以變成子屬性,子屬性也可以成為父屬性,且一對成父子屬性的節(jié)點(diǎn)可以互為父子屬性,即互為因果關(guān)系。即在該模型中,研究人員可以通過讀者的年齡、借書記錄等各種信息推算出讀者最有可能需要借閱的圖書,以達(dá)到智能薦書的目的,也可以通過某書籍被某個年齡的兒童借閱次數(shù)較多,從而推斷出該書籍適合某個年齡段的讀者閱讀,以達(dá)到促進(jìn)分級閱讀的目的。
(2)無時序性:所獲取的數(shù)據(jù)不受時間順序的影響,即數(shù)據(jù)的獲取時間不影響因果聯(lián)系的發(fā)生。即讀者在某個時間段借了某本書,并不會對該讀者現(xiàn)在想要借某本書產(chǎn)生結(jié)果上的影響。因此所收集的數(shù)據(jù)存在時間上的差異并不會對程序運(yùn)算的結(jié)果產(chǎn)生影響。
(3)節(jié)點(diǎn)相互獨(dú)立:指某個節(jié)點(diǎn)的產(chǎn)生并不會對其他節(jié)點(diǎn)造成影響,也不會對其他單個父-子的因果聯(lián)系造成影響。例如,讀者姓名的不同并不會對其年齡與借書記錄產(chǎn)生任何影響,也不會對程序運(yùn)算的結(jié)果產(chǎn)生影響。因此,不同數(shù)據(jù)集中的節(jié)點(diǎn)是相互獨(dú)立的,不會對其他平行鏈條上的父-子節(jié)點(diǎn)產(chǎn)生任何影響。
2.采集數(shù)據(jù)對貝葉斯網(wǎng)絡(luò)的影響
貝葉斯網(wǎng)絡(luò)(Bayesian Networks)用以表示變量集合的連接概率分布,其由一個有向無環(huán)圖和條件概率組成。它提供了一種自然的表示因果信息的方法,貝葉斯網(wǎng)絡(luò)本身各結(jié)點(diǎn)是獨(dú)立計(jì)算的,并沒有輸入和輸出的概念,所以貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)可以自上而下進(jìn)行推理,也可以從下級結(jié)點(diǎn)反過來推理上級結(jié)點(diǎn)[15],與采集數(shù)據(jù)的特點(diǎn)一致。在這個因果貝葉斯網(wǎng)絡(luò)中的各個變量是網(wǎng)絡(luò)中的一個個節(jié)點(diǎn),節(jié)點(diǎn)間線段相連,并存在條件概率值。該線段表示變量關(guān)聯(lián),概率表示關(guān)聯(lián)性的大小。
以下是貝葉斯網(wǎng)絡(luò)的數(shù)學(xué)定義。如表示一個在一個有向無環(huán)圖中,設(shè)G=(X,A),X 為節(jié)點(diǎn)集合,A 為節(jié)點(diǎn)直接依賴關(guān)系,aij 表示Xi 與Xj 之間的有向連接,Xi←Xj;Θ 是網(wǎng)絡(luò)參數(shù)貝葉斯網(wǎng)絡(luò)所表示的所有節(jié)點(diǎn)的聯(lián)合概率就可以表示為各節(jié)點(diǎn)條件概率的乘積。
其中當(dāng)i ?。?,2,…,n)時,π(Xi)表示Xi 的父節(jié)點(diǎn)集。網(wǎng)絡(luò)結(jié)構(gòu)G 確定后,節(jié)點(diǎn)間的相關(guān)關(guān)系也隨之確定。此后,結(jié)合網(wǎng)絡(luò)參數(shù)Θ,貝葉斯網(wǎng)絡(luò)就可以準(zhǔn)確地推理出節(jié)點(diǎn)X 的聯(lián)合概率分布。并且,如果節(jié)點(diǎn)間存在條件獨(dú)立的性質(zhì),貝葉斯網(wǎng)絡(luò)的計(jì)算效率將比其他計(jì)算聯(lián)合概率的方法高得多[16]。
根據(jù)本模型收集數(shù)據(jù)的特點(diǎn)可知,最終建立的模型為無向圖,只含無向邊的圖稱為無向圖。無向邊一般表示對稱關(guān)系,比如隨機(jī)變量間的相關(guān)關(guān)系。如在無向圖g=(V,E)中,X、Y、Z是V 的三個互不相交的子集,X、Y 不是空集,若從X 到Y(jié) 的每條路徑都經(jīng)過Z 中的點(diǎn),則稱X和Y 被Z 分離,記為X⊥Y|Z,并且稱Z 是X 和Y的分離集。因此從{me}到{an}的每條路徑都經(jīng)過集合{al},因此{(lán)me}⊥{an}|{al}。DAG 是指只含有向邊且不含有向環(huán)的圖,其中的有向邊一般表示時序或者因果等非對稱關(guān)系,可用來推斷因果關(guān)系。因?yàn)镈AG 模型蘊(yùn)涵的信息豐富,近幾年來頗受關(guān)注,尤其是在人工智能領(lǐng)域[17]。
由于不同數(shù)據(jù)的特性存在差異性,其因果發(fā)現(xiàn)的方法也應(yīng)存在不同。其可以分為基于時序與非時序的觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)方法兩種。據(jù)上文所述,本項(xiàng)研究的對象同樣是具有非時序性的。基于非時序觀察數(shù)據(jù)的因果關(guān)系發(fā)現(xiàn)如下:給定p維變量集V={v1,v2,…,vp}上的m組非時序觀察數(shù)據(jù)X={x1,x2,…,xm},發(fā)現(xiàn)變量{v1,v2,…,vp} 間的因果關(guān)系[18][19]。目前,非時序觀察數(shù)據(jù)的因果關(guān)系也是領(lǐng)域內(nèi)的研究熱點(diǎn),具有更廣的適用范圍。
3.“大P大數(shù)據(jù)”與“大N大數(shù)據(jù)”
隨著技術(shù)的進(jìn)步,為了對大數(shù)據(jù)進(jìn)行形象化的研究,“大N 大數(shù)據(jù)”和“大P 大數(shù)據(jù)”的概念被提了出來。如設(shè)大數(shù)據(jù)為一矩陣,N 為觀測個數(shù),P 為變量個數(shù),便可細(xì)分出以上兩種大數(shù)據(jù)。當(dāng)觀測目標(biāo)數(shù)量大于變量時,此數(shù)據(jù)類型被稱為“大N大數(shù)據(jù)”。該類數(shù)據(jù)能提升推斷精度,但觀測個數(shù)的多少會對結(jié)果產(chǎn)生很大的影響。當(dāng)個數(shù)過大或過小時,其得出的推算結(jié)果往往會偏離。因此,僅僅使用“大N 大數(shù)據(jù)”技術(shù)是難以展開因果推斷的。而“大P 大數(shù)據(jù)”的P 指的是某個指定的研究對象中所有的信息,P 即對象本身。在大P 數(shù)據(jù)集中,單個個體的所有信息都能包含在內(nèi),例如用戶的家庭背景、社會背景、個人行為偏好等。因此,相較于其他數(shù)據(jù)集,“大P 大數(shù)據(jù)”可增加更多變量,提供更多信息,推理更加有效。實(shí)驗(yàn)中盡管變量的具體有可能少于觀測個數(shù),但卻已經(jīng)包含了指定觀測對象的全部信息,使得實(shí)驗(yàn)進(jìn)行的推斷更加全面與準(zhǔn)確[20]。
值得注意的是,當(dāng)利用“大P 大數(shù)據(jù)”進(jìn)行因果推斷時,其中的變量必須不低于外生可能性的所有變量,即對結(jié)果可能產(chǎn)生影響的除了處理后變量的所有變量,這是利用“大P 大數(shù)據(jù)”進(jìn)行因果推斷有效的前提。因此使用“大P 大數(shù)據(jù)”時,需要研究對象相關(guān)的理論進(jìn)行細(xì)致的研究,以設(shè)置科學(xué)的變量,保證使得變量的范圍能夠包涵單個研究對象足量的信息[21]。
在大數(shù)據(jù)時代,傳統(tǒng)的分析方法往往難以處理龐大且復(fù)雜的數(shù)據(jù)關(guān)系,因此需要利用可視化技術(shù)來輔助研究。圖形化的數(shù)據(jù)相較于抽象的文字是更加具體與形象的,復(fù)雜的多維數(shù)據(jù)關(guān)系與深層的原因與現(xiàn)象都能夠直觀、簡化地呈現(xiàn)出來,減少了科研人員的工作量,并且在數(shù)據(jù)結(jié)果的理解上,能使科研人員與用戶更直觀地閱讀與接受。
1.通過因果推斷的兒童閱讀智能書籍推薦
某項(xiàng)研究中的各個屬性之間通常有一定的因果關(guān)系。如太陽的周期活動很可能導(dǎo)致了某地的洪水泛濫,因此研究人員可以采用圖模型的形式對這種屬性之間因果關(guān)系進(jìn)行表達(dá)。圖模型可以包括兩部分內(nèi)容,即定性描述與定量描述兩種。定性描述指的是描述屬性之間相互關(guān)系的結(jié)構(gòu),而定量描述指的是描述該屬性與其父親屬性的相關(guān)程度的參數(shù)。當(dāng)圖中各屬性的連線是有向弧并且結(jié)構(gòu)中沒有環(huán)時,該圖模型稱為DAG(directed acyclic graph),有時也稱為因果模型(causal models)。因果模型不僅能表現(xiàn)出不同屬性之間的因果聯(lián)系,還是進(jìn)行概率推理的有效工具[22]??梢钥闯?,通過因果發(fā)現(xiàn)算法圖書館能夠計(jì)算出某本書適合某位兒童讀者的概率,圖書館員可以根據(jù)運(yùn)算出來的概率結(jié)果,向讀者推薦有可能最適合該讀者的書籍,以達(dá)到智能薦書的效果,更好地服務(wù)讀者。該算法通過大數(shù)據(jù)及節(jié)點(diǎn)間的因果聯(lián)系進(jìn)行順推,根據(jù)讀者提供的不同信息,如性別、年齡、偏好等,結(jié)合其歷史借閱情況,推斷出不同年齡段不同偏好的兒童最有可能借閱的圖書,便可以進(jìn)行書籍的智能推薦。
如該讀者是第一次使用圖書館,所需信息較少,即前文所述的“大N 大數(shù)據(jù)”,難以進(jìn)行準(zhǔn)確的因果推斷,則根據(jù)其僅有的條件進(jìn)行大數(shù)據(jù)推斷,即如僅有信息“性別(男)”,則對整個男性兒童讀者進(jìn)行統(tǒng)計(jì),向其推薦整個男性兒童讀者借閱率最高的書籍。
2.大數(shù)據(jù)在智慧圖書館兒童分級閱讀的因果發(fā)現(xiàn)
同心理過程相比,人工智能算法是具有更高規(guī)范性的。對于所有因果發(fā)現(xiàn)算法,機(jī)器學(xué)習(xí)研究者都在演繹推斷的嚴(yán)格意義上證明了它們在正確的輸入下能夠輸出正確的結(jié)果[23]。因此,通過因果發(fā)現(xiàn)這類人工智能算法來對兒童閱讀書籍進(jìn)行分級更規(guī)范,更準(zhǔn)確。兒童分級閱讀智能薦書模型是基于大數(shù)據(jù)及節(jié)點(diǎn)間的因果聯(lián)系進(jìn)行逆推,在保證兒童借書選擇最大程度的主動性上,對不同年齡兒童最受歡迎的圖書情況進(jìn)行分析,在其中還可以加上各圖書作者、書商對圖書的評價情況與專家對各圖書的評價等作為標(biāo)準(zhǔn),以增加分級因果推斷的準(zhǔn)確性,綜合推斷出不同年齡段的兒童所適合閱讀的書籍,以達(dá)到兒童書籍分級的目的,促進(jìn)我國兒童分級閱讀事業(yè)的發(fā)展。
因果發(fā)現(xiàn)是一種準(zhǔn)確有效的人工智能概率算法。圖書館可以運(yùn)用該算法建立智慧圖書館兒童分級閱讀智能薦書模型,將圖書館日常工作中所收集的讀者數(shù)據(jù)作為大數(shù)據(jù)輸入模型,通過概率運(yùn)算,可以得出兒童讀者最有可能想要閱讀的書籍是哪本、哪本書適合該讀者的概率最大。并且,通過大數(shù)據(jù)計(jì)算,還可以對兒童圖書的分級進(jìn)行計(jì)算,分析出各個年齡段兒童所適合閱讀的書籍,促進(jìn)我國兒童分級閱讀事業(yè)的發(fā)展。