李建偉
(嘉應(yīng)學(xué)院圖書館,廣東 梅州 514045)
信息服務(wù)是圖書館的一項(xiàng)核心業(yè)務(wù)工作,是圖書館開展學(xué)科知識(shí)服務(wù)的重要工具,是專業(yè)館員與讀者知識(shí)交流溝通的重要“橋梁”。遵循傳統(tǒng)信息咨詢服務(wù)模式的圖書館,咨詢館員能否為讀者提供深度的知識(shí)咨詢服務(wù),往往取決于自己是否具備足夠?qū)挼闹R(shí)面以及良好的溝通交流能力。因不同咨詢館員各自知識(shí)結(jié)構(gòu)、素養(yǎng)以及業(yè)務(wù)技能水平不一,所以往往會(huì)造成咨詢服務(wù)質(zhì)量參差不齊或咨詢表面化等問題。在傳統(tǒng)咨詢信息分析環(huán)節(jié)過程中,讀者更多地依賴咨詢專家主觀的業(yè)內(nèi)經(jīng)驗(yàn),面對(duì)日趨復(fù)雜的咨詢情境,也容易陷入咨詢效果偏離現(xiàn)實(shí)要求的困境[1]。
近年來,“互聯(lián)網(wǎng)+”的快速發(fā)展悄然改變了信息服務(wù)的傳統(tǒng)方式,互聯(lián)網(wǎng)問答社區(qū)日益興起,問答社區(qū)以知識(shí)與經(jīng)驗(yàn)共享為目的,參與者可以關(guān)注感興趣的話題,可以提問尋求幫助,其他用戶則可以根據(jù)自身的知識(shí)、見解在線給予解答。社區(qū)平臺(tái)還通過提問、回答、評(píng)論等互動(dòng)來激發(fā)讀者的知識(shí)分享行為,以多元化的獎(jiǎng)勵(lì)方式積極邀請(qǐng)其他讀者來參與,目前比較盛行的問答平臺(tái)有Quora、Stack Overflow、知乎等。另外智能問答系統(tǒng)也逐漸走入互聯(lián)網(wǎng)用戶日常生活,如Google Now 會(huì)全面了解人們的各種習(xí)慣和正在進(jìn)行的動(dòng)作來為其提供相關(guān)信息,蘋果公司Siri手機(jī)語音助手,微軟小冰也正在被大家廣泛使用。
面對(duì)時(shí)代的挑戰(zhàn),為提升信息咨詢的實(shí)時(shí)與便捷性,圖書館正積極開發(fā)分布式虛擬信息咨詢系統(tǒng),一體化的咨詢平臺(tái)可以充分發(fā)揮學(xué)科館員的智力勞動(dòng),為用戶提供集實(shí)時(shí)咨詢與延時(shí)咨詢于一體提供深層次、多應(yīng)用場(chǎng)景靈活切換的服務(wù),以彌補(bǔ)傳統(tǒng)模式下延時(shí)咨詢方式的不足。區(qū)別于傳統(tǒng)咨詢的“接受服務(wù)”,部分圖書館構(gòu)建虛擬知識(shí)平臺(tái),通過解答問題創(chuàng)造知識(shí),通過用戶互相探討提供知識(shí)服務(wù)。咨詢館員的主要角色則由負(fù)責(zé)回答用戶問題轉(zhuǎn)換為審核讀者提交的問題或答案,適時(shí)有針對(duì)性地將恰當(dāng)?shù)膬?nèi)容推送給用戶,或者邀請(qǐng)其他用戶、專家協(xié)助解答。另外,館員承擔(dān)把館員和用戶的隱性知識(shí)轉(zhuǎn)化為顯性知識(shí)的任務(wù),將問題答案累積到知識(shí)庫中,為讀者未來的學(xué)習(xí)研究提供參考。同時(shí)智能機(jī)器人館員也開始上崗,如上海圖書館引進(jìn)的機(jī)器人“圖小靈”,當(dāng)它被培訓(xùn)“學(xué)習(xí)”到知識(shí)后,可以像一名資深圖書館員一樣,為讀者提供信息咨詢服務(wù)。服務(wù)創(chuàng)新是圖書館信息咨詢業(yè)務(wù)形成核心競(jìng)爭(zhēng)力的唯一途徑,傳統(tǒng)圖書館咨詢服務(wù)正逐步邁向新一代的智慧服務(wù)模式。
自2009年IBM提出“智慧地球”概念以來,伴隨著大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)和人工智能等技術(shù)的快速發(fā)展,智慧圖書館及其服務(wù)體系已經(jīng)成為圖書館界研究的熱門課題[2]。近年來,人工智能在知識(shí)表示、語音識(shí)別、語義識(shí)別、計(jì)算機(jī)視覺等領(lǐng)域取得一次又一次突破,在圖書館的知識(shí)咨詢服務(wù)領(lǐng)域也催生了越來越多的信息服務(wù)“智慧”應(yīng)用。大數(shù)據(jù)與云計(jì)算是人工智能發(fā)展的基礎(chǔ),三者的融合已經(jīng)深刻影響了各行各業(yè)的革新式發(fā)展。機(jī)器智能系統(tǒng)要擁有類似人類的智能理解事物問題的能力,很大程度上依賴于是否擁有龐大的數(shù)據(jù)量,是否擁有強(qiáng)大計(jì)算分析能力的處理器以及快速的網(wǎng)絡(luò)傳輸速度。傳統(tǒng)互聯(lián)網(wǎng)到移動(dòng)互聯(lián)網(wǎng)的發(fā)展,設(shè)備互聯(lián),人機(jī)互聯(lián),信息大量涌現(xiàn)且無處不在,衍生出了大數(shù)據(jù)時(shí)代。大數(shù)據(jù)處理需具備執(zhí)行大規(guī)模并行計(jì)算能力的處理器,當(dāng)前遠(yuǎn)超CPU 并行計(jì)算能力的GPU處理器的出現(xiàn),使得大數(shù)據(jù)處理變得可能。5G網(wǎng)絡(luò)時(shí)代的到來,更加全面地釋放人工智能的潛能,有力地推動(dòng)了整個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)智能化。面對(duì)人工智能、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等技術(shù)異軍突起,現(xiàn)代圖書館也在探索運(yùn)用人工智能理論與技術(shù)讓機(jī)器“聽懂”“讀懂”“看懂”用戶的資源需求,為用戶提供自動(dòng)、主動(dòng)、精準(zhǔn)的知識(shí)咨詢服務(wù)。
智慧圖書館以數(shù)字化、網(wǎng)絡(luò)化、智能化的信息技術(shù)為基礎(chǔ),以互聯(lián)、高效、便利為主要特征[3]?,F(xiàn)代圖書館與讀者的人機(jī)交互方式,不再局限于傳統(tǒng)的鼠標(biāo)和鍵盤結(jié)合的用戶界面,而是傾向于更加符合人類習(xí)慣的不受時(shí)空限制的語音交互。用戶利用人工智能的“認(rèn)知”技術(shù),通過語音和拍攝圖片的方式向咨詢“機(jī)器人”發(fā)出指令?!皺C(jī)器人”依次完成圖像識(shí)別、用戶語音識(shí)別、內(nèi)容語義分析后,可以準(zhǔn)確獲取用戶需求,通過語音合成模擬自然人進(jìn)行結(jié)果反饋,用戶在聆聽機(jī)器語音回答時(shí)就像與專業(yè)館員對(duì)話一樣,同步性更強(qiáng)。語音問答既可以幫助咨詢館員更好理解用戶所表達(dá)的知識(shí)問題,也可以有效感知用戶所傳遞的隱性信息,包括說話語氣、態(tài)度和情緒等,使得讀者與咨詢館員之間的知識(shí)互動(dòng)和信息交流傳播富有情感和感染力。當(dāng)然,現(xiàn)存人機(jī)交互技術(shù)也存在不少障礙,如語音識(shí)別無法準(zhǔn)確識(shí)別地方方言;語音合成技術(shù)在音色、語速和語種等方面的合成上存在不小的缺陷;語義理解技術(shù)法難于做到全部理解,因?yàn)樵~語有歧義,句法有模糊,語義背后隱含的情感難以理解。然而,運(yùn)用人工智能技術(shù)實(shí)現(xiàn)自助式信息咨詢服務(wù),可以讓讀者擁有更多更精細(xì)的回答,獲得更全面更快捷的咨詢服務(wù)體驗(yàn)。
信息服務(wù)平臺(tái)中咨詢館員與讀者的知識(shí)交流容易產(chǎn)生有價(jià)值的交互數(shù)據(jù),包括原始創(chuàng)作的各類視頻、聲音、圖片、文字等信息內(nèi)容。人工智能是和大數(shù)據(jù)聯(lián)系在一起的,擁有“聰明算法”的網(wǎng)絡(luò)機(jī)器人,可以采集自動(dòng)抓取實(shí)時(shí)交流更新的信息,用戶的任何一個(gè)閱讀行為將被如實(shí)記錄,如點(diǎn)擊次數(shù)、內(nèi)容閱讀時(shí)長(zhǎng)、讀者評(píng)論、轉(zhuǎn)發(fā)或分享動(dòng)作等。智能系統(tǒng)對(duì)這些交互數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、篩選、挖掘、分析,語義理解用戶提問,大數(shù)據(jù)分析用戶的閱讀興趣,描繪一個(gè)用戶的興趣圖譜,然后針對(duì)用戶的興趣來智能遴選信息,選擇在合適的應(yīng)用場(chǎng)景讓最匹配的知識(shí)信息和目標(biāo)用戶耦合。最后啟動(dòng)語音自動(dòng)回答,真正體現(xiàn)智能知識(shí)咨詢的“信息通路”功能。以大數(shù)據(jù)為基礎(chǔ),以人工智能為核心,以提供個(gè)性、精準(zhǔn)、高效的信息服務(wù)為目標(biāo),新一代智能知識(shí)咨詢服務(wù)形成的是以大數(shù)據(jù)驅(qū)動(dòng)的標(biāo)準(zhǔn)化、專業(yè)化的知識(shí)咨詢服務(wù)閉環(huán)生態(tài),如圖1所示。
圖1 智慧信息咨詢服務(wù)閉環(huán)生態(tài)
在智慧信息服務(wù)生態(tài)中,系統(tǒng)人員預(yù)先為知識(shí)問答建模,經(jīng)過成熟模型訓(xùn)練,保存穩(wěn)定的模型。當(dāng)用戶發(fā)起信息請(qǐng)求時(shí),平臺(tái)經(jīng)過無監(jiān)督式自我深度學(xué)習(xí)準(zhǔn)確預(yù)測(cè)結(jié)果,向用戶主動(dòng)推送,讓咨詢館員從一些簡(jiǎn)單、重復(fù)的工作中解放出來。利用海量歷史數(shù)據(jù)來關(guān)聯(lián)計(jì)算讀者關(guān)注某一話題的信息強(qiáng)度,如果信息強(qiáng)度超過閾值,圖書館智能知識(shí)咨詢系統(tǒng)會(huì)自動(dòng)向讀者推送預(yù)期信息資訊,解決人工難以完成的有效的個(gè)性化推薦的問題,也為讀者節(jié)省了信息過濾的時(shí)間。資深館員的智慧和經(jīng)驗(yàn)則主要運(yùn)用于如何確定人工智能在信息咨詢服務(wù)中的使用場(chǎng)景,如何抽查審核內(nèi)容,如何修正技術(shù)差錯(cuò)以確保內(nèi)容安全,從某種意義上說,智能知識(shí)咨詢是人工智能與專業(yè)館員共同努力的結(jié)果。
人類擁有的一項(xiàng)高級(jí)智能行為是自我學(xué)習(xí),能否讓機(jī)器像人類一樣可以利用不斷積累經(jīng)驗(yàn)自動(dòng)改善自身效能,不斷生產(chǎn)出更多新的知識(shí)呢?機(jī)器學(xué)習(xí)正是讓機(jī)器具備人類智能必要的最重要的技術(shù),使它學(xué)習(xí)數(shù)據(jù)中的內(nèi)在規(guī)律性信息,獲得新的經(jīng)驗(yàn)和知識(shí),能夠像人那樣去決策。當(dāng)前機(jī)器學(xué)習(xí)在社會(huì)領(lǐng)域的應(yīng)用研究已經(jīng)取得了重要進(jìn)展,一些重復(fù)、數(shù)量龐雜卻簡(jiǎn)單的工作完全可以由機(jī)器學(xué)習(xí)的方式來替代,以減輕人的負(fù)擔(dān)。深度學(xué)習(xí)則是近年來機(jī)器學(xué)習(xí)的新的研究方向,它模擬人腦的多分層結(jié)構(gòu)、神經(jīng)元的連接交互、信息的逐層分析處理等機(jī)制,使機(jī)器模仿視聽和思考等人類活動(dòng),自適應(yīng)、自學(xué)習(xí)能力強(qiáng)大,被稱為最接近人類大腦的智能學(xué)習(xí)方法和認(rèn)知過程[4]。
隨著大數(shù)據(jù)時(shí)代的到來,深度學(xué)習(xí)技術(shù)在語音識(shí)別、搜索推薦、自然語言處理等領(lǐng)域應(yīng)用前景廣闊,圖書館也逐漸融入深度學(xué)習(xí)構(gòu)建智慧知識(shí)自動(dòng)問答平臺(tái)開展虛擬咨詢服務(wù)。首先智能咨詢系統(tǒng)源源不斷將數(shù)據(jù)傳到云端,利用人工智能的算法對(duì)這些數(shù)據(jù)進(jìn)行比對(duì),應(yīng)用“語音識(shí)別”將用戶產(chǎn)生的錄音內(nèi)容自動(dòng)轉(zhuǎn)化為相應(yīng)的文本或命令。云計(jì)算的出現(xiàn)使集中化數(shù)據(jù)計(jì)算處理能力變得空前強(qiáng)大,機(jī)器利用深度學(xué)習(xí)技術(shù)進(jìn)行語義識(shí)別,完成內(nèi)容理解和價(jià)值判斷或轉(zhuǎn)換為命令,基于大數(shù)據(jù)的“咨詢大腦”會(huì)將新出現(xiàn)的內(nèi)容與已有數(shù)據(jù)進(jìn)行關(guān)聯(lián)技術(shù)計(jì)算,準(zhǔn)確理解語義進(jìn)行檢索,最后將輸出結(jié)果轉(zhuǎn)換成機(jī)器合成的語音,以對(duì)話的形式將結(jié)果反饋給用戶,見圖2。對(duì)于沒有事先定義的輸入問句,對(duì)咨詢館員而言是困難的,但對(duì)機(jī)器來說其實(shí)只要符合一定的規(guī)則,問答系統(tǒng)可以從一系列可能的回答中選出一個(gè)與問句最相關(guān)的答句,給讀者感覺像是在和人問答而非與機(jī)器問答。
圖2 自動(dòng)知識(shí)問答服務(wù)框架
區(qū)別于基于知識(shí)數(shù)據(jù)庫檢索的傳統(tǒng)咨詢方法,基于深度學(xué)習(xí)算法的端到端的問答系統(tǒng),有機(jī)組織語音識(shí)別、語義理解和語音合成等重要人工智能技術(shù)實(shí)現(xiàn)自動(dòng)問答的功能,主動(dòng)提供與問題相關(guān)聯(lián)的主題知識(shí)。智能知識(shí)咨詢?nèi)谌肷疃葘W(xué)習(xí),從海量的低層交互數(shù)據(jù)中自動(dòng)地提取多層特征表示,由具體到抽象、由一般到特定,從簡(jiǎn)單特征中提取更加復(fù)雜的特征,目標(biāo)是讓機(jī)器不僅僅能夠識(shí)別讀者提交的文字、圖像和聲音等數(shù)據(jù),還要能夠像人一樣具有分析學(xué)習(xí)能力,能夠并使用這些組合特征去幫助讀者回答問題。
3.3.1 自動(dòng)問答系統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)與模型訓(xùn)練
基于深度學(xué)習(xí)的自動(dòng)問答系統(tǒng)學(xué)習(xí)模型模擬人腦的學(xué)習(xí)能力,依賴于含有多隱層的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)隱層節(jié)點(diǎn)一般超過5 層,有時(shí)多達(dá)10 層。學(xué)習(xí)模型首先讓各層預(yù)先學(xué)習(xí)來自數(shù)據(jù)源的知識(shí)特征,再經(jīng)過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)層的學(xué)習(xí)推理,生產(chǎn)出預(yù)先沒有發(fā)現(xiàn)的有價(jià)值的一系列知識(shí)規(guī)則。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)層的學(xué)習(xí)從淺層順次開始,由淺層的初級(jí)特征逐步學(xué)習(xí)到深層的高級(jí)特征,上一層學(xué)習(xí)得出輸出數(shù)據(jù)會(huì)作為下一層的輸入數(shù)據(jù),最后將初始樣本數(shù)據(jù)從原有特征空間轉(zhuǎn)換為一個(gè)全新的特征空間來表示,建立起對(duì)輸入問題和輸出答案之間的聯(lián)合分布,達(dá)到對(duì)大規(guī)模語料數(shù)據(jù)特征學(xué)習(xí)的目的,可以使咨詢問題分類或自動(dòng)預(yù)測(cè)問題答案更加容易實(shí)現(xiàn),提高精度,如圖3。學(xué)習(xí)模型強(qiáng)調(diào)知識(shí)反饋學(xué)習(xí),采用參數(shù)權(quán)值賦予的形式更有效地控制學(xué)習(xí)算法的可變因素,以便更主動(dòng)地適應(yīng)新、老用戶人機(jī)之間的學(xué)習(xí)差異。
圖3 智能知識(shí)咨詢平臺(tái)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模型
智能信息咨詢系統(tǒng)學(xué)習(xí)能力的培養(yǎng)與人類相似,需要教材和預(yù)先訓(xùn)練,基于規(guī)則先構(gòu)造小型語料分類器進(jìn)行數(shù)據(jù)處理,目的是用機(jī)器學(xué)習(xí)方法訓(xùn)練出一個(gè)準(zhǔn)確率比較可觀的模型,然后作為更大規(guī)模數(shù)據(jù)集的數(shù)據(jù)處理器。訓(xùn)練數(shù)據(jù)獲取渠道、途徑和來源、用戶在線瀏覽信息的行為、咨詢館員與用戶交互產(chǎn)生的信息、用戶生產(chǎn)的內(nèi)容信息等也成為訓(xùn)練集的重要來源。由于面向?qū)I(yè)知識(shí)領(lǐng)域的特定主題的語料獲取、整理比較困難,可以通過發(fā)放問卷的形式或引導(dǎo)讀者填寫關(guān)于指令類語句等形式有償回收用戶的反饋,通過人工編輯構(gòu)成質(zhì)量較高的具有相應(yīng)主題的語料。語料庫的主題設(shè)置可以圍繞圖書館讀者服務(wù)項(xiàng)目進(jìn)行有針對(duì)性的層級(jí)設(shè)置,如設(shè)置學(xué)科服務(wù)、館際互借、書刊借閱、讀者培訓(xùn)、電子資源獲取、規(guī)章制度、意見建議等常見一級(jí)主題問題,每一個(gè)子主題設(shè)置數(shù)量充足的問題語句,每個(gè)咨詢問題一般歸屬一個(gè)類目,內(nèi)容特征相似的問題最多可以歸屬2~3個(gè)類目。
3.3.2 智能信息咨詢服務(wù)自然語言處理
機(jī)器無法直接理解人類的語言,如何將咨詢平臺(tái)用戶的輸入劃分到相應(yīng)的主題中去,是實(shí)現(xiàn)自動(dòng)問答系統(tǒng)的關(guān)鍵技術(shù)。自然語言處理是人工智能領(lǐng)域研究的重要方向,為讓機(jī)器可以運(yùn)用學(xué)習(xí)算法來處理自然語言,通常采用詞向量的方法將語言數(shù)學(xué)化,譬如經(jīng)典的詞向量,表示方法one-hot representation是采用將所有的單詞標(biāo)號(hào)后建立一個(gè)詞表長(zhǎng)度大小維度的向量,然后組成一個(gè)句子的方法,如將詞語表示成x={0,0,0,0,1,0,…,0,0,0,…}的形式,這個(gè)向量的每一個(gè)維度代表一個(gè)詞語,如果這個(gè)句子中有該詞語,那么將這個(gè)位置置為1,其他維度置為0。假若我們想要表示一個(gè)包含10個(gè)詞的句子,如果用20 維的詞向量來表示,我們將會(huì)得到一個(gè)10*20的矩陣作為模型訓(xùn)練的輸入。矩陣的每一行代表一個(gè)經(jīng)過分詞后的單詞元素,即一個(gè)單詞的向量表示。但one-hot 這種表示無法表示出在語義層面上詞與詞之間的相關(guān)信息,僅僅將詞符號(hào)化,而且向量的維度會(huì)隨著句子的詞的數(shù)量類型增大而增大。
Google 2013年推出的融合深度學(xué)習(xí)的思想開源工具包word2vec(也叫Word Embeddings),能夠?qū)⒆匀徽Z言中的字詞轉(zhuǎn)為計(jì)算機(jī)可以理解的稠密向量(Dense Vector),有效實(shí)現(xiàn)詞向量簡(jiǎn)單高效獲取。對(duì)于咨詢平臺(tái)的用戶輸入的句子的表示,自然語言處理任務(wù)主要將所有的訓(xùn)練數(shù)據(jù)的每個(gè)單詞向量化成一種數(shù)值表示,通過詞向量的方法將詞映射到一個(gè)矢量表示空間。利用Word2vec 的詞向量表示方法對(duì)語料進(jìn)行訓(xùn)練,不僅可以把文本處理為可控制維度的向量空間,而且能夠更有效地描述問題語句中詞語間的相關(guān)性,詞義相似的詞將被映射到向量空間中相近的位置。
為了更好、更方便、更高效地使用機(jī)器學(xué)習(xí)算法,通常需要一定的軟件平臺(tái)支持,不可忽視的是近年來科技巨頭紛紛開發(fā)深度學(xué)習(xí)框架,如CNTK、Caffe、TensorFlow等,這為圖書館大大降低了開發(fā)深度學(xué)習(xí)系統(tǒng)應(yīng)用的門檻,為智慧咨詢自然語言處理提供了強(qiáng)有力的支持。尤其是TensorFlow作為谷歌發(fā)布的新一代機(jī)器學(xué)習(xí)平臺(tái),它支持最流行的包括CNN、RNN、LSTM算法在內(nèi)的深度神經(jīng)網(wǎng)絡(luò)模型,支持C++、Python等開發(fā)語言,并能夠進(jìn)行網(wǎng)絡(luò)分布式學(xué)習(xí),利用word2vec 功能應(yīng)用實(shí)現(xiàn)字母向量化,在自然語言理解領(lǐng)域可以得到良好的應(yīng)用。
3.3.3 卷積神經(jīng)網(wǎng)絡(luò)在主動(dòng)信息推薦的應(yīng)用
智慧咨詢平臺(tái)的主動(dòng)信息推薦基本流程是通過語料分析,對(duì)用戶興趣行為的深度挖掘,過濾掉與其感興趣信息不匹配的信息,對(duì)學(xué)科屬性比較相近的提問進(jìn)行關(guān)聯(lián)計(jì)算,形成用戶關(guān)注度較高的同類話題的圖譜,生成個(gè)性化信息推薦模型以滿足用戶差異化信息獲取需求。對(duì)于語料數(shù)據(jù)集如何選用最合適的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)不斷更新的數(shù)據(jù)集都具備比較精確的主動(dòng)分類性能,是主動(dòng)問答系統(tǒng)一個(gè)研究關(guān)鍵點(diǎn)。機(jī)器學(xué)習(xí)算法主要用來求解問題,尋求最優(yōu)化步驟和過程。近年來,各種新的深度學(xué)習(xí)算法模型也不斷被提出,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等。
CNN 是一種含卷積層的比較成熟且應(yīng)用廣泛的前饋神經(jīng)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對(duì)于大規(guī)模的信息知識(shí)分類模式識(shí)別都有著非常好的性能表現(xiàn)。
在深度神經(jīng)網(wǎng)絡(luò)模型CNN中,卷積定義為:
s(i,j)=(X?W)(i,j)=∑m∑nx(i+m,j+n)w(m,n)
其中,W稱為卷積核,而X為輸入;如果X是多維輸入的張量,那么W也是一個(gè)多維的張量。例如圖4,輸入X是一個(gè)二維的3×4矩陣,卷積核W是一個(gè)2×2的矩陣。假設(shè)卷積以一次移動(dòng)一個(gè)像素來卷積的,那么左上角2×2 局部和卷積核卷積的輸出矩陣S 的S00的元素,值為aw+bx+ey+fz,即各個(gè)位置的元素相乘再相加。接著輸入的局部向右平移一個(gè)像素,同樣的方法,變成(b,c,f,g)4個(gè)元素構(gòu)成的矩陣和卷積核來卷積,可以得到輸出矩陣S 的S02,S10,S11,S12的元素。通過卷積層處理過的節(jié)點(diǎn)矩陣會(huì)變得更深,能夠有效地避免傳統(tǒng)機(jī)器學(xué)習(xí)方法所面臨的樣本特征表達(dá)稀疏、計(jì)算復(fù)雜等問題。
圖4 二維的3x4的卷積矩陣
CNN 在計(jì)算機(jī)視覺、聲音識(shí)別、人臉識(shí)別等領(lǐng)域取得了很大的成功。不少學(xué)者把它應(yīng)用于自然語言處理領(lǐng)域,并對(duì)該網(wǎng)絡(luò)進(jìn)行了改進(jìn),特別是在知識(shí)問答分類處理應(yīng)用領(lǐng)域表現(xiàn)出色。如文獻(xiàn)[5]研究了CNN 在文本分類的實(shí)際應(yīng)用,實(shí)驗(yàn)證明基于CNN 文本分類模型能夠獲得比傳統(tǒng)機(jī)器學(xué)習(xí)模型更高的正確率。文獻(xiàn)[6]和[7]介紹了如何學(xué)習(xí)將句子表示成包含語義的結(jié)構(gòu),基于用戶當(dāng)前的閱讀內(nèi)容,為其推薦其他感興趣的文檔。CNN通過卷積操作,可以學(xué)習(xí)到句子中抽象的特征且組合低層特征形成更加抽象的高層特征,而且無需人工干預(yù)。通過應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)良好的自動(dòng)學(xué)習(xí)特性,咨詢平臺(tái)自動(dòng)分析咨詢問題的內(nèi)容,分析讀者對(duì)知識(shí)熱點(diǎn)的討論,分析和研究讀者的意見、情感、評(píng)價(jià)、態(tài)度和情緒等,可以挖掘和分析出大量的知識(shí)和模式,從而為主動(dòng)信息推送提供科學(xué)規(guī)則。
3.3.4 自動(dòng)問答“問題——答案”的主動(dòng)分類
“問題——答案”主動(dòng)分類在咨詢平臺(tái)的信息組織與管理中具有舉足輕重的地位,核心方法是能夠同時(shí)理解讀者的需求和知識(shí)庫的主題特征,要提取分類數(shù)據(jù)的特征并選擇最優(yōu)的特征匹配,不僅僅限于為用戶提供問題答案簡(jiǎn)單檢索功能,而是基于深度學(xué)習(xí)更精確地為讀者進(jìn)行知識(shí)提供,為讀者節(jié)約更多信息篩選的時(shí)間和精力。
問答系統(tǒng)分類模型結(jié)構(gòu)明晰,首先要進(jìn)行文本預(yù)處理,主要去掉常用且意義不大的停用詞,同時(shí)要利用分詞算法針對(duì)中文文本進(jìn)行分詞處理,利用word2vec訓(xùn)練大量的語料得到中文詞向量。經(jīng)過分詞的輸入句子按照輸入順序逐詞編碼成一個(gè)由隱藏層輸出定長(zhǎng)的向量,這樣一個(gè)定長(zhǎng)的隱藏層向量可以充當(dāng)輸入句子的語義特征向量,其嵌入了句子中各類重要的語義信息,因此可以很有效地表征一個(gè)句子的語義。每一輪前一個(gè)詞的編碼結(jié)果將會(huì)作為下一輪后一個(gè)詞的編碼過程的輸入的一部分,因此最終得到的隱藏層向量包含了整個(gè)句子的語義信息。另一個(gè)神經(jīng)網(wǎng)絡(luò)作為解碼器,根據(jù)輸入一個(gè)個(gè)詞輸出解碼的結(jié)果,將這些詞按序拼接后得到的就是對(duì)于用戶問句的答句。在這個(gè)過程中,每一個(gè)神經(jīng)網(wǎng)絡(luò)單元的輸入是上一輪解碼的隱藏層向量與前N 輪解碼出的單詞。因此,在解碼過程中的每一輪輸出的結(jié)果都受到了上下文(也就是編碼結(jié)果)以及之前N輪生成的單詞的影響,因此系統(tǒng)輸出的答句既能準(zhǔn)確回答用戶的問題,又具有較好的語法結(jié)構(gòu)、語序合理,而且答句句式較為新穎。
加入Word2Vec 與CNN 模型的問答系統(tǒng)框架,對(duì)數(shù)據(jù)特征逐層地提取,將連續(xù)的低維特征信息進(jìn)行高維特征抽取合成,利用高維特征樣本訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)模型,充分地體現(xiàn)信息數(shù)據(jù)特征間的相關(guān)性,進(jìn)而得到理想問句——對(duì)答案的分類處理。因?yàn)榧夹g(shù)算法的融入,問答系統(tǒng)反饋的結(jié)果不再是單條即時(shí)信息的集合,而是按事先確定的規(guī)則挖掘推送的問題答案的有序聚合,通過引導(dǎo)式推薦讓讀者沉浸于內(nèi)容本身,不斷地關(guān)聯(lián)閱讀下去,從而增加閱讀深度。
人工智能技術(shù)是新時(shí)代一項(xiàng)創(chuàng)新技術(shù),在圖書館知識(shí)服務(wù)領(lǐng)域應(yīng)用前景廣闊?;谏疃葘W(xué)習(xí)實(shí)現(xiàn)圖書館智慧咨詢服務(wù),可以改變傳統(tǒng)咨詢服務(wù)中館員與讀者之間被動(dòng)的信息交流模式,替代專業(yè)館員完成可能需要投入大量資源和時(shí)間才能完成的咨詢工作,提升圖書館的服務(wù)效能以及便捷化水平。算法推薦技術(shù)屬于智慧咨詢系統(tǒng)的核心技術(shù),依托圖書館內(nèi)已有信息知識(shí)資源,可以有效洞察讀者潛在資源需求,促使信息服務(wù)從主要依靠專業(yè)經(jīng)驗(yàn)進(jìn)行粗放管理向泛在化、智慧化管理轉(zhuǎn)變。
當(dāng)然人工智能在信息咨詢服務(wù)領(lǐng)域還存在很多發(fā)展瓶頸。比如傳統(tǒng)咨詢模式,咨詢館員是信息的“把關(guān)人”,為用戶起著價(jià)值判斷、不良信息過濾的角色。然而智能推薦系統(tǒng)對(duì)信息的過濾主要依賴于對(duì)關(guān)鍵字的回避,對(duì)信息的甄選以及優(yōu)劣和真假判斷有待提高。另外,人與機(jī)器的語義交流網(wǎng)絡(luò)中如何更科學(xué)地形成完備的語義體系,對(duì)抽象的概念如何實(shí)現(xiàn)更精確地語義識(shí)別,以及實(shí)現(xiàn)真正意義上的交流,也是建設(shè)智能推薦模式的難題。大數(shù)據(jù)人工智能算法只能根據(jù)用戶歷史記錄發(fā)掘興趣模式進(jìn)行知識(shí)推送,如果機(jī)器算法不成熟完善,導(dǎo)致推送的內(nèi)容重復(fù)度太高,可能會(huì)讓用戶越來越被動(dòng)地傾向于接收和自己相類似的信息和觀點(diǎn),使他們?cè)絹碓诫y從“信息繭房”中解放出來,越來越窄的信息環(huán)境會(huì)限制讀者的視野,減少其接觸其他多元化信息的機(jī)會(huì)。當(dāng)然,從技術(shù)上看,以自動(dòng)、主動(dòng)開放為理念的人工智能信息推薦是卓有成效的,面對(duì)成千上萬的文本進(jìn)行處理的機(jī)器人學(xué)習(xí)過程中出現(xiàn)的諸多問題,我們要做的就是根據(jù)出現(xiàn)的異常不斷修正完善,進(jìn)一步提升智能化服務(wù)水平,但隨著算法和模型的不斷完善,這些問題都將被陸續(xù)解決。