• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      從Alpha go看大數(shù)據(jù)背景下圖書館智能化發(fā)展

      2018-05-14 10:51:02俞鵬
      中國民族博覽 2018年1期
      關(guān)鍵詞:智能算法數(shù)據(jù)分析數(shù)據(jù)挖掘

      俞鵬

      【摘要】智能圍棋軟件Alpha-go與圍棋九段李世石的人機(jī)大戰(zhàn)將人工智能帶入我們的視野,為圖書館大數(shù)據(jù)挖掘、大數(shù)據(jù)分析、圖書物聯(lián)網(wǎng)提供了新的解決方案,未來圖書館服務(wù)的提供將從人力向人力與計(jì)算機(jī)分工合作的方向發(fā)展,在保證服務(wù)數(shù)量的同時(shí)提高服務(wù)準(zhǔn)度和精度。

      【關(guān)鍵詞】alphago;人工智能;大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析;智能算法

      【中圖分類號(hào)】G251 【文獻(xiàn)標(biāo)識(shí)碼】A

      2016年3月的一場(chǎng)人機(jī)世紀(jì)之戰(zhàn),將Alpha-go這個(gè)名字帶入到世人的眼中,也將人工智能的火熱程度推向了一個(gè)新的高度,深度學(xué)習(xí)網(wǎng)絡(luò)(CNN)、蒙特卡羅搜索樹(MCTS)這些計(jì)算機(jī)領(lǐng)域的專業(yè)技術(shù)進(jìn)入了圖書館人的視野,為圖書館智能化服務(wù)發(fā)展提供了一條可行的道路。

      一、圖書館大數(shù)據(jù)發(fā)展現(xiàn)狀及不足

      圖書館目前的大數(shù)據(jù)工作主要集中在兩個(gè)層面:收集層面和應(yīng)用層面。收集層面有以下3個(gè)方面:一是依賴圖書管理系統(tǒng)的讀者基本信息的數(shù)據(jù)收集;二是依賴圖書管理系統(tǒng)的讀者行為記錄的收集;三是依賴網(wǎng)站、微信、APP的讀者行為記錄的收集;四是文獻(xiàn)資源的數(shù)字化。應(yīng)用層面有兩個(gè)方面:一是依賴圖書管理系統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)和分析;二是由讀者實(shí)時(shí)流量、圖書借閱排行榜、借閱分類排行榜、周期統(tǒng)計(jì)等數(shù)據(jù)組成的數(shù)據(jù)大屏等。

      就目前圖書館大數(shù)據(jù)發(fā)展的狀況而言存在以下三個(gè)不足:

      (一)讀者基本信息的數(shù)據(jù)收集不足

      以匯文系統(tǒng)讀者注冊(cè)為例(如圖1所示),讀者信息包括姓名、性別、身份證號(hào)、職業(yè)、職稱、專業(yè)、電話、移動(dòng)電話等,系統(tǒng)所規(guī)定的基本信息已經(jīng)很完整。但關(guān)鍵在于很多圖書館在讀者注冊(cè)時(shí)沒有將信息填寫完整,一般只填姓名、身份證號(hào)、移動(dòng)電話等,有的連性別、職業(yè)都沒有填寫。這樣就造成了圖書館擁有大量的讀者,可沒有足夠的讀者信息,無法對(duì)讀者進(jìn)行聚類分析和關(guān)聯(lián)度挖掘。

      (二)讀者行為信息的數(shù)據(jù)收集不足

      目前大部分圖書館對(duì)讀者行為信息的收集還主要是收集讀者的借閱行為信息。但是有很多更為重要的行為信息被資源供應(yīng)商掌握在手中,如什么讀者在什么時(shí)間下載過什么論文、閱讀過哪些繪本、觀看過哪些視頻,這些行為數(shù)據(jù)全部掌握在資源商的手中。同時(shí),隨著科技的發(fā)展,新技術(shù)為我們提供了更多的行為信息收集手段來,如讀者在哪類書架前停留了多長時(shí)間、讀者在OPAC里搜索過什么詞條等等。因?yàn)闆]有足夠的行為信息,我們對(duì)讀者的借閱行為還原度不足,分析素材不全。

      (三)資源的數(shù)據(jù)標(biāo)引不足

      在這里我說的數(shù)據(jù)不足主要有三點(diǎn):一是MARC數(shù)據(jù)的標(biāo)引在數(shù)據(jù)分析領(lǐng)域的應(yīng)用缺陷。這么多年來,我們圖書館一直在很注重紙質(zhì)圖書的書目數(shù)據(jù),每個(gè)圖書館都形成了一大批MARC數(shù)據(jù),但對(duì)于書的內(nèi)容,我們只是按照中圖法進(jìn)行了分類,但同類書中內(nèi)容的好與壞、內(nèi)容的涉及面以及面對(duì)不同讀者產(chǎn)生的閱讀觀感都是不同的,所以現(xiàn)有MARC數(shù)據(jù)沒有辦法對(duì)很好的滿足在閱讀分析時(shí)的一個(gè)圖書定位分析需求;二是電子資源的數(shù)據(jù)標(biāo)引不足?,F(xiàn)在讀者的需求不僅僅局限在圖書、期刊、報(bào)紙,網(wǎng)頁、視頻、圖片等資源也進(jìn)入到了讀者需求的范圍,但對(duì)于這方面的電子資源數(shù)據(jù)標(biāo)引很多的圖書館還是一片空白;三是不同資源類型之間的數(shù)據(jù)挖掘不足,沒有很好地建立一個(gè)數(shù)據(jù)體系架構(gòu),沒有辦法提供給圖書館工作人員進(jìn)行數(shù)據(jù)分析。

      (四)圖書館數(shù)據(jù)的智能分析方法不足

      這么多年來,我們一直在說讀者借閱行為分析、借閱行為預(yù)測(cè)、閱讀傾向分析、閱讀傾向預(yù)測(cè),但我們的數(shù)據(jù)分析大多還只停留在統(tǒng)計(jì)分析層面,只是拿出數(shù)據(jù)進(jìn)行對(duì)比、類比、環(huán)比,這只是分析的一個(gè)初級(jí)階段或者是統(tǒng)計(jì)階段,預(yù)測(cè)一下來館人流量的走向、排一下借閱排行榜等,最大的問題在于我們沒有引入當(dāng)下比較行之有效的智能算法,還沒有一套完整的圖書館數(shù)據(jù)分析評(píng)價(jià)體系。

      二、Alpha-go工作原理

      從圖2中,我們不難看出Alpha-god其實(shí)包含兩個(gè)階段:一是線下學(xué)習(xí),二是在線對(duì)弈。

      線下學(xué)習(xí)又分三個(gè)階段:一是通過專業(yè)棋手的3萬多幅對(duì)局棋譜的全局特征和深度卷積網(wǎng)絡(luò)來訓(xùn)練策略網(wǎng)絡(luò),用局部特征和線性模型快速走棋策略網(wǎng)絡(luò);二是利用第t輪的策略網(wǎng)絡(luò)與先前訓(xùn)練好的策略網(wǎng)絡(luò)互相對(duì)弈,利用增強(qiáng)式學(xué)習(xí)來修正第t輪的策略網(wǎng)絡(luò)的參數(shù),最終得到增強(qiáng)的策略網(wǎng)絡(luò);三是先利用普通的策略網(wǎng)絡(luò)來生成棋局的前U-1步,然后利用隨機(jī)采樣來決定第U步的位置(這是為了增加棋的多樣性,防止過擬合)。隨后,利用增強(qiáng)的策略網(wǎng)絡(luò)來完成后面的自我對(duì)弈過程,直至棋局結(jié)束分出勝負(fù)。此后,第U步的盤面作為特征輸入,勝負(fù)作為label,學(xué)習(xí)一個(gè)價(jià)值網(wǎng)絡(luò)(Value Network),用于判斷結(jié)果的輸贏概率[1]。

      在線對(duì)弈包含五個(gè)步驟:深度神經(jīng)網(wǎng)絡(luò)引入到蒙特卡羅搜索樹(MCTS)中,以壓縮搜索范圍。一是根據(jù)當(dāng)前盤面情況提取相應(yīng)特征;二是利用策略網(wǎng)絡(luò)估計(jì)出棋盤其他空地的落子概率;三是根據(jù)落子概率來計(jì)算此處往下發(fā)展的權(quán)重;四是利用價(jià)值網(wǎng)絡(luò)和快速走棋網(wǎng)絡(luò)分別判斷局勢(shì),兩個(gè)局勢(shì)得分相加為此處最后走棋獲勝的得分。五是利用第四步計(jì)算的得分來更新之前那個(gè)走棋位置的權(quán)重,當(dāng)某節(jié)點(diǎn)的被訪問次數(shù)超過了閾值,則在蒙特卡羅樹上進(jìn)一步展開下一級(jí)別的搜索。

      三、圖書館大數(shù)據(jù)服務(wù)模型

      從上面的Alpha-go的原理與圖書館大數(shù)據(jù)服務(wù)模式相比還是有很大的區(qū)別的:

      (一)規(guī)則體系明確程度不同

      圍棋有明確的規(guī)則體系,這個(gè)規(guī)則體系讓電腦在走每一步棋之前可以有一個(gè)具體的預(yù)判。而圖書館數(shù)據(jù)分析沒有明確的規(guī)劃體系,書、報(bào)、視頻等資源在被讀者獲取前沒有明確預(yù)判。但相反,電腦判斷每一步棋的真實(shí)好壞要在很多步之后,而資源在到達(dá)讀者手上之后便可立即評(píng)判這個(gè)資源是不是符合讀者要求。

      (二)預(yù)測(cè)方向復(fù)雜程度不同

      圍棋一共有361個(gè)點(diǎn),則圍棋下一步可能性的極限值是361個(gè),而資源單從分類來說,以圖書分類來說就遠(yuǎn)遠(yuǎn)高出這361種可能性;另外,可能性的層級(jí)不同,圍棋每一步只有361種可能性,但資源借閱就比這個(gè)更復(fù)雜。以書為例,除了不同分類的可能性,還有相同類下不同作者的可能性以及相同作者不同書的可能性等等。

      (三)外延支撐不相同

      Alpha-go的外延支撐相對(duì)簡單,專業(yè)棋手的3萬多幅對(duì)局棋譜,但對(duì)于圖書館的大數(shù)據(jù)服務(wù)模型來說,除了對(duì)讀者行為數(shù)據(jù)要進(jìn)行線下學(xué)習(xí)外,還要針對(duì)讀者信息數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘建立讀者關(guān)聯(lián)模型,針對(duì)資源建立大數(shù)據(jù)資源描述模型,這三個(gè)模式要相互適應(yīng)。

      讀者基本信息的數(shù)據(jù)收集不足。綜上可見,我們可以借用Alpha-go的原理,但要對(duì)Alpha-go進(jìn)行模型改造,首先要解決先天的不足。

      讀者基本信息的數(shù)據(jù)收集不足。這個(gè)不足其實(shí)很簡單,建設(shè)統(tǒng)一認(rèn)證系統(tǒng)的同時(shí)與市民卡中心或者移動(dòng)公司合作,通過第三方機(jī)構(gòu)的用戶信息來完美自己的信息不足。

      讀者行為信息的數(shù)據(jù)收集不足有兩種方式解決。一是要求資源商開放用戶原數(shù)據(jù)或者訪問日志,再進(jìn)行數(shù)據(jù)或日志的分析集成;二是在建立統(tǒng)一認(rèn)證平臺(tái)的基礎(chǔ)上建立統(tǒng)一訪問平臺(tái),將資源統(tǒng)一集成到訪問平臺(tái)上,實(shí)現(xiàn)統(tǒng)一檢索統(tǒng)一訪問,行為數(shù)據(jù)由圖書館后臺(tái)記錄。

      資源的數(shù)據(jù)標(biāo)引不足。這項(xiàng)相對(duì)較難,目前的文獻(xiàn)資源標(biāo)引體系沒有辦法揭示關(guān)聯(lián)數(shù)據(jù)和提供有效的評(píng)價(jià)信息,需要自上而下地對(duì)標(biāo)引體系進(jìn)行改革,當(dāng)然,有一個(gè)更好的方法是引入評(píng)論分析體系,如引入豆瓣的書評(píng)[2]、各大網(wǎng)站的相關(guān)評(píng)論進(jìn)行分析,輔助建立分析體系。

      圖書館數(shù)據(jù)的智能分析方法不足。目前對(duì)于圖書館數(shù)據(jù)分析的研究尚顯不足,但其他領(lǐng)域的智能分析已經(jīng)開展了很多,也有很多已經(jīng)成型的我們可以借鑒的智能模型,這里就不多贅述。

      (四)圖書館大數(shù)據(jù)服務(wù)模型[3]

      從上文我們不難看出,圖書館智能服務(wù)模型(如圖3所示)共有三個(gè)階段:

      第一階段有三個(gè)體系:讀者內(nèi)聯(lián)分析體系,主要挖掘讀者之間的內(nèi)在聯(lián)系,揭示讀者的相互影響度;讀者行為分析體系,主要分析讀者借閱行為,形成讀者行為的初步預(yù)測(cè),同時(shí)對(duì)資源分析體系中的資源權(quán)值進(jìn)行反饋[4];資源分析體系,對(duì)資源進(jìn)行合理評(píng)分,同時(shí)對(duì)讀者行為分析體系中對(duì)行為權(quán)值進(jìn)行反饋;將讀者內(nèi)聯(lián)分析體系和資源分析體系分別納入線性模型訓(xùn)練和深度學(xué)習(xí)模型訓(xùn)練,分別形成讀者需求分析預(yù)測(cè)和推薦分析預(yù)測(cè)[5]。

      第二階段預(yù)測(cè)校驗(yàn):讀者需求分析預(yù)測(cè)和推薦分析預(yù)測(cè)進(jìn)入閱讀推薦模型,根據(jù)讀者的搜索進(jìn)行優(yōu)先推薦,根據(jù)讀者的選擇情況進(jìn)行預(yù)測(cè)判斷的評(píng)價(jià),同時(shí),評(píng)價(jià)反饋給讀者行為分析體系和資源分析體系,對(duì)行為權(quán)值和資源權(quán)值進(jìn)行修正。

      第三階段體系修正:將第二步新的權(quán)值帶入第一階段的三個(gè)體系中進(jìn)行再次的體系修正和權(quán)值更新[6]。

      這樣的服務(wù)模型可以依據(jù)以往數(shù)據(jù)建立一個(gè)自適應(yīng)的智能服務(wù)模式,并可以根據(jù)實(shí)時(shí)情況對(duì)預(yù)測(cè)體系進(jìn)行權(quán)值更新修正,保證預(yù)測(cè)的準(zhǔn)確率。

      Alpha-go將人工智能帶入到我們圖書館人的視野中,我們通過Alpha-go了解到了深度學(xué)習(xí)網(wǎng)絡(luò)(CNN),了解到了蒙特卡羅搜索樹(MCTS),通過進(jìn)一步學(xué)習(xí),讓我們了解人工智能,了解到智能算法,其實(shí)我們可以在服務(wù)的過程中更多地引入當(dāng)下主流的、行之有效的智能算法,如粒子群算法、魚群算法、蟻群算法和神經(jīng)網(wǎng)絡(luò)算法等,當(dāng)然我們不是都要用這些算法,只需要選擇其中合適的算法來構(gòu)建適合我們的方式和策略。

      參考文獻(xiàn):

      [1]鄭宇,張鈞波.http://www.thebigdata.cn/YeJieDongTai/29392. html,一張圖解AlphaGo原理及弱點(diǎn),2016(3):16.

      [2]嚴(yán)志永.基于豆瓣筆記的紙質(zhì)書讀者閱讀行為研究[J].科技與出版,2016(4).

      [3]何都益. 融合人工智能的圖書館資源建設(shè)問題反思[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2011(11).

      [4]陳臣.基于大數(shù)據(jù)的圖書館個(gè)性化服務(wù)用戶行為分析研究[J].圖書館工作與研究,201(2).

      [5]吳凱,季新生,劉彩霞.基于行為預(yù)測(cè)的微博網(wǎng)絡(luò)信息傳播建模[J].計(jì)算機(jī)應(yīng)用研究,2013(6).

      [6]陳愛軍.高校館藏文獻(xiàn)資源的質(zhì)量評(píng)價(jià)[J].圖書館學(xué)研究,2009(11).

      猜你喜歡
      智能算法數(shù)據(jù)分析數(shù)據(jù)挖掘
      基于智能算法的風(fēng)力助航船舶航線優(yōu)化
      神經(jīng)網(wǎng)絡(luò)智能算法在發(fā)電機(jī)主絕緣狀態(tài)評(píng)估領(lǐng)域的應(yīng)用
      基于超像素的圖像智能算法在礦物顆粒分割中的應(yīng)用
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      從雞群算法看群體智能算法的發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      Excel電子表格在財(cái)務(wù)日常工作中的應(yīng)用
      淺析大數(shù)據(jù)時(shí)代背景下的市場(chǎng)營銷策略
      新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
      淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營銷模式的影響
      甘南县| 浦县| 定襄县| 班玛县| 孟村| 册亨县| 和田县| 南康市| 涡阳县| 岳阳县| 嘉定区| 舟山市| 岳阳县| 依安县| 盐源县| 阿坝县| 花莲市| 新竹县| 福清市| 北海市| 昌吉市| 古田县| 潍坊市| 花垣县| 固安县| 兴海县| 鹤壁市| 始兴县| 东安县| 乌兰浩特市| 侯马市| 高密市| 阳高县| 楚雄市| 中超| 乌海市| 扎赉特旗| 昂仁县| 保亭| 鄂尔多斯市| 东台市|