• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      領(lǐng)域資訊的個(gè)性化建構(gòu)抽取建模研究*

      2019-08-12 02:11:10任斌斌謝振平
      計(jì)算機(jī)與生活 2019年8期
      關(guān)鍵詞:新鮮度資訊優(yōu)先

      任斌斌,謝振平+,劉 淵

      1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫 214122

      2.江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室(江南大學(xué)),江蘇 無錫 214122

      1 引言

      隨著網(wǎng)絡(luò)媒體的飛速發(fā)展,人類進(jìn)入信息爆炸時(shí)代,“信息過載”[1]使得用戶獲取信息時(shí)往往會(huì)被動(dòng)地接受一部分不感興趣的信息。而網(wǎng)絡(luò)資訊是當(dāng)前互聯(lián)網(wǎng)中信息的重要組成部分,具有較強(qiáng)的時(shí)效性,用戶主動(dòng)去查找感興趣的資訊既耗時(shí)又費(fèi)力,因此個(gè)性化資訊服務(wù)[2]正成為一種趨勢。

      個(gè)性化資訊服務(wù)以智能代理[3]為基礎(chǔ),用戶偏好為主導(dǎo),結(jié)合用戶的閱讀習(xí)慣,定期地獲取資訊并向用戶做相關(guān)推送?,F(xiàn)有主要研究包括信息抽取、用戶需求描述、語義理解[4]、情感分析[5]等。目前人工神經(jīng)網(wǎng)絡(luò)[6]在這一方面表現(xiàn)較為出色,但其需要大量的訓(xùn)練數(shù)據(jù)致使系統(tǒng)的效率偏低。此外,用戶獲取資訊具有較強(qiáng)的選擇性,如何在數(shù)量巨大的資訊中篩選最符合用戶需求的信息,對(duì)提升個(gè)性化資訊服務(wù)的效率和質(zhì)量有重要意義。

      人的學(xué)習(xí)是個(gè)體基于現(xiàn)有知識(shí)、經(jīng)驗(yàn)生成建構(gòu)理解的過程。用戶在閱讀資訊時(shí)發(fā)揮主動(dòng)性,使得自身知識(shí)建構(gòu)也在不斷變化。用戶利用自身已掌握的知識(shí),結(jié)合當(dāng)下獲取的知識(shí),不斷完善自身知識(shí)建構(gòu),這是建構(gòu)主義理論[7-8]的基本思想。為此,本文結(jié)合建構(gòu)主義理論,提出一種平衡組合游走策略,對(duì)用戶閱讀資訊、獲取知識(shí)的過程進(jìn)行建模分析,旨在模擬用戶網(wǎng)絡(luò)閱讀中認(rèn)知的建構(gòu)過程,為個(gè)性化資訊服務(wù)提供新技術(shù)手段。

      本文組織結(jié)構(gòu)如下:第2章給出相關(guān)網(wǎng)頁抽取技術(shù);第3章對(duì)個(gè)性化抽取建模進(jìn)行詳細(xì)闡述和分析;第4章以健康領(lǐng)域資訊為對(duì)象,進(jìn)行相關(guān)實(shí)驗(yàn)研究;第5章對(duì)本文進(jìn)行總結(jié)。

      2 相關(guān)工作

      快速準(zhǔn)確地獲取符合用戶需求的網(wǎng)頁是個(gè)性化爬取的核心。主題爬蟲[9]是當(dāng)前個(gè)性化爬取主要的工具之一,由主題的描述、主題相關(guān)度度量和爬行策略構(gòu)成。其中主題是對(duì)用戶需求的具體描述,主題描述的正確性和相關(guān)度度量直接影響網(wǎng)頁抽取的準(zhǔn)確性,爬行策略則影響抽取的效率。

      文獻(xiàn)[10]中提出自學(xué)習(xí)主題的爬取算法,執(zhí)行時(shí)用戶僅需輸入一組關(guān)鍵詞,以此作為判斷是否爬取網(wǎng)頁的依據(jù)。爬取的網(wǎng)頁處理后作為經(jīng)驗(yàn)保存形成知識(shí)庫,后續(xù)的爬取依據(jù)知識(shí)庫進(jìn)行,以此循環(huán)迭代更新知識(shí)庫。文獻(xiàn)[11]中提出基于“經(jīng)驗(yàn)樹”的“二次爬行”策略?!岸闻佬小笨紤]后續(xù)的爬取受歷史爬取的影響,分別對(duì)歷史網(wǎng)頁鏈接和內(nèi)容進(jìn)行分析,將二者的相關(guān)度作為爬取“經(jīng)驗(yàn)”,存儲(chǔ)到“經(jīng)驗(yàn)樹”中作為后續(xù)爬取的參考,減少因相關(guān)度判別導(dǎo)致的誤判。文獻(xiàn)[12-13]中提出結(jié)合超文本敏感標(biāo)題搜索(hyperlink-induced topic search,HITS)算法提取高質(zhì)量的背景知識(shí),利用概念背景圖來描述用戶需求,并依據(jù)背景圖估計(jì)鏈接的相關(guān)性,有效提升了準(zhǔn)確率和召回率。文獻(xiàn)[14]中提出基于概率模型的主題爬蟲并引入網(wǎng)頁質(zhì)量評(píng)價(jià)指標(biāo)和歷史評(píng)價(jià)指標(biāo),較好地解決了“隧道穿越”和“主題漂移”[15]的問題。

      上述對(duì)于用戶在網(wǎng)頁瀏覽過程中的動(dòng)態(tài)性、選擇性建模還較少考慮,文中借鑒建構(gòu)主義學(xué)習(xí)理論思想,考慮用戶在資訊閱讀過程中的動(dòng)態(tài)選擇性特點(diǎn),研究提出一種新的平衡組合游走建構(gòu)認(rèn)知資訊抽取模型。

      3 模型框架

      真實(shí)用戶獲取網(wǎng)絡(luò)資訊時(shí)具有一定的目的性,本文將這種“目的”描述為用戶興趣。理想的模型應(yīng)能夠準(zhǔn)確描述用戶需求并反映興趣與自身知識(shí)作用關(guān)系,遂提出平衡組合游走建構(gòu)認(rèn)知模型,模擬用戶閱讀資訊和認(rèn)知的建構(gòu)過程。首先考慮模型的基本框架,其由數(shù)據(jù)抽取模塊和用戶資訊建構(gòu)模塊兩部分組成,設(shè)計(jì)如圖1所示。

      Fig.1 Personalized information extraction modeling framework圖1 個(gè)性化資訊抽取模型框架

      3.1 相關(guān)概念

      概念1(興趣點(diǎn))興趣作為用戶需求的描述,一般具有多樣性,不同興趣點(diǎn)構(gòu)成興趣,形如:

      其中,Savor為包含不同興趣點(diǎn)的興趣,poi為相應(yīng)的興趣點(diǎn)。為便于描述,文中的興趣點(diǎn)用相關(guān)關(guān)鍵詞詞頻表示,候選興趣點(diǎn)用文章內(nèi)的top-k關(guān)鍵詞詞頻表示。

      概念2(經(jīng)驗(yàn)性)用戶閱讀網(wǎng)絡(luò)資訊是一個(gè)自我學(xué)習(xí)的過程,興趣的經(jīng)驗(yàn)性反映了自身建構(gòu)的相關(guān)性和歷史性。用戶的行為具有主觀能動(dòng)性,在閱讀資訊增加自身知識(shí)儲(chǔ)備的同時(shí),其對(duì)事物的認(rèn)識(shí)也在不斷變化,因此相鄰時(shí)刻用戶的興趣理論上具有一定的繼承,與之對(duì)應(yīng)的是用戶的經(jīng)驗(yàn),即不同興趣之間相同興趣點(diǎn)的二元一致性:

      概念3(新穎性)用戶在閱讀資訊時(shí),獲取的新知識(shí)也常影響自身的需求,故前后時(shí)刻的興趣一般存在一些區(qū)別。新穎性可以反映未來時(shí)刻用戶認(rèn)知建構(gòu)的可能,以當(dāng)前文章關(guān)鍵詞作為候選興趣點(diǎn),新穎性表現(xiàn)為候選興趣點(diǎn)未出現(xiàn)在前一刻興趣的情況,即候選興趣點(diǎn)與前一刻興趣點(diǎn)的文本差異性:

      3.2 數(shù)據(jù)抽取模塊

      領(lǐng)域資訊抽取考慮預(yù)先確定目標(biāo)領(lǐng)域信息,并對(duì)相應(yīng)的領(lǐng)域數(shù)據(jù)源進(jìn)行甄別和篩選。數(shù)據(jù)抽取模塊依據(jù)相應(yīng)的領(lǐng)域信息對(duì)數(shù)據(jù)源進(jìn)行網(wǎng)頁抽取,具體包括領(lǐng)域網(wǎng)頁抽取和頁面分析。頁面分析主要包括鏈接分析和領(lǐng)域文本分析;對(duì)于鏈接分析,采用規(guī)則提取頁面內(nèi)的鏈接過濾無關(guān)鏈接,并將錨文本(anchor text,At)和鏈接以鍵值對(duì)形式保存。領(lǐng)域文本分析是對(duì)于包含領(lǐng)域文章內(nèi)容的網(wǎng)頁,通過分析頁面結(jié)構(gòu)提取文本內(nèi)容并做主題特征項(xiàng)抽取[16]。為便于表示和計(jì)算,采用關(guān)鍵詞作為文本特征詞。關(guān)鍵詞提取部分包括文本分詞、去除停用詞和統(tǒng)計(jì)詞頻,結(jié)果以鍵值對(duì)保存:

      式中,kw表示相應(yīng)的關(guān)鍵詞,v表示與之對(duì)應(yīng)的詞頻,通過計(jì)算關(guān)鍵詞相關(guān)度判斷框架中的鏈接與用戶興趣的相關(guān)性,確定下一個(gè)瀏覽的頁面。由于用戶對(duì)過目的事物具有短暫記憶能力,故將未訪問的鏈接作為緩存暫時(shí)保留,并通過迭代算法生成下一時(shí)刻的興趣。如果當(dāng)前頁面內(nèi)沒有符合需求的鏈接,用戶則可以通過回憶近期瀏覽的網(wǎng)頁,從中選取某條相關(guān)的鏈接并訪問,如此循環(huán),直至達(dá)到終止條件。

      3.3 用戶資訊建構(gòu)模塊

      用戶閱讀資訊既是學(xué)習(xí)豐富知識(shí)的過程,也是建構(gòu)、不斷完善自身系統(tǒng)的過程。用戶資訊建構(gòu)模塊負(fù)責(zé)對(duì)用戶的認(rèn)知進(jìn)行表達(dá)與更迭,并對(duì)獲取的數(shù)據(jù)進(jìn)行存儲(chǔ)。結(jié)合空間向量模型對(duì)用戶興趣進(jìn)行建模[17],給予不同興趣點(diǎn)各自權(quán)重以表示其受感興趣程度,形式如下:

      其中,poi為興趣點(diǎn),對(duì)應(yīng)興趣為Savor=<poi1,poi2,…,poin>。v表示受感興趣程度,對(duì)應(yīng)向量為vector=<v1,v2,…,vn>,v∈(0,1)。用戶感興趣則v必不為0,本文考慮用戶興趣的多樣性(興趣數(shù)大于1),故v值小于1。使用當(dāng)前網(wǎng)頁提取的top-k關(guān)鍵詞作為候選興趣點(diǎn),結(jié)合式(4)構(gòu)建候選興趣SVcur。

      本文個(gè)性化資訊抽取結(jié)合建構(gòu)主義理論,充分考慮用戶主觀性,獲取符合其興趣的領(lǐng)域信息。通常用戶瀏覽資訊后獲取了一定的信息,自身的知識(shí)建構(gòu)一般會(huì)改變,因此產(chǎn)生的興趣也會(huì)區(qū)別于前一刻。

      興趣點(diǎn)更新。依據(jù)興趣的經(jīng)驗(yàn)性,興趣點(diǎn)更新是針對(duì)前后興趣具有的相同部分。對(duì)公共項(xiàng)的權(quán)重用以下公式進(jìn)行更新:

      其中,rpub為各興趣對(duì)應(yīng)公共項(xiàng)的權(quán)重和,v(poipre)和v(poicur)分別為對(duì)應(yīng)公共項(xiàng)的權(quán)重,v(poiupdate)為更新后的公有興趣點(diǎn)的權(quán)重,故更新后的興趣pvupdate=<poipub,v(poiupdate)>。約定SVpre?SVcur=?時(shí),用戶興趣與當(dāng)前頁面產(chǎn)生的候選興趣點(diǎn)無相關(guān)性,此時(shí)用戶興趣不更新。

      興趣點(diǎn)增加。上文所述興趣點(diǎn)的新穎性可以反映未來時(shí)刻用戶認(rèn)知建構(gòu)的可能,故新穎性是興趣點(diǎn)增加的重要依據(jù)。本文考慮使用關(guān)鍵詞權(quán)重作為興趣點(diǎn),增加的興趣點(diǎn)為候選興趣點(diǎn)的若干項(xiàng),作為增加的項(xiàng),其必不包含在初始興趣內(nèi),即二者差集:

      其中,Savorcur為當(dāng)前候選興趣集合,Savorpre為當(dāng)前興趣集合,對(duì)應(yīng)權(quán)重計(jì)算如下:

      故增加的興趣pvexp=<poiexp,v(poiexp)>。

      興趣點(diǎn)刪除。興趣點(diǎn)刪除一定程度上也屬于興趣點(diǎn)更新。雖然本文考慮興趣多樣性,但并不意味著興趣點(diǎn)越多越好,合適的興趣量才能模擬真實(shí)用戶的認(rèn)知建構(gòu)過程,故對(duì)興趣點(diǎn)根據(jù)權(quán)重作top-k選擇,權(quán)重過低的興趣點(diǎn)被刪除。

      經(jīng)過相應(yīng)的更新、增加和刪除,迭代后的興趣應(yīng)為:

      具體算法如下:

      算法1興趣建構(gòu)迭代算法

      輸入:初始興趣SVpre,候選興趣SVcur。

      輸出:迭代興趣SVnew。

      算法中步驟1獲取當(dāng)前可擴(kuò)展興趣點(diǎn),步驟3計(jì)算當(dāng)前興趣和候選興趣各自的權(quán)重因子r,步驟4~5根據(jù)對(duì)應(yīng)的r對(duì)初始興趣SVpre內(nèi)興趣點(diǎn)的權(quán)值進(jìn)行更新,并計(jì)算可擴(kuò)展興趣點(diǎn)的權(quán)重,步驟6~9對(duì)更新的興趣點(diǎn)和擴(kuò)展的興趣點(diǎn)求并集,根據(jù)權(quán)值進(jìn)行排序取top-k項(xiàng)作為迭代后的興趣,標(biāo)準(zhǔn)化并返回。

      3.4 模型實(shí)現(xiàn)

      現(xiàn)實(shí)中用戶通過點(diǎn)擊網(wǎng)頁鏈接來閱讀網(wǎng)頁,點(diǎn)擊的順序即瀏覽網(wǎng)頁的順序。不同的閱讀順序?qū)τ脩粽J(rèn)知建構(gòu)影響不同,最終自身的信息儲(chǔ)備也不同。一般來說用戶閱讀習(xí)慣存在差異性,因此考慮不同點(diǎn)擊序列下,用戶興趣的建構(gòu)情況。

      可能有用戶偏向于“最優(yōu)優(yōu)先”策略,即在當(dāng)前頁面內(nèi)選出最感興趣的資訊進(jìn)行閱讀。由于每次只能選出一個(gè)最優(yōu)鏈接,并不斷深入獲取網(wǎng)頁,形式上類似于深度優(yōu)先策略。

      另有可能用戶偏向于在當(dāng)前頁面內(nèi)選出自己感興趣的網(wǎng)頁,在后臺(tái)中全部打開后依次閱讀,形式上則類似于廣度優(yōu)先策略。

      還有部分用戶善于主動(dòng)發(fā)現(xiàn)和獲取知識(shí),在瀏覽網(wǎng)頁時(shí),通過不斷回憶閱讀歷程,結(jié)合當(dāng)前的認(rèn)知,溫故知新,以獲取新的網(wǎng)頁。從此類用戶學(xué)習(xí)行為方式出發(fā),本文提出平衡組合游走策略。

      平衡是指瀏覽網(wǎng)頁時(shí)對(duì)網(wǎng)頁鏈接的平衡選擇,其本質(zhì)上是深度優(yōu)先與廣度優(yōu)先的平衡組合[18]。通常依據(jù)當(dāng)前搜索需求計(jì)算分析候選網(wǎng)頁的跳轉(zhuǎn)概率,以做出局部最優(yōu)選擇。本文方法結(jié)合人類的閱讀習(xí)慣,融入建構(gòu)游走策略,圖2簡略描述了組合游走策略與常規(guī)策略的差異。圖(a)示例了網(wǎng)站網(wǎng)頁間的鏈接情況,其中各節(jié)點(diǎn)表示若干網(wǎng)頁,相鄰的網(wǎng)頁節(jié)點(diǎn)間存在互鏈接;圖(b)描述的深度優(yōu)先策略下,網(wǎng)頁的獲取序列為ABCDEFGHIJ;圖(c)描述的廣度優(yōu)先策略下的序列為ABEHCDFGIJ;圖(d)描述平衡組合策略下的序列為ABDEGHCJ,其中ABD、EG、HJ為常規(guī)網(wǎng)頁瀏覽路徑,DE、GH為組合策略下的瀏覽路徑,HCJ為游走策略下的瀏覽路徑。路徑HC表示,雖然網(wǎng)頁C在最初的瀏覽過程中由于低相關(guān)性而被“忽略”,但隨著興趣的更迭,用戶逐漸發(fā)現(xiàn)網(wǎng)頁C符合自身當(dāng)前的需求,遂“回憶”并瀏覽該網(wǎng)頁。同理,路徑CJ也是如此。

      Fig.2 Comparison of different strategies圖2 不同策略對(duì)比

      另一方面,人腦的短暫記憶能力,使得對(duì)近期瀏覽的網(wǎng)頁有較強(qiáng)的記憶,模仿提出網(wǎng)頁層次優(yōu)先級(jí)(pagelevelpriority)和鏈接新鮮度(linkfreshness,LF)。網(wǎng)頁層次優(yōu)先級(jí)是描述最近瀏覽網(wǎng)頁的順序,其數(shù)值上越大表示越近的瀏覽。鏈接新鮮度反映鏈接出現(xiàn)的時(shí)間度量,其數(shù)值上等于對(duì)應(yīng)的網(wǎng)頁優(yōu)先級(jí)??紤]到網(wǎng)頁間形成的有向圖的連通性,低新鮮度的鏈接可能會(huì)出現(xiàn)在高優(yōu)先級(jí)的網(wǎng)頁內(nèi),約定此時(shí)的鏈接新鮮度為最大的網(wǎng)頁優(yōu)先級(jí),即:

      其中,n表示鏈接是否出現(xiàn)在當(dāng)前頁面內(nèi)。鏈接新鮮度可以區(qū)別于不同歷史時(shí)刻的鏈接記錄,可以反映用戶對(duì)該鏈接的記憶程度。用戶在閱讀新的網(wǎng)頁時(shí),原先網(wǎng)頁的優(yōu)先級(jí)和新鮮度分別遞減。此外,考慮用戶瀏覽當(dāng)前頁面,興趣不發(fā)生改變的情況,依據(jù)本文策略,通過回憶近期瀏覽的頁面確定新的訪問鏈接。

      基于上文闡述,對(duì)平衡組合游走策略進(jìn)行具體描述。用網(wǎng)頁鏈接池來容納候選鏈接,包括網(wǎng)頁抽取模塊獲取的當(dāng)前頁面內(nèi)的鏈接及與模塊中存儲(chǔ)的近期保存但未訪問的部分鏈接(即模塊中的緩存鏈接),經(jīng)過相應(yīng)的計(jì)算得到下一訪問鏈接。結(jié)合考慮興趣點(diǎn)的新穎性與經(jīng)驗(yàn)性平衡要求,設(shè)計(jì)引入如下公式進(jìn)行鏈接重定向計(jì)算:

      式中,pub(X,Y)=|{xi×yi|xi×yi≠0}|,其中|X|=|Y|。

      算法2鏈接選擇算法

      輸入:錨文本鏈接URLs_At,用戶興趣SV。

      輸出:重定向錨文本鏈接。

      算法中第1行表示初始化序列,第3~4行分別對(duì)錨文本分詞去除停用詞、計(jì)算關(guān)鍵詞詞頻,第5~7行將兩組關(guān)鍵詞詞頻向量化,按照式(11)計(jì)算頁面跳轉(zhuǎn)概率,并獲取跳轉(zhuǎn)概率最大的錨文本和鏈接。

      3.5 分析討論

      本文考慮以關(guān)鍵詞輔助實(shí)現(xiàn)用戶興趣建模,何時(shí)建構(gòu)以及如何建構(gòu)是影響興趣的重要因素。對(duì)于如何建構(gòu)興趣,前文已詳細(xì)介紹。考慮實(shí)際情況中不同用戶主動(dòng)性與思維活躍性的差異,提出建構(gòu)間隔(construction interval,CI)作為興趣建構(gòu)的時(shí)間效率描述,其數(shù)值上等于兩次興趣迭代間的網(wǎng)頁爬取數(shù)。建構(gòu)間隔較短,表明用戶思維活躍,獲取信息的能力較強(qiáng)。

      互聯(lián)網(wǎng)的實(shí)質(zhì)是一個(gè)龐大的分布式網(wǎng)絡(luò)數(shù)據(jù)庫[19],其中部分網(wǎng)站具有較強(qiáng)的領(lǐng)域性,爬取這些網(wǎng)站的網(wǎng)頁實(shí)際上是遍歷網(wǎng)頁組成的有向圖。遍歷的方式影響網(wǎng)站的爬取效率,對(duì)于用戶而言,閱讀網(wǎng)頁的次序則影響其獲取知識(shí)的效率。通常網(wǎng)頁節(jié)點(diǎn)的出度較大,即外鏈數(shù)目較多,考慮模擬用戶閱讀網(wǎng)絡(luò)資訊,提出平衡組合游走建構(gòu)認(rèn)知抽取模型。模型的關(guān)鍵問題在于如何平衡地選擇網(wǎng)頁鏈接,考慮網(wǎng)站的爬取深度,提出鏈接新鮮度(LF)作為衡量鏈接在時(shí)間上被選擇的可能。由于用戶短暫記憶能力,較新鮮的鏈接被選擇的可能較大,故將鏈接新鮮度作為鏈接選擇的標(biāo)準(zhǔn)之一。鏈接新鮮度影響網(wǎng)頁的爬取范圍,合理的鏈接新鮮度對(duì)爬取效率應(yīng)有一定的提升。

      個(gè)性化數(shù)據(jù)抽取模型中,復(fù)雜度主要考慮鏈接選擇部分和興趣迭代部分,其中讀取緩存的復(fù)雜度為O(M),鏈接選擇和興趣迭代部分分別對(duì)鏈接重定向值和興趣權(quán)重采用快速排序,因此鏈接選擇部分時(shí)間復(fù)雜度為O(M+NlbN),興趣迭代部分時(shí)間復(fù)雜度為O(NlbN)??紤]本文采用局部抓取,僅獲取網(wǎng)站中部分感興趣的網(wǎng)頁,時(shí)間復(fù)雜度是可以接受的。

      平衡組合游走的策略區(qū)別于常規(guī)的爬取策略,更加接近于人類的閱讀選擇習(xí)慣。該策略不追求全局爬取,僅獲取自身感興趣的部分,獲取網(wǎng)頁的同時(shí)能夠根據(jù)已獲取的信息對(duì)自身認(rèn)知進(jìn)行建構(gòu)更新,符合建構(gòu)主義思想。

      (4)最后一公里問題突出。物資集聚于外圍,無法分發(fā)到災(zāi)民手中。最后一公里問題凸顯。物資投送需要多元化,可以考慮配備救災(zāi)摩托車,用于運(yùn)送必要的生活用品和輕型救災(zāi)裝備。

      4 實(shí)驗(yàn)研究

      4.1 實(shí)驗(yàn)方案

      本文考慮以食品健康資訊為實(shí)驗(yàn)對(duì)象,對(duì)平衡組合游走建構(gòu)認(rèn)知模型進(jìn)行性能分析。實(shí)驗(yàn)素材方面以食品伙伴網(wǎng)(http://news.foodmate.net)的食品資訊中心作為資訊抽取數(shù)據(jù)源,預(yù)爬取10 000個(gè)資訊網(wǎng)頁作分析,以Jieba(https://github.com/fxsjy/jieba)作為分詞工具對(duì)網(wǎng)頁中提取的領(lǐng)域文本進(jìn)行分詞、去除停用詞并統(tǒng)計(jì)詞頻。

      為對(duì)比研究平衡組合游走策略的性能,以深度優(yōu)先和廣度優(yōu)先策略作為參照。對(duì)于用戶的興趣建構(gòu),選取權(quán)重最高的top-k興趣點(diǎn)作為更新后的興趣,k值暫考慮10,分析模型中不同參數(shù)CI和LF下的爬取效率以及用戶興趣建構(gòu)情況。區(qū)別于現(xiàn)有考慮爬取精度的全局爬取方法,本文從模擬用戶閱讀的角度出發(fā)實(shí)現(xiàn)抽取部分網(wǎng)頁,故不與現(xiàn)有方法對(duì)比。

      4.2 評(píng)價(jià)指標(biāo)

      網(wǎng)頁爬取效率f是指獲取的網(wǎng)頁的相對(duì)覆蓋度。通常某一資訊網(wǎng)站內(nèi)包含大量資訊,由于其中部分資訊描述相似主題,因此網(wǎng)站內(nèi)的主題數(shù)相對(duì)于資訊數(shù)是較少的,可以認(rèn)為網(wǎng)頁爬取效率為已獲取的主題數(shù)與網(wǎng)站總主題數(shù)的百分比:

      其中,topiccur為當(dāng)前已獲取的主題數(shù),topictotal為網(wǎng)站內(nèi)包含主題的總數(shù),由于本文使用關(guān)鍵詞詞頻作為文章的主題,隨著獲取的主題數(shù)不斷增加,爬取效率f用以下式子近似表示:

      式中,x、y分別為對(duì)應(yīng)關(guān)鍵詞的權(quán)重,numcur為當(dāng)前已獲取文本關(guān)鍵詞數(shù),numtotal為網(wǎng)站中所有頁面文本關(guān)鍵詞總數(shù)。

      為描述用戶興趣的建構(gòu)過程中的變化情況,考慮用相鄰時(shí)刻興趣的歐氏距離作為其語義距離:

      4.3 實(shí)驗(yàn)結(jié)果與分析

      平衡組合游走的個(gè)性化爬取模型需要初始設(shè)定的參數(shù)有建構(gòu)間隔CI和鏈接新鮮度LF。建構(gòu)間隔描述興趣迭代更新的頻次,適當(dāng)?shù)慕?gòu)間隔會(huì)較符合用戶興趣的建構(gòu)歷程。鏈接新鮮度描述鏈接被保存的歷史性,鑒于用戶有限的記憶能力,新鮮度較低的鏈接一般會(huì)選擇性丟棄。

      首先分析無參數(shù)下的抓取性能,考慮平衡策略與深度優(yōu)先和廣度優(yōu)先策略的抓取效率。深度優(yōu)先和廣度優(yōu)先暫不考慮鏈接新鮮度的情況,設(shè)定用戶的初始興趣為“<奶粉,0.4><國內(nèi),0.3><市場,0.2><配方,0.1>”,假設(shè)此時(shí)興趣建構(gòu)間隔為1,圖3反映了三種方法抓取效率的具體情況。

      Fig.3 Information extraction efficiency using DFS,BFS and balanced strategies圖3 深度優(yōu)先、廣度優(yōu)先、平衡策略下資訊抽取效率

      由圖3可知,深度優(yōu)先的抓取效率總體上高于廣度優(yōu)先策略。通常網(wǎng)頁中同一版塊內(nèi)資訊的主題具有一定的相似性,深度優(yōu)先策略可能較容易穿越不同版塊,獲取更多的主題,爬取效率優(yōu)于廣度優(yōu)先策略。平衡策略在抓取初期效率稍低于深度優(yōu)先策略,但隨著抓取時(shí)間的增加,以及考慮興趣的建構(gòu)更迭,后續(xù)獲取的主題數(shù)逐漸增多,爬取效率也較高。

      進(jìn)一步分析不同參數(shù)下,平衡組合游走策略的性能。前文考慮用戶自身短暫性記憶能力,提出鏈接新鮮度以反映鏈接在記憶層面被選擇的可能,故不同鏈接新鮮度下,網(wǎng)頁的瀏覽路徑有差異。此外,依據(jù)不同歷史記憶所產(chǎn)生的瀏覽網(wǎng)頁順序也會(huì)有所不同,而用戶的主題信息認(rèn)知建構(gòu)方式也會(huì)存在個(gè)性差異,本文模型中考慮以建構(gòu)間隔(CI)反映個(gè)體認(rèn)知建構(gòu)的能力??紤]這兩點(diǎn),對(duì)不同參數(shù)下的性能作分析。

      圖4反映了在本文平衡策略下,不同鏈接新鮮度(LF)和不同興趣建構(gòu)間隔(CI)下的爬取情況??梢钥闯觯谂廊〕跗?,不同參數(shù)下的爬取效率較相近,但隨著興趣的不斷迭代,爬取效率差距較為明顯。在鏈接新鮮度相同時(shí),興趣建構(gòu)間隔較短,網(wǎng)頁的爬取效率相對(duì)較高,即用戶思維較活躍時(shí),能夠較高效地瀏覽網(wǎng)頁??梢?,LF=-3,CI=1時(shí),模型的爬取效率最高。這一結(jié)果反映了歷史記憶對(duì)獲取網(wǎng)頁信息的作用,在思維活躍時(shí),丟棄新鮮度較低的網(wǎng)頁可以加速用戶瀏覽網(wǎng)頁的速度,提高建構(gòu)學(xué)習(xí)的效率。

      Fig.4 Web page extraction efficiency of balanced strategies with different LF and CI圖4 不同LF和CI下平衡策略的網(wǎng)頁抽取效率

      表1進(jìn)一步示例地給出了LF=-3、CI=1時(shí)平衡策略下用戶興趣的變化情況。如表中所示,在爬取前5篇資訊時(shí),用戶的興趣主要在“奶粉”“配方”“嬰幼兒”等之間浮動(dòng)。隨著后續(xù)興趣的不斷變化,最終用戶的興趣轉(zhuǎn)移到“食品”等其他興趣點(diǎn)上。

      進(jìn)一步可知,興趣的語義距離可反映興趣變化發(fā)展情況。圖5給出了LF=-3,CI=1時(shí)代表性模擬仿真的興趣變化距離情況??梢钥闯觯脩舻呐d趣大多數(shù)情況下雖有不同程度變化,但相對(duì)較為穩(wěn)定。

      Fig.5 User's interest distance whenLF=-3andCI=1圖5 LF=-3,CI=1時(shí)用戶的興趣距離

      Table 1 Some interest samples generated by balanced constructivist strategy withLF=-3andCI=1表1 LF=-3和CI=1時(shí)平衡建構(gòu)算法產(chǎn)生的興趣示例

      4.4 真實(shí)用戶模擬實(shí)驗(yàn)

      為進(jìn)一步分析模型性能,邀請了部分同學(xué)進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)中先告訴實(shí)驗(yàn)者本文的需求,即用戶的預(yù)設(shè)興趣,以指導(dǎo)他們獲取符合需求的網(wǎng)頁。模擬了LF=-3時(shí),用戶獲取網(wǎng)頁的情況,表2列出了LF=-3時(shí)實(shí)驗(yàn)者與算法模擬獲取網(wǎng)頁后部分興趣點(diǎn)變化情況。

      表2較為直觀地反映人類用戶興趣的變化與算法模擬用戶興趣建構(gòu)的情況。人類用戶自身主觀性較強(qiáng),最終定位到感興趣的“鴨血粉絲”上,而依據(jù)規(guī)則的模型最終興趣點(diǎn)定位在“白酒”上。

      圖6反映了LF=-3時(shí)真實(shí)用戶和本文框架中三種策略獲取資訊的情況。從圖中可以看到三種策略在資訊獲取初期效率相當(dāng)。隨著獲取資訊的量不斷增加,用戶獲取資訊的效率明顯高于文中三種策略。后續(xù)的資訊抽取中,廣度優(yōu)先策略效率最低,深度優(yōu)先策略效率提升緩慢,平衡策略下抽取效率穩(wěn)步提升,有逼近真實(shí)用戶的趨勢,這顯示本文提出的平衡策略更接近用戶的網(wǎng)絡(luò)閱讀行為,也一定程度上表明了平衡建構(gòu)認(rèn)知建模的合理性。

      4.5 應(yīng)用實(shí)施

      考慮將本文方法應(yīng)用于一個(gè)知識(shí)服務(wù)平臺(tái),以更好地提供個(gè)性化領(lǐng)域資訊的服務(wù)性能。相應(yīng)地,平臺(tái)架構(gòu)如圖7所示。

      Table 2 Interest samples simulated by human user and model of this paper表2 人類用戶與本文模型產(chǎn)生興趣點(diǎn)對(duì)比

      圖7描述了該平臺(tái)中個(gè)性化資訊服務(wù)的運(yùn)用策略,圖中虛線方框部分即本文提出的框架模型,為個(gè)性化資訊服務(wù)提供業(yè)務(wù)支撐。項(xiàng)目部署中涉及的語料主要包括兩個(gè)來源:一方面是人工預(yù)先篩選的外部語料庫,具體包括專業(yè)網(wǎng)絡(luò)資料庫和領(lǐng)域資訊庫等;另一方面則是平臺(tái)附帶的檢索庫,二者協(xié)同為用戶提供資訊服務(wù)。平臺(tái)根據(jù)用戶知識(shí)建構(gòu)系統(tǒng)提供的用戶特征信息,實(shí)現(xiàn)對(duì)外部語料庫的抽取,同時(shí)補(bǔ)充豐富本地檢索庫,降低后續(xù)服務(wù)的開銷。

      Fig.6 Comparison of efficiency between real users and method of this paper圖6 真實(shí)用戶和本文策略的效率對(duì)比

      Fig.7 Framework of recommended application system圖7 建議的應(yīng)用平臺(tái)架構(gòu)

      在用戶知識(shí)建構(gòu)系統(tǒng)中,可使用關(guān)鍵詞詞頻描述用戶興趣需求,若系統(tǒng)經(jīng)過用戶信息采樣后得出當(dāng)前用戶的興趣為“<蛋白質(zhì),0.5><奶粉,0.5>”,其若干次讀取資訊后,興趣經(jīng)過建構(gòu)更新變?yōu)椤?奶粉,0.362 496><嬰幼兒,0.161 392>…<人之初,0.047 253><雀巢,0.042 557>”,由最初感興趣的“蛋白質(zhì)”和“奶粉”擴(kuò)展到“嬰幼兒”等領(lǐng)域相關(guān)的術(shù)語乃至部分品牌,體現(xiàn)興趣的經(jīng)驗(yàn)性與新穎性。同時(shí)平臺(tái)依據(jù)本文平衡組合游走策略,抽取領(lǐng)域資訊并進(jìn)行推送。

      5 結(jié)束語

      為提升領(lǐng)域個(gè)性化資訊服務(wù)質(zhì)量,結(jié)合建構(gòu)主義學(xué)習(xí)理論思想,提出了平衡組合游走建構(gòu)認(rèn)知的個(gè)性化領(lǐng)域資訊抽取模型,模擬用戶網(wǎng)絡(luò)閱讀的行為。

      文中的理論和實(shí)驗(yàn)結(jié)果表明,平衡組合游走策略相對(duì)于深度優(yōu)先和廣度優(yōu)先策略,更加接近人類的資訊閱讀過程,同時(shí)客觀反映了個(gè)體知識(shí)建構(gòu)過程。在實(shí)際應(yīng)用中,閱讀資訊的語義認(rèn)知描述值得進(jìn)一步深入研究,以盡可能模仿人類用戶閱讀行為。

      猜你喜歡
      新鮮度資訊優(yōu)先
      資訊Information①
      40年,教育優(yōu)先
      商周刊(2018年25期)2019-01-08 03:31:08
      多端傳播,何者優(yōu)先?
      站在“健康優(yōu)先”的風(fēng)口上
      優(yōu)先待遇
      小說月刊(2014年12期)2014-04-19 02:40:08
      基于TTI的冷鮮羊肉新鮮度研究
      不同新鮮度金槍魚肉蒸煮品質(zhì)的研究
      幾種魚體新鮮度快速檢測方法的研究進(jìn)展
      基于電子鼻技術(shù)的鱸魚新鮮度評(píng)價(jià)
      資訊
      汶川县| 武强县| 长春市| 塘沽区| 田林县| 罗定市| 澄江县| 泰州市| 罗江县| 武城县| 嘉峪关市| 许昌市| 故城县| 舟山市| 仙桃市| 高清| 英超| 景德镇市| 宜君县| 河池市| 云南省| 台南县| 专栏| 潞城市| 徐汇区| 大姚县| 来安县| 东丽区| 汉沽区| 天等县| 石泉县| 东乌| 栾川县| 衢州市| 阿巴嘎旗| 策勒县| 杭锦后旗| 庆安县| 乐业县| 瑞昌市| 淳安县|