• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向用戶需求主題的在線問(wèn)答社區(qū)信息多層級(jí)分類(lèi)研究

      2022-08-31 15:36:06張燕剛
      情報(bào)學(xué)報(bào) 2022年8期
      關(guān)鍵詞:細(xì)粒度層級(jí)標(biāo)簽

      成 全,張燕剛

      (福州大學(xué)經(jīng)濟(jì)與管理學(xué)院,福州 350116)

      1 引 言

      隨著泛在網(wǎng)絡(luò)去中心化特征的不斷凸顯,基于用戶生成內(nèi)容(user generated content,UGC)的在線問(wèn)答社區(qū)已然成為網(wǎng)絡(luò)用戶快速獲取個(gè)性化需求的重要渠道[1]。然而,在線問(wèn)答社區(qū)內(nèi)資源內(nèi)容的包羅萬(wàn)象與魚(yú)龍混雜,導(dǎo)致社區(qū)內(nèi)信息資源的組織與序化問(wèn)題成為困擾其高效響應(yīng)、個(gè)性化滿足用戶信息需求的瓶頸。當(dāng)前,多數(shù)在線問(wèn)答社區(qū)將用戶生成信息按其發(fā)布時(shí)間或簡(jiǎn)單主題進(jìn)行堆疊與劃分,這不僅不利于提升平臺(tái)信息資源聚合的目標(biāo),也不利于實(shí)現(xiàn)為用戶量身定制個(gè)性化精準(zhǔn)推送服務(wù)的要求,最終將導(dǎo)致用戶使用在線問(wèn)答社區(qū)的滿意度不斷降低,逐漸弱化平臺(tái)的黏性。為了不斷提升網(wǎng)絡(luò)問(wèn)答社區(qū)內(nèi)信息資源的細(xì)粒度揭示、語(yǔ)義化表達(dá)與網(wǎng)絡(luò)化關(guān)聯(lián),從而適應(yīng)當(dāng)前智能化知識(shí)精準(zhǔn)推薦服務(wù)的目標(biāo),亟須構(gòu)建一套結(jié)構(gòu)完善的多層級(jí)主題分類(lèi)架構(gòu)體系,以及滿足面向需求主題的多層級(jí)、細(xì)粒度信息資源分類(lèi)模型,以期實(shí)現(xiàn)對(duì)用戶需求信息的自動(dòng)化分類(lèi)與推薦[2-3]。為了達(dá)到上述目標(biāo),本研究以在線母嬰問(wèn)答社區(qū)妊娠期孕婦信息需求為例,從提升在線問(wèn)答社區(qū)信息資源的多層級(jí)、細(xì)粒度組織效果為基礎(chǔ),以滿足用戶個(gè)性化需求主題高效響應(yīng)為目標(biāo),綜合運(yùn)用內(nèi)容分析、人工標(biāo)注、交叉驗(yàn)證、機(jī)器學(xué)習(xí)等研究方法,圍繞如何構(gòu)建用戶在問(wèn)答社區(qū)中的多層級(jí)、細(xì)粒度信息需求主題體系架構(gòu),如何引入機(jī)器學(xué)習(xí)機(jī)制實(shí)現(xiàn)在線問(wèn)答社區(qū)多層級(jí)信息分類(lèi)以滿足用戶的個(gè)性化需求兩大核心問(wèn)題展開(kāi)深入研究。

      本研究的主要貢獻(xiàn)在于:①以跨平臺(tái)的妊娠期孕婦信息需求為例,構(gòu)建覆蓋內(nèi)容全面、邏輯結(jié)構(gòu)清晰、需求主題個(gè)性的多層級(jí)、細(xì)粒度信息資源主題架構(gòu)體系,為UGC 模式下特定需求主題識(shí)別及多層級(jí)信息分類(lèi)服務(wù)研究領(lǐng)域提供理論參考和應(yīng)用借鑒;②構(gòu)建基于機(jī)器學(xué)習(xí)的面向用戶需求主題的信息多層級(jí)分類(lèi)模型,實(shí)現(xiàn)信息多層級(jí)、細(xì)粒度的自動(dòng)化分類(lèi),為優(yōu)化在線問(wèn)答社區(qū)信息資源生態(tài),實(shí)現(xiàn)信息資源的高效序化與語(yǔ)義化表征提供新的思路和研究視角。

      本文后續(xù)章節(jié)安排如下:第2 節(jié)將對(duì)用戶信息需求與信息層級(jí)分類(lèi)的概念及其相關(guān)研究現(xiàn)狀進(jìn)行梳理和闡述;第3 節(jié)將從層級(jí)分類(lèi)策略選擇、模型網(wǎng)絡(luò)基本結(jié)構(gòu)、數(shù)據(jù)層級(jí)標(biāo)簽處理、需求主題特征表示、多層級(jí)分類(lèi)器選擇、模型評(píng)估方法等方面,對(duì)面向用戶需求主題的信息多層級(jí)分類(lèi)模型構(gòu)建技術(shù)與方法進(jìn)行詳細(xì)介紹;第4 節(jié)將從用戶多層級(jí)需求主題分類(lèi)體系架構(gòu)構(gòu)建、實(shí)驗(yàn)樣本數(shù)據(jù)的選擇與處理、模型參數(shù)選擇與設(shè)置、實(shí)驗(yàn)結(jié)果可視化呈現(xiàn)等方面進(jìn)行實(shí)驗(yàn)研究;第5 節(jié)將對(duì)本研究所構(gòu)建多層級(jí)分類(lèi)模型(users' needs topics - hierarchical clas‐sification,UNT-HC)對(duì)特定數(shù)據(jù)集的分類(lèi)性能進(jìn)行評(píng)價(jià);最后將總結(jié)研究工作,并對(duì)后續(xù)研究工作的可能路徑指明方向。

      2 研究現(xiàn)狀

      2.1 用戶信息需求研究現(xiàn)狀

      用戶信息需求的概念,目前學(xué)術(shù)界尚未形成明確的定義,但初步形成了一個(gè)共識(shí)性的認(rèn)知概念與理論體系雛形,即刺激(情境)-認(rèn)知模型(信息需求)-反應(yīng)(信息行為)研究框架[4]。通常,信息需求包括信息需要、信息要求、信息利用三種不同的情況,但在某些情況下,信息要求與信息需求被視為同義詞,一般不使用信息要求這一術(shù)語(yǔ),而用表達(dá)的信息需求代替,同時(shí),信息利用也被作為信息行為的同屬概念[5]。

      從用戶認(rèn)知角度出發(fā),現(xiàn)有用戶信息需求研究主 要 以Taylor、Belkin、Ingwersen、Kochen、Wil‐son、Cole 等學(xué)者的信息需求理論為基礎(chǔ),尤其Taylor 根據(jù)用戶需求認(rèn)知或意識(shí)水平劃分的內(nèi)在的、有意識(shí)的、形式化的和折中的信息需求,已成為信息管理科學(xué)領(lǐng)域許多模型與研究的基礎(chǔ),同時(shí)也是信息檢索與信息交互系統(tǒng)設(shè)計(jì)等研究的動(dòng)力[6]。Belkin[7]也以用戶認(rèn)知為導(dǎo)向提出了知識(shí)非常態(tài)理論,并從認(rèn)知深度垂直解讀了Taylor 4 個(gè)層次的信息需求。計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W者也常把Taylor 折中的信息需求作為默認(rèn)觀點(diǎn),并從用戶信息需求搜索角度出發(fā),將其過(guò)程劃分為預(yù)聚焦、聚焦、后聚焦三個(gè)階段[8]。當(dāng)然,從社會(huì)學(xué)角度來(lái)看,信息需求是用戶信息尋求行為的決定性因素,并且信息需求也并非用戶最原始的需求,它主要源于用戶生理、情感、認(rèn)知等更為基本的需求[9]。

      用戶信息需求是動(dòng)態(tài)的,并且高度依賴于用戶情境。近年來(lái),用戶健康信息需求研究引起了廣大學(xué)者的高度關(guān)注,其研究成果頗豐。該領(lǐng)域的相關(guān)研究不僅與健康意識(shí)、健康態(tài)度有關(guān),而且適用于特定的社會(huì)環(huán)境和認(rèn)知狀況[10]。由此,在線上用戶信息需求主題研究方面,大量研究主要圍繞不同情境下的用戶群體展開(kāi),尤其是特定用戶群體的信息需求研究。其中,癌癥[11]、糖尿病[12]等慢性病患者群體是當(dāng)前較為關(guān)注的群體之一。當(dāng)然,處于特定群體中較為弱勢(shì)的身份轉(zhuǎn)換期的女性[13]、初為人母的年輕媽媽[14-15]及更為特殊的并發(fā)癥孕婦[16],更有尚未完全認(rèn)同且極具獨(dú)特性的初為人父的年輕父親[17]的信息需求主題同樣受到關(guān)注。

      從研究方法來(lái)看,目前線下用戶的信息需求主題研究主要采用訪談、調(diào)查等方式,而UGC 模式下的在線問(wèn)答社區(qū)用戶則以人工內(nèi)容分析與編碼[14-15]、自動(dòng)文本需求主題挖掘[13]等人機(jī)互動(dòng)的相關(guān)方法進(jìn)行。當(dāng)然,每種方法均有優(yōu)劣,訪談可通過(guò)不斷交談來(lái)理解用戶表述的含義與情境,但涉及私密、敏感話題用戶則不愿回答或敷衍,數(shù)據(jù)易失真或缺失,數(shù)據(jù)轉(zhuǎn)換也存在挑戰(zhàn);而調(diào)查則與之相反,雖更易實(shí)施和量化,概念清晰度高,但難獲取用戶情境與詳細(xì)資料[18]。與基于小樣本的訪談與調(diào)查不同,UGC 模式下的用戶信息需求更易獲取且更能反映用戶的真實(shí)情況,但無(wú)法讓參與者闡明其內(nèi)容含義及后續(xù)跟進(jìn)研究[15]。

      2.2 信息多層級(jí)分類(lèi)研究現(xiàn)狀

      信息多層級(jí)分類(lèi)可看作一種特殊的類(lèi)別標(biāo)簽之間具備層級(jí)結(jié)構(gòu)的信息多分類(lèi)問(wèn)題[19]。多層級(jí)分類(lèi)在現(xiàn)實(shí)世界中有著重要的作用,廣泛應(yīng)用于文本分類(lèi)、生物信息學(xué)等諸多領(lǐng)域,如圖書(shū)分類(lèi)法、物種綱目分類(lèi)等。當(dāng)前大多數(shù)分類(lèi)方法局限于單層級(jí)二分類(lèi)、多分類(lèi)、多標(biāo)簽等問(wèn)題,往往忽略了類(lèi)別標(biāo)簽之間因?qū)蛹?jí)結(jié)構(gòu)或關(guān)聯(lián)性所反映出的重要信息。當(dāng)然,部分學(xué)者也在各領(lǐng)域圍繞不同信息載體與層級(jí)結(jié)構(gòu)處理策略展開(kāi)了一系列相關(guān)理論與實(shí)證研究。

      從信息載體來(lái)看,當(dāng)前主要聚焦于長(zhǎng)文本與圖像信息載體的多層級(jí)分類(lèi)研究,根據(jù)標(biāo)簽類(lèi)型又可分為層級(jí)單標(biāo)簽和層級(jí)多標(biāo)簽分類(lèi)問(wèn)題。針對(duì)文本信息載體中的層級(jí)單標(biāo)簽問(wèn)題,Stein 等[20]通過(guò)組合不同的詞嵌入模型與機(jī)器學(xué)習(xí)算法對(duì)比發(fā)現(xiàn),F(xiàn)ast‐Text 無(wú)論作為分類(lèi)算法還是詞嵌入生成器均提供了出色的結(jié)果。通過(guò)fine-tuning 微調(diào)方式將上層信息傳遞至下層標(biāo)簽學(xué)習(xí)中,Shimura 等[21]提出了HFTCNN (hierarchical fine-tuning conventional neural net‐work)模型。利用標(biāo)簽的層級(jí)結(jié)構(gòu),HCCNN(hi‐erarchical classification conventional neural network)模型通過(guò)融合各層級(jí)標(biāo)簽學(xué)習(xí)結(jié)果以指導(dǎo)完成最終層級(jí)多標(biāo)簽的學(xué)習(xí)[22]。對(duì)于更為復(fù)雜的極端多標(biāo)簽分類(lèi)問(wèn)題,Gargiulo 等[23]利用適用于數(shù)據(jù)標(biāo)簽正則化的層級(jí)標(biāo)簽擴(kuò)展方法進(jìn)行層級(jí)多標(biāo)簽分類(lèi)。針對(duì)圖像信息載體,Chen 等[24]通過(guò)層級(jí)語(yǔ)義嵌入框架,自頂向下逐層將上一層級(jí)的預(yù)測(cè)得分向量作為下一層級(jí)的先驗(yàn)信息,并采用使其與上一層級(jí)結(jié)果相符層級(jí)結(jié)構(gòu)關(guān)聯(lián)規(guī)則進(jìn)行圖片信息的細(xì)粒度分類(lèi)。

      從處理策略來(lái)看,常見(jiàn)的層級(jí)結(jié)構(gòu)類(lèi)型有樹(shù)(tree) 結(jié)構(gòu)和有向無(wú)環(huán)圖結(jié)構(gòu)(directed acyclic graph,DAG)兩種,當(dāng)前絕大多數(shù)研究主要針對(duì)樹(shù)結(jié)構(gòu),其層級(jí)結(jié)構(gòu)處理策略有自頂向下型的局部分類(lèi)策略、大爆炸(big-bang)型的全局分類(lèi)策略、收縮型的扁平化分類(lèi)策略三種,而采用最多的是自頂向下的局部處理策略[19]。

      從效果評(píng)估方法來(lái)看,許多研究人員使用傳統(tǒng)的精確率、召回率等方法進(jìn)行評(píng)估,但實(shí)際上這不適合層級(jí)分類(lèi),因?yàn)槠浜雎粤祟?lèi)別間的關(guān)系。對(duì)此有學(xué)者建議采用等級(jí)精度、召回率等進(jìn)行度量,不僅考慮實(shí)際與預(yù)測(cè)節(jié)點(diǎn),還可擴(kuò)展考慮中的對(duì)象,但又過(guò)度懲罰了具有較多祖先的節(jié)點(diǎn),為此有學(xué)者使用最低共同祖先(lowest common ancestor,LCA)度量評(píng)估[19,23,25]。還有部分學(xué)者采用宏觀平均值[26]、微觀平均值[27]、平均與整體準(zhǔn)確率[28]等進(jìn)行層級(jí)分類(lèi)效果評(píng)估。

      綜上所述,現(xiàn)有的用戶信息需求研究逐漸傾向于面向特定用戶群體,但在研究方法上大部分仍采用調(diào)查與訪談的方式,UGC 模式下的內(nèi)容分析與編碼方法應(yīng)用相對(duì)較少。與此同時(shí),信息多層級(jí)分類(lèi)問(wèn)題主要聚焦于長(zhǎng)文本與圖像信息的層級(jí)多標(biāo)簽分類(lèi)研究,針對(duì)短文本多層級(jí)單標(biāo)簽分類(lèi)問(wèn)題的研究相對(duì)缺乏。而短文本的特征稀疏,并且線上用戶需求主題細(xì)而龐雜,致使專指性信息資源分類(lèi)聚合充滿挑戰(zhàn)。為此,本研究將以在線問(wèn)答社區(qū)特定群體中處于弱勢(shì)的妊娠期孕婦為對(duì)象,應(yīng)用內(nèi)容分析與編碼的方法構(gòu)建其多層級(jí)、細(xì)粒度的需求主題體系架構(gòu),依托此架構(gòu),通過(guò)引入機(jī)器學(xué)習(xí)機(jī)制構(gòu)建并實(shí)現(xiàn)在線問(wèn)答社區(qū)信息資源的專指性、多層級(jí)、細(xì)粒度自動(dòng)化分類(lèi)模型與應(yīng)用路徑。

      3 技術(shù)路線與評(píng)估方法設(shè)計(jì)

      3.1 信息多層級(jí)分類(lèi)策略選擇

      本研究所構(gòu)建的信息多層級(jí)分類(lèi)采用自頂向下的局部分類(lèi)策略。該策略從類(lèi)別層級(jí)的頂層(根節(jié)點(diǎn))開(kāi)始,逐層向下直至分到某個(gè)類(lèi)別,即先劃分至大類(lèi),再到該大類(lèi)的某一小類(lèi),以及該小類(lèi)的某一超小類(lèi)。在整個(gè)分類(lèi)過(guò)程中均使用類(lèi)別的層級(jí)結(jié)構(gòu)信息,其分類(lèi)過(guò)程符合人們信息多維導(dǎo)航與檢索的思維習(xí)慣,適應(yīng)性較強(qiáng)。本研究所采用的樹(shù)型結(jié)構(gòu)多層級(jí)需求主題體系架構(gòu)與多層級(jí)信息分類(lèi)問(wèn)題適合選擇這種自頂向下的層級(jí)結(jié)構(gòu)處理策略,從頂層類(lèi)別開(kāi)始逐層向下進(jìn)行多層級(jí)、細(xì)粒度的需求主題類(lèi)別劃分。

      3.2 信息多層級(jí)分類(lèi)模型網(wǎng)絡(luò)基本結(jié)構(gòu)

      根據(jù)構(gòu)建的用戶需求主題體系架構(gòu)可知,其層級(jí)標(biāo)簽從粗粒度向超細(xì)粒度延伸,每條樣本數(shù)據(jù)的層級(jí)類(lèi)別標(biāo)簽僅對(duì)應(yīng)層級(jí)結(jié)構(gòu)中的唯一一條路徑(即一對(duì)一關(guān)系),因而本研究屬于層級(jí)單標(biāo)簽分類(lèi)問(wèn)題。對(duì)于層級(jí)單標(biāo)簽問(wèn)題而言,其核心是要求模型能夠利用層級(jí)結(jié)構(gòu)關(guān)系等全局和局部信息作為先驗(yàn)知識(shí)規(guī)范約束和有效引導(dǎo)深度網(wǎng)絡(luò)的學(xué)習(xí),以此更精準(zhǔn)地識(shí)別底層細(xì)粒度信息的類(lèi)別特征。在本研究面向用戶需求主題的信息多層級(jí)分類(lèi)模型(UNT-HC)中,自頂向下逐層學(xué)習(xí)和識(shí)別各層級(jí)類(lèi)別標(biāo)簽,在學(xué)習(xí)訓(xùn)練過(guò)程中將上一層學(xué)習(xí)與識(shí)別結(jié)果作為先驗(yàn)知識(shí)集成并嵌入下一層網(wǎng)絡(luò)中,以此指導(dǎo)和學(xué)習(xí)下一層更細(xì)粒度的特征與類(lèi)別。其中,UNT-HC 模型的網(wǎng)絡(luò)基本結(jié)構(gòu)如圖1 所示。

      圖1 UNT-HC模型網(wǎng)絡(luò)基本結(jié)構(gòu)

      依托UNT-HC 模型的樣本學(xué)習(xí)訓(xùn)練基本流程如下:

      (1)輸入是一段經(jīng)預(yù)處理,并保留最大特征字符、長(zhǎng)度為200 的用戶中文提問(wèn)短文本,同時(shí)進(jìn)行詞嵌入轉(zhuǎn)化(圖1 中主要利用FastText 實(shí)現(xiàn))。

      (2)訓(xùn)練樣本數(shù)據(jù)的頂層標(biāo)簽(即信息支持和情感支持),即在詞嵌入基礎(chǔ)上通過(guò)一個(gè)雙向LSTM(long short-term memory)循環(huán)神經(jīng)網(wǎng)絡(luò)獲取各隱藏層信息,并對(duì)隱藏層信息進(jìn)行注意力(atten‐tion)機(jī)制處理,得到一個(gè)注意力概率向量,將各隱藏層信息與注意力概率向量相結(jié)合進(jìn)行連接(concate)操作實(shí)現(xiàn)全連接,最后利用分類(lèi)交叉熵(categorical_crossentropy)進(jìn)行頂層標(biāo)簽預(yù)測(cè)。這個(gè)過(guò)程符合TextAttBiRNN (text attention bi-directional recurrent neural network)文本分類(lèi)框架。

      (3)進(jìn)行下層級(jí)標(biāo)簽預(yù)測(cè),此時(shí)依然采用Tex‐tAttBiRNN 文本分類(lèi)框架,但不再重新生成詞嵌入。利用下層雙向LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)得到各隱藏層信息后,通過(guò)連接操作融合上一層雙向LSTM 的循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)結(jié)果并實(shí)施本層注意力概率提取,進(jìn)而融合上一層分類(lèi)預(yù)測(cè)結(jié)果對(duì)該層標(biāo)簽進(jìn)行學(xué)習(xí)和預(yù)測(cè)。

      (4)按照上述步驟,逐層遍歷整個(gè)層級(jí)標(biāo)簽,進(jìn)而完成對(duì)整個(gè)層級(jí)結(jié)構(gòu)中的各層級(jí)標(biāo)簽及最底層節(jié)點(diǎn)細(xì)粒度類(lèi)別標(biāo)簽的學(xué)習(xí)與預(yù)測(cè)。

      3.3 數(shù)據(jù)層級(jí)標(biāo)簽處理

      本研究屬于層級(jí)單標(biāo)簽分類(lèi)問(wèn)題,其層級(jí)標(biāo)簽為一對(duì)一關(guān)系的樹(shù)型結(jié)構(gòu)。此時(shí),通過(guò)樣本最底層細(xì)粒度節(jié)點(diǎn)的類(lèi)別標(biāo)簽,能夠形成一條追溯至根節(jié)點(diǎn)的唯一路徑,從而得到該底層節(jié)點(diǎn)其上的各層級(jí)節(jié)點(diǎn)標(biāo)簽。本研究的最終目標(biāo)是利用標(biāo)簽間的層級(jí)結(jié)構(gòu)信息,更準(zhǔn)確地識(shí)別出最底層細(xì)粒度節(jié)點(diǎn)的最終類(lèi)別標(biāo)簽。在學(xué)習(xí)訓(xùn)練過(guò)程中,可提取或拆分出各層級(jí)類(lèi)別標(biāo)簽,并將其進(jìn)行規(guī)格化處理,然后轉(zhuǎn)化為獨(dú)熱編碼(one-hot),以便在各層級(jí)標(biāo)簽學(xué)習(xí)與識(shí)別過(guò)程中使用。

      3.4 需求主題特征表示

      當(dāng)嘗試引入機(jī)器學(xué)習(xí)機(jī)制實(shí)現(xiàn)文本分類(lèi)應(yīng)用時(shí),需要解決的首要問(wèn)題是如何對(duì)用戶需求文本信息進(jìn)行文本特征揭示與表達(dá),即如何將自然語(yǔ)言轉(zhuǎn)化為機(jī)器能夠理解并學(xué)習(xí)的結(jié)構(gòu)化形態(tài)。在機(jī)器學(xué)習(xí)中,特征屬性的選擇通常直接關(guān)系到后續(xù)訓(xùn)練結(jié)果的可靠性,一個(gè)好的特征屬性往往能夠得到令人滿意的分類(lèi)效果。本研究在結(jié)合現(xiàn)有研究的基礎(chǔ)上,嘗試分別采用word2vec、LDA2vec 及其已預(yù)訓(xùn)練好的中文FastText 與騰訊DSG (directional skipgram)詞向量模型對(duì)用戶提問(wèn)文本數(shù)據(jù)的需求主題特征進(jìn)行表示,并根據(jù)UNT-HC 模型分類(lèi)效果,選擇其中相對(duì)較優(yōu)的詞嵌入模型進(jìn)行后續(xù)模型效果對(duì)比驗(yàn)證實(shí)驗(yàn)。

      3.5 多層級(jí)分類(lèi)器選擇

      從圖1 可知,模型各層級(jí)的基礎(chǔ)分類(lèi)器均選擇TextAttBiRNN 分類(lèi)算法。TextAttBiRNN 分類(lèi)算法是在雙向LSTM 文本分類(lèi)算法的基礎(chǔ)上改進(jìn)的,主要引入了注意力機(jī)制,能夠有效應(yīng)對(duì)與分類(lèi)任務(wù)不相關(guān)的數(shù)據(jù)點(diǎn),注意力被表示為整個(gè)集合中所有點(diǎn)的softmax 加權(quán)平均值,權(quán)重則被計(jì)算成一些非線性的向量和上下文信息,在上下文中,部分文字被賦予更高的權(quán)值來(lái)突出,從而使雙向LSTM 編碼得到的表征向量能夠通過(guò)attention 機(jī)制去更加關(guān)注那些與決策需求最相關(guān)的信息,進(jìn)而提高文本分類(lèi)的效果。

      3.6 模型評(píng)估方法

      由于本研究為多層級(jí)單標(biāo)簽問(wèn)題,除頂層標(biāo)簽類(lèi)別為兩類(lèi)外,其余層級(jí)標(biāo)簽均屬采用獨(dú)熱編碼的多類(lèi)別單標(biāo)簽,且最底層類(lèi)別標(biāo)簽被視為最終類(lèi)別標(biāo)簽,因而可采用傳統(tǒng)單層級(jí)多分類(lèi)評(píng)估方法對(duì)模型效果進(jìn)行評(píng)估。categorical_crossentropy 損失函數(shù)就是針對(duì)這類(lèi)情況的多分類(lèi)交叉熵?fù)p失函數(shù),要求類(lèi)別標(biāo)簽為獨(dú)熱編碼,一般配合柔性最大值(soft‐max)進(jìn)行單標(biāo)簽分類(lèi)。鑒于此,本研究采用分類(lèi)交叉熵函數(shù)來(lái)評(píng)估UNT-HC 模型的分類(lèi)效果。其中,分類(lèi)交叉熵?fù)p失函數(shù)定義為

      其中,n代表樣本數(shù);m代表分類(lèi)數(shù)。因?yàn)樵摵瘮?shù)是一個(gè)多輸出損失函數(shù),因此函數(shù)的計(jì)算過(guò)程分多步實(shí)現(xiàn)。當(dāng)時(shí),loss=0,否則,loss>0,而且概率相差越大,loss 值也越大。

      UNT-HC 模型自頂向下?lián)碛腥龑硬煌莫?dú)熱標(biāo)簽,當(dāng)一條文本輸入模型后,整個(gè)模型會(huì)相應(yīng)地輸出與三個(gè)層級(jí)一一對(duì)應(yīng)的預(yù)測(cè)向量,各層級(jí)輸出的損失值也將會(huì)對(duì)應(yīng)一個(gè)損失權(quán)重,并且三個(gè)層級(jí)的分類(lèi)損失值會(huì)根據(jù)各自的損失權(quán)重合并構(gòu)成一個(gè)最終模型的分類(lèi)損失值。

      與多分類(lèi)交叉熵?fù)p失函數(shù)相對(duì)應(yīng),分類(lèi)精確度函數(shù)(categorical_accuracy)檢查實(shí)際標(biāo)簽(y_ture)中最大值對(duì)應(yīng)的索引(index) 與預(yù)測(cè)標(biāo)簽(y_pred)中最大值對(duì)應(yīng)的索引是否相等,因僅比較一個(gè)值,即最大的那個(gè)值的索引,所以比較適用于多分類(lèi)單標(biāo)簽任務(wù),但不適用于多標(biāo)簽任務(wù),并且與損失值一樣,整個(gè)模型會(huì)相應(yīng)地輸出各層級(jí)的分類(lèi)準(zhǔn)確率。

      4 實(shí)驗(yàn)研究

      4.1 實(shí)驗(yàn)內(nèi)容設(shè)計(jì)

      面向用戶需求主題的信息多層級(jí)分類(lèi)模型(UNT-HC)實(shí)驗(yàn)內(nèi)容主要涉及以下三個(gè)部分:

      (1)在線問(wèn)答社區(qū)用戶信息需求主題層級(jí)分類(lèi)體系構(gòu)建,利用在線母嬰問(wèn)答社區(qū)妊娠期孕婦提問(wèn)文本數(shù)據(jù)構(gòu)建用戶信息需求主題層級(jí)分類(lèi)體系,并以此作為UNT-HC 模型構(gòu)建及其數(shù)據(jù)樣本標(biāo)簽編碼評(píng)估的標(biāo)準(zhǔn);

      (2) 通過(guò)實(shí)驗(yàn)對(duì)比多組不同的參數(shù)值取值對(duì)UNT-HC 模型多層級(jí)分類(lèi)效果的影響,并且選取其中相對(duì)最優(yōu)的一組參數(shù)取值作為最終模型的參數(shù)設(shè)置;

      (3)通過(guò)實(shí)驗(yàn)對(duì)比不同詞表征模型對(duì)UNT-HC模型多層級(jí)分類(lèi)效果的影響,并從中選擇一種相對(duì)較優(yōu)的詞表征模型進(jìn)行后續(xù)模型分類(lèi)效果對(duì)比驗(yàn)證實(shí)驗(yàn)。

      4.2 用戶信息需求主題體系構(gòu)建

      4.2.1 用戶需求數(shù)據(jù)選擇與預(yù)處理

      信息需求激發(fā)用戶信息行為,但用戶若未使用言語(yǔ)或詞語(yǔ)表達(dá)出來(lái),旁人將難以知曉其真實(shí)的信息需求。在線問(wèn)答社區(qū)中的提問(wèn)作為用戶折中的信息需求,是其對(duì)自身信息需求的自由描述與主動(dòng)表達(dá),實(shí)質(zhì)上更趨近于用戶意識(shí)到的“最真實(shí)的需求”,由此成為信息需求觀察與研究最優(yōu)質(zhì)的素材[29]。然而,國(guó)內(nèi)在線母嬰問(wèn)答社區(qū)眾多,研究中難以實(shí)現(xiàn)全覆蓋,故通過(guò)以下方式篩選了三個(gè)具有代表性的平臺(tái)作為本研究數(shù)據(jù)來(lái)源:①根據(jù)中國(guó)品牌大數(shù)據(jù)研究院公布的母嬰網(wǎng)十大品牌排行榜[30],篩選出擁有問(wèn)答模塊的6 個(gè)網(wǎng)站;②結(jié)合艾媒咨詢發(fā)布的《2019 中國(guó)綜合母嬰平臺(tái)監(jiān)測(cè)報(bào)告》[31]中的用戶體驗(yàn)滿意度調(diào)查結(jié)果,保留了已篩選的品牌和滿意度排名均穩(wěn)居前三的網(wǎng)站;③利用中國(guó)網(wǎng)站排行查詢保留的3 個(gè)網(wǎng)站的母嬰網(wǎng)站綜合排行榜和Al‐exa 排名,進(jìn)一步驗(yàn)證其代表性;④為便于數(shù)據(jù)采集和保障數(shù)據(jù)質(zhì)量,再次確認(rèn)其提問(wèn)數(shù)據(jù)是否按照備孕、懷孕等階段劃分。

      按照上述方法與篩選標(biāo)準(zhǔn),為了保障用戶需求主題的全面性以及減弱因平臺(tái)差異而導(dǎo)致研究結(jié)果受影響,本研究最終選擇了寶寶樹(shù)、媽媽網(wǎng)、育兒網(wǎng)三大在線問(wèn)答社區(qū)作為最終數(shù)據(jù)來(lái)源。與此同時(shí),在各平臺(tái)懷孕期(即妊娠期)問(wèn)答資源模塊中采集了不同時(shí)間段的共16188 條用戶提問(wèn)文本,其中,寶寶樹(shù)7624 條,媽媽網(wǎng)5571 條,育兒網(wǎng)2993 條。

      因數(shù)據(jù)來(lái)源于不同平臺(tái),且為用戶自定義生成文本,其質(zhì)量參差不齊,為了提高數(shù)據(jù)質(zhì)量,本研究初步篩選并刪除了原始數(shù)據(jù)集中以下7 類(lèi)數(shù)據(jù):①純表情、符號(hào)、數(shù)字等非文本或超短無(wú)效文本(44 條);②提問(wèn)式產(chǎn)品廣告(144 條);③非母嬰主題提問(wèn)(68 條);④非妊娠期階段用戶需求提問(wèn)(1286 條);⑤特定對(duì)象間交流文本(25 條);⑥難以判斷其需求主題的提問(wèn)(91 條);⑦需求主題較偏且數(shù)量極少的提問(wèn)(5 條)。經(jīng)篩選、清洗后,最終獲得有效用戶提問(wèn)數(shù)據(jù)14525 條。

      4.2.2 用戶需求主題編碼與測(cè)試

      本研究利用內(nèi)容分析法與迭代編碼的方式從用戶提問(wèn)文本中提取用戶需求主題,進(jìn)而構(gòu)建用戶信息需求主題體系架構(gòu),其內(nèi)容主要分為兩大部分:第一,初始需求主題體系架構(gòu)編碼方案的制定與迭代編碼修正;第二,編碼方案全面性、適用性及編碼間可靠性測(cè)試。具體的構(gòu)建流程如圖2 所示。

      圖2 用戶信息需求主題體系架構(gòu)構(gòu)建流程

      1)初始編碼方案制定

      因用戶龐雜的信息需求主題涉及健康、醫(yī)藥、生活等諸多細(xì)微領(lǐng)域,現(xiàn)階段極少有如同疾病分類(lèi)體系那樣相對(duì)完整且層次結(jié)構(gòu)分明的分類(lèi)體系架構(gòu)可供參考,因此本研究?jī)H能夠依托現(xiàn)有線上線下零散且不成體系的需求主題研究和用戶提問(wèn)文本數(shù)據(jù),通過(guò)扎根理論的方法,從中提取和凝練出具有層級(jí)結(jié)構(gòu)的需求主題體系架構(gòu)。有研究表明,用戶除在線尋求信息支持外,同樣也尋求情感支持[16]。鑒于此,本研究將信息支持和情感支持作為在線問(wèn)答社區(qū)中妊娠期孕婦需求主題初始體系架構(gòu)中的頂層需求主題目錄。與此同時(shí),參考現(xiàn)有的線下妊娠期孕婦需求主題,尤其是在Liu 等學(xué)者設(shè)計(jì)的中國(guó)孕產(chǎn)婦健康需求量表(maternal health needs scale,MHNS)[32]和Almalik 等學(xué)者的孕婦妊娠期間33 項(xiàng)學(xué)習(xí)需求量表[33]的基礎(chǔ)上,結(jié)合頂層主題目錄,按照粗粒度-細(xì)粒度-超細(xì)粒度層級(jí)結(jié)構(gòu),通過(guò)概念整合與歸納制定了層級(jí)深度為3 層的初始需求主題體系架構(gòu)編碼方案:第1 層包含2 項(xiàng),第2 層涉及11項(xiàng),第3 層涵蓋47 項(xiàng)需求主題目錄。

      2)迭代編碼與方案修正

      根據(jù)已制定的初始編碼方案,采用迭代編碼的方式,對(duì)“媽媽網(wǎng)”和“寶寶樹(shù)”兩組數(shù)據(jù)集中的每條用戶提問(wèn)文本所反映的需求主題進(jìn)行編碼,并在迭代編碼過(guò)程中根據(jù)反饋出來(lái)的新問(wèn)題不斷調(diào)整和修正編碼方案。

      3)編碼方案全面性測(cè)試

      經(jīng)過(guò)不斷地迭代編碼與方案修正后,需求主題編碼方案基本趨于穩(wěn)定,為了驗(yàn)證最新編碼方案的全面性與適用性,使用該編碼方案對(duì)另一組未進(jìn)行迭代編碼的“育兒網(wǎng)”數(shù)據(jù)集進(jìn)行用戶多層級(jí)需求主題編碼,并觀察其是否出現(xiàn)新需求主題。最終結(jié)果顯示,“育兒網(wǎng)”數(shù)據(jù)集并未出現(xiàn)新需求主題,并且與“寶寶樹(shù)”和“媽媽網(wǎng)”數(shù)據(jù)集相比,“胎兒取名”“妊娠期工作”“妊娠期產(chǎn)假”“臨產(chǎn)前物品準(zhǔn)備”等8 類(lèi)需求主題并未在該數(shù)據(jù)集中出現(xiàn)。由此說(shuō)明,該編碼方案具有較強(qiáng)的全面性和適用性。由于育兒網(wǎng)數(shù)據(jù)集的需求主題均包含在前兩個(gè)數(shù)據(jù)集中,因此將三個(gè)數(shù)據(jù)集合成一個(gè)更大的數(shù)據(jù)集,并用最新的編碼方案對(duì)數(shù)據(jù)集進(jìn)行重新編碼。

      4)編碼間可靠性測(cè)試

      為驗(yàn)證本次編碼間的可靠性與一致性,以及編碼方案的有效性與可重復(fù)性,本研究邀請(qǐng)了未參與編碼的一組成員,在給予其編碼方案和闡明了編碼說(shuō)明與判定規(guī)則的前提下,從數(shù)據(jù)集中隨機(jī)抽取了10%的樣本數(shù)據(jù)進(jìn)行編碼,并采用Cohen's kappa系數(shù)對(duì)編碼的一致性和可靠性進(jìn)行檢驗(yàn)。結(jié)果顯示,三個(gè)層級(jí)的需求主題編碼間的kappa 系數(shù)均大于0.8(P<0.01),說(shuō)明本次需求主題編碼間的一致性與可靠性程度很強(qiáng),同時(shí)也反映了本研究編碼方案具有很強(qiáng)的有效性和可重復(fù)性。

      至此,可將當(dāng)前多層級(jí)信息需求主題編碼方案認(rèn)定為最終的在線問(wèn)答社區(qū)妊娠期孕婦多層級(jí)信息需求主題分類(lèi)體系架構(gòu),同時(shí)也可將其編碼數(shù)據(jù)集作為后續(xù)信息多層級(jí)分類(lèi)研究的實(shí)驗(yàn)數(shù)據(jù)樣本。最終的在線問(wèn)答社區(qū)妊娠期孕婦多層級(jí)信息需求主題體系架構(gòu)如圖3 所示。

      圖3 在線問(wèn)答社區(qū)妊娠期孕婦多層級(jí)信息需求主題體系架構(gòu)

      該需求主題體系架構(gòu)共包括三個(gè)層級(jí),第1 層級(jí)包含2 類(lèi)需求主題,第2 層級(jí)涵蓋12 類(lèi)需求主題,第3 層級(jí)覆蓋51 類(lèi)需求主題。圖3 中,各二級(jí)和三級(jí)主題之后的中括號(hào)內(nèi)的三組數(shù)值分別表示該主題下的數(shù)據(jù)條數(shù)、總需求主題數(shù)據(jù)條數(shù)的占比和上一層級(jí)父節(jié)點(diǎn)需求主題數(shù)據(jù)條數(shù)的占比。

      4.3 層級(jí)分類(lèi)實(shí)驗(yàn)數(shù)據(jù)劃分與預(yù)處理

      4.3.1 數(shù)據(jù)選擇與劃分

      UNT-HC 模型是面向在線問(wèn)答社區(qū)用戶信息需求主題體系架構(gòu)構(gòu)建的,因而本次實(shí)驗(yàn)樣本數(shù)據(jù)選擇上述已編碼和測(cè)試驗(yàn)證通過(guò)的、具備層級(jí)結(jié)構(gòu)標(biāo)簽的在線問(wèn)答社區(qū)妊娠期孕婦信息需求主題數(shù)據(jù)集(以下簡(jiǎn)稱mother_data)。因?yàn)閿?shù)據(jù)集中超細(xì)粒度標(biāo)簽類(lèi)別較多,而數(shù)據(jù)集總體數(shù)據(jù)量又相對(duì)偏少,為保證實(shí)驗(yàn)所使用訓(xùn)練集與測(cè)試集對(duì)所有需求主題標(biāo)簽的覆蓋面,本研究將數(shù)據(jù)集中的14525 條數(shù)據(jù)根據(jù)第3 層級(jí)的51 類(lèi)需求主題標(biāo)簽分別按照各類(lèi)別主題標(biāo)簽9∶1 隨機(jī)劃分為訓(xùn)練集與測(cè)試集,然后將各類(lèi)別主題標(biāo)簽的訓(xùn)練集與測(cè)試集對(duì)應(yīng)合并,最終將整個(gè)數(shù)據(jù)集按照9∶1 隨機(jī)劃分出訓(xùn)練集與測(cè)試集。最終,訓(xùn)練集包含13076 條樣本數(shù)據(jù),測(cè)試集包含1449 條樣本數(shù)據(jù)。

      4.3.2 文本數(shù)據(jù)預(yù)處理

      文本預(yù)處理過(guò)程就是從文本中提取關(guān)鍵詞表示文本的過(guò)程,對(duì)于中文文本而言,預(yù)處理主要包括中文文本分詞和去停用詞兩個(gè)階段。中文文本沒(méi)有天然的空格進(jìn)行間隔,因而本研究利用Jieba 分詞工具對(duì)數(shù)據(jù)集進(jìn)行分詞操作。但mother_data 數(shù)據(jù)集涉及醫(yī)學(xué)專業(yè)領(lǐng)域,并且是用戶自定義生成文本,其文本包含了大量如“妊娠糖尿病”“前置胎盤(pán)”等專業(yè)性詞匯,又摻雜了大量如“有木有”“集美們”“BB”“小月子”等網(wǎng)絡(luò)或民間用語(yǔ),致使原有詞表難以滿足需求,故通過(guò)搜狗詞庫(kù)等向原有詞表中添加了30多萬(wàn)個(gè)自定義詞匯,從而提升文本分詞效果。與此同時(shí),因?qū)嶒?yàn)數(shù)據(jù)文本為短文本,文本特征詞較少,而部分關(guān)鍵詞在類(lèi)別劃分過(guò)程中可能為關(guān)鍵特征詞卻被劃為停用詞。鑒于此,本研究未進(jìn)行停用詞處理,從而保證文本最大特征,進(jìn)而提升類(lèi)別識(shí)別度。

      4.4 多層級(jí)分類(lèi)模型參數(shù)設(shè)置

      由于本實(shí)驗(yàn)數(shù)據(jù)樣本為短文本,且長(zhǎng)短不一,故保留最大特征數(shù)字長(zhǎng)度的MaxLen 參數(shù)值設(shè)置為200,若文本特征數(shù)字長(zhǎng)度小于參數(shù)值,則會(huì)自動(dòng)填充為0,使之與參數(shù)值保持一致。與此同時(shí),因LSTM 模型在訓(xùn)練或預(yù)測(cè)過(guò)程中極易產(chǎn)生過(guò)擬合現(xiàn)象,為防止和改善過(guò)擬合現(xiàn)象,一方面,在各層級(jí)的雙向LSTM 層中增加dropout 參數(shù)與recurrent_drop‐out 參數(shù);另一方面,加入早停機(jī)制(EarlyStop‐ping),隨著epoch 的增加,若最終標(biāo)簽識(shí)別的損失值連續(xù)兩次上升,則提早終止訓(xùn)練。但是,因dropout 參數(shù)和recurrent_dropout 參數(shù)的最佳參數(shù)值難以主觀確定,對(duì)此,本研究選擇了幾組現(xiàn)有研究中常見(jiàn)的參數(shù)值組,利用mother_data 數(shù)據(jù)集和Fast‐Text 詞嵌入模型,將各組參數(shù)分別代入U(xiǎn)NT-HC 模型中,在其余參數(shù)保持不變的情況下,通過(guò)最終標(biāo)簽預(yù)測(cè)準(zhǔn)確率的大小,從中選擇準(zhǔn)確率相對(duì)最佳的一組參數(shù)值作為dropout 參數(shù)和recurrent_dropout 參數(shù)的最終參數(shù)值。其中,各組參數(shù)值與之對(duì)應(yīng)的最終標(biāo)簽識(shí)別準(zhǔn)確率變化趨勢(shì)如圖4 所示。由圖4 可知,當(dāng)dropout 與recurrent_dropout 參數(shù)值均設(shè)置為0.5 時(shí),其準(zhǔn)確率相對(duì)最佳。

      圖4 各組參數(shù)值的最終標(biāo)簽識(shí)別準(zhǔn)確率變化趨勢(shì)

      4.5 多層級(jí)分類(lèi)實(shí)驗(yàn)結(jié)果分析

      利用上述已劃分且經(jīng)過(guò)預(yù)處理的訓(xùn)練集與測(cè)試集,將通過(guò)對(duì)比實(shí)驗(yàn)選擇的最佳模型參數(shù)代入U(xiǎn)NTHC 模型中進(jìn)行多層級(jí)分類(lèi)實(shí)驗(yàn)研究。但為了選擇一種相對(duì)較優(yōu)的詞表征模型進(jìn)行后續(xù)模型分類(lèi)效果對(duì)比驗(yàn)證實(shí)驗(yàn),在本實(shí)驗(yàn)過(guò)程中分別使用word2vec、FastText、DSG、LDA2vec 四種詞表征模型對(duì)moth‐er_data 數(shù)據(jù)集中的用戶提問(wèn)文本進(jìn)行表征,并且分別將層級(jí)分類(lèi)實(shí)驗(yàn)結(jié)果的準(zhǔn)確度輸出。其中,不同詞表征模型層級(jí)分類(lèi)準(zhǔn)確度實(shí)驗(yàn)結(jié)果如表1 所示。

      表1 不同詞表征模型層級(jí)分類(lèi)實(shí)驗(yàn)結(jié)果

      由表1 可知,四種詞表征模型的各層級(jí)分類(lèi)最佳準(zhǔn)確率差距均較小,其原因主要是FastText 和DSG 等已預(yù)訓(xùn)練的詞向量來(lái)源于新聞、小說(shuō)等語(yǔ)料,而本研究文本是極具醫(yī)學(xué)背景的母嬰主題,其匹配度與適用性較差。同時(shí),由于文本語(yǔ)料均為短文本,文本特征稀疏,總體來(lái)說(shuō)并不適用于LDA模型。當(dāng)然,僅從最底層分類(lèi)效果看,由FastText進(jìn)行詞表征的層級(jí)分類(lèi)模型效果最佳,其準(zhǔn)確率為68.12%,相比于其余三種模型分別提升了1.45、2.63 和6.08 個(gè)百分點(diǎn)。由此,在后續(xù)兩組實(shí)驗(yàn)中,將選擇本實(shí)驗(yàn)中的FastText 詞表征模型及其對(duì)應(yīng)的層級(jí)分類(lèi)結(jié)果完成對(duì)比驗(yàn)證。

      在測(cè)試集的識(shí)別預(yù)測(cè)過(guò)程中,由FastText 進(jìn)行表征的層級(jí)分類(lèi)模型的損失值和準(zhǔn)確率變化曲線如圖5 所示。由圖5 可知,測(cè)試集第1 層級(jí)的損失值與準(zhǔn)確率一直趨于平穩(wěn)。當(dāng)?shù)? 次時(shí)(即epoch=3),測(cè)試集第2 層級(jí)的損失值與準(zhǔn)確率也逐漸趨于平穩(wěn),但后期損失值略有上升趨勢(shì),出現(xiàn)輕微的過(guò)擬合現(xiàn)象。當(dāng)?shù)降? 次時(shí),第3 層級(jí)損失值與準(zhǔn)確率趨于平穩(wěn),此時(shí)模型達(dá)到最優(yōu)。

      圖5 模型損失值與準(zhǔn)確率變化曲線

      5 多層級(jí)分類(lèi)模型效果對(duì)比驗(yàn)證

      5.1 對(duì)比驗(yàn)證內(nèi)容設(shè)計(jì)

      (1)通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證本研究UNT-HC 模型分類(lèi)效果是否能夠明顯優(yōu)于單層級(jí)多分類(lèi)模型的分類(lèi)效果。本研究最終目標(biāo)是期望能夠通過(guò)引入機(jī)器學(xué)習(xí)機(jī)制,識(shí)別出用戶超細(xì)粒度信息需求主題,并以此實(shí)現(xiàn)細(xì)粒度專指性信息資源聚合,從而更好地滿足用戶個(gè)性化需求,其實(shí)質(zhì)是對(duì)用戶細(xì)粒度需求主題進(jìn)行分類(lèi),以期通過(guò)利用“粗粒度-細(xì)粒度-超細(xì)粒度”層級(jí)結(jié)構(gòu)關(guān)系來(lái)提升用戶超細(xì)粒度信息學(xué)需求主題分類(lèi)效果。為了驗(yàn)證UNT-HC 模型相較于直接進(jìn)行最底層超細(xì)粒度需求主題的單層級(jí)多分類(lèi)效果有顯著提升,此項(xiàng)實(shí)驗(yàn)將利用兩種模型在同樣的數(shù)據(jù)集、詞表征方法、參數(shù)配置等情況下,對(duì)數(shù)據(jù)集最底層標(biāo)簽進(jìn)行分類(lèi)并對(duì)比驗(yàn)證。

      (2)通過(guò)實(shí)驗(yàn)對(duì)比驗(yàn)證在針對(duì)層級(jí)單標(biāo)簽分類(lèi)問(wèn)題時(shí),UNT-HC 模型能否更優(yōu)于現(xiàn)有的多層級(jí)分類(lèi)模型。本研究將選擇同樣可針對(duì)層級(jí)單標(biāo)簽問(wèn)題的HCCNN 模型和HFT-CNN 模型,經(jīng)轉(zhuǎn)換后,在使用相同訓(xùn)練集與測(cè)試集及評(píng)估指標(biāo)的基礎(chǔ)上,對(duì)樣本數(shù)據(jù)集進(jìn)行層級(jí)分類(lèi),并對(duì)比驗(yàn)證三種模型分類(lèi)效果優(yōu)劣。

      5.2 單層與多層模型效果對(duì)比驗(yàn)證

      為驗(yàn)證本研究模型UNT-HC 相較于單層級(jí)分類(lèi)模型的分類(lèi)效果是否有顯著提升,本研究利用相同數(shù)據(jù)集對(duì)比驗(yàn)證了單層TextAttBiRNN 文本分類(lèi)算法與UNT-HC 分類(lèi)模型,其對(duì)比實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 單層與多層模型分類(lèi)結(jié)果

      由表2 可知,相比于直接對(duì)最底層標(biāo)簽預(yù)測(cè)的單層級(jí)分類(lèi)算法TextAttBiRNN 而言,本研究模型UNT-HC 的分類(lèi)效果有明顯提升,其準(zhǔn)確率提升了10.56 個(gè)百分點(diǎn)。如圖6 所示,從單層與多層模型測(cè)試集最終標(biāo)簽預(yù)測(cè)的損失值與準(zhǔn)確率變化曲線來(lái)看,單層模型在迭代至第6 次時(shí)強(qiáng)制提前結(jié)束,第4 次迭代之后,其損失值隨著準(zhǔn)確率的上升而上升,出現(xiàn)過(guò)擬合現(xiàn)象。

      圖6 單層與多層模型損失值與準(zhǔn)確率變化曲線

      5.3 多層級(jí)分類(lèi)模型效果對(duì)比驗(yàn)證

      為驗(yàn)證相較于現(xiàn)有的多層級(jí)分類(lèi)模型HFT-CNN與HCCNN,本研究模型UNT-HC 的分類(lèi)性能,在采用同一數(shù)據(jù)集的情況下,分別利用兩種層級(jí)分類(lèi)模型對(duì)其進(jìn)行多層級(jí)分類(lèi)訓(xùn)練與測(cè)試。經(jīng)實(shí)驗(yàn),HFT-CNN 模型和HCCNN 模型的最終標(biāo)簽分類(lèi)結(jié)果如表3 所示。

      表3 各層級(jí)分類(lèi)模型分類(lèi)結(jié)果

      根據(jù)各層級(jí)分類(lèi)模型最終標(biāo)簽分類(lèi)預(yù)測(cè)準(zhǔn)確率結(jié)果可知,本研究模型UNT-HC 相比于HFT-CNN 和HCCNN 模型的多層級(jí)單標(biāo)簽分類(lèi)效果更優(yōu),其準(zhǔn)確率分別提升了24.78 和15.95 個(gè)百分點(diǎn)。圖7 為三種層級(jí)分類(lèi)模型最終標(biāo)簽預(yù)測(cè)的損失值與準(zhǔn)確率變化曲線,從圖7 可以看出,HFT-CNN 模型在迭代至第5 次時(shí)被強(qiáng)制停止,第3 次迭代時(shí)模型達(dá)到最優(yōu),但其準(zhǔn)確率與UNT-HC 模型相差較多,并且模型在第3 次迭代后,損失值逐漸上升,準(zhǔn)確率逐漸下降。與此同時(shí),HCCNN 模型在迭代至第8 次時(shí)被強(qiáng)制停止,當(dāng)epoch=6 時(shí)模型達(dá)到最優(yōu),但其準(zhǔn)確率與本研究UNT-HC 模型仍存在一定差距。

      圖7 三種層級(jí)分類(lèi)模型損失值與準(zhǔn)確率變化曲線

      6 結(jié) 語(yǔ)

      本研究圍繞如何構(gòu)建面向用戶需求主題的在線問(wèn)答社區(qū)信息多層級(jí)分類(lèi)模型的核心目標(biāo),通過(guò)收集三大母嬰問(wèn)答社區(qū)妊娠期孕婦提問(wèn)數(shù)據(jù),采用內(nèi)容分析與迭代編碼的方法,構(gòu)建了面向在線問(wèn)答社區(qū)妊娠期孕婦的多層級(jí)、細(xì)粒度信息需求主題體系架構(gòu),并且利用已編碼且驗(yàn)證通過(guò)的用戶需求主題數(shù)據(jù),對(duì)構(gòu)建的信息多層級(jí)分類(lèi)模型進(jìn)行分類(lèi)實(shí)驗(yàn)與模型效果對(duì)比驗(yàn)證研究,證實(shí)了本研究信息多層級(jí)分類(lèi)模型在處理在線問(wèn)答社區(qū)中多層級(jí)、細(xì)粒度、單標(biāo)簽分類(lèi)問(wèn)題方面具備相對(duì)較強(qiáng)的適用性和優(yōu)越性。本研究主要工作與貢獻(xiàn)體現(xiàn)在以下兩個(gè)方面:①以在線母嬰問(wèn)答社區(qū)妊娠期孕婦信息需求數(shù)據(jù)為研究對(duì)象,構(gòu)建了具備3 層結(jié)構(gòu),最底層覆蓋51 類(lèi)用戶信息需求主題的在線母嬰問(wèn)答社區(qū)妊娠期孕婦多層級(jí)、細(xì)粒度需求主題體系架構(gòu),相較于現(xiàn)有母嬰需求主題分類(lèi)體系而言,本研究所構(gòu)建的多層級(jí)、細(xì)粒度需求主題體系專指性更高,覆蓋面更全,需求主題粒度更細(xì),結(jié)構(gòu)更清晰,構(gòu)建過(guò)程及方法擴(kuò)展性更強(qiáng),能夠推廣應(yīng)用至其他階段或群體需求主題體系架構(gòu)的構(gòu)建過(guò)程中,構(gòu)建的需求主題體系架構(gòu)也能為UGC 模式下妊娠期孕婦健康信息需求領(lǐng)域研究,以及多層級(jí)信息分類(lèi)服務(wù)導(dǎo)航、信息資源細(xì)粒度組織與管理等提供一定的理論參考與應(yīng)用借鑒;②構(gòu)建了面向用戶需求主題的信息多層級(jí)分類(lèi)模型,并且對(duì)比驗(yàn)證了該模型在多層級(jí)單標(biāo)簽分類(lèi)問(wèn)題方面的相對(duì)適用性與優(yōu)越性,其模型或方法能夠?yàn)樵诰€信息服務(wù)平臺(tái)優(yōu)化資源聚合、提升用戶體驗(yàn)、系統(tǒng)設(shè)計(jì)以及其他領(lǐng)域信息資源多層級(jí)分類(lèi)任務(wù)提供一定的解決思路與方法支持。

      然而,因時(shí)間成本、可操作性及自身理論水平等因素限制,本研究仍有一些需完善和改進(jìn)之處:①本研究?jī)H針對(duì)妊娠期孕婦構(gòu)建了其需求主題體系架構(gòu),未進(jìn)一步細(xì)化至孕早、孕中、孕晚期等階段,也沒(méi)有擴(kuò)展至女性備孕期、產(chǎn)褥期等整個(gè)孕育過(guò)程;②在編碼方案制定及需求主題命名環(huán)節(jié),受可操作性等因素影響,最終未能夠?qū)で蠡颢@取到母嬰專業(yè)領(lǐng)域?qū)<覀兊慕ㄗh及意見(jiàn),可能導(dǎo)致體系架構(gòu)的結(jié)構(gòu)、命名等缺乏一定科學(xué)性或權(quán)威性支撐;③本研究暫未采用最新的如圖神經(jīng)網(wǎng)絡(luò)、動(dòng)態(tài)詞嵌入等模型參與模型構(gòu)建與實(shí)驗(yàn),后續(xù)將進(jìn)一步利用最新的詞嵌入及其基礎(chǔ)分類(lèi)模型完善實(shí)驗(yàn),進(jìn)一步優(yōu)化本研究的效果;④在現(xiàn)實(shí)情況下,一條用戶提問(wèn)文本往往層級(jí)越低其需求主題概念標(biāo)簽越多,因而多層級(jí)分類(lèi)問(wèn)題的實(shí)質(zhì)是一個(gè)更為復(fù)雜的層級(jí)多標(biāo)簽分類(lèi)問(wèn)題,而如何有效解決更為復(fù)雜且更契合實(shí)際的信息層級(jí)多標(biāo)簽分類(lèi)問(wèn)題無(wú)疑是本領(lǐng)域極具挑戰(zhàn)性的前沿性問(wèn)題。

      猜你喜歡
      細(xì)粒度層級(jí)標(biāo)簽
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      軍工企業(yè)不同層級(jí)知識(shí)管理研究實(shí)踐
      基于軍事力量層級(jí)劃分的軍力對(duì)比評(píng)估
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車(chē)迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      標(biāo)簽化傷害了誰(shuí)
      任務(wù)期內(nèi)多層級(jí)不完全修復(fù)件的可用度評(píng)估
      九台市| 芦溪县| 吴川市| 河池市| 高雄县| 连云港市| 喜德县| 体育| 正阳县| 静宁县| 涞水县| 临武县| 石柱| 靖边县| 双桥区| 红原县| 康乐县| 沂源县| 湖南省| 石林| 织金县| 敦化市| 临桂县| 泸溪县| 林州市| 遂宁市| 永安市| 咸阳市| 宜宾县| 塔城市| 南江县| 西乡县| 德清县| 涞源县| 武汉市| 台州市| 佛学| 全椒县| 阳原县| 淄博市| 石棉县|