• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LDA和LSTM模型的研究主題關(guān)聯(lián)與預(yù)測研究

      2020-08-19 12:59朱光劉蕾李鳳景
      現(xiàn)代情報(bào) 2020年8期
      關(guān)鍵詞:隱私

      朱光 劉蕾 李鳳景

      摘 要:[目的/意義]如何挖掘海量學(xué)術(shù)論文中的研究主題,梳理研究主題的演化脈絡(luò)和關(guān)聯(lián)關(guān)系,預(yù)測主題前沿?zé)狳c(diǎn),對掌握科技競爭先機(jī)至關(guān)重要。[方法/過程]針對當(dāng)前主題關(guān)聯(lián)和預(yù)測研究中存在的不足,提出基于隱含狄利克雷(Latent Dirichlet allocation,LDA)和長短期記憶(Long Short Term Memory,LSTM)模型的研究關(guān)聯(lián)與預(yù)測方法,首先基于生命周期理論劃分多時(shí)序窗口,并利用LDA主題模型挖掘?qū)W術(shù)文獻(xiàn)中的隱性研究主題,分析主題間的關(guān)聯(lián)關(guān)系;基于主題預(yù)測指標(biāo)的時(shí)間序列特征,運(yùn)用LSTM模型對主題研究的發(fā)展趨勢和研究熱點(diǎn)進(jìn)行預(yù)測,并結(jié)合基金立項(xiàng)和論文發(fā)表情況對預(yù)測結(jié)果進(jìn)行定性修正。[結(jié)果/結(jié)論]案例分析結(jié)果表明,本文方法可以準(zhǔn)確挖掘研究主題,分析主題關(guān)聯(lián)關(guān)系,對研究主題研究走勢和熱點(diǎn)的預(yù)測具有實(shí)用價(jià)值。

      關(guān)鍵詞:LDA;LSTM;主題關(guān)聯(lián);主題預(yù)測;隱私

      Abstract:[Purpose/Significance]Mining the research topics from a large number of academic literature,investigating the research evolution process and topic relation,and predicting the research fronts have significant importance to the technological competition.[Method/Process]Considering the research limitations of topic relation and prediction,a research framework of topic relation and prediction based on LDA and LSTM was proposed.First,multi-temporal windows were divided based on life cycle theory.Then,the hidden research topics from academic literature were mined based on LDA topic model,as well as the topic relation was analyzed.Furthermore,considering the characteristics of time series of topic predictors,research trends and fronts were explored based on LSTM,while the research results were improved in combination with funding programs and literature publication.[Result/Conclusion]The experimental results showed that the proposed method can accurately mine the discipline topics and analyze the topic relation,while has practical values in predicting the research trend.

      Key words:LDA;LSTM;topic relation;topic prediction;privacy

      進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)技術(shù)、移動(dòng)通信技術(shù)、生物科技、新能源技術(shù)等成為新興產(chǎn)業(yè)發(fā)展的強(qiáng)大推動(dòng)力。為提升國際影響力,各國都在開展新一代科技革命,如中國實(shí)施5G通信戰(zhàn)略,德國提出工業(yè)4.0戰(zhàn)略,美國提出智能制造戰(zhàn)略[1]。在此背景下,科技工作者和決策者需要準(zhǔn)確把握領(lǐng)域發(fā)展趨勢,對研究前沿動(dòng)態(tài)進(jìn)行識別與預(yù)測,以支撐國家科技政策的制定。學(xué)術(shù)論文作為重要和權(quán)威的知識載體,如何運(yùn)用科學(xué)計(jì)量和文本挖掘等方法從海量文獻(xiàn)中梳理研究脈絡(luò),預(yù)測研究前沿,對掌握全球科技競爭先機(jī),建設(shè)科技強(qiáng)國起著極為關(guān)鍵的作用[2]。

      近年來,眾多學(xué)者在研究主題挖掘與識別、關(guān)聯(lián)演化和前沿預(yù)測等領(lǐng)域開展了諸多研究,研究方法包括引文分析、社會網(wǎng)絡(luò)分析、文本挖掘、技術(shù)路線圖等[3-4],已形成一定范式,但仍存在以下不足:其一,主題關(guān)聯(lián)的相似度計(jì)算方法不科學(xué),詞頻分析、幾何距離、余弦夾角等計(jì)算方法不能很好地反映主題和關(guān)鍵詞的概率分布情況;其二,時(shí)序窗口切分不合理,多數(shù)研究將時(shí)間跨度平均切分,沒有考慮到研究主題的生命周期特性;其三,主題預(yù)測較少分析時(shí)序變化趨勢,指標(biāo)設(shè)計(jì)不夠全面,沒有考慮到研究主題在時(shí)間維度上存在演化性和遷徙性。同時(shí),基于時(shí)間序列的預(yù)測結(jié)果存在誤差,現(xiàn)有研究缺乏定性修正的分析。

      基于此,本文提出基于LDA(Latent Dirichlet Allocation)和LSTM(Long Short Term Memory)模型的多時(shí)序研究主題關(guān)聯(lián)與預(yù)測方法,首先基于生命周期理論將主題跨度切分為萌芽期、成長期和成熟期等時(shí)序窗口,對不同窗口下的數(shù)據(jù)進(jìn)行LDA主題挖掘和識別,并計(jì)算不同主題間的概率分布相似度,分析研究主題的演化趨勢。進(jìn)一步,引入主題熱度、新穎度和遷徙度等前沿預(yù)測指標(biāo),利用LSTM神經(jīng)網(wǎng)絡(luò)模型對研究主題的發(fā)展態(tài)勢和前沿?zé)狳c(diǎn)進(jìn)行預(yù)測,并結(jié)合近年的基金立項(xiàng)和論文發(fā)表對模型預(yù)測結(jié)果進(jìn)行定性修正。最后,以隱私研究主題為例,通過實(shí)證分析驗(yàn)證所提方法的正確性和有效性。

      1 相關(guān)研究

      1.1 主題挖掘

      主題挖掘是指情報(bào)分析人員從學(xué)術(shù)論文、技術(shù)專利、政策文件等科技文獻(xiàn)中探測和識別隱含主題,追蹤學(xué)科研究動(dòng)態(tài)的過程[5]。目前,不同領(lǐng)域的主題挖掘研究主要運(yùn)用文本聚類、共詞分析、主題模型等文本分析方法,譚章祿等[6]以CNKI數(shù)據(jù)庫中的研究文獻(xiàn)為數(shù)據(jù)來源,抽取文章關(guān)鍵詞并構(gòu)建詞頻矩陣,運(yùn)用SPSS軟件對其進(jìn)行聚類分析,并采用卡方統(tǒng)計(jì)抽取高關(guān)聯(lián)度關(guān)鍵詞對聚類結(jié)果進(jìn)行分析;曲靖野等[7]以國家科技報(bào)告服務(wù)系統(tǒng)中的科技報(bào)告為數(shù)據(jù)源,采用Ward與K-means相結(jié)合的聚類算法對文本向量進(jìn)行聚類分析;楊穎等[8]基于共詞分析和社會復(fù)雜網(wǎng)絡(luò)理論,利用科學(xué)計(jì)量工具BICOMB分析近兩年間發(fā)文主題的社會網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)利用gCLUTO軟件對其詞頻矩陣進(jìn)行雙向聚類,探索研究前沿。然而,文本分析方法依賴于詞頻統(tǒng)計(jì)和文本空間距離的計(jì)算,聚類結(jié)果也無法體現(xiàn)隱含的語義。

      主題模型是一種概率統(tǒng)計(jì)方法,其假設(shè)主題根據(jù)一定的規(guī)則和概率生成關(guān)鍵詞,因此在已知關(guān)鍵詞的情況下,可以通過概率統(tǒng)計(jì)反推出文檔的主題分布情況[9]。最具代表性的主題模型是2003年Blei D M等提出的LDA主題模型:引入Dirichlet先驗(yàn)分布,構(gòu)建“文檔—主題—關(guān)鍵詞”三層貝葉斯模型,運(yùn)用概率方法對模型求解,挖掘文檔主題[10]。目前LDA模型在不同領(lǐng)域的主題挖掘研究中已被深入應(yīng)用,曾子明等[11]以霧霾謠言為數(shù)據(jù)來源,定義用戶可信度和微博影響力特征變量,采用LDA主題模型深入挖掘微博文本的主題分布特征,并采用隨機(jī)森林算法進(jìn)行謠言識別的模型訓(xùn)練;吳江等[12]基于社會支持理論,運(yùn)用LDA模型研究在線醫(yī)療社區(qū)中的社會支持類型和用戶參與程度;Kim Y等[13]利用LDA主題模型對Twitter用戶發(fā)布的信息進(jìn)行興趣主題挖掘,實(shí)現(xiàn)興趣內(nèi)容推送和好友推薦;Song B等[14]構(gòu)建基于“主語—行為—賓語”結(jié)構(gòu)的LDA主題模型,實(shí)現(xiàn)對產(chǎn)業(yè)領(lǐng)域中專利文獻(xiàn)主題的內(nèi)容分析。

      1.2 主題關(guān)聯(lián)與演化

      主題關(guān)聯(lián)與演化是指對不同階段的研究主題進(jìn)行相似度計(jì)算或相關(guān)性分析,揭示主題的發(fā)展變化,從而了解當(dāng)前研究的演化脈絡(luò)[15]。主題關(guān)聯(lián)與演化的研究方法主要有兩種,一種是引文分析方法;另一種是文本挖掘方法。引文網(wǎng)絡(luò)作為描述主題結(jié)構(gòu)和關(guān)聯(lián)的分析方法,可以深入挖掘主題信息,并憑借引用與被引用關(guān)系分析主題的關(guān)聯(lián)和演化情況,但引文網(wǎng)絡(luò)側(cè)重于時(shí)間維度上的主題挖掘和演化分析,且容易因“跟風(fēng)效應(yīng)”產(chǎn)生虛假派系而阻礙主題辨識[16]。

      近年來,研究學(xué)者嘗試將時(shí)間維度引入LDA主題模型,提出了TOT(Topic Over Topic)、DTM(Dynamic Topic Model)、OLDA(Online Latent Dirichlet Allocation)等主題時(shí)序演化模型[17-18],關(guān)鵬等[19]以鋰離子電池領(lǐng)域?yàn)槔跁r(shí)間窗口將文檔劃分為多個(gè)數(shù)據(jù)集,將研究過程分為成長期、快速發(fā)展期和融合期;夏立新等[20]利用LDA主題模型獲取不同時(shí)間段的用戶標(biāo)簽主題,通過標(biāo)簽興趣度來動(dòng)態(tài)感知用戶興趣,進(jìn)而分析用戶興趣層級結(jié)構(gòu)的演化規(guī)律;劉雅姝等[21]運(yùn)用LDA模型對網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行主題劃分,從實(shí)體屬性、時(shí)間屬性等多維特征追蹤輿情話題的演化情況;Garroppo R G等[22]運(yùn)用LDA模型對不同時(shí)間窗口的用戶生成內(nèi)容(User Generated Content,UGC)進(jìn)行主題聚類,通過比較關(guān)鍵詞突變分析主題的演化趨勢。然而,現(xiàn)有主題關(guān)聯(lián)與演化研究大多基于主題的時(shí)間跨度平均切分窗口,未考慮學(xué)科領(lǐng)域的生命周期特性。同時(shí),LDA模型訓(xùn)練得到的“主題—文檔—關(guān)鍵詞”具有多項(xiàng)式概率分布特性,幾何距離和余弦夾角的關(guān)聯(lián)分析方法并不科學(xué)。

      1.3 主題前沿預(yù)測

      1965年,Price D J D S[23]最早提出研究前沿(Research Front)這一概念,此后眾多學(xué)者分別從定性和定量角度對研究前沿的識別與預(yù)測展開研究,定性方法主要包括文獻(xiàn)綜述法和德爾菲法,然而定性研究的結(jié)果具有主觀性和不確定性[24]。定量方法主要包括引文分析和文本分析方法,Kessler M M[25]最早將文獻(xiàn)耦合分析方法引入到前沿識別與預(yù)測領(lǐng)域,該方法有效揭示文獻(xiàn)的內(nèi)在聯(lián)系和學(xué)科架構(gòu)變化;Morris S A等[26]基于文獻(xiàn)耦合方法可視化展示熱點(diǎn)主題分布、演變與衰老動(dòng)態(tài)時(shí)序變化;侯劍華等[27]通過繪制文獻(xiàn)共被引和引文結(jié)構(gòu)變換的知識圖譜,分別從共被引文獻(xiàn)和施引文獻(xiàn)的視角,對大數(shù)據(jù)領(lǐng)域的研究前沿進(jìn)行預(yù)測。然而,引文分析法存在時(shí)間探測的滯后性,同時(shí)存在未深入文本語義內(nèi)容等問題,一定程度上制約了研究前沿預(yù)測的準(zhǔn)確性。

      針對上述問題,研究學(xué)者采用文本分析方法,從詞頻探測和主題演化角度,追蹤學(xué)科領(lǐng)域的發(fā)展趨勢,預(yù)測研究前沿。He X等[28]利用突發(fā)詞檢測算法,通過分析文獻(xiàn)的關(guān)鍵詞和參考文獻(xiàn),研究其前沿趨勢;張英杰等[29]采用基于高頻詞的因子分析法和戰(zhàn)略坐標(biāo)圖法,預(yù)測領(lǐng)域的研究前沿;劉自強(qiáng)等[30]利用關(guān)鍵詞詞頻排序、熱點(diǎn)關(guān)鍵詞群構(gòu)建和時(shí)間序列模型分析等方法,分析梳理了近10年競爭情報(bào)領(lǐng)域的研究現(xiàn)狀,運(yùn)用關(guān)鍵詞群分析、社會網(wǎng)絡(luò)分析和時(shí)間序列模型分析預(yù)測其研究熱點(diǎn)的發(fā)展趨勢;陳偉等[31]利用雙重隨機(jī)過程的隱馬爾可夫模型對技術(shù)主題的演化趨勢進(jìn)行定量預(yù)測。

      針對文本分析方法中前沿預(yù)測指標(biāo)的片面性,研究人員嘗試?yán)枚嗑S指標(biāo)識別和預(yù)測研究前沿,鄭彥寧等[32]采用關(guān)鍵詞共現(xiàn)方法,對研究主題的新穎性、集中性和時(shí)效性進(jìn)行分析,規(guī)避了詞頻分析單一性的缺點(diǎn);張麗華[33]從研究時(shí)效性、突破性、跨學(xué)科性和繼承性等指標(biāo)入手,對主題演化情況進(jìn)行了詳細(xì)的指標(biāo)量化;Funk R J等[34]從主題強(qiáng)度和主題結(jié)構(gòu)出發(fā),從主題演化角度設(shè)計(jì)了主題前沿識別與預(yù)測指標(biāo)。然而,現(xiàn)有預(yù)測指標(biāo)體系未考慮主題的演化與遷徙特征,且缺乏定性與定量結(jié)合的分析。

      1.4 研究述評

      綜合來看,現(xiàn)有研究在主題挖掘、主題關(guān)聯(lián)與演化、主題前沿預(yù)測等領(lǐng)域已取得諸多成果,但仍存在以下問題:

      1)現(xiàn)有研究大多對主題的時(shí)間跨度進(jìn)行平均切分,未考慮研究主題的生命周期特性;

      2)現(xiàn)有主題關(guān)聯(lián)分析大多采用詞頻統(tǒng)計(jì)、幾何距離和余弦夾角的相似度計(jì)算方法,未考慮“主題—關(guān)鍵詞”的多項(xiàng)式概率分布特征;

      3)相對于詞頻變化的突發(fā)性和片面性,研究主題在其生命周期演化過程中具有遷徙的穩(wěn)定性和規(guī)律性,現(xiàn)有主題前沿的預(yù)測指標(biāo)不夠全面。

      基于此,本文提出基于LDA和LSTM模型的多時(shí)序研究主題關(guān)聯(lián)與預(yù)測方法,主要貢獻(xiàn)在于:

      1)從研究主題的生命周期視角切入,將主題時(shí)間跨度切分為萌芽期、發(fā)展期和快速成長期等多個(gè)時(shí)序窗口;

      2)對不同時(shí)序窗口進(jìn)行LDA主題挖掘與識別,采用JS散度(Jensen-Shannon Divergence)更合理地描述主題間的概率分布相似度和關(guān)聯(lián)關(guān)系;

      3)考慮主題演化的遷徙特征和時(shí)序特征,設(shè)計(jì)主題熱度、新穎度和遷徙度等主題前沿預(yù)測指標(biāo),利用LSTM神經(jīng)網(wǎng)絡(luò)模型對研究主題的發(fā)展態(tài)勢和前沿?zé)狳c(diǎn)進(jìn)行預(yù)測。進(jìn)一步,結(jié)合基金立項(xiàng)和論文發(fā)表的定性分析,對定量預(yù)測結(jié)果進(jìn)行修正。

      2 研究設(shè)計(jì)

      本文以生命周期理論和時(shí)間序列分析為理論基礎(chǔ),歸納研究領(lǐng)域的生命周期特性,挖掘多時(shí)序窗口下的研究主題,分析主題研究熱度、新穎度和遷徙度等時(shí)間序列數(shù)據(jù)的短期可預(yù)測性,以之為基礎(chǔ),設(shè)計(jì)研究思路與框架。

      2.1 理論基礎(chǔ)

      1)生命周期理論

      生命周期理論源于個(gè)體發(fā)展模型,是指一個(gè)生命體從出生到死亡所經(jīng)歷的各個(gè)階段。經(jīng)延伸和擴(kuò)展后,生命周期理論被廣泛應(yīng)用于產(chǎn)品管理、行業(yè)發(fā)展、客戶關(guān)系管理和信息計(jì)量學(xué)等諸多領(lǐng)域[35]。馬費(fèi)成等[36]指出某個(gè)領(lǐng)域的研究主題也遵循生命周期的一般規(guī)律,經(jīng)歷萌芽期、成長期、成熟期、穩(wěn)定期和衰退期等不同階段,不同階段的研究主題存在產(chǎn)生、遷徙、轉(zhuǎn)移、交叉、融合和消亡等不同狀態(tài)。因此,基于生命周期理論對研究主題的時(shí)間跨度進(jìn)行切分,并對多時(shí)序窗口下的研究主題進(jìn)行挖掘與識別,有助于梳理主題的研究脈絡(luò),為學(xué)科知識的演化分析提供支撐。

      2)時(shí)間序列分析理論

      時(shí)間序列分析理論指出,如果某個(gè)時(shí)序窗口下的變量與前后時(shí)序窗口的變量存在某種關(guān)聯(lián),則可以根據(jù)過往的變量值來預(yù)測未來某一時(shí)序窗口的變量值[37]。相對于詞頻變化的突變性和引文關(guān)聯(lián)的波動(dòng)性,多時(shí)序窗口下研究主題的關(guān)鍵詞概率分布更加穩(wěn)定,主題變量與相鄰窗口的主題變量的相似度關(guān)聯(lián)更加緊密,具有明顯的時(shí)序變化特征。因此,LSTM等時(shí)間序列預(yù)測模型可應(yīng)用于多時(shí)序窗口下的主題關(guān)聯(lián)和預(yù)測。

      2.2 研究思路與方法

      本文研究框架如圖1所示,主要包括3個(gè)模塊:LDA主題挖掘與關(guān)聯(lián)、前沿預(yù)測指標(biāo)設(shè)計(jì)、LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測。

      2.2.1 LDA主題挖掘與關(guān)聯(lián)

      LDA是一種文檔主題生成模型,包含詞、主題和文檔3層結(jié)構(gòu)[38]。LDA主題模型認(rèn)為文檔到主題服從多項(xiàng)式分布,主題到關(guān)鍵詞也服從多項(xiàng)式分布。與傳統(tǒng)文本分析方法相比,LDA主題模型克服了文本矩陣稀疏、忽略文本語義等缺陷,是分析大規(guī)模非結(jié)構(gòu)化文檔集的最有效方法之一[39],其基本結(jié)構(gòu)如圖2所示。

      其中,表示關(guān)鍵詞分布,θ表示主題分布,α是主題分布θ的先驗(yàn)分布(即Dirichlet分布)參數(shù),β是關(guān)鍵詞分布的先驗(yàn)分布參數(shù),z表示模型生成的主題,w表示模型最終生成的關(guān)鍵詞,S表示文檔的詞語數(shù)量,D表示文檔數(shù)量。LDA主題模型生成過程主要包括以下步驟:

      1)從參數(shù)為β的Dirichlet分布中為每個(gè)主題采樣“主題—關(guān)鍵詞分布”;

      2)從參數(shù)為α的Dirichlet分布中為每個(gè)文檔采樣“文檔—主題分布θ”;

      3)從參數(shù)為θ的多項(xiàng)式分布中采樣1個(gè)主題z;

      4)從參數(shù)為的多項(xiàng)式分布中采用1個(gè)關(guān)鍵詞w。

      本文基于生命周期理論將研究數(shù)據(jù)劃分為多個(gè)時(shí)序窗口,利用Python語言下的Sklearn包(https://scikit-learn.org/stable/)進(jìn)行LDA主題挖掘。進(jìn)一步,本文采用JS散度(Jensen-Shannon Divergence)描述不同時(shí)序窗口下學(xué)科主題的相似度和關(guān)聯(lián)關(guān)系,JS散度計(jì)算如式(1)所示[40]:

      相對于詞頻分析、幾何距離和余弦夾角等文本相似度的計(jì)算方法,JS散度是一種衡量概率分布相似度的指標(biāo),且解決了KL散度非對稱的問題,更適用于LDA模型中“主題—關(guān)鍵詞”的多項(xiàng)式概率分布特征。

      2.2.2 前沿預(yù)測指標(biāo)設(shè)計(jì)

      研究主題前沿是指針對特定研究領(lǐng)域和特定時(shí)間,具有較高學(xué)術(shù)關(guān)注度的新穎主題[41]。本文在借鑒相關(guān)研究的基礎(chǔ)上,結(jié)合研究主題演化的遷徙特征和時(shí)序特征,設(shè)計(jì)前沿預(yù)測指標(biāo),包括主題熱度、主題新穎度和主題遷徙度。

      1)主題熱度:主題熱度是指某個(gè)時(shí)間段該主題的受關(guān)注程度,其表現(xiàn)形式可以定義為該主題下文獻(xiàn)數(shù)量的多少。因此,本文在LDA模型主題挖掘的基礎(chǔ)上,定義主題熱度的計(jì)算公式為:

      2)主題新穎度:某個(gè)主題下文獻(xiàn)第1次的發(fā)表年限越近,則表明該主題的新穎度越高。定義主題新穎度計(jì)算公式為[42]:

      其中,NT(t)為某個(gè)時(shí)序窗口下主題T的研究新穎度,t為當(dāng)前時(shí)序窗口的上限,Tstart為主題T下文獻(xiàn)第1次的發(fā)表時(shí)間??梢钥闯?,隨著主題出現(xiàn)時(shí)間的推移,新穎度也不斷下降。比如Tstart=2010,當(dāng)t=2011時(shí),NT(t)=0.5;當(dāng)t=2015時(shí),NT(t)=0.167;當(dāng)t=2019時(shí),NT(t)=0.1。

      3)主題遷徙度:主題遷徙度是指當(dāng)前時(shí)序窗口下t的某個(gè)主題Ti轉(zhuǎn)移至下一個(gè)時(shí)序窗口t+1下的主題Tj的概率,反映了研究主題的演化趨勢和時(shí)序特征。本文采用相鄰時(shí)序窗口主題間的JS散度來描述主體遷徙度。

      2.2.3 基于LSTM的主題預(yù)測

      LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),可以解決長序列訓(xùn)練過程中的梯度消失和爆炸問題,目前廣泛地應(yīng)用于時(shí)間序列分析、機(jī)器翻譯和語音識別等領(lǐng)域[43]。相對于RNN的單層結(jié)構(gòu),LSTM神經(jīng)網(wǎng)絡(luò)增加了單元狀態(tài)層用來保存長期的狀態(tài),其輸入?yún)?shù)包括:t時(shí)刻的輸入值xi、t-1時(shí)刻的輸出值ht-1、t-1時(shí)刻的單元狀態(tài)ct-1,輸出參數(shù)包括t時(shí)刻的輸出值ht和單元狀態(tài)ct,基本結(jié)構(gòu)如圖3所示。LSTM神經(jīng)網(wǎng)絡(luò)通過遺忘門(Forget Gate)決定t-1的單元狀態(tài)ct-1有多少保留到t時(shí)刻的狀態(tài)ct,通過輸入門(Input Gate)決定t時(shí)刻的輸入xt有多少保存到單元狀態(tài)ct,通過輸出門決定單元狀態(tài)ct有多少輸出到t時(shí)刻的輸出值ht[44]。

      本文基于前文設(shè)計(jì)的主題預(yù)測指標(biāo),采用LSTM神經(jīng)網(wǎng)絡(luò)對研究主題的演化趨勢及前沿?zé)狳c(diǎn)進(jìn)行預(yù)測,進(jìn)一步結(jié)合近年基金立項(xiàng)和論文發(fā)表情況,對定量預(yù)測結(jié)果進(jìn)行定性修正,基本步驟如表1所示。

      輸入:過去若干個(gè)時(shí)序窗口下的主題熱度、新穎度和遷徙度

      輸出:未來若干個(gè)時(shí)序窗口下主題熱度、新穎度和遷徙度的預(yù)測值

      方法:

      1)劃分多個(gè)時(shí)序窗口,設(shè)置步長。將輸入數(shù)據(jù)劃分為訓(xùn)練集與測試集,并進(jìn)行規(guī)范化處理;

      2)將輸入?yún)?shù)傳遞到隱藏層進(jìn)行門閥計(jì)算,結(jié)合Sigmoid神經(jīng)網(wǎng)絡(luò)產(chǎn)生二維分布0和1以決定信息是否通過;

      3)運(yùn)用tanh函數(shù)計(jì)算xt、ht-1和ct-1等參數(shù)值經(jīng)過遺忘門后的t時(shí)刻單元狀態(tài)值ct;

      4)利用Sigmoid函數(shù)得到初始輸出,并利用tanh函數(shù)進(jìn)行數(shù)據(jù)縮放得到預(yù)測輸出ht;

      5)輸入測試數(shù)據(jù)集,驗(yàn)證模型準(zhǔn)確性;

      6)運(yùn)用訓(xùn)練后的LSTM模型對未來研究主題的熱度、新穎度和遷徙度進(jìn)行預(yù)測;

      7)主題預(yù)測的定性修正。

      3 案例分析

      隨著大數(shù)據(jù)及移動(dòng)通訊技術(shù)的發(fā)展和成熟,個(gè)性化和定制式的泛在信息服務(wù)逐漸應(yīng)用至社交網(wǎng)絡(luò)、智慧城市和地圖導(dǎo)航等多個(gè)領(lǐng)域,給用戶帶來了全新的服務(wù)體驗(yàn)。然而,用戶在享受高質(zhì)量便捷服務(wù)的同時(shí),大數(shù)據(jù)環(huán)境的開放性和共享性導(dǎo)致各類隱私泄露事件層出不窮,如“棱鏡門”事件、“Icloud”云泄露事件、“夜鶯計(jì)劃”等[45]。因此,如何有效地保護(hù)個(gè)人隱私成為業(yè)界和學(xué)術(shù)界共同關(guān)注的問題。從國內(nèi)外學(xué)術(shù)文獻(xiàn)來看,眾多研究學(xué)者在隱私保護(hù)的法律法規(guī)、技術(shù)方法、行為模型等領(lǐng)域取得了諸多研究成果。基于此,本文采用第2節(jié)提出的研究方法,對隱私研究領(lǐng)域進(jìn)行主題挖掘,梳理隱私研究主題的演化脈絡(luò),分析不同時(shí)序窗口主題間的關(guān)聯(lián)關(guān)系,并對研究主題的發(fā)展趨勢和前沿?zé)狳c(diǎn)進(jìn)行預(yù)測。

      3.1 數(shù)據(jù)來源及預(yù)處理

      本文使用CNKI中的期刊論文數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索,檢索關(guān)鍵詞為“隱私”、“個(gè)人信息”、“信息泄露”等,檢索時(shí)間為2019年11月30日,時(shí)間跨度為2000-2019年。去除新聞、短評、征稿啟事等數(shù)據(jù)來源后,得到相關(guān)文獻(xiàn)13 298篇。整體來看,文獻(xiàn)數(shù)量呈穩(wěn)步增長態(tài)勢(2019年數(shù)據(jù)未統(tǒng)計(jì)完全)。

      為更好地分析隱私研究主題的演化趨勢和路徑,本文從時(shí)間維度對文獻(xiàn)分布進(jìn)行多時(shí)序窗口切分?;谘芯恐黝}的生命周期,并結(jié)合文獻(xiàn)數(shù)量增長的趨勢線,本文將整個(gè)時(shí)間跨度分為萌芽發(fā)展期和快速成長期,共分為2000-2005年、2006-2007年、2008-2009年、2010-2011年、2012-2013年、2014年、2015年、2016年、2017年、2018年和2019年共11個(gè)時(shí)序窗口,如圖4所示。在此基礎(chǔ)上,根據(jù)隱私研究主題,結(jié)合多個(gè)中文停用詞表,運(yùn)用Jieba分詞工具每個(gè)時(shí)序窗口下的文獻(xiàn)標(biāo)題和摘要進(jìn)行分詞,得到“隱私權(quán)”、“侵犯”、“立法”、“認(rèn)證”、“匿名”、“風(fēng)險(xiǎn)”、“披露”、“加密”、“媒體”、“公眾”等領(lǐng)域詞匯。對分詞后的文本向量進(jìn)行tf-idf特征提取,作為LDA主題模型的輸入?yún)?shù)。

      3.2 主題挖掘分析

      LDA主題模型是一種無監(jiān)督機(jī)器學(xué)習(xí)算法,可以用來挖掘大規(guī)模文檔集中隱含的主題信息,其主題挖掘效果與迭代次數(shù)(Iteration)密切相關(guān)。本文以文獻(xiàn)數(shù)量最多的2018年區(qū)間為例,設(shè)置測試主題數(shù)分別為10、20、30,當(dāng)?shù)螖?shù)增加時(shí),模型迅速收斂,迭代至100次之后,不同主題數(shù)的收斂效果均無明顯區(qū)別。綜合考慮運(yùn)算速度和收斂效果,本文將迭代次數(shù)設(shè)定為200次。

      本文運(yùn)用LDA模型中的Perplexity(困惑度)參數(shù)確定不同區(qū)間下文獻(xiàn)的最優(yōu)主題數(shù),如圖5所示。進(jìn)一步,對每個(gè)區(qū)間的主題進(jìn)行篩選,如去除文獻(xiàn)數(shù)量為0的主題、去除由虛詞組成的主題聚類、去除與隱私研究無關(guān)或相關(guān)度較小的主題聚類等。對篩選后的主題進(jìn)行編號和命名,結(jié)果如表2所示。

      基于LDA主題挖掘結(jié)果,繪制論文主題的數(shù)量趨勢熱度圖,如圖6所示,可以得出如下結(jié)論:

      1)根據(jù)LDA主題挖掘的結(jié)果,可以將不同區(qū)間下的論文主題分為5個(gè)類別:類別1—隱私權(quán)利與隱私法律(隱私權(quán)利、隱私法律法規(guī)、隱私倫理等)、類別2—隱私技術(shù)研究(隱私匿名算法、差分隱私、隱私加密等)、類別3—數(shù)據(jù)開放與隱私保護(hù)(公眾隱私、個(gè)人信息保護(hù)、數(shù)據(jù)流動(dòng)與隱私監(jiān)管等)、類別4—隱私行為(隱私感知與行為、隱私偏好)、類別5—不同應(yīng)用領(lǐng)域的隱私保護(hù)(醫(yī)療隱私、圖書館隱私、金融隱私等)。

      2)熱度圖中顏色較深的區(qū)域?yàn)檎撐臄?shù)量較多的研究主題,主要包括隱私法律法規(guī)、隱私匿名算法、隱私權(quán)利、公眾隱私、圖書館隱私、醫(yī)療隱私等,論文數(shù)量較少的研究主題主要包括隱私感知、隱私偏好、隱私倫理、金融隱私等。

      3)早在2000年,最高人民檢察院的楊立新對公民隱私權(quán)的范圍進(jìn)行了界定,并對其法律保護(hù)形式進(jìn)行了闡述[46]。此后,國外法律制度的借鑒、新興信息技術(shù)的發(fā)展以及各類隱私泄露事件都促使了國內(nèi)隱私法律法規(guī)的制定和完善,典型事件包括:①2008年初,“艷照門”事件引發(fā)社會各界對個(gè)人隱私的關(guān)注,呼吁政府部門加強(qiáng)隱私監(jiān)管和隱私立法;②2013年,工信部頒布《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)規(guī)定》,該方案為互聯(lián)網(wǎng)環(huán)境下隱私信息的收集、分析與利用提供了保障;③2014年5月,白宮發(fā)布《Big Data and Privacy:A Technological Perspective》白皮書,探討了大數(shù)據(jù)環(huán)境

      下個(gè)人隱私泄露的風(fēng)險(xiǎn)及保護(hù)機(jī)制,為各國大數(shù)據(jù)隱私法律的制定提供了參考。

      4)隱私技術(shù)研究大致分為兩方面:匿名和訪問控制。匿名是指在獲取用戶隱私信息時(shí),通過匿名的方式,防止將獲取的信息與用戶身份相關(guān)聯(lián),以此來達(dá)到隱私保護(hù)的目的。卡耐基梅隆大學(xué)的Sweeney教授于2002年提出K-anonymity隱私匿名算法,該算法對隱私匿名研究具有開創(chuàng)性意義,此后國內(nèi)關(guān)于隱私匿名算法研究的文獻(xiàn)一直保持較高熱度[47]。

      5)在不同應(yīng)用領(lǐng)域的隱私保護(hù)中,醫(yī)療隱私和圖書館隱私是國內(nèi)研究學(xué)者關(guān)注的焦點(diǎn),原因主要包括兩點(diǎn):①醫(yī)療數(shù)據(jù)具有高度的私密性和敏感性,如過敏藥品、家族病史、影像報(bào)告等醫(yī)療記錄如果泄露,會給患者帶來嚴(yán)重的隱私侵害和人身安全問題。因此,眾多學(xué)者從患者醫(yī)療信息使用、電子醫(yī)療記錄共享(Electronic Medical Record,EMR)、移動(dòng)醫(yī)療APP權(quán)限等角度對醫(yī)療隱私保護(hù)的相關(guān)問題展開了研究;②隨著數(shù)據(jù)開放和共享的進(jìn)一步深入,以及大數(shù)據(jù)、物聯(lián)網(wǎng)等新興技術(shù)的飛速發(fā)展,圖書館的運(yùn)營、管理和服務(wù)模式也發(fā)生了改變。如何有效采集讀者閱讀行為、身份特征、個(gè)人愛好與習(xí)慣和社會關(guān)系等隱私數(shù)據(jù),實(shí)現(xiàn)對讀者閱讀需求和閱讀行為準(zhǔn)確、詳細(xì)的跟蹤、挖掘、分析和預(yù)測,成為圖書館提高服務(wù)針對性和市場競爭力的關(guān)鍵[48]。為避免侵害讀者隱私,圖書館必須從保障和維護(hù)讀者權(quán)益出發(fā),自覺遵守相關(guān)的法律、法規(guī),形成保護(hù)讀者個(gè)人隱私的長效機(jī)制。

      6)2018年,區(qū)塊鏈隱私主題逐漸受到研究學(xué)者的關(guān)注。區(qū)塊鏈?zhǔn)请S著比特幣等數(shù)字加密貨幣普及而興起的技術(shù),具有“去中心化”和“不可篡改”等特點(diǎn),可應(yīng)用于物聯(lián)網(wǎng)、社交媒體、電子醫(yī)療記錄等多個(gè)領(lǐng)域的隱私保護(hù)[49]。2019年10月,習(xí)近平總書記提出區(qū)塊鏈技術(shù)的集成應(yīng)用在新的技術(shù)革新和產(chǎn)業(yè)變革中起著重要作用,應(yīng)加快推動(dòng)區(qū)塊鏈技術(shù)和產(chǎn)業(yè)創(chuàng)新發(fā)展[50]??梢灶A(yù)見,未來區(qū)塊鏈隱私主題的研究熱度會顯著提升。

      3.3 主題演化分析

      為了解研究主題間的演化規(guī)律和關(guān)聯(lián)關(guān)系,本文通過LDA模型挖掘得到的主題及關(guān)鍵詞,計(jì)算相鄰時(shí)間窗口下研究主題的JS散度。JS散度值相似度越高,主題間出現(xiàn)遷徙和演化的概率越大。為了使演化路徑更加清晰,本文篩選文獻(xiàn)數(shù)量較少(數(shù)量少于20)和相似度較低的研究主題(相似度小于0.3),研究主題的演化路徑和關(guān)聯(lián)關(guān)系如圖7所示,矩形塊之間連線的粗細(xì)代表主題相似度,連線越粗,相似度越高。具體結(jié)論如下:

      1)類別1(隱私法律法規(guī))一直是隱私研究主題的重點(diǎn)和熱點(diǎn),主題文獻(xiàn)數(shù)量較多,不同時(shí)間窗口的主題相似度也較高。從關(guān)鍵詞分布來看,隨著隱私法律法規(guī)的修訂和完善,主題研究重點(diǎn)從普通公民的隱私權(quán)保護(hù)演化為如何構(gòu)建法制社會。與此同時(shí),隨著互聯(lián)網(wǎng)的發(fā)展和普及,研究主題從關(guān)注網(wǎng)絡(luò)隱私安全逐漸演化至如何規(guī)范、合理的使用個(gè)人信息。

      2)不同于類別1(隱私法律法規(guī))在研究主題上的延續(xù)性,類別2(隱私技術(shù)研究)的主題演化存在較強(qiáng)的關(guān)聯(lián)性和遷徙性,比較顯著的演化路徑包括:

      ①隱私挖掘(2006-2007)→(0.511)隱私挖掘(2008-2009)→…→(0.304)隱私加密(2019)

      ②RFID隱私(2006-2007)→(0.667)RFID隱私(2008-2009)→…→(0.652)位置隱私(2017)

      ③LBS隱私(2010-2011)→(0.34)隱私認(rèn)證協(xié)議(2012-2013)→…→(0.391)隱私匿名(2019)

      與此同時(shí),隱私技術(shù)是眾多應(yīng)用領(lǐng)域隱私保護(hù)的重要手段,與隱私法律法規(guī)互為補(bǔ)充。從時(shí)間維度上看,隨著隱私技術(shù)研究的深入,其研究主題逐漸應(yīng)用至醫(yī)療、金融、圖書館服務(wù)等具體領(lǐng)域,比較顯著的演化路徑包括:

      ①隱私匿名(2010-2011)→(0.468)醫(yī)療隱私(2012-2013)→…→(0.468)醫(yī)療隱私(2019)

      ②隱私挖掘(2008-2009)→(0.458)隱私匿名(2010-2011)→…→(0.52)金融隱私(2019)

      ③隱私挖掘(2008-2009)→(0.371)隱私匿名(2010-2011)→…→(0.36)圖書館隱私(2018)

      3)類別4(隱私行為研究)與類別1(隱私法律法規(guī))、類別2(隱私技術(shù))、類別5(具體應(yīng)用領(lǐng)域的隱私保護(hù))的主題關(guān)聯(lián)性和相似度都較高,原因在于針對不同應(yīng)用領(lǐng)域的隱私問題,不同類型主體的隱私關(guān)注程度和隱私披露意愿具有差異性。然而,宏觀層面的隱私法律法規(guī)和微觀層面的隱私技術(shù)無法解決這一問題,因此眾多學(xué)者運(yùn)用計(jì)劃行為理論、期望確認(rèn)理論、享樂理論等理論模型去研究隱私悖論、隱私憂慮、隱私披露意愿等隱私感知與行為問題。比較顯著的演化路徑包括:

      ①無線通信隱私(2012-2013)→(0.565)隱私認(rèn)證協(xié)議(2014)→…→(0.478)隱私匿名(2018)→(0.383)隱私披露與意愿(2019)

      ②隱私匿名(2010-2011)→(0.426)位置隱私(2012-2013)→…→(0.468)隱私感知與行為(2018)→(0.426)隱私感知與行為(2019)

      4)從研究主題擴(kuò)散和演化的角度分析,隱私匿名研究的衍生路徑較多,遷徙概率較大,說明其是隱私研究中的基礎(chǔ)和橋梁,如消費(fèi)者隱私和醫(yī)療隱私的主要保護(hù)措施就是匿名機(jī)制。比較顯著的衍生路徑包括:

      ①隱私匿名(2010-2011)→(0.304)醫(yī)療隱私(2012-2013)

      ②隱私匿名(2010-2011)→(0.391)無線通信隱私(2012-2013)

      ③隱私匿名(2015)→(0.314)圖書館隱私(2016)

      ④隱私匿名(2018)→(0.383)隱私披露與意愿(2019)

      ⑤隱私匿名(2018)→(0.391)個(gè)人信息保護(hù)(2019)

      ⑥隱私匿名(2018)→(0.347)隱私感知與行為(2019)

      3.4 主題預(yù)測分析

      在主題挖掘和關(guān)聯(lián)分析的基礎(chǔ)上,本文選取主題熱度、新穎度和遷徙度作為LSTM神經(jīng)網(wǎng)絡(luò)模型的預(yù)測指標(biāo),并定義相對誤差(RE,Relative Error)來評估模型預(yù)測的準(zhǔn)確度:

      其中ya為實(shí)際數(shù)值,yp為模型預(yù)測值。本文同時(shí)選取BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)進(jìn)行預(yù)測結(jié)果對比,以驗(yàn)證LSTM神經(jīng)網(wǎng)絡(luò)模型的有效性和優(yōu)越性。BP神經(jīng)網(wǎng)絡(luò)選用三層神經(jīng)元結(jié)構(gòu),神經(jīng)元參數(shù)為1-20-1分布,迭代次數(shù)為200,支持向量機(jī)Gamma參數(shù)設(shè)置為1,懲罰系數(shù)設(shè)置為1.5,兩種機(jī)器學(xué)習(xí)算法均采用Python語言的Sklearn庫實(shí)現(xiàn)。LSTM神經(jīng)網(wǎng)絡(luò)模型在Keras框架下搭建兩層10維神經(jīng)元和一層Dense輸出,迭代次數(shù)設(shè)置為200。

      將前8個(gè)時(shí)序窗口的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集,后3個(gè)時(shí)序窗口的數(shù)據(jù)作為測試數(shù)據(jù)集,部分主題的預(yù)測評估結(jié)果如表3所示??梢钥闯觯鄬τ贐P神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的預(yù)測模型,LSTM神經(jīng)網(wǎng)絡(luò)模型預(yù)測的準(zhǔn)確度更高,誤差更小。

      基于此,本文利用LSTM神經(jīng)網(wǎng)絡(luò)模型對未來3個(gè)時(shí)序窗口(2020年、2021年、2022年)下隱私研究主題的演化趨勢和前沿?zé)狳c(diǎn)進(jìn)行預(yù)測,部分主題的預(yù)測結(jié)果如表4所示,在未來3年,隱私法律法規(guī)、隱私匿名、區(qū)塊鏈隱私、隱私感知與行業(yè)等主題是隱私研究領(lǐng)域的熱點(diǎn)。

      結(jié)合近年來的基金立項(xiàng)和論文發(fā)表情況,對模型預(yù)測結(jié)果進(jìn)行定性修正,可以得到以下結(jié)論:

      1)國家自然科學(xué)基金中隱私主題的立項(xiàng)主要集中在信息學(xué)部和管理學(xué)部,信息學(xué)部立足于隱私技術(shù)研究,主要涉及云計(jì)算、車聯(lián)網(wǎng)、位置服務(wù)、社交網(wǎng)絡(luò)等不同領(lǐng)域的隱私保護(hù)技術(shù),管理學(xué)部立足于隱私行為和宏觀隱私保護(hù)研究,主要涉及隱私風(fēng)險(xiǎn)、隱私行為、隱私關(guān)注和隱私?jīng)Q策等領(lǐng)域。結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)模型的預(yù)測結(jié)果,隱私匿名、位置隱私以及數(shù)據(jù)關(guān)聯(lián)與隱私挖掘等研究主題會保持熱度,文獻(xiàn)數(shù)量穩(wěn)步增長。

      2)國家社會科學(xué)基金中隱私主題的立項(xiàng)范圍涵蓋較廣,涵蓋了隱私行為、隱私法律和不同應(yīng)用領(lǐng)域的隱私保護(hù),不同于國家自然科學(xué)基金偏重微觀研究,集中于隱私技術(shù)和隱私行為研究,國家社會科學(xué)基金偏重于宏觀政策和機(jī)制研究?;诖?,隱私感知和隱私行為、隱私法律法規(guī)以及個(gè)人信息保護(hù)等主題的文獻(xiàn)數(shù)量也會保持穩(wěn)步增長。

      3)考慮到國外研究對國內(nèi)研究主題的借鑒性和啟發(fā)性,本文對近3年UTD 24期刊中隱私主題的論文進(jìn)行歸納,未來隱私研究的前沿?zé)狳c(diǎn)包括區(qū)塊鏈隱私(Block Chain Privacy )隱私關(guān)注(Privacy Concern)、隱私計(jì)算(Privacy Calculation)、隱私悖論(Privacy Paradox)及隱私態(tài)度(Privacy Attitude)等主題,即隱私行為研究主題的文獻(xiàn)數(shù)量會顯著增長。

      4 結(jié) 語

      本文在生命周期理論和時(shí)間序列分析理論的基礎(chǔ)上,提出基于LDA和LSTM模型的主題關(guān)聯(lián)與預(yù)測方法,可以用來梳理具體領(lǐng)域的研究脈絡(luò)和主題關(guān)聯(lián),預(yù)測研究主題的發(fā)展趨勢和前沿?zé)狳c(diǎn)。創(chuàng)新之處主要有兩點(diǎn):一是基于生命周期理論,合理劃分多時(shí)序窗口,并用JS散度描述主題間的關(guān)聯(lián)關(guān)系;二是基于主題預(yù)測指標(biāo)的時(shí)間序列特征,利用LSTM模型進(jìn)行主題預(yù)測。最后以隱私研究領(lǐng)域?yàn)槔?,選取2000-2019年間共13 298篇學(xué)術(shù)論文作為數(shù)據(jù)源進(jìn)行了實(shí)證研究,證明了本文方法的準(zhǔn)確性和有效性。未來的研究可以進(jìn)一步改進(jìn)LDA主題挖掘的準(zhǔn)確性,綜合宏觀文獻(xiàn)引用維度和微觀主題演化維度進(jìn)行關(guān)聯(lián)分析。

      參考文獻(xiàn)

      [1]劉自強(qiáng),許海云,岳麗欣.面向研究前沿預(yù)測的主題擴(kuò)散演化滯后效應(yīng)研究[J].情報(bào)學(xué)報(bào),2018,37(10):979-988.

      [2]李樵.外部引用視角下的中國圖書情報(bào)學(xué)知識影響力研究[J].中國圖書館學(xué)報(bào),2019,45(6):1-19.

      [3]李綱,巴志超.共詞分析過程中的若干問題研究[J].中國圖書館學(xué)報(bào),2017,43(4):93-113.

      [4]Lu Y,Xiong X.Topic Analysis of Microblog About“Didi Taxi”Based on K-means Algorithm[J].American Journal of Information Science and Technology,2019,3(3):72-79.

      [5]廖海涵,王曰芬,關(guān)鵬.微博輿情傳播周期中不同傳播者的主題挖掘與觀點(diǎn)識別[J].圖書情報(bào)工作,2018,62(19):77-85.

      [6]譚章祿,彭勝男,王兆剛.基于聚類分析的國內(nèi)文本挖掘熱點(diǎn)與趨勢研究[J].情報(bào)學(xué)報(bào),2019,38(6):578-585.

      [7]曲靖野,陳震,鄭彥寧.基于主題模型的科技報(bào)告文檔聚類方法研究[J].圖書情報(bào)工作,2018,62(4):113-120.

      [8]楊穎,許丹,陳斯斯,等.基于自然指數(shù)刊文數(shù)據(jù)對全球醫(yī)學(xué)研究領(lǐng)域熱點(diǎn)的探析[J].情報(bào)學(xué)報(bào),2019,38(11):1129-1137.

      [9]張穎怡,章成志,陳果.基于關(guān)鍵詞的學(xué)術(shù)文本聚類集成研究[J].情報(bào)學(xué)報(bào),2019,38(8):860-871.

      [10]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

      [11]曾子明,王婧.基于LDA和隨機(jī)森林的微博謠言識別研究——以2016年霧霾謠言為例[J].情報(bào)學(xué)報(bào),2019,38(1):89-96.

      [12]吳江,侯紹新,靳萌萌,等.基于LDA模型特征選擇的在線醫(yī)療社區(qū)文本分類及用戶聚類研究[J].情報(bào)學(xué)報(bào),2017,36(11):1183-1191.

      [13]Kim Y,Shim K.TWILITE:A Recommendation System for Twitter Using a Probabilistic Model Based on Latent Dirichlet Allocation[J].Information Systems,2014,42:59-77.

      [14]Song B,Suh Y.Identifying Convergence Fields and Technologies for Industrial Safety:LDA-based Network Analysis[J].Technological Forecasting and Social Change,2019,138:115-126.

      [15]趙蓉英,張心源,張揚(yáng),等.我國“五計(jì)學(xué)”演化過程及其進(jìn)展研究[J].圖書情報(bào)工作,2018,62(13):127-138.

      [16]張嫻,方曙.專利引用網(wǎng)絡(luò)主路徑方法研究述評與展望[J].圖書情報(bào)工作,2016,60(20):140-148.

      [17]Ibrahim R,Elbagoury A,Kamel M S,et al.Tools and Approaches for Topic Detection from Twitter Streams:Survey[J].Knowledge and Information Systems,2018,54(3):511-539.

      [18]Li Q,Liu L,Xu M,et al.GDTM:A Gaussian Dynamic Topic Model for Forwarding Prediction Under Complex Mechanisms[J].IEEE Transactions on Computational Social Systems,2019,6(2):338-349.

      [19]關(guān)鵬,王曰芬,傅柱.基于LDA的主題語義演化分析方法研究——以鋰離子電池領(lǐng)域?yàn)槔齕J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(7):61-72

      [20]夏立新,曾杰妍,畢崇武,等.基于LDA主題模型的用戶興趣層級演化研究[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2019,3(7):1-13.

      [21]劉雅姝,張海濤,徐海玲,等.多維特征融合的網(wǎng)絡(luò)輿情突發(fā)事件演化話題圖譜研究[J].情報(bào)學(xué)報(bào),2019,38(8):798-806.

      [22]Garroppo R G,Ahmed M,Niccolini S,et al.A Vocabulary for Growth:Topic Modeling of Content Popularity Evolution[J].IEEE Transactions on Multimedia,2018,20(10):2683-2692.

      [23]Price D J D S.Networks of Scientific Papers[J].Science,1965,149(3683):510-515.

      [24]范云滿,馬建霞.基于LDA 與新興主題特征分析的新興主題探測研究[J].情報(bào)學(xué)報(bào),2014,33(7):698-711.

      [25]Kessler M M.Bibliographic Coupling Between Scientific Papers[J].Journal of the American Society for Information Science & Technology,1963,14(1):10-25.

      [26]Morris S A,Yen G Wu Z,et al.Time Line Visualization of Research Fronts[J].Journal of the Association for Information Science & Technology,2003,54(5):413-422.

      [27]侯劍華,李蓮姬,楊秀財(cái).基于引文網(wǎng)絡(luò)結(jié)構(gòu)變換的大數(shù)據(jù)研究前沿預(yù)測[J].情報(bào)科學(xué),2018,36(6):142-148,168.

      [28]He X,Wu Y,Yu D,et al.Exploring the Ordered Weighted Averaging Operator Knowledge Domain:A Bibliometric Analysis[J].International Journal of Intelligent Systems,2017,32(11):1151-1166.

      [29]張英杰,冷伏海.基于案例的科學(xué)前沿探測方法比較研究[J].圖書情報(bào)工作,2012,56(20):42-46.

      [30]劉自強(qiáng),王效岳,白如江.基于時(shí)間序列模型的研究熱點(diǎn)分析預(yù)測方法研究[J].情報(bào)理論與實(shí)踐,2016,39(5):27-33.

      [31]陳偉,林超然,李金秋,等.基于LDA-HMM的專利技術(shù)主題演化趨勢分析——以船用柴油機(jī)技術(shù)為例[J].情報(bào)學(xué)報(bào),2018,37(7):732-741.

      [32]鄭彥寧,許曉陽,劉志輝.基于關(guān)鍵詞共現(xiàn)的研究前沿識別方法研究[J].圖書情報(bào)工作,2016,60(4):85-92.

      [33]張麗華.研究前沿探測及其演化分析方法與實(shí)證研究[D].北京:中國科學(xué)院大學(xué),2015.

      [34]Funk R J,Owen-Smith J.A Dynamic Network Measure of Technologic Change[J].Management Science,2017,63(3):791-817.

      [35]Santos A C,Mendes P,Teixeira M R.Social Life Cycle Analysis as a Tool for Sustainable Management of Illegal Waste Dumping in Municipal Services[J].Journal of Cleaner Production,2019,210:1141-1149.

      [36]馬費(fèi)成,夏永紅.網(wǎng)絡(luò)信息的生命周期實(shí)證研究[J].情報(bào)理論與實(shí)踐,2009,32(6):1-7.

      [37]Feyrer J.Trade and Income—Exploiting Time Series in Geography[J].American Economic Journal:Applied Economics,2019,11(4):1-35.

      [38]Blei D M,Jordan M I,Griffiths T L.The Nested Chinese Restaurant Process and Bayesian Nonparametric inference of Topic Hierarchies[J].Advances in Neural Information Processing Systems,2010,57(2):17-24.

      [39]Tazibt A A,Aoughlis F.Latent Dirichlet Allocation-based Temporal Summarization[J].International Journal of Web Information Systems,2019,15(1):83-102.

      [40]Bai L,Hancock E R.Graph Kernels from the Jensen-Shannon Divergence[J].Journal of Mathematical Imaging and Vision,2013,47(1-2):60-69.

      [41]牌艷欣,李長玲,劉運(yùn)梅.基于z指數(shù)的AAS高關(guān)注度學(xué)科研究主題識別[J].情報(bào)資料工作,2019,40(6):30-37

      [42]范云滿,馬建霞.基于LDA與新興主題特征分析的新興主題探測研究[J].情報(bào)學(xué)報(bào),2014,33(7):698-711.

      [43]Graves A,Schmidhuber J.Framewise Phoneme Classification with Bidirectional LSTM and other Neural Network Architectures[J].Neural networks,2005,18(5-6):602-610.

      [44]Greff K,Srivastava R K,Koutník J,et al.LSTM:A Search Space Odyssey[J].IEEE Transactions on Neural Networks and Learning Systems,2016,28(10):2222-2232.

      [45]朱光,豐米寧,陳葉,等.大數(shù)據(jù)環(huán)境下社交網(wǎng)絡(luò)隱私風(fēng)險(xiǎn)的模糊評估研究[J].情報(bào)科學(xué),2016,34(9):94-98.

      [46]楊立新.關(guān)于隱私權(quán)及其法律保護(hù)的幾個(gè)問題[J].人民檢察,2000,(1):26-28.

      [47]Sweeney L.K-anonymity:A Model for Protecting Privacy[J].International Journal of Uncertainty,F(xiàn)uzziness and Knowledge-Based Systems,2002,10(5):557-570.

      [48]白美程,陽廣元.近五年我國數(shù)字圖書館用戶隱私保護(hù)研究進(jìn)展[J].圖書館理論與實(shí)踐,2019,(8):79-84.

      [49]艾瓊,劉純璐,游林.科研用戶訪問國外學(xué)術(shù)數(shù)據(jù)庫的隱私保護(hù)與對策[J].圖書情報(bào)工作,2019,63(10):12-20.

      [50]光明網(wǎng).區(qū)塊鏈創(chuàng)新中國價(jià)值鏈 創(chuàng)新技術(shù)發(fā)展廣泛惠及民生[EB/OL].http://politics.gmw.cn/2019-12/26/content_33430734.htm,2019-12-21.

      (責(zé)任編輯:陳 媛)

      猜你喜歡
      隱私
      數(shù)據(jù)安全事件頻發(fā) “隱私”何處安放?
      網(wǎng)絡(luò)環(huán)境下的隱私保護(hù)
      大數(shù)據(jù)時(shí)代下“被直播”問題現(xiàn)狀調(diào)研報(bào)告
      交城县| 昔阳县| 吴堡县| 颍上县| 常山县| 石柱| 会昌县| 湘潭市| 彝良县| 墨玉县| 永年县| 左权县| 称多县| 三明市| 封丘县| 丹棱县| 大余县| 兴山县| 奉节县| 蕲春县| 板桥市| 五大连池市| 浦城县| 秀山| 和硕县| 黑龙江省| 峨山| 阿瓦提县| 邵阳县| 肥西县| 平果县| 通山县| 吐鲁番市| 泊头市| 吉安县| 施秉县| 沾化县| 阜平县| 左云县| 泸水县| 遂平县|