• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究

      2019-06-03 02:51:54
      關(guān)鍵詞:待查查重權(quán)重

      廣西壯族自治區(qū)科學(xué)技術(shù)情報(bào)研究所 廣西 南寧 530023

      1 研究背景

      目前,項(xiàng)目的重復(fù)檢測主要是采用萬方、知網(wǎng)、維普等檢測系統(tǒng),通過字符串匹配算法來計(jì)算待檢測的文件相對于文件庫中的目標(biāo)文件的相似比[1]。字符串匹配算法是以一段文字一致作為衡量內(nèi)容重復(fù)的標(biāo)準(zhǔn)[2],然而,由于中文語言的復(fù)雜性和表達(dá)方式的多樣性,對于實(shí)質(zhì)內(nèi)容相同的兩段文字,往往會因?yàn)橹虚g出現(xiàn)一些無意義的“停詞”或虛詞或者主謂賓順序不一致等情況,而將其錯(cuò)誤地判斷為不屬于重復(fù)內(nèi)容,因此,采用現(xiàn)有技術(shù)中的字符串匹配算法可能會導(dǎo)致查全率和查準(zhǔn)率不高。而且,字符串匹配算法對字符串的選取要求嚴(yán)格,算法本身復(fù)雜度較高,需要相對大的資源開銷和較長的計(jì)算時(shí)間,因此,查重的效率也不高。此外,近年來,隨著科技項(xiàng)目申報(bào)、學(xué)術(shù)論文和學(xué)位論文等的數(shù)量大幅增長,迫切需要查重結(jié)果準(zhǔn)確、高效的文本數(shù)據(jù)查重的方法[3]。

      2 科技項(xiàng)目查重方法

      本文基于科技項(xiàng)目查重的需求背景,開展了自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法研究。基于深度學(xué)習(xí)算法自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法包括如下步驟:

      步驟1:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;例如,選取目標(biāo)文件,指定字段設(shè)置為“技術(shù)內(nèi)容”,在目標(biāo)文件的“技術(shù)內(nèi)容”字段中提取了“應(yīng)用游戲引擎UDK技術(shù)將提取的特色元素虛擬化、數(shù)字化,利用三維建模Blender技術(shù)將虛擬化信息應(yīng)用于移動游戲端”的目標(biāo)文本,將目標(biāo)文本切分為“應(yīng)用/游戲/引擎/UDK/技術(shù)/將/提取/的/特色/元素/虛擬化/數(shù)字化/利用/三維/建模/Blender/技術(shù)/將/虛擬化/信息/應(yīng)用于/移動/游戲端/”多個(gè)關(guān)鍵詞;實(shí)施例中,指定字段還可以包括“標(biāo)題”、“負(fù)責(zé)人”、“承擔(dān)機(jī)構(gòu)”、“合作機(jī)構(gòu)”、“摘要”以及“正文”;在實(shí)施例中,將目標(biāo)文本切分為關(guān)鍵詞時(shí),可以按照動詞、名詞、形容詞、副詞、介詞切分為關(guān)鍵詞,省略其他類型的關(guān)鍵詞;

      步驟2:在數(shù)據(jù)庫中檢索含有單個(gè)關(guān)鍵詞的項(xiàng)目文件,設(shè)定關(guān)鍵詞的權(quán)重值;例如,在12564個(gè)項(xiàng)目文件的數(shù)據(jù)庫中檢索后,含“應(yīng)用”關(guān)鍵詞的項(xiàng)目文件9472個(gè),含“游戲”關(guān)鍵詞的項(xiàng)目文件2761個(gè),含“引擎”關(guān)鍵詞的項(xiàng)目文件958個(gè),含“UDK”關(guān)鍵詞的項(xiàng)目文件8個(gè),對項(xiàng)目文件個(gè)數(shù)進(jìn)行歸一化處理y=x-8/(9472-8),結(jié)果得出:“應(yīng)用”為“1”,“游戲”為“0.29089”,“引擎”為“0.10038”,“UDK”為“0.00085”;

      步驟3:利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進(jìn)行評估,權(quán)重評估器輸出待查文件的相關(guān)度,根據(jù)權(quán)重評估器的輸出結(jié)果進(jìn)行排序;如:權(quán)重評估器的輸出結(jié)果為:待查文件1的相關(guān)度為0.913,待查文件2的相關(guān)度為0.762,待查文件3的相關(guān)度為0.913,待查文件4的相關(guān)度為0.206,待查文件5的相關(guān)度為0.050,待查文件6的相關(guān)度為0;因此,排序?yàn)榇槲募?>待查文件3>待查文件2>待查文件4>待查文件5>待查文件6。

      3 利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器

      獲取關(guān)鍵詞的權(quán)重值,選取六篇待查文件作為訓(xùn)練樣本,其中三篇待查文件與目標(biāo)文件相關(guān),其他三篇待查文件與目標(biāo)文件不相關(guān),將相關(guān)的待查文件賦值為1,不相關(guān)的待查文件賦值為0;

      獲取六篇待查文件含有的關(guān)鍵詞,根據(jù)相關(guān)性輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,如表1所示;

      表1 神經(jīng)網(wǎng)絡(luò)樣本訓(xùn)練表

      從表1可以獲得神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集,輸入為關(guān)鍵詞權(quán)重值P=[0,0.29089,0.10038,0.00085;0,0.29089,0.10038,0;0,0,0.10038,0.00085;1,0.29089,0,0;0,0,0,0],輸出為相關(guān)性S0=[1,1,1,0,0,0];將以上樣本集代入式(1)的徑向基神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合訓(xùn)練,擬合訓(xùn)練可獲得具有關(guān)鍵詞特性的權(quán)重評估器,如式(1)所示;

      式(1)中,||P-c i||為輸入量P與神經(jīng)網(wǎng)絡(luò)權(quán)量c i的歐式距離,w i為神經(jīng)網(wǎng)絡(luò)隱層到輸出層之間的權(quán)量,w i=[w1w2w3w4w5w6]T=[0.050 0.315 0.465 0.585 0.835 0.975],c i=[c1c2c3c4c5c6]T=[0.3050 0.4528 0.6238 0.8029 0.9763]。

      待訓(xùn)練完成后,神經(jīng)網(wǎng)絡(luò)組建的權(quán)重評估器可以根據(jù)關(guān)鍵詞的權(quán)重值P輸出該待查文件的相關(guān)度S0的值,如表2所示;

      表2 待查文件的相關(guān)度

      根據(jù)S0進(jìn)行待查文件的相關(guān)度排序,如表2所示。

      步驟4:選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;如:選取待查文件1,提取比對文本如下:“利用UDK虛幻引擎畫刷制作游戲四面墻,然后利用UDK虛幻引擎進(jìn)行初始游戲的基礎(chǔ)添加,通過四面墻的添加以及貼圖的附加,場景的初步搭建。在其中添加一些隔斷墻,并適當(dāng)?shù)奶砑右恍艄?給其符合場景的顏色,給一些比較暗的地方添加Sport Light,場景中只有墻體閉塞,可以適當(dāng)?shù)膭?chuàng)建天窗,并附上材質(zhì)”;

      步驟5:將所述目標(biāo)文本與所述比對文本進(jìn)行字母化,建立比對矩陣,在比對矩陣中查找滿足相似字符串條件的子矩陣;

      步驟6:根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對文本的相似度,

      計(jì)算比對文本的相似度的公式如下:

      其中,BFB表示章節(jié)相似比,TXTLEN表示比對文本長度,n是比對文本中關(guān)鍵字的個(gè)數(shù),KEYLEN表示關(guān)鍵字的長度(即查找出的相似片度的長度)。該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。

      5 結(jié)論

      本研究提供了一種基于深度學(xué)習(xí)算法自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,包括:在目標(biāo)文件的指定字段中提取目標(biāo)文本,將所述目標(biāo)文本切分為關(guān)鍵詞;在數(shù)據(jù)庫中檢索含有單個(gè)關(guān)鍵詞的待查文件,設(shè)定關(guān)鍵詞的權(quán)重值;利用神經(jīng)網(wǎng)絡(luò)組建權(quán)重評估器對含有關(guān)鍵詞的待查文件進(jìn)行評估和排序;選取相關(guān)度最高的待查文件,在待查文件的指定字段中提取比對文本;建立比對矩陣,根據(jù)子矩陣的規(guī)模計(jì)算所述目標(biāo)文本與所述比對文本的相似度;該方法利用神經(jīng)網(wǎng)絡(luò)對相關(guān)樣本進(jìn)行學(xué)習(xí)訓(xùn)練,訓(xùn)練完成后能夠高效、快速地完成文件相似性比對(查重)的任務(wù)。

      科技項(xiàng)目重復(fù)立項(xiàng)問題會造成國家資助科技項(xiàng)目的資金浪費(fèi),同時(shí)損害科研精神,對科技創(chuàng)新造成較大的危害。本研究對大數(shù)據(jù)環(huán)境下的科技項(xiàng)目查重技術(shù)進(jìn)行了研究,提出了自動實(shí)現(xiàn)字段權(quán)重分配的科技項(xiàng)目查重方法,此類科技項(xiàng)目查重技術(shù)的研究,將使大數(shù)據(jù)技術(shù)在科技項(xiàng)目查重中得到更好的利用,輔助科技項(xiàng)目查的重高質(zhì)高效完成。

      猜你喜歡
      待查查重權(quán)重
      夜宿弘法寺
      學(xué)位論文查重亂象引關(guān)注
      《思考心電圖之176》
      論文查重雜談
      權(quán)重常思“浮名輕”
      某血站8種酶聯(lián)免疫吸附試驗(yàn)檢測試劑檢測結(jié)果待查情況調(diào)查
      學(xué)術(shù)論文該“查”什么?
      雜文月刊(2018年20期)2018-11-14 21:28:46
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      學(xué)術(shù)論文該“查”什么?
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      巫山县| 莒南县| 类乌齐县| 驻马店市| 安泽县| 工布江达县| 宜君县| 南雄市| 乃东县| 雷山县| 辽宁省| 大名县| 临潭县| 兴化市| 香港| 横山县| 新和县| 漯河市| 兴义市| 吉安县| 台东市| 富民县| 玉山县| 潞城市| 重庆市| 吉水县| 都江堰市| 汪清县| 江川县| 泸溪县| 瑞金市| 江北区| 万荣县| 苍山县| 滨州市| 沿河| 金湖县| 五常市| 石柱| 高雄县| 太仆寺旗|