英國《自然·生物技術(shù)》雜志18日發(fā)表一項跨越人工智能及生物技術(shù)的研究,美國麻省理工學院團隊研發(fā)的一個機器學習模型,可用于預測科學文獻中已發(fā)表研究的未來影響力。目前,這個模型的打分可用來預測任意年份發(fā)表的“前5%的論文”,其將能補充當前依賴論文引用量指標的文獻計量分析系統(tǒng)。
現(xiàn)階段,有許多系統(tǒng)都被用來評估研究人員的科研產(chǎn)出,包括基于他們所著論文引用量的指標。隨著人工智能領(lǐng)域機器學習的興起,科學家們認為可以從研究人員產(chǎn)出的更多角度去評判他們發(fā)表研究的潛在影響力。
為此,麻省理工學院研究團隊推出了一個機器學習模型,該模型能預測以時間為尺度的網(wǎng)頁排名分數(shù)——類似于用來給網(wǎng)頁重要性排名的指標,并提議將該模型用于評估研究人員的產(chǎn)出。
為實現(xiàn)這個想法,科學家詹姆斯·維斯及約瑟夫·賈科布森建立了一個名為“通過學習預測高影響實現(xiàn)動態(tài)預警”的模型,并用科學研究圖譜加以訓練。研究團隊使用的數(shù)據(jù)集,包含1980年到2019年期間發(fā)表的1687850篇具有唯一性的論文,從中得到了論文發(fā)表后1年到5年與每例論文、作者、期刊、網(wǎng)絡(luò)相關(guān)的29個特征。研究團隊再用每篇論文的特征訓練一個機器學習模型,讓這個模型給出影響力“預警”分數(shù)。
在一次回顧性盲法研究中,這一最新模型準確識別出了1980年到2014年間20項具有重大影響的生物技術(shù)中的19項。這個模型還預測,2018年在42本生物技術(shù)領(lǐng)域期刊發(fā)表的50篇論文可能會躋身未來排名的前5%,這一結(jié)果將能以數(shù)據(jù)驅(qū)動的方式發(fā)現(xiàn)并讓經(jīng)費流向那些“深藏不露”的好研究。
研究人員表示,在將這類模型應用于其他研究領(lǐng)域前,仍需開展進一步測試,將該方法在生物技術(shù)以外領(lǐng)域的表現(xiàn)與常規(guī)影響力指數(shù)相比較,比如領(lǐng)域歸一化的引用分數(shù)。