潘夢真 湖南師范大學(xué)數(shù)計院
自屬性論被提出以后,不少的學(xué)者和研究人員都對其進行了深入的研究和學(xué)習(xí),并提出很多優(yōu)秀的改進意見和方案。從屬性論在信息檢索領(lǐng)域應(yīng)用的情況來看,己有不少的研究人員利用屬性論來為相似度計算以及信息檢索進行模型的搭建。
利用文檔向量和查詢向量來對文本的核心重心進行描述,可以得到信息之間的內(nèi)在邏輯推理關(guān)系,使用文本屬性的坐標系來對屬性和元素之間的關(guān)系程度進行展現(xiàn)。
通過上面的兩個重心公式可以知道,文本的向量與檢索向量只是一種的關(guān)系。在這種情況下,如果使用歐式距離計算來算出相似度的值是沒有實際的意義的。
另一方面,關(guān)于模型的不足如在文獻[1]中的所提出的:查詢向量用查詢線與文本重心相交點表示,此時信息量與原本的信息量相比有一定的損失。因此,計算相似度的關(guān)鍵點在于如何將文本的重心考慮進來且不用歐式距離計算方式來找出一個更加合理的算法。
借鑒屬性坐標學(xué)習(xí)分析法的構(gòu)建,滿意度函數(shù)可以解釋為:在一個量綱的成績單純形中,可以量測心理標準與在這個成績單中的某一個績點的距離。該心理標準點是從心理學(xué)的角度出發(fā)的,以機器學(xué)習(xí)的方式來實現(xiàn)決策者的權(quán)重平衡點的獲取。這個時候,對成績點與心理標準點之間的距離是通過基于坐標的滿意度函數(shù)來計算的,已經(jīng)不屬于歐式距離的范疇。
而對于信息查詢來說,用戶每一個查詢需求對應(yīng)的是一個坐標系中的查詢向量:。這個向量與坐標軸所組成的投影點組成了一個為(n-1)維的查詢向量單純形,與此同時,文本向量也可以用這種方式得到一個維文本的單純形。在構(gòu)建的屬性坐標系中,與前文所提到的屬性坐標學(xué)習(xí)分析法是非常相似的,本文的文本中心點與學(xué)習(xí)分析法的心理標準點是一樣的,都是對單純形的一個評價點。交點即在單純型中的待評價的交點?;谏鲜龅男畔ⅲ梢缘贸?在文本的重心點與匹配點的距離就可以使用來作為文章與檢索詞之間的相似度判斷,該函數(shù)所得到的值越大,就說明它們的相似程度就越高。
這個單純形的文本重心表示為:
將公式3和公式4結(jié)合起來,得出匹配基準點的坐標:
相似度的公式如下:
總的來說,本文所改進的相似度算法在文本相似度計算上表現(xiàn)較好,精確度能夠滿足需求。本文的算法適合對查詢需求明確、專業(yè)的領(lǐng)域,在這些領(lǐng)域有著良好的應(yīng)用能力,也為后來者提供了借鑒的思路。當(dāng)前對于查詢來說,只是與文本進行了相似性的分析,還沒有涉及到對事物的本質(zhì)進行分析研究。隨著研究的深入,這些問題會逐步得到解決,將模型應(yīng)用到發(fā)掘事物的本質(zhì)和關(guān)系推理的處理能力是未來研究的重點方向。
[1]Zarovy S, Costello M. Extended State Observer for Helicopter Mass and Center-of-Gravity Estimation[J]. Journal of Aircraft,2015, 52(6):1-12.
[2]You S, Lu Y, Zhang W, et al. Micro-lens array based 3-D color image encryption using the combination of gravity model and Arnold transform[J]. Optics Communications, 2015,355(2):419-426.
[3]Golpira H, Messina A R. A Center-of-Gravity-based Approach to Estimate Slow Power and Frequency Variations[J].IEEE Transactions on Power Systems, 2017, PP(99):1-1.