基于向量夾角余弦的夾具案例檢索方法研究?

2021-03-22 09:12:10支含緒張勝文

計(jì)算機(jī)與數(shù)字工程 2021年2期

支含緒張勝文，2

（1.江蘇科技大學(xué)機(jī)械工程學(xué)院鎮(zhèn)江 212003）（2.江蘇科技大學(xué)江蘇省船海機(jī)械裝備先進(jìn)制造重點(diǎn)實(shí)驗(yàn)室鎮(zhèn)江 212003）

1 引言

隨著制造業(yè)和計(jì)算機(jī)技術(shù)的發(fā)展，對夾具的設(shè)計(jì)效率提出了更高的要求，夾具的質(zhì)量和設(shè)計(jì)效率往往是制約產(chǎn)品生產(chǎn)周期和快速打開市場的關(guān)鍵環(huán)節(jié)［1～2］。在計(jì)算機(jī)輔助設(shè)計(jì)系統(tǒng)中，大部分新工件的夾具設(shè)計(jì)可以基于夾具案例庫中已設(shè)計(jì)好的夾具進(jìn)行修改重用［3～4］。如今，許多企業(yè)已經(jīng)積累了大量的夾具案例，但是企業(yè)并沒有有效機(jī)制對相似夾具案例進(jìn)行檢索。目前常用的夾具案例檢索方法是關(guān)鍵字檢索法和特征編碼匹配法［5］。當(dāng)積累了海量的夾具案例后，即使通過關(guān)鍵字檢索，仍然會檢索出大量關(guān)鍵字相同的夾具案例，可見關(guān)鍵字檢索法存在很大的局限性。對于特征編碼匹配法來說，其編碼過程過于繁瑣，不利于夾具設(shè)計(jì)自動化和智能化。高博等［6］建立了夾具本體模型，通過語義關(guān)系與夾具案例建立映射，形成一個夾具案例的樹狀語義結(jié)構(gòu)，通過對設(shè)計(jì)要求的語義進(jìn)行相似性度量，以此檢索和分析夾具結(jié)構(gòu)。上述方法都只聚焦了數(shù)字型特征變量的相似度計(jì)算，忽略了對字符型文本特征變量的處理，如加工階段、定位方式等夾具設(shè)計(jì)的重要因素，使得夾具案例的檢索準(zhǔn)確率大打折扣。

由于缺乏準(zhǔn)確有效的夾具案例檢索方法，因此造成了企業(yè)夾具案例的復(fù)用率低下，使得企業(yè)在夾具智能化設(shè)計(jì)的道路上舉步維艱。本文綜合考慮夾具設(shè)計(jì)過程中所涉及的因素，采用了合適的字符型文本信息預(yù)處理方法，并提出了基于向量夾角余弦的夾具案例檢索方法，可以大幅提高企業(yè)夾具案例的檢索效率和夾具案例的復(fù)用率，減少企業(yè)在夾具研發(fā)設(shè)計(jì)上的成本。

2 工序模型特征信息描述

在夾具設(shè)計(jì)過程中，需要考慮諸多的設(shè)計(jì)因素，本文采用常用的三類夾具設(shè)計(jì)因素：形狀特征信息、形位特征信息和工藝特征信息［7］。如圖1 所示，形狀特征信息是指幾何體的形狀尺寸信息，如幾何體的長、寬、高、直徑等；形位特征信息是指幾何體之間的空間位置關(guān)系信息，如中心距、偏移距離等拓?fù)湫畔?；工藝特征信息是指工件在加工過程中所需的信息，如加工方式、加工階段、定位方式和加工面類型等。本文對工序模型從上述描述的三個角度進(jìn)行特征信息定義，為后續(xù)計(jì)算夾具案例的相似度做鋪墊。

圖1 工序模型特征信息結(jié)構(gòu)

3 基于向量夾角余弦的夾具案例檢索方法

3.1 向量夾角余弦的數(shù)學(xué)模型

余弦距離，也叫做余弦相似度［8］，它是用向量空間中兩個向量的夾角余弦值來度量兩個個體之間的差異程度，向量間的夾角越接近0°，則余弦值越接近1，兩向量就越相似。圖2 表示了向量x→、y→在3 維空間中的位置關(guān)系。當(dāng)向量x→、y→的分量在數(shù)值上越接近，即二者間的夾角θ 越小時，向量x→和y→就越相近，也就越相似。根據(jù)3 維空間中的余弦夾角計(jì)算方法，將其推廣到n維空間內(nèi)。

圖2 向量在3維空間中的幾何表示

兩個n 維向量的對應(yīng)分量在數(shù)值上越接近或?qū)?yīng)成比例，兩個向量的夾角余弦值就越大，二者就越接近，向量表示的個體就越相似。

3.2 字符型文本信息的預(yù)處理

夾具案例的相似度，可看作工序模型在多維空間中的距離，距離越小，向量夾角越小，那么夾具案例就越相似。在上述工序模型的特征信息描述中，包含了數(shù)字型尺寸信息和字符型文本信息，目前在計(jì)算夾具案例的相似度時，算法能夠有效處理數(shù)字型尺寸信息，但是對于字符型文本信息卻難以計(jì)算其夾角余弦值。因而此類字符型文本信息需要經(jīng)過預(yù)處理之后，才能參與相似度計(jì)算［9～10］。大多學(xué)者對于這類字符型文本信息采用統(tǒng)一的預(yù)處理方式——標(biāo)簽編碼（Label Encoding），該編碼方式是把n 種字符型文本信息映射為0 到n-1 之間的整數(shù)，以此計(jì)算文本值之間的夾角余弦值。如圖3（a）所示，加工階段特征信息包含四個字符型文本值，從加工精度上看，它們存在先后順序關(guān)系。通過標(biāo)簽編碼依次將這四個文本值編碼為0、1、2、3，光整加工相對于粗加工的距離比半精加工相對于粗加工的距離要長，編碼后仍然存在先后順序關(guān)系。但該方法并不適用于處理無序字符型文本信息，如圖3（b）所示，加工方式特征信息中包含四個文本值，無論從哪個角度看，這四個文本值之間不存在大小順序關(guān)系。如果通過標(biāo)簽編碼將它們編碼為0、1、2、3，那么數(shù)值之間就存在了大小順序關(guān)系，因而這種無序字符型文本信息并不適合通過標(biāo)簽編碼的方式進(jìn)行編碼。

圖3 標(biāo)簽編碼預(yù)處理字符型文本信息

本文針對該類文本信息采用另一種信息預(yù)處理方式——獨(dú)熱編碼（One-Hot Encoding）。獨(dú)熱編碼［11］又稱為一位有效編碼，采用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼，每個狀態(tài)都有獨(dú)立的寄存器位，并且在任意時候只有一位有效。獨(dú)熱編碼是將無序字符型文本值映射為二進(jìn)制數(shù)值，除了當(dāng)前文本值所對應(yīng)的狀態(tài)為1外，其余狀態(tài)均為0。如表1所示，樣本S1表示三面定位時的編碼值；樣本S2表示一面一孔定位時的編碼值；樣本S3表示兩V 型塊定位的編碼值。

表1 獨(dú)熱編碼預(yù)處理無序字符型文本信息

通過獨(dú)熱編碼對無序字符型文本信息編碼后，計(jì)算樣本S2相對于樣本S1的距離l1為與樣本S3相對于樣本S1的距離l2為距離相等。無序字符型文本信息經(jīng)過獨(dú)熱編碼處理后，彼此距離相同，沒有產(chǎn)生大小順序關(guān)系，彌補(bǔ)了上述標(biāo)簽編碼的不足。因此，在夾具案例相似度計(jì)算過程中，本文除了使用標(biāo)簽編碼對有序字符型文本信息進(jìn)行預(yù)處理外，還使用獨(dú)熱編碼對無序字符型文本信息進(jìn)行預(yù)處理，使之更符合邏輯和算法要求。

3.3 相似夾具案例推理策略

為了提高企業(yè)夾具資源的復(fù)用率，越來越多的學(xué)者開始關(guān)注夾具案例的檢索方法［12～13］。零件間的相似性并不能只通過關(guān)鍵字來判斷，而應(yīng)從零件的特征出發(fā)，基于特征要素判斷零件的相似性［14～15］。根據(jù)企業(yè)現(xiàn)狀，已有的夾具案例都有其工序模型與之對應(yīng)。因而本文綜合考慮工序模型的特征要素，通過基于向量夾角余弦的夾具案例檢索方法，從夾具案例庫中檢索相似的工序模型，進(jìn)而得到相似的夾具案例。

1）工序模型的特征信息表示

獲取待設(shè)計(jì)夾具工序模型F1的特征信息集合。由于特征信息集合的扁平化結(jié)構(gòu)，不能完整地表達(dá)出不同特征對夾具設(shè)計(jì)的影響程度不同。因此根據(jù)特征的組成結(jié)構(gòu)，將工序模型的特征信息集合劃分為多個特征元組，每個特征元組由多個特征參數(shù)構(gòu)成。待設(shè)計(jì)夾具工序模型的信息集合表示如圖4 所示。夾具案例中的工序模型F2的特征信息集合表示如圖5 所示。根據(jù)圖4 所示，把F1映射為一個n 維向量。根據(jù)圖5 所示，把F2映射為一個m維的向量，向量表示如下：

其中，Ep表示待設(shè)計(jì)夾具工序模型F1的第i 個特征元組的第p 個參數(shù)；E′q 表示夾具案例中工序模型F2的第i個特征元組的第q個參數(shù)。

圖4 待設(shè)計(jì)夾具工序模型F1 的特征信息集合

圖5 夾具案例中工序模型F2 的特征信息集合

2）夾具案例的相似度計(jì)算

由于工序模型的不同特征對夾具設(shè)計(jì)的影響不同，因此本文在計(jì)算相似度時引入了權(quán)重信息。權(quán)重知識庫由特征元組的權(quán)重系數(shù)值組成，權(quán)重系數(shù)是采用專家評價和樣本案例測試調(diào)優(yōu)的方式獲得。從權(quán)重知識庫中導(dǎo)入工序模型F1中特征元組的權(quán)重系數(shù)w ，利用權(quán)重系數(shù)w 和向量內(nèi)積夾角余弦值，計(jì)算待設(shè)計(jì)夾具工序模型F1特征信息集合與夾具案例中工序模型F2特征信息集合之間的相似度P ，相似度值P 的計(jì)算公式如下：

其中，wi表示特征信息集合中特征元組的權(quán)重系數(shù)。

為相似度計(jì)算方法設(shè)置閾值Q ，閾值可根據(jù)用戶實(shí)際需求進(jìn)行調(diào)整。當(dāng)相似度值P 大于閾值Q 時，該夾具案例即為待設(shè)計(jì)夾具工序模型的相似夾具案例。反之，夾具案例與待設(shè)計(jì)夾具工序模型不相似。

4 算例分析

按照上述方法，以船用柴油機(jī)關(guān)鍵件連桿為例，基于相似度對新連桿的工序模型G0（如圖6 所示）進(jìn)行相似夾具案例檢索。該工序模型的特征信息模版中已定義好了相關(guān)的特征信息。設(shè)夾具案例庫中有兩個夾具案例，其中連桿工序模型G1、G2同樣也定義了上述的特征信息模版。

圖6 新連桿G0的工序模型

新連桿G0工序模型的特征信息集合和夾具案例中的連桿G1、G2工序模型的特征信息集合可映射成3個特征向量，特征向量的構(gòu)成如圖7所示。

圖7 工序模型G0、G1、G2的向量表示

新連桿G0工序模型特征元組分別與夾具案例中連桿G1、G2工序模型所對應(yīng)的特征元組進(jìn)行夾角余弦值計(jì)算。從權(quán)重知識庫中導(dǎo)入G0工序模型特征元組的權(quán)重系數(shù)。根據(jù)特征權(quán)值和夾角余弦值，計(jì)算G0與夾具案例中G1、G2之間的整體相似度，特征元組間的夾角余弦值和相似度結(jié)果如表2所示。

表2 夾角余弦計(jì)算結(jié)果和整體相似度結(jié)果

據(jù)比較可得，G0與G1的相似度高于G0與G2的相似度，因而G1所對應(yīng)的夾具案例可作為新連桿G0夾具設(shè)計(jì)的模版，用戶可對其結(jié)構(gòu)進(jìn)行修改，使之符合G0的夾具設(shè)計(jì)要求。該相似度結(jié)果表明了基于向量的夾角余弦算法可以有效地計(jì)算出夾具案例之間的差異值，為夾具案例的檢索提供了有效的手段。

基于上述方法，結(jié)合UG 平臺開發(fā)了基于向量夾角余弦的夾具案例檢索功能，如圖8 所示。首先，獲取工序模型的特征信息集合，并對特征信息進(jìn)行編碼預(yù)處理。再從權(quán)重知識庫中導(dǎo)入相關(guān)特征元組的權(quán)重系數(shù)，如圖8（a）所示。以夾具案例庫中的相似夾具案例為目標(biāo)，通過向量夾角余弦算法計(jì)算新連桿工序模型和夾具案例中連桿工序模型之間的相似度。如圖8（b）所示，篩選出超過閾值Q的夾具案例，并顯示在系統(tǒng)界面中，供用戶做夾具重用參考。

圖8 相似夾具案例檢索結(jié)果界面

5 結(jié)語

本文依據(jù)夾具設(shè)計(jì)行業(yè)中的實(shí)際需求，將基于向量夾角余弦的相似性案例檢索技術(shù)應(yīng)用于夾具設(shè)計(jì)過程，能夠很好地解決夾具設(shè)計(jì)因素中字符型文本信息預(yù)處理的問題和相似夾具案例檢索的難題，大幅提高了夾具案例重用率以及夾具設(shè)計(jì)效率，在一定程度上實(shí)現(xiàn)了夾具智能設(shè)計(jì)，為后續(xù)夾具結(jié)構(gòu)變型設(shè)計(jì)奠定了基礎(chǔ)，同時也為廣義上的產(chǎn)品案例相似性檢索提供了一種新的思路。