黨 杰
(西安醫(yī)學院,陜西 西安 710021)
面向云計算的制造業(yè)設(shè)計服務資源集聚方案設(shè)計
黨杰
(西安醫(yī)學院,陜西 西安 710021)
摘要:通過分析研究,構(gòu)建了數(shù)據(jù)來源層、數(shù)據(jù)存儲層與數(shù)據(jù)匹配層三層模式,通過網(wǎng)頁分類算法、海量數(shù)據(jù)存儲算法和語義匹配算法等實現(xiàn)對設(shè)計服務信息的搜集、處理和分析,大大提高了制造服務類企業(yè)的設(shè)計效率。
關(guān)鍵詞:資源集聚;網(wǎng)頁分類;數(shù)據(jù)存儲;語義匹配
1設(shè)計服務資源及資源集聚方案的提出
設(shè)計資源是指在對產(chǎn)品的設(shè)計開發(fā)中,通過設(shè)計工具、設(shè)計場地、設(shè)計物資、設(shè)計人員、信息資源和服務資源等組成的一切可用實體,如設(shè)計工具中所包括的CAE、有限元分析軟件、CAPP等;設(shè)計人員中包括的設(shè)計專家、技術(shù)專家、管理專家等;信息資源中包括的設(shè)計標準、專利、數(shù)據(jù)庫、3D 模型等,都被納入到設(shè)計服務資源中。針對大量的設(shè)計服務資源,如何將海量的信息進行集聚,再通過云計算平臺進行存儲,最后通過云計算平臺定向地發(fā)送給設(shè)計資源的需求者,成為該方案設(shè)計的重點。通過采用服務資源智能匹配的方法對雙方的需求和服務進行自動的匹配,并向該平臺的提供商給予相應的服務費用。
2服務智能集聚算法
大量的設(shè)計服務資源存在于互聯(lián)網(wǎng)當中,對設(shè)計服務本體的構(gòu)建需要大量的實例、關(guān)系描述、定義描述等。通過采用自動和半自動的方式對服務本體進行構(gòu)建,可大量減少人工分類帶來的問題,對此,本文針對服務本體的構(gòu)建,提出智能聚集方法,并以數(shù)據(jù)來源中半結(jié)構(gòu)化數(shù)據(jù)為例,實現(xiàn)對互聯(lián)網(wǎng)信息的自動的獲取。其具體的步驟為:首先,對互聯(lián)網(wǎng)中存在的設(shè)計服務資源進行搜集和初步分類,從而得到關(guān)于設(shè)計服務信息的網(wǎng)頁,包含XML、RDF等格式在內(nèi)的各種數(shù)據(jù)網(wǎng)頁信息;其次,對搜集到的數(shù)據(jù)進行關(guān)系和概念的抽取,并映射成各種不同的服務本體,與知識專家?guī)熘械姆毡倔w比較。
2.1網(wǎng)頁分塊
網(wǎng)頁結(jié)構(gòu)可分為不同的模塊,每個模塊都可用一個特定的Dom樹對其進行表示,也可以看成是特定的API。通過不同的樹節(jié)點所構(gòu)成的根節(jié)點,由此形成了主網(wǎng)頁。每個節(jié)點 node 則為一個塊,用 DomNode 表示網(wǎng)頁節(jié)點。具體包括對其中的節(jié)點進行判斷,查看其是否為容器類節(jié)點,如為容器類節(jié)點則繼續(xù)追蹤,則探測其是否為文本類數(shù)據(jù),當探測該節(jié)點為文本數(shù)據(jù)時,對該文本塊的父節(jié)點塊進行記錄,并探測下一個含有文本數(shù)據(jù)的區(qū)域。清理指定節(jié)點內(nèi)的無效節(jié)點并查看該節(jié)點是否有效的核心代碼為:
protected boolean cleanUpDomNode(DomNode element) {
if(element==null){
returnfalse;
}
List
intlinkTextLength=0;
booleanflag=false;
if(list!=null){
for (DomNode node : list) {
if(checkTextType(node)){
continue;
} else
if (checkRemoveType(node)) {
node.remove();
flag = true;
} else
if (node instanceof HtmlAnchor) {
String temp = node.asText();
temp = encoder.encodeHtml(temp);
intlength=Chinese.chineseLength(temp.trim());
if (length > 0) {
linkTextLength += length
2.2節(jié)點與表格相似度計算
2.2.1節(jié)點相似度計算
對節(jié)點相似度的計算本身就是對DomNode屬性值進行比較。對DomNode屬性的描述則包括node.properties(bgcolour,font,width,height)(節(jié)點屬性) 、node.tagname (標簽名稱)、 node.text (標簽內(nèi)容)、 Node.depth( 標簽深度)。因此,根節(jié)點的相似度有下述關(guān)系:
(1)
式中,sim(n1,n2)是n1、n2兩者之間的相似度,即這兩者之間在屬性加權(quán)和內(nèi)容方面的相似度,n1和n2為非根節(jié)點;w1是該標簽在整個網(wǎng)頁當中的權(quán)重系數(shù)。
因此,可以得到n1和n2所對應的子節(jié)點的相似度的計算公式:
sim(T1,T2)=max(sim(n1,n2)+w2sim(parent(n1),parent(n2))
(2)
式中,T1、T2分別是n1和n2所對應的子節(jié)點,n1和n2的標簽名和深度是相同的;parent(n1)是n1最終的父節(jié)點;w2是節(jié)點受到結(jié)構(gòu)影響的權(quán)重系數(shù)。
2.2.2表格相似度計算
表格節(jié)點的相似度的計算則采用二維矩陣的方式,并分別用Rowi、Coli表示該矩陣的行向量和列向量,則有表格的二維矩陣:
(3)
由此可計算得出其行和列的相似度,分別為:
(4)
(5)
當sim(Colk,Colk+1)=1時,表示該列內(nèi)容相同;同理,當sim(Rowk,Rowk+1)=1時,表示該行中的內(nèi)容相同。
2.2.3概念和關(guān)系的提取
在完成上述的相似度之后,當表格的行和列的相似度都大于某個設(shè)定的值后,則認為兩表格具有相似度,對此,接下來則是對其中內(nèi)容和關(guān)系提取。
1)在設(shè)計中,對產(chǎn)品的屬性通常是被排列在表頭,其屬性值的不同,則通常表示其不同的網(wǎng)頁內(nèi)容。因此,要實現(xiàn)對概念的提取,需對該網(wǎng)頁中的前d行的相似度進行計算,如果其行相似度<平均相似度,則直接轉(zhuǎn)向第3步。
2)若行相似度>行平均相似度,并且在d+1行中都為文本的內(nèi)容,則定義d=d+1,重復對步驟1進行搜索,當時d=m-1,則認定該表格當中其包含著一個實例,由此轉(zhuǎn)向第3步。
3)提取前d行當中單元格的內(nèi)容,并對單元格當中存在的重復的部分或者是常用的工程單位符號刪除,以此得到該產(chǎn)品的術(shù)語概念的集合。
上述步驟的開展都是結(jié)合其不同關(guān)系的前提下進行的。若B、A為相同概念,則定義B和A為同義概念;若B、A為層次關(guān)系,則定義B為父概念,A為子概念。
2.2.4語義的比較與表達
通過對關(guān)系的提取,需要對所提取的內(nèi)容進行比較和語義的表達。其中的比較則與系統(tǒng)中的知識庫進行比較,從而判斷其是否屬于該類型,并通過一定的語義將其表達出來。因此,需要對其中的規(guī)則進行定義。
定義規(guī)則1:表格當中的數(shù)據(jù)所描述的相關(guān)的設(shè)計資源映射到設(shè)計資源領(lǐng)域本體描述中的類。
定義規(guī)則2:概念映射為該類的屬性,并對應到相應的OWL描述語言之中。
定義規(guī)則3:表格當中的約束映射主要為本體中的約束關(guān)系,在方法當中對約束關(guān)系的提取則對應著相應的Datate property 的值域 f:range。
定義規(guī)則 4:概念間的關(guān)系與本體關(guān)系通過 partof進行表達。
2.3實例驗證
以發(fā)動機的詳細數(shù)據(jù)為例,通過在搜狐網(wǎng)和鳳凰網(wǎng)上兩類不同汽車的發(fā)動機參數(shù)表格的數(shù)據(jù)的抽取,得到如表1和表2所示的數(shù)據(jù)。
表1 搜狐網(wǎng)汽車發(fā)動機數(shù)據(jù)
表2 鳳凰網(wǎng)汽車發(fā)動機數(shù)據(jù)
由此,通過上述算法的抽取,可以得出發(fā)動機本體的形成過程,在該實例中包括發(fā)動機排量、最大馬力、最大功率和最大扭矩等。
3海量數(shù)據(jù)存儲方案
云計算平臺下的數(shù)據(jù)集聚涉及大量數(shù)據(jù)信息,如何對海量的信息進行處理成為該方案構(gòu)建的重點。當前針對海量數(shù)據(jù)的處理有很多,如美國谷歌公司的GFS。本文結(jié)合方案的需求,將平臺數(shù)據(jù)的處理和存儲通過采用GFS的開源實現(xiàn)Hadoop框架,并在這基礎(chǔ)之上借助Mapreduce模式,實現(xiàn)對海量數(shù)據(jù)和信息的處理。同時,為將相關(guān)的數(shù)據(jù)存儲或者是部署到具體的計算節(jié)點上,采用HDFS系統(tǒng)及分布式數(shù)據(jù)庫HBase,從而構(gòu)成了該方案的數(shù)據(jù)處理和存儲,具體如圖1所示。
圖1 基于云計算平臺的設(shè)計服務集存儲方案
4語音智能匹配算法
4.1算法設(shè)計
設(shè)計服務中,如何讓客戶精確地檢索到所需要的內(nèi)容,成為該方案實現(xiàn)的關(guān)鍵。對此,本文提出智能語義匹配算法,具體如圖2所示。
圖2 智能語義匹配
1)對資源本體進行描述。假設(shè)設(shè)計資源本體為一個多元組合的集SO={N,R,A,C,X,I,L},其中,N表示為類的集合;R表示概念關(guān)系集;A表示概念的屬性集;C表示約束集;X表示特殊集合;I表示實例或者是個體;L表示對象間邏輯關(guān)系的規(guī)定集。
2)資源向量語義分析。定義SV={R1,R2,…,Rn}為資源向量,其中,Ri表示第i類資源的對應的分向量,并且其同時滿足IBoxI=N∪R∪A∪C∪X。定義P={A1,A2,…,Am}為資源描述中心向量,并且有P∈Ri,Ai則表示權(quán)重比較大的屬性。定義Q={T1,T2,…,Tm}為語義查詢向量,通過采用屬性的權(quán)重和分詞法對查詢的語句進行分解,其中Ti的則為查詢特征向量。根據(jù)抽取算法,按照其權(quán)重的大小進行順序排列。定義W={W1,W2,W3,…,Wm}為查詢詞重要性的權(quán)重向量。
3)向量的匹配算法。
ifAi=Ti,則權(quán)重系數(shù)Ki=1。
ifTi滿足Ai,則Ki=Km<1。
ifTi包含Ai,則Ki=Kc<1。
ifTi與Ai為完全分離,則Ki=0。
4)資源候選集的獲取。對候選集的獲得采用向量距離計算公式:
(6)
通過對閥值的確定,當計算出的向量的值在大于該閥值的情況下,則將其定義到符合的目標查詢向量當中。該候選查詢集用D表示。
5)最優(yōu)集的獲取。通過上述候選查詢集,以滿足質(zhì)量Q、數(shù)量N、成本C、時間T構(gòu)成得到的最優(yōu)函數(shù)找到查詢結(jié)果最優(yōu)的集合。
4.2算例實證
通過需求方的需求請求,如“能夠進行發(fā)動機仿真分析CAE,包括連桿強度分析、曲軸孔扭曲的分析,連桿系統(tǒng)的機構(gòu)模擬、機體模態(tài)分析,并起能提供在線使用CAE分析工具”的要求。在資源庫中,通過其對CAE性能屬性的描述、CAE本體實例庫、匹配算法以及最優(yōu)解算法,可得到其最終有這方面的功能的廠商={TW,JP}。
5結(jié)語
基于云計算平臺下, 通過對設(shè)計服務資源方案的設(shè)計,解決了對信息的集聚、存儲和其中的語義的匹配,從而使得用戶通過搜索可到精確的設(shè)計服務資源的信息,對提高制造設(shè)計效率起到了促進的作用,具有很大的實用性。
參考文獻
[1] 羅俊海,肖志輝,仲昌平.信息物理系統(tǒng)的發(fā)展趨勢分析[J].電信科學,2012(2):127-132.
[2] 孫玉豹.關(guān)于某型履帶車輛制動器的有限元分析與研究[J].新技術(shù)新工藝,2013(7):56-58.
[3] 陳東,范帥.基于Maxwell的盤式制動器輔助電磁制動裝置的有限元分析[J].新技術(shù)新工藝,2013(9) :32-35.
責任編輯鄭練
Manufacturing Design of Service Resource Gathering Scheme Designed for the Cloud
DANG Jie
(Xi′an Medical University, Xi′an 710021, China)
Abstract:The paper built the data source layer, data storage layer and data layer, three layer model, and through the Webpage classification algorithm, mass data storage algorithm and semantic matching algorithm, realized the collection, processing and analysis of information service, which greatly improved the design efficiency of manufacturing service enterprises.
Key words:resource gathering, page classification, data storage, semantic matching
收稿日期:2015-01-05
作者簡介:黨杰(1971-),男,大學本科,工程師,主要從事信息控制及強弱電控制管理等方面的研究。
中圖分類號:TP 391.72
文獻標志碼:A