曾 志 羅中良 屈 鳴
一種用于工程圖檔表格信息的智能提取算法
曾 志 羅中良 屈 鳴
(惠州學(xué)院 計(jì)算機(jī)科學(xué)系,廣東惠州 516007)
工程圖檔中CAD信息的智能提取在PDM(Product Database Management)系統(tǒng)中的地位勿容置疑,這些信息是BOM(Bill of Material)的基礎(chǔ)。在分析CAD圖檔dwg文件所涉及的數(shù)據(jù)欄(包含標(biāo)題欄、明細(xì)欄)邏輯結(jié)構(gòu)的基礎(chǔ)上,提出一種針對基于矩形投影的數(shù)據(jù)欄信息的批量提取算法。通過實(shí)驗(yàn)驗(yàn)證了算法的可行性,該算法為CIMS的自動(dòng)化生產(chǎn)提供了可靠的數(shù)據(jù)基礎(chǔ)。
關(guān)鍵詞:工程圖檔;邏輯結(jié)構(gòu)提?。痪匦瓮队八惴?/p>
PDM是一個(gè)企業(yè)數(shù)據(jù)管理的集成框架,也是企業(yè)信息化的基礎(chǔ)。在PDM系統(tǒng)中,管理的數(shù)據(jù)主要包括文檔與BOM數(shù)據(jù)[1]。而在CIMS生產(chǎn)過程中,BOM的數(shù)據(jù)通常是通過對Auto CAD設(shè)計(jì)所生成的dwg圖檔進(jìn)行信息提取而獲得的。BOM數(shù)據(jù)作為企業(yè)產(chǎn)品開發(fā)和生產(chǎn)的核心,貫穿了產(chǎn)品的整個(gè)生命周期,由此,設(shè)計(jì)部門可以通過BOM獲取所有零件的信息及其相互間的結(jié)構(gòu)信息,生產(chǎn)部門便使用BOM來決定零件或最終產(chǎn)品的制造方法,而管理部門則通過BOM決定主生產(chǎn)計(jì)劃,確定物料凈需求量等[2]。因此,對于PDM系統(tǒng)來說,如何保證BOM信息的正確性是至關(guān)重要的,然而BOM的正確性與各零部件信息的表達(dá)相關(guān),即與零部件的編碼密切相關(guān)[3],同時(shí)BOM在產(chǎn)品制造的成本估算也具有一定的作用[4]。
迄今為止,國內(nèi)外從事CAD數(shù)據(jù)提取的研究很多,概括起來主要有兩類:前處理法和后處理法[5]。前處理法必需在工程圖紙中預(yù)定義信息承載對象,再將信息附加到對象上,信息提取時(shí)通過查詢對象的附加屬性來獲?。?]。由于該方法的前提條件是在圖中存在預(yù)定義對象,從而限制了它在圖中未預(yù)置指定對象的應(yīng)用。后處理法通過分析工程圖上信息的幾何、語義等相關(guān)特征,獲取數(shù)據(jù)的信息[7]。該方法克服了前處理法對工程圖的限制,適用范圍廣,可以處理不同格式的信息,但對不規(guī)則程度較高的實(shí)體的信息提取的準(zhǔn)確度及效率都有待提高。其中有從約定的語義或者簡圖分析工程圖的數(shù)據(jù)欄與產(chǎn)品欄的格式獲取零部件信息,或者利用ADK公司提供的二次開發(fā)接口ObjectARX[8-10]或通過DXF(Data Exchange Format)交換文件格式讀取等方法進(jìn)行信息的獲取。通常,針對不同CAD軟件設(shè)計(jì)的圖檔文件,其信息提取的方式也有所不同。本文在已有數(shù)據(jù)提取算法GLG的基礎(chǔ)上,通過對工程CAD圖紙模板定義,分析工程圖檔DWG文檔中數(shù)據(jù)欄的邏輯結(jié)構(gòu),提出一種基于矩形投影算法的信息提取策略,實(shí)現(xiàn)對數(shù)據(jù)的批量提取。
通常,工程圖檔表格信息可以從幾何結(jié)構(gòu)和邏輯結(jié)構(gòu)去認(rèn)識。幾何結(jié)構(gòu)是指表格的位置及其大小,而邏輯結(jié)構(gòu)主要分析表格間的邏輯關(guān)系。一般地,通過邏輯結(jié)構(gòu)識別圖檔表格信息具有較高的精確率。因此理解表格文檔的邏輯結(jié)構(gòu)對數(shù)據(jù)提取方面就顯得很重要。
從表格文檔的標(biāo)題欄與數(shù)據(jù)欄關(guān)系來看,最簡單的一維表格是由一個(gè)標(biāo)題欄和它附屬的數(shù)據(jù)欄組成,而二維表格是由一個(gè)總標(biāo)題欄、幾個(gè)左標(biāo)題欄、幾個(gè)上標(biāo)題欄和數(shù)據(jù)欄組成的,復(fù)合表格則是由一個(gè)總標(biāo)題欄和幾個(gè)子表構(gòu)成的,并且子表可以是一維、二維和其它復(fù)合表格組成[2]。圖1分別給出相應(yīng)的示例。
圖1 表格文檔中標(biāo)題欄與數(shù)據(jù)欄關(guān)系示例
此外,由于表格的標(biāo)題欄與數(shù)據(jù)欄總是可以形成一個(gè)矩形區(qū)域。即由上述表格可形成如圖2所示的幾種有代表性的矩形模型。
圖2 表格標(biāo)題欄數(shù)據(jù)欄形成的矩形模型示例
考慮標(biāo)題欄與數(shù)據(jù)欄的相鄰關(guān)系,在前人的基礎(chǔ)上,文獻(xiàn)[7]得出如圖3所示5種規(guī)范表格的標(biāo)題與數(shù)據(jù)的依賴關(guān)系。
圖3 標(biāo)題欄和數(shù)據(jù)欄或子表依賴關(guān)系的分類
到目前為止,基于邏輯結(jié)構(gòu)的提取算法很多,比較典型的有基于GLG的提取算法[11]。其中GLG的邏輯結(jié)構(gòu)提取算法分為3個(gè)階段:表格文檔的全局劃分,獲得數(shù)據(jù)欄矩形;根據(jù)數(shù)據(jù)欄與標(biāo)題欄的依賴關(guān)系,進(jìn)行局部邏輯結(jié)構(gòu)的分析,從而判斷欄間的邏輯關(guān)系;整個(gè)文檔的全局再劃分,由標(biāo)題欄的層次關(guān)系,通過搜索子表獲取可識別的復(fù)合表格。
依據(jù)上一節(jié)圖檔表格的結(jié)構(gòu)分析可知,表格是由矩形單元經(jīng)過遞歸運(yùn)算所形成的,而矩形又是由水平方向與垂直方向的線段構(gòu)成的規(guī)則區(qū)域,其在水平和垂直方向上的投影,最終可由一線段表示。因此為進(jìn)一步對表格結(jié)構(gòu)進(jìn)行識別,參照GLG算法,表格邏輯結(jié)構(gòu)提取算法從矩形投影的角度,采用由整體到局部的原則以及標(biāo)題欄與數(shù)據(jù)欄的依賴關(guān)系,得出表格邏輯結(jié)構(gòu)的XML表示[12],算法步驟如圖4所示。
圖4 基于矩形投影的邏輯結(jié)構(gòu)提取算法
針對數(shù)據(jù)欄區(qū)域的劃分,從水平方向考慮面積最大化,自然必須從最底層所在行的矩形為以整體向上向右擴(kuò)展,作為一個(gè)候選數(shù)據(jù)欄矩形。在CAD工程圖檔中,圖紙?jiān)O(shè)計(jì)相對規(guī)范,數(shù)據(jù)欄高度也為定值,因此面積的比較取決于矩形投影所得線段的長度和數(shù)據(jù)欄在垂直方向上的行數(shù)。經(jīng)過多次行的循環(huán),可以合并與分離獲得候選數(shù)據(jù)欄。
本實(shí)驗(yàn)采用VC++6.0,并調(diào)用AutoDesk公司提供的庫函數(shù)進(jìn)行開發(fā),由于dwg文件針對表格數(shù)據(jù)的存儲(chǔ)采用XML格式進(jìn)行限定,因此針對批量的CAD圖紙,首先設(shè)定CAD圖檔表格的位置模板,之后再應(yīng)用矩形投影算法進(jìn)行邏輯結(jié)構(gòu)提取,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)欄信息的提取。
表1為某一CAD裝配文檔dwg文件中標(biāo)題欄部分表格內(nèi)容,下面將采用本文提出的基于矩陣投影的邏輯結(jié)構(gòu)提取算法進(jìn)行分析與執(zhí)行。
表1 某CAD裝配文檔標(biāo)題欄部分表格樣例
根據(jù)本文提出的算法,針對表1中的數(shù)據(jù)區(qū)域劃分與基本表格單元中子表以及復(fù)合子表的獲取過程如圖5所示,其中圖5(c)中的C0為復(fù)合子表,最后采用算法執(zhí)行后生成的表格邏輯結(jié)構(gòu)的XML文檔見圖6所示,由于本示例標(biāo)題欄沒有總標(biāo)題部分,僅有一個(gè)復(fù)合子表標(biāo)題,總體XML描述相對簡單。
圖5 表格文檔中表1的邏輯劃分過程
圖6 表格文檔數(shù)據(jù)提取XML結(jié)果
數(shù)據(jù)欄矩形區(qū)域投影法劃分?jǐn)?shù)據(jù)欄很直觀,準(zhǔn)確率也相對高??梢允÷耘袛嗖幌嚓P(guān)數(shù)據(jù)欄分組到同一數(shù)據(jù)欄矩形的情況,直接進(jìn)入對基本表格進(jìn)行邏輯結(jié)構(gòu)的分析階段,效率得到響應(yīng)地提高。通過劃分規(guī)則的多次測試比較,發(fā)現(xiàn)該算法在整體數(shù)據(jù)提取效率方面均有顯著改善。
通過分析CAD圖檔等表格結(jié)構(gòu),以GLG算法為基礎(chǔ),從表格數(shù)據(jù)提取的角度著手,依據(jù)標(biāo)題欄與數(shù)據(jù)欄的數(shù)據(jù)依賴關(guān)系,提出一種基于數(shù)據(jù)欄矩形投影算法的邏輯結(jié)構(gòu)提取算法,針對該算法,給出一個(gè)裝配圖檔的部分標(biāo)題欄信息提取示例,并通過算法步驟演示數(shù)據(jù)劃分過程,得出裝配圖標(biāo)題欄的XML描述文檔,為BOM清單提供數(shù)據(jù)基礎(chǔ)。實(shí)驗(yàn)表明,本算法通過擴(kuò)充,不僅能應(yīng)用與CAD工程圖檔表格的數(shù)據(jù)提取,還可以實(shí)現(xiàn)其它含有表格圖檔的信息提取,具有一定的可用性與實(shí)用性。
[1] 尹建偉,王冰冰,陳剛,等.集團(tuán)級分布式產(chǎn)品數(shù)據(jù)管理系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)集成制造系統(tǒng),2005,11(5):656-663.
[2] 曾志.支持多模式機(jī)械CAD信息智能提取系統(tǒng)的研究與實(shí)現(xiàn)[D].杭州:浙江大學(xué)學(xué)位論文,2005.
[3] 曾志.基于XML規(guī)則制造業(yè)零件編碼引擎系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].東莞理工學(xué)院學(xué)報(bào),2014,21(1):40-44.
[4] 陳建清,譚建榮,林相華,等.基于工程圖紙明細(xì)表物料信息提取的產(chǎn)品制造成本估算研究[J].機(jī)電工程,2006,23(3):60-62.
[5] 伊國棟,譚建榮,紀(jì)楊建,等.基于關(guān)聯(lián)約束的工程圖紙表信息識別與重組[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2003,4:15-4.
[6] 王欣,魏生民.基于ActiveX技術(shù)的圖紙標(biāo)題欄信息自動(dòng)提?。跩].計(jì)算機(jī)研究與發(fā)展,2000,37(4):507-512.
[7] 胡敏,姜曉紅,石教英.一種有效的從CAD工程圖樣自動(dòng)提取零部件信息的方法及其實(shí)現(xiàn)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2000,12(10):777-781.
[8] 楊銘,夏芳臣,涂海寧,等.AutoCAD中明細(xì)表生成、更新及提取技術(shù)研究[J].南昌大學(xué)學(xué)報(bào):工科版,2007,29(1):25-28.
[9] 胡敏,廖文和,李迎光.基于CATIA的明細(xì)表信息自動(dòng)提取和處理[J].機(jī)械制造與自動(dòng)化,2006,35(3):89-91.
[10] 陳樹曉,水俊峰,張晉強(qiáng),等.基于SolidWorks的工程圖明細(xì)欄自動(dòng)生成與調(diào)整技術(shù)[J].中國制造業(yè)信息化,2007,36(03):44-46.
[11] 劉冰,江早,胡軍安,等.表格文件圖象邏輯結(jié)構(gòu)提取方法[J].中國圖象圖形學(xué)報(bào),2000,5(8):678-682.
[12] 陳開,魏坤,竺長安,等.基于XML的BOM生成系統(tǒng)[J].計(jì)算機(jī)工程,2008,34(22):34-36.
An Algorithm of Intelligent In formation Retrieval for the Form of Engineering Drawings
ZENG Zhi LOU Zhong-liang QU M ing
(Department of Computer Science,Huizhou University,Huizhou 516007,China)
The importance of intelligent retrieval for CAD document in the PDM system is no doubtbecause the information is the basis of BOM.Base on analysis on data column(including title column and detail colume)in dwg file of CAD,this paper proposes an improved algorithm of Rectangle-Projection for batchinformation retrieval.Experiment shows that the algorithm is feasibility to provide the reliable data information for automatic production of CIMS.
engineerings drawings;logical structural retrieval;algorithm of Rectangle-Projection
TP391
A
1009-0312(2014)03-0041-05
2013-11-15
廣東省惠州市科技計(jì)劃項(xiàng)目(A512.0241);惠州學(xué)院校級教學(xué)成果培育項(xiàng)目(CG2011008)。
曾志(1971—),男,江西贛州人,高級工程師,博士,主要從事CIMS、企業(yè)信息化、機(jī)器學(xué)習(xí)等方面研究。