• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于IFC標準的BIM自適應分詞方法

      2021-05-13 13:31:42周小平
      圖學學報 2021年2期
      關(guān)鍵詞:分詞術(shù)語語料

      張 鑫,周小平,2,王 佳,2

      基于IFC標準的BIM自適應分詞方法

      張 鑫1,周小平1,2,王 佳1,2

      (1. 北京建筑大學電氣與信息工程學院,北京 100044; 2. 建筑大數(shù)據(jù)智能處理方法研究北京市重點實驗室,北京 102616)

      建筑信息模型(BIM)已經(jīng)成為建筑行業(yè)信息技術(shù)應用的有效方案。隨著BIM數(shù)據(jù)不斷增長,為了高效使用BIM數(shù)據(jù),很多研究將自然語言處理(NLP)引入BIM應用中。在中文環(huán)境中,由于缺乏建筑行業(yè)的術(shù)語特征,導致基礎(chǔ)環(huán)節(jié)的中文分詞在建筑領(lǐng)域BIM應用中的適應性較差。通過分析當前流行的BIM數(shù)據(jù)格式工業(yè)基礎(chǔ)類(industry foundation class, IFC)文件,從中提取BIM模型特征,配合建筑領(lǐng)域術(shù)語特征加入分詞模型中,以提高中文分詞在建筑領(lǐng)域的性能。實驗結(jié)果表明,與原始條件隨機場(CRF)分詞模型相比,在建筑領(lǐng)域測試集上,分詞模型的F-measure提高了1.26%,其中,在僅加入BIM模型特征時,F(xiàn)-measure提升了0.10%,說明在分詞模型中加入BIM模型特征對于提高中文分詞在建筑領(lǐng)域的性能是有效的。同時,在BIM模型測試集上,相較于僅加入建筑領(lǐng)域術(shù)語特征,在加入BIM模型特征后,準確率從46.97%提升至87.74%,召回率從67.60%提升至94.77%,F(xiàn)-measure從55.43%提升至91.12%,提升了35.69%,有效提高了中文分詞在建筑領(lǐng)域的BIM模型自適應性。

      建筑信息模型;工業(yè)基礎(chǔ)類;中文分詞;模型自適應;建筑信息提取

      建筑信息模型(building information model,BIM)是記錄建筑設施物理特性與功能特性的數(shù)字信息模型[1]。BIM包含了建筑全生命周期中各階段的詳細信息,實現(xiàn)了其數(shù)據(jù)的互操作性,促進了建筑工程項目各參與方的有效協(xié)同[2]。目前,BIM已成為建筑工程行業(yè)(architecture,engineering and construction,AEC)工程信息化的有效解決方案和重要趨勢[3],并在AEC內(nèi)得到了廣泛地研究和應用[4]。

      隨著項目的不斷推進,作為記錄建筑全部信息的知識庫,BIM的數(shù)據(jù)量也在不斷增大[5]。隨之,信息超載的問題日益凸顯,用戶在BIM應用中獲取所需要的信息時更加困難[6]。隨著搜索引擎和新型信息系統(tǒng)的不斷發(fā)展,用戶習慣于利用自然語言來進行檢索數(shù)據(jù)等操作。

      在建筑領(lǐng)域中,為了提高BIM數(shù)據(jù)的使用效率,一些研究探索了自然語言處理(natural language processing,NLP)在各種BIM系統(tǒng)中的應用。WU等[7]提出了一種基于自然語言的BIM目標數(shù)據(jù)庫和Revit建模智能搜索引擎,通過構(gòu)建領(lǐng)域本體,從用戶的自然語句中提取目標關(guān)鍵字并限制序列,結(jié)合關(guān)鍵字和約束序列的概念形成最終的查詢,且通過本體中的語義關(guān)系對查詢概念進行擴展,最終在BIM數(shù)據(jù)庫中進行檢索。實驗結(jié)果表明,該方法的性能優(yōu)于傳統(tǒng)的基于關(guān)鍵字的方法。LIU等[8]提出了一種用于建筑業(yè)產(chǎn)品模型檢索的顯示語義分析方法,即利用擴展算法來解決術(shù)語不足問題,其次,提出了一種新的重定位方法解決概念粒度問題。實驗結(jié)果表明,該方法顯著提高了產(chǎn)品模型檢索的性能。XIE等[9]結(jié)合BIM和NLP提出了將真實世界的設備同BIM項目中的構(gòu)件相匹配的方法,并利用實際工程驗證了該方法的有效性。然而,以上應用和方法在中文信息處理場景中的應用前提假設是可以正確的分詞,但這些研究對于中文場景中的分詞環(huán)節(jié)均未進行深入的探索和研究。本文提高中文分詞在BIM應用中的自適應性,可以有效提高上述應用和方法在中文場景下的可用性。

      因此,本文從BIM模型入手,首先以工業(yè)基礎(chǔ)類(industry foundation class,IFC)文件為數(shù)據(jù)來源提取BIM模型信息。然后,以公共語料庫為基礎(chǔ)語料,分別將建筑領(lǐng)域術(shù)語特征和BIM模型特征信息標注后加入訓練語料,利用條件隨機場(conditional random fields,CRF)方法訓練分詞模型。最后,構(gòu)建建筑領(lǐng)域測試集和BIM模型測試集,利用測試集驗證本文方法的有效性。根據(jù)調(diào)查,在建筑領(lǐng)域的BIM智能信息場景和基于BIM的決策輔助應用中,本文研究是非常有必要且可行的[10]。

      1 提取BIM模型特征

      BIM是工程設施實體及其特性的完整數(shù)字化表達,旨在實現(xiàn)建筑全生命周期的信息集成和共享。作為貫穿建筑生命周期的信息交互方式,BIM被視為解決建筑行業(yè)“信息孤島”和“信息流失”等問題的有效手段[11]。 IFC是一個開放和標準化的數(shù)據(jù)庫,旨在實現(xiàn)AEC行業(yè)中構(gòu)建信息建模軟件應用程序之間的互操作性,從而能夠在建筑物的整個生命周期實現(xiàn)高效率的信息流轉(zhuǎn)[12]。在各種建筑數(shù)據(jù)模型交換格式中,IFC標準是當今世界各國政府和機構(gòu)采用最廣泛的公共開放數(shù)據(jù)模型[13]。IFC提供了可行的擴展機制和明確的語義信息結(jié)構(gòu),為獲取BIM中的信息奠定了堅實的基礎(chǔ)。本文對IFC中的信息進行分析,提取所需要的模型特征其僅指中文分詞所需要的模型術(shù)語信息。

      IFC只允許直接使用ISO8859-1編碼表十進制32-126表示的字符[14]。任何其他的字符如中文漢字字符,在作為部分字符串值進行數(shù)據(jù)交換之前均需要經(jīng)過編碼。編碼規(guī)則和解碼規(guī)則在ISO10303-21工業(yè)自動化系統(tǒng)集成-產(chǎn)品數(shù)據(jù)表示和交換第21部分中介紹。例如在實際文件中的內(nèi)容編碼“X2987690E8504F79FBX0”字符串對應的解碼內(nèi)容為中文字符“頂部偏移”。其中,字符“S”為基本字母表中的字符,可代表擴展字母表中的相應位置的字符;字符“X”出現(xiàn)在一個字符串中表明下2個十六進制字符應該解釋為一個8位字符;字符“X2”表示之后4個十六進制字符的倍數(shù)序列應該看作雙字節(jié)的編碼表示字符;字符“X4”表示之后的8個十六進制字符的倍數(shù)序列可用全編碼空間的四字節(jié)表示。任何情況下,“X0”用來表示字符串編碼的結(jié)束和一個在基本字母表中直接編碼的返回標志。

      1.1 模型特征信息

      IFC標準定義了眾多的建筑構(gòu)件實體及大量的模型構(gòu)件語義信息,包括建筑內(nèi)的項目信息,構(gòu)件之間的關(guān)聯(lián)關(guān)系和屬性信息,如項目周期、成本等模型基本信息。圖1為北京建筑大學圖書館項目,以IFC結(jié)構(gòu)為例,BIM中包含了很多個性化的模型信息,其中,不僅有對象名稱信息和屬性信息等模型術(shù)語信息,還有空間信息、項目信息、構(gòu)件關(guān)系信息等。例如“圖書館建筑外墻”在這里是指模型中的一個墻構(gòu)件對象的名稱,諸如“底部偏移”、“頂部偏移”等均是模型內(nèi)的屬性名稱,這部分模型特征術(shù)語是增強BIM模型自然語言理解的有效信息。在BIM信息處理過程中,主要是由于模型術(shù)語特征的缺失導致了分詞性能的不佳。因此,本文需要在IFC文件中將BIM模型的特征術(shù)語進行收集并形成模型術(shù)語詞典,將其分為對象名稱、屬性名稱和其他價值。圖1中,對象名稱包括屬性Name的值,而屬性名稱是定義所有IFC對象屬性的名稱列表。由于一些屬性或?qū)傩灾翟贐IM模型中可能是獨有的,這些屬性值屬于第3類。對于IFCSpace對象,在Name屬性被賦予編號之后,其名稱會存儲在LongName屬性中。

      圖1 BIM中的構(gòu)件名稱信息和屬性名稱信息

      IFC標準經(jīng)過數(shù)十年的發(fā)展,截止目前,IFC中擁有超過653個實體和300多個補充數(shù)據(jù)類型以及可擴展的屬性集。圖2描述了IFC標準語義要素以及要素之間的關(guān)聯(lián)關(guān)系,IFC標準定義了大量的建筑構(gòu)件類,包括IfcWall、IfcDoor、IfcBeam、IfcSlab、IfcColumn、IfcStair等,這些構(gòu)件類均繼承于IfcBuildingElement,其是建筑構(gòu)件類的父級;IfcOpeningElement為建筑物的開口要素類,其作用是明確構(gòu)件要素之間的包含關(guān)系,例如IfcWindow與IfcWall就需要IfcOpeningElement來充當中間要素;IfcSpitialStructureElement代表的是IFC的空間結(jié)構(gòu)要素,其繼承類包括IfcProject、IfcSite、IfcBuilding、IfcBuildingStorey、IfcSpace,這些類分別代表了空間結(jié)構(gòu)的不同級別,不同層的空間要素需要IfcRelAggregates連接類進行連接,IfcElement與IfcSpatialStructureElement的連接也同樣需要通過IfcRelAggregates來實現(xiàn)。在buildingSMART發(fā)布的IFC 4.0說明文檔[15]中,表1給出了幾條定義,為本文所需要的BIM模型特征信息。

      1.2 提取模型特征信息

      通過1.1節(jié)對BIM模型特征的定義,本文對IFC文件進行分析,IFC文件結(jié)構(gòu)如圖3所示。在IFC標準中,IfcRoot是所有實體類定義的最抽象的根類。IfcRoot的第3個參數(shù)即為Name屬性的值,換言之,第3個參數(shù)即為IFC實例的對象名稱。圖3展示了編號為#21134的IFCSpace實例。其中,第1個參數(shù)“3TW89BcuP5$PFoInu5k$Jg”是該實例的GUID,第2個參數(shù)“#33”定義了#21134的所有權(quán)信息,第3個參數(shù)“202”即#21134的名稱。顯然,提取給定IFC實例的Name屬性是可行的。

      LongName屬性僅在具有專業(yè)名稱的類中定義。例如在IfcSpatialStructureElement中,其表示空間名稱的全稱,如圖3所示,IfcSpace實例#21134作為IfcSpatialStructureElement的子類,第8個參數(shù)為“X28D705ECAX0”,解碼后為“走廊”即為LongName的值。

      IFC屬性主要由IfcProperty,IfcExtended Properties和IfcPropertyEnumeration等實例來描述。屬性名是IfcProperty,IfcExtendedProperties和IfcPropertyEnumeration中的第一個屬性。因此,可以直接從IfcProperty,IfcExtendedProperties和IfcPropertyEnumeration實例中的第一個屬性的值獲得屬性名。以IfcPropertySingleValue #21261為實例。IfcPropertySingleValue類是IfcProperty的子類。第一個屬性的值是“X2987690E8504F79FBX0”,解碼后是“頂部偏移”,其是IfcSpace實例#21134的屬性名之一。

      圖2 IFC標準語義要素

      表1 IFC 4.0中定義的模型信息

      圖3 IFC文件中的模型特征

      表2列出了BIM模型專有詞匯表需要收集的IFC實例屬性值,其中包括IFC類型,該類型需要提取的屬性名稱,以及待提取參數(shù)的位置和參數(shù)的信息。算法1總結(jié)了BIM模型特征提取的整個過程。假設一個IFC文件有||個IFC實例,IFC標準定義了個類,可以計算出算法1的時間復雜度為(× ||)。

      算法1. BIM模型特征提取

      輸入:IFC file

      輸出:BIM特征詞典D

      1. function BIMDicExtract():

      2. BIM dictionary D = {}

      3. for each instancein:

      4.class of

      5. ifis a class or subclass of IfcRoot:

      6.= value of 3rdparameter

      7. D = D∪ {}

      8. end if

      9. ifis a class or subclass of IfcSpatialElement:

      10.= value of 8thparameter

      11. D = D∪ {}

      12. end if

      13. ifis a class or subclass of IfcProperty

      or IfcExtendedProperties

      or IfcPropertyEnumeration:

      14.= value of 1stparameter

      15. D = D ∪ {}

      16. end if

      17. end for

      18. Remove empty values from D.

      19. returnD

      表2 BIM模型特征提取參數(shù)

      2 訓練BIM自適應分詞模型

      中文分詞是將中文文本(漢字序列)分割成單詞的任務,作為NLP領(lǐng)域中文信息處理的基礎(chǔ)性工作,在搜索引擎、文本分類、自動摘要等任務上均發(fā)揮重要作用。自從XUE[16]將中文分詞任務抽象成序列標注問題以來,CRF成為了統(tǒng)計機器學習方法中的主流[17]。當前,以卷積神經(jīng)網(wǎng)絡(convolutionalneuralnetwork,CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrentneuralnetwork,RNN)、長短時記憶網(wǎng)絡(short - and long-term memory networks, LSTM)等深度學習模型在NLP任務上的性能不斷提升,受限于訓練資源和代碼遷移等客觀條件,本文采用了CRF結(jié)合特征詞典的方法訓練自適應分詞模型。

      2.1 訓練基礎(chǔ)分詞模型

      CRF在建模時考慮了數(shù)據(jù)的內(nèi)容信息和數(shù)據(jù)標簽之間的變化信息,其相關(guān)模型在基于統(tǒng)計機器學習的NLP任務中取得了較好的結(jié)果[18]。在基于字標注的序列標注問題中,句子中的每個字符可根據(jù)其在詞中的位置進行分類,在當前使用最廣泛的4-tag標記法中,共分為,,,4類。其中,代表該字符是在一個詞的開始;表示在一個詞的中間位置;表示在一個詞的結(jié)束位置;表示該字符可以獨立地構(gòu)成一個詞。如圖4所示即一個中文分詞序列標注示例。

      圖4 中文分詞序列標注示例

      其中,為標注語料的取值;為字狀態(tài)的取值;為特征函數(shù);為對應的權(quán)值;()為標準化因子,是所有可能的狀態(tài)序列之和,即

      在本文中CRF中文分詞模型所使用的基本特征見表3。其中下標代表著距離當前字符的相對位置,例如1表示當前字符的下一個字符。(0,1)表示0和1是否為2個完全一樣的字符,(C)表示字符C的類型。

      表3 CRF中所使用的基本特征

      2.2 分詞自適應性的實現(xiàn)

      一直以來,統(tǒng)計中文分詞都面臨著專業(yè)領(lǐng)域適應性的問題,這是因為在訓練語料中缺乏專業(yè)領(lǐng)域特征所導致的[19]。在BIM模型中,許多空間和構(gòu)件的屬性信息是項目中所獨有的,同時由于這些特征過于分散,難以形成大規(guī)模的標注語料,因此,本文將BIM模型特征提取成模型特征詞典,采用將術(shù)語相關(guān)特征標注后加入訓練語料重新訓練分詞模型,通過將術(shù)語特征融入統(tǒng)計中文分詞模型的方法,提升分詞模型的適應性。在本文實驗中發(fā)現(xiàn),融入術(shù)語特征后,模型對于詞的分割位置表現(xiàn)較好,然而對于較長的術(shù)語則表現(xiàn)不佳,因此,本文在分詞流程中增加了利用最大匹配方法來進行合并分詞結(jié)果的環(huán)節(jié),其自適應分詞優(yōu)化流程如圖5所示。

      圖5 BIM分詞優(yōu)化流程

      在中文分詞中,首先需提取原始自然語言的序列特征,由CRF分詞模型進行序列標注,得到初始序列*。然而,由于缺少BIM模型特征,原始語料訓練的分詞模型得到的序列*在模型術(shù)語上面的正確性還不足以滿足BIM應用的需要。因此,需要利用BIM模型征調(diào)整序列標注,通過將詞典特征標注后加入訓練語料訓練模型可以將術(shù)語特征有效地應用到標注調(diào)整中,對于將一個術(shù)語標注成2個詞語的情況,最大匹配法可以將其合并為正確的術(shù)語。本文最大匹配方法只會從詞的分割處進行合并,不會將CRF標注為一個詞的結(jié)果重新切分為2部分。圖6展示了從原始CRF模型生成的序列*,在通過將術(shù)語特征詞典標注后加入訓練語料中得到的CRF分詞模型預測生成標注序列的過程。如圖6中“五層西南強電間的雙擊雙控開關(guān)”,由于缺少BIM模型特征,基礎(chǔ)分詞模型將其切分成了“五層”、“西南”、“強電間”、 “的”、“雙擊”、“雙控”、“開關(guān)”等詞,在使用添加有模型術(shù)語特征的自適應分詞模型之后,“西南”和“強電間”融合成為“西南強電間”,“雙擊”、“雙控”、“開關(guān)”融合成為“雙擊雙控開關(guān)”,其中“西南強電間”是BIM模型中的空間名稱,“雙擊雙控開關(guān)”是BIM模型中的構(gòu)件名稱,兩者均是從BIM模型中提取的模型術(shù)語。

      圖6 從原始序列y*到標注序列y

      3 實 驗

      為了驗證本文所提方法的有效性,采用SIGHAN CWS BAKEOFF 2005中提供的PKU標注語料作為訓練語料訓練基礎(chǔ)分詞模型,建筑領(lǐng)域術(shù)語特征使用了搜狗(https://pinyin.sogou.com/dict/)整理的建筑工程領(lǐng)域術(shù)語詞典,然后從中華建筑工程管理網(wǎng)(http://www.ctnoc.com/)抓取的建筑領(lǐng)域文章人工標注后建立的建筑領(lǐng)域測試集和北京建筑大學圖書館的BIM模型(圖7,1.22 GB)及其設備安裝點位表數(shù)據(jù)構(gòu)成的測試集進行了不同的對照實驗。本文實驗部分采用CRF++工具包(https://taku910.github.io/crfpp/)進行訓練和標注,其中實驗結(jié)果部分采用SIGHAN 2005中所給出的評價程序進行評價。

      圖7 北京建筑大學圖書館BIM模型

      3.1 實驗設置

      3.1.1 評價指標

      分詞性能的測試標準主要分為準確率、召回率和F-measure值,分別用,,表示。其中,準確率表示分詞模型分詞的準確程度;召回率也稱為查全率,表示分詞模型切分正確的詞占正確結(jié)果的比率;F-measure值綜合反映分詞模型的整體指標,即

      3.1.2 數(shù)據(jù)測試集

      (1) 建筑領(lǐng)域測試集。在建筑信息領(lǐng)域的中文分詞研究中,沒有公開的測評語料庫。因此,本文抓取了中國建筑施工技術(shù)管理網(wǎng)上的1 300篇文章用作構(gòu)建建筑領(lǐng)域測評語料。這些文章中包含了大量建筑工程領(lǐng)域的術(shù)語和概念,從中選取了3 200句語料組成建筑領(lǐng)域語料測試集。

      (2) BIM模型測試集。建筑設備安裝點位表即工程項目中建筑設備的具體安裝信息,包括設備名稱、編號和安裝位置,能有效地提供對應BIM模型中的空間和設備信息,可用作測試中文分詞在BIM模型上的測試數(shù)據(jù)集。本文采用的北京建筑大學圖書館設備點位表共包含1 193項設備安裝信息(設備類型和所在位置),表4為建筑消防設備點位表。

      3.1.3 實驗設計

      CRF-Original為原始語料訓練出來的基礎(chǔ)分詞模型;CRF-Domain為加入建筑領(lǐng)域術(shù)語詞典后的分詞模型;CRF-BIM為加入BIM模型特征詞典后的分詞模型;CRF-Extern為融合BIM模型特征詞典和領(lǐng)域術(shù)語詞典之后的分詞模型。

      表4 建筑消防設備安裝點位表示例

      實驗1.在建筑領(lǐng)域測試集上,分別驗證CRF-Original,CRF-Domain,CRF-BIM和CRF-Extern的分詞性能,驗證領(lǐng)域術(shù)語特征和BIM模型特征對于分詞模型在建筑領(lǐng)域文本上性能提升的有效性。

      實驗2.在BIM模型測試集上,分別驗證CRF-Original,CRF-Domain,CRF-BIM和CRF-Extern的分詞性能,驗證模型特征對于BIM模型分詞性能提升的有效性。

      3.2 實驗結(jié)果及分析

      表5給出了在建筑領(lǐng)域測試集上的測試結(jié)果,可以看出,與CRF-Original相比,CRF-Extern的準確率提高了2.66%,召回率降低了0.72%,F(xiàn)-measure值提升了1.26%。其中,在只添加BIM模型特征時,準確率提升了0.12%,召回率提升了0.07%,F(xiàn)-measure提升了0.10%,證明了添加BIM模型特征對于提升建筑領(lǐng)域的分詞性能是有效的。

      表5 建筑領(lǐng)域測試集測試結(jié)果(%)

      表6為在BIM模型測試集上的測試結(jié)果,對比CRF-Original和CRF-Domain的測試結(jié)果可以看出,F(xiàn)-measure在提升后僅為55.43%,該實驗結(jié)果說明僅僅添加建筑領(lǐng)域特征對于BIM模型分詞性能提升極有限。對比CRF-Original,CRF-Domain和CRF-Extern可以看出,加入BIM模型特征后,分詞性能有了很大的提升。與僅加入建筑領(lǐng)域術(shù)語特征相比,準確率從46.97%提升到87.74%,召回率從67.60%提升到94.77%,F(xiàn)-measure從55.43%提升到91.12%,提升了35.69%,表示本文方法能夠有效解決BIM應用中模型術(shù)語識別不佳的問題。其中,存在的一些切分錯誤主要是由于設備點位表中的術(shù)語信息和BIM模型文件中的術(shù)語信息不同導致的。

      表6 BIM模型測試集測試結(jié)果(%)

      從以上實驗可以看出,①向統(tǒng)計分詞模型中添加詞典特征可以有效提升中文分詞在建筑領(lǐng)域的分詞性能;②在建筑信息領(lǐng)域的BIM應用中,僅僅添加領(lǐng)域術(shù)語特征不足以有效提升中文分詞在BIM模型自適應性上的需要;③通過將模型術(shù)語特征和領(lǐng)域術(shù)語特征一起融入中文分詞模型中,可以有效提高中文分詞在建筑領(lǐng)域BIM應用中的自適應性。

      4 總結(jié)和展望

      本文通過分析存儲BIM信息的IFC文件數(shù)據(jù),從中提取BIM模型相關(guān)的術(shù)語特征詞典,然后通過將BIM模型特征詞典配合領(lǐng)域術(shù)語特征添加進入中文分詞模型的方式來提升中文分詞在建筑領(lǐng)域的自適應性。由于BIM是當前建筑領(lǐng)域信息技術(shù)應用的主要方案,當面對不同的BIM模型時,只需要提取其模型特征詞典加入到中文分詞模型中即可。實驗表明,本文方法有效提高了中文分詞在建筑領(lǐng)域BIM應用中的自適應性。

      本文方法雖有效提高了中文分詞在BIM應用中的自適應性,然而術(shù)語信息仍有歧義問題有待解決,下一步將考慮引入國際字典框架(international dictionary framework,IFD)來解決這一問題。

      [1] ZHANG J, EL-GOHARY N M. Automated extraction of information from building information models into a semantic logic-based representation[C]//2015 International Workshop on Computing in Civil Engineering. Reston: American Society of Civil Engineers, 2015: 173-180.

      [2] KANG T W, CHOI H S. BIM-based data mining method considering data integration and function extension[J]. KSCE Journal of Civil Engineering, 2018, 22(5): 1523-1534.

      [3] SANTOS R, COSTA A A, GRILO A. Bibliometric analysis and review of Building Information Modelling literature published between 2005 and 2015[J]. Automation in Construction, 2017, 80: 118-136.

      [4] PEZESHKI Z, IVARI S A S. Applications of BIM: a brief review and future outline[J]. Archives of Computational Methods in Engineering, 2018, 25(2): 273-312.

      [5] ZHOU X P, ZHAO J C, WANG J, et al. Towards product-level parallel computing of large-scale building information modeling data using graph theory[J]. Building and Environment, 2020, 169: 106558.

      [6] LIN J R, HU Z Z, ZHANG J P, et al. A natural-language- based approach to intelligent data retrieval and representation for cloud BIM[J]. Computer-Aided Civil and Infrastructure Engineering, 2016, 31(1): 18-33.

      [7] WU S F, SHEN Q Y, DENG Y C, et al. Natural-language-based intelligent retrieval engine for BIM object database[J]. Computers in Industry, 2019, 108: 73-88.

      [8] LIU H, LIU Y S, PAUWELS P, et al. Enhanced explicit semantic analysis for product model retrieval in construction industry[J]. IEEE Transactions on Industrial Informatics, 2017, 13(6): 3361-3369.

      [9] XIE Q S, ZHOU X P, WANG J, et al. Matching real-world facilities to building information modeling data using natural language processing[J]. IEEE Access, 2019, 7: 119465-119475.

      [10] 王煜, 鄧暉, 李曉瑤, 等. 自然語言處理技術(shù)在建筑工程中的應用研究綜述[J]. 圖學學報, 2020, 41(4): 501-511. WANG Y, DENG H, LI X Y, et al. A review of natural language processing application in construction engineering[J]. Journal of Graphics, 2020, 41(4): 501-511 (in Chinese).

      [11] SUCCAR B. Building information modelling framework: a research and delivery foundation for industry stakeholders[J]. Automation in Construction, 2009, 18(3): 357-375.

      [12] LAAKSO M, KIVINIEMI A O. The IFC standard: a review of history, development, and standardization, information technology[J]. Electronic Journal of Information Technology in Construction, 2012, 17(9): 134-161.

      [13] AZZRAN S A, IBRAHIM K F, TAH J H M, et al. Assessment of open BIM standards for facilities management[M]// Innovative Production and Construction. WORLD SCIENTIFIC, 2019: 247-259.

      [14] NEPAL M P, STAUB-FRENCH S, POTTINGER R, et al. Ontology-based feature modeling for construction information extraction from a building information model[J]. Journal of Computing in Civil Engineering, 2013, 27(5): 555-569.

      [15] BuildingSMART. IFC4說明文檔,BIM時代的數(shù)據(jù)標 準[EB/OL]. (2013-05-31) [2020-08-05]. http://www.vfkjsd.cn/ ifc/ifc4/index.htm.

      [16] XUE N W. Chinese word segmentation as character tagging[J]. Computational Linguistics & Chinese Language Processing, 2003, 8(1): 29-47.

      [17] 黃昌寧, 趙海. 中文分詞十年回顧[J]. 中文信息學報, 2007, 21(3): 8-19. HUANG C N, ZHAO H. Chinese word segmentation: a decade review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19 (in Chinese).

      [18] 鄧麗萍, 羅智勇. 基于半監(jiān)督CRF的跨領(lǐng)域中文分詞[J]. 中文信息學報, 2017, 31(4): 9-19. DENG L P, LUO Z Y. Domain adaptation of Chinese word segmentation on semi-supervised conditional random fields[J]. Journal of Chinese Information Processing, 2017, 31(4): 9-19 (in Chinese).

      [19] 張梅山, 鄧知龍, 車萬翔, 等. 統(tǒng)計與詞典相結(jié)合的領(lǐng)域自適應中文分詞[J]. 中文信息學報, 2012, 26(2): 8-12. ZHANG M S, DENG Z L, CHE W X, et al. Combining statistical model and dictionary for domain adaption of Chinese word segmentation[J]. Journal of Chinese Information Processing, 2012, 26(2): 8-12 (in Chinese).

      A model adaptive method for Chinese word segmentation using IFC-based building information model

      ZHANG Xin1, ZHOU Xiao-ping1,2, WANG Jia1,2

      (1. School of Electrical and Information Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China;2. Beijing Key Laboratory of Intelligent Processing for Building Big Data, Beijing 102616, China)

      The building information model (BIM) has become an effective solution to information technology applications in the construction industry. With the continuous increase of BIM data, natural language processing (NLP) has been introduced into BIM applications in many studies to effectively utilize BIM data. In the Chinese language environment, due to the absence of terminology features in the building field, Chinese word segmentation cannot be efficiently adapted in BIM application. By analyzing the currently popular industry foundation class (IFC) files in BIM data format, this study extracted BIM model features from IFC files and added them together with architectural terminology characteristics into the statistical word segmentation model, thus improving the adaptability of Chinese word segmentation in the building field. The experimental results show that compared with the original conditional random fields (CRF)based word segmentation model, on the domain test set, the F-measure increased by 1.26%, and F-measure still increased by 0.10% with BIM model features added alone, indicating that appending BIM model features to the segmentation model can effectively improve the performance of Chinese word segmentation in the building field. Meanwhile, on the model test set, compared with the case of architectural terminology characteristics being appended alone, after BIM model features were appended, the precision rate increased from 46.97% to 87.74%, the recall rate from 67.60% to 94.77%, and the F-measure from 55.43% to 91.12% (by 35.69%), thereby effectively boosting the BIM model adaptability of Chinese word segmentation in the building field.

      building information model; industry foundation classes; Chinese word segmentation; model adaptation; building information extraction

      TP 391

      10.11996/JG.j.2095-302X.2021020316

      A

      2095-302X(2021)02-0316-09

      2020-09-24;

      24 September,2020;

      2020-10-30

      30 October,2020

      國家自然科學基金項目(71601013);北京市自然科學基金項目(4202017);北京市青年拔尖人才培育項目(CIT&TCD201904050);北京建筑大學青年英才項目;北京建筑大學市屬高?;究蒲袠I(yè)務費專項資金(X20039)

      National Natural Science Foundation of China (71601013); Beijing Municipal Natural Science Foundation (4202017); Beijing Youth Talent Training Project (CIT&TCD201904050); Young Elite of Beijing University of Civil Engineering and Architecture; The Fundamental Research Funds for Beijing University of Civil Engineering and Architecture (X20039)

      張 鑫(1996-),男,陜西渭南人,碩士研究生。主要研究方向為建筑信息模型、自然語言處理。E-mail:happyirick@gmail.com

      ZHANG Xin (1996-), male, master student. His main research interests cover BIM, NLP. E-mail:happyirick@gmail.com

      周小平(1985-),男,福建寧德人,副教授,博士,碩士生導師。主要研究方向為大數(shù)據(jù)挖掘、人工智能和建筑信息模型。E-mail:lukefchou@gmail.com

      ZHOU Xiao-ping (1985–), male, associate professor, Ph.D. His main research interests cover big data mining, artificial intelligence and BIM. E-mail:lukefchou@gmail.com

      猜你喜歡
      分詞術(shù)語語料
      結(jié)巴分詞在詞云中的應用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      值得重視的分詞的特殊用法
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學實證研究比較:語料類型與收集方法
      高考分詞作狀語考點歸納與疑難解析
      有感于幾個術(shù)語的定名與應用
      從術(shù)語學基本模型的演變看術(shù)語學的發(fā)展趨勢
      論英語不定式和-ing分詞的語義傳承
      外語學刊(2011年3期)2011-01-22 03:42:20
      旌德县| 翁牛特旗| 靖边县| 祁连县| 新宁县| 永康市| 和平县| 集贤县| 新干县| 宜宾市| 彭泽县| 万全县| 马尔康县| 依安县| 彰化县| 平舆县| 新闻| 梧州市| 隆尧县| 黑水县| 新民市| 株洲市| 塔城市| 杭锦后旗| 尉犁县| 迁西县| 松阳县| 饶河县| 峨眉山市| 宁都县| 扶沟县| 广东省| 岑巩县| 夏河县| 综艺| 凤城市| 泉州市| 宜章县| 巴中市| 富蕴县| 大竹县|