第四次工業(yè)革命來(lái)襲,大數(shù)據(jù)成為關(guān)鍵支撐手段,而清華數(shù)為大數(shù)據(jù)軟件??梢酝ㄟ^(guò)高通量時(shí)序數(shù)據(jù)管理,實(shí)現(xiàn)高效的數(shù)據(jù)持久化,實(shí)現(xiàn)面向工業(yè)設(shè)備的數(shù)據(jù)一體化管理。
——清華大學(xué)大數(shù)據(jù)系統(tǒng)軟件國(guó)家工程實(shí)驗(yàn)室總工、副研究員王晨
今天我演講的題目是《工業(yè)大數(shù)據(jù)軟件架構(gòu)及核心構(gòu)件》。大數(shù)據(jù)的重要性不用多言,剛才演講嘉賓的PPT里有一張架構(gòu)圖,也展現(xiàn)了工業(yè)互聯(lián)網(wǎng)大系統(tǒng)。
首先我們看看大數(shù)據(jù)是什么?我們總會(huì)說(shuō)是因?yàn)樗?,所以叫大?shù)據(jù)。以前我們也有很多數(shù)據(jù),通過(guò)PDM系統(tǒng)、MASS數(shù)據(jù)庫(kù)以及ERP數(shù)據(jù)庫(kù)進(jìn)行研發(fā)數(shù)據(jù)的管理。今天為什么叫大數(shù)據(jù)時(shí)代?我們將數(shù)據(jù)領(lǐng)域分成了三個(gè)域,與傳統(tǒng)的做法有所不同。
第一是工業(yè)信息化域。我們有工業(yè)信息化系統(tǒng),將SAE的數(shù)據(jù)放入PDM的系統(tǒng)進(jìn)行存儲(chǔ)與管理,這些數(shù)據(jù)大多數(shù)是非結(jié)構(gòu)化數(shù)據(jù)。
第二是制造域。在制造過(guò)程中,會(huì)產(chǎn)生很多機(jī)器設(shè)備的數(shù)據(jù)。這些數(shù)據(jù)從哪里來(lái)?其實(shí)是從傳感器上來(lái),我們?nèi)ゲ杉诉@些數(shù)據(jù)。這些數(shù)據(jù)以前存儲(chǔ)在哪里?有兩種方式:如果資金充足,可以購(gòu)買實(shí)時(shí)數(shù)據(jù)庫(kù),像電力、冶金、石化等行業(yè),他們本身是工業(yè)信息系統(tǒng)的一部分;但更多的是采用工業(yè)數(shù)據(jù)快速存儲(chǔ)的方式,用來(lái)進(jìn)行數(shù)據(jù)回放和展示。
第三是工業(yè)互聯(lián)網(wǎng)域。如今的數(shù)據(jù)是各種數(shù)據(jù)的融合,包括產(chǎn)業(yè)上下游數(shù)據(jù)、客戶數(shù)據(jù)、環(huán)境數(shù)據(jù)、氣象數(shù)據(jù)等。工業(yè)互聯(lián)網(wǎng)需要跨界,需要工業(yè)化和信息化融合。從數(shù)據(jù)維度看,不同的數(shù)據(jù)在不同的系統(tǒng)里,比如自動(dòng)化數(shù)據(jù)就在自動(dòng)化系統(tǒng)里,如果將這些數(shù)據(jù)放在一起,會(huì)產(chǎn)生什么樣的化學(xué)反應(yīng)呢?這是我們要考慮的第一個(gè)維度。
第二個(gè)維度是什么?我們把邊界之外和邊界之內(nèi)的數(shù)據(jù)放在一起,又會(huì)發(fā)生什么?這是工業(yè)互聯(lián)網(wǎng)的兩化融合,我們把一些小數(shù)據(jù)變成了大數(shù)據(jù),形態(tài)各異。無(wú)論是工業(yè)大數(shù)據(jù)也好,還是工業(yè)互聯(lián)網(wǎng)也好,都要把關(guān)注點(diǎn)放在大數(shù)據(jù)上。我們解讀工業(yè)大數(shù)據(jù)特性的時(shí)候,發(fā)現(xiàn)了不同之處。清華建了一個(gè)中心泵,大概是135個(gè)類別,以CAD數(shù)據(jù)為例,軟件不同則格式不同,不同版本也不一樣。我們認(rèn)為這是非結(jié)構(gòu)化的數(shù)據(jù),但嘗試打開的時(shí)候,發(fā)現(xiàn)里面都是結(jié)構(gòu)化的數(shù)據(jù)。比如仿真數(shù)據(jù),都是一個(gè)個(gè)獨(dú)立的文件,當(dāng)嘗試打開文件的時(shí)候,里面其實(shí)是一些在控制條件下產(chǎn)生的時(shí)間序列,除了各種參數(shù)就是各類三維圖。
其次存在的問(wèn)題是數(shù)據(jù)量大。例如金風(fēng)科技的數(shù)據(jù)量是500GB,而且這些數(shù)據(jù)有一個(gè)明顯的特點(diǎn),就是不會(huì)斷。只要設(shè)備在運(yùn)轉(zhuǎn),就有設(shè)備傳回?cái)?shù)據(jù),所以是一天24小時(shí)不間斷產(chǎn)生數(shù)據(jù)。如果機(jī)械停了,數(shù)據(jù)就會(huì)亂序、斷碼,或者丟失、重傳,相當(dāng)復(fù)雜。
更重要的是數(shù)據(jù)關(guān)聯(lián)性。在我所學(xué)的專業(yè)中,可以用一個(gè)系統(tǒng)將數(shù)據(jù)連接起來(lái)。工業(yè)里的連接很復(fù)雜,比如離散制造業(yè),在一個(gè)制造流程里,用不同的工序去連接,物料的流轉(zhuǎn)是有時(shí)間差異的。在航空航天中,有一種多學(xué)科的映射關(guān)聯(lián)。淘寶推薦的購(gòu)物,跟瀏覽的商品非常相似,但是我們不知道為什么相似。我們要根據(jù)因果分析,找到原因所在。本身工業(yè)設(shè)備的結(jié)構(gòu)設(shè)計(jì)是有機(jī)理的,要利用圖紙去做推斷,因?yàn)槿恕C(jī)、料有很多不確定性。我們依據(jù)一些正向機(jī)理反射出關(guān)聯(lián)關(guān)系,交給業(yè)務(wù)專家來(lái)確定他們之間的因果關(guān)系,從而完成整個(gè)建模過(guò)程。因此工業(yè)大數(shù)據(jù)和我們傳統(tǒng)看到的大數(shù)據(jù)差異是非常大的。
下面講一下智能制造,工業(yè)大數(shù)據(jù)在其中扮演了很關(guān)鍵的技術(shù)角色。智能制造這個(gè)詞從哪里來(lái)?如果鋼板表面不平整,這時(shí)有個(gè)調(diào)整工人,推斷哪個(gè)環(huán)節(jié)出了問(wèn)題,去調(diào)整,這就是迭代過(guò)程。有沒有辦法來(lái)替代這個(gè)人?只有自動(dòng)化可以做到。離散制造業(yè)從業(yè)人員根據(jù)運(yùn)維數(shù)據(jù)去判斷要解決哪種設(shè)備故障問(wèn)題,正向設(shè)計(jì)也是靠人的經(jīng)驗(yàn),靠有限經(jīng)驗(yàn)去猜測(cè)和嘗試很多東西,過(guò)程中完全缺少數(shù)據(jù)的連接。我們最終希望打造一個(gè)數(shù)字孿生的世界,但是這條路很長(zhǎng),如今我們能夠把數(shù)字化做好就已經(jīng)很好了,我們能否走到正向推理模型的那一步,還是一個(gè)未知數(shù)。
清華研發(fā)了數(shù)為大數(shù)據(jù)軟件棧,希望可以通過(guò)自己的技術(shù)來(lái)解決諸多問(wèn)題與挑戰(zhàn),同時(shí)又能很好地與大數(shù)據(jù)生態(tài)做對(duì)接。它與傳統(tǒng)的數(shù)據(jù)庫(kù)相比,要求很快的寫入速度、很強(qiáng)的查詢能力,又要滿足慣性數(shù)據(jù)庫(kù)的能力。為了做出前端采集的一站式方案,我們研發(fā)了數(shù)為大數(shù)據(jù)軟件棧,這成為了中國(guó)高校唯一一個(gè)在Apache的項(xiàng)目,是我與清華的團(tuán)隊(duì)共同做了4年的成果。我們?cè)诙松线M(jìn)行所有文件的存儲(chǔ),并將同樣的文件開放給Hadoop平臺(tái)。我們現(xiàn)在有18項(xiàng)國(guó)內(nèi)授權(quán)專利,發(fā)表了比較高水平的學(xué)術(shù)論文。
很多典型的工業(yè)場(chǎng)景和模式,可以表現(xiàn)成某種具體的形態(tài),比如將故障模式表達(dá)成什么值大于某數(shù)值、什么值小于某數(shù)值,或者將這種故障模式注冊(cè)在流引擎上,把數(shù)據(jù)匹配出來(lái)。我們可以使用類似這樣的數(shù)據(jù),首先從工業(yè)需求出發(fā),再考慮如何用技術(shù)解決相應(yīng)的問(wèn)題。我們現(xiàn)在可以做到每秒600次的寫入速度,查詢速度也很快。我們針對(duì)異構(gòu)數(shù)據(jù)做了通用關(guān)聯(lián)方案,對(duì)底層幾種數(shù)據(jù)進(jìn)行了連接,其實(shí)所有數(shù)據(jù)的關(guān)聯(lián)都可以通過(guò)一體化的查詢模式來(lái)完成。
(根據(jù)演講內(nèi)容整理,未經(jīng)本人審核)