◆吉姆?杜亞特/ 文
編者按
在第3屆世界質(zhì)量論壇暨第13屆上海國際質(zhì)量研討會(huì)上,美國質(zhì)量學(xué)會(huì)資深會(huì)員、大數(shù)據(jù)方面的專家小組成員吉姆?杜亞特發(fā)表了題為《大數(shù)據(jù)、數(shù)據(jù)科學(xué)和物聯(lián)網(wǎng)》的演講,剖析了管理層對質(zhì)量管理和數(shù)據(jù)科學(xué)的一些誤區(qū),分享了不同類型數(shù)據(jù)專家、質(zhì)量工作者提升數(shù)據(jù)應(yīng)用效率的關(guān)鍵作用。本文根據(jù)現(xiàn)場翻譯速記整理。
說到大數(shù)據(jù),通常會(huì)提到速度、體量和多樣性。速度包括流程速度和數(shù)據(jù)速度;體量包括生產(chǎn)體量和數(shù)據(jù)體量;多樣性包括變量的多樣性、數(shù)據(jù)類型的多樣性,以及最重要的數(shù)據(jù)位置的多樣性。我們必須知道數(shù)據(jù)在什么地方,然后設(shè)法采集數(shù)據(jù),才能夠進(jìn)行分析。
為什么要說大數(shù)據(jù)?大數(shù)據(jù)可以讓我們在進(jìn)行有效分析時(shí)不依賴取樣或樣本質(zhì)量,而使用來自連續(xù)或高速離散過程的實(shí)時(shí)數(shù)據(jù)流。這里面涉及到IT技術(shù)和OT技術(shù),IT在數(shù)據(jù)領(lǐng)域更多的是指數(shù)據(jù)管理技術(shù),而OT則傾向于數(shù)據(jù)運(yùn)營分析。
另外就是查找DOE(試驗(yàn)設(shè)計(jì))和控制圖的最佳變量。我們要找到最佳變量,用于試驗(yàn)設(shè)計(jì),更好地控制質(zhì)量。其實(shí),變量的數(shù)量非常多,如果說一個(gè)變量對分析或者數(shù)據(jù)的質(zhì)量沒有太大影響,就可以把這個(gè)變量省略掉,以便留下最好的、真正會(huì)帶來重大影響的變量。
最后,基于大數(shù)據(jù)應(yīng)用高級分析學(xué),比如在企業(yè)信息數(shù)據(jù)方面詳盡的收集及學(xué)習(xí),可以幫助企業(yè)做出明智的決策。機(jī)器學(xué)習(xí)其實(shí)是可以歸納到高級分析學(xué)范疇的。2017年,我出版了一本書《Data Disruption》,把數(shù)據(jù)分為非活躍數(shù)據(jù)和活躍數(shù)據(jù)。所謂非活躍數(shù)據(jù),指的是存放在數(shù)據(jù)倉庫里的數(shù)據(jù),而活躍數(shù)據(jù)指的是在事件發(fā)生時(shí)實(shí)時(shí)產(chǎn)生的數(shù)據(jù),比如從傳感器或流程中獲得的實(shí)時(shí)數(shù)據(jù)。
管理層相信什么?現(xiàn)在管理層相信的那些東西并不有利于數(shù)據(jù)分析。比如,管理層認(rèn)為所有的運(yùn)行數(shù)據(jù)應(yīng)該歸口于IT/OT部門來管理,而不是由質(zhì)量工作者來管理。有時(shí),他們還會(huì)霸道地認(rèn)為,數(shù)據(jù)專家就是指IT/OT人員,但事實(shí)上,數(shù)據(jù)專家可以存在于各種崗位中。
有一種機(jī)構(gòu)叫卓越分析中心(ACE)。那里集結(jié)了所有的數(shù)據(jù)專家,可以解答任何關(guān)于數(shù)據(jù)和數(shù)據(jù)分析方面的問題,比如業(yè)務(wù)流程、產(chǎn)品性能、數(shù)據(jù)來源、分析工作的目的、分析過程等。從事這方面工作的人,非常重要。但管理層認(rèn)為,卓越分析中心可以獨(dú)立于流程和產(chǎn)品之外;只需要它來處理復(fù)雜的問題,日常工作和簡單分析并不需要它來做。這些看法都不對,顯示出管理層對質(zhì)量工作并不了解。
SME,在這里并不是指中小企業(yè),而是精通某一領(lǐng)域的行業(yè)專家,比如在工程、質(zhì)量、營銷等方面的專業(yè)人士。管理層通常認(rèn)為,管理并不需要他們的參與。事實(shí)上,質(zhì)量工作者了解產(chǎn)品、流程、工藝等,他們不應(yīng)該像IT人員那樣單獨(dú)地坐在某間辦公室里。
管理層的思維方式,就好像隔著一道墻把一些問題扔出來給IT/OT人員,然后坐等答復(fù)。IT/OT人員對計(jì)算機(jī)、信息技術(shù)非常在行,但并不像質(zhì)量工作者那樣善于分析,所以很多時(shí)候把一些要求扔給他們,是勉為其難。所以一定要改變這種“隔著墻把問題拋出來”的方式,各個(gè)相關(guān)部門的行業(yè)專家或同事集中在一起討論。
把想象力(Imagination)和分析(Analytics)結(jié)合在一起,我創(chuàng)造了一個(gè)新詞叫Imagilytics。首先,要想象一下怎么使用數(shù)據(jù)、怎么幫助其他部門的人。如果其他部門有一個(gè)流程或者一個(gè)工藝,它必須保持穩(wěn)定,你是不是能夠幫助他們進(jìn)行監(jiān)測,從而實(shí)現(xiàn)穩(wěn)定流程的目的。其實(shí),質(zhì)量工作者能做的事情越多,就越能向管理層證明其價(jià)值。
數(shù)據(jù)專家通常有四類。
第一類數(shù)據(jù)專家是計(jì)算機(jī)技術(shù)專家,他們了解什么是云計(jì)算,通曉這些專用術(shù)語和技術(shù),可以幫質(zhì)量工作者收集數(shù)據(jù),進(jìn)行格式化或數(shù)據(jù)整理等,確保數(shù)據(jù)可以用于分析。
第二類數(shù)據(jù)專家是統(tǒng)計(jì)師和高級分析師,他們擁有統(tǒng)計(jì)訓(xùn)練或高級分析的行業(yè)背景,可以進(jìn)行非常詳細(xì)的統(tǒng)計(jì)工作,在開發(fā)預(yù)測分析和預(yù)測模型領(lǐng)域擁有專長,能夠幫助企業(yè)建立統(tǒng)計(jì)分析模型。
第三類數(shù)據(jù)專家是擅長應(yīng)用分析的業(yè)務(wù)分析師,俗稱商業(yè)分析專家。他們熟悉模型或者其他分析手段,能夠把數(shù)據(jù)導(dǎo)入第二類數(shù)據(jù)專家開發(fā)的模型或者軟件中,應(yīng)用于企業(yè)內(nèi)部進(jìn)行業(yè)務(wù)分析,幫企業(yè)做出更好的決策。
第四類數(shù)據(jù)專家的主要作用是確保溝通的順暢。他們更像一位守門員,確保此前的數(shù)據(jù)工作滿足公司需求,確保報(bào)告內(nèi)容的準(zhǔn)確,確保溝通渠道的暢通,并以管理者習(xí)慣的方式做出分析說明,幫助管理者做出明智的決策。
我有一篇文章叫《如何打造一支數(shù)據(jù)科學(xué)夢幻團(tuán)隊(duì)》,發(fā)表在福布斯雜志,里面詳細(xì)闡明了這些細(xì)節(jié)。
通過四大分類可以知道,什么樣的數(shù)據(jù)專家適合做什么樣的工作。其實(shí),這四類數(shù)據(jù)專家都需要相互溝通,雖然每個(gè)人都有自己的職責(zé)。對于質(zhì)量工作者而言,你可以和四類專家交朋友或成為四類專家中的任意一種。你不一定要成為一個(gè)IT專業(yè)人員,如果有統(tǒng)計(jì)分析的專業(yè)背景,你可以成為第二類數(shù)據(jù)專家;如果你有相應(yīng)背景或工作經(jīng)歷的話,也可以成為第三類數(shù)據(jù)專家。
每一類數(shù)據(jù)專家都有自己的專業(yè)領(lǐng)域,但領(lǐng)域會(huì)有重合。第一、二類數(shù)據(jù)專家的交叉領(lǐng)域包括:驗(yàn)證數(shù)據(jù)策略;識(shí)別數(shù)據(jù);收集數(shù)據(jù)。第三、四類專家的交叉領(lǐng)域包括:報(bào)告驗(yàn)證;報(bào)告解讀。而對于所有數(shù)據(jù)專家而言,最關(guān)鍵的一項(xiàng)保證便是獲取可使用的數(shù)據(jù)。我經(jīng)常聽到有人抱怨說“我們有數(shù)據(jù),但沒有辦法使用數(shù)據(jù)”,如果出現(xiàn)這種情況,那么你需要與第一類數(shù)據(jù)專家合作,他們能幫你對數(shù)據(jù)進(jìn)行預(yù)處理。
工程師主要進(jìn)行數(shù)據(jù)的創(chuàng)建和收集,他們需要了解生產(chǎn)過程的詳細(xì)信息,比如機(jī)器、材料、操作參數(shù)等。IT/OT人員,也就是第一類數(shù)據(jù)專家主要進(jìn)行數(shù)據(jù)的存取、整理、格式化等,確保這些數(shù)據(jù)能夠在其他語言環(huán)境下正確使用。他們需要通曉技術(shù),比如機(jī)器人、感應(yīng)器、軟件、人工智能、數(shù)據(jù)結(jié)構(gòu)等。第二、三、四類數(shù)據(jù)專家或數(shù)據(jù)使用者主要應(yīng)用工具、先進(jìn)方法進(jìn)對高質(zhì)量的數(shù)據(jù)進(jìn)行解讀、分析,他們需要了解產(chǎn)品的詳細(xì)信息、規(guī)格、功能或性能,以及客戶期望。這三類專家也需要通力合作,確保企業(yè)能夠根據(jù)最終數(shù)據(jù)做出好的決斷。
這些數(shù)據(jù)專家需要具備什么樣的素質(zhì),又如何和他們打交道呢?首先,他們需要有很好的溝通技巧,要不斷學(xué)習(xí)專業(yè)知識(shí)、掌握基礎(chǔ)技能。其次,雖然有些數(shù)據(jù)專家對于數(shù)據(jù)會(huì)很保守或過分保護(hù),但作為管理者要尊重這一特點(diǎn),要學(xué)會(huì)和數(shù)據(jù)專家交朋友。
第二類數(shù)據(jù)專家屬于分析型的,非常重要。他們通常需要接受高級分析方面的培訓(xùn)(至少學(xué)習(xí)術(shù)語),尤其是需要有想象力,也就是我前面說到的“Imagilytics”,才能幫助別人創(chuàng)造更多價(jià)值。第三類數(shù)據(jù)專家通常需要將統(tǒng)計(jì)分析應(yīng)用于企業(yè)的業(yè)務(wù)之中,同樣需要“Imagilytics”,一般是擅長使用數(shù)據(jù)的質(zhì)量從業(yè)人員。與第四類數(shù)據(jù)專家合作互動(dòng),往往可以獲得“真相”,幫助你做出明智的決定。
美國的著名作家馬克?吐溫說:“數(shù)據(jù)其實(shí)就是垃圾。在收集它之前,你最好知道準(zhǔn)備用它干什么?!?/p>
大數(shù)據(jù)需要進(jìn)行適當(dāng)?shù)恼?、存?chǔ)、格式化和訪問。其實(shí),數(shù)據(jù)庫就像一個(gè)垃圾場,不管干凈也好、混亂也罷,垃圾場就在那里。比如,excel數(shù)據(jù)表就像是在堆肥,如果放的時(shí)間太久就會(huì)發(fā)臭。很多數(shù)據(jù)的時(shí)效性很短,無法長時(shí)間使用,堆積在那里過一段時(shí)間后就必然變質(zhì)。因此我們需要有組織的垃圾填埋場或回收中心,將數(shù)據(jù)垃圾過濾,進(jìn)行可回收利用,使之成為具有價(jià)值的數(shù)據(jù)倉庫或數(shù)據(jù)湖。如果沒有辦法拿到處理過的數(shù)據(jù),就沒辦法進(jìn)行后續(xù)分析。
我們都有過類似經(jīng)歷:用一張表格來定義“誰是我們的客戶”“他們拿到了什么產(chǎn)品”“產(chǎn)品的基本規(guī)格”“流程有哪些”,然后還要確認(rèn)“我們需要什么樣的數(shù)據(jù)”“數(shù)據(jù)的來源是什么”“能否獲得這些數(shù)據(jù)”等。這樣一張表格,能夠幫助我們更好地和別人溝通。譬如你可以跟IT人員說“我沒有拿到想要的數(shù)據(jù)”,這張表格可以很清楚地向他展示你需要什么樣的數(shù)據(jù)以及是否能使用這些數(shù)據(jù)。
再看一下機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)能夠生成一些由機(jī)器產(chǎn)生的原始數(shù)據(jù),而且可以存儲(chǔ)預(yù)測模型,將數(shù)據(jù)進(jìn)行導(dǎo)入和分析,了解或預(yù)測結(jié)果。也就是說,可以在流程的邊緣端控制芯片上進(jìn)行數(shù)據(jù)的處理。
處理數(shù)據(jù)時(shí)有一些非常有用的新工具,比如預(yù)測性模型、文本分析、聚類分析、網(wǎng)絡(luò)圖、視覺系統(tǒng)等。網(wǎng)絡(luò)圖要比帕累托圖更管用,帕累托圖通常只被用來分析頻率,而網(wǎng)絡(luò)圖除了分析頻率之外還可以分析時(shí)間和成本。
預(yù)測性模型會(huì)用到靜態(tài)數(shù)據(jù),通過靜態(tài)數(shù)據(jù)創(chuàng)造出動(dòng)態(tài)數(shù)據(jù),然后在分析邊緣進(jìn)行使用和部署。大家知道汽車用的引擎里有芯片控制汽油流量,它是怎么做到的呢?通過模型來控制引擎中的汽油流動(dòng)。這一過程需要有數(shù)據(jù),對模型中使用的程序進(jìn)行最優(yōu)化,然后嵌入到芯片中。創(chuàng)建階段,在數(shù)據(jù)倉庫中訪問“靜態(tài)數(shù)據(jù)”,端到端使用所有可用變量,然后建模分析;采用階段,使用保留集和測試數(shù)據(jù)完善模型,從實(shí)時(shí)數(shù)據(jù)中確定關(guān)鍵變量,最終確定最佳預(yù)測模型;部署階段,將模型置于實(shí)時(shí)環(huán)境中進(jìn)行驗(yàn)證和測試,將模型“刻錄”到控制芯片中進(jìn)行部署。
再來看預(yù)測模型的另外一個(gè)應(yīng)用。比如有一種平底鍋,它的涂層非常容易剝落。碰到這個(gè)問題,很多廠商仍習(xí)慣于從最顯而易見的涂層工藝出發(fā)。如果那樣的話,首先要研究涂層的工藝流程,通過魚骨圖查找涂層剝落的原因,然后做實(shí)驗(yàn)設(shè)計(jì)(DOE),確認(rèn)關(guān)鍵變量并提出更改建議。這種方法確實(shí)可以在一定程度上降低涂層剝落發(fā)生的概率,但不能徹底解決問題,因?yàn)榻鉀Q方案只是從涂層的角度出發(fā)。如果查看整個(gè)生產(chǎn)流程的話,可以發(fā)現(xiàn)在制作平底鍋之前,需要將鋁板壓制加工成合適的厚度,其中有一個(gè)非常關(guān)鍵的指標(biāo)叫顆粒大小,顆粒大小嚴(yán)重影響涂層是否會(huì)脫落。可見,影響平底鍋涂層質(zhì)量的關(guān)鍵變量因素,并不在涂層的工藝流程中,而在更早的鋁板壓制過程中。因此,我們需要端到端分析整個(gè)過程,首先檢查生產(chǎn)過程的所有部分,創(chuàng)建端到端的流程圖,然后列出過程和數(shù)據(jù)位置中的所有變量,使用機(jī)器學(xué)習(xí)創(chuàng)建預(yù)測模型,檢查對涂層剝落影響最大的變量,再根據(jù)分析建議進(jìn)行更改,將最重要的變量用于新的實(shí)驗(yàn)設(shè)計(jì)中。
我們今天著重講了三個(gè)方面:誰來做事情;去哪里獲取數(shù)據(jù);拿到數(shù)據(jù)后到底做什么。大數(shù)據(jù)中有很多東西,但最關(guān)鍵的一點(diǎn)是,讓管理層知道誰來做事情。只要具備這種環(huán)境,你就可以成為一位數(shù)據(jù)專家。