汪俊亮 秦 威 張 潔
上海交通大學(xué),上海,200240
基于數(shù)據(jù)挖掘的晶圓制造交貨期預(yù)測(cè)方法
汪俊亮秦威張潔
上海交通大學(xué),上海,200240
摘要:晶圓訂單的交貨期預(yù)測(cè)對(duì)于保證訂單交付的準(zhǔn)時(shí)性和平順性,具有重要的意義。然而,晶圓制造中的在制品數(shù)量多、生產(chǎn)周期長(zhǎng)的特點(diǎn)加劇了交貨期預(yù)測(cè)的復(fù)雜性。基于海量晶圓制造數(shù)據(jù),設(shè)計(jì)回歸模型來對(duì)1669個(gè)晶圓加工過程參數(shù)與訂單交貨期指標(biāo)之間的關(guān)聯(lián)關(guān)系進(jìn)行分析,并采用費(fèi)舍爾Z變換篩選得到強(qiáng)相關(guān)變量,對(duì)所得到的強(qiáng)相關(guān)變量采用案例推理方法實(shí)現(xiàn)了晶圓制造訂單交貨期的精準(zhǔn)預(yù)測(cè)。
關(guān)鍵詞:晶圓制造;數(shù)據(jù)挖掘;交貨期預(yù)測(cè);案例推理
0引言
交貨期預(yù)測(cè)作為晶圓制造運(yùn)行過程研究中的重要問題,一直受到學(xué)術(shù)界的關(guān)注[1-2]。傳統(tǒng)的交貨期預(yù)測(cè)方法主要可以分為四類[3]:直接推理方法、仿真方法、分析方法和統(tǒng)計(jì)方法。直接推理方法利用工作特性、靜態(tài)和動(dòng)態(tài)車間狀態(tài)等信息,通過預(yù)測(cè)每道工序的加工時(shí)間,從而推理得到訂單的交貨期[4]。該方法簡(jiǎn)便、容易計(jì)算,但在復(fù)雜的制造過程難以實(shí)現(xiàn)交貨期的精準(zhǔn)預(yù)測(cè)。仿真方法是在交貨時(shí)間預(yù)測(cè)研究中廣泛采用的先進(jìn)方法,Vig等[5]基于不同設(shè)計(jì)的仿真規(guī)則,進(jìn)行交貨期的預(yù)測(cè)。分析方法采用排隊(duì)論、馬爾可夫模型等數(shù)學(xué)工具,嘗試估計(jì)訂單交貨時(shí)間的平均值和標(biāo)準(zhǔn)差[6]。然而,分析方法的假設(shè)通常過于簡(jiǎn)單,不符合真實(shí)條件,這導(dǎo)致其應(yīng)用受到限制。統(tǒng)計(jì)方法采用回歸方法[7]和關(guān)聯(lián)分析[8]尋找訂單交貨時(shí)間和其他變量的關(guān)系,在變量的選擇上仍然采用基于經(jīng)驗(yàn)的方法。
晶圓制造的設(shè)備種類多、數(shù)量多,在制品數(shù)量和產(chǎn)品工序多,制造工期漫長(zhǎng)這些特性使得晶圓制造交貨期預(yù)測(cè)問題成為一個(gè)復(fù)雜大規(guī)模的問題[9],傳統(tǒng)的交貨期預(yù)測(cè)方法難以適應(yīng)。晶圓車間是典型的智能化工廠,其中的智能生產(chǎn)設(shè)備、數(shù)據(jù)通信網(wǎng)絡(luò)和傳感器可將制造過程數(shù)據(jù)源源不斷地采集上來。智能化車間的普及使得以數(shù)據(jù)挖掘和分析為核心的大數(shù)據(jù)技術(shù)被廣泛應(yīng)用在設(shè)備故障預(yù)警[10]、產(chǎn)品質(zhì)量控制[11]和生產(chǎn)成本優(yōu)化[12]等方面。數(shù)據(jù)挖掘方法通過探究數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,為解決大規(guī)模復(fù)雜問題提供了新思路。因此,本文基于數(shù)據(jù)挖掘技術(shù),對(duì)海量制造數(shù)據(jù)進(jìn)行分析,從而實(shí)現(xiàn)晶圓制造訂單交貨期的精準(zhǔn)預(yù)測(cè)。
1問題描述
在晶圓制造車間中,晶圓加工過程的制造數(shù)據(jù)(如晶圓卡等待時(shí)間)由傳感器測(cè)得,并通過工業(yè)網(wǎng)絡(luò)傳輸搜集,另一部分?jǐn)?shù)據(jù)(如每個(gè)站的剩余總工作量)從制造執(zhí)行系統(tǒng)、資源管理系統(tǒng)等信息系統(tǒng)中獲取。本文對(duì)這些有可能影響晶圓交貨期的制造數(shù)據(jù)進(jìn)行采集,并通過數(shù)據(jù)挖掘和分析方法,判斷篩選與訂單交貨期強(qiáng)相關(guān)的變量,并用于交貨期預(yù)測(cè),所采集的晶圓制造候選變量如表1所示。
表1 預(yù)測(cè)訂單交貨期的候選數(shù)據(jù)
晶圓制造中,復(fù)雜多樣的產(chǎn)品工藝路線與大量的車間在制品使得候選數(shù)據(jù)具有海量、高維和異構(gòu)的特點(diǎn)。從數(shù)據(jù)的體量上來說,2000個(gè)訂單的工期預(yù)測(cè)候選數(shù)據(jù)集就達(dá)到了140萬條,具備海量特點(diǎn);從數(shù)據(jù)的維度上來說,候選數(shù)據(jù)中有訂單特性數(shù)據(jù)、制造設(shè)備狀態(tài)數(shù)據(jù)、物流系統(tǒng)狀態(tài)數(shù)據(jù),具備高維度特點(diǎn);從數(shù)據(jù)的結(jié)構(gòu)來說,候選數(shù)據(jù)涵蓋時(shí)間類型、有比例類型、數(shù)值類型、序次類型等多種數(shù)據(jù)。這些數(shù)據(jù)的特點(diǎn)進(jìn)一步加劇了計(jì)算的復(fù)雜性,因此,采用一種高效數(shù)據(jù)關(guān)聯(lián)關(guān)系分析方法對(duì)于復(fù)雜海量的制造數(shù)據(jù)處理具有重要的意義。
2交貨期與晶圓制造數(shù)據(jù)相關(guān)性分析
考慮到數(shù)據(jù)的數(shù)量和種類,采用回歸分析衡量晶圓交貨期和不同候選變量之間的相關(guān)性。對(duì)每一個(gè)候選變量作費(fèi)舍爾Z變換來統(tǒng)一各個(gè)候選變量和交貨期之間相關(guān)性的強(qiáng)度,定義費(fèi)舍爾變換Z值高的變量為強(qiáng)相關(guān)變量?;陬A(yù)測(cè)網(wǎng)絡(luò)模型和案例推理方法來評(píng)估當(dāng)前訂單與歷史訂單的相似性,從而找出最合適的歷史案例進(jìn)行訂單交貨期的預(yù)測(cè),本研究的框架如圖1所示。
圖1 基于數(shù)據(jù)挖掘方法的晶圓交貨期預(yù)測(cè)框架圖
2.1回歸網(wǎng)絡(luò)數(shù)據(jù)模型
本文采用回歸分析的方法分析候選數(shù)據(jù)和訂單交貨期之間的相關(guān)關(guān)系,并采用費(fèi)舍爾Z變換衡量變量和訂單交貨期之間的相關(guān)性,進(jìn)而篩選得到強(qiáng)相關(guān)變量。
單步回歸方法和迭代回歸方法是兩種常用的回歸分析方法。單步回歸方法對(duì)實(shí)際生產(chǎn)數(shù)據(jù)或仿真數(shù)據(jù)進(jìn)行單一回歸分析,從而確定回歸系數(shù)的值。迭代回歸方法通過多次調(diào)用回歸分析來計(jì)算和修正回歸系數(shù)的值??紤]到海量的數(shù)據(jù)要求和高效的算法要求,本文中采用單步回歸方法,構(gòu)造多種回歸方程對(duì)候選變量進(jìn)行處理,并通過方差r來驗(yàn)證回歸效果,r越接近0,回歸效果越好。r表達(dá)式為
(1)
2.2基于費(fèi)舍爾Z變換的關(guān)鍵參數(shù)篩選
費(fèi)舍爾Z變換用于衡量各變量和訂單交貨期之間的相關(guān)性。當(dāng)X和Y遵循二元正態(tài)分布時(shí),費(fèi)舍爾Z變換是一種方差近似穩(wěn)定的變換。費(fèi)舍爾Z變換的定義為
(2)
3訂單相似性匹配與交貨期推理
在通過數(shù)據(jù)的相關(guān)性分析得到晶圓訂單的強(qiáng)相關(guān)變量之后,采用基于案例推理(case-based reasoning,CBR)的方法來預(yù)測(cè)訂單交貨期。CBR通過對(duì)比當(dāng)前案例與案例組中的案例之間的區(qū)別[13],尋找最為匹配的案例,從而實(shí)現(xiàn)晶圓訂單交貨期的預(yù)測(cè)。在晶圓訂單交貨期預(yù)測(cè)中,案例為晶圓的訂單,通過訂單強(qiáng)相關(guān)變量的數(shù)值差異來衡量訂單之間的相似性,從而實(shí)現(xiàn)案例的搜索和對(duì)比。
CBR的步驟具體步驟[14]如下:
(1)檢索。根據(jù)強(qiáng)相關(guān)變量,從案例組庫中查找相似度最高的案例構(gòu)建案例組。除了案例組庫,檢索階段還從相似知識(shí)庫中檢索。
(2)再利用。重新利用檢索所得(最相似)的案例組解決方案,構(gòu)建一個(gè)建議案例組,從而預(yù)測(cè)新案例組的解。
(3)修改。評(píng)估已解決案例組的解決方案的正確性,如有必要?jiǎng)t提供測(cè)試/修復(fù)案例組的解決方案。修改階段可以手動(dòng)實(shí)現(xiàn),也可通過知識(shí)匹配自動(dòng)實(shí)現(xiàn)。值得注意的是,修改一個(gè)建議解決方案很可能比從頭解決該問題的要求要低。
(4)保留。因?yàn)樾迯?fù)的案例組很可能對(duì)解決未來的問題有用,所以將會(huì)作為新知識(shí)保留在案例組庫中。
當(dāng)前訂單變量的相似性定義為
(3)
式中,i為歷史數(shù)據(jù)編號(hào),i=1,2,…,n-1;m為強(qiáng)相關(guān)變量的數(shù)目;k為訂單當(dāng)前的強(qiáng)相關(guān)變量;wk為變量k的Z變換值;vnk為當(dāng)前訂單的變量k的值;vik為歷史數(shù)據(jù)的變量k的值。
訂單的交貨期預(yù)測(cè)準(zhǔn)確度可由“精確度”和“穩(wěn)定性”來確定。在本文中,我們采用平均絕對(duì)偏差PMAD來衡量精確度,采用交貨期的方差PLV來衡量穩(wěn)定性:
(4)
(5)
4實(shí)驗(yàn)設(shè)計(jì)
本文的研究對(duì)象是某300 mm晶圓生產(chǎn)線,該生產(chǎn)線主要生產(chǎn)3種類型的晶圓,三者具有完全不同的工藝路線,如表2所示。本文對(duì)產(chǎn)品A的訂單完工時(shí)間進(jìn)行預(yù)測(cè)研究,該晶圓產(chǎn)品涉及320道包含多重入流的工序。基于該生產(chǎn)線的實(shí)際情況,本文建立了虛擬化的晶圓制造仿真系統(tǒng),并獲取了400組晶圓訂單生產(chǎn)數(shù)據(jù)(如表3所示,每組數(shù)據(jù)包括1669個(gè)候選變量),作為交貨期預(yù)測(cè)的數(shù)據(jù)基礎(chǔ)。系統(tǒng)中每道工序的處理時(shí)間在0.95倍至1.05倍的該工序平均處理時(shí)間內(nèi)。車間擁有235臺(tái)機(jī)器,其中的瓶頸工作站是光刻曝光站。先到先服務(wù)規(guī)則長(zhǎng)期用于晶圓批次排序調(diào)度,因此不考慮調(diào)度規(guī)則更改對(duì)晶圓訂單交貨期的影響。
表2 本文涉及的晶圓制造車間的產(chǎn)品詳情
表3 本文所采用的晶圓訂單交貨期預(yù)測(cè)數(shù)據(jù)
通過對(duì)候選數(shù)據(jù)與晶圓訂單交貨期的相關(guān)分析,在1669個(gè)候選變量中篩選得到304個(gè)強(qiáng)相關(guān)的變量,并基于所得的強(qiáng)相關(guān)變量構(gòu)建關(guān)聯(lián)分析網(wǎng)絡(luò),通過案例推理模型和關(guān)聯(lián)網(wǎng)絡(luò)模型實(shí)現(xiàn)晶圓訂單的交貨期預(yù)測(cè)。在基于案例的推理中,采用前300組數(shù)據(jù)構(gòu)建CRB的案例組庫,針對(duì)后100組訂單數(shù)據(jù)進(jìn)行完工時(shí)間預(yù)測(cè),從而評(píng)價(jià)算法的性能。
試驗(yàn)結(jié)果(表4)表明: CBR方法和BP神經(jīng)網(wǎng)絡(luò)算法在晶圓交貨期預(yù)測(cè)的精準(zhǔn)度上都具有不錯(cuò)的表現(xiàn),但是在預(yù)測(cè)結(jié)果的穩(wěn)定性上,CBR方法要明顯優(yōu)于常見的BP神經(jīng)網(wǎng)絡(luò)算法。
表4 CBR方法和BP神經(jīng)網(wǎng)絡(luò)方法的交貨期預(yù)測(cè)結(jié)果
5結(jié)語
本文提出了一種基于數(shù)據(jù)挖掘的兩個(gè)階段交貨期預(yù)測(cè)方法:設(shè)計(jì)了一種單步回歸算法從大量候選變量中自動(dòng)選擇強(qiáng)相關(guān)變量;采用基于案例推理的方法來尋找最匹配的歷史數(shù)據(jù)并預(yù)測(cè)訂單交貨期。進(jìn)一步的研究將從以下兩個(gè)方面展開:①采用更多的晶圓車間的實(shí)際生產(chǎn)數(shù)據(jù)進(jìn)行數(shù)值試驗(yàn),來評(píng)估本文提出方法的有效性;②應(yīng)用多種不同的交貨期預(yù)測(cè)方法與CBR方法的預(yù)測(cè)準(zhǔn)確性、穩(wěn)定性、求解速度進(jìn)行對(duì)比。
參考文獻(xiàn):
[1]RajanSuri.It’saboutTime:theCompetitiveAdvantageofQuickResponseManufacturing[M].NewYork:ProductivityPress,2010.
[2]MamaniH,MoinzadehK.LeadTimeManagementthroughExpeditinginaContinuousReviewInventorySystem[J].ProductionandOperationsManagement, 2014, 23(1): 95-109.
[3]ChungSH,YangMH,ChengCM.TheDesignofDueDateAssignmentModelandtheDeterminationofFlowTimeControlParametersfortheWaferFabricationFactories[J].IEEETransactiononComponent,Packaging,andManufacturingTechnologyPartC,1997,20:278-287.
[4]SmithML,SeidmanA.DueDateSelectionProcedureforJob-shopSimulation[J].Computers&IndustrialEngineering,1983,7(3):199-207.
[5]VigMM,DooleyKJ.DynamicRulesforDue-dateAssignment[J].TheInternationalJournalofProductionResearch, 1991, 29(7): 1361-1377.
[6]EnnsST.JobShopFlowtimePredictionandTardinessControlUsingQueueingAnalysis[J].InternationalJournalofProductionResearch,1993,31(9):2045-2057.
[7]ShaDY,StorchRL,LiuCH.DevelopmentofaRegression-basedMethodwithCase-basedTuningtoSolvetheDueDateAssignmentProblem[J].InternationalJournalofProductionResearch, 2007, 45(1): 65-82.
[8]KaplanAC,UnalAT.AProbabilisticCost-basedDueDateAssignmentModelforJobShops[J].TheInternationalJournalofProductionResearch,1993, 31(12): 2817-2834.
[9]QinW,ZhangJ,SunY.Multiple-objectiveSchedulingforInterbayAMHSbyUsingGenetic-programming-basedCompositeDispatchingRulesGenerator[J].ComputersinIndustry, 2013, 64(6):694-707.
[10]GEMovesMachinestotheCloud[OL]. [2013-07-18].http://www.Businesswire.com/news/home/0130618006446/en/GE-Moves-Machines-Cloud#.UxQ7No2BS50,1989.
[11]BrownB,ChuiM,ManyikaJ.AreYouReadyfortheEraof“BigData”[J].McKinseyQuarterly, 2011, 4: 24-35.
[12]農(nóng)夫山泉:HANA應(yīng)用在企業(yè)中層層展現(xiàn)[OL]. [2012-04-26].http://www.ileader.com.cn/html/2012/4/26/49926.htm.
[13]GuoYuan,HuJie,PengYinghong.ACBRSystemforInjectionMouldDesignBasedonOntology:aCaseStudy[J].Computer-AidedDesign,2012,44:496-508.
[14]RiesbeckCK,SchankRC.InsideCase-basedReasoning[M].London:PsychologyPress, 1989.
(編輯張洋)
DataMiningforOrders’LTForecastinginWaferFabrication
WangJunliangQinWeiZhangJie
ShanghaiJiaoTongUniversity,Shanghai,200240
Abstract:The accurate prediction of LT plays an important role to help semiconductor manufacturers keep the promises of an accurate and steady delivery-time. However, the large production scale, and long cycle time significantly substantiated the complexity of such a problem. Based on large amounts of manufacturing data, a regression-based model which took account of thousands of parameters was proposed to obtain the correlation among 1669 manufacturing variables and LT. To select “LT-related” variables which had high mean Z-transformed correlations, the Fisher Z-transformation was applied, and the case-based reasoning method was designed to forecast orders’ LT accurately.
Key words:wafer fabrication;data mining;lead-time (LT) forecasting;case-based reasoning
收稿日期:2015-01-09
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助重點(diǎn)項(xiàng)目(51435009)
中圖分類號(hào):TH166
DOI:10.3969/j.issn.1004-132X.2016.01.017
作者簡(jiǎn)介:汪俊亮,男,1991年生。上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院碩士研究生。主要研究方向?yàn)橹圃煜到y(tǒng)建模與優(yōu)化。秦威,男,1985年生。上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院講師、博士。張潔,女,1963年生。上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院教授。