• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于關聯(lián)挖掘的服務一致化配置方法

      2020-01-09 03:48:32劉紹華蘇林剛張文博
      計算機研究與發(fā)展 2020年1期
      關鍵詞:配置文件關聯(lián)性過濾器

      王 燾 陳 偉 李 娟 劉紹華 蘇林剛 張文博

      1(計算機科學國家重點實驗室(中國科學院軟件研究所) 北京 100190)2(中國科學院軟件研究所 北京 100190)3(北京工業(yè)大學 北京 100124)4(北京郵電大學 北京 100876)

      服務化軟件系統(tǒng)通常由許多異構服務組件構成,每個服務組件都有許多配置項.例如,MySQL 5.6數(shù)據(jù)庫服務器有461個配置參數(shù),Apache 2.4的所有模塊中有超過550多個配置參數(shù)[1].服務組件規(guī)模巨大以及多層軟件棧結構導致實際系統(tǒng)中通常包含成千上萬的配置項,使得系統(tǒng)正確配置困難且易于出錯.配置錯誤已經(jīng)成為當今系統(tǒng)故障的主要原因之一[2].微軟、亞馬遜和Facebook等主要IT公司都經(jīng)歷過配置錯誤所導致的宕機事件[3-5].在配置錯誤中,配置項關聯(lián)性(簡稱關聯(lián)性)引起的錯誤占很大比例.研究表明,12.2%~29.7%的錯誤與配置關聯(lián)性有關[6].

      部分關聯(lián)性由服務組件之間的依賴關系引入.例如服務組件需要進行數(shù)據(jù)庫訪問,那么,服務的數(shù)據(jù)庫連接配置項需要與數(shù)據(jù)庫信息關聯(lián),即服務與數(shù)據(jù)庫的數(shù)據(jù)庫名稱、用戶名和密碼等參數(shù)值必須保持一致.研究報告表明,開源軟件項目中有27%~51%的配置項和另一個項目存在關聯(lián)性[7].然而,分析配置項關聯(lián)性,特別是跨服務組件關聯(lián)性,非常困難.首先,關聯(lián)配置可能會跨多個服務組件,每個服務組件存在大量配置項,分析配置信息的工作量巨大;其次,眾多服務組件,尤其是開源軟件倉庫中的軟件,文檔可能與代碼不一致,甚至沒有文檔[8];最后,服務組件使用多種編程語言,因而難以使用程序分析方法[9].即便是領域專家也很難擁有跨多種服務組件和軟件的知識[10],而一旦忽略了一些配置項的關聯(lián)性,就可能會違反配置約束,從而導致系統(tǒng)錯誤.

      本文提出了一種基于關聯(lián)挖掘的服務一致化配置方法.首先,從開源項目的代碼庫中爬取配置文件的樣本數(shù)據(jù),將搜索范圍縮小到更改頻繁的配置項;然后,根據(jù)配置項名稱、取值比較和類型推斷計算每個配置項對的關聯(lián)系數(shù),并且提供濾波器以確定可能關聯(lián)的配置項候選集合;最后,輸出配置項關聯(lián)性的排序列表,以便系統(tǒng)管理員重點關注一些配置項,并可以通過查詢操作檢查系統(tǒng)配置,從而減少配置錯誤所導致的系統(tǒng)錯誤.進而,挖掘配置項的關聯(lián)性,并且在召回率、準確率等方面對方法的有效性進行了實驗評估.實驗結果表明,所提出方法可以準確分析配置項的關聯(lián)性,討論了過濾器對最終結果的影響、關聯(lián)性配置的分布、產(chǎn)生錯誤的原因等問題.

      本文的主要貢獻為:通過代碼倉庫挖掘與配置文件比較,評估配置項的關聯(lián)性,從而為實現(xiàn)大規(guī)模分布式軟件的自動化、智能化配置部署及錯誤診斷建立基礎.與文獻[7]相比,所提出方法無需掌握目標軟件的系統(tǒng)架構、軟件組件、交互行為、部署項含義等面向系統(tǒng)運維的用于部署配置的特定領域知識.可自動檢測配置項的關聯(lián)性,以有效減少系統(tǒng)配置并診斷配置錯誤的工作量.并且,搭建了典型的開源軟件系統(tǒng),基于準確性與召回率對方法的有效性進行了實驗評價,分析討論了過濾器對最終結果的影響及相關性配置的分布,比較了現(xiàn)有工作,并結合實驗結果分析導致錯誤的問題原因.

      1 研究動機

      配置項關聯(lián)是指在跨服務組件的軟件系統(tǒng)中,某個服務組件的一個配置項依賴于其他配置項或環(huán)境對象[11].當一個配置項改變時,與之關聯(lián)的配置項都需要作出相應修改.例1中的MySQL和Tomcat的配置項具有關聯(lián)性,關聯(lián)語義約束了Tomcat可以使用的持久連接數(shù)量mysql.max_persistent不能大于MySQL提供的總量max_connections,違反約束就會發(fā)生過多連接錯誤;例2中的Web服務組件LogineService與EJB服務組件LoginEJB的配置項“jndi-name”關聯(lián),關聯(lián)語義約束這2個配置項具有相同的值,否則應用程序將發(fā)生登錄失敗.

      例1.MySQL和PHP的配置關聯(lián).

      MySQL配置文件:

      max_connections=300.

      PHP的配置文件:

      mysql.max_persistent=400.

      約束:在使用持久化連接的時候,PHP中mysql.max_persistent值應該不超過MySQL中max_connections的值.

      影響:引發(fā)“too many connections”錯誤.

      例2.應用組件間的配置關聯(lián).

      Web 服務LoginService的配置文件:

      EJB組件LoginEJB配置文件:

      約束:LoginService中的jndi必須和LoginEJB中的jndi-name保持一致.

      影響:無法登錄應用,拋出異常.

      檢測配置項關聯(lián)性以及約束條件,對于保障系統(tǒng)配置的正確性至關重要.在部署、遷移和更新系統(tǒng)時,違反約束就會出現(xiàn)配置項錯誤,從而導致系統(tǒng)故障.如果事先獲知配置項間的關聯(lián)性,當某個服務組件更新造成配置信息改變時,管理員就可以對其他服務組件的配置信息做相應修改,從而減少錯誤的發(fā)生.同時,當系統(tǒng)出現(xiàn)故障時,管理員可以重點關注關聯(lián)配置項,縮小配置錯誤檢查的范圍,從而降低系統(tǒng)故障風險并且減少人力投入.

      為了確定跨服務組件配置項的關聯(lián)性,研究了有代表性的開源軟件,包括關系型數(shù)據(jù)庫MySQL(1)https://www.mysql.com、應用服務器Tomcat(2)http://tomcat.apache.org、內(nèi)存數(shù)據(jù)庫Redis(3)http://redis.io等.通過對這些軟件特征的分析,發(fā)現(xiàn)了3種現(xiàn)象:

      1) 如果2個服務組件相互依賴,可能存在跨服務組件的配置項關聯(lián)性.服務組件依賴通常以資源供給、函數(shù)調用、數(shù)據(jù)共享和數(shù)據(jù)傳輸?shù)确绞綄崿F(xiàn).例1是資源持久連接所產(chǎn)生的關聯(lián)性,例2是函數(shù)調用所產(chǎn)生的關聯(lián)性.

      2) 配置項根據(jù)其鍵值對的語法可分為不同的類型.常見的3種配置項類型是數(shù)字、布爾值和字符串[8],可以根據(jù)配置項中鍵值對的語法模式推斷其語義.例如,“max_connections=300”是數(shù)字類型的配置項,可以根據(jù)推斷出其表示的是資源(即最大連接數(shù))數(shù)量.最典型的是字符串類型的配置項,例如在MySQL中,“datadir=varlib”可以推斷為指定的文件路徑.

      3) 盡管服務組件具有大量配置項,但只有小部分經(jīng)常使用.文獻[1]研究表明,大多數(shù)用戶只設置了一小部分配置項(6.1%~16.7%),而高達54.1%的配置項使用默認值.還對開源軟件Redis進行具體研究,例如從Github(4)https://github.com中多個項目中抓取60個Redis的配置文件并分析其配置項值,發(fā)現(xiàn)在38個配置項中只有5個配置項(即13.2%)的值經(jīng)常變化,而其他的配置項(即86.8%)只有5個以下不同的值.表1給出了Redis經(jīng)常變化的配置項.

      Table 1 Configuration Change List表1 配置項數(shù)量列表

      基于觀察發(fā)現(xiàn):1)通過分析配置項的鍵和值信息,可以推斷語義信息;2)通過分析配置項類型,可以推斷其表示的對象與特征.因此,根據(jù)對配置項鍵、值和類型的分析,提出基于關聯(lián)挖掘的服務一致化配置方法.

      2 服務一致化配置方法

      2.1 方法概述

      方法技術路線如圖1所示,主要包括配置項過濾、配置項類型推斷、關聯(lián)系數(shù)計算、過濾配置關聯(lián)性、配置項關聯(lián)性排序等5個步驟.

      1) 配置項過濾.通過互聯(lián)網(wǎng)使用爬蟲技術從代碼倉庫(如Github)中抓取開源軟件(如Redis)的配置文件作為樣本數(shù)據(jù),過濾掉幾乎沒有變化的配置項以縮小搜索范圍,并關注那些頻繁修改的配置項.在相同配置項的多個例集合里,通過配置值變化數(shù)量的絕對值和比例值來判斷,比如少于5個不同值、少于5%.

      2) 配置項類型推斷.將配置項的鍵值對與定義的正則表達式及關鍵字相匹配,可以推斷其類型.

      3) 關聯(lián)系數(shù)計算.根據(jù)配置項的關鍵字、值和類型等特征,計算不同服務組件的每對配置項的關聯(lián)系數(shù).

      4) 過濾配置關聯(lián)性.基于關聯(lián)系數(shù)過濾非關聯(lián)配置對,將過濾結果作為確定關聯(lián)性的依據(jù).

      5) 配置項關聯(lián)性排序.將根據(jù)關聯(lián)系數(shù)排序的關聯(lián)配置項對的列表提供給用戶,以供參考檢查或修改系統(tǒng)配置.

      Fig. 1 Approach overview圖1 技術路線

      2.2 配置庫構建

      從在線技術論壇和代碼托管網(wǎng)站,包括Server-Fault(5)http://serverfault.com,StackOverflow(6)http://stackoverflow.com,Database Administrators(7)http://dba.stackexchange.com,Github中,抓取流行開源項目(例如Web服務器、數(shù)據(jù)庫、消息中間件)的配置文件例.

      方法針對具有大量配置項的系統(tǒng)軟件作為目標軟件,找到經(jīng)常會發(fā)生變化的常用配置項.以Github為代表的開源軟件倉庫積累了大量軟件項目,其中很多軟件需要使用諸如數(shù)據(jù)庫、消息隊列等類型的系統(tǒng)軟件,存在眾多配置文件,從而能夠支持方法對常用、常變配置項的識別.方法能夠適用于以配置文件進行設置的系統(tǒng)軟件.當然,方法的適用性受能夠收集到的配置使用信息影響,因此對于廣泛使用的常用軟件具有更好的適用性.

      建立配置庫以檢測配置項關聯(lián)性包括3個步驟:1)確定目標系統(tǒng)及相關軟件以限定分析對象(如數(shù)據(jù)庫、消息中間件等).2)從Github庫的項目中搜索相應的軟件配置文件.3)檢測相關組件配置文件中配置項的關聯(lián)關系.以典型的3層架構企業(yè)應用為例:1)目標系統(tǒng)為企業(yè)應用,包括表現(xiàn)層、業(yè)務邏輯層、數(shù)據(jù)訪問層.2)從Github庫的項目中搜索表現(xiàn)層和業(yè)務邏輯層、業(yè)務邏輯層和數(shù)據(jù)訪問層的相關軟件.表現(xiàn)層典型軟件為Apache,Lighttpd,Nginx;業(yè)務邏輯層典型軟件為Tomcat,Jetty,JBOSS;數(shù)據(jù)訪問層典型軟件為MySQL,PostgreSQL,InterBase.3)基于同類型軟件集合建立配置倉庫,挖掘不同類型軟件組件間的關聯(lián)關系.

      基于同類型軟件集合重點分析以擴充配置倉庫,重點分析開源軟件倉庫中相關軟件的配置文件,可以提升方法的針對性與應用效果.同時,構建配置項庫過程中,每個軟件和工具的配置項例數(shù)量是一個逐漸累積的過程,且數(shù)量越多,對于發(fā)現(xiàn)經(jīng)常修改的配置項集合以及常用取值,尤其是系統(tǒng)軟件的數(shù)值型配置項,起到促進作用.例如,從Github上找到了超過100個Redis的配置文件來構建實驗所用的Redis相關配置項庫.

      對樣本數(shù)據(jù)進行統(tǒng)計分析,獲取每個配置項的例值,提出2個過濾規(guī)則以獲取配置項的頻繁項集.

      1) 多值過濾.如果配置項例在樣本數(shù)據(jù)集中的值有較大差異,則該配置項為頻繁項.例如表1中的端口為Redis的監(jiān)控端口,不同服務組件的端口值通常不同,收集了56個端口配置項例,其中的21個具有不同的值.

      2) 異值過濾.如果樣本數(shù)據(jù)中沒有出現(xiàn)目標系統(tǒng)中的配置項例值,則該配置項為頻繁項.這是由于在特定服務組件中,某些配置項可能配置為樣本數(shù)據(jù)中未出現(xiàn)的特定值,例如配置項中設置文件路徑、用戶名和密碼.

      2.3 配置項類型推斷

      配置項類型通常包括數(shù)值型、布爾型和字符串型,每種類型可能具有多個子類型.例如Redis的“pidfile”表示文件路徑,“bind” 表示IP地址,二者都是字符串類型配置項.推斷配置項類型有助于獲取其語義.配置項值與每個正則表達式匹配,遵循3個規(guī)則:

      1) 如果配置項類型是數(shù)字或布爾類型,則配置項的值幾乎沒有語義信息.例如Redis的“port”表示監(jiān)聽端口號,“timeout”表示超時的時間,二者都是數(shù)字類型配置項.如果僅僅根據(jù)配置項的值,則沒有屬性及特征信息,配置項名稱需要用其他正則表達式和關鍵字表示.

      2) 如果配置項類型和子類型都被推斷出來,則使用更具體的類型來描述配置項.例如“IP Address”(服務器的IP地址)既是定義的IP類型,又是字符串類型,那么將該配置項設置為IP類型.

      3) 使用關鍵詞可以推斷出多個子類型.例如“jdbc.pool.maxIdle”表示數(shù)據(jù)庫連接資源上限,是數(shù)字類型配置項.配置項名稱中“jdbc.pool”可以推斷為Resource類型,而“maxIdle”可以推斷為Size類型.

      每個配置項的推斷類型以類型向量表示:Tentry=(t1,t2,…,tm),其中,ti(1≤i≤m)表示一種配置項類型,當配置項屬于此類型時,ti=1,否則ti=0;m表示配置項類型數(shù)量,向量長度固定.由于一個配置項可以同時具有多種推斷類型,向量中可能有多個元素的值為1.表2給出了典型配置項類型描述,同時配置項類型是可擴展的以適應新的類型、正則表達式和關鍵字.

      Table 2 Configuration Type Description表2 配置類型定義

      2.4 關聯(lián)系數(shù)計算

      將配置項關聯(lián)性分為一致關聯(lián)性和類型關聯(lián)性.

      1) 一致關聯(lián)性

      一對配置項具有相同值,或者一個值是另一個值的子串,在配置項關聯(lián)性中最為常見,可以用一致關聯(lián)性系數(shù)衡量.2個配置項之間的一致關聯(lián)性系數(shù)基于關鍵字、值和類型計算.這是由于如果2個配置項關聯(lián),其值相同或者相似.同時,由于配置項具有相似語義,關鍵字和類型也相似.

      一致性關聯(lián)是通過取值來推測2個配置項可能描述的是同一個對象,由于關注的配置項都是采用key,value形式存儲,很難主動識別參數(shù)值的數(shù)據(jù)類型.例如,密碼可能是“123456”,也可能是“qwe123”等,因此,統(tǒng)一作為字符串類型處理具有更好的通用性.所提出方法根據(jù)表2將值抽象化為正則表達式,正則表達式能夠表達值的數(shù)據(jù)結構和類型,因此計算最長公共子串用來衡量值的數(shù)據(jù)類型和類型的相似度.

      給定配置項ei=ki,vi,Ti,其中,ki為配置項ei的關鍵字,vi為ei的取值,Ti為類型向量.計算關鍵字、取值和類型之間的相似性,然后將這些相似性的平均值作為一致關聯(lián)性系數(shù).

      基于“最長公共子串”方法計算配置項ei與ej的鍵和值的相似度為

      (1)

      其中,函數(shù)mostCommonSubStr(str1,str2)表示字符串str1和str2的公共子串,maxlong(str1,str2)表示字符串str1和str2的較長字符串長度值.

      基于余弦計算類型向量Ti和Tj相似度為

      (2)

      將配置項對ei與ej的鍵、值、類型相似度平均值作為一致關聯(lián)性系數(shù):

      consis(ei,ej)=α×sim(ki,kj)+β×sim(vi,vj)+γ×sim(Ti,Tj).

      (3)

      相似度取值范圍為[0,1],分數(shù)越高,配置項對存在一致性的可能性越高.對開源軟件的例分析,發(fā)現(xiàn)以上3個相似度對最終結果的影響差別不大,因此采用均值計算總的關聯(lián)系數(shù).在未來的工作中,將進一步研究是否采用加權均值方式可以改進方法的效果.

      2) 類型關聯(lián)性

      如果一個配置項的值改變了,另一個配置項應該變?yōu)橄鄳闹?,而不一定是相同的值,在大多情況下,可以從配置項類型中推斷出來.例如Resource類型配置項與Size類型的配置項關聯(lián),即后者設置了前者所表示資源的數(shù)量.再如URL和IP這2種類型通常相互關聯(lián).

      “一致關聯(lián)性”是不同配置項在表示同一個對象時,取值要保持相同或部分相同;而“類型關聯(lián)性”是不同配置項存在語義關聯(lián),當一個發(fā)生變化,另一個也需要隨之改變.例如用戶名和密碼就是關聯(lián)類型.“一致關聯(lián)性”中的“類型”是字段的數(shù)據(jù)類型,如數(shù)字型、布爾型、字符串等;“類型關聯(lián)性”是某配置項的值隨其他配置項做相應變化.

      定義了配置項類型之間的共性關系,其中每種關系都隱含著2種實體之間的語義.通用類型關聯(lián)以系統(tǒng)部署和運維管理的領域知識為基礎,描述配置項之間的語義關聯(lián),類型關聯(lián)包括:1)用戶信息,包括用戶名密碼郵件地址;2)主機信息,包括IP地址端口URL主機名;3)文件信息,包括文件名稱用戶組別訪問權限.例如,對于數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)庫名稱和數(shù)據(jù)庫IP地址以及用戶名和密碼是類型相關的,當數(shù)據(jù)庫變化,對應的IP地址和用戶名密碼也可能發(fā)生變化.再如,F(xiàn)ilePath,User表示這2種類型的配置項因權限而關聯(lián),而Host,IP表示主機配置項具有此IP地址.另外,用戶也可根據(jù)領域知識自行設置類型關聯(lián)規(guī)則.

      類型關聯(lián)分數(shù)correl(ei,ej)用于評估配置項類型關聯(lián)性,首先計算2個配置項(ei,ej)的類型向量(ti,tj)之間的各類型關聯(lián)的數(shù)量,而后將值歸一化為范圍為0到1之間:

      (4)

      當ti與tj關聯(lián)時,corrVal(ti,tj)=1,否則為0.配置項對(ei,ej)的一致關聯(lián)性和類型關聯(lián)性是配置項對的2種不同的相似性ei和ej,當consis(ei,ej)增加,那么correl(ei,ej)則隨之減少,反之亦然.

      2.5 配置項關聯(lián)性確定

      根據(jù)2.4節(jié)的方法,可以檢測到眾多配置項對之間存在著關聯(lián)性,為了保證結果的正確性,本節(jié)提出多個過濾規(guī)則以去除錯誤的關聯(lián)性結果.

      1) 閾值過濾.為配置項一致關聯(lián)性設定閾值Hc,為配置項類型關聯(lián)設定閾值Ht,當關聯(lián)性系數(shù)小于閾值,則2個配置項之間的關聯(lián)關系較弱,過濾掉該配置項對.

      2) 冗余過濾.觀察發(fā)現(xiàn),一個服務組件的配置項ei很少會與另一個服務組件的多個配置項關聯(lián).因此,如果1個配置項在由2個服務組件組成的配置項對中出現(xiàn)了3次以上,僅將關聯(lián)系數(shù)最高的3個配置項對作為關聯(lián)配置項,過濾掉其他配置項對.

      3) Top-K過濾.根據(jù)配置項對的關聯(lián)性系數(shù)按降序排序,得到一致關聯(lián)性和類型關聯(lián)性2個關聯(lián)性排序列表,將2個列表中的前K個配置項對作為關聯(lián)配置項對.

      使用以上3個過濾規(guī)則,將關聯(lián)性較低的配置項對過濾掉后,可以得到配置項一致關聯(lián)性列表和類型關聯(lián)性列表的并集作為最終候選列表.

      3 實驗評價

      3.1 實驗環(huán)境

      使用服務化Java應用系統(tǒng)Adventure和基于云的存儲服務CloudShare(8)http://www.aliyun.com等2個典型的開源軟件系統(tǒng)以評估所提出方法,表3給出了2個實驗系統(tǒng)的服務組件.

      Table 3 Experimental Service Components表3 實驗系統(tǒng)服務組件

      Adventure是提供旅游安排服務的應用,采用SOA(service oriented architecture)框架,具有Web services, WS-BPEL(Web services-business process execution language),EJB(enterprise Java beans)和其他服務組件.在3個服務器上總共部署22個服務組件,包括應用的服務組件和系統(tǒng)軟件(如Tomcat,MySQL).

      CloudShare提供文件存儲與共享、工作協(xié)同和即時消息等眾多服務.將該系統(tǒng)部署在阿里云①環(huán)境中,其中的28個服務組件分布在5臺云主機上,配置為Intel?CoreTMi7,3.4 GHz CPU,4 GB RAM,CentOS 6.5操作系統(tǒng).

      服務一致化配置方法檢測關聯(lián)配置項對列表,當管理員進行系統(tǒng)部署、升級或遷移時,以該列表作為參考以輔助檢查系統(tǒng)配置正確性,避免違反關聯(lián)性約束條件.

      3.2 實驗步驟及結果

      服務一致化配置方法的具體實現(xiàn)步驟包括:1)使用Scrapy爬取Github上目標系統(tǒng)的配置文件,解析Key,Value為類型配置項保存在Redis數(shù)據(jù)庫;2)定義正則表達式用以判定配置項的語義類型;3)依據(jù)規(guī)則計算配置項之間的一致性和類型關聯(lián)性;4)使用過濾器算法把得到的備選集合進一步過濾.

      實驗分為配置項過濾、配置項類型推斷、關聯(lián)系數(shù)計算及結果過濾4個步驟.方法涉及的參數(shù)包括:一致性關聯(lián)的閾值(Hc)與類型關聯(lián)的閾值(Ht),Top-K排序過濾的閾值(K).根據(jù)實踐經(jīng)驗,實驗前兩者設置為0.6,K則設置為5.這3個參數(shù)都是閾值型參數(shù),用以確定是否將備選的配置關聯(lián)作為最終結果返回,Hc主要用于一致性關聯(lián),Ht用于類型關聯(lián),K用于確定選取過濾的對象數(shù)量.

      1) 配置項過濾

      由于互聯(lián)網(wǎng)上具有大量開源軟件的配置文件樣本數(shù)據(jù),配置項過濾可以很大程度上減少需要分析的配置項數(shù)量.如圖2所示,CloudShare比Adventure的配置項過濾效果要好,這是由于前者使用眾多的開源服務組件來構件系統(tǒng),大部分配置項都被過濾掉了,例如CloudShare過濾掉了50%以上Nginx的配置項和80%以上Redis的配置項.

      Fig. 2 Filtering Results圖2 配置項過濾結果

      2) 配置項類型推斷

      對于系統(tǒng)中的每個服務組件,建立頻繁配置項集,并推斷配置項類型.表4展示了配置項類型推斷的結果,通過人工比對,大多數(shù)配置項的類型推斷都是正確的.表4中的配置項總數(shù)為202項,比圖2中的配置項總數(shù)要多,這是由于很多配置項有多種類型.例如“db.default.USER=app”用于設置數(shù)據(jù)庫用戶名,可以根據(jù)鍵中的關鍵字來推斷數(shù)據(jù)庫和用戶類型.配置推斷錯誤與錯誤率如表5所示,在CloudShare的202個類型推斷中有11個錯誤,錯誤率為5.45%.例如“mail.username=noreply@cloudshare.im”根據(jù)正則表達式推斷為電子郵件類型,但是這個配置項實際上是一個用電子郵件設置的用戶名.再如“server_id=1”為數(shù)字類型的配置項,實際上用來作為服務器ID.在Adventure的212個類型推斷中有17個錯誤,錯誤率為8.02%.

      Table 4 Configuration Type Distribution of CloudShare表4 CloudShare配置類型分布

      Table 5 Fault Rate of Configuration Inference表5 配置推斷錯誤率

      3) 關聯(lián)系數(shù)計算及結果過濾

      基于第2節(jié)所提出的配置項關聯(lián)性檢測方法,為配置項對生成一致關聯(lián)系數(shù)和類型關聯(lián)系數(shù).通過人工手動判斷找到的關聯(lián)性是否正確,使用準確率(precision,P)與召回率(recall,R)評價所提出方法的效果:

      (5)

      其中,TP(true positive)表示正確發(fā)現(xiàn)的關聯(lián)數(shù)量,F(xiàn)P(false positive)表示錯誤判斷的關聯(lián)數(shù)量,FN(false negative)表示存在關聯(lián)但被判斷為無關聯(lián)的數(shù)量.

      通過對CloudShare和Adventure的配置項做逐條深入分析,人工在CloudShare中發(fā)現(xiàn)91個配置項關聯(lián)關系,在Adventure中發(fā)現(xiàn)84個配置項關聯(lián)關系,以之作為基準進行評價.根據(jù)所提出的方法,在CloudShare中發(fā)現(xiàn)了65個正確關聯(lián)關系,在Adventure中發(fā)現(xiàn)了69個正確關聯(lián)關系.因此,CloudShare的召回率為6591=71.43%,Adventure的召回率為6984=82.14%.

      Fig. 3 Experimental results of filters in CloudShare圖3 CloudShare過濾結果

      使用閾值過濾器、冗余過濾器和Top-K過濾器對1)2)步驟檢測的關聯(lián)配置項對進行過濾操作,以輸出關聯(lián)配置項對的最終候選集合.根據(jù)經(jīng)驗,設置閾值的默認值為0.6,k的默認值為5.對于準確率,不同過濾規(guī)則的組合會對最終結果有著不同的影響,分別進行評價.圖3和圖4中T表示實驗過程中使用閾值過濾器,R表示實驗過程中使用冗余過濾器,Top-K表示實驗過程中使用Top-K過濾器,T+R表示同時使用閾值過濾器和冗余過濾器,T+Top-K表示同時使用閾值過濾器和Top-K過濾器,T+R+Top-K表示同時使用所有過濾器.實驗結果如圖5所示,對于CloudShare,只使用閾值過濾器(T)的精度是最低的,約為65140=46.43%,這是由于存在很多假陽性結果.進而,通過與其他不同的過濾器組合來減少假陽性結果以提高精度,最高能夠達到約6597=67.01%.Adventure與CloudShare的結果類似,當只使用閾值過濾器(T)時,精度最低,約為69132=52.27%.然后,精度增加到53.91%,這是由于冗余濾波器去除了一些假陽性結果.Adventure中T+Top-K和T+R+Top-K的2個實驗的最終準確度相同,約為78.41%,這是由于大多數(shù)假陽性結果都被Top-K過濾器過濾掉了,不存在多余的候選配置項關聯(lián),因此,當進一步使用冗余濾波器時,冗余濾波器對最終結果沒有影響.

      Fig. 4 Experimental results of filters in Adventure圖4 Adventure過濾結果

      Fig. 5 Precision comparison of filters圖5 過濾準確率比較

      進一步分析發(fā)現(xiàn)關聯(lián)性排序前5名(即K=5)的正確配置項對的數(shù)量.如圖6所示,排名第1的數(shù)量分別為45和54,分別占69.23%和78.26%,實驗結果表明關聯(lián)性排序可以準確表現(xiàn)配置項的關聯(lián)程度.

      Fig. 6 Rank of configuration association圖6 配置項關聯(lián)排序

      3.3 方法比較

      文獻[11]提出一種配置參數(shù)關聯(lián)分析方法,當配置文件中參數(shù)值是相同字符串或者一個值是另一個值的子串,則檢測為配置關聯(lián).在實驗中,將所提出方法與該方法進行比較.如圖7和圖8所示, CloudShare和Adventure表示所提出方法的效果,而CloudShare_N和Adventure_N表示文獻[11]所提出方法的效果.實驗結果表明這2種方法的召回率相近,但是所提出方法的準確率卻遠高于已有工作.例3和例4描述了錯誤檢測的配置關聯(lián)性,如例3,

      Fig. 7 Comparison of experimental results圖7 實驗結果比較

      Fig. 8 Comparison of precision and recall圖8 準確率和召回率比較

      已有方法僅比較配置項的取值,所以存在許多假陽性結果.另一方面,如例4,2個類型關聯(lián)的配置項會由于取值不同而被忽略,從而造成假陰性結果.

      例3.Nginx和服務組件的錯誤關聯(lián).

      Nginx配置文件:

      upstream.msg.server=133.133.134.174:8082.

      服務配置文件:

      redis.host=133.133.134.174.

      約束:前者設置消息服務的負載均衡器,后者設

      置Redis的IP地址,二者值相似但意義不同.

      例4.索引服務和數(shù)據(jù)庫的遺漏關聯(lián).

      Index的配置:

      jdbc.username=index-app.

      數(shù)據(jù)庫的配置:

      password=pwd.app.

      約束:2個配置相關聯(lián),如果前者的值改變,后者的值相應改成該用戶在數(shù)據(jù)庫中對應的密碼.

      3.4 實驗結果討論

      1) 假陰性錯誤

      通過分析實驗結果,發(fā)現(xiàn)大多數(shù)遺漏的關聯(lián)關系涉及2個以上配置項.

      例5.配置項1對多關聯(lián)關系.

      Nginx配置項:

      upstream.msg.server=133.133.134.174:8082.

      Node2配置項:

      redis.host=133.133.134.174.

      Tomcat配置項:

      Connector.port=8082.

      例6.配置項間關聯(lián)關系.

      MySQL配置項:

      database.name=cs_global.cs_tenant_default.port=3306.

      service.war配置項:

      jdbc.url=jdbc:mysql:133.133.134.175:3306cs_tenant_default.

      Node5配置項:

      node.host=133.133.134.175.

      例5顯示了1對多的關聯(lián)關系,其中Nginx的配置項與服務器節(jié)點2的IP地址和Tomcat的端口關聯(lián).例6涉及到4個配置項,其中,jdbc.url與MySQL、服務器的其他3個配置項關聯(lián).所提出的方法只關注1對1的關聯(lián)關系,僅發(fā)現(xiàn)了upstream.msg.server和IP的關系,這是由于差異較大的字符串導致最終的關聯(lián)性系數(shù)很低.

      2) 關聯(lián)性分布

      將系統(tǒng)的服務組件具體分為2類.

      ① 應用服務組件(圖9中表示為App).提供業(yè)務相關的功能和服務,例如CloudShare中的Web模塊(即WAR包)和Adventure系統(tǒng)中的Web服務、EJB和WS-BPEL流程等;

      Fig. 9 Configuration association圖9 配置項關聯(lián)

      ② 實例通用服務組件(圖9中表示為Com).提供公共服務的服務組件以支持多種業(yè)務應用,如Nginx,Redis,Tomcat,ActiveMQ,MySQL.

      服務組件之間的依賴關系分為3類: App與App,App與Com,Com與Com.根據(jù)3種類型的服務組件依賴關系對關聯(lián)關系進行分組,分布情況如圖9所示,發(fā)現(xiàn)大多數(shù)關聯(lián)存在于App與App之間以及App與Com之間.這是由于應用的服務組件依賴于系統(tǒng)軟件所提供的服務,造成許多配置項互相關聯(lián).例如,service.war依賴于Redis的緩存服務,因此它們之間有3個配置項關聯(lián),即端口號、IP地址和密碼.另外,應用的服務組件之間的數(shù)據(jù)通信和功能依賴也產(chǎn)生了許多App與App的配置項關聯(lián).例如,Web服務HotelService和HotelEJB之間有4個關聯(lián),即jndi-name,jndi-provider,URL,以及其他一些參數(shù).因此,大多數(shù)配置項關聯(lián)都是應用在程序與其他軟件之間.

      4 相關工作

      在配置錯誤檢測方面,通常采用程序分析方法,主要包括靜態(tài)分析與動態(tài)分析.基于靜態(tài)數(shù)據(jù)流的方法剖析軟件源代碼并分析數(shù)據(jù)執(zhí)行流,預先計算可能出現(xiàn)的配置錯誤[12].ConfAid動態(tài)注入程序執(zhí)行的源碼以跟蹤程序執(zhí)行流程,檢測錯誤的根本原因[13].ConfDiagnoser將靜態(tài)分析與動態(tài)分析相結合,基于統(tǒng)計分析技術將不希望的行為與特定的配置項聯(lián)系起來[14].CODE基于統(tǒng)計分析技術設定在特定背景下訪問配置項的規(guī)則,通過檢測訪問配置的行為自動發(fā)現(xiàn)軟件配置錯誤[15].基于簽名的方法提取與特定錯誤配置相關聯(lián)的程序行為,將其定義為簽名,從而診斷配置錯誤類型[16-17].基于重放的方法(如Chronus[18],AutoBash[19],Traight[20])在沙箱中嘗試可能的配置變化以修復配置錯誤.基于比較的方法(如Strider[21],PeerPressure[22])將錯誤配置與正確配置相比較,根據(jù)差別檢測配置錯誤原因.在簡化系統(tǒng)配置方面,當前工作可以降低錯誤配置率的方式有:提供自動化的部署和配置;最小化配置項數(shù)量并找出頻繁設置的配置項;設置用戶友好的配置約束.文獻[1]通過實例研究在配置項設計方面提供給軟件架構師和開發(fā)人員有益經(jīng)驗以供借鑒.ConfValley是由聲明性語言、推理機和檢查器組成的通用配置驗證框架,以易于軟件系統(tǒng)配置[23].

      在配置錯誤修復方面,當前工作通過拒絕錯誤的配置和打印有用的日志信息來查明錯誤.Conferr是用來測試和評估軟件系統(tǒng)對人為造成配置錯誤的恢復能力[24].文獻設置要改變的配置項,并給出這些值的建議取值范圍,從而修復配置錯誤[25].ConfDiagDetector在測試階段注入配置錯誤,并觀察輸出信息,運行時基于配置變異與自然語言處理檢測配置錯誤[26].文獻[27]提出了一種數(shù)據(jù)量感知的內(nèi)存集群自動配置方法,可有效識別程序的高維配置,通過分層方式組合了多個獨立子模型以構建性能模型,采用遺傳算法搜索最優(yōu)配置,從而在給定集群上實現(xiàn)最佳性能.文獻[28]用歸納方法調研了運營商對安全配置錯誤的看法,探討這類安全問題中的人為因素,定性研究如何達到目標群體并檢測錯誤配置,為減少錯誤配置的頻率和影響提供了建議.文獻[29]對5種廣泛使用的開源軟件源代碼的配置約束及變化進行例研究,發(fā)現(xiàn)配置數(shù)據(jù)總體的統(tǒng)計、特定類型約束的特征以及配置約束提取的障礙3種情況,進而提出建議以自動提取配置約束.MisconfDoctor通過錯誤配置測試,提取每個錯誤配置的日志特征,并構建特征數(shù)據(jù)庫,通過計算新異常日志與特征數(shù)據(jù)庫的相似性來發(fā)現(xiàn)潛在的錯誤配置[30].PCHECK幫助軟件系統(tǒng)早期檢測隱性配置錯誤,分析源代碼并自動生成配置檢查代碼,使用配置值模仿后期執(zhí)行以捕獲錯誤表現(xiàn)[31].

      一些工作關注于配置關聯(lián)性檢測.Rabkin將配置項分為數(shù)字、模式、標識符和其他等4種類型,基于靜態(tài)程序分析學習程序使用配置項的模式以推斷配置項類型[8].SPEX根據(jù)軟件源碼分析控制流圖以推斷配置項間的控制依賴,并比較語句以推斷配置項值的關系,沿著參數(shù)的整個數(shù)據(jù)流路徑學習配置模式以確定其語義[32].Encore使用數(shù)據(jù)的語法模式和系統(tǒng)的環(huán)境信息推斷配置項類型,基于機器學習以模板的形式給出配置項關聯(lián)性[7].與SPEX和Encore不同,所提出方法僅基于配置文件而不是分析源代碼來確定配置項關聯(lián),因此與編程語言無關.此外,用一組預定義的正則表達式推斷配置項可能的多種類型,而不是僅表示單一的類型信息,具有更強的表達能力.文獻[11]基于配置項值的相似性計算其關聯(lián)概率,同時提出了一些過濾器,例如異值過濾器、非頻繁值過濾器和歸一化Google距離過濾器.然而,這些過濾器在實際應用中受到限制而不能使用.異值過濾器和非頻繁值過濾器要求多個服務組件例,在只有一個例的情況下無法應用.另外,標準化Google距離過濾器利用Google搜索結果中2個配置項的出現(xiàn)頻率作為過濾度量.然而如果至少有一個是特定應用軟件的配置項,則很難找到配置項對的出現(xiàn).所提出方法分析了配置項的鍵、值和類型,并且過濾檢測不需要額信息,具有準確性與實用性.

      5 討 論

      采用例研究方法系統(tǒng)調研了3層架構企業(yè)應用,提取了表2典型配置的數(shù)據(jù)類型的正則表達式形式,分析了通用類型關聯(lián)規(guī)則,實驗結果及系統(tǒng)實踐表明,能夠較好解決3層架構企業(yè)應用的配置關聯(lián)性檢測問題.同時,配置的數(shù)據(jù)類型和配置類型的關聯(lián)性規(guī)則具有可擴展性,面向不同的應用系統(tǒng)可以在實際運行過程中增量式添加新的正則表達式和類型關聯(lián)規(guī)則.由于難以窮舉配置文件中所有數(shù)據(jù)類型,因此在今后工作中,計劃應用自然語言處理或語義分析技術更好理解配置項中的關鍵字.

      方法粗粒度定義了一些通用類型關聯(lián)規(guī)則,覆蓋面較窄,因此在今后工作中,計劃面向具體應用領域廣泛分析更多的開源軟件系統(tǒng),以定義更多領域相關的類型關聯(lián)規(guī)則.方法難以發(fā)現(xiàn)2個以上配置項之間的關聯(lián)性,且服務組件之間還可能存在關聯(lián)性的傳遞[32],因此在今后工作中,計劃應用統(tǒng)計學習和推斷技術更準確地發(fā)現(xiàn)這類關聯(lián)性.所提出方法無法發(fā)現(xiàn)在程序中被硬編碼為常量或變量,而不出現(xiàn)在配置文件中的配置項,因此在今后工作中,計劃引入程序分析技術以更全面發(fā)現(xiàn)配置信息.

      所提出方法設計多個參數(shù)設置,如一致關聯(lián)性中的α,β,γ,以及閾值過濾中的閾值等.這些參數(shù)根據(jù)經(jīng)驗設置,實踐過程及實驗結果表明,能夠得到較好效果.分布式系統(tǒng)的多參數(shù)設置是一個重要的研究方向,目前已有較多研究成果[33-34],因此未對該方向開展深入研究.在未來工作中,將嘗試采用已有基于智能搜索的參數(shù)設置方法(如爬山算法)以合理、高效配置參數(shù).

      6 結 論

      分布式軟件系統(tǒng)在部署、更新或遷移過程中,由于服務組件配置項之間存在著關聯(lián)性,配置項設置不一致會引發(fā)配置錯誤.人工手動確定配置項的關聯(lián)性需要跨多個軟件的領域知識,既耗時又繁瑣.針對該問題,提出了一種基于關聯(lián)挖掘的服務一致化配置方法,以自動發(fā)現(xiàn)服務組件之間配置項的關聯(lián)性,并基于2個典型開源軟件系統(tǒng)對其效果進行了評估.

      猜你喜歡
      配置文件關聯(lián)性過濾器
      提示用戶配置文件錯誤 這樣解決
      搭建簡單的Kubernetes集群
      互不干涉混用Chromium Edge
      忘記ESXi主機root密碼怎么辦
      支持過濾器的REST模型研究與實現(xiàn)
      電子測試(2018年9期)2018-06-26 06:45:56
      聲音過濾器
      趣味(語文)(2018年2期)2018-05-26 09:17:55
      四物湯有效成分的關聯(lián)性分析
      中成藥(2017年3期)2017-05-17 06:09:05
      如何準確認定排污行為和環(huán)境損害之間的關聯(lián)性
      CRP檢測與新生兒感染的關聯(lián)性
      基于LOGO!的空氣過濾器自潔控制系統(tǒng)
      自動化博覽(2014年6期)2014-02-28 22:32:20
      崇文区| 勐海县| 山东省| 彭山县| 格尔木市| 平谷区| 龙里县| 赞皇县| 赤峰市| 张家港市| 神池县| 灵台县| 腾冲县| 霍林郭勒市| 和硕县| 广西| 乌恰县| 通河县| 安徽省| 青海省| 庆云县| 新疆| 抚宁县| 青河县| 滨州市| 新和县| 上高县| 汤原县| 榆社县| 额敏县| 基隆市| 临邑县| 土默特左旗| 四子王旗| 丹东市| 湘阴县| 石狮市| 葫芦岛市| 汾阳市| 霍州市| 遂平县|