• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      PC服務(wù)器故障預(yù)測分析及維護(hù)處理

      2020-11-26 06:06:44來風(fēng)剛李濟(jì)偉董耀眾宋瑞華李偉良
      電子技術(shù)與軟件工程 2020年1期
      關(guān)鍵詞:死機(jī)硬盤內(nèi)存

      文/來風(fēng)剛 李濟(jì)偉 董耀眾 宋瑞華 李偉良

      (1.國家電網(wǎng)有限公司信息通信分公司 北京市 100053)

      (2.國電南瑞科技股份有限公司信息系統(tǒng)集成分公司 江蘇省南京市 211102)

      在信息化時代的今天,計算機(jī)技術(shù)的發(fā)展有目共睹,而PC 服務(wù)器作為與計算機(jī)息息相關(guān)的一項技術(shù),其因自身價位較低且性能較高的優(yōu)點被廣泛應(yīng)用于各行各業(yè)的工作中,如國網(wǎng)數(shù)據(jù)中心等,現(xiàn)今也在實施現(xiàn)代化的管理,PC 服務(wù)器正為這項工作提供了強(qiáng)有力的技術(shù)保障[1]。

      1 關(guān)于服務(wù)器的概述

      技術(shù)上的服務(wù)器主要的概念就是管理資源,而后給用戶提供一系列服務(wù)。作為計算機(jī)軟件,其包含數(shù)據(jù)庫服務(wù)器、應(yīng)用程序服務(wù)器以及文件服務(wù)器等,令此類軟件正常運行的各種計算機(jī)以及計算機(jī)系統(tǒng)被叫做服務(wù)器。和一般的PC 比較,這類服務(wù)器的性能、穩(wěn)定性以及安全性等都有較高的要求,且在網(wǎng)絡(luò)、內(nèi)存、硬盤系統(tǒng)、PU 以及芯片組等方面也和普通計算機(jī)存在差異[2]。其是網(wǎng)絡(luò)節(jié)點服務(wù)器,所以可以處理或存儲網(wǎng)絡(luò)里80%的數(shù)據(jù)和信息,還一直被叫做“PC 網(wǎng)絡(luò)靈魂”。受到操作系統(tǒng)的控制,服務(wù)器可以將和它所連接的打印機(jī)、de、硬盤、磁帶或其他的通訊設(shè)備作為共享給網(wǎng)絡(luò)客戶的站點,同時還可給用戶提供信息發(fā)表、數(shù)據(jù)管理以及集中計算等各項服務(wù)。服務(wù)器的高性能一般體現(xiàn)在長時間的運行能力、強(qiáng)大的外部數(shù)據(jù)傳播能力以及高速運算的能力。

      2 PC服務(wù)器的故障預(yù)測分析

      2.1 常見的故障

      在所有的故障中,比較常見就是服務(wù)器的軟件故障,這種情況大概占整體故障的70%,而其余的30%則是硬件故障。其中,軟件故障主要有人為造成、治理軟件例存在BUG、服務(wù)器的驅(qū)動程序問題、應(yīng)用程序沖突或BIS 版本太低等[3];而硬件故障則主要包括:操作系統(tǒng)加載問題、上電自檢的故障、系統(tǒng)運行的故障、安裝階段的故障以及開機(jī)問題等。服務(wù)器的構(gòu)成相對來說比較復(fù)雜,所以在排查是應(yīng)保持謹(jǐn)慎。

      2.2 服務(wù)器故障的預(yù)測分析

      服務(wù)器的主要組件無外乎CPU、內(nèi)存、硬盤、主板、I/O 板卡、RAID 卡、電源、風(fēng)扇等,我們可以從這些組件來探討如何預(yù)測服務(wù)器不久可能出現(xiàn)的問題,從而提前做出相應(yīng)準(zhǔn)備,做好相應(yīng)應(yīng)急措施,減少服務(wù)器出問題時定位和恢復(fù)服務(wù)器的時間,減少服務(wù)器出故障出現(xiàn)的負(fù)面影響,提高我們的平均修復(fù)時間(MTTR)。

      2.2.1 PC 服務(wù)器構(gòu)成主要部件

      (1)中央處理器(CPU):CPU 是服務(wù)器的計算單元,其功能主要是解釋計算機(jī)指令以及處理計算機(jī)軟件中的數(shù)據(jù)。我們平時有什么方法來知道它的狀態(tài)及運行情況,在不同的操作系統(tǒng)上,我們可能通過命令或圖形操作知道CPU 的信息,如:Linux:/proc/cpuinfo,Windows 我的電腦-屬性及Windows 任務(wù)管理器,通過腳本或者工具檢測其狀態(tài),如:Super Pi forlinux,CPU GrabEx–Windows 測試工具,以便對有其穩(wěn)定性、性能、隱形問題進(jìn)行分析和預(yù)測,根據(jù)問題和頻繁程度預(yù)測CPU 情況,做出相關(guān)應(yīng)對措施。

      (2)內(nèi)存:內(nèi)存就是隨機(jī)存取存儲器(RAM),在計算期間被用作高速暫存記憶區(qū),物理上是我們平??吹降膬?nèi)存條,它的檢測方法有很多,很多服務(wù)器本身在bios 里面就有memory test,或者自帶的檢測光盤,通過這些檢測手段,在檢測完畢后可以看到檢測的結(jié)果和問題,如果存在某一根內(nèi)存有較多的ECC 報錯,我們可以預(yù)測它出問題的概率很大,如果只是幾次ECC 報錯,那么我們可以繼續(xù)觀察,它認(rèn)為是沒有問題。在系統(tǒng)上我們也能使用工具memtester、Windows memory diagnostic 測試,測試完畢后可以分析內(nèi)存存在的問題,預(yù)測內(nèi)存出問題的可能性。

      (3)硬盤:硬盤(harddisk)是服務(wù)器中的存儲器。計算機(jī)需要正常運行所需數(shù)據(jù)及軟件都存儲在硬盤上,現(xiàn)在有一項技術(shù)--S.M.A.R.T., 全 稱 為“Self-Monitoring Analysisand Reporting Technology”,即“自我監(jiān)測、分析及報告技術(shù)”。通過硬盤內(nèi)的檢測指令對硬盤如磁頭、盤片、馬達(dá)、電路的運行情況進(jìn)行監(jiān)測、記錄并與廠商所設(shè)定的預(yù)設(shè)安全值進(jìn)行比較,若監(jiān)測情況超出預(yù)設(shè)安全值,它就通過主機(jī)的監(jiān)控硬件或軟件自動向運維人員發(fā)出警告,這樣我們就可以對硬盤進(jìn)程預(yù)測,提前做出準(zhǔn)備。

      (4)主板:主板是負(fù)責(zé)連接服務(wù)器各組件的橋梁,其工作的穩(wěn)定性直接影響著服務(wù)器能否正常。由于它所集成的組件和元器件復(fù)雜,因此發(fā)生故障的原因也比較多,要預(yù)測服務(wù)器上主板的問題,一般沒有很好的方法,主要是查看日志,比如:BMC日志,溫度、電壓,系統(tǒng)日志等,能做個基本的預(yù)測。

      (5)I/O 板卡、RAID 卡、電源、風(fēng)扇:這類板卡、電源及風(fēng)扇檢測相對比較容易,如:網(wǎng)卡在系統(tǒng)上就可以使用命令或者軟件做到,Ethtool 和Windows perfmon 看看其丟包率,HBA 卡通過交換機(jī)看到相應(yīng)端口的光衰情況,命令fcping 也能做出相關(guān)檢測,raid 卡使用megacli、storcli 查看raid 的報錯情況和頻率做出判斷,風(fēng)扇和電源在BMC 上可以查看其轉(zhuǎn)速和電壓情況與廠家給出的正常范圍做出比較,如果經(jīng)常臨近閥值時,我們可以預(yù)測此部件可能不久會出問題,我們可以提前做好更換的準(zhǔn)備。

      2.2.2 常見故障可以分為兩大類

      (1)死機(jī)故障:以國網(wǎng)數(shù)據(jù)中心為例,其對PC 服務(wù)器的穩(wěn)定性與安全性要求很高,一旦服務(wù)器出現(xiàn)數(shù)據(jù)丟失等情況,則可能影響正常工作,所以對PC 服務(wù)器的故障進(jìn)行預(yù)測和分析至關(guān)重要。就死機(jī)故障又可以分為三子類:

      1)硬件故障,所有故障中最常見的就是死機(jī)的問題,有時系統(tǒng)無法正常啟動,如開機(jī)之后不顯示、在啟動的過程中發(fā)生終止、瀏覽信息后出現(xiàn)死機(jī)或運行中出現(xiàn)永久性和間歇性死機(jī)的情況。導(dǎo)致這些問題的原因經(jīng)過分析發(fā)現(xiàn):首先可能是器件的故障問題,如AHE、主板、PU 或內(nèi)存條等出現(xiàn)問題;然后就是部件的安裝問題,安裝不到位、插接的松動或連接缺乏準(zhǔn)確性等,或在安裝時,不恰當(dāng)?shù)牟僮鲗?dǎo)致部件變形,進(jìn)而引發(fā)死機(jī)[4];同時,系統(tǒng)配置問題也可能造成死機(jī),主板跳線開關(guān)、硬件設(shè)備、系統(tǒng)BIS 和系統(tǒng)配置存在很大關(guān)聯(lián);還有一點就是軟件在安裝和配置時令內(nèi)部發(fā)生了沖突,進(jìn)而導(dǎo)致死機(jī)的情況發(fā)生,其中S 參數(shù)和系統(tǒng)被病毒破壞,就很可能引發(fā)死機(jī);除此之外,使用和維護(hù)也很重要,一旦維護(hù)不當(dāng),也很可能造成死機(jī),如出現(xiàn)板卡和芯片引腳氧化的情況,會導(dǎo)致接觸不良,部件受潮或積灰等也易引發(fā)死機(jī),服務(wù)器的板卡和外設(shè)接口出現(xiàn)松動,當(dāng)發(fā)生閃電或雷擊等意外時,就會使電源、主機(jī)以及其他的設(shè)備被損壞,進(jìn)而導(dǎo)致死機(jī);

      2)性能故障,此類問題一般比較隱蔽,它出現(xiàn)死機(jī)的情況一般都是有規(guī)律的,在固定的日期或者時間出現(xiàn),一般日志不容易發(fā)現(xiàn),等你檢查了很多東西后發(fā)現(xiàn)還是沒有什么頭緒。服務(wù)器重啟后也許就好了,也許過一段時間又出現(xiàn)這種情況,運維人員才把注意力放到服務(wù)器性能上,我們的慣性思維認(rèn)為服務(wù)器一般是滿足應(yīng)用需要的,只有在日積月累中服務(wù)器的性能才會慢慢的不能匹配業(yè)務(wù)需要,種類問題才會發(fā)生,分析性能問題是需要安裝軟件的,在Linux 中我們使用nmon,Windows 有自己自帶的Performance Monitor,在分析中我們可以看到某些性能達(dá)到極限值,最后導(dǎo)致服務(wù)器死機(jī);

      3)程序故障,程序出故障導(dǎo)致服務(wù)器死機(jī)我們在平時也能見到,特別是新上線的軟件程序,它的兼容性、穩(wěn)定性都有待提高和改進(jìn),程序?qū)Σ煌到y(tǒng)版本的支持,和其他程序是否有沖突,程序是否存在漏洞及程序的邏輯錯誤等都會導(dǎo)致程序出問題,從而最終導(dǎo)致服務(wù)器死機(jī)。

      (2)無法訪問網(wǎng)絡(luò)或IP 地址沖突的故障:PC 服務(wù)器在運行的過程中,還會發(fā)生無法訪問網(wǎng)絡(luò)等問題,這也會給工作單位帶來諸多困擾,所以要及時分析原因。

      導(dǎo)致這種情況最主要的因素有兩個:

      1)計算機(jī)硬件的問題,如網(wǎng)絡(luò)連線和網(wǎng)卡安裝等導(dǎo)致;

      2)網(wǎng)絡(luò)屬性的設(shè)置問題。

      除此之外,在利用計算機(jī)進(jìn)行登錄時,有時還會發(fā)生IP 地址沖突等現(xiàn)象,導(dǎo)致這種情況的原因就是使用計算機(jī)的過程中,局域網(wǎng)IP 地址被認(rèn)為改動,導(dǎo)致IP 地址發(fā)生資源重復(fù)的現(xiàn)象,這種故障在很多領(lǐng)域都會發(fā)生。PC 服務(wù)器在運行過程中,遇到的故障有很多,這些故障很可能導(dǎo)致工作的無法進(jìn)行,如國網(wǎng)數(shù)據(jù)中心使用PC 服務(wù)器時,如發(fā)生故障,則可能使工作受到影響,進(jìn)而引發(fā)嚴(yán)重后果,所以一定要進(jìn)行處理。

      3 PC服務(wù)器的維護(hù)處理措施

      3.1 維護(hù)處理死機(jī)故障

      導(dǎo)致PC 服務(wù)器死機(jī)故障的因素眾多。

      (1)當(dāng)硬件出現(xiàn)故障,如出現(xiàn)電源無法開機(jī)的情況時,需取下服務(wù)器里的所有電源模塊,同時還要檢查電源模塊和電源籠的接口,這種做法主要是對電源模塊和電源籠的接口松動情況進(jìn)行確認(rèn),觀察其是否可以經(jīng)過重裝達(dá)到加固的效果,但如果是固定卡被損壞,則需更換電源,進(jìn)而對電纜進(jìn)行控制;另外,如果出現(xiàn)其他電纜接口被損壞的情況,則需更換備件;當(dāng)開機(jī)無法顯示,且系統(tǒng)日志里表明CPU 的電壓為OV 信息,而系統(tǒng)的指示燈也在不斷的閃爍,則表示為VRM 出現(xiàn)問題或CPU 發(fā)生故障,此時應(yīng)該把CPU換到其他CPU 插槽中,但如果重啟之后還是出現(xiàn)此類現(xiàn)象,則表示CPU 發(fā)生損壞,此時可將CPU 取出,而后仔細(xì)擦拭金手指;當(dāng)開機(jī)之后未出現(xiàn)系統(tǒng)的信息提示時,則分析可能為電源因素,但如果檢查之后認(rèn)定電源沒有問題,則可能為PC 服務(wù)器的電源管理板發(fā)生故障,對此,只要更換電源管理板即可解決;在自檢的過程中,按CTRL+M 鍵但沒有檢測出硬盤,且此時硬盤于其他服務(wù)器里可以正常使用,說明應(yīng)該清除CMOS,如果還是沒有恢復(fù)正常,則需升級BIOS,此時依然沒有將問題解決,則需全面檢查電源線、數(shù)據(jù)線以及硬盤籠子,如果還是無法解決,則需檢查服務(wù)器I/O 板,進(jìn)而對異常網(wǎng)卡予以清除[5]。另外,當(dāng)遇到系統(tǒng)死機(jī)、藍(lán)屏或反應(yīng)遲鈍等現(xiàn)象,表示服務(wù)器的軟件系統(tǒng)有問題,此時應(yīng)該將重要文件備份之后重裝系統(tǒng);

      (2)出現(xiàn)性能故障的時候,需要借助分析軟件,綜合分析服務(wù)器的性能瓶頸,做到有的放矢,增加內(nèi)存、增加網(wǎng)絡(luò)帶寬、提高處理器處理能力、調(diào)整系統(tǒng)核心參數(shù),通過一系列測試,將服務(wù)器的性能引起的死機(jī)問題處理解決;

      (3)出現(xiàn)應(yīng)用程序故障,我們一般是從系統(tǒng)或者應(yīng)用的日志中能查詢到相關(guān)報錯,抓取程序日志、系統(tǒng)日志、服務(wù)器BMC 端口日志,綜合分析。

      3.2 維護(hù)處理無法訪問網(wǎng)絡(luò)或IP地址沖突的故障

      遇到這種情況且無法進(jìn)行查看時,需考慮以下幾方面問題。如果為硬件原因,則首先要仔細(xì)檢查,做好安裝和連接;如果是因網(wǎng)絡(luò)屬性的設(shè)置原因,則要進(jìn)行專門的設(shè)置操作,首先需檢查網(wǎng)絡(luò)標(biāo)示,具體的步驟為:打開“我的電腦”中“屬性”選項,檢查計算機(jī),而后對計算機(jī)名進(jìn)行修改,在對話框中檢查網(wǎng)絡(luò)的標(biāo)示,檢查“工作組”或“域”,然后就是檢查IP 地址的設(shè)置,準(zhǔn)確設(shè)置網(wǎng)絡(luò)地址,最后則是對網(wǎng)絡(luò)協(xié)議進(jìn)行設(shè)置。而當(dāng)IP 地址發(fā)生問題時,則需重新規(guī)劃IP 地址,或?qū)P 地址進(jìn)行動態(tài)的分配,這樣即可解決問題。

      4 結(jié)束語

      總而言之,PC 服務(wù)器故障問題可能會對整個工作區(qū)域造成影響,所以要做好預(yù)測分析和維護(hù)處理。只有保證PC 服務(wù)器正常、安全、有效地運行,才能使工作順利進(jìn)行,推動各單位的信息化發(fā)展。

      猜你喜歡
      死機(jī)硬盤內(nèi)存
      電腦死機(jī)時在干什么
      電腦報(2022年49期)2023-01-01 03:42:10
      提醒
      HiFi級4K硬盤播放機(jī) 億格瑞A15
      Egreat(億格瑞)A10二代 4K硬盤播放機(jī)
      “春夏秋冬”的內(nèi)存
      臉?biāo)罊C(jī)了
      我區(qū)電視臺對硬盤播出系統(tǒng)的應(yīng)用
      基于內(nèi)存的地理信息訪問技術(shù)
      上網(wǎng)本為什么只有1GB?
      撐一把保護(hù)傘讓你的CPU不再過熱
      安龙县| 拉萨市| 安溪县| 达孜县| 济阳县| 五常市| 宁武县| 英吉沙县| 广宗县| 望江县| 确山县| 石棉县| 资中县| 开阳县| 江门市| 鄯善县| 台湾省| 隆德县| 德江县| 团风县| 怀柔区| 石渠县| 治县。| 江门市| 武强县| 古浪县| 陆河县| 三台县| 嵊泗县| 华坪县| 青阳县| 阳原县| 筠连县| 平阳县| 康乐县| 荆门市| 双柏县| 温州市| 清涧县| 宜城市| 宝丰县|