小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

鋼鐵是怎樣煉成的——網(wǎng)絡(luò)產(chǎn)品硬件的可靠性保證,運(yùn)維管理知識,運(yùn)維管理教程

 ekylin 2012-06-11

鋼鐵是怎樣煉成的——網(wǎng)絡(luò)產(chǎn)品硬件的可靠性保證


現(xiàn)高可用網(wǎng)絡(luò)的方法,除了像冗余備份、提高故障診斷能力、增加備件這些減少設(shè)備宕機(jī)時(shí)恢復(fù)時(shí)間的方法之外,還包括一個(gè)重要的指標(biāo)--設(shè)備的可靠性  。如何保證硬件設(shè)備的可靠性?它包括哪些方面?

可靠性管理:可靠性保證和增長的基礎(chǔ)

之所以把可靠性管理放在第一位,優(yōu)先于可靠性設(shè)計(jì)、分析和試驗(yàn),是因?yàn)槲覀冋J(rèn)為后者都是具體的、細(xì)節(jié)的技術(shù)或方法,是可以短期內(nèi)修正或完善的;而可 靠性管理則代表了一個(gè)公司可靠性領(lǐng)域在流程和制度上的成熟度,需要時(shí)間、實(shí)踐、經(jīng)驗(yàn)和數(shù)據(jù)的積累和沉淀,可以說是員工心智和公司文化的體現(xiàn)  。

H3C于2005年正式將可靠性納入公司的流程管理,作為產(chǎn)品開發(fā)過程中的重要一環(huán)  。對于研發(fā)的每款產(chǎn)品,H3C都會制定相應(yīng)的可靠性規(guī)格和過 程實(shí)施計(jì)劃  ??煽啃砸?guī)格是產(chǎn)品概念階段在可靠性指標(biāo)上的承諾,根據(jù)各方面的需求決定出要做什么樣的產(chǎn)品  ??煽啃赃^程計(jì)劃則明確定義什么階段、由誰 完成哪些可靠性工作,達(dá)到什么目標(biāo),過程如何規(guī)范,交付哪些內(nèi)容,在執(zhí)行上保證了規(guī)格承諾的兌現(xiàn)  。

舉例來說,器件管理和優(yōu)選便是可靠性管理體系中的重要組成部分  。做過產(chǎn)品開發(fā)的人都知道,不同廠家的同型號器件,往往很難做到所有參數(shù)完全一 致  。當(dāng)器件參數(shù)不一致時(shí),產(chǎn)品在設(shè)計(jì)初期就需要考慮通過容差設(shè)計(jì)來兼容這些器件,這樣就對設(shè)計(jì)和制造提出了更高的要求,一定程度上提高了設(shè)計(jì)制造的難 度和成本  。隨著供應(yīng)商和器件型號的增加,管理費(fèi)用迅速上升,彼此溝通變成了一個(gè)費(fèi)時(shí)費(fèi)力而且低效的工作  。另一方面,設(shè)計(jì)和制造也不斷出現(xiàn)由"兼容 設(shè)計(jì)"引起的問題,允許免檢直接入庫的器件變少  。對于這種問題,在H3C,有專門的部門負(fù)責(zé)器件優(yōu)選和認(rèn)證管理工作,他們跟蹤業(yè)界器件技術(shù)發(fā)展的動(dòng) 態(tài),對制造、客戶出現(xiàn)的器件問題進(jìn)行跟蹤和數(shù)據(jù)搜集,提供各類優(yōu)選器件清單,使器件選型工作簡單有效  。當(dāng)有器件需要替代時(shí),必需經(jīng)過足夠環(huán)節(jié)的審核、 測試和小批量驗(yàn)證才能被規(guī)模使用  。

可靠性增長的一個(gè)重要方法是應(yīng)用FRACAS系統(tǒng)(Failure Report Analysis and Corrective Action System),其原理是利用"故障反饋、閉環(huán)控制、預(yù)防再發(fā)生",通過一系列規(guī)范化的工作程序,及時(shí)報(bào)告產(chǎn)品故障,分析故障根因并糾正,通過臨時(shí)規(guī)避措 施減小故障的影響,通過預(yù)防再發(fā)生的解決措施實(shí)現(xiàn)產(chǎn)品可靠性增長  。在H3C,從研發(fā)、試產(chǎn)、生產(chǎn)到客戶現(xiàn)場,各環(huán)節(jié)不同程度都在實(shí)施故障報(bào)告和閉 環(huán)  。以HASA(Highly Accelerated Stress Audit,高加速應(yīng)力稽核)流程為代表,該流程融入了FRACAS和8D的思路,對每一臺HASA過程出現(xiàn)問題的設(shè)備,都建立流程跟蹤,從條碼記錄、故 障現(xiàn)象、故障風(fēng)險(xiǎn)分析、根本原因總結(jié)到解決措施、閉環(huán)實(shí)施,把各環(huán)節(jié)有機(jī)整合起來,實(shí)現(xiàn)發(fā)貨前檢驗(yàn)的高效率和問題閉環(huán)的有效性  。將每個(gè)HASA失效都 看作改進(jìn)過程的機(jī)會,從而使解決問題的投入達(dá)到利益最大化  。

根據(jù)流程,所有和可靠性相關(guān)的關(guān)鍵數(shù)據(jù)都集成到了QA系統(tǒng)的可靠性模塊  。在這里,可以查到某款產(chǎn)品在特定發(fā)貨時(shí)間的市場失效情況,可以跟蹤市場 實(shí)際MTBF、累計(jì)失效率、制造批次相關(guān)的失效率等等  。通過數(shù)據(jù)分析和同類產(chǎn)品比對,去發(fā)現(xiàn)設(shè)計(jì)、制造、管理各環(huán)節(jié)可以提高的機(jī)會,實(shí)現(xiàn)進(jìn)一步的可靠 性增長  。

良好的可靠性管理通過建立一套嚴(yán)格的紀(jì)律,指導(dǎo)設(shè)計(jì)人員什么時(shí)候要做什么事情;可以讓今天的教訓(xùn)成為明天的預(yù)防,在明天就"一次性把事情做對";可 以讓我們"站在巨人的肩膀上",做任何事情都不是從零開始  。而所有的目的,只是為了實(shí)現(xiàn)可靠性目標(biāo)的承諾,保證提供給客戶的產(chǎn)品,在承諾的時(shí)間內(nèi)是高 可靠的、是滿足客戶要求的  。

可靠性設(shè)計(jì):關(guān)注細(xì)節(jié),重在執(zhí)行

談到電子產(chǎn)品可靠性設(shè)計(jì),我們幾乎馬上會想到熱設(shè)計(jì)、元器件降額、容差容錯(cuò)設(shè)計(jì)、可靠性預(yù)計(jì)等等  。可靠性設(shè)計(jì)是否成功,有兩點(diǎn)必不可少,其一是執(zhí)行,其二是細(xì)節(jié)  。

首先是執(zhí)行  。以降額設(shè)計(jì)為例,不少公司都有降額設(shè)計(jì)規(guī)范,但這個(gè)規(guī)范是否被嚴(yán)格執(zhí)行了,超出降額的器件有沒有被專業(yè)評估,降額要求是否根據(jù)制造 /市場元器件的表現(xiàn)調(diào)整,不同產(chǎn)品是否需要分別對待實(shí)現(xiàn)全壽命成本最優(yōu),都是可靠性設(shè)計(jì)的關(guān)鍵  。再如熱設(shè)計(jì),在H3C,熱設(shè)計(jì)由可靠性工程師保 證  。每款產(chǎn)品,在開發(fā)初期,都會對散熱進(jìn)行評估和仿真,提前釋放散熱風(fēng)險(xiǎn)  。在整個(gè)評估過程中,可靠性工程師和結(jié)構(gòu)工程師、產(chǎn)品開發(fā)人員、互連設(shè)計(jì) 工程師的溝通非常緊密,結(jié)構(gòu)、布局的變化會知會可靠性工程師進(jìn)行散熱風(fēng)險(xiǎn)評估  。風(fēng)險(xiǎn)沒有釋放,就不能通過下一個(gè)技術(shù)評審點(diǎn)  。

其次是細(xì)節(jié)  ??煽啃栽O(shè)計(jì)是一個(gè)需要注重細(xì)節(jié)的工作,所謂"千里之堤,潰于蟻穴"  。1980年,阿麗亞娜火箭第二次試飛時(shí),一名工作人員不慎 碰落一個(gè)部件的商標(biāo),堵塞了發(fā)動(dòng)機(jī)燃燒室的噴嘴,造成發(fā)射失敗  。1985年,美國發(fā)射"三叉戟"導(dǎo)彈,由于發(fā)動(dòng)機(jī)燃燒室中剝落了一塊黃豆大的絕緣層, 結(jié)果高溫火焰燒穿了那里的金屬壁,燃?xì)庀蛲鈬娚?,發(fā)動(dòng)機(jī)爆炸  。"Paying attention to details"因此被直接寫入到美軍標(biāo)338中的,這也是經(jīng)驗(yàn)和思考的總結(jié)  。

以H3C為例,熱設(shè)計(jì)中的熱仿真過程不但仿真常態(tài)情況,還會對風(fēng)扇停轉(zhuǎn)等異常狀態(tài)進(jìn)行仿真;在降額設(shè)計(jì)上,對各類器件電應(yīng)力進(jìn)行遍歷審查,對不同風(fēng) 扇轉(zhuǎn)速下熱應(yīng)力進(jìn)行遍歷測試,保證在規(guī)定環(huán)境下每個(gè)器件承受的應(yīng)力滿足降額要求;對易損耗的器件進(jìn)行壽命評估,保證在規(guī)定時(shí)間內(nèi)設(shè)備符合用戶的要求;對關(guān) 鍵電路進(jìn)行容差設(shè)計(jì)和仿真,保證器件參數(shù)隨環(huán)境應(yīng)力、壽命漂移時(shí),電路依然可以可靠工作  。對電路進(jìn)行簡潔度設(shè)計(jì),通過SI/PI仿真減少不必要的器 件,簡化設(shè)計(jì)從而降低單板失效率  。

可靠性分析:防患未然,心知肚明

可靠性分析主要包括三部分:可靠性預(yù)計(jì)、FMEA(故障模式影響分析)和FTA(故障樹分析)  。可靠性預(yù)計(jì)通過計(jì)算MTBF、返修率等指標(biāo),評 估維修成本、備件成本和整網(wǎng)可用度,可以提前預(yù)計(jì)產(chǎn)品在現(xiàn)場運(yùn)行的可靠性情況  。FTA構(gòu)造繁雜,對人員經(jīng)驗(yàn)和技能要求高,通常只對重要故障進(jìn)行分 析  。對于復(fù)雜產(chǎn)品,F(xiàn)MEA是一個(gè)防患未然的有效方法  。舉個(gè)簡單的例子,當(dāng)我們遇到十字路口紅綠燈失效的情況時(shí),哪種失效現(xiàn)象最不希望出現(xiàn)?顯 然,當(dāng)兩條路上同時(shí)出現(xiàn)綠燈時(shí)交通事故隱患就被埋下了  。那么在開展交通信號燈控制系統(tǒng)的FMEA分析時(shí),就要關(guān)注哪些器件失效會出現(xiàn)綠燈同時(shí)點(diǎn)亮的情 況,是否有解決方法  。

在H3C,復(fù)雜系統(tǒng)會開展FMEA分析工作,通過對系統(tǒng)中可能出現(xiàn)的故障模式和影響做深入分析,將故障檢測和容錯(cuò)設(shè)計(jì)納入產(chǎn)品需求,消除單點(diǎn)故 障  。對于冗余備份系統(tǒng),保證失效發(fā)生時(shí)設(shè)備可以快速倒換,業(yè)務(wù)運(yùn)行不受影響,從而提高產(chǎn)品可靠性  。在可靠性預(yù)計(jì)方面,利用強(qiáng)大的數(shù)據(jù)支持,結(jié)合歷 史數(shù)據(jù)分析,對可靠性預(yù)計(jì)進(jìn)行針對性修正,提高了預(yù)計(jì)的準(zhǔn)確性  。

可靠性試驗(yàn):真金不怕火煉

H3C研發(fā)出來的每一款產(chǎn)品,都會經(jīng)受可靠性試驗(yàn)的洗禮,其中最嚴(yán)酷的當(dāng)屬HALT試驗(yàn)(Highly Accelerated Life Test,高加速壽命試驗(yàn))  。

90年代HALT試驗(yàn)在國外獲得推廣,國內(nèi)企業(yè)由于各種限制起步相對較晚  。與傳統(tǒng)的施加模擬客戶環(huán)境的應(yīng)力來發(fā)現(xiàn)故障的環(huán)境試驗(yàn)不同,高加速應(yīng) 力是一種主動(dòng)的試驗(yàn)  。使用應(yīng)力步進(jìn)的方法,使設(shè)備不斷接近極限應(yīng)力,直到故障暴露  。通過"暴露缺陷-不斷改進(jìn)-再試驗(yàn)-再改進(jìn)"的方式,持續(xù)發(fā)現(xiàn) 并解決設(shè)計(jì)、來料、工藝等相關(guān)問題,從而獲得產(chǎn)品的快速穩(wěn)定  。這有點(diǎn)像運(yùn)動(dòng)員的訓(xùn)練,如果要參加100米短跑比賽,那么運(yùn)動(dòng)員平常訓(xùn)練時(shí)絕不會只是重 復(fù)訓(xùn)練100米沖刺,力量和耐力的訓(xùn)練必不可少  。同樣道理對于產(chǎn)品來說,雖然標(biāo)稱工作環(huán)境是0~40/45℃,HALT試驗(yàn)過程中其實(shí)都會經(jīng)受 100℃高溫和-40℃低溫的極限考驗(yàn)  。

圖1 5臺HALT/HASA試驗(yàn)箱,對產(chǎn)品進(jìn)行極限測試

圖1 5臺HALT/HASA試驗(yàn)箱,對產(chǎn)品進(jìn)行極限測試

關(guān)于HALT試驗(yàn)的三個(gè)疑問

1. HALT試驗(yàn)做到-40℃和100℃有沒有必要,室內(nèi)應(yīng)用的產(chǎn)品,怎么可能有這樣的環(huán)境?

經(jīng)驗(yàn)告訴我們,非常必要且獲益匪淺!按照H3C工程師的說法,不作HALT試驗(yàn)"心里沒底"  。

2. 廠家宣稱的0~70℃的器件能在-40~100℃環(huán)境工作嗎?

實(shí)踐表明,在可靠的電路設(shè)計(jì)下,器件完全可以承受比規(guī)格更高的應(yīng)力(極少數(shù)器件例外)  。

3. 為什么可以用環(huán)境應(yīng)力暴露未來5年甚至10年可能出現(xiàn)的可靠性問題?

研究一下元器件資料,看看容差設(shè)計(jì)的原理和品質(zhì)管控方面的書籍,就會發(fā)現(xiàn)一個(gè)共同點(diǎn):器件參數(shù)漂移  。當(dāng)一個(gè)器件在極限環(huán)境應(yīng)力下參數(shù)漂移范圍比 工作5年參數(shù)漂移范圍更寬時(shí),只要該器件在電路環(huán)境中能承受極限應(yīng)力,你就基本可以放心未來5年參數(shù)漂移引發(fā)失效的模式不會在電路中發(fā)生  。其他原因如 振動(dòng)累計(jì)損傷、磨損引起的失效加速分析等,這里不再展開  。

除了HALT試驗(yàn),H3C還采用了一個(gè)時(shí)尚前衛(wèi)的可靠性保證手段,那就是HASA篩選  。

研發(fā)出來的產(chǎn)品,到量產(chǎn)后,由于器件批次間的參數(shù)離散、工藝控制的原因,可靠性不可避免會降低  。HASA利用溫度、振動(dòng)、電應(yīng)力、數(shù)據(jù)流量等多 應(yīng)力同時(shí)施加的方式,有效篩選出故障設(shè)備,從而實(shí)現(xiàn)量產(chǎn)產(chǎn)品在質(zhì)量和可靠性上的快速穩(wěn)定  。通常的HASA篩選應(yīng)力遠(yuǎn)超出設(shè)備工作應(yīng)力,比如溫變率,典 型應(yīng)用環(huán)境溫變率不會超過0.5℃/分鐘,H3C篩選應(yīng)力是40℃/分鐘  。

其他常規(guī)試驗(yàn)如溫濕度類試驗(yàn)、機(jī)械類試驗(yàn)、EMC的浪涌/靜電/抗干擾試驗(yàn)、故障插入測試等,都是H3C產(chǎn)品的必檢項(xiàng),不通過這些試驗(yàn),產(chǎn)品是無法到達(dá)客戶手中的  。

結(jié)語

行文至此,相信你已對通信設(shè)備以及H3C產(chǎn)品可靠性保證體系有了簡單了解  。鋼鐵鑄就源于千錘百煉,提高可靠性,除了規(guī)格和規(guī)范的要求外,正成為 H3C從研發(fā)到生產(chǎn),從管理層到普通員工,日常工作的一項(xiàng)自發(fā)要求  。正是不同領(lǐng)域團(tuán)隊(duì)對可靠性工作的高度重視和大力投入,才鑄就了H3C產(chǎn)品的高可靠 性  。

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多