| 可靠性設(shè)計(jì)基礎(chǔ)(一)--理解可靠性 一、理解與可靠性定義 我們總是會說:某某公司的東西“好用”;某某公司的產(chǎn)品“質(zhì)量好”;我也會經(jīng)常抱怨某某系統(tǒng)“不穩(wěn)定”;某某公司的產(chǎn)品“不可靠”;某產(chǎn)品或者部件 “容易壞” ;某某品牌的東西“保養(yǎng)麻煩”。這些問題用戶或者管理人員一般都會把他們簡單歸集為“質(zhì)量問題”、 “可靠性問題”或者“隱含需求”。但是嚴(yán)格追溯起來,這些問題其實(shí)往往屬于好幾個不同類型的問題。技術(shù)人員有必須先科學(xué)的對問題分類,才能在問題發(fā)生的階段去專題解決問題。 與可靠性相關(guān)的概念有以下幾個: 01可靠性 可靠性只指產(chǎn)品在規(guī)定條件下和規(guī)定時間區(qū)間內(nèi)完成功能的能力。這是國家標(biāo)準(zhǔn)中給出的定義。標(biāo)準(zhǔn)的作用是用來衡量一個產(chǎn)品的好壞。那么怎么如何評價一個產(chǎn)品可靠性的好壞呢?這就需要對這個定義進(jìn)行度量。 一般來說“規(guī)定條件下”是恒定不變且長期保持的,是不具備度量條件的。首先一個產(chǎn)品的“功能”基本完整才可能被視為可用的產(chǎn)品,也不具備度量條件。因此可度量的就只剩下“時間”和“能力“。而能力是個很寬泛的概念,比較通行的度量的能力的辦法就是”概率“。因此這個定義可以近似等效為:“在固定條件下和規(guī)定時間區(qū)間內(nèi)保持功能完好的概率”或者”在固定條件下所有產(chǎn)品平均保持功能完好所持續(xù)的時間 (失效概率為50%)“。 這就引出了衡量可靠性的兩個參數(shù):失效概率“和”平均無故障時間“。且這兩個參數(shù)是互為相反數(shù)。值得注意的是,如果“規(guī)定條件”發(fā)生變化,是允許可靠性下降的,但下降的趨勢也是可靠性設(shè)計(jì)的需要關(guān)注指標(biāo)。 本文主要講可靠性,這些概念后面還會被多次用到。 我們經(jīng)常會聽到客戶抱怨你的設(shè)備不穩(wěn)定、不好用、不方便等等。用戶最終會抱怨是設(shè)備不可靠,不穩(wěn)定。其實(shí)準(zhǔn)確的說這些都是可用性問題。 可用性的定義是:在要求的外部資源得到保證的前提下,產(chǎn)品在規(guī)定的條件下和規(guī)定的時刻或時間區(qū)間內(nèi)處于可執(zhí)行規(guī)定功能狀態(tài)的能力。它是產(chǎn)品可靠性、維修性和維修保障性的綜合反映。因此可用性是包含了可靠性的。 可用性與可靠性的關(guān)聯(lián)在于都必須考慮設(shè)備的應(yīng)用環(huán)境。但是可靠性更關(guān)注的是在這個環(huán)境中能用多久(用概率表現(xiàn)的時間),而可用性則反應(yīng)的是能不能用?能不能用好?以及能不能達(dá)到用戶的期望?可用性需要考慮客戶在合理的使用條件下能完全正常的工作。比如筆記本電腦,顯然是可能被用戶帶出國,那么筆記本電腦在不同國家的電網(wǎng)的額定電壓條件下能否正常工作就是一個重要的可用性指標(biāo);臺式電腦基本就不需要考慮這種問題。埋在地下的電纜,顯然有必要考慮被老鼠啃食的問題。這些都是可用性問題。而可靠性一般只用考慮額定條件下的使用時間,兼顧非正常條件下的降效指標(biāo)即可。 比如說某個設(shè)備的操作員突然由一個男士變成一個女士,設(shè)備由于沒有考慮到操作員的身高和力量的差異,導(dǎo)致女士操作的頻次比男士低很多,而引起系統(tǒng)的運(yùn)行效率下降,我們可以據(jù)此就認(rèn)為設(shè)備的可用性不好。但是由于女士操作的頻次下降卻很可能使設(shè)備的可靠性提高了。 再舉個例子,某個產(chǎn)品標(biāo)稱值為額定電壓12,輸入電壓范圍為10V~15V,平均無故障時間(MTBF)為3000小時。那么它隱含的意義是期望在12V條件下工作3000小時,其失效概率低于50%(估算值)。并沒有保證客戶在輸入15V條件下也能持續(xù)工作3000小時。當(dāng)然這個參數(shù)在實(shí)際中也不會差距太大(主要與產(chǎn)品壽命分布有關(guān))。但如果產(chǎn)品提供者和使用者沒有就這個問題溝通清楚的話,會給雙方都帶來很大的困擾。這就不再是可靠性問題而變成一個可用性的問題了:“用戶實(shí)際需要的供電模式是什么?” 很顯然,在相同條件下更可靠的設(shè)備也更安全。但是安全性與可靠性依然是兩個不同的概念,有時候甚至是矛盾的。舉例來說:核電站的要求的失效概率達(dá)到10-8~10-9以上(SIL5級)。這樣的標(biāo)準(zhǔn)要求如果換算成MTBF,沒有任何一個電子設(shè)備有可能達(dá)到這樣的指標(biāo)。但通過多個電子設(shè)備的并聯(lián)、冗余、監(jiān)視、保護(hù)等措施達(dá)到這一標(biāo)準(zhǔn)卻是可能的。而新增加的這些保護(hù)、冗余等設(shè)備事實(shí)上會降低整個核電站的平均無故障時間。 為了解決安全性與可靠性的矛盾,許多應(yīng)用場景會定義不同等級條件下的可靠性指標(biāo)。比如地鐵車輛的規(guī)定:發(fā)生A類故障(人身安全事故)的MTBF大于1百萬小時、發(fā)生B類故障(停止運(yùn)營)的MTBF大于10萬小時;發(fā)生C類故障(更換維修)的MTBF大于1萬小時。 從“1.1可靠性指標(biāo)的定義”節(jié)內(nèi)容可以看到,通過合理設(shè)計(jì)“可維修的部件”可以有效提高系統(tǒng)壽命(注意與MTBF的區(qū)別)。但是對于用戶而言任何更換維護(hù)都意味著成本,即使是免費(fèi)更換也要占用用戶的時間成本。維護(hù)成本是設(shè)備全生命周期成本(LCC)的重要組成部分。因此在設(shè)計(jì)時應(yīng)盡可能少的設(shè)計(jì)“可維修的部件”,迫不得已必須設(shè)計(jì)的也要盡可能的方便維護(hù),使維護(hù)的時間和花費(fèi)降低到最小。 二、理解可靠性指標(biāo) 在可靠性設(shè)計(jì)時經(jīng)常會涉及兩個關(guān)鍵性的概念,平均無故障時間(MTBF)和壽命。 設(shè)備平均無故障時間(MTBF)是指“可修復(fù)產(chǎn)品“在相鄰兩次故障之間工作時間的數(shù)學(xué)期望值。對于這個定義有幾點(diǎn)值得推敲: b、對于不修復(fù)產(chǎn)品,其產(chǎn)品壽命就等于設(shè)備平均無故障時間。 c、對于“可修復(fù)產(chǎn)品”,其產(chǎn)品壽命由其不可修復(fù)的部件的最短壽命決定其設(shè)備壽命。 再進(jìn)一步引申:改善一個產(chǎn)品MTBF指標(biāo)的關(guān)鍵點(diǎn)就在于提高設(shè)備部件壽命的瓶頸。而改善一個產(chǎn)品壽命指標(biāo)的關(guān)鍵是將某些壽命瓶頸部件變成“可維修的部件”。舉例來說:對于一輛汽車而言,如果以整車來看其平均無故障時間(無故障里程)是超過15000公里或者12個月,這顯然是由機(jī)油這個部件的壽命來決定的。但是因?yàn)檫\(yùn)行更換機(jī)油、更換剎車、皮帶等保養(yǎng)措施的存在,一輛車的設(shè)計(jì)壽命可以達(dá)到20年;電腦的顯示屏和硬盤的MTBF顯然是低于其他部件的,因此電腦銷售時這兩個部件的質(zhì)保期也經(jīng)常會單列。 比如在激光加工設(shè)備中,光源顯然是屬于整機(jī)的壽命瓶頸,設(shè)計(jì)時就需要將其設(shè)計(jì)為“可修復(fù)單元”。因此需要為其設(shè)計(jì)為方便的維修方式,如果更換一個光源需要把整個激光加工生產(chǎn)線都拆了,這樣造成的長時間停工是很難讓用戶接受的。對于公司售后維護(hù)來說也將是沉重的負(fù)擔(dān)和風(fēng)險。 當(dāng)然也有反向的例子,手機(jī)電池是手機(jī)的壽命瓶頸,因此手機(jī)發(fā)明之初都是將其設(shè)計(jì)為“可修復(fù)單元”。但是隨著電池壽命的提高,同時很多廠家為了提高手機(jī)更換頻次的商業(yè)目的,現(xiàn)在更換手機(jī)電池已經(jīng)非專業(yè)人士不可了,基本可以被認(rèn)定為“不可修復(fù)單元”了。這其實(shí)是降低了手機(jī)的整機(jī)壽命。 本文以電子設(shè)計(jì)為主要對象,而電子器件很多都是焊接在板卡上,一般很難更換,這里就不再考慮更換和維修這一條件,因此本文后續(xù)的壽命就等同于平均故障時間,不再仔細(xì)區(qū)分這兩個概念了。 三、可靠性指標(biāo)的運(yùn)用 絕大多數(shù)設(shè)備銷售都有質(zhì)保期的規(guī)定的,質(zhì)保期怎么定往往由行業(yè)標(biāo)準(zhǔn)、市場策略、銷售模式、銷售價格、成本利潤控制等多方面因素共同決定的。但是不管怎么定質(zhì)保期是絕對不能超過設(shè)備平均無故障時間的。超過這個時間就意味著很多設(shè)備沒有過質(zhì)保期就已經(jīng)不能正常工作了,這時用戶如果要求退換、維修、甚至賠償?shù)脑捲O(shè)備供應(yīng)商就不可能盈利。 標(biāo)稱MTBF時間一般以小時計(jì)算。而質(zhì)保期一般按年計(jì)算。這就存在一個對應(yīng)關(guān)系。這個關(guān)系不是簡單的365*24的關(guān)系。因?yàn)橹挥泻軜O端的設(shè)備才會完全工作在這種全年無休的情況。而且即使是這樣的設(shè)備,也不會處在滿功率、滿負(fù)荷并且極惡劣的工況下工作。因此其計(jì)算也不必如此保守。一般而言可以分為以下幾個種類: 年使用時間 舉例 一般民用設(shè)備 1500~2000小時 電視機(jī) 高頻民用設(shè)備 3000小時 冰箱、電燈、手機(jī) 低負(fù)荷工業(yè)設(shè)備 3000小時 網(wǎng)絡(luò)交換機(jī) 高負(fù)荷工業(yè)設(shè)備 5000小時 地鐵,火車 超高頻工業(yè)設(shè)備 8000小時 核電站 一般來說醫(yī)療設(shè)備,參照高頻民用設(shè)備標(biāo)準(zhǔn)即可。 軍品一般來說沒有明確的使用時間要求。但是要求在標(biāo)稱的使用時間內(nèi)超低故障率。因此一般而言軍品會提高一個標(biāo)準(zhǔn)設(shè)計(jì)。比如說需求為3000小時的,一般會非硬約束(比如材料特性約束)部分的設(shè)計(jì)標(biāo)準(zhǔn)至少都要達(dá)到5000小時以上。因此我們一般會感覺軍品的質(zhì)量更高。 但是我確實(shí)曾經(jīng)見到過銷售的設(shè)備標(biāo)稱MTBF是3000小時,但是銷售商承諾的免費(fèi)質(zhì)保期確是三年的情況。這種情況很多時候是銷售人員基于市場壓力做出來了一種商業(yè)策略。這是一種很不嚴(yán)謹(jǐn)?shù)膽B(tài)度,是很難人信服的。 你可能會有疑問,家里的電器標(biāo)準(zhǔn)只有1年,但是我家里卻用了很多年了也沒有壞???怎么感覺這個值和理論值差異這么大呢?這有以下幾個原因: 1、絕大多數(shù)人的使用頻次其實(shí)沒有理論那么高。以電視為例,計(jì)算時是以3000小時為1年計(jì)算的,但實(shí)際上你需要每天看8個小時以上的電視才能達(dá)到一年3000小時,很多人連一半的時間都達(dá)不到。 2、即使是讓電器設(shè)備運(yùn)行著,很多時候電器也并沒有全功率運(yùn)行。例如很多人的手機(jī)會24小時開機(jī),但是絕對不會有人24小時都在連續(xù)打電話。 3、設(shè)備運(yùn)行環(huán)境更優(yōu)。隨著生活條件的改善,現(xiàn)在的人已經(jīng)很難想象誰會在35度以上的高溫環(huán)境下長時間看電視了。即使看也很有可能開著空調(diào)、開著風(fēng)扇。同時國家電網(wǎng)的改進(jìn)、防雷措施的升級等,都會大大提高設(shè)備的使用壽命(環(huán)境因素對設(shè)備壽命的影響詳細(xì)見本文后半部分的內(nèi)容)。 4、公司采用了更高的設(shè)計(jì)標(biāo)準(zhǔn)。對于工廠而言每年1%的故障率并不算太高,但是對于客戶而言就是100%了,1%的故障率同時意味著每售出10萬臺的設(shè)備就要面對上千人次投訴,當(dāng)有競爭對手的更有的性能進(jìn)行對比后,就會發(fā)酵為非常惡劣質(zhì)量事故。因此為了降低客戶投訴和與對手競爭的需要,很多廠家不得不提高設(shè)計(jì)標(biāo)準(zhǔn)。 5、多數(shù)的家用電器設(shè)計(jì)使用在廣大的范圍內(nèi)銷售的,因此設(shè)計(jì)人員會按最為惡劣的方式進(jìn)行計(jì)算(也有可能是多年教訓(xùn)的積累)。比如你不可能讓一臺冰箱在東北能用一年而到了廣東就只能用三個月,也不可能讓電視機(jī)在室內(nèi)能用三年在室外就只能用一個月。因此設(shè)計(jì)人員只能按照最惡劣的條件進(jìn)行設(shè)計(jì),這無形中又提高了設(shè)計(jì)標(biāo)準(zhǔn)。 6、設(shè)備的局部性能的改進(jìn)。一個新設(shè)計(jì)的電子設(shè)備的推出后不久往往很快就會在用戶反映出很多設(shè)計(jì)不足的問題。由于“二八效應(yīng)”和“短板效應(yīng)”的存在,設(shè)備的問題經(jīng)常會集中在兩三個點(diǎn)上,因此廠家往往會針對性的對其做出改進(jìn)并應(yīng)用于后續(xù)機(jī)型上。同時由于技術(shù)的進(jìn)步很多部件的質(zhì)量也是再緩慢提高的,因此后續(xù)機(jī)型的質(zhì)量往往會優(yōu)于前面的機(jī)型。但是再沒有國家標(biāo)準(zhǔn)或者市場因素推動時,廠家一般也不會再重新投入成本做可靠性檢測和認(rèn)證,所以指標(biāo)還是沿用以前的。 7、銷售策略。很多廠家提供一個國家標(biāo)準(zhǔn)要求的最低質(zhì)保期限,客戶如果要求延長質(zhì)保期就要額外收費(fèi)了,但是從經(jīng)濟(jì)性上來說廠家很少會為延長質(zhì)保的客戶提供差異化的機(jī)型。 當(dāng)然設(shè)備壽命也不是越長越好,除了更高的設(shè)計(jì)指標(biāo)意味著更高的成本外,更高的壽命會降低用戶更新?lián)Q代的頻次,甚至?xí)档陀脩舻氖褂皿w驗(yàn)。以手機(jī)為例,由于“安迪-比爾定律”的存在軟件技術(shù)會不斷升級換代,因此手機(jī)的硬件存儲資源和處理能力很快就會顯得不足。因此用戶一般都會在兩三年內(nèi)更換手機(jī),否則新的軟件應(yīng)用就會體驗(yàn)很差。這就意味著如果手機(jī)廠家把硬件的壽命設(shè)計(jì)的很長,除了增加自己的成本外還會莫名其妙的背上性能差的惡名。所以現(xiàn)在手機(jī)的設(shè)計(jì)壽命都不超過2年。 可靠性設(shè)計(jì)基礎(chǔ)(二)--失效與可靠性改進(jìn) 一、理解設(shè)備失效 電子器件的失效本質(zhì)上是器件內(nèi)外部的電子運(yùn)動、化學(xué)、機(jī)械等作用破壞了器件內(nèi)部的結(jié)構(gòu)。因此從長期看電子器件都是會失效的,且失效概率大致符合量子技術(shù)的分布特點(diǎn):隨時間成指數(shù)分布的關(guān)系。如果對失效的統(tǒng)計(jì)規(guī)律進(jìn)行細(xì)分的話,還能將其分早期失效、偶然失效期和損耗失效期為三個階段,見下圖: 早期失效的原因主要是生產(chǎn)過程中引起的器件結(jié)構(gòu)差異,可以通過一定的應(yīng)力篩選辦法可以將這部分器件篩選出來。第二階段是器件的主要工作的時期,失效率基本處于平穩(wěn)的狀態(tài),失效主要由偶然因素所造成??梢越普J(rèn)為失效概率處在一個定值。到了第三階段器件進(jìn)入損失失效期后,失效率迅速上升,這就是產(chǎn)品的壽命“終了”。 那么既然失效是運(yùn)動破壞了器件結(jié)構(gòu)。反過來說要降低電子器件的失效率的辦法也就來自三個方面:降低電子運(yùn)動的能量;提高器件結(jié)構(gòu)的強(qiáng)度;通過外部手段保護(hù)器件結(jié)構(gòu)。 降低電子運(yùn)動的能量;包括降低自身設(shè)備的電子應(yīng)力和降低外部干擾電子應(yīng)力兩個部分的內(nèi)容。降低自身設(shè)備的電子應(yīng)力主要手段是降低不必要的如信號線的電流;降低功率器件的功耗;增加濾波電路和紋波吸收電路;降低系統(tǒng)功耗等措施;降低外部干擾電子應(yīng)力則可以通過隔離、屏蔽、濾波等措施實(shí)現(xiàn)。 提高器件結(jié)構(gòu)的強(qiáng)度,簡單的理解就是選用標(biāo)準(zhǔn)更高的器件,能耐105℃的器件顯然就比能耐70℃的器件更穩(wěn)固,在相同條件下其壽命也會更高。同理,同等條件下25V耐壓的電容顯然比16V耐壓的電容的壽命長;更高額定電流的器件也就比低額定電流的器件更耐用。用一個更通用的詞匯來說就是降額設(shè)計(jì)。 保護(hù)器件結(jié)構(gòu)不受損壞的方法主要在外部。很顯然在高溫、腐蝕性、潮濕、鹽霧、震動的等環(huán)境下運(yùn)行的器件結(jié)構(gòu)更加容易受到損壞。那么對這些因素進(jìn)行防護(hù)也是有效的提高可靠性的方法。手段有刷三防漆、加屏蔽罩、減震器、溫控器等。 二、一些能改善可靠性的設(shè)計(jì)技巧 如果不考慮外部的機(jī)械、化學(xué)損壞的話,所有提高可靠性設(shè)計(jì)的手段總計(jì)起來就一句話:“降低系統(tǒng)的相對電應(yīng)力”。以下介紹一些比較簡單但是對改善可靠性非常有效的技術(shù)手段。 如前面所說,雖然理論上說做可靠性設(shè)計(jì)需要做可靠性指標(biāo)的分解與計(jì)算。但是由于短板效應(yīng)的存在,少數(shù)幾個壽命短板往往就直接決定了系統(tǒng)的最終壽命,只需要能識別出一些可靠性上面的短板并針對性的做出改進(jìn),系統(tǒng)壽命就能得到質(zhì)的改善。 識別壽命瓶頸其實(shí)并不太難,大致有以下幾種方法: 一些常見的短板。包括電源、風(fēng)扇、功率開關(guān)、機(jī)械開關(guān)、高頻工作的機(jī)械式繼電器等常常就是壽命的短板。因此對這些部分自然就是可靠性設(shè)計(jì)的重點(diǎn)。 高應(yīng)力、高功率部件;比如開關(guān)電源中的IGBT、MOS管、電源。無線系統(tǒng)中的功放。 高發(fā)熱部件。自身溫升超過60度的器件都值得警惕。 設(shè)計(jì)余量較小的部件;比如耐壓25V的器件用在24V的環(huán)境上,額定功率1W的器件實(shí)際功耗0.9W等等。 工作在惡劣環(huán)境中的部件;工作在振動、高溫、潮濕環(huán)境中的部件應(yīng)作重點(diǎn)保護(hù)和處理。必要時做更大的降額設(shè)計(jì)。 在識別出壽命的短板后,針對性的改用可靠性更高的或者容量更大的器件。短板問題就能得到巨大的提高。 絕大多數(shù)器件廠家都會給出一個標(biāo)稱值或者額定值。這個標(biāo)稱值和額定值背后其實(shí)隱藏著一個關(guān)鍵信息,即在這個額定值條件下能連續(xù)工作多長時間。舉例來說,如某個電容的標(biāo)稱值是10uF-16V-70℃。其含義包含了在16V、70℃的條件下電容能連續(xù)工作1000小時??紤]到實(shí)際應(yīng)用中還可能存在紋波、系統(tǒng)自身發(fā)熱等因素,實(shí)際壽命其實(shí)遠(yuǎn)遠(yuǎn)低于1000小時。這就必須要做降額設(shè)計(jì)了。 考慮到通常來說系統(tǒng)額定電源每下降10%壽命會延長約一個數(shù)量級;工作溫度每下降10℃壽命也會延長約一個數(shù)量級(不同類型、不同結(jié)構(gòu)器件的壽命曲線參數(shù)有所不同)。那么以電容為例對于一個期望在40℃環(huán)境下能連續(xù)工作10000小時以上的設(shè)備而言,考慮上系統(tǒng)自身發(fā)熱,電源紋波、開關(guān)過充等影響。額定電壓至少應(yīng)降額30%以上,額定工作溫度最好選擇105℃以上的。 “3.1 識別并改善壽命瓶頸”提到使用風(fēng)扇會大大降低系統(tǒng)整體的壽命。但因?yàn)轱L(fēng)扇的使用會改善發(fā)熱部件的局部溫升,從而大大提高發(fā)熱部件的壽命。當(dāng)然這只是散熱的其中一種手段。其它的諸如:降低功耗、提高散熱面積、改用新的散熱方式、降低熱阻等手段都能起到對關(guān)鍵器件的保護(hù)作用。 同理做好抗振/減振措施、加上三防涂覆、增加屏蔽、對電源加強(qiáng)濾波泄放等措施也都能針對性的改善設(shè)備運(yùn)行環(huán)境,并針有效改善設(shè)備的可靠性。 隔離的目的就是讓系統(tǒng)盡可能的脫離外部復(fù)雜的運(yùn)行環(huán)境,讓設(shè)備盡可能的在更加安全、穩(wěn)定中的環(huán)境中運(yùn)行。嚴(yán)格來說隔離措施是“3.3節(jié)改善使用環(huán)境”的其中一種手段,但由于其效果很好且很容易被忽略在這里單獨(dú)提出來說。隔離包括三個層次上的隔離: 電氣隔離;及通過變壓器、光耦等隔離器件把獨(dú)立模塊與其它功能模塊的電氣連接關(guān)系完全打斷。確保即使在外部模塊完全損壞的情況下不會對內(nèi)部模塊的功能、性能造成大的影響。值得注意的是一旦選擇了電氣隔離的方案往往就意味著電源、信號、通信等所有環(huán)節(jié)都要隔離。  功能隔離;即采用磁珠、電感、濾波、去耦網(wǎng)絡(luò)、觸發(fā)器甚至簡單的保險絲、二極管等器件,將某些具有獨(dú)立的電氣特性的區(qū)間單獨(dú)劃分出來的隔離方式。 間距隔離或屏蔽;通過把不同功能,不同特性的電氣模塊拉開一定的物理間距,甚至增加屏蔽的方式實(shí)現(xiàn)隔離。 從改善可靠性的效果看,電氣隔離>功能隔離>間距隔離或屏蔽。但不管采用那種方式的隔離,總的來說隔離都有利于降低因?yàn)橥獠吭蛞鸬碾姂?yīng)力,從而提高系統(tǒng)可靠性。隔離還能同時提升系統(tǒng)EMC性能,安全性等性能。但隔離往往也意味著系統(tǒng)復(fù)雜性和成本的增加。 設(shè)備賣出后就要在用戶的環(huán)境中運(yùn)行。很難保證用戶的環(huán)境真的就如工程師所獲得的設(shè)計(jì)輸入那樣。很多時候符合技術(shù)標(biāo)準(zhǔn)的設(shè)備到用戶那里就會出現(xiàn)各種各樣奇葩的問題,舉個例子來說:你很難要求用戶不在你的設(shè)備旁邊放一個大功率電機(jī);也很難保證在野外環(huán)境下能得到50Hz頻率穩(wěn)定的交流電。這些看似不起眼的小變化其實(shí)都會加速設(shè)備的損耗。 不過有一個好消息是這對于所有供應(yīng)商來說都是公平的。換句話說如果我們的設(shè)備在這種環(huán)境中很快就會壞,我的競爭對手也一樣。那么如何讓我的設(shè)備能相對的好一點(diǎn),對于用戶來說其體驗(yàn)就會大大改善。產(chǎn)品的口碑就會很好。再比如同樣是故障,但我們的故障只是停機(jī)而競爭對手的就是爆炸、起火,那樣的差距也不是能同日而語的。除了少數(shù)大型公司外,很少有公司在技術(shù)規(guī)范中有對失效模式進(jìn)行細(xì)致的要求,所以許多工程師并不注重這些降低失效影響的設(shè)計(jì)。但是這些環(huán)節(jié)卻經(jīng)常最終表現(xiàn)為用戶的口碑、公司的核心競爭力、甚至很多公司因?yàn)橐粌纱沃卮笫鹿识恍袠I(yè)封殺的案例也是時有發(fā)生的。 比如:安規(guī)設(shè)計(jì)一定要使用安規(guī)電容,因?yàn)榘惨?guī)電容的失效模式能確保為短路;減少在電源處使用TVS,因?yàn)門VS的失效模式會造成短路;減少鉭電容的使用,因?yàn)槠涫J綖槎搪?,且容易發(fā)送燃燒。 另外增加一些失效保護(hù)模塊(比如保險絲、變壓器),也是控制設(shè)備失效模式的有效手段。 紋波對電路壽命的影響是非常巨大的。這是因?yàn)殡娮釉膲勖鶕?jù)其所有應(yīng)力的增大呈指數(shù)被的減小。包括電容、電感、電阻等在內(nèi)的濾波器件能顯著改善系統(tǒng)的紋波,這對提高其附近電路的壽命作用很大。適當(dāng)?shù)奶岣哌@些部件參數(shù)來控制紋波從長期看也是很有價值的。 如果進(jìn)一步研究還會發(fā)現(xiàn)某些器件,特別是無源器件的失效模式很多是規(guī)格參數(shù)的改變。比較典型是電解電容,由于其電解液的揮發(fā),長期看電解電容值是在下降的。而很多電解電容在電路中都是起到支撐電容的作用。但電容值下降后,電路的紋波就會不斷的增加。這會進(jìn)一步惡化電路可靠性。因此在做電源設(shè)計(jì)時,需要在計(jì)算控制的紋波標(biāo)準(zhǔn)的基礎(chǔ)上將電容的參數(shù)再擴(kuò)大至少半個數(shù)量級。  對于一些發(fā)生原因來自外部,發(fā)生概率隨機(jī)的問題,在原理設(shè)計(jì)層面直接解決這些問題往往非常困難。理論上說我們可以把鍋甩給客戶,指責(zé)是用戶使用不當(dāng)導(dǎo)致的問題。但這樣對用戶體驗(yàn)也不好。 一個比較有效的方式就是設(shè)計(jì)一個能夠被替換的保護(hù)模塊。但問題來的時候讓保護(hù)模塊先行損壞,進(jìn)而避免或者減弱對主要功能模塊的損壞。比如:在多用電系統(tǒng)電路中增加保險或者斷路器;在容易遭到雷擊的地方增加泄放回路。 在我們生活中也有這樣的案例,比如手機(jī)碎屏這個問題就是典型的:發(fā)生概率隨機(jī),發(fā)生原因多樣且難以控制的問題。我們針對這樣的問題最簡單的解決辦法就是貼保護(hù)膜,膜是可替換的,碎了可以隨時更換。由于保護(hù)了屏這個易損件,站在用戶層面看手機(jī)的壽命就得到很大的改善。 值得一提的是,手機(jī)的膜還是一個讓用戶付費(fèi)的消耗品,且利潤極高,其利潤率比手機(jī)高出很多,甚至孕育出了一個產(chǎn)業(yè)。因此即使拋開技術(shù),站在商業(yè)層面看也是一個非常成功的案例。 可靠性設(shè)計(jì)基礎(chǔ)(三)--可靠性估計(jì)與可靠性設(shè)計(jì)體系 一、可靠性估計(jì)的意義 絕大多數(shù)從學(xué)校培養(yǎng)出來的工程師是沒有可靠性設(shè)計(jì)理念的。他們大多數(shù)都把可靠性視為完全靠測試的性能指標(biāo)。而真到了測試階段發(fā)現(xiàn)了問題,往往可靠性這種非功能指標(biāo)的改進(jìn)又會面臨來自技術(shù)上和管理上的雙重困難。某種程度上說這是把可靠性視為玄學(xué),要靠祈禱才能達(dá)成的指標(biāo)了。 現(xiàn)在絕大多數(shù)公司都認(rèn)識到了要把可靠性設(shè)計(jì)提前,要放到系統(tǒng)設(shè)計(jì)甚至需求階段去考慮了,但是真到了工程師執(zhí)行層面卻往往一頭霧水,除了提出兩個似是而非的可靠性指標(biāo)外,工程師們甚至不知道可靠性設(shè)計(jì)要干什么。這很可能就是缺失了可靠性估計(jì)這個環(huán)節(jié)。 可靠性估計(jì)的目的就是在系統(tǒng)設(shè)計(jì)階段:1、識別系統(tǒng)的短板,進(jìn)而及時的改進(jìn)系統(tǒng)設(shè)計(jì)或者為后續(xù)設(shè)計(jì)識別風(fēng)險;2、將可靠性指標(biāo)分解到各個模塊,確保各模塊集成后整機(jī)能符合整機(jī)指標(biāo)要求 做可靠性估計(jì)有以下幾個好處 1、盡早識別風(fēng)險,盡早改進(jìn)。 2、為搭建可靠性設(shè)計(jì)體系創(chuàng)造條件。事后的測試雖然也能改進(jìn)可靠性,但是過度的依賴測試永遠(yuǎn)也不可能建立起一套有效的,持續(xù)性的、穩(wěn)定的可靠性設(shè)計(jì)體系。而可靠性估計(jì)是可靠性設(shè)計(jì)的最前端。有了這一環(huán)節(jié),整個體系的建立才可能閉環(huán)。 3、一些局部的可靠性指標(biāo)改進(jìn)能解決某一個特定用戶的重大“痛點(diǎn)”。在別的公司不能實(shí)現(xiàn)前,這會成為產(chǎn)品推廣時的“亮點(diǎn)”和“賣點(diǎn)”。 4、符合一些行業(yè)標(biāo)準(zhǔn)和體系認(rèn)證的要求(軍工行業(yè)、軌道交通行業(yè))。 下面介紹一些簡便且常用的可靠性估計(jì)方法,雖然運(yùn)用這些方法做出的計(jì)算并不精確,但一般來說估算結(jié)果不會存在數(shù)量級的差異。用來指導(dǎo)系統(tǒng)級的設(shè)計(jì)時由于其操作簡單,還是很有實(shí)用價值的。若要進(jìn)行精確的可靠性估計(jì)計(jì)算,建議按照《GJB Z 299B 電子設(shè)備可靠性預(yù)計(jì)手冊》進(jìn)行。 風(fēng)扇的壽命按5000小時估計(jì),高品質(zhì)的風(fēng)扇壽命按不超過10000小時估計(jì)。 外購模塊電源壽命取以輸出功率和工作溫度的小值。以1000小時為基礎(chǔ)。每降額20%,壽命增加10倍;工作溫度(表面溫度)每下降10℃壽命增加一個數(shù)量級;增加散熱器壽命增加一個數(shù)量級、增加風(fēng)扇壽命增加2倍。 溫度與敏感相關(guān)的元件。工作溫度每下降10℃,元件壽命增加一個數(shù)量級; 非功率部分的電壓敏感元件。其工作環(huán)境的電壓紋波每增加5%,壽命下降一個數(shù)量級。 非功率部分的電壓敏感元件。額定電壓每下降10%,壽命提高一個數(shù)量級。 非功率部分的電流敏感元件,額定電流每下降10%,壽命提高一個數(shù)量級。但考慮到電流過載情況經(jīng)常比較多,計(jì)算基數(shù)應(yīng)將兩個數(shù)量級開始計(jì)算(做了過載理論設(shè)計(jì)的可以忽略這一項(xiàng))。 功率器件(如開關(guān)電源上的IGBT和Mos管),電壓和電流按每下降30%,壽命提高一個數(shù)量級。如果增加了紋波吸收電路,可以將估計(jì)值減少到電壓和電流按每下降20%,壽命提高一個數(shù)量級計(jì)算。  每降額電阻工作溫度低于70℃時,可以忽略其壽命影響。 集成電路工作溫度低于其節(jié)溫50℃時,可以忽略其壽命影響。 設(shè)備溫升可以按經(jīng)驗(yàn)公式 壽命計(jì)算環(huán)溫可以按照20℃計(jì)算,但設(shè)備的最高額定工作溫度必須滿足連續(xù)1000小時以上。 計(jì)算時建議再與設(shè)計(jì)標(biāo)準(zhǔn)間保留半個數(shù)量級的設(shè)計(jì)余量。 二、建立可靠性設(shè)計(jì)體系 可靠性設(shè)計(jì)僅技術(shù)層面就要包括:可靠性分解、可靠性計(jì)算、電子材料特性、電子電路知識、EMC、失效分析等環(huán)節(jié)。完善的可靠性體系還需要在公司層面搭建包括:可靠性標(biāo)準(zhǔn)、可靠性設(shè)計(jì)平臺、可靠性試驗(yàn)環(huán)境、可靠性統(tǒng)計(jì)分析等完善的支撐體系。對于一些批量不大的設(shè)備,對其做完整的可靠性驗(yàn)證,其成本也是不可接受的??煽啃栽O(shè)計(jì)體系這個門檻實(shí)在太高,一般的小公司根本建設(shè)不起這樣的體系。 與可靠性相關(guān)的技術(shù)平臺至少應(yīng)包括四方面的內(nèi)容: 1、案例庫;2、設(shè)計(jì)指導(dǎo)意見;3、有效的技術(shù)審查;4、持續(xù)更新技術(shù)平臺的機(jī)制; 其中案例庫和設(shè)計(jì)指導(dǎo)意見至少應(yīng)包括以下一些設(shè)計(jì)要點(diǎn): 常用的設(shè)計(jì)指標(biāo)要求(內(nèi)部設(shè)計(jì)標(biāo)準(zhǔn)); 禁用、限制使用材料清單; 降額設(shè)計(jì)指導(dǎo)意見; 熱設(shè)計(jì)指導(dǎo)意見; 重點(diǎn)器件選擇、使用指導(dǎo)意見; 推薦設(shè)計(jì)案例庫(必須經(jīng)過批量、長期驗(yàn)證); 失敗設(shè)備/器件失效案例庫; 將以上內(nèi)容整理為硬件設(shè)計(jì)checklist,保證系統(tǒng)總體設(shè)計(jì)、硬件設(shè)計(jì)及系統(tǒng)集成測試前后都對上述標(biāo)準(zhǔn)進(jìn)行審查。確保這些內(nèi)容能夠落地。 當(dāng)然,沒有哪個公司能夠一開始就建立出完善的可靠性設(shè)計(jì)平臺。平臺中的很多內(nèi)容都需要長期的時間進(jìn)行積累和總結(jié)。因此逐步完善更新技術(shù)平臺是逐步積累公司核心競爭力的重要部分。 前面說了,要建立一套完整的可靠性計(jì)算標(biāo)準(zhǔn),必須嚴(yán)格依照《GJB Z 299B 電子設(shè)備可靠性預(yù)計(jì)手冊》進(jìn)行分解、計(jì)算。但這樣的過程實(shí)在費(fèi)效比很低,同時要讓每一個設(shè)計(jì)人員都掌握這個計(jì)算方法也是很難的。而不同的工程師對標(biāo)準(zhǔn)的理解和應(yīng)用不同帶來的設(shè)計(jì)差異反到會對公司產(chǎn)品的一致性產(chǎn)生不利影響。一個比較好的做法是由公司一兩個工程師將標(biāo)準(zhǔn)消化,形成一個基于excel表格可靠性壽命計(jì)算標(biāo)準(zhǔn)。這個標(biāo)準(zhǔn)把公司內(nèi)部常用器件按大類和小類進(jìn)行分類總結(jié)。根據(jù)我們的經(jīng)驗(yàn)看,對一個產(chǎn)品種類比較多的中小公司而言,有計(jì)算價值的元件不超過10來個大類50個小類。以下是表格的局部范例(以下數(shù)據(jù)僅供參考): 大類 小類 使用條件 可靠性壽命 (小時) 備注 電容 陶瓷貼片電容 105℃,電壓降額50%以上 忽略不計(jì) 以電壓紋波最高值計(jì)算 陶瓷貼片電容 105℃,電壓降額30%~50% 20000 以電壓紋波最高值計(jì)算 電解電容 105℃,電壓降額50%以上,容值為額定值的10倍 50000 以電壓紋波最高值計(jì)算 電阻 貼片電阻 低于額定功率70%以下 忽略不計(jì) 貼片電阻 額定功率70%~100% 10000 不進(jìn)一步區(qū)分計(jì)算 大型功率電阻 表面溫度低于250℃ 忽略不計(jì) 由于經(jīng)過消化后的大量的計(jì)算規(guī)則都是忽略或者成為一個保守值,計(jì)算工作量將大大減少。將上述器件排除掉后,剩余的影響設(shè)備壽命瓶頸的元件就非常少了。剩余的可以參照“一些可供參考的可靠性估計(jì)方法”。如果還不能完成估計(jì),則再去查找GJB Z 299B進(jìn)行計(jì)算難道將大大降低。將可靠性設(shè)計(jì)的問題聚焦到幾個關(guān)鍵部件上。 很多公司的產(chǎn)品面向消費(fèi)應(yīng)用,其工作環(huán)境非常良好,比如設(shè)計(jì)工作溫度為0~40℃.這樣的設(shè)計(jì)標(biāo)準(zhǔn)其實(shí)是很低的。達(dá)到這樣的設(shè)計(jì)標(biāo)準(zhǔn)的產(chǎn)品顯然是合格的產(chǎn)品。因此很多公司就很少在進(jìn)一步向上做測試了。但這樣的測試其實(shí)是很有必要的。 其實(shí)依據(jù)可靠性試驗(yàn)的一個基本原理,按溫度每提高10℃,壽命下降一個數(shù)量級估算。我們有理由相信能在70℃高溫箱里工作2個小時的設(shè)備,就能在60℃環(huán)境里工作20個小時以上,40℃環(huán)境里工作2000個小時以上,20℃環(huán)境里工作200000個小時以上。雖然這樣的估計(jì)不能完全準(zhǔn)確,但對于一個想設(shè)計(jì)出高可靠產(chǎn)品的廠家而言,其產(chǎn)品在高溫箱里走過一圈后,相信無論技術(shù)人員、市場人員、還是管理人員都會對自己的產(chǎn)品更有底氣。 在第二章中展示的浴盆曲線中的第一階段早期失效的失效概率是很高的,且存在隨工作時間增加而快速下降的趨勢。去掉這部分的失效概率最直接最有效的方法就是在產(chǎn)品出廠前進(jìn)行老化篩選。即讓產(chǎn)品在接近最大工作問題條件下(一般是最高工作問題向下降5~10度)連續(xù)工作24~48小時。讓產(chǎn)品在交付用戶的時候就直接跳過“早期失效區(qū)”,進(jìn)入“偶然失效區(qū)”。這樣站在用戶層面看,產(chǎn)品的絕對失效概率就大幅度下降了。 現(xiàn)在工業(yè)品、軍品都會在產(chǎn)品標(biāo)準(zhǔn)中明確系統(tǒng)出廠老化篩選要求。當(dāng)然增加這樣的篩選會一定程度的增加生產(chǎn)成本和材料成本(主要是損耗維修),因此需要廠家綜合考慮。 05關(guān)注設(shè)計(jì)瓶頸,長期堅(jiān)持低瓶頸方案設(shè)計(jì) 前面已經(jīng)提到一些關(guān)鍵性的設(shè)計(jì)瓶頸經(jīng)常就會制約產(chǎn)品可靠性指標(biāo)。如果公司制定相關(guān)的設(shè)計(jì)標(biāo)準(zhǔn)或者以不成文的規(guī)定限制設(shè)計(jì)人員采用一些低壽命模塊。短期看這樣會束縛設(shè)計(jì)人員的手腳,影響開發(fā)進(jìn)度,甚至增加產(chǎn)品成本。這些限制經(jīng)常不得不進(jìn)行系統(tǒng)方案級別的修改。但從長期看收益頗多。很多時候設(shè)計(jì)人員為了規(guī)避性的設(shè)計(jì)約束,不得不的深扣技術(shù)細(xì)節(jié),從原理上進(jìn)行創(chuàng)新,進(jìn)而能形成許多具有高度獨(dú)創(chuàng)性的和針對性的專利技術(shù)。長期堅(jiān)持好的技術(shù)習(xí)慣、好的設(shè)計(jì)標(biāo)準(zhǔn)的最終形成的就是這個公司獨(dú)特的行業(yè)標(biāo)簽,是公司商業(yè)品牌的重要組成部分。 在這方面最優(yōu)秀的案例是蘋果公司。從蘋果誕生那天起,喬布斯非常就痛恨風(fēng)扇和線纜,他近乎偏執(zhí)的要求所有產(chǎn)品中堅(jiān)持無風(fēng)扇、少線纜、少接口的設(shè)計(jì)。當(dāng)然其初衷可能僅僅只是噪聲影響用戶體驗(yàn)或者線纜太多影響美觀而已。但是正是這份堅(jiān)持,讓蘋果的產(chǎn)品的用戶體驗(yàn)長期領(lǐng)先于對手,同時這份堅(jiān)持為蘋果帶來了歷史上第一款開關(guān)電源設(shè)計(jì),為蘋果締造了世界上最優(yōu)異的散熱設(shè)計(jì)團(tuán)隊(duì),并讓這個團(tuán)隊(duì)成為蘋果的核心競爭力之一。 沒有哪個公司的產(chǎn)品設(shè)計(jì)出來就沒有任何問題,怎么應(yīng)對問題每個公司的做法天差地別。特別當(dāng)客戶使用發(fā)現(xiàn)重大問題,給公司高層施加壓力時,公司從上倒下還能不能保持冷靜本著實(shí)事求是的態(tài)度來解決問題而不是掩蓋問題就反映的是一個公司司品的時候了。嚴(yán)格來說這已經(jīng)不是管理和技術(shù)層面的問題了,而是一種企業(yè)文化。具備不放過任何問題,不掩蓋問題,任何問題雙歸零,踏踏實(shí)實(shí)去定位問題文化的公司才有可能有靠譜的產(chǎn)品。有這樣文化的公司才有可能積累技術(shù)。 來源:納米維景 | 
|  |