數(shù)據(jù)中心供電系統(tǒng)的可靠性是至關重要的。可想而知,無論IT設備多么精密、系統(tǒng)的功能多么優(yōu)越、可靠性多么高,一旦停電,再好的系統(tǒng)也無法運轉。所以對運行中設備維護保養(yǎng)的重要性不可忽視,可見維保人員肩上的擔子是很重的。
運維的任務和無法解決的問題
為了保障供電系統(tǒng)的可靠運行,有很多地方都制定了很多很好的措施。但即使如此也有很多漏洞。設備出廠后的可靠性就已確定,比如有的先天不足,像有的電源輸出隔離變壓器繞組用鋁漆包線代替了電纜銅漆包線,在滿載運行時十有八九是要出事的……不過由于設備本身的質量問題而導致的故障統(tǒng)計表明不足30%,70%的故障來自后天。也就是人為故障,其表現(xiàn)如下:
1. 選型不當導致的故障
?。?)基本概念不清,易受廠家誤導。比如某高速公路招標UPS,在標書中要求UPS要具有輸入斷一相或兩相后電池不放電,還能繼續(xù)供電的能力。因為有的廠家標榜他的UPS在輸入斷一相后電池不放電,UPS還有50%的供電能力;輸入斷兩相后電池仍不放電,UPS還有25%的供電能力,延長了電池的使用壽命。用戶就認為這個性能好,稍動腦筋不難發(fā)現(xiàn)其弊?。喝粝胂硎芷鋬?yōu)點必須購買4倍于負載容量的UPS,否則斷一相后就帶不動當前的負載了。話又說回來,如果UPS斷的是輸入開關后面的兩條線怎么辦?還修不修?何時修?是否完全斷電后才能修?等等這一系列問題如何解決。如果用戶真的按負載實際容量購買了這樣的UPS,這就是莫大的隱患,這是靠運維解決不了的問題。
?。?)不便說明的原因。比如有的用戶從上個世紀就開始使用某品牌的機器,當時由于客觀原因盡管輸入功率因數(shù)低、效率低、體積大、耗電多和價格貴而無法也不便解決。現(xiàn)在比原來機型優(yōu)越的多的新機型早已問世,比如新型的高頻機結構UPS每一百千瓦每年要比原來工頻機機結構的UPS節(jié)約5萬度電,而這個幾兆瓦容量的機房每年就可節(jié)約幾百萬度電。但由于某種原因,硬是放著節(jié)能設備不選而仍將那種耗能的機器寫入標書,這樣做還怕不保險,還把那種機器的結構特點寫入標書。這不但增加了空調設備的投資和占地面積,無疑也為今后的運行埋下了隱患。這又是運維中無法解決的問題。
?。?)追求低價格。有的用戶認為UPS都一樣,所以就追求低價格,結果導致故障。比如某高速公路指揮部貪圖便宜,第一天裝機,第二天就起火;某人壽保險公司低價格購進的機器,不到半年因UPS故障而燒毀幾乎所有IT設備的輸入電路,導致系統(tǒng)癱瘓;又如某多臺UPS并聯(lián)的兆瓦級數(shù)據(jù)中心,裝機沒有幾個月因其中一臺UPS中的一個逆變器功率管擊穿而導致所有UPS跳閘……
2. 使用環(huán)境不當故障導致的故障
不按說明書上對環(huán)境的要求放置機器,甚至有的將UPS放在隨便穿行的走廊、滴水的地下室。比如幾臺200kVA的UPS放在了屋頂只有一層預制板的平房,空調只是兩臺5P的舒適空調機,又如一個玻璃廠竟將UPS放在粉末飛揚的廠房內,等等。導致了頻繁故障。
3. 制度不健全導致的故障
比如有的值班人員隨便將電爐子、電飯煲和吸塵器接在UPS上,導致過載跳閘;有的值班人員的食物引來老鼠鉆入機器而導致起火……
4. 交接故障
這類故障主要是由于管理人員的前后不是一撥人或配合不好造成。比如某火車站售票系統(tǒng),前面值機人員由于移動機器位置而將UPS的外接電池組斷開,事后又未向后來者交代,結果造成了市電和UPS同時停電的故障……
5. 經(jīng)驗故障
經(jīng)驗是不可缺少的,是不可多得的財富。但經(jīng)驗有其相對性,即在某種UPS上得到的經(jīng)驗不一定完全適合另一種UPS,否則就會導致故障。某電信局由于不看說明書而用同樣的方法啟動另一品牌機器導致逆變器燒毀。
6. 失察故障
一些器件在運行中會出現(xiàn)老化或早期失效,如不及時檢查發(fā)現(xiàn)就會導致故障。這些在自動監(jiān)控中是無法發(fā)現(xiàn)的。比如因老化而開始彎曲的保險絲,電池結構螺絲的松動,電池長時間放電后使電池殼有微細的裂縫等,如不及時發(fā)現(xiàn)或發(fā)現(xiàn)后沒有及時處理都可造成故障。
7. 倉促上陣導致的故障
搞維修保養(yǎng)來不得半點急躁,要考慮周全后再動手。某公司工程師要對一用戶正在運行的UPS進行檢修,按照規(guī)定要用維修旁路開關將UPS退出后再檢修,但按照程序需先啟動自動旁路,而后再閉合維修旁路的閘刀。也許該工程是還有其他急事要辦,進機房后未經(jīng)考慮就閉合了維修旁路閘刀,結果造成逆變器功率管爆炸。
8. 維護不當導致的二次故障
對UPS的定期維護是必要的,但應有一套嚴格的管理程序。那些不負責任、不按規(guī)定要求進行定期或不定期保養(yǎng)是導致機器故障的重要原因。另外,在維護保養(yǎng)時也可導致故障,比如用萬用表探針測量電路板電位時,探針將兩點短路導致故障。一用戶作電池放電時,將電池從UPS上摘下,放電后將電池接回時機型解放,導致電流爆炸。又如一工程師在更換離心風機時不小心活動扳手一打滑打在了控制板上,當時沒有在意,風機換好后不能開機,檢查發(fā)現(xiàn)一條器件腿被打斷了……
9. 靜電導致的故障
某機房按例停機保養(yǎng),但保養(yǎng)后卻無法開機。檢查后發(fā)現(xiàn)一個組件電壓擊穿,回憶維保過程發(fā)現(xiàn)該控制板用塑料牙刷掃過灰塵。塑料在干燥器件的表面可產(chǎn)生幾千伏的摩擦靜電電壓,由于機器內小信號電路使用了一些MOS器件,這些器件耐壓很低而且最怕靜電。經(jīng)測量一個普通塑料袋,用電路板摩擦一下就可產(chǎn)生3000V的靜電電壓。所以在檢查這些電路板時最好手腕上要套一個接地環(huán)。
10. 過分自信導致的故障
做事情自信是成功的基礎,但過分自信有時就會出錯。比如某國際銀行在UPS運行了8年后就應該更新設備,廠家也多次提醒。由于該UPS8年來很少出問題,所以用戶負責人屢次回答“不用更新”,結果幾個月后該UPS因老化故障而停止供電兩小時,導致全球業(yè)務也中斷兩小時,損失很大。
根據(jù)國際上的統(tǒng)計資料,5年標稱的電池服務壽命最多不超過3年。在平時不保養(yǎng)的情況下,一般2年就應該更換。某飛機場候機廳電池原配4h,3年后仍不更換,一次外電網(wǎng)停電,UPS后備時間只剩4h,由于停電造成了損失……
像類似的人為故障現(xiàn)象還有很多,就不一一例舉了。
歸根到底,電源系統(tǒng)的選型是第一關,這一道關把不住首先就種下了隱患的種子。電源系統(tǒng)的連接是第二關,有了好的設備,如果沒有好的連接方案,也會埋下隱患。某電視臺由于連接方案被廠家誤導。十幾套節(jié)目的供電UPS故障接連不斷,而且大都是有驚無險,一連幾年都是這樣,使維保人員提心吊膽、傷透了腦筋。連接方案是一個工程,不是維保人員左右的了的。無奈只好在重大活動和節(jié)日令廠家工程師前來值班。這又有什么用呢?廠家的工程師到此也只能是給用戶心理上以安慰。