數據中心供電系統的可靠性是至關重要的。可想而知,無論IT設備多么精密、系統的功能多么優越、可靠性多么高,一旦停電,再好的系統也無法運轉。所以對運行中設備維護保養的重要性不可忽視,可見維保人員肩上的擔子是很重的。
運維的任務和無法解決的問題
為了保障供電系統的可靠運行,有很多地方都制定了很多很好的措施。但即使如此也有很多漏洞。設備出廠后的可靠性就已確定,比如有的先天不足,像有的電源輸出隔離變壓器繞組用鋁漆包線代替了電纜銅漆包線,在滿載運行時十有八九是要出事的……不過由于設備本身的質量問題而導致的故障統計表明不足30%,70%的故障來自后天。也就是人為故障,其表現如下:
1. 選型不當導致的故障
(1)基本概念不清,易受廠家誤導。比如某高速公路招標UPS,在標書中要求UPS要具有輸入斷一相或兩相后電池不放電,還能繼續供電的能力。因為有的廠家標榜他的UPS在輸入斷一相后電池不放電,UPS還有50%的供電能力;輸入斷兩相后電池仍不放電,UPS還有25%的供電能力,延長了電池的使用壽命。用戶就認為這個性能好,稍動腦筋不難發現其弊病:若想享受其優點必須購買4倍于負載容量的UPS,否則斷一相后就帶不動當前的負載了。話又說回來,如果UPS斷的是輸入開關后面的兩條線怎么辦?還修不修?何時修?是否完全斷電后才能修?等等這一系列問題如何解決。如果用戶真的按負載實際容量購買了這樣的UPS,這就是莫大的隱患,這是靠運維解決不了的問題。
(2)不便說明的原因。比如有的用戶從上個世紀就開始使用某品牌的機器,當時由于客觀原因盡管輸入功率因數低、效率低、體積大、耗電多和價格貴而無法也不便解決。現在比原來機型優越的多的新機型早已問世,比如新型的高頻機結構UPS每一百千瓦每年要比原來工頻機機結構的UPS節約5萬度電,而這個幾兆瓦容量的機房每年就可節約幾百萬度電。但由于某種原因,硬是放著節能設備不選而仍將那種耗能的機器寫入標書,這樣做還怕不保險,還把那種機器的結構特點寫入標書。這不但增加了空調設備的投資和占地面積,無疑也為今后的運行埋下了隱患。這又是運維中無法解決的問題。
(3)追求低價格。有的用戶認為UPS都一樣,所以就追求低價格,結果導致故障。比如某高速公路指揮部貪圖便宜,第一天裝機,第二天就起火;某人壽保險公司低價格購進的機器,不到半年因UPS故障而燒毀幾乎所有IT設備的輸入電路,導致系統癱瘓;又如某多臺UPS并聯的兆瓦級數據中心,裝機沒有幾個月因其中一臺UPS中的一個逆變器功率管擊穿而導致所有UPS跳閘……
2. 使用環境不當故障導致的故障
不按說明書上對環境的要求放置機器,甚至有的將UPS放在隨便穿行的走廊、滴水的地下室。比如幾臺200kVA的UPS放在了屋頂只有一層預制板的平房,空調只是兩臺5P的舒適空調機,又如一個玻璃廠竟將UPS放在粉末飛揚的廠房內,等等。導致了頻繁故障。
3. 制度不健全導致的故障
比如有的值班人員隨便將電爐子、電飯煲和吸塵器接在UPS上,導致過載跳閘;有的值班人員的食物引來老鼠鉆入機器而導致起火……
4. 交接故障
這類故障主要是由于管理人員的前后不是一撥人或配合不好造成。比如某火車站售票系統,前面值機人員由于移動機器位置而將UPS的外接電池組斷開,事后又未向后來者交代,結果造成了市電和UPS同時停電的故障……
5. 經驗故障
經驗是不可缺少的,是不可多得的財富。但經驗有其相對性,即在某種UPS上得到的經驗不一定完全適合另一種UPS,否則就會導致故障。某電信局由于不看說明書而用同樣的方法啟動另一品牌機器導致逆變器燒毀。
6. 失察故障
一些器件在運行中會出現老化或早期失效,如不及時檢查發現就會導致故障。這些在自動監控中是無法發現的。比如因老化而開始彎曲的保險絲,電池結構螺絲的松動,電池長時間放電后使電池殼有微細的裂縫等,如不及時發現或發現后沒有及時處理都可造成故障。
7. 倉促上陣導致的故障
搞維修保養來不得半點急躁,要考慮周全后再動手。某公司工程師要對一用戶正在運行的UPS進行檢修,按照規定要用維修旁路開關將UPS退出后再檢修,但按照程序需先啟動自動旁路,而后再閉合維修旁路的閘刀。也許該工程是還有其他急事要辦,進機房后未經考慮就閉合了維修旁路閘刀,結果造成逆變器功率管爆炸。
8. 維護不當導致的二次故障
對UPS的定期維護是必要的,但應有一套嚴格的管理程序。那些不負責任、不按規定要求進行定期或不定期保養是導致機器故障的重要原因。另外,在維護保養時也可導致故障,比如用萬用表探針測量電路板電位時,探針將兩點短路導致故障。一用戶作電池放電時,將電池從UPS上摘下,放電后將電池接回時機型解放,導致電流爆炸。又如一工程師在更換離心風機時不小心活動扳手一打滑打在了控制板上,當時沒有在意,風機換好后不能開機,檢查發現一條器件腿被打斷了……
9. 靜電導致的故障
某機房按例停機保養,但保養后卻無法開機。檢查后發現一個組件電壓擊穿,回憶維保過程發現該控制板用塑料牙刷掃過灰塵。塑料在干燥器件的表面可產生幾千伏的摩擦靜電電壓,由于機器內小信號電路使用了一些MOS器件,這些器件耐壓很低而且最怕靜電。經測量一個普通塑料袋,用電路板摩擦一下就可產生3000V的靜電電壓。所以在檢查這些電路板時最好手腕上要套一個接地環。
10. 過分自信導致的故障
做事情自信是成功的基礎,但過分自信有時就會出錯。比如某國際銀行在UPS運行了8年后就應該更新設備,廠家也多次提醒。由于該UPS8年來很少出問題,所以用戶負責人屢次回答“不用更新”,結果幾個月后該UPS因老化故障而停止供電兩小時,導致全球業務也中斷兩小時,損失很大。
根據國際上的統計資料,5年標稱的電池服務壽命最多不超過3年。在平時不保養的情況下,一般2年就應該更換。某飛機場候機廳電池原配4h,3年后仍不更換,一次外電網停電,UPS后備時間只剩4h,由于停電造成了損失……
像類似的人為故障現象還有很多,就不一一例舉了。
歸根到底,電源系統的選型是第一關,這一道關把不住首先就種下了隱患的種子。電源系統的連接是第二關,有了好的設備,如果沒有好的連接方案,也會埋下隱患。某電視臺由于連接方案被廠家誤導。十幾套節目的供電UPS故障接連不斷,而且大都是有驚無險,一連幾年都是這樣,使維保人員提心吊膽、傷透了腦筋。連接方案是一個工程,不是維保人員左右的了的。無奈只好在重大活動和節日令廠家工程師前來值班。這又有什么用呢?廠家的工程師到此也只能是給用戶心理上以安慰。