作者:ITValue特約專家 陳罡 / 日期:2010-06-07
近期ITValue社區(qū)在熱議“雙機(jī)熱備”這一話題,其實從系統(tǒng)整體來看,當(dāng)雙機(jī)熱備起作用,必然是發(fā)生了導(dǎo)致系統(tǒng)使用故障的事件。從多年的運行經(jīng)驗出發(fā),我總結(jié)了造成系統(tǒng)不可用的6個主要原因和解決辦法,供大家工作時參考,希望能盡量避免宕機(jī)的發(fā)生。
原因1:網(wǎng)絡(luò)故障。
原因2:應(yīng)用系統(tǒng)本身所固有的問題。
當(dāng)處理某些問題時,資源耗用過大,造成系統(tǒng)性能急劇下降,導(dǎo)致整個系統(tǒng)幾乎無法使用。
原因3:基礎(chǔ)設(shè)施問題。
包括電源、空調(diào)等的故障以及維修保養(yǎng)造成停機(jī)??照{(diào)故障造成過熱而使得存儲系統(tǒng)熱保護(hù),進(jìn)而主機(jī)也進(jìn)入熱保護(hù)狀態(tài),但主要原因還是機(jī)房設(shè)計不合理所引起的。
原因4:系統(tǒng)部署方案的不合理。
因為備份方案的問題,造成操作系統(tǒng)的文件系統(tǒng)崩潰進(jìn)而導(dǎo)致宕機(jī)。
原因5:人為原因。
曾因電工誤操作,關(guān)閉所有UPS的輸出開關(guān),造成所有設(shè)備停機(jī)。
原因6:硬件故障。
原因1網(wǎng)絡(luò)問題的發(fā)生,是一個綜合性的管理問題,病毒防護(hù)的缺失,網(wǎng)絡(luò)濫用等等;原因2和4主要是對系統(tǒng)的不熟悉導(dǎo)致解決方案的偏差,從管理上找原因,可能是未能全面正確的評估——但這個確實比較難,很多問題是因為本身的業(yè)務(wù)模式所決定的解決方案的獨特性,進(jìn)而使用了非普遍使用的方案和技術(shù),增加了風(fēng)險;原因3是未能正確平衡投資與系統(tǒng)可用性的緣故,未能隨系統(tǒng)應(yīng)用的發(fā)展而及時調(diào)整基礎(chǔ)平臺;原因5的發(fā)生絕對是基本管理缺失;原因6,硬件故障是真正的依從概率而發(fā)生的,反映了系統(tǒng)運維管理的缺失。
我總結(jié),雙機(jī)熱備方式只是一個保險措施,CIO只有更多的加強(qiáng)IT管理,將技術(shù)、人、流程、IT風(fēng)險管理等綜合考慮,才是IT管理的價值所在。
(本文作者為麗晶時代電子線纜有限公司信息管理部經(jīng)理)