ITValue社區(qū)

【湘明對話】安全事件迭出,聯(lián)想、順豐、京東有何防治高招?

作者:郭娟 / 日期:2015-06-08

攜程宕機事件再次讓人們關(guān)注起IT運維的話題,試想,一個企業(yè)擁有那么多業(yè)務(wù)線,支撐諸多業(yè)務(wù)的IT系統(tǒng)稍微出點差錯,牽一發(fā)而動全身。據(jù)了解,攜程此次宕機12個小時,損失超過1300萬美元。順豐科技的總裁田民甚至打了個比方:“就像天天背手榴彈一樣,就害怕某個系統(tǒng)出一點點差錯。”


“只要數(shù)據(jù)中心網(wǎng)絡(luò)出問題,甭說是幾個小時,就只有半小時,楊元慶就會把我叫過去,兩小時,肯定是整個董事會都會來找我?!?聯(lián)想全球服務(wù)、聯(lián)想集團(tuán)高級副總裁、前聯(lián)想集團(tuán)CIO王曉巖女士這樣說。


日前,《商業(yè)價值》出版人、鈦媒體聯(lián)合出版人、ITValue發(fā)起理事劉湘明就這個話題與田民、王曉巖以及京東商城研發(fā)部副總裁馬松做了一次對話,聯(lián)想、順豐和京東,這三家企業(yè)所涉及領(lǐng)域不同、業(yè)務(wù)線迥異,他們的IT運維有什么高招?




王曉巖:聯(lián)想運維團(tuán)隊人數(shù)占據(jù)整個IT人員的一半

聯(lián)想IT運維的挑戰(zhàn)是國際化業(yè)務(wù)之后凸顯出來的,因為之前,我們對系統(tǒng)壓力較大的業(yè)務(wù)是一些技術(shù)體驗的,一些運維工作也在夜里完成,國際化后,我們要全天24小時要支持我們業(yè)務(wù)。



聯(lián)想的業(yè)務(wù)跑了160個國家,辦公室遍布全球六七十個國家,我們的主數(shù)據(jù)中心在北京,災(zāi)備中心也在國內(nèi)。聯(lián)想從2005年、2006年開始鋪設(shè)架構(gòu),基本上是一個集成化的部署,主要的IT數(shù)據(jù)中心都在國內(nèi),但是它是支持全球的7*24小時的運作,對運維就提出了很高的要求。


我們也想過將IT運維外包,它是基于客戶的有問題的數(shù)來做支持的,成本高,響應(yīng)也不及時。另外,客戶端要感覺好,重要的系統(tǒng)端也不能出故障,這時候要求我們整個運維的計劃要特別強。我們要看下一點的整體運行時間,哪個時間是計劃內(nèi)的系統(tǒng)的運維時間,這個時間怎么事先跟業(yè)務(wù)溝通好,當(dāng)然我們計劃的時間都是在業(yè)務(wù)相對低谷的一些時間,業(yè)務(wù)少一點的,要實現(xiàn)跟業(yè)務(wù)溝通好,哪些可能是計劃外的,其實我最大的挑戰(zhàn)不光是運維,我們已經(jīng)談到,我們的MTP,也就是從測試的部分,或者開發(fā)系統(tǒng)挪到生產(chǎn)系統(tǒng),是一個非常復(fù)雜的過程。


所以現(xiàn)在在聯(lián)想IT人員不到2000人,運維團(tuán)隊約有1000人的規(guī)模。還有一部分是外包給自己的服務(wù)部門,最重要的還是在管理上要效率。實際上我坐飛機的時候,或者出差的時候,或者是節(jié)假日的時候,我對新系統(tǒng)上線是最擔(dān)心的,盡管我每天非常忙,但是我最擔(dān)心的是數(shù)據(jù)中心網(wǎng)絡(luò)出問題,因為只要數(shù)據(jù)中心網(wǎng)絡(luò)出問題,甭說是幾個小時,半個小時,楊元慶就把我叫過去了,兩小時的肯定是整個董事會都會來找我。


盡管我們有災(zāi)備中心,我們的災(zāi)備中心也從來不用,但我必須得保證所有的工作做到位,所以要求無論從網(wǎng)絡(luò)、從數(shù)據(jù)中心都要有目的性,包括每年P(guān)C銷售的高峰和低谷差別很大,高峰到來的時候一定要事先來做好預(yù)演工作來確保系統(tǒng)不出問題。所以我們運維的難度是國際化的難度,傳統(tǒng)的IT集成性難度非常高,我們必須在管理上要特別嚴(yán)格,聯(lián)想這些年當(dāng)然也積累了非常豐富的經(jīng)驗。




田民:順豐的系統(tǒng)引入自動檢測工具

順豐的業(yè)務(wù)形態(tài)決定我們要用RO的架構(gòu),因為順豐的系統(tǒng)是第一個在中國使用全自動分檢功能,這個系統(tǒng)如果我們宕機半個小時的話,可能就是非常大的災(zāi)難性的損失。



我做物流可能也做了差不多二十年,對于IT系統(tǒng)的運轉(zhuǎn),我打個比方,就像天天背手榴彈一樣,就害怕某個地方出一點點差錯,所以,我們快遞的業(yè)態(tài)決定用很多自動化設(shè)備。


順豐目前為止還只是同城的災(zāi)備,順豐目前每天包裹量是700萬,雙11高峰時達(dá)到1200萬,系統(tǒng)里都上億的。我們跟電商唯一的不同,我們在系統(tǒng)里面要保留數(shù)據(jù)的要求比較大,因跟電商系統(tǒng)下單后,可能剛剛進(jìn)入我們的物流系統(tǒng),倉儲狀態(tài)還沒顯示,所以要保留一個周期,這樣的業(yè)務(wù)狀態(tài)對數(shù)據(jù)庫的要求非常高。所以我們在前一階段在數(shù)據(jù)庫上用很多小型機來保持系統(tǒng)的穩(wěn)定性。


另外我們研發(fā)了很多自動檢測工具,來預(yù)防未來這種事情的發(fā)生。我們最近也有很多系統(tǒng)在突發(fā)之前已經(jīng)預(yù)警,也幫我們解決了很多問題,實際上購物數(shù)據(jù)一旦出點問題的代價很大,但是我們通過所有可能的方法,通過預(yù)演,我們用最短的時間讓系統(tǒng)恢復(fù)。




馬松:一根電纜影響不到京東的服務(wù)

京東的交易非常復(fù)雜,不僅有正常的自營業(yè)務(wù)也有POP商家,也有面向海外的,也有諸如散購、京東到家等,業(yè)務(wù)線非常多。



每條業(yè)務(wù)的購物流程都不一樣,整個服務(wù)體系的系統(tǒng)分布在不同的地方,所以切換過程相當(dāng)復(fù)雜,我們也在每個單獨系統(tǒng)也都做了切換,所以我相信,大部分主要的業(yè)務(wù)不至于因為一根電纜影響到業(yè)務(wù)。


我們事前也會也做很多演練,這方面也能做到一定程度的保障。當(dāng)大規(guī)模訪問爆發(fā)時,例如即將到來的6.18,對系統(tǒng)的要求集中在能不能提供信息安全、穩(wěn)定性、高可用性這塊,因為我們畢竟是面向海量用戶做服務(wù)。

推薦閱讀