ITValue社區

天弘基金韓海潮:能支撐1.8億用戶的金融服務系統如何在云端布局

作者:郭娟 ITValue / 日期:2015-05-22

ITValue注:昨天520,用戶一個送紅包表白的行為,使天弘基金的技術部門從凌晨2點忙到下午7點。所以天弘基金副總經理周曉明認為,互聯網金融的考驗不是在前臺,而是在后端。


目前天弘基金的系統能夠支撐超過1.8億人的金融服務,每天為8000萬用戶進行收益分配,最大的交易做到每秒5000筆,作為金融產品,每晚上的清算時間小于60分鐘。


韓海潮是天弘基金的運營總監兼技術部總經理,5月21日,在ITValue主辦的《證券業CIO對話天弘基金》的主題沙龍上,他認為,余額寶的創新有三點:一是余額寶讓T+0基金發揮到極致的一個產品;二是余額寶的嵌入式直銷;三是從2014年9月起,余額寶系統從傳統的IOE架構升級到阿里云上,成為了金融云平臺上的第一個金融行業的核心業務系統,也是行業里第一個去IOE的系統。


余額寶是如何在云端去運營和布局的?如何能做到快速高效地支撐大量的互聯網長尾用戶進行基金交易?5月21日,在ITValue主辦的“證券業CIO對話天弘基金”的主題沙龍上(ITValue+產業互聯網系列論壇),韓海潮對此發表了演講:


第一階段:傳統架構余額寶在2014年9月時,將后臺系統從傳統的IOE架構升級到了阿里云上,成為了金融云平臺上的第一個金融行業的核心業務系統,也是行業里頭第一個去IOE的系統,我們現在的處理能力已經達到一級的處理能力。



余額寶剛上線時,因為對云、大數據實際上并不了解,所以我們一期架構還是按照傳統的,基于供應商的架構去做,這套系統架構支撐的技術能力對于傳統行業來說,已經非常強大了,它是金正的架構,當時一期系統解決的問題主要是這幾點:


一是讓余額寶有金融屬性。


二是余額寶轉入轉出功能等業務創新的一些東西,通過技術來實現它,我們當時并沒有考慮太多的性能問題,因為也不知道余額寶到底會發展成一種什么樣的量級,所以我們一期系統主要是基于業務創新的一種支持所完成的系統。
余額寶一期推出以后,馬上面臨很多問題,當時我記得是17天還是10天,我們的客戶就達到了100萬,我們一期系統設計能力客戶只有一千萬,對IT部門來說,是非常嚴峻的考驗,因為即使十天達到一百萬,達到一千萬也要有三個月的時間。事實就是這樣,我們三個月就達到一千萬的客戶,我們一期系統的生命周期只有三個月。


第二階段:余額寶系統上云
2013年9月27日上午十點,我們從一期系統切到二期系統。一期系統是在天津本地機房,而我們的前端是在阿里的平臺上,我們通過兩條專線,連到天津,所以這個網絡鏈路非常長,對天弘端的基礎環境要求非常高。



另外是我們傳統架構的擴展能力還是不足,尤其是余額寶的數據庫層面非常依賴于Oracle,架構也是傳統架構,沒有做分布式的處理,資源消耗非常大,對單點的資源。當時我們業務需求是這樣的,業務需求我們不斷地要推出各種創新模式和方法,所以對我們的系統要求也非常高,我們的數據量剛才講十天達到了一百萬,數據量成倍式的往熵增加,我們的在線交易的并發數也隨著客戶量的增加,并發數也越來越大,系統面臨非常大的壓力。


而當時余額寶IT部的現狀是,傳統架構的資金投入非常巨大,余額寶第一期的投入光硬件和軟件就是400萬人民幣,如果我們基于傳統架構去橫向做架構上的擴展,當時預計有兩套方案,一套是在傳統的架構上擴展,一套是上云。


如果基于傳統架構的擴展去做,預計了一下可能要將近上億的資金投入,才能把雙十一大規模爆發增長的數據量拿下,所以這種巨額的投資非常大,對于我們公司當時的現狀來說,根本就不可能的。所以我們選擇了上云,而且要去IOE的系統,難度非常大。


第三階段:云直銷系統的設計原則云直銷系統的一個設計原則,第一個就是總控設計,第二個是分庫分表,第三個是文件處理(如圖)。
這種架構上按節點分步分秒來實現,負載平均到各個節點上,包括消息機制,因為分布封點以后,并不是所有的完全沒有聯系了,簡單匯總數據還是需要一些消息機制的互動,然后數據的核對,我們如何設計總控,我們收益分配是如何分到這些子節點上,給我們的是一個大的當日的收益,我們要分到所有的分節點上,我們先第一步,要把總的收益分到每一個節點上,每一個節點再具體分給客戶,這些設計,包括我們分庫分點,我們數據庫如何分,最后你是按照什么樣的一個標簽。


這個是我們在云上的一個架構,其實這個還是我們基于傳統的RS的云使用,我們僅僅是把傳統的這種架構搬到了云上,我們還是有消息中間件,包括業務中間件,包括我們數據庫,包括我們前端的SLB,還有文件服務器那邊我們單獨做了一個工具,對文件進行分發,


另外和我們天津的數據中心,剛才講的把歷史數據要拉過來,當然我們現在天津數據中心也挪到了云上。這是上云前后的一個對比,例如,我們一期系統做清算,達到了11099秒,大概八個小時,我們最長的系統清算都清算到下午兩三點鐘了,實在撐下去了,而我們遷到云上以后,我們基本上是,當時剛上線的時候還快點,現在也是一個小時之內全部把清算都能搞定。

推薦閱讀