作者:ITValue / 日期:2014-07-24
ODPS(Open Data Processing Service)是一項Web服務,大家不用花大錢建數據中心,就能分析海量數據。100PB的數據任務可在6小時內跑完。這個數據量相當于1億部高清電影。
目前,全球提供類似服務的僅有Google和亞馬遜,國內尚無同類產品可供比較。阿里云方面表示,ODPS將比Google BigQuery更強大,不僅支持更豐富的SQL語法,還將提供MapReduce編程模型和機器學習建模能力,可以服務更多應用場景。
如何讓數據產生價值?先得擁有大規模處理能力,然后才是挖掘、算法和分析。傳統的做法是這樣的:租個機房,買一堆昂貴的設備搭建數據倉庫,再請一幫技術人員來維護運轉。一旦觸發bug,或者當數據總量超過100TB時,你的工程師們可能會被這些麻煩搞崩潰。
Hadoop開源系統很偉大,大大降低了成本。阿里是中國玩Hadoop玩得最好的幾家公司之一,Hadoop支撐了淘寶、支付寶早期業務的快速發展。不過,自建一個像樣的Hadoop集群,得百萬起步資金,專業的Hadoop人才更是稀缺。門檻還是太高。
相比而言,使用ODPS的成本和門檻則低得多。ODPS采取按量收費的模式,目前定價0.3元/GB,即開即用,一個月內免費。根據大部分公司的數據量來測算,一般每月只需花費數百元。
阿里小貸,ODPS之前一直在阿里內部試用。你見過敢貸1塊錢給你的銀行嗎?如今,超過36萬人從阿里小貸借款,最小貸款額1塊錢,并實現3分鐘申請、1秒放款、0人工干預。要做到這一點,阿里小貸每天得處理30PB數據,包括店鋪等級、收藏、評價等800億個信息項,運算100多個數據模型,甚至得測評小企業主對假設情景的掩飾和撒謊程度。另外,阿里小貸每筆貸款成本3毛錢。什么?你問普通銀行的貸款成本?先乘個1000再說。
華大基因,2003年國內抗SARS研究的主力軍。去年,我們邀請華大在ODPS上試了下基因測序,耗時不到傳統方式的十分之一。2010年,歐洲E.coli污染危機,測序和組裝耗時兩天以上。如果用ODPS,只要幾個小時甚至幾十分鐘。一旦未來真有生物危機爆發,人類可以贏得寶貴的破譯時間。
世界杯,Google拿英國體育數據提供商Opta Sports的數據,在BigQuery上跑了跑,成功預測了本屆世界杯8強名單。ODPS是一款跟Google BigQuery類似的產品,如果哪位有數據,也可以來算一算接下來的比賽。
高德地圖。公共領域的數據挖掘,可以用ODPS嗎?當然!結合中國氣象局的精準預報數據,高德地圖不久后就能告訴你:"前方道路已嚴重積水,您的車輛駛入可能會遭水淹,建議繞道行駛。"如今,每盒藥品上都有一張電子身份證,從生產、流通、儲存、配送、銷售到使用,全過程的數據都跑在ODPS上,一旦發現問題藥品,監管部門可以立即采取措施。我們期待未來每一桶油、每一道菜的數據都跑在ODPS上,食品安全問題需要通過創新的方式來解決。
手機、電視、手表、汽車、空調……這些工業時代的經典產品,現在都變成了互聯網終端。誰說電飯煲、鞋子、衣服不會呢?如果未來的制造工廠都變成互聯網公司,數據將成為最基本的生產要素。你不懂算法、不會建模、不會分析,沒關系,那些有數據分析能力的公司會幫你做。
阿里巴巴各項數據業務都在用ODPS,比如淘寶在算你最中意哪個淘女郎,天貓在算你什么時候想吃車厘子,菜鳥在算卡車走哪條路可能會被雷劈,支付寶在算你何時會從屌絲變成高富帥。