ITValue社區

阿里技術專家深度剖析:千人千面的淘寶背后,阿里如何做大數據營銷

作者: 任斐菲 / 日期:2015-10-19

萬眾矚目的阿里云棲大會,不只有馬云的演講最火爆,ITValue聯合主辦的企業級互聯網架構論壇里不僅座無虛席,更是“站無虛席”。沒能去現場、沒能看直播的小伙伴兒都不用遺憾了,一起來看看ITValue為你整理的精彩演講吧。

常用淘寶的人也許會發現,當你打開淘寶的頁面,每個人得到的推薦商品并不相同,這被業界稱為千人千面的個性化營銷體系,在這背后,是阿里巴巴對于用戶大數據的深度運營。負責阿里個性化平臺的技術專家魏虎詳細解讀了實現這種針對用戶個性化推薦的營銷體系背后的算法快速迭代的場景化平臺,這個場景化平臺支撐的導購效率提高,正是導致你在淘寶上不知不覺越買越多的關鍵原因。而這背后有一套復雜的技術和數據運營體系在支撐。

以下為魏虎演講全文,經ITValue整理:


魏虎:我給大家來簡單介紹阿里在傳統電商這一塊怎么做進去的,后面有什么樣的平臺支撐,支撐整個阿里云。

先做一下自我介紹,我2005年加入淘寶,2006年的時候那時候沒有第一的概念,當時也是在淘寶賬戶,也是參與過、主導過整個淘寶重大的戰略的收集。近五年開始做大數據方向,目前主要是負責整個阿里的個性化平臺,包括我們為商家做的整個CM的數據平臺。

接下來我會從四個方面來講一講阿里大數據的推進和營銷平臺。

1
用戶個性化購物的背后是阿里對流量的精細化運營
先講一下我們這個平臺的背景。

電商行業里面大家知道的都是我們消費者去購物的環節,當然我們這些流量,其實人口的紅利到公司的流量紅利,已經不像以前那樣爆發式增長了,流量怎么樣精細化的去運營,這是我們現在迫切需要解決的問題,個性化的用戶需求會越來越多。再一個我們阿里其實有很多BO,淘寶、天貓、聚劃算、阿里十多個BO,每個BO業務發展參差不齊,那每個BO做自己的,他的技術的標準、技術的架構都不統一,配到一個統一的標準。第三個問題,其實我們在做大數據這塊最重要的一個問題,在IT里面叫數據,在DT里面我們叫分享,需要特征,這些特征里面沒有統一的標準,也導致開發效果下降。第四個問題,每個團隊有自己的做法,做他自己的大數據,好的模型怎么去復用,顯然是沒有辦法。我們這個平臺也是提供這樣的能力,我們推薦幾個方案能夠復用起來。

剛才說到這四個問題,我們平臺有一個定位,它其實是業務場景算好了數據的平臺,把我們的推薦、營銷、所需要的服務產品化和主頁化,能夠讓我們的業務開發低成本,快速的實施自己的算法,并且驗證自己的算法,同時能夠讓我們的業務方、我們的產品經理能運營,能夠快速去上線我們的主題方案。

這個平臺,在內部來講是兩大客戶,一個是我們的算法中心,做二次開發,做了算法的解決方案。第二個就是在這個平臺上使用我們的算法,這個平臺實際上是讓我們內部的業務中心和我們內部的開發中心、算法中心有機的結合運營。這個平臺從這三層深層的結構來講,他是包括上面的Paas和Saas,對我們的算法開發中心是Paas平臺,因為他二次的算法開發,包括用戶的開發。對于運營和產品運營來說,是Saas的角色,在這個角色上他只要去掛自己的決斷,找到自己的決斷,去運用到自己的決斷,就可以簡單的上線。前面講到的平臺的背景,盡量發展這個平臺,再是阿里在我們整個電商領域和自身的業務帶來的價值。

先說一下我們這個平臺解決了這個大的背景。像剛才講多在我們這個淘寶,在我們這個電商,無論是天貓還是聚劃算,有太多的商品,現在我們有數十億的商品,有千萬的賣家,那我們一個用戶到我們這個淘寶或者到我們手機,打開手機淘寶,怎么讓用戶能夠去快速的找到商品,其實對用戶來講是一個信息的擴展,怎么樣去篩選我們有效的用戶,這個屏幕,可能一個屏幕最多只能裝十個商品,那怎么樣這十個商品快速的讓你能夠有興趣點,針對消費者來說這是一個個人平臺。

2
一個支撐算法快速迭代的業務場景平臺才是導購效率提升的關鍵
再一個針對平臺,對我們阿里這個平臺,電商的這個平臺來講,我這個頁面是展示PV,怎么一次展示PV是需要消耗不同的價值的,比如說消耗我們供電的主板,消耗我們供電的存儲,這些實際上都是有成本的。如何讓導購效率最大化,讓PV帶來更多的成交轉換,這對平臺的利益是非常有價值的。基于這樣的背景,我們平臺是解決這兩個問題而誕生的。這個平臺自身的業務類型,基本上現在無處不在,主要的是分成這三個,一個是推薦,再一個就是個性化的排序,最后是榜單,這個榜單其實不像我們簡單說的個人榜單,這個榜單更多的是基于大數據優化的榜單。那這是這個平臺我們支持的業務類型,這種業務類型其實我接下來講的基本上涵蓋了我們用戶所能看到的所有的頁面。

那這個平臺在里面起到什么作用。有了這個平臺讓我們的算法迭代更新,從原來平均需要一周多,到只要半天時間就能迭代商品一百種算法,這是因為有了這個效果的提升,使得我們的算法不斷的更新,我們的導購效率不斷的提升,這是數據化運營非常重要的,如果數據化運營里面你的基礎設施不是足夠的靈活,那我覺得這個導購效率也是屬于空談。再一個有了這樣的平臺,當個性化的業務無處不在,業務半天就能算一個算法,半天我就能提交一個場景,我可以在短短時間內讓我們頁面所有的量都具有一定的能力,所以這是平臺帶來的讓所有的業務能做到無處不在。

這個平臺現在支撐的一些場景支撐了整個電商領域1000家以上的商品,即所有的產品就是在我們的頁面上或我們的手機上看到一些豆腐塊或者音樂觸鍵。大家可以看到我們的淘寶向儲物技能和購物技能,比如說商品詳細鏈接,或者購物車。當你進入這個購物車之后,給你推薦一些菜系。當然進入商品詳細鏈接之后,給你推薦的搭配得相似或者相關的這種推薦。那么像有一些市場,有很多個性化的排序,另外首頁上包括我們的內部的各項排序,包括我們文字的個性化的標亮。手機淘寶上個性化也是無處不在。

另外像O2O里面的一些場景,保證淘寶買賣、天貓,那其他應用比如說數字娛樂、ICPU聚劃算,很多業務的場景都是在這個平臺上。所以可想而知這個平臺自身的業務量之大,目前這個平臺支撐了4000個產品,包括我們16個商網團隊,每天有50億以上的調動。但貨幣支撐的服務調動是擺動式的。

當你用手機淘寶時是如何不知不覺的越買越多的

第二,我講一下手淘。我們以手淘為例來給大家直觀地演示一下我們大數據應用的場景。打開手淘,我們看到這些屏幕上的這些圖片,這些圖片每個人打開可能都是不一樣的。為什么做成這樣的?其實我們打開手淘我們希望快速地信息公布,那么這第一批的圖片是非常搶眼的一個信息。如果這張圖片抓住了這個用戶的心事,他馬上就會點,會引導他的成交。因此,通過這種個性化的圖其實對手淘的點擊打開轉換是非常大的一個提升。再打開手淘再往下看,點擊精品導購,下面這些導購類的列表,其實每個人看到的是不一樣的。這里面有很多的因素。除了說服,對激發起用戶的興致,更重要的是我們的導購文章每天有數萬篇、數十萬篇這樣的體量。如果每個人都看到一樣的,或者你通過這種隨機或者輪播,那我想導購的文章被瀏覽的可能性是非常小的。所以這個對平臺的價值是非常大的。

再往下看,就是我們頻道,比如說天天特價,我點過去之后,這一塊也是根據你之前的瀏覽行為和你的購物行為來做一些商品的篩選。然后再往下去,我們的行業市場點過去之后,一些商品的展示也是跟我們的大數據推薦的狀況符合的。再往下翻,就是我們根據你之前的過往行為包括你單純的瀏覽行為來去推薦你可能感興趣的店鋪。推薦完店鋪之后就是我們推商品。我們直接的商品的導購,我們淘寶有數十億的商品,那怎么讓我們這個這么小的手機屏幕能夠快速地讓你有點的欲望?那這里面非常多的是推薦專碼。當然我們每個店鋪的詳細頁面和店鋪頁面的商品也是根據你的偏好來去做的。整個店鋪的商品個性化的排序。那這是剛才說的商品,商品之間的一些相似商品、相關商品。

我們剛才說到現在流量紅利已經沒有以前這么有價值了。其實對于一個商品來說,一個用戶到了你的店鋪,它非常希望這個用戶能夠留下來的。但有可能這個用戶到了當前這個商品他不留下來,但是有這個相關的商品對這個用戶來講也是非常大的吸引。通過模塊的這種加載對店鋪的流程率支撐得非常大。這就是購物車,當你進入購物車的時候,下面會根據你的購物車之間的商品來做一些連接搭配。前面就以手淘為案例我們講了阿里大數據的應用,可以看到基本上我們整個手淘你所能看到的跟你交互的頁面,這里面很大一個東西就是我們這個平臺來支撐這個業務。

3
商網要做的事情是創建場景、制定方案、分析數據和建模
簡單講一下我們平臺的功能。其實這個平臺最重要的是有兩個角色。一個是產品運營,他們負責的是業務,負責運維比如手淘的某一塊區塊,這個是我們的產品,他們用的這個頻道。第二個角色就是我們的商網,他們接了頻道后,他們就去做他們的開發,對我們的產品來說,他其實只要做兩件事情。第一件事情就是創建產品,第二個事情就是拍一個場景去關連到這個平臺上已有的數據。這個場景能夠直接上線到我們現在個性化的場景。對于我們網商要做什么事情。他要做的就是在平臺上做我們模型的建固,做我們特色的繼續。同時在這個平臺上他要做他的方案開發。開發完了之后,他把整個方案發布到平臺上,通過這個平臺與我們的運營商進行探討然后去關聯到它的產品中去。有了這個平臺,實際上讓我們的合作機制、運營和算法的機制變成一種系統化地、數據化地協作。

這個平臺功能上包括四大塊:場景、方案、數據和建模。剛才說了場景,場景就是我們業務員去維護場景、去創建場景。場景其實這里面包括一些基本性的產品無論是手淘上還是PC淘寶上還是ICPU的聚劃算的頁面上一些簡單的描述。那創建網商就會對他的方案進行量身訂作一個方案,同時它也可以對部門方案做一個AP的結單取得最好的方案。當然有部分方案帶來的效果,當然我們的點擊率、轉化率、成交量這種最核心的數據指標這是一個非常值得關注的。

接下來開發部分。注意我們這個平臺主要有幾個流程,剛才說了一個變形在線方案,它通過IPE然后去下載我們的代碼,每個代碼有一樣的接口,然后它進入這個接口就開始開發。同時我們有很多技術上的服務。它繼續這個服務和他的業務規則。對于模型和建模這一塊,我們有一個建模平臺,它可能平臺上通過多轉的方式去做數據的預處理包括這個模型的預測。當然也可以更高接點,我做實時的用戶的預測。這就是我們商網在這個平臺上可以創建方案、開發代碼、方案發布。

這個平臺上會有數據中心。這個數據中心是什么概念?比如說做一個產品的時候,這個業務上我們需要用戶的數據,比如用戶的特征、用戶訪問的記錄、用戶瀏覽的商品數據。這些數據我們通過這種標準的SKI碼即標準的原數據概念讓這個數據可以可復用、可被利用。當然講到以前沒有這個平臺之前,用戶在做他的用戶、代碼后,我也不知道他有什么特征。這個特征是個數據,它的含義是什么這都是無法知道的。有了這個標準化之后,我們的商網就可以做最大的開發客戶,對數據的管理第一能做到非常體系化的管理,第二能夠做到數據的復用。再一個就是我們的特征。特征這里是講了更多的是我們PC里面的概念。我們一線里面有特征的聚合、特征的清洗,包括特征里面放了模型進去。這些特征也是為了做儲用。我們每個團隊有它自己的特征戶,但每個團隊做特征可以拿來去互用。最后就是把整個一線的預測、訓練、溝通過程用模板的方式把它搭建起來。那像以前基本上是要用代碼,寫一些代碼去做,那有這樣的建模平臺可以讓這種流程變得可以復用。

4
實現個性化平臺的技術架構
最后簡單介紹一下整個平臺的技術架構。平臺架構簡單來講分成三部分,存儲、連接、使用。那對于存儲來講,就下面這部分包括我們阿里的一些基礎的主件、包括我們中間提供的一些基礎的消音熱鍵,再一個就是在模型這一塊我們主要是用內部的像,當然我們內部也有PS這樣的一個流程的計算。再上面這個連接技術就是我們推薦營銷平臺服務,加載了我們業務的代碼,然后做AP的分流,包括我們的監控、管理,包括我們整個機器的運營。再接下來就是我們使用方。包括營銷就業系統、包括我們的CM系統、包括前面的各個業務的系統都通過這種方式來調動。

這個平臺提供了和諧能力,上面一排其實就是我們數據方面的能力,包括我們有一線的建模,實時的建模或在線的預測,還包括這個特定模板。其實我們在阿里大數據里面從2009年、2010年開始到現在大概有五六年的時間。從最早的一線預算到這個時侯,發展也是經過一個個階段過來的。這個平臺已經具備了戰略上的一線建模能力,也可以在這個平臺上去用比較高大上實時的能力。

下面這一塊是IT基礎設施。比如說這個是我們的商網基于我們平臺去做它的二次開發。我們要求主件包括我們的流程這個都是要提供給這些開發者。我們每天有幾十個億的調動量,每個業務的情況不一樣,我們要保證每個業務之間不要相互影響,同時也要保證我的產品能夠自動地過。那這是IT方面的技術能力。包括這個存儲備份,當時我們的很多數據都存在流失,包括搜狗引擎、包括檢索引擎、這些存儲的技術怎么做。對于我們從阿里進行交易的問題,我們要保證99.%后面多少個9的情況這里面都是IT技術測試要做的事情。可視化就是我們前面提到的整個平臺的可視化的升級都是平臺提供IT支持。簡單介紹一下針對剛才的成像有一部分的基礎平臺,在這一層就是我們模型的過程,有我們實時建模的過程,有我們一線的建模的過程,那這些用途都是可以通過可視化來做的。第三個就是我們的數據中心在線需要訪問這些數據的用戶商品,再者就是我們在線服務,對于這些數據我們要提供給我們的前端容器訪問。這里包括訪問穩定性,包括異構數據的一致性。

下面就是我們推薦容器我們所有代理的產品,這個容器要保證IT的能力,它有很強大的管理后臺和監控信息。這是講一下整個系統的流程,我們看到剛才說的手淘、我們的PC無線通過幾年過來經過這樣一個容器,通過這個容器做我們的分流。那么容器里面其實要交互兩個,一個是我們的數據中心、一個是我們的實時預測中心。這一塊就跟DT相關了。我們商品通過來做個性化的排序都是要我這個平臺去做。

那么這個數據中心分成兩部分、兩個交互。一個是實時用戶的變更,你看還有T+1、T+2這種一線的變更,那我這個模型這一塊剛才說的也包括兩塊。一塊是我能夠做一線模型的更新,第二塊就是在線模型的更新。最后是我們整個平臺有兩塊。一個是我們后臺管理上整個運營去做產品的編輯,包括AP分流的配置,都是我這個后臺管理來做的。那這個監控也必不可少。我們現在管理的數千臺機器,那這幾臺機器的自動化應該怎么做這是一個非常重要的模塊。

然后這個內部的平臺我們現在也正在包裝目前準備也是即將發布出來。剛才提到的這個平臺也會用基礎的營銷額推薦開發構建,提供可視化的推薦,推薦營銷來編排流程,然后也會提供同類數據和產品的管理。剛才提到它對應的是阿里,絕大多數的消費者能看到的頁面都能在這個平臺上訪問,這個就是我介紹的這個平臺的內容。(本文由ITValue記者任斐菲根據阿里巴巴技術專家魏虎在云棲大會企業級互聯網架構分論壇的演講內容整理而成,未經本人確認。)

推薦閱讀