轉帖|實施案例|編輯:我只采一朵|2017-07-06 14:49:44.000|閱讀 138 次
概述:如果大家對阿里巴巴的新聞比較關注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數據本身。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
作者:阿里數據
如果大家對阿里巴巴的新聞比較關注,最近可能會頻繁聽到阿里巴巴談到“五新”這個詞,“五新”中的其中一個概念是新能源。其實新能源就是大數據本身。技術、數據和算法三個方面結合在一起,才可以把數據真正用起來。
大家都知道,Google的數據量是很大的,但是它的數據源本身其實比較單一。以Google search,Google map等為主導,并沒有太多和商業有直接相關的數據。
再來看看,Facebook。它更多的是社交行為的數據,缺少出行數據、瀏覽器數據、或者類似優酷的視聽數據。
但是,對于阿里來說,上述的這些數據我們都有。我們面臨的極大挑戰是:怎么樣有效的把這些全域數據融合在一起。
首先我們需要把數據有效地收集起來。我們有一個大數據體系“OneData”(有關OneData的內容,回復關鍵詞“OneData”即可獲得)。
把數據有效地收集、存儲起來之后,接著要做的就是怎么通過算法把這些數據打通,并且真正有效、智能地把這些數據提煉出來。
這是阿里的一個生態體系圖。最底層是阿里巴巴的阿里云,這是我們的一個計算存儲框架。上面是阿里媽媽,阿里媽媽是負責整個阿里巴巴計算廣告的一個部門,再上面是菜鳥、支付寶和螞蟻金服。然后是與商業相關的,像淘寶網、天貓、聚劃算等等,或者是跟文娛相關的,優酷土豆,還有像阿里旅行,口碑之類的業態。
阿里巴巴數據中臺要做的事情是什么呢?
舉一個最簡單的例子,之前有一個比較火的電視劇《三生三世》。《三生三世》火熱上映的時候,與之相關的商品元素,比如飲食或者穿戴之類的商品,也會瞬間在淘寶網上火爆起來。
那么如果我提前就知道某一類人群是《三生三世》的粉絲,我就可以在淘寶網上做非常高效的、準確的定位推廣。
阿里數據要做的是:把數據真正打通,深度挖掘數據的價值,為業務創新應用提供數據決策基礎和依據。
在真正進入算法之前,我們一定要對數據進行非常認真、仔細地進行清洗過程。俗話說,如果你的數據不清洗,其實就是“learn trash from trash”。所以數據本身一定要做得非常干凈。
來看一下架構圖。第一個數據層中有各種各樣的數據,比如有消費數據,有廣告數據,出行數據等等
把這些數據層經過有效結合在一起之后,接下來得到這種特征層的提取。
在阿里數據內部,大概有這樣幾個比較抽象的維度:像賬號設立的靜態特征,電商行為的特征,或者設備的特征等等。
在特征層之上,我們會有模型層,這里面有基于業務規則的模型,也有其他的例如異常檢測,有監督或者無監督的學習,然后特征的聯合校驗等模型。
因為我們的數據源非常多,因此我們也可以通過部分的數據源驗證另外一個數據源,看數據的增長或者留存是否處于一個正常范圍。
另外還有一些比較好的方法,比如基于Graph的一些算法,實時的反作弊算法等等。在算法層之上,就是評估層。在評估層內,我們可以判斷留下來的數據是否是真正有效的數據。
在上述這些數據層的上面,會有一個應用層,也同時會抽象出一些產品來幫助內部員工或者外部商家進行使用。
所以,整個數據中臺實際上是從底到上對數據進行清洗的一個架構。
當我們有了非常干凈的數據之后,我們要做的就是把數據打通。我剛才說了,阿里生態體系會呈現出幾百個不同的數據源,這些數據源本身的數據量非常大,收集模式也各不相同。
那么我們是如何進行數據之間的融通的呢?
這是我們關于怎么把數據打通的一個技術架構。
大家可以看到,整個技術體系都是,先把數據接進來,再通過一些機器學習或者深度學習的辦法(像word2vec,node2vec,TFIDF,歸一化等)處理特征層,之后映射到一些比較抽象的高緯度Level(比方說像用戶的身份信息,網絡的環境相似度,文本的相似度,APP相似度等等)。
抽象完這些特征層之后,我們究竟怎樣去判斷。
這期間的方法大致可以分為四種有效的辦法:
此外,還有一些強召回,就是比如說用戶有相同的賬號登陸不同的地方。這些是所謂的強召回,它可以非常準確地被判斷出來。弱召回就是基于算法特征層的這些模型,有效地判斷出所有信息是否真正屬于同一個自然人。
本文轉載自:36大數據
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn