原創|大數據產品動態|編輯:蔣永|2018-11-19 17:01:22.000|閱讀 422 次
概述:本文概述了Santander 英國銀行如何利用最新的 Cloudera 技術和卓越的軟件開發能力創建下一代數據倉庫和流媒體分析,以支持智能地改善客戶關系,遵循“我們希望幫助人們成長和繁榮”的愿景。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
Santander UK的大數據之旅始于四年前。他們是Apache Kafka等新數據流技術的早期采用者,希望通過對移動用戶使用實時數據和應用內分析來徹底改變客戶體驗。
從那時起,Santander UK通過大數據技術增強了創新能力,得到了迅速發展。對大規模流式分析的需求大為增加并成為當下需求。今天,在Santander UK,Cloudera的大數據,機器學習和分析平臺通過Apache Kafka提供集成的高質量和可擴展的平臺即服務(PaaS)。
另一個對Santander UK下一代數據倉庫至關重要的技術組件是使用Apache Kudu實現對快速數據的快速分析。 結合Data Vault 2.0設計方法論的各個方面,它有助于從數百個Apache Kafka數據流中快速攝取數據; 既可以從現有的傳統系統中卸載工作負載,也可以提供有關客戶行為和銀行當前狀態的問題。
由于Santander UK的創新平臺通過Apache Kafka將傳統系統與新的Data Vault集成在一起,因此可以輕松地在線移動快速數據流。由于所集成數據的結構清晰,布到Apache Kudu Data Vault中的新事件流主要是配置驅動的 - 數據事件符合Data Vault 2.0方法的Hub,Satellite和Link結構。這允許schema對業務中的更改做出反應,或者對如何符合數據的新理解做出反應。
Santander UK可以通過擴展基于Scala Akka和Apache Kafka的彈性事件交付平臺來影響數據轉換,從而實現實時的快速,可擴展的數據豐富。由于這種可重復使用的平臺和架構,可以實現更快,更及時的數據,更快的決策以及更快的面市速度。
最終,這個流數據源會有許多潛在的消費者;然而,通過將Cloudera 數據科學工作臺(CDSW)集成到Data Vault,我們已經收集到了一些有趣的洞察。這些為不斷擴大的數據科學團隊提供了全面的數據科學體驗,并且還是典型的Santander UK創新時尚 - 在解決重大工程和架構挑戰之前,可以快速將想法出原型并創建新的數據產品。構建一個快速原型,然后,如果它產生價值,就將其發展成一流的產品。
在Santander UK數據創新團隊實現創新和靈活性的過程中,他們創造了貢獻模型的概念。因為集群是多租戶的,有來自不同業務部的數據源、清理和工程化新數據集;如果認為對其它業務有用,可以使用Data Vault樣式鏈接表將這些有用的數據集成到Data Vault schema的核心。通過這種方式,團隊可以通過快速生成新的數據集組合來增加數據產品的價值,通過使用Cloudera Navigator進行治理來實現可追溯的血緣,以及使用Apache Sentry進行訪問控制的安全性。如果業務部門的數據被認為對其他人有用,則它與核心鏈接并根據治理原則共享。
貢獻模型允許我們利用由不同業務部門和產品團隊獨立創建的純數據集。如果這些數據對業務的其他部分有價值,我們就能夠通過利用鏈接表將其作為一等公民帶入Data Vault。我們希望將Apache社區方法復制到我們組織中的數據系統的開源軟件,以通過協作來改進創新。
- Nicolette Bullivant - Santander UK數據工程負責人
從傳統系統生成的原始事件流被認為是規范的,通常也是使用該集群的其他利益相關者所需要的。Santander UK數據創新團隊采用了確保這些事件流可供不同用例和技術使用的原則;因此,規范事件流可以重新分配到不同的目的地;HDFS文件系統,Apache HBase或Apache Kudu。這能為所有利益相關者創建單一真實版本,同時也避免了對傳統系統的反向壓力。
簡而言之,Santander UK直接在Cloudera堆棧上進行創新,耦合流數據,先進的軟件工程原理和框架,以及現代數據倉庫設計原則,以生成實時洞察,從而改善客戶體驗和客戶財務狀況。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn