轉帖|行業(yè)資訊|編輯:龔雪|2016-01-14 10:56:10.000|閱讀 469 次
概述:實時大數據處理已經逐步邁入主流,而Storm與Spark項目的支持無疑在其中起到了顯著的推動作用。那么問題來了:實時大數據處理到底該選誰?
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
目前在開源市場上已經有了多款實時大數據的處理工具,最值得關注的還屬Storm與Spark。這兩套方案都歸屬于Apache基金會,都能為用戶提供良好的實時處理能力。兩款工具在功能方面有一部分交集,但也各自擁有著不同的特性與市場定位。
Storm : 實時流處理
Storm是一款極具可擴展能力和容錯能力的開源分布計算系統(tǒng),高度專注于流處理領域。在設計思路中充分考慮到大規(guī)模可擴展能力,利用“故障快速、自動重啟”方案為處理提供容錯性支持。
Storm在事件處理與增量計算方面表現(xiàn)尤為突出,能夠以實時方式根據不斷變化的參數對數據流進行處理。它可以同時提供原語以實現(xiàn)通用性分布RPC,在理論上也能夠被用于任何分布式計算任務,但其最為根本的優(yōu)勢仍然表現(xiàn)在事件流處理方面。
Spark:通用分步式計算平臺
Spark是一套快速出色、可擴展能力驚人且極具靈活性的開源分布式計算平臺,與Hadoop以及Mesos相兼容并且支持多川計算模式,其中包括流、以圖為核心的操作、SQL訪問外加分布式機器學習等。
該項目最大的亮點在于其支持多處理模式以及支持庫。Spark的實際擴展記錄令人滿意,而且與Storm一樣堪稱構建實時分析與大數據處理系統(tǒng)的卓越平臺。另外,它擁有能夠與存儲在多種不同數據源內的數據實現(xiàn)協(xié)作的適配器–包括HDFS文件、Cassandra、HBase以及S3。
終極PK,如何做選擇?
看需求!
選擇之前,弄清楚你的主要需求。可以對兩套平臺進行一番詳盡分析,利用這兩套平臺各自建立一個小規(guī)模概念驗證項目,而后運行自己的基準工作負載,借此在最終選擇前親身體驗二者的工作負載處理能力是否與預期相一致。
如果你的需求主要集中在流處理與復雜事件的處理層面,而且需要從零開始為項目構建一套目標明確的集群設施,那么建議選擇Storm,特別是在現(xiàn)有Storm流機制能夠確切滿足集成需求的情況下。這一結論并不屬于硬性要求或者強制規(guī)則,但上述因素的存在確實更適合由Storm出面打理。
如果你打算使用現(xiàn)有Hadoop或者Mesos集群,而且/或者既定流程需要涉及與圖形處理、SQL訪問或者批量處理相關的其它實質性要求,那么Spark則值得加以優(yōu)先考慮。
當然,這二者也是能共存的。根據各位工作負載、基礎設施以及具體要求的不同,大家可能還會找出一種將Storm與Spark加以結合的理想方案。其它同樣可能發(fā)揮作用的工具還包括Kafka、Hadoop以及Flume等等,而這正是開源機制的最大亮點所在。
無論選擇哪一套方案,這些工具的存在都切實表明,實時大數據處理市場的游戲規(guī)則已經發(fā)生了變化。曾經只能為少數精英所掌握的強大選項如今已經進入尋常百姓家,或者說,至少適用于多數中等規(guī)模或者大型企業(yè)。不要浪費資源,充分享受由此帶來的便利吧。
轉載自
2016革新之年,雙節(jié)同慶驚喜不斷!優(yōu)惠詳情點擊查看>>
本站文章除注明轉載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn