轉帖|行業資訊|編輯:陳俊吉|2016-05-04 09:33:51.000|閱讀 469 次
概述:Apache Spark在SnappyData支持即時SQL分析
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
2016年5月13日-15日,由CSDN重磅打造的2016中國云計算技術大會(CCTC 2016)將于5月13日-15日在北京舉辦,今年大會特設“中國Spark技術峰會”、“Container技術峰會”、“OpenStack技術峰會”、“核心技術與應用實戰峰會”四大技術主題峰會,以及“云計算核心技術架構”、“云計算平臺構建與實踐”等專場技術論壇。大會講師陣容囊括Intel、微軟、、AWS、Hortonworks、Databricks、Elastic、百度、阿里、騰訊、華為、樂視、京東、小米、微博、迅雷、國家電網、中國移動、長安汽車、廣發證券、民生銀行、國家超級計算廣州中心等60+頂級技術講師,CCTC必將是中國云計算技術開發者的頂級盛會。詳情訪問CCTC 2016官網。
Pivotal’s GemFire的基于內存數據存儲團隊最近發布了一種新的數據庫解決方案,叫做SnappyData,基于GemFire 和 Apache Spark。
SnappyData是最近又出現的一個使用Spark作為組件的數據庫解決方案。這種使用Spark的方案中,有一些使用了Apache Hadoop的技術。SnappyData的查詢可以使用傳統的SQL語句,或者使用Spark的查詢,這樣原來的工作可以兼容SnappyData,也可以使用兩種方式同時工作。
Snap和Spark
SnappyData是這個新數據庫的名字,同時也是這個組織的名字,跨越了兩個領域。它使用了Apache Spark的內存數據分析引擎,所以可以在靜態數據和流數據中實時分析SQL。
在存儲和取回數據方面,SnappyData使用了一個分布式的數據存儲,叫做Snappy-Store,起源于GemFire的技術。它要么使用自己的數據存儲,要么使用一種異步的回寫式高速緩沖存儲器連接另一個數據庫,比如Hadoop或者HDFS。這意味著,原來的數據可以直接使用SnappyData,而不需要一些正式的數據遷移操作。
SnappyData也嘗試對流數據的問題提供一些新奇的解決方案。比如,如果有個查詢返回的結果太多,可能導致不能及時地反回結果。SnappyData使用近似查詢結果(approximate query processing,AQP)或者從結果中抽樣的方式來生成結果。
這種方式返回的結果,相比與在所有數據上操作并不準確,而且AQP并不能適用于所有查詢。但是,AQP查詢對CPU和內存的要求更低,速度更快。
這并不是Spark第一次在數據分析方面同時覆蓋OLTP和OLAP了。基于內存的數據庫系統Splice Machine使用了Hadoop的組件,就同時支持OLTP和OLAP。2.0版本加入了Spark作為一個OLAP的處理引擎。
SnappyData和Splice Machine背道而馳的地方,就是使用Spark的不同。SnappyData稱,他們在很多方式對Spark的流進行的擴展,比如允許流可以像表一樣被查詢和操作,包括連接這樣的操作。
SnappyData的環境也比較適合嘗試使用Apache Spark新特性。比如Spark 2.0將在今年發布,屆時將重構內存管理和流系統,拉取流數據將更加簡單。
本文轉載自
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn