Apache Spark是一個用于大規(guī)模數(shù)據(jù)處理的快速通用引擎。
標簽:大數(shù)據(jù)數(shù)據(jù)可視化數(shù)據(jù)分析Hadoop開發(fā)商: Apache
當前版本: v1.6
產(chǎn)品類型:開源
產(chǎn)品功能:大數(shù)據(jù)分析工具
平臺語言:
開源水平:不提供源碼
本產(chǎn)品的分類與介紹僅供參考,具體以商家網(wǎng)站介紹為準,如有疑問請來電 023-68661681 咨詢。
* 關于本產(chǎn)品的分類與介紹僅供參考,精準產(chǎn)品資料以官網(wǎng)介紹為準,如需購買請先行測試。
Spark 擁有一個先進的DAG執(zhí)行引擎,支持循環(huán)數(shù)據(jù)流和內(nèi)存計算。
Spark提供超過80個易于構建并行應用程序的高階運算符,你也可以在Scala、 Python和R shells中對它進行交互使用。
Spark支持一系列元件庫堆棧,包括SQL與 DataFrames,用于機器學習的MLlib ,GraphX,Spark Streaming。你可以在同一個應用程序無縫地結合這些元件庫。
你可以使用其獨立集群模式來運行Spark,運行在 EC2、 Hadoop YARN還是Apache Mesos都不是問題。它可以訪問HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop數(shù)據(jù)源。
Spark的中間數(shù)據(jù)放到內(nèi)存中,對于迭代運算效率更高。
Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面,有RDD的抽象概念。
Spark提供的數(shù)據(jù)集操作類型有很多種,不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型,Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。
這些多種多樣的數(shù)據(jù)集操作類型,給開發(fā)上層應用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名,物化,控制中間結果的存儲、分區(qū)等。可以說編程模型比Hadoop更靈活。
不過由于RDD的特性,Spark不適用那種異步細粒度更新狀態(tài)的應用,例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合。
更新時間:2017-04-28 14:25:02.000 | 錄入時間:2016-01-29 11:06:44.000 | 責任編輯:陳俊吉