久久这里只有精品资源,成人免费A9片,亚洲丁香五月

產(chǎn)品

產(chǎn)品
資訊
資源
視頻
學院
示例

金喜正規(guī)買球 > 產(chǎn)品 > Spark

下載：55 收藏：0

查看價格免費下載

Spark (產(chǎn)品編號：13780)

Apache Spark是一個用于大規(guī)模數(shù)據(jù)處理的快速通用引擎。

標簽：大數(shù)據(jù)數(shù)據(jù)可視化數(shù)據(jù)分析 Hadoop

開發(fā)商： Apache

當前版本： v1.6

產(chǎn)品類型：開源

產(chǎn)品功能：大數(shù)據(jù)分析工具

平臺語言：

開源水平：不提供源碼

本產(chǎn)品的分類與介紹僅供參考，具體以商家網(wǎng)站介紹為準，如有疑問請來電 023-68661681 咨詢。

Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用并行框架，它擁有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是Job中間輸出結果可以保存在內(nèi)存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

* 關于本產(chǎn)品的分類與介紹僅供參考，精準產(chǎn)品資料以官網(wǎng)介紹為準，如需購買請先行測試。

產(chǎn)品優(yōu)勢：

高速：運行程序的速度在存儲器中比Hadoop MapReduce快上百倍，在磁盤中比Hadoop MapReduce快數(shù)十倍。

Spark 擁有一個先進的DAG執(zhí)行引擎，支持循環(huán)數(shù)據(jù)流和內(nèi)存計算。

易用：編寫Java、Scala、Python、R程序快速高效。

Spark提供超過80個易于構建并行應用程序的高階運算符，你也可以在Scala、 Python和R shells中對它進行交互使用。

通用：可結合SQL、流媒體和復雜的分析。

Spark支持一系列元件庫堆棧，包括SQL與 DataFrames，用于機器學習的MLlib ，GraphX，Spark Streaming。你可以在同一個應用程序無縫地結合這些元件庫。

無處不在：Spark可以運行在Hadoop、Mesos、standalone以及云端。它可以訪問包括 HDFS、 Cassandra、 HBase和S3在內(nèi)的不同數(shù)據(jù)源。

你可以使用其獨立集群模式來運行Spark，運行在 EC2、 Hadoop YARN還是Apache Mesos都不是問題。它可以訪問HDFS、Cassandra、HBase、Hive、Tachyon等任意的Hadoop數(shù)據(jù)源。

與Hadoop的對比

Spark的中間數(shù)據(jù)放到內(nèi)存中，對于迭代運算效率更高。
Spark更適合于迭代運算比較多的ML和DM運算。因為在Spark里面，有RDD的抽象概念。
Spark提供的數(shù)據(jù)集操作類型有很多種，不像Hadoop只提供了Map和Reduce兩種操作。比如map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, reduce, lookup, save等多種actions操作。

這些多種多樣的數(shù)據(jù)集操作類型，給開發(fā)上層應用的用戶提供了方便。各個處理節(jié)點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區(qū)等。可以說編程模型比Hadoop更靈活。

不過由于RDD的特性，Spark不適用那種異步細粒度更新狀態(tài)的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應用模型不適合。

更新時間:2017-04-28 14:25:02.000 | 錄入時間:2016-01-29 11:06:44.000 | 責任編輯:陳俊吉

慧都公開課 更多