原創(chuàng)|行業(yè)資訊|編輯:龔雪|2014-12-05 09:47:43.000|閱讀 1638 次
概述:一說大數(shù)據(jù),人們往往想到Hadoop。這固然不錯,但隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用,多種類型的數(shù)據(jù)應(yīng)用不斷被要求提出,一些Hadoop被關(guān)注的范疇開始被人們注意,相關(guān)技術(shù)也迅速獲得專業(yè)技術(shù)范疇的應(yīng)用。最近半年來的Spark之熱就是典型例子。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
一說大數(shù)據(jù),人們往往想到Hadoop。這固然不錯,但隨著大數(shù)據(jù)技術(shù)的深入應(yīng)用,多種類型的數(shù)據(jù)應(yīng)用不斷被要求提出,一些Hadoop被關(guān)注的范疇開始被人們注意,相關(guān)技術(shù)也迅速獲得專業(yè)技術(shù)范疇的應(yīng)用。最近半年來的Spark之熱就是典型例子。
Spark是一個基于RAM計算的開源碼ComputerCluster運(yùn)算系統(tǒng),目的是更快速地進(jìn)行數(shù)據(jù)分析。Spark早期的核心部分代碼只有3萬行。Spark提供了與HadoopMap/Reduce相似的分散式運(yùn)算框架,但基于RAM和優(yōu)化設(shè)計,因此在交換式數(shù)據(jù)分析和datamining的Workload中表現(xiàn)不錯。
進(jìn)入2014年以后,Spark開源碼生態(tài)系統(tǒng)大幅增長,已成為大數(shù)據(jù)范疇最活躍的開源碼項目之一。Spark之所以有如此多的關(guān)注,塬因主要是因為Spark具有的高性能、高靈活性、與Hadoop生態(tài)系統(tǒng)完美融合等叁方面的特點。
首先,Spark對分散的數(shù)據(jù)集進(jìn)行抽樣,創(chuàng)新地提出RDD(ResilientDistributedDataset)的概念,所有的統(tǒng)計分析任務(wù)被翻譯成對RDD的基本操作組成的有向無環(huán)圖(DAG)。RDD可以被駐留在RAM中,往后的任務(wù)可以直接讀取RAM中的數(shù)據(jù);同時分析DAG中任務(wù)之間的依賴性可以把相鄰的任務(wù)合并,從而減少了大量不準(zhǔn)確的結(jié)果輸出,極大減少了HarddiskI/O,使復(fù)雜數(shù)據(jù)分析任務(wù)更高效。從這個推算,如果任務(wù)夠復(fù)雜,Spark比Map/Reduce快一到兩倍。
其次,Spark是一個靈活的運(yùn)算框架,適合做批次處理、工作流、交互式分析、流量處理等不同類型的應(yīng)用,因此Spark也可以成為一個用途廣泛的運(yùn)算引擎,并在未來取代Map/Reduce的地
最后,Spark可以與Hadoop生態(tài)系統(tǒng)的很多組件互相操作。Spark可以運(yùn)行在新一代資源管理框架YARN上,它還可以讀取已有并存放在Hadoop上的數(shù)據(jù),這是個非常大的優(yōu)勢。
雖然Spark具有以上叁大優(yōu)點,但從目前Spark的發(fā)展和應(yīng)用現(xiàn)狀來看,Spark本身也存在很多缺陷,主要包括以下幾個方面:
雖然Spark活躍在Cloudera、MapR、Hortonworks等眾多知名大數(shù)據(jù)公司,但是如果Spark本身的缺陷得不到及時處理,將會嚴(yán)重影響Spark的普及和發(fā)展。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:慧都控件網(wǎng)