基于Hadoop的大數(shù)據(jù)方案越來越多地被企業(yè)所采用。但是,如何進(jìn)行合理地規(guī)劃和配置Hadoop平臺是很多用戶頭痛的事情。在我們接觸或合作的很大一部分客戶,他們在給Hadoop配置硬件的時候,通常沒有考慮到對大數(shù)據(jù)處理的特性,造成后續(xù)Hadoop集群的性能無法滿足要求。
ZooKeeper是Hadoop Ecosystem中非常重要的組件,它的主要功能是為分布式系統(tǒng)提供一致性協(xié)調(diào)(Coordination)服務(wù),與之對應(yīng)的Google的類似服務(wù)叫 Chubby。今天這篇文章分為三個部分來介紹ZooKeeper,第一部分介紹ZooKeeper的基本原理,第二部分介紹ZooKeeper提供的 Client API的使用,第三部分介紹一些ZooKeeper典型的應(yīng)用場景。
在Hadoop生態(tài)繁榮的背后,是開發(fā)者們夜以繼日的開發(fā)與支持。而在用戶得益甚至贊賞這些應(yīng)用的時候,開發(fā)者們卻不得不面對Hadoop平臺中一些可用性較差的地方。本文列舉了網(wǎng)絡(luò)上一些關(guān)于Hadoop的缺點(diǎn),供大家探討,部分觀點(diǎn)來自InfoWorld及開發(fā)者博客。
國內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節(jié)點(diǎn),主要用于支持廣告系統(tǒng)與網(wǎng)頁搜索。國內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當(dāng)下大數(shù)據(jù)之熱使得技術(shù)界對Hadoop的話題熱火朝天。但在日常工作中,企業(yè)往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業(yè)的應(yīng)用依然心存顧慮。Hadoop是不是很年輕?這個開源的事物能否符合公司業(yè)務(wù)級的嚴(yán)謹(jǐn)要求?有沒有企業(yè)真的應(yīng)用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個新生事物出來都要有一個接受過程 。
在這個博客帖子中,你將會學(xué)到一些工作負(fù)載評估的原則和它在硬件選擇中起著至關(guān)重要的作用。在這個過程中,你也將學(xué)到Hadoop管理員應(yīng)該考慮到各種因素。
通過Hadoop安全部署經(jīng)驗(yàn)總結(jié)以下十大建議,以確保大型和復(fù)雜多樣環(huán)境下的數(shù)據(jù)信息安全。
本文作者Raymie Stata是Hadoop即服務(wù)公司Altiscale的創(chuàng)始人兼CEO,也是雅虎前任CTO,協(xié)助雅虎完成開源策略,并參與Apache Hadoop項(xiàng)目的發(fā)起。Hadoop的擴(kuò)展和運(yùn)維是非常復(fù)雜的過程,在其具體的實(shí)施過程中隱藏著潛在的危機(jī),Raymie根據(jù)經(jīng)驗(yàn)羅列了7項(xiàng)危機(jī)信號和相應(yīng)的解決方案,幫助使用者提前避免災(zāi)難的發(fā)生。