基于Hadoop的大數(shù)據(jù)方案越來(lái)越多地被企業(yè)所采用。但是,如何進(jìn)行合理地規(guī)劃和配置Hadoop平臺(tái)是很多用戶頭痛的事情。在我們接觸或合作的很大一部分客戶,他們?cè)诮oHadoop配置硬件的時(shí)候,通常沒(méi)有考慮到對(duì)大數(shù)據(jù)處理的特性,造成后續(xù)Hadoop集群的性能無(wú)法滿足要求。
ZooKeeper是Hadoop Ecosystem中非常重要的組件,它的主要功能是為分布式系統(tǒng)提供一致性協(xié)調(diào)(Coordination)服務(wù),與之對(duì)應(yīng)的Google的類似服務(wù)叫 Chubby。今天這篇文章分為三個(gè)部分來(lái)介紹ZooKeeper,第一部分介紹ZooKeeper的基本原理,第二部分介紹ZooKeeper提供的 Client API的使用,第三部分介紹一些ZooKeeper典型的應(yīng)用場(chǎng)景。
在Hadoop生態(tài)繁榮的背后,是開(kāi)發(fā)者們夜以繼日的開(kāi)發(fā)與支持。而在用戶得益甚至贊賞這些應(yīng)用的時(shí)候,開(kāi)發(fā)者們卻不得不面對(duì)Hadoop平臺(tái)中一些可用性較差的地方。本文列舉了網(wǎng)絡(luò)上一些關(guān)于Hadoop的缺點(diǎn),供大家探討,部分觀點(diǎn)來(lái)自InfoWorld及開(kāi)發(fā)者博客。
國(guó)內(nèi)外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個(gè)節(jié)點(diǎn),主要用于支持廣告系統(tǒng)與網(wǎng)頁(yè)搜索。國(guó)內(nèi)用Hadoop的主要有百度、淘寶、騰訊、華為、中國(guó)移動(dòng)等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當(dāng)下大數(shù)據(jù)之熱使得技術(shù)界對(duì)Hadoop的話題熱火朝天。但在日常工作中,企業(yè)往往還是遵循既有模式,對(duì)于Hadoop到底能否真正幫到企業(yè)的應(yīng)用依然心存顧慮。Hadoop是不是很年輕?這個(gè)開(kāi)源的事物能否符合公司業(yè)務(wù)級(jí)的嚴(yán)謹(jǐn)要求?有沒(méi)有企業(yè)真的應(yīng)用過(guò)?一系列問(wèn)題縈繞人們心頭。這可以理解,畢竟任何一個(gè)新生事物出來(lái)都要有一個(gè)接受過(guò)程 。
在這個(gè)博客帖子中,你將會(huì)學(xué)到一些工作負(fù)載評(píng)估的原則和它在硬件選擇中起著至關(guān)重要的作用。在這個(gè)過(guò)程中,你也將學(xué)到Hadoop管理員應(yīng)該考慮到各種因素。
通過(guò)Hadoop安全部署經(jīng)驗(yàn)總結(jié)以下十大建議,以確保大型和復(fù)雜多樣環(huán)境下的數(shù)據(jù)信息安全。
本文作者Raymie Stata是Hadoop即服務(wù)公司Altiscale的創(chuàng)始人兼CEO,也是雅虎前任CTO,協(xié)助雅虎完成開(kāi)源策略,并參與Apache Hadoop項(xiàng)目的發(fā)起。Hadoop的擴(kuò)展和運(yùn)維是非常復(fù)雜的過(guò)程,在其具體的實(shí)施過(guò)程中隱藏著潛在的危機(jī),Raymie根據(jù)經(jīng)驗(yàn)羅列了7項(xiàng)危機(jī)信號(hào)和相應(yīng)的解決方案,幫助使用者提前避免災(zāi)難的發(fā)生。