基于Hadoop的大數據方案越來越多地被企業所采用。但是,如何進行合理地規劃和配置Hadoop平臺是很多用戶頭痛的事情。在我們接觸或合作的很大一部分客戶,他們在給Hadoop配置硬件的時候,通常沒有考慮到對大數據處理的特性,造成后續Hadoop集群的性能無法滿足要求。
ZooKeeper是Hadoop Ecosystem中非常重要的組件,它的主要功能是為分布式系統提供一致性協調(Coordination)服務,與之對應的Google的類似服務叫 Chubby。今天這篇文章分為三個部分來介紹ZooKeeper,第一部分介紹ZooKeeper的基本原理,第二部分介紹ZooKeeper提供的 Client API的使用,第三部分介紹一些ZooKeeper典型的應用場景。
在Hadoop生態繁榮的背后,是開發者們夜以繼日的開發與支持。而在用戶得益甚至贊賞這些應用的時候,開發者們卻不得不面對Hadoop平臺中一些可用性較差的地方。本文列舉了網絡上一些關于Hadoop的缺點,供大家探討,部分觀點來自InfoWorld及開發者博客。
國內外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節點,主要用于支持廣告系統與網頁搜索。國內用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
當下大數據之熱使得技術界對Hadoop的話題熱火朝天。但在日常工作中,企業往往還是遵循既有模式,對于Hadoop到底能否真正幫到企業的應用依然心存顧慮。Hadoop是不是很年輕?這個開源的事物能否符合公司業務級的嚴謹要求?有沒有企業真的應用過?一系列問題縈繞人們心頭。這可以理解,畢竟任何一個新生事物出來都要有一個接受過程 。
在這個博客帖子中,你將會學到一些工作負載評估的原則和它在硬件選擇中起著至關重要的作用。在這個過程中,你也將學到Hadoop管理員應該考慮到各種因素。
本文作者Raymie Stata是Hadoop即服務公司Altiscale的創始人兼CEO,也是雅虎前任CTO,協助雅虎完成開源策略,并參與Apache Hadoop項目的發起。Hadoop的擴展和運維是非常復雜的過程,在其具體的實施過程中隱藏著潛在的危機,Raymie根據經驗羅列了7項危機信號和相應的解決方案,幫助使用者提前避免災難的發生。