轉帖|使用教程|編輯:龔雪|2014-09-18 09:56:27.000|閱讀 375 次
概述:國內外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節點,主要用于支持廣告系統與網頁搜索。國內用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
國內外使用Hadoop的公司比較多,全球最大的Hadoop集群在雅虎,有大約25000個節點,主要用于支持廣告系統與網頁搜索。國內用Hadoop的主要有百度、淘寶、騰訊、華為、中國移動等,其中淘寶的Hadoop集群屬于較大的(如果不是最大)。
淘寶Hadoop集群現在超過1700個節點,服務于用于整個阿里巴巴集團各部門,數據來源于各部門產品的線上數據庫(Oracle, MySQL)備份,系統日志以及爬蟲數據,數量總量已經超過17個PB,每天凈增長20T左右。每天在Hadoop集群運行的 MapReduce任務有超過4萬(有時會超過6萬),其中大部分任務是每天定期執行的統計任務,例如數據魔方、量子統計、推薦系統、排行榜等等。這些任務一般在凌晨1點左右開始執行,3-4個小時內全部完成。每天讀數據在2PB左右,寫數據在1PB左右。
Hadoop包括兩類節點Master和Slave節點,
Master節點包括Jobtracker,Namenode, SecondName, Standby,
硬件配置:16CPU*4核,96G內存。
Slave節點主要是TaskTracker和DataNode,
硬件配置存在一定的差別:8CPU*4核-16CPU*4核,16G-24G內存
(注:通常是一個slave節點同時是TaskTracker和DataNode,目的是提高數據本地性data locality)。
每個slave節點會劃分成12~24個slots。整個集群約34,916個slots,其中Map slots是19,643個,Reduce slots是15,273個
所有作業會進行分成多個Group,按照部門或小組劃分,總共有38個Group。整個集群的資源也是按各個Group進行劃分,定義每個Group的最大并發任務數,Map slots與Reduce slots的使用上限。每個作業只能使用自己組的slots資源。
來源:馬哥linux運維
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉載自:慧都控件網