翻譯|大數據新聞|編輯:況魚杰|2020-11-30 11:05:31.900|閱讀 209 次
概述:如何在商品服務器和存儲上運行要求苛刻的分析應用程序和/或1000多個節點Hadoop工作負載。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關鏈接:
如果您已經使用Hadoop集群一段時間了。那么您肯定已經有50到100個節點在穩定運行,并且已經掌握了一些分析框架--無論是Spark還是Flink還是老式的Map-Reduce。這個時期的您已經能夠從集群中展示出真正的商業價值,已經準備好用更多的數據和更多的應用和用戶將其提升到一個全新的水平。那么怎么提高水平呢?首先集群的硬件可能不是一個大問題,因為您做了Hadoop,所以您會選擇典型的商品服務器機架,每個有12或24個硬盤驅動器。但是這個時候為什么不考慮另外不同的硬件呢?
因為當你的集群規模接近許多數百個節點時,它肯定會成為你的數據中心中最大的集群,甚至可能成為你計算基礎設施的大部分。在這種規模下,由于資源不平衡造成的效率低下,會造成大量時間、金錢、電力、熱量和空間的浪費。
即使您認為您的CPU和存儲今天很平衡,但是,隨著應用和框架的發展,數據變得更大,CPU變得更快,它們將不會平衡。第二年買的CPU會比去年快一倍;磁盤仍然很慢,但容量巨大。只是無法預測CPU和存儲之間的正確平衡,所以你需要的是靈活性。
這種靈活性是通過將磁盤與CPU節點進行分解/分離來實現的。但要小心傳統的NAS和SAN解決方案--它們與 "商品 "硬件相差甚遠,會超出您的預算,同時又難以達到Hadoop需要的性能水平。尋找具有機架規模架構的解決方案,這些解決方案可以最大限度地提高您的靈活性,同時保持Hadoop所需的高性能和低成本。整個大數據運動是由非常廉價的存儲所促成的,所以不要被鎖定在傳統的 "鍍金 "存儲解決方案中。
一旦存儲從CPU節點中移除,您就有了更廣泛的CPU/內存組合選擇。考慮一下2013/4年的 "經典 "Hadoop節點--12個CPU核心,約64GB內存。您可以輕松買得起36到40個核心節點,512GB的內存(而且核心和內存都快了很多)。即使您的傳統Map/Reduce應用在較小的CPU上受到I/O限制,轉移到更大、更強壯的CPU節點上也可以消除大量的通信和序列化開銷。Spark和其他較新的框架可以極大地受益于CPU中更大的內存量,因為幾個大的緩存比相同數量的緩存分布在更多節點上更有效率。
而且不要吝嗇網絡,任何低于10Gbps的數據對于現在的服務器來說就像在吸管里呼吸一樣,如果您已經把磁盤分開了,那么這些流量也在網絡上。即使您無法控制網絡主干帶寬,在 "機架 "上增加帶寬也能給Hadoop帶來很大的幫助。
因此,在進入大規模Hadoop項目之前,請先仔細考慮一下,并確保您的硬件計劃考慮到當今的技術,而不僅僅是人們在前幾年取得的成功。
慧都數倉建模大師能夠快速、高效地幫助客戶搭建數據倉庫供企業決策分析之用。滿足數據需求效率、數據質量、擴展性、面向主題等特點。基于企業的業務目標,進行數據理解、數據準備、數據建模,最后進行評價和部署,真正實現數據驅動業務決策。更多詳情,請。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn