日韩理论午夜,午夜福利电影,国产人妖伪娘网站

Hadoop教程：Hadoop系統分布式存儲與并行計算構架

轉帖|使用教程|編輯：龔雪|2014-09-05 09:39:31.000|閱讀 651 次

概述：

相關鏈接：

圖1-14展示了Hadoop系統的分布式存儲和并行計算構架。從硬件體系結構上看，Hadoop系統是一個運行于普通的商用服務器集群的分布式存儲和并行計算系統。集群中將有一個主控節點用來控制和管理整個集群的正常運行，并協調管理集群中各個從節點完成數據存儲和計算任務。每個從節點將同時擔任數據存儲節點和數據計算節點兩種角色，這樣設計的目的主要是在大數據環境下實現盡可能的本地化計算，以此提高系統的處理性能。為了能及時檢測和發現集群中某個從節點發生故障失效，主控節點采用心跳機制(Heartbeat)定期檢測從節點，如果從節點不能有效回應心跳信息，則系統認為這個從節點失效。

從軟件系統角度看，Hadoop系統包括分布式存儲和并行計算兩個部分。分布式存儲構架上，Hadoop基于每個從節點上的本地文件系統，構建一個邏輯上整體化的分布式文件系統，以此提供大規模可擴展的分布式數據存儲功能，這個分布式文件系統稱為HDFS(Hadoop Distributed File System)，其中，負責控制和管理整個分布式文件系統的主控節點稱為NameNode，而每個具體負責數據存儲的從節點稱為DataNode。

進一步，為了能對存儲在HDFS中的大規模數據進行并行化的計算處理，Hadoop又提供了一個稱為MapReduce的并行化計算框架。該框架能有效管理和調度整個集群中的節點來完成并行化程序的執行和數據處理，并能讓每個從節點盡可能對本地節點上的數據進行本地化計算，其中，負責管理和調度整個集群進行計算的主控節點稱為JobTracker，而每個負責具體的數據計算的從節點稱為TaskTracker。JobTracker可以與負責管理數據存儲的主控節點NameNode設置在同一個物理的主控服務器上，在系統規模較大、各自負載較重時兩者也可以分開設置。但數據存儲節點DataNode 與計算節點TaskTracker會配對地設置在同一個物理的從節點服務器上。

Hadoop系統中的其他子系統，例如HBase、Hive等，將建立在上述HDFS分布式文件系統和MapReduce并行化計算框架之上。

來源：機械工業出版社作者：黃宜華

標簽：Hadoop

本站文章除注明轉載外，均為本站原創或翻譯。歡迎任何形式的轉載，但請務必注明出處、不得修改原文相關鏈接，如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn

文章轉載自：慧都控件網

上一篇：Hadoop教程：用外部存儲構建Hadoop 下一篇：Aspose APIs與JetBrains的集成范例