午夜性爱网,麻豆传媒在线观看视频,国产a国产片

分布式計算開源框架Hadoop入門實踐（一）

原創|行業資訊|編輯：陳俊吉|2017-04-28 10:42:06.000|閱讀 1031 次

概述：Hadoop是Apache開源組織的一個分布式計算開源框架，在很多大型網站上都已經得到了應用，如亞馬遜、Facebook和Yahoo等等。對于我來說，最近的一個使用點就是服務集成平臺的日志分析。服務集成平臺的日志量將會很大，而這也正好符合了分布式計算的適用場景（日志分析和索引建立就是兩大應用場景）。

# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>

在SIP項目設計的過程中，對于它龐大的日志在開始時就考慮使用任務分解的多線程處理模式來分析統計，在我從前寫的文章《Tiger Concurrent Practice —日志分析并行分解設計與實現》中有所提到。但是由于統計的內容暫時還是十分簡單，所以就采用Memcache作為計數器，結合MySQL就完成了訪問控制以及統計的工作。然而未來，對于海量的工作，還是需要有所準備?，F在最火的技術詞匯莫過于“云計算”，在Open API日益盛行的今天，互聯網應用的數據將會越來越有價值，如何去分析這些數據，挖掘其內在價值，就需要分布式計算來支撐海量數據的分析工作。

回過頭來看，早先那種多線程，多任務分解的日志分析設計，其實是分布式計算的一個單機版縮略，如何將這種單機的工作進行分拆，變成協同工作的集群，其實就是設計所涉及的。在去年參加BEA大會的時候，BEA和VMWare合作采用虛擬機來構建集群，無非就是希望使得計算機硬件能夠類似于應用程序中資源池的資源，使用者無需關心資源的分配情況，從而最大化了硬件資源的使用價值。分布式計算也是如此，具體的計算任務交由哪一臺機器執行，執行后由誰來匯總，這都由分布式框架的Master來抉擇，而使用者只需簡單地將待分析內容提供給系統作為輸入，就可以得到分布式計算后的結果。

是Apache開源組織的一個分布式計算開源框架，在很多大型網站上都已經得到了應用，如亞馬遜、Facebook和Yahoo等等。對于我來說，最近的一個使用點就是服務集成平臺的日志分析。服務集成平臺的日志量將會很大，而這也正好符合了分布式計算的適用場景（日志分析和索引建立就是兩大應用場景）。

當前沒有正式確定使用，所以也是自己業余摸索，后續所寫的相關內容，都是一個新手的學習過程，難免會有一些錯誤，只是希望記錄下來可以分享給更多志同道合的朋友。

什么是Hadoop？

搞什么東西之前，第一步是要知道What（是什么），然后是Why（為什么），最后才是How（怎么做）。但很多開發的朋友在做了多年項目以后，都習慣是先How，然后What，最后才是Why，這樣只會讓自己變得浮躁，同時往往會將技術誤用于不適合的場景。

Hadoop框架中最核心的設計就是：MapReduce和HDFS。MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的，簡單的一句話解釋MapReduce就是“任務的分解與結果的匯總”。HDFS是Hadoop分布式文件系統（Hadoop Distributed File System）的縮寫，為分布式計算存儲提供了底層支持。

MapReduce從它名字上來看就大致可以看出個緣由，兩個動詞Map和Reduce，“Map（展開）”就是將一個任務分解成為多個任務，“Reduce”就是將分解后多任務處理的結果匯總起來，得出最后的分析結果。這不是什么新思想，其實在前面提到的多線程，多任務的設計就可以找到這種思想的影子。不論是現實社會，還是在程序設計中，一項工作往往可以被拆分成為多個任務，任務之間的關系可以分為兩種：一種是不相關的任務，可以并行執行；另一種是任務之間有相互的依賴，先后順序不能夠顛倒，這類任務是無法并行處理的?；氐酱髮W時期，教授上課時讓大家去分析關鍵路徑，無非就是找最省時的任務分解執行方式。在分布式系統中，機器集群就可以看作硬件資源池，將并行的任務拆分，然后交由每一個空閑機器資源去處理，能夠極大地提高計算效率，同時這種資源無關性，對于計算集群的擴展無疑提供了最好的設計保證。（其實我一直認為Hadoop的卡通圖標不應該是一個小象，應該是螞蟻，分布式計算就好比螞蟻吃大象，廉價的機器群可以匹敵任何高性能的計算機，縱向擴展的曲線始終敵不過橫向擴展的斜線）。任務分解處理以后，那就需要將處理以后的結果再匯總起來，這就是Reduce要做的工作。

hadoop

上圖就是MapReduce大致的結構圖，在Map前還可能會對輸入的數據有Split（分割）的過程，保證任務并行效率，在Map之后還會有Shuffle（混合）的過程，對于提高Reduce的效率以及減小數據傳輸的壓力有很大的幫助。后面會具體提及這些部分的細節。

HDFS是分布式計算的存儲基石，Hadoop的分布式文件系統和其他分布式文件系統有很多類似的特質。分布式文件系統基本的幾個特點：

對于整個集群有單一的命名空間。
數據一致性。適合一次寫入多次讀取的模型，客戶端在文件沒有被成功創建之前無法看到文件存在。
文件會被分割成多個文件塊，每個文件塊被分配存儲到數據節點上，而且根據配置會由復制文件塊來保證數據的安全性。

hadoop

上圖中展現了整個HDFS三個重要角色：NameNode、DataNode和Client。NameNode可以看作是分布式文件系統中的管理者，主要負責管理文件系統的命名空間、集群配置信息和存儲塊的復制等。NameNode會將文件系統的Meta-data存儲在內存中，這些信息主要包括了文件信息、每一個文件對應的文件塊的信息和每一個文件塊在DataNode的信息等。DataNode是文件存儲的基本單元，它將Block存儲在本地文件系統中，保存了Block的Meta-data，同時周期性地將所有存在的Block信息發送給NameNode。Client就是需要獲取分布式文件系統文件的應用程序。這里通過三個操作來說明他們之間的交互關系。

文件寫入：

Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況，返回給Client它所管理部分DataNode的信息。
Client將文件劃分為多個Block，根據DataNode的地址信息，按順序寫入到每一個DataNode塊中。

文件讀?。?/strong>

Client向NameNode發起文件讀取的請求。

NameNode返回文件存儲的DataNode的信息。

Client讀取文件信息。

文件Block復制：

NameNode發現部分文件的Block不符合最小復制數或者部分DataNode失效。

通知DataNode相互復制Block。

DataNode開始直接相互復制。

最后再說一下HDFS的幾個設計特點（對于框架設計值得借鑒）：

Block的放置：默認不配置。一個Block會有三份備份，一份放在NameNode指定的DataNode，另一份放在與指定DataNode非同一Rack上的DataNode，最后一份放在與指定DataNode同一Rack上的DataNode上。備份無非就是為了數據安全，考慮同一Rack的失敗情況以及不同Rack之間數據拷貝性能問題就采用這種配置方式。

心跳檢測DataNode的健康狀況，如果發現問題就采取數據備份的方式來保證數據的安全性。

數據復制（場景為DataNode失敗、需要平衡DataNode的存儲利用率和需要平衡DataNode數據交互壓力等情況）：這里先說一下，使用HDFS的balancer命令，可以配置一個Threshold來平衡每一個DataNode磁盤利用率。例如設置了Threshold為10%，那么執行balancer命令的時候，首先統計所有DataNode的磁盤利用率的均值，然后判斷如果某一個DataNode的磁盤利用率超過這個均值Threshold以上，那么將會把這個DataNode的block轉移到磁盤利用率低的DataNode，這對于新節點的加入來說十分有用。

數據交驗：采用CRC32作數據交驗。在文件Block寫入的時候除了寫入數據還會寫入交驗信息，在讀取的時候需要交驗后再讀入。

NameNode是單點：如果失敗的話，任務處理信息將會紀錄在本地文件系統和遠端的文件系統中。

數據管道性的寫入：當客戶端要寫入文件到DataNode上，首先客戶端讀取一個Block然后寫到第一個DataNode上，然后由第一個DataNode傳遞到備份的DataNode上，一直到所有需要寫入這個Block的NataNode都成功寫入，客戶端才會繼續開始寫下一個Block。

安全模式：在分布式文件系統啟動的時候，開始的時候會有安全模式，當分布式文件系統處于安全模式的情況下，文件系統中的內容不允許修改也不允許刪除，直到安全模式結束。安全模式主要是為了系統啟動的時候檢查各個DataNode上數據塊的有效性，同時根據策略必要的復制或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中，系統啟動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示，只需要等待一會兒即可。

下面綜合MapReduce和HDFS來看Hadoop的結構：

在Hadoop的系統中，會有一臺Master，主要負責NameNode的工作以及JobTracker的工作。JobTracker的主要職責就是啟動、跟蹤和調度各個Slave的任務執行。還會有多臺Slave，每一臺Slave通常具有DataNode的功能并負責TaskTracker的工作。TaskTracker根據應用要求來結合本地數據執行Map任務以及Reduce任務。

說到這里，就要提到分布式計算最重要的一個設計點：Moving Computation is Cheaper than Moving Data。就是在分布式處理中，移動數據的代價總是高于轉移計算的代價。簡單來說就是分而治之的工作，需要將數據也分而存儲，本地任務處理本地數據然后歸總，這樣才會保證分布式計算的高效性。

為什么要選擇Hadoop？

說完了What，簡單地說一下Why。官方網站已經給了很多的說明，這里就大致說一下其優點及使用的場景（沒有不好的工具，只用不適用的工具，因此選擇好場景才能夠真正發揮分布式計算的作用）：

可擴展：不論是存儲的可擴展還是計算的可擴展都是Hadoop的設計根本。

經濟：框架可以運行在任何普通的PC上。

可靠：分布式文件系統的備份恢復機制以及MapReduce的任務監控保證了分布式處理的可靠性。

高效：分布式文件系統的高效數據交互實現以及MapReduce結合Local Data處理的模式，為高效處理海量的信息作了基礎準備。

使用場景：

個人覺得最適合的就是海量數據的分析，其實Google最早提出MapReduce也就是為了海量數據分析。同時HDFS最早是為了搜索引擎實現而開發的，后來才被用于分布式計算框架中。海量數據被分割于多個節點，然后由每一個節點并行計算，將得出的結果歸并到輸出。同時第一階段的輸出又可以作為下一階段計算的輸入，因此可以想象到一個樹狀結構的分布式計算圖，在不同階段都有不同產出，同時并行和串行結合的計算也可以很好地在分布式集群的資源下得以高效的處理。

編輯推薦：

標簽：大數據數據分析 Hadoop

本站文章除注明轉載外，均為本站原創或翻譯。歡迎任何形式的轉載，但請務必注明出處、不得修改原文相關鏈接，如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn

上一篇：【5月特惠】熱銷加殼工具VMProtect好評不斷，在線訂購超低折扣回饋！下一篇：AI AR與百度生態加持百度地圖推出人工智能新版本

為你推薦

推薦視頻

推薦活動

推薦產品

推薦文章

慧都慧問

2.2 Sketch視頻教程：創建、保存和管理文檔

SOLIDWORKS中運用“遠程載荷”功能簡化零部件| 操作視頻

報表控件Wyn Enterprise使用教程：折線圖和面積圖使用詳解

憑借強大的抓取系統和夾持技術，這家德國企業做到了世界第一！

Visual ParadigmTOGAF ADM 指導：如何制定架構原則

什么是工業4.0?

DevExpress Universal Subscription
優秀的界面控件開發包，幫助企業構建卓越應用！

# 非開源 # # 控件 #

DevExpress DXperience Subscription
高性價比的企業級.NET用戶界面套包，助力企業創建卓越應用！

# 非開源 # # 控件 #

DevExpress WinForms Subscription
為Windows Forms平臺創建具有影響力的業務解決方案，高性價比WinForms界面控件套包。

# 非開源 # # 控件 #

Evget OMES生產管理系統
慧都Evget OMES生產管理系統，全程追溯質量信息，打造數字化工廠

# 非開源 # # 軟件 #

統一、測試、協作：3方向解析API Hub的高效API管理方案
在數字化快速發展的今天，API 已經成為企業推動業務互聯和創新的關鍵工具。隨著微服務和云原生架構的興起，API 數量呈現爆發式增長，帶來了管理復雜性和協作難題。SmartBear 的 API Hub 提供了一個覆蓋全生命周期的統一平臺，從設計、文檔到測試與協作，幫助企業更高效地管理 API，提升穩定性與安全性，加速數字化轉型。

# 行業資訊 # 2025-09-08 16:02:24.153 17次

3D開發引擎HOOPS如何賦能裝備制造CAD模型可視化？

# 行業資訊 # 2025-09-08 10:57:14.203 18次

國產化Word處理組件Spire.DOC教程：使用 Python 將 Markdown 轉換為 HTML 的詳細教程
本教程將展示如何使用 Python 和 Spire.Doc for Python 高效實現 Markdown 到 HTML 的轉換。內容涵蓋詳細步驟與實用代碼示例，既支持單文件轉換，也可進行批量處理，幫助您快速掌握完整流程，實現高效、可靠的文檔轉換。

# 行業資訊 # 2025-09-08 10:48:42.017 17次

自動化測試平臺 Parasoft C/C++test 如何實現硬件在環測試
在嵌入式安全的關鍵領域，僅依賴宿主機測試存在明顯不足，由于編譯器、處理器架構等因素存在差異，很多潛在風險難以在仿真測試中暴露。作為專業的靜態與單元測試工具，Parasoft C/C++test 通過與主流嵌入式工具鏈的原生深度集成，可直接在實際目標硬件或仿真器上執行測試，確保測試結果真實可靠，完全滿足功能安全標準對測試環境保真度的嚴格要求。

# 行業資訊 # 2025-09-08 10:33:04.623 17次

相關產品
軟件
產品功能：工業數據采集軟件

源碼：開源

產品編號：13444

當前版本：v2.6.1 [銷售以商家最新版為準，如需其他版本，請來電咨詢]

開發商： Apache 正式授權
">Hadoop
Hadoop是一個允許跨集群的分布式處理大型數據集的開源軟件
軟件
產品功能：大數據分析工具

源碼：非開源

產品編號：13733

當前版本： [銷售以商家最新版為準，如需其他版本，請來電咨詢]

開發商： IBM 正式授權
">IBM BigInsights for Apache Hadoop
經濟高效地存儲、管理和分析大數據

最新文章 MORE

1大數據前景觀：Hadoop將被Spark全面替代？

2直擊大數據公開課系列·Hadoop專題第一講

3慧都學院|Hadoop公開課精彩回顧

4零基礎學習大數據，搭建Hadoop處理環境

5【干貨分享】6個Java開發人員最受歡迎的大數據工具，Hadoop竟被稱為“圣經”

金喜正規買球相關的文章 MORE

統一、測試、協作：3方向解析API Hub的高效API管理方案

3D開發引擎HOOPS如何賦能裝備制造CAD模型可視化？

國產化Word處理組件Spire.DOC教程：使用 Python 將 Markdown 轉換為 HTML 的詳細教程

自動化測試平臺 Parasoft C/C++test 如何實現硬件在環測試

Excel處理控件Aspose.Cells教程：使用 Python 將 Pandas DataFrame 轉換為 Excel

欧美日韩亚-欧美日韩亚州在线-欧美日韩亚洲-欧美日韩亚洲第一区-欧美日韩亚洲二区在线-欧美日韩亚洲高清精品

金喜正规买球

在線采購

中文文檔庫

試用/Demo下載

開發社群

分布式計算開源框架Hadoop入門實踐（一）

什么是Hadoop？

為什么要選擇Hadoop？

用科技創就卓越

Create excellence with technology

欧美日韩亚-欧美日韩亚州在线-欧美日韩亚洲-欧美日韩亚洲第一区-欧美日韩亚洲二区在线-欧美日韩亚洲高清精品

金喜正规买球

在線采購

中文文檔庫

試用/Demo下載

開發社群

分布式計算開源框架Hadoop入門實踐（一）

什么是Hadoop？

為什么要選擇Hadoop？

為你推薦

用科技創就卓越

Create excellence with technology

什么是Hadoop？